Основно съдържание
Статистика и вероятности
Курс: Статистика и вероятности > Раздел 16
Урок 1: Анализ на дисперсията (ANOVA)ANOVA 2: Изчисляване на общата сума от квадрати вътре в групата и между групите
Дисперсионен анализ 2 - изчисляване на вътрешногруповата (SSW) и междугруповата (SSB) дисперсия. Създадено от Сал Кан.
Искаш ли да се присъединиш към разговора?
Все още няма публикации.
Видео транскрипция
В последното видео успяхме да изчислим вариацията или общия сбор на квадратите за тези девет точки информация ето тук. Тези девет точки информация са групирани в три различни групи или ако искаме да говорим по общо, в m различни групи. В това видео искам да открия доколко от тази обща вариация се дължи на вариацията ВЪВ всяка група и доколко се дължи на вариацията МЕЖДУ групите. Първо, нека намерим вариацията в групата. Нека наречем това "междугрупова вариация" (сбор от квадратите в групата). Нека изчислим сбора от квадратите в групата. Ще направя това в жълто. Всъщност вече използвах жълто, така че нека го направя в синьо. Сборът на квадратите в групата (SSW). SSW Нека поясня. SS e за сбор от квадрати (sum of squares), а W е за "вътре в групата". Искаме да видим колко от вариацията е поради това колко отдалечена е всяка от тези точки информация от централната тенденция, от съответната средна стойност. Това ще е равно на – нека започнем с тези тук. Вместо да взимаме разстоянието между всяка точка информация и средната стойност на средните стойности, ще намерим разстоянието между всяка точка информация и средната стойност на съответната група, понеже искаме да получим общ сбор от квадратите на разликите между всяка точка информация и съответната й средна стойност. Нека направим това. Това е 3 минус – средната стойност тук е 2 – на квадрат, плюс (2 минус 2) на квадрат, плюс (1 минус 2) на квадрат. Ще направя това за всички групи, но за всяка група разстоянието между всяка точка информация и съответната ѝ средна стойност. Тоест, плюс (5 минус 4) на квадрат, плюс (4 минус 4) на квадрат – извинявай, следващата точка беше 3 – плюс (3 минус 4) на квадрат, плюс (4 минус 4) на квадрат. И накрая имаме третата група. Но намираме всичко това от сбора на квадратите от всяка точка до централната ѝ тенденция в групата, но ще съберем всичко това После ще намерим третата група. Имаме 5 минус – средната стойност е 6 – (5 минус 6) на квадрат, плюс (6 минус 6) на квадрат, плюс (7 минус 6) на квадрат. На колко ще е равно това? Това ще е равно на – това тук ще е 1 плюс 0, плюс 1. Това ще е равно на 2, плюс... Това ще е равно на 1 плюс 1, плюс 0 – отново 2, плюс... това ще е равно на 1 плюс 0, плюс 1. 7 минус 6 е 1, на квадрат е 1. Тоест, плюс... Това тук е 2. Това ще е равно на сбора от квадратите в групите, което е 6. Един начин да си го представим – общата вариация беше 30. Въз основа на това изчисление, 6 от тези 30 идват от вариацията вътре в тези групи. Следващото нещо, за което искам да помислим, е колко степени на свобода имаме в това изчисление? Колко независими точки информация имаме? За всичко това... имаме първо n точки информация. В частност, n тук е 3. Но, ако знаеш n минус 1 от тях, винаги можеш да намериш n-тата точка, ако знаеш реалната средна стойност на извадката. В този случай за всяка от тези групи, ако знаеш две от тези точки информация, винаги можеш да намериш третата. Ако знаеш тези двете, винаги можеш да намериш третата, ако знаеш средната стойност на извадката. Затова нека намерим степените на свобода тук. За всяка група, когато направиш това, имаш n минус 1 степени на свобода. Помни, n е броят точки информация, които имаш във всяка група. Имаш n минус 1 степени на свобода за всяка от тези групи. Това е n минус 1, n минус 1, n минус 1. Нека го поставя по този начин – имаш n минус 1 за всяка от тези групи и имаме m групи. Има m по n минус 1 степени на свобода. В този случай конкретно всяка група – n минус 1 е 2. Или във всеки случай имаш 2 степени на свобода и има три групи. Тоест имаме 6 степени на свобода. В бъдеще можем да направим по-детайлна дискусия за това какво означават степени на свобода и как математически да мислим за това. Но най-лесният начин да мислиш за това е като наистина независими точки информация, като приемем, че знаеш, в този случай, централната стойност, която използвахме, за да изчислим разстоянието на квадрат във всяка от тях. Ако вече ги знаеш, третата точка информация може да бъде изчислена от другите две. Тук имаме 6 степени на свобода. Това беше колко от общата вариация се дължи на вариацията ВЪВ всяка група. Нека помислим колко от вариацията се дължи на вариацията МЕЖДУ извадките. За да направим това, ще направим изчисление. Нека избера хубав цвят. Мисля, че ми свършиха цветовете. Ще наричаме това сбор от квадратите МЕЖДУ групите –SSB. B-то е за "между" (between). Друг начин да си го представим – колко от тази обща вариация се дължи на вариацията МЕЖДУ средните стойности, между централната тенденция – това ще изчислим сега – и колко е поради вариацията от всяка точка информация до съответната ѝ средна стойност? Нека намерим колко от нея е поради вариацията между тези средни, ето тук. За всяка от тези точки информация... Всъщност нека помислим просто за тази първа група. За тази първа група колко от вариация за всички тези точки се дължи на вариацията между тази средна стойност и средната стойност на средните стойности? За това първото тук – ще запиша това изрично – ще изчисляваме вариацията от средната стойност на съответната извадка. Това ще е 2 минус средната стойност на средните стойности на квадрат. После, за това, ще е същото нещо – средната стойност на извадката – 2, минус средната стойност на средните стойности на квадрат. Плюс – същото и за това – 2 минус средната стойност на средните стойности на квадрат. Или друг начин да си го представим – това е равно на – ще го запиша тук – това е равно на 3 по 2 минус 4 на квадрат, което е същото като 3... Това е равно на 3 по 4. 3 по 4 е равно на 12. После можем да направим това за всяка от тези групи. Всъщност искам да намеря общия сбор. Нека запиша всичко това. Мисля, че ще е по-лесно да го направим, понеже искам да намеря, общо за всички тези групи, сбора от квадратите поради разликите между извадките. Това е от първата извадка. После, от втората извадка имаш това тук. Извинявай! Не искаме да го изчисляваме. За тази точка информация, количеството вариация поради разликата между средните стойности ще е (4 минус 4) на квадрат. Същото нещо и за това тук. Това ще е (4 минус 4) на квадрат. Ние не взимаме това предвид. Взимаме предвид само средната стойност. После, накрая, плюс (4 минус 4) на квадрат. Взимаме това минус това на квадрат за всяка от тези точки информация. И накрая ще направим това с последната група. За последната група средната стойност на извадката е 6. Това ще е (6 минус 4) на квадрат, плюс (6 минус 4) на квадрат, плюс (6 минус 4) на квадрат. Нека помислим колко степени свобода имахме в това изчисление тук. Колко степени на свобода? Предполагам, че най-лесният начин да мислим за това е колко точки информация имаме, като приемем, че знаем средната стойност на средните стойности? Ако знаем средната стойност на средните стойности, колко от това тук е нова информация? Ако знаеш средната стойност на средните стойности и знаеш две от тези средни стойности на извадките, винаги можеш да намериш третата. Ако знаеш тази и тази, можеш да намериш тази. Ако знаеш тази и тази, можеш да намериш тази. Това е, понеже това е средната стойност на тези средни стойности тук. Като цяло, ако имаш m групи или ако имаш m средни стойности, има m минус 1 степени на свобода. Нека запиша това. Тук имаме m минус 1 степени на свобода. В този случай m е 3. Затова можем да кажем, че тук имаме две степени на свобода за тази извадка. Нека изчислим сбора от квадратите между групите. Колко ще е това? Ще превъртя надолу. Свършва ми мястото. Това ще е равно на – това тук е 2 минус 4, което е -2, на квадрат, е 4. После имаме три четворки тук. Тоест това е 3 по 4, плюс 3 по – колко е това? 3 по 0, плюс... Колко е това? Разликата между всяко от тези – 6 минус 4 – е 2, на квадрат, е 4, така че ще имаме 3 по 4 – плюс 3 по 4. Получаваме: 3 по 4 е 12, плюс 0, плюс 12, е равно на 24. Сборът на квадратите или можем да кажем – вариацията поради разликата между групите – между средните стойности, е 24. Нека съберем всичко заедно. Казахме, че общата вариация, която се получава, ако погледнеш всички 9 точки информация, е 30. Нека запиша това тук. Общият сбор от квадратите е равен на 30. Намерихме сбора на квадратите между всяка точка информация и съответната ѝ централна тенденция –средната ѝ стойност – пресметнахме това и после събрахме всичко заедно, и получихме 6. Сборът от квадратите в групите беше равен на 6. В този случай, това имаше 6 степени на свобода. Или ако искаме да го запишем по-общо, имаше m по (n минус 1) степени на свобода. За общия сбор открихме, че имаме (m по n) минус 1 степени на свобода. Нека запиша степени на свобода (degrees of freedom) в тази колона тук. В този случай числото се оказа 8. Сега изчислихме и сбора на квадратите между извадките. Сборът от квадратите между извадките е равен на 24. Открихме, че имахме m минус 1 степени на свобода, което се оказа, че е 2. Интересното нещо тук – и това е защо този анализ на дисперсията върши много добра работа и в бъдещи видеа ще помислим как можем да тестваме хипотези, използвайки някои от инструментите, за които мислим сега. Интересното тук е този сбор на квадратите в групите, плюс сбора от квадратите между групите, е равен на общия брой на квадратите. Един начин да мислим за това е, че общата вариация на тези данни, ето тук, може да бъде описана като сбора от вътрешногруповата вариация на всяка от тези групи, когато вземеш този общ резултат, плюс сбора от междугруповата вариация. Дори степените на свобода излизат. Сборът от междугруповите вариации имаше 2 степени на свобода. Сборът от вътрешногруповите вариации имаше 6 степени на свобода. 2 плюс 6 е 8. Това е общият брой степени на свобода, които имахме за всички данни общо. Това се получава, дори ако разгледаме това обобщено. Междугруповата вариация (SSB) имаше m минус 1 степени на свобода. Вътрешногруповата вариация (SSW) имаше m по (n минус 1) степени на свобода. Това е равно на m минус 1, плюс mn минус m. Тези се изключват взаимно. Това е равно на mn минус 1 степени на свобода, което е точно общият брой степени на свобода, който имахме за общата вариация. Целият смисъл на изчисленията, които направихме в последното видео и в това видео, е да преценим, че тази обща вариация тук, която първоначално изчислихме, може да бъде разглеждана като сбора на тези две "съставни" вариации – колко вариация има във всяка от извадките плюс колко вариация има между средните стойности на извадките. Надявам се, че това не е твърде объркващо.