If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

ANOVA 3: Тестване на хипотеза с F-статистика

Анализ на дисперсия 3 - тест на хипотеза с F-статистика. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В последните две видеа първо пресметнахме общата вариация на тези 9 данни тук и получихме 30, което е общият сбор на квадратите. После се запитахме колко от тази вариация се дължи на вариация, породена ВЪВ всяка от групите, и колко е поради вариация МЕЖДУ самите групи. За вътрешногруповата вариацията изчислихме сбора на квадратите в групите (SSW) . Това е 6. После равенството с това 30, равенството с тази вариация дойде от междугруповата вариацията, която пресметнахме (SSB), като получихме 24. В това видео искам да използвам този вид информация – тези статистически оценки, които пресметнахме – за да направим някои дедуктивни статистически оценки, за да достигнем до определен извод или да не достигнем до никакви изводи. Искам да дам малко пояснения около тези групи. Досега се занимавахме с тях абстрактно, но можеш да си представиш, че това са резултатите на някакъв вид експеримент. Да кажем, че съм дал 3 различни вида хапчета или 3 различни вида храна на хора, които правят тест. И това са резултатите от теста. Това е храна 1, храна 2, а това тук е храна 3. Искам да открия дали видът храна, който хората ядат, преди да направят теста, има влияние върху резултатите им. Ако погледнеш тези стойности, изглежда хората в група 3 се представят по-добре, отколкото в група 2 или 1. Но дали тази разлика е напълно случайна? Случайна ли е вероятността? Мога ли да бъда достатъчно уверен, че това е поради реалните разлики в средните стойности на генералната съвкупност – на всички хора, които някога ще ядат храна 3, храна 2 или храна 1? Въпросът ми е: "Еднакви ли са средните стойностите и реалните средни стойности на генералната съвкупност?" Това е средна стойност на извадката, базирана на 3 извадки. Но ако знаех реалните средни стойности на генералната съвкупност... Въпросът ми е: "Средната стойност на генералната съвкупност на хората, които ядат храна 1, еднаква ли е със средната стойност за храна 2?" Очевидно никога няма да мога да дам тази храна на всяко човешко същество, което ще живее някога, и да накарам всички тях да направят тест. Но тук има реална средна стойност, просто тя не може да бъде измерена. Въпросът ми е "това" (мю1) равно ли е на "това" (мю2) равно ли е на средната стойност на 3 (мю3) – реалната средна стойност на генералната съвкупност 3. Въпросът ми е: "Равни ли са тези?" Понеже, ако не са равни, това означава, че видът храна, която сме дали, има някакъв вид въздействие върху представянето на хората на теста. Нека направим малка проверка на хипотеза. Да кажем, че нулевата ми хипотеза е, че средните стойности са еднакви. "Храната няма значение." Алтернативната ми хипотеза е, че храната има значение. "Има значение." Начинът да мислим количествено за това е, че ако няма значение, тогава средните стойности на реалните генерални съвкупности на групите ще бъдат еднакви. Реалната средна стойност на генералната съвкупност на групата, която е яла храна 1, ще е същата като на групата, която е яла храна 2, което ще е същото като групата, която е яла храна 3. Ако алтернативната ни хипотеза е вярна, тогава тези средни стойности няма да са еднакви. Как можем да проверим тази хипотеза? Ще започнем с нулевата хипотеза, което е това, което правим винаги, когато проверяваме хипотези – започваме с нулевата хипотеза. После ще открием каква е вероятността да получим определена статистика, чиято стойност да е критична. Не съм дефинирал каква ще е тази статистика. Ще започнем с нулевата хипотеза, а после ще намерим статистиката, наречена F статистика. Нашата F статистика, която има F разпределение – и няма да се задълбочаваме в детайлите на F разпределението, но винаги можеш да започнеш да мислиш за него като отношението на две разпределения хи-квадрат, които може да имат или да нямат различни степени на свобода. Нашата F статистика ще е отношението на междугруповата дисперсия – сбора от квадратите между групите, разделен на степените на свобода между групите, и това понякога бива наричано средни квадрати – средна стойност на квадратите между групите (MSB) – и това, разделено на вътрешногруповата дсперсия... Това направих тук – разделих вътрешногруповата вариация, сбора от квадратите в групите, SSW, което е в синьо, на степените на свобода между групите и това беше m (n-1). Нека сега помислим колко прави това тук. Ако това число – числителят, е много по-голям от знаменателя, тогава това ни казва, че вариацията в тези данни е предимно поради разликите между реалните средни стойности и по-малко поради вариацията на средните в групите. Това е, ако този числител е много по-голям от този знаменател. Това трябва да ни накара да повярваме, че има разлика в реалната средна стойност на генералната съвкупност. Ако това число е много голямо, това трябва да ни каже, че има по-малка вероятност нулевата ни хипотеза да е вярна. Ако това число е много малко и знаменателят ни е по-голям, това означава, че вариацията ВЪВ всяка извадка е по-голяма част от общата вариация, отколкото вариацията МЕЖДУ извадките. Това означава, че вариацията ни ВЪВ всяка от тези извадки е по-голям процент от общата вариация, спрямо вариацията МЕЖДУ извадките. Това ще ни накара да повярваме, че...всяка разлика, която видим между средните стойности, вероятно е просто случайна. Това ще затрудни отхвърлянето на нулевата хипотеза. Нека да изчислим. В този случай междугруповата вариация (SSB), която изчислихме тук, беше 24 и имахме 2 степени на свобода. Вътрешногруповата ни вариация (SSW) беше 6 и колко степени на свобода имахме? Също 6. 6 степени на свобода. Това ще е 24/2, което е 12, делено на 1. F статистиката, която пресметнахме, е равна на 12. F идва от "Fischer" (Фишер) – биолог и статистик, който е измислил това. Нашата F статистика е 12. Ще видим, че това е доста високо число. Едно от нещата, които забравих да спомена, е, че при всяка проверка на хипотези ще ни трябва някакво ниво на значимост. Нека кажем, че нивото на значимост, което ни интересува за проверката на хипотезите, е 10%. 0,10 – което означава, че ако приемем нулевата хипотеза, ще има по-малко от 10% вероятност да получим резултата, който получихме – да получим тази F статистика и тогава ще трябва да отхвърлим нулевата хипотеза. Искаме да намерим критичната стойност на F статистиката, при която получаването на такава стойност или по-висока от нея, е 10%. И ако получената F статистика е по-голяма от критичната стойност тогава ще отхвърлим нулевата хипотеза, а ако е по-малка, не можем да отхвърлим нулевата хипотеза. Няма да навлизам в много детайли за F статистиката, но вече можем да видим, че всеки от тези сборове на квадратите има разпределение хи-квадрат "Това" има едно разпределение хи-квадрат, а "това" има друго разпределение хи-квадрат. Това има разпределение хи-квадрат с 2 степени на свобода, а това е разпределение хи-квадрат с – и не сме го нормализирали – но приблизително разпределение хи-квадрат с 6 степени на свобода. F разпределението е отношението на две разпределения Хи-квадрат и получих това – това е скрийншот от курса на един професор в UCLA, надявам се, че нямат нищо против, трябваше да намеря F таблица, която да погледнем. Така изглежда едно F разпределение. Очевидно ще изглежда различно, в зависимост от степените на свобода на числителя и знаменателя. Има две степени на свобода, за които да помислим – степените на свобода на числителя и степените на свобода на знаменателя. Като уточнихме това, нека пресметнем критичната F стойност за алфа равно на 0,10 и ще видиш различни F таблици за всяка различна алфа, при което степените на свобода за числителя са 2, а степените на свобода за знаменателя са 6. Тази цялата таблица е за алфа от 10% или 0,10 и степените на свобода за числителя ни бяха 2, а степените на свобода за знаменателя ни са 6. Така че критичната ни F стойност е 3,46. Критичната F стойност е 3,46 – тази стойност ето тук е 3,46. Стойността, която получихме от тези данни, е много по-голяма от това. Това ще има много, много малка "р" стойност. Вероятността случайно да получим нещо толкова екстремно, като приемаме нулевата хипотеза, е много ниска. Това е много по-голямо от критичната ни F статистика с ниво на значимост от 10%. Поради това можем да отхвърлим нулевата хипотеза. Което ни кара да повярваме, че вероятно има разлика в средните стойности на генералната съвкупност. Което ни казва, че има вероятност да има разлики в представянето на един изпит, ако им дадем различни храни.