If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:10:14

Видео транскрипция

В последните две видеа първо открихме общата вариация на тези 9 данни тук и получихме 30, което е общият сбор на квадратите. После се запитахме колко от тази вариация се дължи на вариация, породена ВЪВ всяка от групите, и колко е поради вариация МЕЖДУ самите групи. За вариацията *в* групите (SSW) имаме сбора на квадратите *в* групите. Това е 6. После балансът на това, 30, балансът на тази вариация дойде от вариацията между групите и го пресметнахме (SSB), като получихме 24. В това видео искам да използвам този вид информация – тези статистически оценки, които пресметнахме – за да направим някои дедуктивни статистически оценки, за да достигнем до заключение или да не достигнем до никакъв вид заключение. Искам да вложа малко контекст около тези групи. Досега се занимавахме с тях абстрактно, но можеш да си представиш, че това са резултатите на някакъв вид експеримент. Да кажем, че съм дал 3 различни вида хапчета или 3 различни вида храна на хора, които правят тест. И това са резултатите от теста. Това е храна 1, храна 2, а това тук е храна 3. Искам да открия дали видът храна, който хората ядат, преди да направят теста, има влияние върху резултатите им. Ако погледнеш тези стойности, изглежда хората в група 3 се представят по-добре, отколкото в група 2 или 1. Но напълно случайна ли е тази разлика? Случайна ли е вероятността? Мога ли да бъда достатъчно уверен, че това е поради реалните разлики в средните стойности на генералната съвкупност – на всички хора, които някога ще ядат храна 3, храна 2 или храна 1? Въпросът ми е: "Еднакви ли са средните стойностите и реалните средни стойности на генералната съвкупност?" Това е средна стойност на извадката, базирана на 3 извадки. Но ако знаех реалните средни стойности на генералната съвкупност... Въпросът ми е: "Средната стойност на генералната съвкупност на хората, които ядат храна 1, еднаква ли е със средната стойност за храна 2?" Очевидно никога няма да мога да дам тази храна на всяко човешко същество, което ще живее някога, и да накарам всички тях да направят тест. Но тук има реална средна стойност, просто не е измеряема. Въпросът ми е "това" равно ли е на "това" равно на средната стойност 3 – реалната средна стойност на генералната съвкупност 3. Въпросът ми е: "Равни ли са тези?" Понеже, ако не са равни, това означава, че видът храна, която сме дали, има някакъв вид въздействие върху представянето на хората на теста. Нека направим малък тест на хипотезата. Да кажем, че нулевата ми хипотеза е, че средните стойности са еднакви. "Храната няма значение." Алтернативната ми хипотеза е, че има значение. "Има значение." Начинът да мислим количествено за това е, че ако няма значение, тогава средните стойности на реалните генерални съвкупности на групите ще бъдат еднакви. Реалната средна стойност на генералната съвкупност на групата, която е яла храна 1, ще е същата като на групата, която е яла храна 2, което ще е същото като групата, която е яла храна 3. Ако алтернативната ни хипотеза е вярна, тогава тези средни стойности няма да са еднакви. Как можем да проверим тази хипотеза? Ще започнем с нулевата хипотеза, което е това, което правим винаги, когато проверяваме хипотези – започваме с нулевата хипотеза. После ще открием какви са шансовете да получим определена статистика, която да е толкова крайна? Не съм дефинирал каква ще е тази статистика. Ще започнем с нулевата хипотеза, а после ще намерим статистиката, наречена F статистика. Нашата F статистика, която има F разпределение – и няма да се задълбочаваме в детайлите на F разпределението, но винаги можеш да започнеш да мислиш за него като отношението на две разпределения хи-квадрат, които може да имат или да нямат различни степени на свобода. Нашата F статистика ще е отношението на междугруповата дисперсия – сбора от квадратите между групите, разделен на степените на свобода между групите, и това понякога бива наричано средни квадрати – средна стойност на квадратите между групите (MSB) – и това, разделено на вътрешногруповата дисперсия... Това направих тук – разделих вътрешногруповата вариация, сбора от квадратите *в* групите, SSW, което е в синьо, на степените на свобода между групите и това беше m (n-1). Нека сега помислим какво прави това тук. Ако това число – числителят, е много по-голям от знаменателя, тогава това ни казва, че вариацията в тези данни е предимно поради разликите *между* реалните средни стойности и по-малко поради вариацията на средните в групите. Това е, ако този числител е много по-голям от този знаменател. Това трябва да ни накара да повярваме, че има разлика в реалната средна стойност на генералната съвкупност. Ако това число е много голямо, това трябва да ни каже, че има по-ниска вероятност нулевата ни хипотеза да е вярна. Ако това число е много малко и знаменателят ни е по-голям, това означава, че вариацията ВЪВ всяка извадка е по-голяма част от общата вариация, отколкото вариацията МЕЖДУ извадките. Това означава, че вариацията ни ВЪВ всяка от тези извадки е по-голям процент от общата вариация, спрямо вариацията МЕЖДУ извадките. Това ще ни накара да повярваме, че...всяка разлика, която видим между средните стойности, вероятно е просто случайна. Това ще затрудни отхвърлянето на нулевата хипотеза. Нека да изчислим. В този случай междугруповата вариация (SSB), която изчислихме тук, беше 24 и имахме 2 степени на свобода. Вътрешногруповата ни вариация (SSW) беше 6 и колко степени на свобода имахме? Също 6. 6 степени на свобода. Това ще е 24/2, което е 12, делено на 1. F статистиката, която пресметнахме, ще е 12. F идва от "Fischer" (Фишър) – биолог и статистик, който е измислил това. Нашата F статистика ще е 12. Ще видим, че това е доста високо число. Едно от нещата, които забравих да спомена, е, че при всяка проверка на хипотеза ще ни трябва някакво ниво на значимост. Нека кажем, че нивото на значимост, което ни интересува за проверката на хипотезите, е 10%. 0,10 – което означава, че ако приемем нулевата хипотеза, има по-малко от 10% шанс да получим резултата, който получихме – да получим тази F статистика. Тогава ще отхвърлим нулевата хипотеза. Искаме да намерим критичната стойност на F статистиката, при която получаването на тази екстремна стойност или по-висока от нея, е 10%. И ако е по-голяма от критичната стойност на F статистиката, тогава ще отхвърлим нулевата хипотеза, а ако е по-малка, не можем да отхвърлим нулевата хипотеза. Няма да навлизам в много детайли за F статистиката, но вече можем да видим, че всеки от тези сборове на квадратите има разпределение хи-квадрат "Това" има разпределение хи-квадрат, а "това" има различно разпределение хи-квадрат. Това има разпределение хи-квадрат с 2 степени на свобода, а това е разпределение хи-квадрат с – и не сме го нормализирали – но приблизително разпределение хи-квадрат с 6 степени на свобода. F разпределението е отношението на две Хи-квадратни разпределения и получих това – това е скрийншот от курса на един професор в UCLA, надявам се, че нямат нищо против, трябваше да намеря F таблица, която да погледнем. Така изглежда едно F разпределение. Очевидно ще изглежда различно, в зависимост от степените на свобода на числителя и знаменателя. Има две степени на свобода, за които да помислим – степените на свобода на числителя и степените на свобода на знаменателя. Като уточнихме това, нека пресметнем критичната F стойност за алфа равно на 0,10 и ще видиш различни F таблици за всяка различна алфа, при което степените на свобода за числителя са 2, а степените на свобода за знаменателя са 6. Тази цялата таблица е за алфа от 10% или 0,10 и степените на свобода за числителя ни бяха 2, а степените на свобода за знаменателя ни са 6. Така че критичната ни F стойност е 3,46. Критичната F стойност е 3,46 – тази стойност ето тук е 3,46. Стойността, която получихме от тези данни, е много по-голяма от това. Това ще има много, много малка "р" стойност. Вероятността случайно да получим нещо толкова екстремно, като приемаме нулевата хипотеза, е много ниска. Това е много по-голямо от критичната ни F статистика с ниво на значимост от 10%. Поради това можем да отхвърлим нулевата хипотеза. Което ни кара да повярваме, че вероятно има разлика в средните стойности на генералната съвкупност. Което ни казва, че има вероятност да има разлики в представянето на един изпит, ако им дадем различни храни.