If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Хи-квадрат статистика за проверка на хипотези

Хи-квадрат статистика за проверка на хипотези (хи-квадрат тест за съвместимост).

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Да кажем, че има някакъв вид стандартизиран изпит, където всеки въпрос има четири отговора, отговор А, отговор В, отговор С и отговор D. И създателите на теста ни уверяват, че в продължение на много години има равна вероятност правилният отговор за всеки въпрос да е А, В, С или D. Тоест това е 25% шанс отговорът да е който и да е от тях. Сега нека кажем, че имаш предчувствие, че вероятността е изкривена към една или друга буква. Как можеш да провериш това? Можеш да започнеш с нулева и алтернативна хипотеза и после да направиш проверка на хипотеза. За кажем, че нулевата ни хипотеза е равно разпределение на правилните отговори. Друг начин да помислим за това е, че А ще е верен в 25% от случаите, В ще е верен в 25% от случаите, С ще е верен в 25% от случаите и D ще е верен в 25% от случаите. Каква ще е алтернативната ни хипотеза? Алтернативната хипотеза е, че разпределението няма да е равно. Как ще проверим това? Виждали сме подобна ситуация преди. Имаш генерална съвкупност от всички неща и можеш да вземеш извадка. Да кажем, че вземем извадка от 100 неща. Тоест n = 100. И нека запишем данните, които получаваме, когато разгледаме тази извадка. Това е верният отговор. А това ще е прогнозираният брой, който ще очакваш. А това е реалният брой. И ако още не виждаш логиката, след малко ще я видиш. Има четири различни отговора – А, В, С и D – и извадка от 100. Помни, при всяка проверка на хипотеза започваме, като приемаме, че нулевата хипотеза е вярна. Тоест че очакваният брой правилни отговора А ще е 25% от това 100. Ще очакваш 25 пъти правилен отговор А, 25 пъти правилен отговор В, 25 пъти правилен отговор С и 25 пъти правилен отговор D. Но да кажем, че реалните резултати, когато разгледаме тези 100 неща, ни дават, че А е правилен отговор 20 пъти, В е правилен отговор 20 пъти, С е правилен отговор 25 пъти, а D е правилен отговор 35 пъти. Ако погледнеш това, може би има по-висока честота на D, но може би ще кажеш, че това е просто извадка. Може би случайността е причината да получиш повече D. Има някаква вероятност да получим този резултат, дори ако приемем, че нулевата хипотеза е вярна. И това е целта на тези проверки на хипотеза – да кажем каква е вероятността да получим поне толкова екстремен резултат. И ако тази вероятност е под някакъв праг, тогава отхвърляме нулевата хипотеза и приемаме алтернативната. И сме виждали тези граници преди. Виждали сме тези нива на значимост. Да кажем, че поставим ниво на значимост от 5%, 0,05. Тоест ако вероятността да получим този резултат или нещо още по-различно от това, което очакваме, е по-ниска от нивото на значимост, тогава ще отхвърлим нулевата хипотеза. Но това води до един много интересен въпрос. Как да изчислим вероятността да получим поне толкова или по-екстремен резултат? Как измерваме това? И тук ще въведем нова статистическа характеристика и твърде вероятно и нова гръцка буква, това е главната гръцка буква хи, която може да ти изглежда като x. Но е малко по-извита и изглежда повече ето така. Все едно изкривяваш тази част от х. Но това е хи, а не х. И статистическата характеристика се нарича хи-квадрат и тя е начин да вземем разликата между реалната и приблизителната стойност и да я превърнем в число. И хи-квадратните разпределения са добре проучени. Можем да използваме това, за да открием каква е вероятността да получим поне толкова или по-екстремен резултат. И ако това е по-ниско от нивото ни на значимост, отхвърляме нулевата хипотеза и това предполага алтернативната. Но как изчисляваме стойността на хи-квадрат? По доста логичен начин. За всяка от тези категории – в този случай, за всеки от тези отговори – търсим разликата между реалната и очакваната стойност. За отговор А ще кажем, че е 20 (реалната) минус прогнозираната стойност. И после ще повдигнем това на квадрат. И после ще разделим на очакваната стойност. И после ще направим това за отговор В. И ще кажем, че реалната е 20, очакваната е 25, тоест 20 - 25, на квадрат, върху прогнозираната стойност, върху 25. Правим това и за отговор С. 25 – 25, знаем колко ще се окаже това, на квадрат, върху прогнозираната стойност, върху 25. И после, накрая, за отговор D, което ще ни даде 35 – 25, на квадрат, всичко това върху 25. И, да видим, ако изчислим това, то ще е (–5)^2, така че това ще е 25. Това ще е 25. Това ще е 0. 35 – 25 е 10, на квадрат, това е 100. Така че това е 1, плюс 1, плюс 0, плюс 4. В този пример стойността на хи-квадрат се получи доста добре – няма винаги да е така – и е 6. Какво правим с това? Сега вече можем да разгледаме едно разпределение на ХИ-квадрат за подходящите степени на свобода – ще говорим за това след малко – и да кажем каква е вероятността да получим стойност на хи-квадрат, която е 6 или по-голяма. За да разберем как изглежда едно разпределение на ХИ-квадрат... това са множество разпределения на ХИ-квадрат за различни стойности степени на свобода. И за да изчислиш степените на свобода, гледаш броя категории. В този случай имаме четири категории и изваждаш едно. Това е логично, понеже ако знаеше колко А, В и С има, ако знаеше частите, дори предположените части, винаги можеш да изчислиш четвъртата. Затова степените на свобода са 4 – 1. В този случай степените на свобода ще са равни на 3. Понякога ще видиш това описано като k, така че k = 3. Това е малкото светлосиньо... гледаме това разпределение на ХИ-квадрат, където степените на свобода са 3. И искаме да намерим вероятността да получим стойност на хи-квадрат, която е 6 или по-голяма. Ще гледаме тази област ето тук. И можеш да намериш това, като използваш калкулатор, или, ако решаваш някакъв тест, например изпит по статистика за напреднали, можеш да използваш таблиците, които ти дават. Една такава таблица би била доста полезна. Помни, имаме си работа със ситуацията, в която имаме три степени на свобода. Имахме четири категории, 4 – 1 е 3. И получихме стойност на ХИ-квадрат. Стойността на хи-квадрат беше 6. Това тук ни казва, че вероятността да получим стойност на хи-квадрат от 6,25 или по-голяма е 10%. Ако се върнем обратно към тази графика, току-що научихме, че тази вероятност от 6,25 нагоре, когато имаме три степени на свобода – това ето тук е 10%. Това е 10%. Тогава вероятността да получим стойност на хи-квадрат, по-голяма от или равна на 6 ще е по-голяма от 10%. И можем да гледаме на това като на р-стойност. За нашата вероятност, като приемем, че нулевата хипотеза е по-голяма от 10%, това определено ще е по-голямо от нивото ни на значимост. Поради това не можем да я отхвърлим. И това е пример за как, въпреки че в извадката ти случайно имаше повече отговори D, вероятността да получиш поне толкова екстремен резултат, колкото видя, ще е малко над 10%.