If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Таблица на честотното разпределение хи-квадрат тест

Сал използва кростаблица с резултатите от хи-тест, за да види дали няколко различни билки предпазват хората от разболяване. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Има някои билки, за които хората вярват, че предпазват от грип. За да проверим, изчакваме сезона на грипа и произволно поставяме хора в три различни групи. Така по време на сезона на грипа, едната група се лекува с билка едно, втората група приема билка две, а третата група взема просто плацебо. Ако не знаеш какво значи плацебо, това е нещо, което пациентът или участникът вярва, че съдържа истинската лечебна съставка, а всъщност то я няма. Може да е бонбон, който да прилича на хапче. Причината за извършването на тази измама е, че съществува нещо, наречено плацебо ефект, при който хората оздравяват, просто защото им се казва, че им се дава нещо, от което ще оздравеят. Така че това тук може да е просто едно бонбонче. То съдържа много малко захар, така че да не може наистина да повлияе на изгледите да се заразят с грип. Тук имаме една таблица, , тя се нарича кростаблица, Кростаблица. Тя съдържа за всяка група броя на заболелите и броя на незаболелите. От тук можем да изчислим и общия брой. В група 1 имаме общо 120 човека, в група две имаме общо 30 плюс 110, общо 140 човека. В плацебо-групата, това е групата, която получава хапчето със захар, има общо 120 човека. Можем да изчислим общия брой хора, които са заболели. Това са 20 плюс 30, това е 50, плюс 30 става 80. Това е колоната "общо". Общият брой хора, които не са заболели, ето тук са 100 и 110, това е 210, плюс 90 стават 300. Общият брой хора са 380 – тази колона и този ред трябва да дадат общо 380. Като сметнахме тези, сега да помислим как можем да използваме тази информация в кростаблицата и това, което знаем за разпределението хи-квадрат, така че да направим някакви изводи. Първо да определим нулевата хипотеза. Нулевата хипотеза е, че билките нямат ефект. Да приемем нулевата хипотеза, че билките нямат ефект. Алтернативната хипотеза е, че билките имат ефект. Обърни внимание, че не ме интересува, дали ефектът е положителен. Просто казвам, че имат ефект. Те дори може да увеличават вероятността за заразяване с грип. Но ние не проверяваме дали те имат положително влияние. Просто казваме, че има разлика, когато се използват билки. И както при всички проверки на хипотези, нека да приемем, че нулевата хипотеза е вярна, И при това условие – че нулевата хипотеза е вярна, да решим нашата задача, да определим дали вероятността да получим данни като тези или още по-отдалечени, е наистина ниска. Ако тази вероятност е много ниска, тогава ще отхвърлим нулевата хипотеза. В този тест, като във всяка друга проверка на хипотеза, трябва да определим ниво на значимост. Да кажем, че нивото на значимост, което ни интересува, е 10% или 0,10. За да направим това, трябва да изчислим статистиката хи-квадрат за тази кростаблица. Ще направим нещо много подобно на това, което правим при наличие на ограничения. Ще определим, при условие, че е вярна нулевата хипотеза, очакваните резултати за всяка от тези клетки. Можеш да разглеждаш всяка стойност от тези като клетка, както ако го правим в excel, всяка клетка в таблица в excel, Ще определим какви биха били очакваните стойности, ако е вярна нулевата хипотеза, намираме квадрата на разстоянието от очакваната стойност и нормализираме спрямо очакваната стойност, събираме всички тези разлики, и ако квадратите на разликите са наистина големи, вероятността да получим това е наистина малка и вероятно можем да отхвърлим нулевата хипотеза. Така че хайде да намерим очакваната стойност. Допускаме, че билките нямат ефект. Ако билките нямат ефект, тогава е ясно, че цялата тази генерална съвкупност не е предпазена и билките са безполезни, така че можем да използваме тази извадка от генералната съвкупност, не би трябвало да използвам термина генерална съвкупност... използваме тази извадка тук, за да определим очакваният брой хора, които ще се разболеят или няма да се разболеят – тук имаме 80 от 380, които не са заболели. Трябва да внимавам, казах генерална съвкупност, но ние не сме изследвали голям брой хора, които приемат билката. Така че това е извадка. Не искам да те заблуждавам, използвам термина "генерална съвкупност" повече в разговорен стил, отколкото в статистически. Както и да е, в нашата извадка ние използваме всички данни, защото допускаме, че няма разлика, затова можем да използваме всички данни, за да намерим очакваната честота на заболелите и на незаболелите, като 80 от 380 не са заболели, което е 21%. 21% от всички не са заболели, Тогава получаваме 79%, като извадим 100 минус 21. Можем да разделим 300 на 380 и трябва да получим пак 79%. Очакваме 21% от общия брой въз основа на общата извадка ето тук, това е най-добрата оценка, 21% да се разболеят и 79% да не се разболеят. Да разгледаме сега всяка от групите. Ако приемем, че 21% от тези 120 човека трябва да заболеят, каква ще бъде очакваната стойност тук? Умножаваме 21% по 120 човека и получаваме 25,3 заболели. Ще го закръгля, тук ще запиша очакваната стойност. Ще използвам жълто за очакваната стойност. Очакваната стойност, ако приемем, че 21% от групата ще заболеят, тогава ще очакваме 25,3 човека да се разболеят в група 1, групата с билка 1, а останалите няма да са разболеят. Можем да извадим или пък да умножим 79% по 120, и двата начина стават. Аз ще извадя 25,3 от 120 и получавам 94,7. Значи очакваме 94,7 човека да не се разболеят. Това е очакваната стойност, 94,7 човека не се разболяват. Ще направя това за всички групи. За група 2 можем да очакваме 21% заболели. 21% от всички 140 човека в групата прави 29,4 човека; останалите 140 – 29,4 не трябва да се разболеят; така получаваме това тук: 29,4 ще се разболеят, ако билките нямат ефект, а тук 110,6 човека няма да се разболеят. Това е много близко и ако само гледаме резултатите, изглежда, че билките нямат голямо значение за всички групи като цяло. Сега да видим какво става в плацебо групата. Имаме 30, извинявам се... Очакваме 21 % да се разболеят. 21% от 120 човека. Това прави 25,2 заболели ето тук. Ако закръгля... казвам 25,2, всъщност това ще е същото число. Аз казвам 21%, но всъщност то е 21 цяло и нещо, но размерът на групата е същият, можем да очакваме същата част да се разболеят, това са 25,3 човека, просто искам да е последователно. Получих 25,2, защото пренебрегнах няколко от последните цифри ето тук, но понеже ги имам, ще ги използвам и ето тук също. В тази група можем да очакваме 94,7 да се разболеят. Ако вярваме на тези данни, изглежда, че билка 2 всъщност в някаква степен е даже по-зле... О, не, не, не е по-зле, защото очакваме по-малък брой, а тук се разболяват много хора... а това тук е плацебо, но както и да е. Няма да правим изводи, като просто гледаме числата. Сега да намерим нашата хи-квадрат статистика. За да намерим нашата хи-квадрат статистика... Ще го напиша ето така за забавление. Или може би това е главно Х, защото наистина, това случайно разпределение е приблизително хи-квадрат разпределение, затова ще го напиша така. Ще обсъдим степените на свобода след малко, Всъщност ще напиша къдрави чертички. Някои хора пишат хи вместо гръцката буква χ. Значи нашата статистика хи-квадрат ето тук, просто ще намерим квадрата на разстоянието между наблюдаваната и очакваната стойност, делено на очакваната стойност, което ще бъде (20 – 25,3)^2 върху 25,3 плюс (30 – 29,4)^2 върху 29,4 плюс (30 – 25,3)^2 върху 25,3. Сега ще сметна тези ето тук, но просто ще продължа това... ще пренебрегна това H1 ето тук... плюс (100 – 94,7)^2 върху 94,7 плюс (110 – 110,6)^2 върху 110,6 и накрая плюс (90 – 94,7)^2 върху 94,7. Ще извадя калкулатора, за да сметна това. Получаваме (20 – 25,3)^2/25,3 плюс (30 – 29,4 )^2/29,4 + плюс (30 – 25,3)^2/25,3 ...половината сметнахме... плюс (100 – 94,7)^2/94,7 плюс (110 – 110,6)^2/110,6 почти на финала сме, ако не сме направили грешки... плюс (90 – 94,7)^2/94,7 и получаваме 2,529, ще го закръгля на 2,53. . Получаваме, че хи-квадрат статистиката, когато приемаме, че е вярна нулевата хипотеза, хи-квадрат статистиката е 2,53. Сега трябва да определим степените на свобода, които имаме, когато изчисляваме тази хи-квадрат статистика. Ще ти дам едно изпитано правило за подобни кростаблици. В бъдеще ще го разгледаме по-подробно степените на свобода. Правилото за кростаблиците е, че степените на свобода... имаш броя на редовете и броя на колоните. Имаме 2 реда и 3 колони, но не броим редовете и колоните със сборове, така че имаме 3 колони ето тук, и степените на свобода... това е разпространеното правило: степените на свобода за една кростаблица са равни на броя на редовете минус едно, по броя на колоните минус едно. В нашия случай имаме 2 реда и 3 колони, това прави (2 – 1) по (3 – 1). Получаваме 2 степени на свобода. Причината това да е логично, е... в бъдеще ще се занимаем много по-подробно с това... ако приемем, че знаем сумата, ако знаем цялата тази информация ето тук, ако знаем цялата информация, всъщност ако знаехме параметрите на генералната съвкупност, ако знаехме цялата информация, и ако знаехме тази информация, или ако знаехме r – 1 информации в редовете, последната може да бъде получена, ако я извадим от сумата. Например в този случай, ако знаем това, можем лесно да намерим това. Това не е нова информация, това е просто сборът минус 20. По същия начин, ако знаем това тук, това тук не е нова информация; подобно: ако знаем тези двете, това тук не е нова информация, можем да я сметнем от общия сбор и всичко останало. Ето защо степените на свобода са колоните минус едно по редовете минус едно. Нашата хи-квадрат статистика има две степени на свобода. Сега трябва... Спомни си, че алфа стойността е 10%. Нивото на значимост, което ни интересува, е с алфа-стойност 10%. Алфа е 10 процента. Сега трябва да намерим критичната хи-квадрат статистика, която ни дава алфа равно на 10%, и ако това е по-малко от това, ако вероятността да получим това е по-малка, отколкото да получим тази критична статистика, можем да отхвърлим нулевата хипотеза, а ако това не е по-екстремно, няма да отхвърлим нулевата хипотеза. Така че сега трябва да намерим разпределението на хи-квадрат при 2 степени на свобода, колко е нашата критична хи-квадрат статистика, ще се върна малко назад... имаме две степени на свобода тук, и ни интересува ниво на значимост 10%, следователно критичната стойност на хи-квадрат е 4,60. Друг начин да си представим това, е да разгледаме разпределението хи-квадрат с две степени на свобода, което е това в синьо ето тук, при критична стойност 4,60 вероятността да получим нещо, поне толкова отдалечено, е 10%. Това е, което ни интересува. Ако статистиката хи-квадрат, която сме изчислили, попада в областта на отхвърляне, тогава ще отхвърлим нулевата хипотеза, но нашата к-квадрат статистика е само 2,53, така че тя попада някъде тук, което не е толкова невъзможно, ако приемем, че нулевата хипотеза е вярна. Въз основа на данните, които имаме, ние не можем да отхвърлим нулевата хипотеза. Не знаем със сигурност, че билките нямат ефект, но не можем да кажем също, че те имат ефект. Така че няма да я отхвърлим. Не можем да кажем на 100%, че я отхвърляме. Поне от тази гледна точка изглежда, че билките се различават една от друга, и също така се различават от плацебо.