If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Хи-квадрат тест на Пирсън (съгласуваност)

Сал прави проверка с теста Хи-квадрат на хипотезата, че разпределението на данните, събрани от собственика, е вярно. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Мисля да купя ресторант, така че отивам и питам настоящия собственик какво е разпределението на броя клиенти, които има всеки ден. И той казва, че вече е открил това. Дава ми това разпределение ето тук, което казва, че 10% от клиентите му идват в понеделник, 10% във вторник, 15% в сряда и така нататък. В неделя е затворено. Това са 100% от клиентите за една седмица. Ако събереш това, ще получиш 100%. Очевидно съм малко подозрителен, така че решавам да видя колко добре това разпределение, което той описва, съвпада с наблюдаваните данни. Наблюдавам броя клиенти, които идват през седмицата и получавам това от моето наблюдение. За да открия дали да приема, или да отхвърля неговата хипотеза, аз ще направя една проверка на хипотезите. Ще формулирам нулевата хипотеза, че разпределението на собственика - това нещо тук – е вярно. После алтернативната хипотеза ще е, че това не е вярно, това не е правилното разпределение, че не виждам логика да разчитам на това. Това не е вярно – трябва да отхвърля разпределението на собственика. Искам да направя това с ниво на значимост от 5%. Друг начин да си го представим: ще пресметна една статистика на база тези данни, ето тук. Това ще е статистика "ХИ-квадрат". Друг начин да си го представим е, че тази статистика, която ще пресметна, има приблизително разпределение ХИ-квадрат. При положение, че има разпределение ХИ-квадрат с определен брой степени на свобода и можем да я пресметнем, искам да видя каква е вероятността да получа такъв резултат, да получа подобен резултат или резултат, който е с по-ниско ниво на значимост. Ако вероятността да получа резултат като този или нещо по-малко вероятно от това, е по-малка от 5%, тогава ще отхвърля нулевата хипотеза, което означава, че отхвърлям разпределението на собственика. Ако не получа това, ако кажа, че вероятността да получа статистика ХИ-квадрат, която е толкова или по-голяма, е по-голяма от алфа, от нивото ми на значимост, тогава няма да я отхвърля. Ще си кажа, че нямам причина да приема, че той лъже. Нека направим това. За да пресметна ХИ-квадрат, ще... тук приемаме, че разпределението на собственика е вярно. Приемам, че разпределението на собственика е вярно, тогава какво ще е очакваната стойност на наблюденията? Тук имаме стойноста процентите по дни, но каква би била очакваната стойност на разпределението на наблюдеията? Нека запиша това тук. Очаквано. Ще добавя още един ред, Очаквано. За общия брой клиенти, които идват през тази седмица, ще очакваме 10% от тях да дойдат в понеделник, 10% от общия брой клиенти тази седмица ще дойдат във вторник, 15% ще дойдат в сряда. За да открием какво е истинското число, трябва да намерим общия брой клиенти. Нека съберем тези числа. Ще извадя калкулатора си. Имаме 30 плюс 14, плюс 34, плюс 45, плюс 57, плюс 20. Тук имаме общо 200 клиенти, които са дошли в ресторанта тази седмица. Нека запиша това. Това е равно на – записах общия брой тук. Игнорирай ето това. Тази седмица има 200 клиенти. Какъв е очакваният брой в понеделник? В понеделник бихме очаквали 10% от 200-те клиенти да дойдат. Това ще е 20 клиенти, 10% по 200. Във вторник – още 10%. Тоест, щяхме да очакваме 20 клиенти. Сряда, 15% от 200, това е 30 клиенти. В четвъртък бихме очаквали 20% от 200 клиенти, така че това ще е 40 клиенти. В петък, 30% би било 60 клиенти. А в събота отново 15%. 15% от 200 би било 30 клиенти. Ако това разпределение е правилно, това е реалният брой, който бих очаквал. За да пресметнем ХИ-квадрат, взимаме – нека ти покажа, вместо да пиша "ХИ", ще пиша главно Х на квадрат. Понякога някои хора могат да пишат гръцката буква "хи". Но ще запиша "Х на квадрат". Нека го напиша така. Това е нашият ХИ-квадрат, но ще го запиша с главно Х, вместо с "хи", понеже това ще има приблизително разпределение ХИ-квадрат. Не мога да приема, че това е точно, така че тук се занимаваме с приблизителни изчисления. Но е доста лесно да го изчислим. За всеки от тези дни взимаме разликата между наблюдаваните и очакваните проценти. Това ще е 30 минус 20... ще направя първото с различен цвят – на квадрат, делено на очакваната стойност. Взимаме квадрата и можеш да намериш грешката между това, което наблюдавахме и очаквахме, или разликата между това, което наблюдавахме и очаквахме, и го нормализираме, чрез очакваната стойност тук. Но искаме да вземем сбора на всички тези числа. Ще направя всички тях в жълто. Плюс (14 минус 20) на квадрат върху 20, плюс (34 минус 30) на квадрат върху 30 – ще продължа ето тук – плюс (45 минус 40) на квадрат върху 40, плюс (57 минус 60) на квадрат върху 60, а после, най-накрая, плюс (20 минус 30) на квадрат върху 30. Просто взех наблюдаваната стойност минус очакваната, на квадрат, върху очакваната. Взех сбора на това и той ни дава ХИ-квадрат. Нека пресметнем на колко ще е равно това число. Това ще е равно на – ще го направя тук, за да не свърши мястото. Ще го направим в нов цвят. Ще го направим в оранжево. Това ще е равно на...30 минус 20 е 10, на квадрат, което е 100, делено на 20, което е 5. Може да не успея да направя всички наум. Плюс, нека го запиша така, за да виждаш какво правя. Това тук е 100 върху 20 плюс – 14 минус 20 е 6 - на квадрат е +36. Тоест, плюс 36 върху 20. Плюс, 34 минус 30 е 4, на квадрат е 16. Тоест, плюс 16 върху 30. 45 минус 40 е 5, на квадрат е 25. Тоест, плюс 25 върху 40. Разликата тук е 3, на квадрат е 9, тоест, това е 9 върху 60. Тук имаме разлика от 10, на квадрат е 100, тоест плюс 100 върху 30. Това е равно на – ще извадя калкулатора си – имаме 100 делено на 20 плюс 36 делено на 20, плюс 16 делено на 30, плюс 25 делено на 40, плюс 9 делено на 60, плюс 100 делено на 30, което ни дава 11,44. Нека запиша това. Това тук ще е 11,44. Това е моят ХИ-квадрат или можем да го наречем голямо главно Х на квадрат. Понякога ще е записано като "ХИ-квадрат", но тази статистика ще има приблизително разпределение ХИ-квадрат. Като казахме това, нека намерим, ако приемем, че това има приблизително разпределение ХИ-квадрат, каква е вероятността да получим толкова краен резултат или поне по-малко краен, предполагам това е друг начин да си го представим. Друг начин да го кажем е: "Това по-краен резултат ли е от критичната стойност на ХИ-квадрат, че има 5% шанс да получим толкова краен резултат?" Нека го направим по този начин. Нека намерим критичната стойност на ХИ-квадрат. Ако това (изчисленото ХИ-квадрат) е по-голямо от това (критичната стойност), тогава ще отхвърлим нулевата си хипотеза. Нека намерим критичните стойности на ХИ-квадрат. Имаме алфа от 5%. Другото нещо, което трябва да открием, са степените на свобода. Степените на свобода, взимаме едно, две, три, четири, пет, шест сбора, така че може да ти се иска да кажеш, че степените на свобода са шест. Но нещо, което трябва да осъзнаеш, е, че ако имаш всички тези данни тук, можеш да откриеш тази последна част информация, така че всъщност имаш пет степени на свобода. Когато имаш n точки информация и измерваш наблюдаваната стойност срещу очакваната, степените ти на свобода ще са n минус 1, понеже можеш да откриеш n-тата точка информация, просто въз основа на всичко друго, което имаш, всичката останала информация. Степените ти на свобода тук ще са 5. Това е n минус 1. Нивото ни на значимост е 5%. Степените ни на свобода също ще са равни на 5. Нека погледнем нашето ХИ-квадратно разпределение. Имаме степен на свобода от 5. Имаме ниво на значимост от 5%. Тоест, критичната стойност на ХИ-квадрат тук е 11,07. Нека използваме тази диаграма. Имаме ХИ-квадратно разпределение със степен на свобода от 5. Това е разпределението тук в пурпурен цвят. Интересува ни критичната стойност от 11,07. Това ето тук. Всъщност на това не можеш да я видиш. Ако продължа да рисувам това нещо в пурпурния цвят навсякъде тук, ако пурпурната линия просто продължи, ще имаш 8. Тук ще имаш 10. Тук ще имаш 12. 11,07 е, може би, някъде тук. Това ни казва, че вероятността да получим резултат, поне толкова екстремен като 11,07, е 5%. Можем да го запишем дори и тук. Критичната стойност на ХИ-квадрат е равна на – току-що видяхме – 11,07. Нека погледна диаграмата отново. 11,07. Резултатът, който получихме за нашата статистика, е дори по-малко вероятен от това. Вероятността е по-малка от нивото ни на значимост. Така че ще отхвърлим това. Вероятността да получим – нека го кажа така – 11,44 е по-крайна от критичното ниво на ХИ-квадрата. Така че е много не вероятно това разпределение да е вярно. Така че ще отхвърлим това, което той ни казва. Ще отхвърлим това разпределение. Не пасва добре въз основа на това ниво на значимост.