If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Хи-квадрат тест за взаимосвързаност (независимост)

Хи-квадрат тест за взаимосвързаност/независимост.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Вече сме запознати с критерия ХИ-квадрат. Ако не си, окуражавам те да прегледаш видеата за него. И вече сме правили проверка на хипотеза с критерия ХИ-квадрат, и сме правили проверка на хипотеза, основана на кростаблици. Сега ще направим още една стъпка в тази посока, като помислим за използване на критерия ХИ-квадрат за проверка дали има връзка между две променливи. Да кажем, че подозираме, че дължината на крака на някого е свързана с дължината на ръката му. Че тези неща не са независими. Можем да извършим проверка на хипотеза. Запомни, че за нулевата хипотеза при проверка на хипотеза винаги приемаме, че няма нищо ново. Тук можем да кажем, че няма връзка. Няма връзка между дължината на крака и ръката. Друг начин да опишем това е, че те са независими. И често това, което правим, се нарича проверка за независимост ХИ-квадрат. И после алтернативната ни хипотеза ще е подозрението ни, че има връзка. Има връзка. Тоест дължините на крака и ръката не са независими. Ще изберем една генерална съвкупност и ще направим случайна извадка от нея. Да кажем, че направим случайна извадка от 100 души. И за всеки от тези 100 души ще открием дали дясната ръка е по-дълга, лявата ръка е по-дълга, или и двете ръце са еднакви. После ще направим това и за краката им и ще въведем данните в таблицата. И това са данните, които получаваме. Струва си да помислим за това за момент, как го направихме, и как то се различава от проверка за еднородност с критерия ХИ-квадрат. При проверка за еднородност с критерия ХИ-квадрат взимаме извадка от две различни генерални съвкупности, при които гледаме две различни групи и виждаме дали разпределението на определена променлива между тези две групи е еднакво. Тук взимаме извадка от една група, но мислим за две различни променливи за тази група. Мислим за дължината на краката и мислим за дължината на ръцете. Тук можеш да видиш, че на 11 души и дясната им ръка, и десният им крак са по-дълги. Трима души имали по-дълги десни ръце, но по-дълъг ляв крак. А на осем души дясната им ръка била по-дълга, но и двата им крака били еднакви. Подобно, имаме девет души с по-дълги ляв крак и лява ръка, но има двама души, на които лявата ръка била по-дълга, но десният крак бил по-дълъг. И можем да преминем през всички тези. Но за да направим нашата проверка с критерия Хи-квадрат, бихме казали каква ще е очакваната стойност на всяка от тези точки информация, ако приемем, че нулевата хипотеза е вярна. Че няма връзка между дължината на крака и на ръката. За да ни помогне с това, ще направя колона общо и ред общо. Нека начертая една права, за да знаем какво става. Какъв е общият брой хора с по-дълга дясна ръка? Той е 11 + 3 + 8, което е 22. Общият брой хора с по-дълга лява ръка е 2 + 9 + 14, което е 25. И после имаме общия брой хора с еднакви по дължина ръце, 12 + 13 + 28, това е 53. После, ако събера сумите от тази колона, 22 + 25 е 47, + 53, получаваме 100. И ако съберем броя хора с по-дълъг десен крак, 11 + 2 + 12 е 13 + 12, това е 25. По-дълъг ляв крак, 3 + 9 + 13, това също е 25. И можем или да съберем тези и ще получим 50, или да кажем 25 + 25 плюс колко е 100. Това ще е равно на 50. За да намерим тези очаквани стойности, помни, ще намерим очакваните стойности, като приемем, че нулевата хипотеза е вярна. Като приемем, че тези разпределения са независими. Че дължината на крака и дължината на ръката са независими променливи. Ако са независими, което приемаме, тогава най-доброто ни изчисление е, че 22% имат по-дълга дясна ръка и най-доброто ни изчисление е, че 25% имат по-дълъг десен крак. И от 100 ще очакваш 0,22*0,25*100 да имат по-дълги десни ръка и крак. Умножавам вероятностите, което ще направиш, ако това са независими променливи. 0,22*0,25, да видим, 1/4 от 22 е 5 цяло и 1/2, така че това ще е равно на 5,5. Какъв брой ще очакваш да имат по-дълга дясна ръка, но по-дълъг ляв крак? Това ще е 0,22*0,25*100. Вече изчислихме колко ще е това. Това ще е 5,5. И за да намерим очаквания брой хора, които ще имат по-дълга дясна ръка, но крака с еднаква дължина, можем да умножим 22 от 100 по 50 от 100 по 100, което ще е половината от 22, което е равно на 11. И можем да продължим. Тази стойност тук ще е 0,25*0,25*100, 25*25 е 625, така че това ще е 6,25. Тази стойност тук ще е 0,25*0,25*100, което, отново, е 6,25. А тази стойност тук можем да получим по два начина. Можем да умножим 0,25*50*100, което ще ни даде 12,5, или можехме да кажем, че това плюс това плюс това трябва да е равно на 25, така че това ще е 12,5. И можем да открием очакваната стойност на това, понеже 5,5 + 6,25 + това ще е равно на 25. Да видим, 5,5 + 6,25 е 11,75. 11,75 + 13,25 = 25. Същото нещо имаме и тук. Това ще е 13,25, понеже това е 11,75 + 13,25 = 25. Ако съберем тези двете, получаваме 26,5. 26,5 плюс колко е равно на 53? Това ще е равно на 26,5. След като намериш всички очаквани стойности, това е подходящ момент да провериш условията. Първото условие е извадката да е случайна. Нека приемем, че сме го изпълнили. Второто условие е очакваната стойност за всяка от точките информация да е поне равна на 5. И можем да видим, че всички очаквани стойности са поне равни на 5. Реалните точки информация не е нужно да са равни на 5. Не е проблем, че имаме 2 тук, понеже очакваната стойност е 5 или по-голяма. И последното условие е условието за независимост. То е, че или правим извадка със заместване, или че трябва да сме уверени, че размерът на извадката ни не е по-голям от 10% от генералната съвкупност. Нека приемем, че и това е така. Като приемем, че сме изпълнили всички тези условия, сега сме готови да изчислим стойността на ХИ-квадрат. И за всяка точка информация ще намерим разликата между точката информация, 11 минус, и прогнозираната стойност 5,5 на квадрат, върху очакваната стойност – направих тази точка. Сега ще направя тази. Плюс (3 – 5,5)^2 върху 5,5 плюс... сега ще направя тази точка – (8 – 11)^2, върху 11. После ще направя тази: (2 – 6,25)^2, върху 6,25. И ще продължа. Ще направя това за всички девет точки информация. Всъщност ги изчислих предварително, за да спестя малко време. Ако направиш това за всички девет точки информация, ще получиш стойност на критерия ХИ-квадрат от 11,942. Преди да изчислим р-стойността, трябва да помислим какви са степените ни на свобода. Тук имаме таблица три-на-три... Един начин да определим това е: броят редове минус едно по броя колони минус едно. И това е 2*2, което е равно на 4. Друг начин да разглеждаш това е, че ако знаеш четири от тези точки информация и знаеш общите стойности, тогава можеш да намериш другите пет точки информация. И сега сме готови да изчислим р-стойността. И можеш да го направиш с калкулатор или като използваш таблица за стойностите ХИ-квадрат, но да кажем, че я изчисляваме с калкулатор и получаваме р-стойност от 0,018. И да си припомним какво е това – това е вероятността да получим стойност за ХИ-квадрат поне толкова голяма или по-голяма. След това правим това, което винаги правим при проверка на хипотеза. Сравняваме това с нивото на значимост. И трябваше да определим нивото на значимост в началото. Нека приемем, че когато издигахме хипотезите тук, също казахме, че искаме ниво на значимост от 0,05. Трябва да направиш това преди да изчислиш всичко това. Но после сравняваме р-стойността с нивото си на значимост и виждаме, че р-стойността ни е доста по-ниска от нивото ни на значимост. Един начин да оценим това е... Получихме всички тези очаквани стойности, като приехме, че нулевата хипотеза е вярна. Но вероятността да получим толкова или по-екстремен резултат е по-малка от 2%, което е по-ниско от нивото ни на значимост. И това ще ни накара да отхвърлим нулевата хипотеза и това предполага, че има връзка между дължината на ръката и дължината на крака.