If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Тестване на хипотеза с голямо пробно съотношение

Сал използва голяма извадка, за да провери дали повече от 30% от американските домакинства имат достъп до интернет. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Искаме да направим проверка на хипотезата, че повече от 30% от американските домакинства имат интернет достъп с ниво на значимост 5%. Правим извадка от 150 домакинства, и намираме, че 57 от тях имат достъп до интернет. За да направим теста за значимост, нека определим нулева хипотеза и алтернативна хипотеза. Нулевата хипотеза се състои в това, че хипотезата не е вярна. Нулевата хипотеза е тази, че делът на американските домакинства, които имат интернет достъп, е по-малко или равно на 30%. Алтернативната хипотеза е това, което всъщност е нашето предположение, т.е. че делът е по-голям от 30%. Виждаме това тук. Искаме да проверим хипотезата, според която повече от 30% от американските домакинства имат интернет достъп. Това се намира тук. И е това, което проверяваме. Проверяваме алтернативната хипотеза. Начинът, по който ще го направим, е да приемем дадена P-стойност, базирана на нулевата хипотеза. Ще приемем един дял, на база нулевата хипотеза за генералната съвкупност. Като ни е дадено това предположение, каква е вероятността 57 домакинства от 150 в извадките имат интернет достъп? И ако тази вероятност е по-малко от 5%, ако е по-малко от нашето ниво на значимост, тогава ще отречем нулевата хипотеза в полза на алтернативната. Та нека помислим малко за това. Ще започнем с предположението... ще допуснем, че нулевата хипотеза е вярна. И при това допускане ще трябва да изберем един дял от генералната съвкупност или средна стойност за генералната съвкупност... знаем, че при разпределения на Бернули те са едно и също. И сега ще избера един дял, толкова висок, че увеличава максимално вероятността да получим това тук. И всъщност дори не знаем какво е това число. И за да можем да разсъждаваме малко по-интелигентно, нека намерим какъв е делът в нашата извадка. Имаме 57 души от 150, които имат интернет достъп. Т.е. 57 домакинства от 150. Делът в нашата извадка е 0,38, ще го запиша тук. Делът в извадката е 0,38. Когато приемаме нашата нулева хипотеза за вярна, ние ще приемем един дял в генералната съвкупност, който увеличава максимално вероятността да получим това тук. Така че най-високият дял в генералната съвкупност, който е в основата на нулевата хипотеза, увеличаващ максимално вероятността това да се получи, е реална ако сме прави в 30%. Така че ако делът от генералната съвкупност е... ще приемем, че това е вярно. Такава е нашата нулева хипотеза. Ще приемем, че това е 0,3 или 30%. И искам да разбереш, че 29% щяха да са нулева хипотеза. 28% ще са нулева хипотеза. Но за 29% или 28% вероятността да получим това щеше да е дори по-ниска. Т.е. нямаше да имаме толкова силно доказателство. Ако вземем максималния дял, който още удовлетворява нашата нулева хипотеза, ние увеличаваме максимално вероятността да получим това. И ако това число още е ниско, и е по-малко от 5%, можем да сме сигурни в алтернативната хипотеза. Само да припомня, че ще приемем дял от генералната съвкупност 0,3, и ако само помислим за разпределението – понякога изобразяването на тези неща помага, затова ще ги начертая. Така изглежда разпределението за генералната съвкупност, базирано на нашето предположение, което пък е базирано на това предположение тук. Разпределението на генералната съвкупност има... или може би трябва да напиша, че 30% имат интернет достъп. Ще изразя това с 1. Тогава останалите нямат интернет достъп. 70% нямат интернет достъп. Това е просто едно разпределение на Бернули. Знаем, че средната стойност тук ще е същата като делът на тези, които имат интернет достъп. Така средната стойност тук ще е 0,3, което е равно на 30%. Това е средната стойност на генералната съвкупност. И може би трябва да напиша това така. Средната стойност за генералната съвкупност, когато приемем, че е изпълнена нулевата хипотеза, е 0,3. Следва стандартното отклонение за генералната съвкупност. Ще напиша това тук в жълто. Стандартното отклонение на генералната съвкупност, когато е вярна нулевата хипотеза. Това го видяхме, когато учихме най-напред за разпределение на Бернули. Ще е равно на корен квадратен от дела от генералната съвкупност, които имат интернет достъп, т.е. 0,3 по дела от генералната съвкупност, които нямат интернет достъп, значи умножено по 0,7 тук. И това е квадратният корен от 0,21. Можем да се сметнем това по-късно с помощта на калкулатор. След като намерихме това, сега искаме да намерим вероятността да получим дял от извадката, който съдържа 0,38. Да разгледаме разпределението на дяловете в извадката. И можем буквално да погледнем всяка комбинация, при която получаваме 150 домакинства от това, и всъщност ще получим едно биномно разпределение. Това сме го виждали и преди. Ще получим едно биномно разпределение, в което ще имаме набор от стълбове. Но ако нашето n е достатъчно голямо, конкретно... а тук един вид проверяваме това – проверяваме дали n пъти по p... и в този случай казваме, че p е 30% – ако n пъти по p е по-голямо от 5, и n пъти по (1 – p) е по-голямо от 5, можем да приемем, че разпределението на дела от извадката или разпределението на дела в извадката ще е нормално. И ако погледнем всички различни начини, по които можем да направим извадка от 150 домакинства от тази генерална съвкупност, ще получим тези стълбове. Но щом нашето n е толкова голямо, то е 150, и 150 пъти по 0,3 очевидно е по-голямо от 5. 150 по 0,7 също е по-голямо от 5. Можем да оприличим това с едно нормално разпределение. Та нека го направя. Можем да направим едно приблизително нормално разпределение. И това е едно нормално разпределение. Средната стойност на разпределението на дяловете, за които предполагаме, че имаме нормално разпределение, ще бъде... и да не забравяме, че работим в контекста на вярна нулева хипотеза. Така тази средна стойност ще бъде... стойността тук... т.е. средната стойност на дяловете в извадката ще е равна на средната стойност за генералната съвкупност. Т.е. това ще бъде 0,3, същата стойност като тази. И стандартното отклонение – това идва директно от централната гранична теорема. Така че стандартното отклонение за дяловете в нашата извадка, стандартното отклонение ще е равно на корен квадратен... ще го представя така – това ще е стандартното отклонение на генералната съвкупност стандартното отклонение, когато допускаме че е вярна нашата нулева хипотеза, разделяме на квадратния корен от броя елементи в извадката. В този случай имаме 150 елемента. Ще има 150 елемента и можем да изчислим това. Тази стойност отгоре, която намерихме, е квадратен корен от 0,21. Така че това е квадратен корен от 0,21 върху квадратен корен от 150. И мога да взема калкулатора, за да изчисля това. Ще го направя по начина, по който го написах. Корен квадратен от 0,21... ще разделя това, така че какъвто и да е отговорът, ще разделя полученото на корен квадратен от 150. Получава се 0,037. И намерихме стандартното отклонение тук на нашето... разпределението на дяловете в извадката ще бъде... нека напиша това, ще се преместя малко надясно... получава се 0,037. Мисля, че малко излизам от екрана. Така че само ще кажем 0,037. За да намерим вероятността да имаме дял в извадката 0,38, трябва да намерим на колко стандартни отклонения от средната стойност е това, или по същество пресмятаме една Z-статистика за нашата извадка, защото Z-статистиката или Z-резултатът реално представлява на колко стандартни отклонения сме от средната стойност. И след това намираме дали вероятността да получим тази Z-статистика е повече или по-малко от 5%. Та нека намерим на колко стандартни отклонения сме от средната стойност. И трябва да си припомним, че този дял от извадката, който получихме, можем да визираме като извадка от това разпределение от всички възможни дялове в извадки. И на колко стандартни отклонения от средната стойност е това? Ако вземем нашия дял в извадката, извадим от него средната стойност на разпределението на дяловете в извадките и го разделим на стандартното отклонение на разпределението от дяловете в извадките, получаваме 0,38 минус 0,3. Всичко това върху тази стойност, която тъкмо намерихме, че е 0,037. И какво ни дава това? Числителят тук е 0,08. Знаменателят е 0,037. Нека изчислим това. Нашият числител е равен на 0,08, разделено на това последно число тук, което е 0,037. Така има втори отговор, и получаваме 2,1 – ще го закръгля на 2,14 стандартни отклонения. Това тук е равно на 2,14 стандартни отклонения. Или можем да кажем, че нашата Z-статистика... можем да наречем това Z-резултат или Z-статистика, броят стандартни отклонения, с които сме отдалечени от средната стойност, е 2,14. На разстояние 2,14 сме, и за да бъдем точни, на 2,14 стандартни отклонения сме над средната стойност. Тук имаме едностранно разпределение. Каква е вероятността да получим резултат, по-голям или по-малък от 5%? Ако е по-малък от 5%, ще отхвърлим нулевата хипотеза в полза на нашата алтернативна. Как да определим това? Да разгледаме едно нормализирано обикновено разпределение. Или може да го наречем Z-разпределение, ако искаме. Ако погледнем едно нормално разпределение, едно напълно нормализирано обикновено разпределение, неговата средна стойност е нула. И по същество, всяка от тези стойности всъщност е Z-резултат. Понеже 1 тук означава буквално, че сме на 1 стандартно отклонение разстояние от тази средна стойност тук. Трябва да намерим критичната Z-стойност тук. Нека я нарека критична Z... можем дори да кажем критичен Z-резултат или критична Z-стойност, така че вероятността да получим една Z-стойност, по-висока от тази, е 5%. Тази цялата област тук е 5%. И това е поради факта, че такова е нашето ниво на значимост. Всеки елемент, който има по-ниска възможност от 5% да се случи, за нас ще е потвърждение за отхвърляне на нулевата хипотеза. Или друг начин да изразим това, е, че ако тази област е 5%, тази цялата област тук е 95%. Още веднъж, това е един едностранен тест, защото ни интересуват единствено по-големите стойности от тази. Z-стойностите, по-големи от тази ще ни накарат да отхвърлим нулевата хипотеза. И за да намерим тази критична Z-стойност, можем буквално да отидем при Z-таблицата. И казваме, че вероятността да имаме Z-стойност, която е по-малка от тази, е 95%. А това е точно числото, което дава това. Общата вероятност да получим стойност, по-малка от тази. И ако разгледаме тук, търсим 95%. Имаме 0,9495, имаме 0,9505. Ще използвам това, за да се уверя, че сме малко по-близо. Значи тази Z-стойност, и z-стойността тук е 1,6, следващата цифра е 5. 1,65. И тази критична Z-стойност е равна на 1,65. А вероятността да получим дадена Z-стойност, по-малка от 1,65, или дори в дадено напълно нормализирано обикновено разпределение, вероятността да получим стойност, по-малка от 1,65. Или във всяко нормално разпределение вероятността за стойност, по-малка от 1,65 стандартни отклонения от средната стойност ще е 95%. И това е нашата критична Z-стойност. Сега нашата действителна Z-стойност, или Z-статистика, за настоящата ни извадка е 2,14. Действителната Z-стойност, която получихме, е 2,14. Тя се намира някъде тук по пътя. И вероятността да получим това определено е по-малко от 5%. И всъщност можем дори да кажем каква е вероятността да получим този или по-отдалечен резултат. И ако сме намерили тази област, а можехме всъщност да я намерим, гледайки Z-таблица, бихме могли да намерим Р-стойността на този резултат. Но и без това цялото упражнение тук е с цел да разберем дали можем да отхвърлим нулевата хипотеза с ниво на значимост 5%. Можем. Това е по-отдалечен резултат от критичната Z-стойност, така че можем да отхвърлим нулевата хипотеза в полза на алтернативната хипотеза.