If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:16:13

Тестване на хипотеза чрез сравняване на съотношенията (частите, на които се дели) в генералната съвкупност

Видео транскрипция

В миналите два клипа се опитвахме да намерим дали има съществена разлика между частта от мъжете, склонни да гласуват за даден кандидат, и частта от жените. И миналия път всъщност пресметнахме това с помощта на 95%-ния доверителен интервал за разликата между частта на мъжете и частта на жените. В този клип искам да задам въпроса по-директно. Или да направя един директен тест за значимост на хипотезите, за да видим дали има разлика. Да формулираме нашата нулева хипотеза: Няма разлика между това как ще гласуват мъжете и как ще гласуват жените. Друг начин да формулираме това е, че частта от мъжете, които ще гласуват за кандидата, ще бъде равна на частта от жените, които ще гласуват за кандидата. Или още един начин, по който можем да го кажем, това е разликата Р1 минус Р2, действителната част от мъжете, гласуващи за кандидата, минус действителната част от жените в генералната съвкупност, които ще гласуват за кандидата, тази разлика е равна на 0. Това е нашата нулева хипотеза. Според алтернативната хипотеза има разлика. Или Р1 не е равно на Р2. Т.е. Р1 минус Р2, частта от гласуващи мъже минус частта от гласуващи жени, действителните части от генералната съвкупност... тази разлика не е равна на 0. и ще направим тест с ниво на значимост от 5%. А всичко това означава, че, правили сме го доста пъти, че ще допуснем, че е вярна нулевата хипотеза. След като допуснем, че тя е вярна, ще намерим вероятността да получим действителната разлика на частите от извадките. Така ще намерим вероятността да получим действителната разлика между частта на мъжете в извадката и частта на жените в извадката, при условие, че нулевата хипотеза е вярна. И ако тази вероятност е по-малко от 5%, т.е. тази вероятност е по-малко от нивото на значимост. Ако имаме тези две извадки и разликата между тези две извадки е по-малка от 5%, тогава ще отхвърлим нулевата хипотеза. А как ще направим това? Ако допуснем, че е вярна нулевата хипотеза, как започва да изглежда извадковото разпределение на тази статистика? Нека приемем, че действителните части в генералната съвкупност са всъщност еднакви за мъжете и жените. Ако Р1 и Р2 са всъщност равни, тогава това тук ще е равно на 0. И това, което можем да направим, е че можем да намерим това, което получихме, когато взехме частта на мъжете и извадихме от нея частта от жените... Това е частта от мъжете в извадката, които ще гласуват, или поне в нашата анкета са казали, че ще гласуват за кандидата. Това е частта от жените, които са казали, че ще гласуват за кандидата. Разликата между двете беше 0,051. И можем да пресметнем каква е вероятността, ако допуснем, че действителните части са равни, че средната стойност на извадковото разпределение на тази статистика е всъщност 0, каква е вероятността да получим разлика от 0,051? Т.е. колко вероятно е това да получим нещо, което е отдалечено с толкова? И сега ще намерим Z-резултат за това. Всъщност намираме с колко стандартни отклонения е отдалечено от средната стойност това. То ще е нашият Z-резултат. И след това намираме вероятността да получим такова стандартно отклонение или резултат, който е толкова отдалечен, или е с толкова стандартни отклонения отдалечен от средната стойност, тази вероятност повече или по-малка е от 5%? Ако е по-малка от 5%, ще отхвърлим нулевата хипотеза. Нека най-напред намерим нашия Z-резултат. Допускаме, че е вярна нулевата хипотеза, че Р1 е равно на Р2. Нашият Z-резултат, броят стандартни отклонения, на които действителният ни резултат е отдалечен от средната стойност, действителната разлика, която взехме в последните няколко клипа между мъжете и жените, беше 0,051. И от това ще извадим тази допусната средна стойност. Спомни си, че допускаме, че тези двете са равни. Така че средната стойност на това извадково разпределение тук е 0. И само ще извадим 0. И после това трябва да го разделим на стандартното отклонение на това извадково разпределение на тази статистика. Р1 минус Р2. Колко е стандартното отклонение? В миналия клип разбрахме, че можем да представим това чрез тази формула тук. Но при нулевата хипотеза допускаме, че Р1 и Р2 са равни. Ще го препиша. Допускаме, че... В миналия клип... не искам да ги смесвам, защото в миналия клип направих това закръгляване тук. Ще напиша всичко начисто тук. Знаем, че стандартното отклонение на нашето извадково разпределение на тази статистика на извадковата средна стойност Р1 минус частта от извадката, или извадковата средна стойност Р2, е равна на корен квадратен от Р1, умножено по (1 – Р1) върху 1000, плюс Р2, умножено по (1 – Р2) върху 1000. Видяхме това в няколко клипа. Но при нулевата хипотеза допускаме, че Р1 е равно на Р2. Правим точно това. Допускаме нулевата хипотеза и търсим вероятността това да се случи. Та ако Р1 е равно на Р2, можем да ги представим просто като действителната част в генералната съвкупност. Т.е. можем да напишем това така, квадратен корен от... можем да изнесем пред скоби 1/1000, по Р, умножено по (1 – Р) плюс Р, умножено по (1 – Р). Понеже те ще бъдат равни. Точно това допускаме в нулевата хипотеза. А това са само две от тези тук. И това ще бъде равно на 2Р по (1 – Р), цялото това върху 1000. Поставяме всичко това под квадратен корен. Това е стандартното отклонение на разпределението на тази статистика тук. Частта от извадката за мъжете минус частта от извадката за жените. Още не знаем това. Още не знаем действителните части. Но можем да го пресметнем от нашите извадки. И щом допускаме, че няма разлика между мъжете и жените, можем всъщност да разглеждаме това като извадка с размер 2000, за да намерим действителните части. Можем да заместим това с извадковото съотношение. И можем да разглеждаме допитванията на мъжете и на жените като една голяма анкета. Така имаме частите от извадката, провеждаме допитване сред общо 2000 души. 1000 мъже и 1000 жени. Но допускаме, че няма разлика между тях. Това представлява нашата нулева хипотеза, допускаме, че няма разлика между мъжете и жените. И получихме 642 отговора "да" сред мъжете и 591 сред жените. Така получаваме общо 642 плюс 591. Ако разглеждаме това като една голяма извадка от 2000 души, получаваме 642 плюс 591 е равно на 1233, разделено на 2000. Това дава 0,6165. И това е най-добрата ни оценка за частите в генералната съвкупност, която е вярна както за мъжете, така и за жените. Понеже допускаме, че няма разлика между двете групи. Можем да заместим тази стойност с Р, за да пресметнем стандартното отклонение на извадковото разпределение на тази статистика тук, когато допускаме, че частите на мъжете и жените са равни. Или частите на тези, които ще гласуват за кандидата. Нека направим това. Ще имаме корен квадратен от 2 пъти по Р, което е 0,6165, умножено по 1 минус Р, т.е. 1 минус 0,6165, разделено на 1000. Ще проверя дали е правилно. 2 по 0,6165, това е Р ей там. Умножено по 1 минус Р, делено на 1000. Цялото нещо го слагаме под корен квадратен. Така получаваме стандартно отклонение 0,0217. Нека напиша това тук. И това нещо тук е 0,0217. Ако искаме да намерим нашия Z -резултат, ако искаме да намерим колко стандартни отклонения имаме за действителната извадка, което получихме от тази статистика тук. Ако искаме да намерим на колко стандартни отклонения това е отдалечено от допуснатата средна стойност, когато няма разлика, тогава просто разделяме 0,051 на това стандартно отклонение тук. Нека го направим. Имаме 0,051 делено на това стандартно отклонение, и то беше нашият отговор тук. Ще разделим на нашия отговор. И сме отдалечени на разстояние 2,35 стандартни отклонения. Нашият Z-резултат е равен на 2,35. За да обобщим това, което правим – допускаме, че е вярна нулевата хипотеза, когато няма разлика. Ако допуснем, че няма разлика, тогава извадковото разпределение на тази статистика тук ще има средна стойност 0. А резултатът, който всъщност получихме за статистиката, има Z-резултат, равен на 2,34. Това означава, че сме на 2,34 стандартни отклонения отдалечени от тази средна стойност 0. За да отхвърлим нулевата хипотеза, това трябва да е по-малко вероятно от нашето ниво на значимост. За да видим това, нека видим какъв критичен минимум на Z -резултата ни е нужен, за да отхвърлим нашата хипотеза. Да помислим малко за това. Ще се върна на моята Z-таблица. Искаме да имаме ниво на значимост от 5%. Което означава, че цялата област за отхвърляне – областта, в която ще отхвърлим нулевата хипотеза, е 5%. Това е двустранен тест. Събитие, което е или далеч над средната стойност, или далеч под средната стойност, ще ни позволи да отхвърлим хипотезата. Т.е. интересува ни тази област тук. А тук ще сложим 2,5%, тук също ще имаме 2,5%. А в средата ще имаме 95%. Така че е нужно да намерим този критичен Z-резултат, критичната Z-стойност. И ако нашата Z-стойност е по-голяма от положителния вариант на тази критична Z-стойност, тогава можем да считаме, че е по-малко вероятно да получим нещо толкова отдалечено е по-малка от 5%, допускайки, че нулевата хипотеза е вярна. Тогава можем да отхвърлим нулевата хипотеза. Нека видим каква е тази критична Z-стойност. По същество искаме критична стойност, при която за целия процент по-долу тя ще е 97,5%. Защото тогава ще имаме 2,5% тук. И всъщност вече пресметнахме това. Цялото това общо до тук е 97,5%, направихме го миналия път. Ако търсим това, получаваме 0,975 там. Това е Z-резултат от 1,96. Дори го написах там. Така тази критична Z-стойност е 1,96. И това означава, че има 5% вероятност да включим в извадката Z-статистика, по-голяма от 1,96, когато допускаме, че нулевата хипотеза е вярна. Но ние току-що намерихме Z-статистика, равна на 2,34, допускайки, че нулевата хипотеза е вярна. Така вероятността да попаднем на това, при условие, че е вярна нулевата хипотеза, ще е по-малка от 5%. Тя е много по-отдалечена от тази критична Z-стойност. Тя ще е някъде тук. И поради това можем да отхвърлим нулевата хипотеза. Извинявам се, че толкова прескачах напред-назад в този клип. Много изписах. Така че някак си потвърдих това, което вече писах. Но тъй като шансовете за успех да получим това, допускайки нулевата хипотеза, са по-малки от 5%, и това беше нашето ниво на значимост, можем да отхвърлим нулевата хипотеза и да кажем, че съществува някаква разлика. Не знаем със 100%, че това е сигурно. Но статистически ние предпочитаме идеята, че е съществува разлика между частта от мъжете и частта от жените, които ще гласуват за кандидата.