If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:10:47

Видео транскрипция

Да кажем, че предстоят избори и искам да разбера дали има значителна разлика между частта от мъжете и частта от жените, които ще гласуват за даден кандидат. Да разгледаме разпределението за генералната съвкупност тук. Имаме мъжете и някаква част от тях ще гласуват за кандидата. Ще ги означим с Р1. Това е частта, която ще гласува за кандидата. Останалата част от мъжете няма да гласуват за този кандидат. Т.е. 1 минус Р1 няма да гласуват за кандидата. И при жените ще видим нещо подобно. Ето това тук са жените. Известна част от тях ще гласуват за кандидата. Не знаем дали тази част е равна на Р1, не знаем дали е равна на тази част от мъжете, и ще го наречем Р2. И останалите жени няма да гласуват за кандидата. 1 минус Р2. Негласуващите означаваме с нули, а гласуващите – с единици. И двете са разпределения на Бернули, и знаем... понеже това ще ни послужи по-нататък, че средната стойност на това разпределение е равна на частта, която ще гласува. И средната стойност на мъжете, или частта от мъжете, които ще гласуват, ще наречем това средна стойност едно, това е равно на Р1. И дисперсията на първото разпределение... Добре е да оцветя всичко в жълто. Средната стойност на това разпределение е Р1. Дисперсията на това разпределение, нека я наречем дисперсия 1, представлява тези две части, умножени една по друга. Така това е Р1, умножено по 1 минус Р1. Това го видяхме преди много, много клипове, когато учихме за разпределенията на Бернули. Ще видим абсолютно същото и при жените. Средната стойност на това разпределение на Бернули ще е Р2. След това дисперсията за това разпределение на Бернули ще е равна на произведението на тези две части. Имаме Р2, умножено по (1 – Р2). И това, което сега искам да направя, мисля, че го казах в началото на клипа, е че искам да разберем дали има значителна разлика между начина, по който ще гласуват мъжете, и този, по който ще гласуват жените. Искам да разберем – нека напиша това, дали е съществено. И има ли някаква съществена разлика тук? И в този клип ще се опитаме да определим 95%-ния доверителен интервал за този параметър. Тази разлика на параметри също е параметър. Не знаем каква е действителната разлика на тези два параметъра за генералната съвкупност. Или тези две части от генералната съвкупност. Но ние търсим 95%-ен доверителен интервал за тази разлика. Ще го направим така: излизаме и намираме 1000 мъже, които вероятно ще гласуват. И 1000 жени, които вероятно ще гласуват. Нека запишем това. Така, вземаме 1000 мъже. Когато анкетираме тези 1000 мъже, да кажем 642 твърдят, че ще гласуват за кандадата. Те са единиците. Останалите 358 ще ги наричам нули. Останалите са нули. Същото нещо правим с жените. Питаме 1000 от тях коя е вероятно да гласува. Проучването е произволно. И нека кажем, че 591 твърдят, че ще гласуват за кандидата. А останалите казват, че няма да гласуват за кандидата. И като сравним нашите части от извадките, извадковите средни стойности, сякаш има някаква разлика. Но все още трябва да определим нашия доверителен интервал. Нека само се уверим, че разбираме какво направихме току-що. Тук бихме могли да намерим частта от извадката за мъжете. Което всъщност си е средната стойност на тази извадка. Имаме 642 единици, останалите означаваме с нула. Т.е. в числителя имаме 642. Извадката е с размер 1000. 642 делено на 1000 е 0,642. Можем да разглеждаме това като средна стойност на извадката или като част от извадката. Ако направим същото за жените, частта от извадката ще е 0,591. Или можем да разглеждаме това като средна стойност на извадката, която включва 1000 жени. Тези, които гласуват, са означени с единица, а останалите – с нула. За да го илюстрирам по правилния начин, ще начертая извадковото разпределение на частите от извадката. Имаме извадка с голям размер. Поради това, че частите, които ни интересуват, не са близки до едно или до нула, и имаме голям размер на извадката, разпределението на извадката ще е почти нормално. Ще напиша това. Извадковото разпределението на частите от извадката... Тук ще имаме някаква средна стойност. Средната стойност на извадковото разпределение на частите на извадката... Наблюдвали сме го много пъти. Това ще е равно на средната стойност на генералната съвкупност. А средната стойност на генералната съвкупност всъщност е действителният дял в генералната съвкупност. Това ще е равно на Р1. Това е нещо, което не знаем. Тогава дисперсията тук, вече я видяхме няколко пъти, дисперсията на това разпределение... тук трябва да напишем единица, това са мъжете. Дисперсията за това разпределение, съгласно централната гранична теорема представлява дисперсията на това разпределение тук горе, което е равно на Р1, умножено по (1 – Р1), върху размера на извадката, върху 1000. И можем да направим абсолютно същото нещо при жените. Това е разпределението на извадката. Това е за Р2 стълба или тази средна стойност на извадката тук. Нека поставим една единица тук. Да не забравяме, че всичко това касае мъжете. А пък всичко това това тук-жените. Не можем да забравим тези двойки там. И това разпределение ще има някаква средна стойност. Ще го начертая тук. Tака, мю с индекс Р2, с черта над него. И средната стойност на извадковото разпределение за това извадково съотношение при жените, което ще е равно на точно на средната стойност на генералната съвкупност, която вече видяхме, че ще бъде равна на Р2. И тогава дисперсията за това разпределение, за това извадково разпределение тук, ще е равна на тази дисперсия тук, разделена на нашия размер на извадката. И така, Р2 умножаваме по (1 – Р2). Всичко това върху n. Така, основната ни цел е да получим 95% доверителен интервал. И това, което предстоим да направим, е да разгледаме извадковото разпределение, но не тук и не това разпределение. Ще разгледаме извадковото разпределение на разликата от тази част от извадката и тази част от извадката. Вече видяхме това. Говорим за части, но всъщност имаме съвсем същите идеи, които представихме, когато сравнихме извадковите средни стойности. Да видим сега това. . Да погледнем това разпределение. И да изясним, когато тук получихме тази извадкова средна стойност, тази част от извадката, ние направихме извадка. Можеш да го разглеждаш като вземане на извадка от това разпределение тук. Когато получихме този част от извадката, като че ли все едно взехме извадка от тук. Взехме 591 от 1000 резултата от това, за да определим средната стойност. Което е равносилно на вземане на резултат от извадковото разпределение. Това разпределение тук ще е разпределението на всички разлики от частите от извадките, или от тези части. И ще имаме нещо такова. Ще има някаква средна стойност. Тук трябва да използвам различен цвят. Нека е зелено. Жълто и синьо дават зелено. Ще го направя в зелено. Ще нарека това извадково разпределение на тази статистика, на Р1 минус Р2. Имаме някаква средна стойност тук. Стойността Р1 минус извадковата средна стойност или частта от извадката Р2. И знаем, от нещата, които сме извършвали последните няколко клипа, че това ще е равно точно на същото – тази средна стойност минус тази средна стойност. Което е точно равно на Р1 минус Р2. Така тук получаваме равно на Р1 минус Р2. И дисперсията на това разпределение, Р1 минус Р2, ето така, ще е равна на сбора от дисперсиите на тези две разпределения. Така ще имаме това нещо тук, само ще го копирам и поставя, ще бъде това нещо плюс тази дисперсия ето тук. Нямаме знак за корен, защото не търсим стандартното отклонение. Сега сме фокусирани на дисперсията. Така, плюс това тук. Копирам и поставям. Плюс това тук. Това ще бъде дисперсията. И ако искаме стандартното отклонение, буквално можем да се оттървем от това. Коренуваме двете страни. Т.е. коренуваме дисперсията, вземайки стандартното отклонение, така се отърваваме от тази втора степен И ще коренуваме дясната страна ето така. Всичко, което направих, беше само за да подредим идейно нещата в ума ни. Сега трябва да определим доверителния интервал. Всъщност трябва да определим с 95%-ния доверителен интервал за Р1 минус Р2. Или 95%-ен доверителен интервал за тази средна стойност тук. И понеже се опитвам да дам всичко от себе си, за да не бъдат толкова дълги клиповете, ще направя една втора част в следващия клип, където ще определим доверителния интервал.