В края на миналия клип
се опитвахме да намерим дали има значителна разлика между частта от мъжете, които гласуват
за даден кандидат, и частта от жените. Анкетирахме 1000 мъже, 1000 жени,
и получихме частите от извадката
за всяка от тези групи. Получихме 0,642 за мъжете
и 0,591 за жените. Но целта ни е да намерим
95%-ен доверителен интервал. Само на база нашата извадка
получихме – нека го напиша тук – получихме частта от извадката
за мъжете минус – тук ще използвам неутрален цвят. Получихме частта от извадката
за мъжете минус частта от извадката за жените, т.е. 0,642 минус 0,591, което дава 0,051. Само извадих това от това. И това, което търсим при един
доверителен интервал, е да бъдем уверени... Винаги ще твърдя това,
защото няма да имаме свръхточност. Искаме да сме уверени, че има
95% вероятност това тук – спомни си, че когато взехме
двете части от извадките и разликата им, това е нещо подобно на взимане на образец от извадковото
разпределение на статистиката. И търсим 95% вероятност действителната
средна стойност или истинската стойност на това Р1 минус Р2 да е
в рамките на даден интервал, да кажем в рамките на d, под d имаме
предвид разстояние, действителната разлика,
която получихме от извадките. В рамките на d =0,051. Записвам това много пъти, но винаги
го записвам по този начин. Аз не просто ти давам формулата, която
обикновено виждаме в учебниците. Лесно е да се запомни, ако имаш добра
памет, но по този начин всъщност виждаме какъв е смисълът
на този доверителен интервал. Ако имаме 95%-на вероятност
Р1 минус Р2, действителните, истинските части, разликата от
действителните части е в рамките на d от разликата
между частите от извадките, това твърдение тук означава същото: че има 95%-на вероятност
0,051 да е в рамките на d от този реален параметър Р1 минус Р2,
който е равен на средната стойност. И трябва да намерим някакво разстояние
около тази средна стойност, където ако вземем един
произволен образец от това, ако това е произволен образец от
разпределението, имаме 95%-на вероятност да сме в рамките на d
от тази средна стойност, защото ако е в рамките на d от средната стойност,
тогава също има 95%-на вероятност средната стойност да е в рамките на d
от образеца, и от там ще получим доверителния интервал. Доверителният интервал ще е
тази стойност плюс d и тази стойност минус d. А тези елементи какви са? Какво е разстоянието d? В едно нормализирано разпределение...
имам една Z-таблица тук... можем да допуснем,
че всичко е нормално, особено извадковите разпределения,
защото нашето n е толкова голямо, както и нашата част
не е близо до 0 или до 1. Хубаво е и е близо до средата
и затова не ни интересуват всички тези странни случаи
в близост до краищата. Казваме, добре, къде се съдържа
центъра на 95%? На колко стандартни отклонения
в дадено нормално разпределение се отдалечаваме от средната стойност,
за да се съдържат 95% от вероятността? Z-таблиците, с които сме
работили много пъти, представят едно кумулативно разпределение. Търсим тази Z-величина тук. Ако тя съдържа 95%, тук ще имаме 2,5%, и тук ще имаме 2,5%. Т.е. от гледна точка на
Z-таблицата, таблицата ни дава сумарната вероятност до тази Z-стойност. И това, което търсим,
всъщност е 97,5%. Търсим нещо, което съдържа всичко до тук. 97,5% Ако вземем Z-стойността, след което
я приложим на двете страни, тогава ще разполагаме с нещо,
което съдържа 95%. Така че нека погледнем към 97,5. 97,5 е там, а това е 1,96
стандартни отклонения. Т.е. имаме 1,96 за нормализирано
стандартно отклонение, или Z-резултат 1,96. И ако погледнем това
нормално разпределение тук, разстоянието, което ни интересува,
ще е равно на 1,96, умножено по стандартното отклонение
на това разпределение, т.е. ще е равно на 1,96 умножено
по цялата тази стойност. 1,96 пъти по стандартното
отклонение на това разпределение. И остана само да пресметнем това и да го умножим по 1,96. Но се появи проблем. Не знаем реалните параметри Р1 и Р2. Не знаем реалните параметри
на генералната съвкупност. Не знаем Р1 и Р2. Това е част от задачата. Опитваме се да разберем дали
има някаква съществена разлика между Р1 и Р2. Но това сме го виждали много пъти. Щом размерът на извадката е голям,
можем да изчислим приблизително Р1 и Р2 чрез частите в извадките. И можем да променим това ще използвам различен цвят... можем да променим това и да използваме
частите от извадките. Знаем какви са тези стойности. И всъщност това n тук беше 1000. Нека да намерим това. Взимаме пак калкулатора. Тук сметката ще е голяма. Имаме квадратен корен,
след което в кръгли скоби, частта от извадката за мъжете
е 0,642, след което ще умножим това по
1 минус 0,642, затваряме кръглите скоби. Това делим на 1000. Събираме това, плюс –
прилагаме същото нещо за жените. Частта от извадката е 0,591
по 1 минус 0,591. А това е този множител тук,
разделен на 1000. Още веднъж, трябва да се убедим, че пресметнатото в кръглите скоби е вярно. След това затваряме скобите,
тези оригинални кръгли скоби, защото търсим корен квадратен от всичко това. И получаваме 0,021, или
може би ще кажем 0,022. И тази стойност тук
е приблизително равна на 0,022. И така, връщаме се на нашия въпрос
или на това разстояние, което ни интересува, тази стойност ще бъде
приблизително, най-добрата ни оценка, т.е. 0,022. Умножаваме това. 0,022 умножено по 1,96 дава 0,043. Закръгляме го. Така че това тук е равно на 0,043. И получихме нашия
доверителен интервал. Знаем че съществува
95%-на вероятност истинската разлика на между дяловете да е
в рамките на 0,043 от действителната разлика в дяловете в извадките,
които получихме. Или ако реално искаме
да получим един интервал, вземаме тази стойност минус 0,043. Нека го направим. Така, имаме 0,051 минус 0,043, което дава 0,008. И ако го прибавим, имаме 0,051 плюс 0,043, получаваме 0,094. Така че 95%-ният доверителен интервал за
дела на мъжете и дела на жените, които
ще гласуват за кандидата, 95%-ният доверителен интервал за Р1 – Р2 е от 0,008 до 0,094. Имам го тук на калкулатора. И сме готови. Наистина изглежда, че
сме уверени в това, че има 95% вероятност мъжете да са по-склонни да гласуват за кандидата, отколкото са жените.