If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 11

Урок 1: Приблизително намиране на съотношенията (частите, на които се дели) в генералната съвкупност

Допустима грешка 1

Намиране на 95% доверителен интервал за съотношението на население, гласуващо за кандидат. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Да кажем, че живея в страна със 100 милиона жители и скоро там предстоят избори за президент. В тези избори има двама кандидати. Имаме кандидат А и кандидат В. И има определени нагласи... да кажем, че в тази страна всички участват в изборите и ще гласуват за единия от двамата – всички участват в изборите и всички ще гласуват или за кандидат А, или за кандидат В. И има някакъв процент, и някаква ситуация, при която р... нека го напиша тук – може би 1 минус р процента... нека първо да е р. Има вероятност р процента да гласуват за В... мога да ги разменя, ако искам. р процента ще гласуват за В, а останалите хора ще гласуват за А, така че вероятно 1 минус р процента ше гласуват за А. И може би вече разпознаваш, че това е едно разпределение на Бернули. Мога да избера една от двете опции. И тук стойностите, които определих, са, че или се гласува за кандидат А, или за кандидат В. Трудно се работи с такива стойности. Не е възможно да се изчислят средната стойност между А и В и всичко това – имаме букви, а не числа. За да можем да боравим с израза математически, ще кажем, че вземаме избирател, който ще гласува за А, и това е равносилно на резултат 0, а избирател, който ще гласува за В, е равносилен на резултат 1. Ако пресмятаме това с разпределение на Бернули, в клипа за разпределяния на Бернули научихме, че средната стойност на това разпределение тук ще е равна на р. И доказателството на това как сме го намерили е доста просто. Средната стойност на това разпределение всъщност не е стойност, в това разпределение, ще представлява някакво място тук, което е равно на р. Да кажем, че моята страна има 100 милиона жители. Практически за мен е невъзможно да отида и да попитам всички 100 милиона жители за кого ще гласуват. Така че няма да мога точно да определя какви ще са тези параметри. Каква е моята средна стойност, какво ще е р. Но вместо да направя това, аз ще направя едно произволно допитване. Ще направя извадка от тази генерална съвкупност, а след това ще направя оценка на това колко реално е р. Понеже това ме интересува в действителност. Интересува ме р. Така че ще се опитам да изчисля р чрез една извадка, след което ще помислим и по това колко добра е тази оценка. На случаен принцип ще анкетирам извадка от 100 души. И нека кажем, че имам следните резултати. Нека кажем, че 57 души решават да гласуват за кандидат А. Нека го напиша по този начин. 57 души казват, че ще гласуват за А, което е равносилно да получим 57 резултата 0. А останалите хора, още веднъж, изключително мотивирани избиратели, никой не се колебае, останалите 43 души казват, че ще гласуват за В. Или това е равносилно на 43 единици в извадката. Като имаме тази извадка, каква е моята средна стойност на извадката и дисперсията на извадката? Средната ми стойност тук, това ще е само средното от тези нули и единици. Имам 57 нули, ще се получи 57 по 0 плюс моите 43 единици. Значи сборът от моите резултати, който е 43 единици... плюс 43 по 1, върху общия брой резултати, които съм получил, върху 100. И какво ми дава това? Тук 57 пъти по 0 е 0. 43 пъти по 1, делено на 100 е 0,43. Това е средната стойност на моята извадка, средната стойност само на 100 точки от данните, които всъщност получих. А каква е дисперсията на извадката ми? Дисперсията на извадката е равна на сбора от квадратите на разстоянията от средната стойност, разделен на броя елементи минус 1. Да не забравяме, че това е дисперсията на извадката, и искаме да получим най-добрата оценка на истинската дисперсия в това разпределение. А за да направим това, не разделяме на 100, а ще разделим на 100 минус 1. Научихме това преди много, много клипове. И така, имам 57. Това са 57 резултата 0. Тук ще използваме същия жълт цвят – 57 резултата 0. И всеки от тези резултати е на разстояние 0 минус 0,43 от средната стойност. Всеки от тези резултати е 0. Изваждаме 0,43, което е разликата на 0 и 0,43. И ако искам разстоянието на квадрат, повдигам го на втора степен – така изчисляваме дисперсията. Имаме 57 от тези. И после имаме 43 пъти, в които получавам единица в извадката – 43 пъти получих 1, и това 1 е равно на 1 минус 0,43 разстояние от средната стойност, защото това е тя, и искам да повдигна на квадрат това разстояние. И не искам да го разделям на n. Не искам да го деля на 100 – спомни си, че се опитвам да изчисля действителната средна стойност на генералната съвкупност. За да може това да е най- добрата оценка. Обясних защо преди много, много клипове – разделихме на 100 минус 1, т.е. на 99. Ще взема калкулатора, за да намерим дисперсията на нашата извадка. Изваждам калкулатора, и имаме... ще изчисля числителя най-напред. Имам 57 по, 0 минус 0,43, на квадрат, плюс, 43 пъти по 1 минус 0,43, на квадрат, След това делим всичко това на 100 минус 1, т.е. на 99. Делено на 99 е равно на 0,2475. Така дисперсията на извадката е равна на 0,2475. И ако искам да намеря извадковото стандартно отклонение, намирам просто квадратния корен от това. Извадковото стандартно отклонение е равно на квадратен корен от дисперсията на извадката. Така че намирам квадратния корен от тази стойност, която току що получих. Получавам 0,497. Нека всъщност закръгля това на 0,50. Така стандартното отклонение на моята извадка е 0,50. И сега като погледнеш това, може да кажеш: "Нашата най-добра оценка на процента хора, които гласуват за А или В, е това, което видяхме преди малко тук." Най-добрият резултат или нашата най-добра оценка за средната стойност е това, че 43% от хората ще гласуват за В, а всички други ще гласуват за А. Но интересният въпрос е: колко добра е тази извадка? Нека отидем на следващото ниво. Нека се опитаме да помислим за един интервал от около 43%, за който сме 95% основателно уверени, почти 95% сигурни, че истинската средна стойност е в този интервал. Нека го изясня. Изобразявам. Когато вземаме средна стойност на извадката, ние я вземаме от извадковото разпределение на извадковата средна стойност. Нека го покажа. Извадковото разпределение на извадковата средна стойност. И понеже вземаме извадка от едно дискретно разпределение, това всъщност ще е едно дискретно разпределение, но то ще има 100 възможни стойности. Това тук може да приеме 100 различни стойности. В действителност това е всяка стойност между 0 и 1. Но ще го изобразя някак общо, защото на практика би било сложно чертането на 100 различни стълба. Ако го направя, ще имаме един стълб там, и един там. Вероятността средната стойност на нашата извадка да е 1, ще е много малка, тогава ще имаме налице още един стълб, който изглежда така, такъв стълб, но би ни отнело цяла вечност да го изобразим. Затова само ще покажа приблизителна стойност, с тази нормална крива там. Така че извадковото разпределение на средната стойност на дадена извадка – ще я напиша тук. Това е извадковото разпределение на средната стойност на извадката. Има някаква средна стойност тук. Налице е една средна стойност, която мога да обознача с стълба мю с индекс x – и това е средната стойност на извадковото разпределение. Но от доста клипове знаем, че това ще е същото като средната стойност на генералната съвкупност, от която вземаме извадка, от която идва всяка извадка, и от която идва всеки от тези 100 резултата. И това ще е равно на mu, което ще е равно на р. Тази дисперсия тук, дисперсията на това разпределение – нека го покажа така, или нека по-добре покажем стандартното отклонение на това разпределение. Стандартното отклонение на това разпределение, това разстояние тук, стандартното отклонение на извадковото разпределение на средната стойност – вече го видяхме доста пъти – ще бъде това стандартно отклонение – ще е стандартното отклонение на разпределението на нашата генерална съвкупност. Така че това стандартно отклонение ще е онова разстояние там. И има някакво стандартно отклонение, свързано с това разпределение. То ще е това стандартно отклонение, разделено на квадратен корен от размера на нашата извадка. В един от по-старите клипове видяхме защо това, поне експериментално, има смисъл, или защо е логично. И така, ще имаме корен квадратен от 100. А това ще разделим на 10. Този елемент обаче не го знаем какъв е. Единственият начин да разберем колко е това, е да проведем проучване сред 100 милиона души, което би било невъзможно. И за да пресметнем стандартното отклонение от това, ще използваме нашето извадково стандартно отклонение, като най-добра оценка на стандартното отклонение на генералната съвкупност. Така можем да кажем – и да не забравяме, че това е една оценка. Не можем да намерим точно число тук само от една извадка. Но можем да го пресметнем. Защото за това стандартно отклонение това е най-добрата ни оценка за това стандартно отклонение, и ако го разделим на 10, ще имаме най-добрата оценка на стандартното отклонение за извадковото разпределение на средната стойност. Затова запомни, че това е само една оценка. И трябва всичко от тук нататък трябва да се приема с известно съмнение. Ще е приблизително равно, по изчисления, на 0,5. И запомни, че всеки път, когато вземем различна извадка от тук, това число ще се промени. Един вид това не е нещо твърдо определено. Зависи от нашата извадка. Ще има известна промяна в зависимост от получените числа в нашата извадка. Но резултатът ще е 0,50. Това тук е s, това 0,50 делим на 10, което е равно на 0,05. И най-добрият ни оценка на това стандартно отклонение е 0,05 или можем да го изразим като 5%. Сега това, което искам да направя, е да намеря интервал около извадковата средна стойност, където мога да съм уверен, като използвам своите оценки, че всичко тук... да съм напълно уверен, че има 95% вероятност истинската средна стойност да е в рамките на две стандартни отклонения – или да го кажем така: има 95% вероятност истинската средна стойност да е в този интервал. Нека напиша това. Искам да намеря такъв интервал, за който съм основателно уверен, че... и използвам тези завъртяни формулировки тук, защото всичко се върти около факта, че не знам със сигурност, че стандартното отклонение е 0,05%, само го оценявам. Но съм основателно уверен, че има 95% вероятност истинската средна стойност на генералната съвкупност, която е точно равна на дела на хората от генералната съвкупност, които ще гласуват за кандидат В, което е делът от генералната съвкупност, изразен чрез 1. Трябва да си спомним, че това е и в израза mu е равно на р. Има 95% възможност истинското р да е в този интервал. И всъщност, щом вече съм минал 14 минути в този клип, ще го прекъсна, ще спра тук, и вероятно ще те накарам да мислиш за него, въз основа на всичко, което направихме до сега. Намерихме извадковата средна стойност – извинявам се, намерихме извадковата средна стойност тук. Намерихме оценка за... и запомни, това е само една извадка. Не знаем истинската... това е средната стойност на нашата извадка. Не знаем истинската стойност на извадковото разпределение, както и не знаем истинското стандартно отклонение на извадковото разпределение. Но успяхме да го изчислим с извадковото стандартно отклонение. И всичко, което имаме досега, базирано на това, което видяхме преди, на доверителни интервали и подобни, как можем да намерим такъв интервал, че приблизително... казвам приблизително, защото трябваше да изчислим стандартното отклонение – където има 95% вероятност истинската средна стойност на генералната съвкупност, или р, делът от генералната съвкупност, т.е. 1, да е в този интервал? Ще направим това следващия път.