If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 11

Урок 1: Приблизително намиране на съотношенията (частите, на които се дели) в генералната съвкупност

Допустима грешка 2

Намиране на 95% доверителен интервал за съотношението на население, гласуващо за кандидат. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Когато се разделихме миналия път, ти дадох една задача – да намериш един интервал, за който да сме основателно уверени – ще говорим малко повече за това защо трябва да използваме подобна засукана формулировка точно тук – става дума за увереността, че имаме 95% вероятност истинската средна стойност за генералната съвкупност, която е р, което е същата като средната стойност на извадковото разпределение на извадкови средни стойност. И има 95% вероятност за истинската средна стойност – и нека сложа това тук. Това е същото като средната стойност на извадковото разпределение на извадкови средни стойности да е в този интервал. И за да направим това, нека ти дам няколко идеи. Каква е вероятността, ако взема една извадка, както и средната стойност на тази извадка, каква е вероятността средната стойност на произволна извадка да е в рамките на две стандартни отклонения от извадковата средна стойност? Т.е. каква е тази вероятност тук? Нека погледнем нашето настоящо разпределение. Това е нашето разпределение, а това тук е нашата извадкова средна стойност. Може би трябва да го оцветя в синьо, защото това е цветът тук горе. Това е нашата извадкова средна стойност. А каква е вероятността средната стойност на произволна извадка да е в рамките на две стандартни отклонения? Произволната извадка е извадка от това разпределение. Това е извадка от извадковото разпределение от извадкови средни стойности. Т.е. че буквално питаме каква е вероятността да се намери извадка в рамките на две стандартни отклонения от средната стойност? Това е едно стандартно отклонение, а това е още едно стандартно отклонение, това там. В общи линии, ако още не си запомнил/а това, не е лошо да се запомнят разни неща, ако имаме нормално разпределение, вероятността да се вземе извадка в рамките на две стандартни отклонения е 95... и ако искаме да сме малко по-точни, тя е 95,4%. Но можем да кажем, че това е приблизително... или бих го написал по този начин – това е около 95%. И наистина това е всичко, което има значение, защото имаме този малък забавен израз, наречен "основателно уверени", и трябва да оценим стандартното отклонение. И можем да кажем... бих казал, че това ще е равно точно на 95,4%. Но като цяло, две стандартни отклонения са 95%, обикновено така го помнят. И сега това твърдение означава точно това, че вероятността извадковата средна стойност, средната стойност на извадката... не извадковата средна стойност, вероятността средната стойност на извадковото разпределение да е в рамките на две стандартни отклонения за извадковото разпределение на х също ще бъде същото число, ще е равно на 95,4%. Това са абсолютно еднакви твърдения. Ако х е в рамките на две стандартни отклонения от това, тогава средната стойност е в рамките на две стандартни отклонения от х. Това са само два начина за изразяване на едно и също нещо. Знаем, че средната стойност на извадковото разпределение е равна на средната стойност на разпределението за генералната съвкупност, която е равна на параметъра р... делът от хора или делът от генералната съвкупност, чийто отговор е 1. Така че това тук е равно на средната стойност на генералната съвкупност. А това твърдение тук, това можем да го заместим с р. Така вероятността р да е в рамките на две стандартни отклонения от извадковото разпределение на х е 95,4%. Сега не знаем това число тук какво е. Но сме го изчислили. Спомни си, най-добрата ни оценка от това е действителното стандартно... истинското стандартно отклонение на генералната съвкупност, разделено на 10. Можем да оценим истинското стандартно отклонение на генералната съвкупност с нашето извадково стандартно отклонение, което е 0,5, значи 0,5, разделено на 10. Най-добрата оценка на стандартното отклонение на извадковото разпределение на извадковата средна стойност е 0,05. И сега можем да кажем... ще сменя цвета – вероятността този параметър р, делът от генералната съвкупност, чийто отговор е 1, е в рамките на два пъти... спомни си, че най-добрата ни оценка на това тук е 0,05 за средната стойност на извадката, която взимаме, вероятността е равна на 95,4%. И можем да кажем, че вероятността р да е в рамките на 2 по 0,05 ще е равна на... 2,0 ще стане 0,10 от нашата средна стойност, което е равно на 95... и нека всъщност внимавам малко повече тук. Не мога да кажа, че е равно, защото ако тук знаехме това, ако знаехме този параметър на извадковото разпределение на извадковата средна стойност, бихме казали, че то е 95,4%. На не го знаем. Само се опитваме да намерим най-добрата оценка за това. И това, което всъщност ще направя тук, е да кажа, че приблизително... и за да покажа, че дори нямаме това ниво на точност, ще кажа приблизително 95%. И сме основателно уверени, че това е 95%, защото използваме тази оценка, която получихме от нашата извадка. И ако извадката е наистина несиметрична, това наистина ще е едно странно число. Ето защо трябва да сме малко по-точни в това, което правим. Но това е начинът да определим тоне колко добър е нашият резултат. И това ще е около 95%. Или можем да кажем, че е вероятността това р да е в рамките на 0,10 от нашата извадкова средна стойност, която получихме. И колко е средната стойност, която всъщност получихме? Тя беше 0,43. И ако сме в рамките на 0,1 от 0,43, това оначава че сме в рамките на 0,43 плюс или минус 0,1, за което, също приблизително, сме основателно уверени, че е около 95%. И искам да съм много ясен. Всичко, което направих, ето тук горе, в кафяво, до жълто, и цялото това ярко червено, само преповтарям същото нещо, което е тук вътре. Стана малко по-разтегливо, когато смених точното стандартно отклонение на извадковото разпределение с неговата оценка. И ето защо това става... някак поставих знаците за приблизително равно, за да кажа, че сме основателно уверени – и дори се отървах от значещи цифри. Но пък намерихме нашия интервал. Интервал, за който можем да сме основателно уверени, че има 95% вероятност р да е в рамките на този интервал, и ще е равно на 0,43 плюс или минус 0,1. Или имаме интервал от – имаме един доверителен интервал. Имаме 95% доверителен интервал, и можем да кажем, че... 0,43 минус 0,1 е 0,33. Ако напишем това в проценти, можем да кажем от 33% до... ако добавим 0,1, тогава 0,43 плюс 0,1, получаваме 53% – до 53%. Така сме 95% уверени. Не казваме точно, че вероятността за действителният дял е 95%, но сме 95% уверени, че действителният дял е между 33% и 55%. р е в тези граници тук. Или има и друг начин, който ще видиш в много допитвания, правени преди, хората ще кажат, че е правено допитване, от което 43% ще гласуват за номер едно, а номер едно в този случай е кандидат В. И от друга страна, след като всички останали са гласували за кандидат А, 57% ще гласуват за А. След което дават допустима граница на грешката. Ще видиш това във всяка анкета по телевизията. Дават допустима граница на грешка. И тази граница е един друг начин за описване на този доверителен интервал. И казват, че допустимата граница на грешката в този случай е 10%, което означава че има 95%-ен доверителен интервал, ако се отиде на плюс или минус 10% от тази стойност тук. Наистина искам да обърна внимание, не може да кажем със сигурност че има 95% вероятност действителният резултат да бъде в рамките на 10% от това, защото трябва да пресметнем стандартното отклонение на извадковата средна стойност. Но това е най-добрата оценка, която можем да направим при наличната информация. Ако правим допитване сред 100 души, това е най-добрият доверителен интервал, който можем да получим. И това число всъщност е сравнително голямо. И ако погледнем това, ще видим, че има около 95% вероятност действителната стойност на това число да е между 33% и 53%. И всъщност още има шанс кандидат В да може да спечели, макар че само 43% от общо 100 души ще гласуват за него. Ако искаме да имаме малко по-точни данни, добре би било да вземем повече извадки. Можеш да си представиш. Вместо да питаме 100 човека, вместо n да е 100, ако направим n да е 1000, тогава ще вземем това число тук, ще вземем това число тук и ще го разделим на корен квадратен от 1000, вместо на корен квадратен от 100. Така че ще делим на 33 или нещо подобно. И тогава големината на стандартното отклонение на нашето извадково разпределение ще намалее. И така разстоянието от две стандартни отклонения ще е по-малко число, и оттам ще имаме по-малка допустима граница на грешката. И може би ще искаш да намерим границата на грешката толкова малка, че да предскажем убедително кой ще спечели изборите.