Когато се разделихме миналия път, ти дадох една задача – да намериш един интервал, за
който да сме основателно уверени – ще говорим малко повече за това защо
трябва да използваме подобна засукана формулировка точно тук –
става дума за увереността, че имаме 95% вероятност
истинската средна стойност за генералната съвкупност, която е р, което е същата като
средната стойност на извадковото разпределение на
извадкови средни стойност. И има 95% вероятност
за истинската средна стойност – и нека сложа това тук. Това е същото като
средната стойност на извадковото разпределение на извадкови
средни стойности да е в този интервал. И за да направим това, нека
ти дам няколко идеи. Каква е вероятността, ако
взема една извадка, както и средната стойност на тази извадка,
каква е вероятността средната стойност на произволна извадка да е
в рамките на две стандартни отклонения от извадковата средна стойност? Т.е. каква е тази вероятност тук? Нека погледнем нашето
настоящо разпределение. Това е нашето разпределение,
а това тук е нашата извадкова средна стойност. Може би трябва да го оцветя
в синьо, защото това е цветът тук горе. Това е нашата извадкова
средна стойност. А каква е вероятността
средната стойност на произволна извадка да е в рамките на
две стандартни отклонения? Произволната извадка
е извадка от това разпределение. Това е извадка от извадковото
разпределение от извадкови средни стойности. Т.е. че буквално питаме каква е
вероятността да се намери извадка в рамките на две
стандартни отклонения от средната стойност? Това е едно стандартно отклонение,
а това е още едно стандартно отклонение, това там. В общи линии, ако
още не си запомнил/а това, не е лошо да се запомнят
разни неща, ако имаме нормално
разпределение, вероятността да се вземе извадка в рамките
на две стандартни отклонения е 95... и ако искаме да сме малко по-точни, тя е 95,4%. Но можем да кажем, че това е
приблизително... или бих го написал по този начин –
това е около 95%. И наистина това е всичко, което
има значение, защото имаме този малък забавен израз,
наречен "основателно уверени", и трябва да оценим
стандартното отклонение. И можем да кажем...
бих казал, че това ще е равно точно на 95,4%. Но като цяло, две стандартни
отклонения са 95%, обикновено така го помнят. И сега това твърдение означава
точно това, че вероятността извадковата средна стойност,
средната стойност на извадката... не извадковата средна стойност,
вероятността средната стойност на извадковото разпределение да е в рамките
на две стандартни отклонения за извадковото разпределение
на х също ще бъде същото число, ще е равно на 95,4%. Това са абсолютно еднакви
твърдения. Ако х е в рамките на две стандартни
отклонения от това, тогава средната стойност е в рамките на две
стандартни отклонения от х. Това са само два начина
за изразяване на едно и също нещо. Знаем, че средната стойност
на извадковото разпределение е равна на средната стойност на
разпределението за генералната съвкупност, която е равна на
параметъра р... делът от хора или делът от генералната
съвкупност, чийто отговор е 1. Така че това тук е равно на
средната стойност на генералната съвкупност. А това твърдение тук,
това можем да го заместим с р. Така вероятността р да е
в рамките на две стандартни отклонения от извадковото разпределение
на х е 95,4%. Сега не знаем това число тук какво е. Но сме го изчислили. Спомни си, най-добрата ни оценка
от това е действителното стандартно... истинското стандартно
отклонение на генералната съвкупност, разделено на 10. Можем да оценим истинското
стандартно отклонение на генералната съвкупност с нашето
извадково стандартно отклонение, което е 0,5, значи 0,5, разделено на 10. Най-добрата оценка на
стандартното отклонение на извадковото разпределение
на извадковата средна стойност е 0,05. И сега можем да кажем...
ще сменя цвета – вероятността този параметър
р, делът от генералната съвкупност, чийто отговор е 1, е в рамките на два пъти...
спомни си, че най-добрата ни оценка на това тук
е 0,05 за средната стойност на извадката, която взимаме,
вероятността е равна на 95,4%. И можем да кажем, че
вероятността р да е в рамките на 2 по 0,05 ще е равна
на... 2,0 ще стане 0,10 от нашата средна стойност, което
е равно на 95... и нека всъщност внимавам малко повече тук. Не мога да кажа, че е равно,
защото ако тук знаехме това, ако знаехме този параметър
на извадковото разпределение на извадковата
средна стойност, бихме казали, че то е 95,4%. На не го знаем. Само се опитваме да намерим
най-добрата оценка за това. И това, което всъщност
ще направя тук, е да кажа, че приблизително... и за да покажа,
че дори нямаме това ниво на точност, ще кажа
приблизително 95%. И сме основателно уверени, че
това е 95%, защото използваме тази оценка, която
получихме от нашата извадка. И ако извадката е наистина
несиметрична, това наистина ще е едно странно число. Ето защо трябва да сме
малко по-точни в това, което правим. Но това е начинът
да определим тоне колко добър е нашият резултат. И това ще е около 95%. Или можем да кажем, че е
вероятността това р да е в рамките на 0,10 от нашата извадкова
средна стойност, която получихме. И колко е средната стойност,
която всъщност получихме? Тя беше 0,43. И ако сме в рамките на 0,1 от 0,43,
това оначава че сме в рамките на 0,43 плюс или минус 0,1, за което,
също приблизително, сме основателно уверени,
че е около 95%. И искам да съм много ясен. Всичко, което направих,
ето тук горе, в кафяво, до жълто, и цялото това ярко червено,
само преповтарям същото нещо, което е тук вътре. Стана малко по-разтегливо,
когато смених точното стандартно отклонение
на извадковото разпределение с неговата оценка. И ето защо това става...
някак поставих знаците за приблизително равно,
за да кажа, че сме основателно уверени – и дори
се отървах от значещи цифри. Но пък намерихме
нашия интервал. Интервал, за който можем
да сме основателно уверени, че има 95% вероятност
р да е в рамките на този интервал, и ще е равно на
0,43 плюс или минус 0,1. Или имаме интервал от – имаме
един доверителен интервал. Имаме 95% доверителен интервал,
и можем да кажем, че... 0,43 минус 0,1 е 0,33. Ако напишем това в проценти,
можем да кажем от 33% до... ако добавим 0,1, тогава 0,43 плюс
0,1, получаваме 53% – до 53%. Така сме 95% уверени. Не казваме точно, че вероятността за действителният дял е 95%,
но сме 95% уверени, че действителният дял
е между 33% и 55%. р е в тези граници тук. Или има и друг начин, който ще видиш
в много допитвания, правени преди, хората ще кажат,
че е правено допитване, от което 43% ще гласуват за номер едно,
а номер едно в този случай е кандидат В. И от друга страна, след
като всички останали са гласували за кандидат А, 57%
ще гласуват за А. След което дават
допустима граница на грешката. Ще видиш това във
всяка анкета по телевизията. Дават допустима граница на грешка. И тази граница е един
друг начин за описване на този доверителен интервал. И казват, че допустимата граница
на грешката в този случай е 10%, което означава че има
95%-ен доверителен интервал, ако се отиде на плюс или
минус 10% от тази стойност тук. Наистина искам да обърна внимание,
не може да кажем със сигурност че има 95%
вероятност действителният резултат да бъде в рамките на 10% от това,
защото трябва да пресметнем стандартното отклонение
на извадковата средна стойност. Но това е най-добрата оценка, която
можем да направим при наличната информация. Ако
правим допитване сред 100 души, това е най-добрият доверителен
интервал, който можем да получим. И това число всъщност
е сравнително голямо. И ако погледнем това,
ще видим, че има около 95% вероятност действителната
стойност на това число да е между 33% и 53%. И всъщност още има шанс
кандидат В да може да спечели, макар че
само 43% от общо 100 души ще гласуват за него. Ако искаме да имаме
малко по-точни данни, добре би било
да вземем повече извадки. Можеш да си представиш. Вместо да питаме 100 човека,
вместо n да е 100, ако направим n да е 1000, тогава
ще вземем това число тук, ще вземем това число
тук и ще го разделим на корен квадратен от 1000, вместо
на корен квадратен от 100. Така че ще делим
на 33 или нещо подобно. И тогава големината
на стандартното отклонение на нашето извадково разпределение
ще намалее. И така разстоянието от две
стандартни отклонения ще е по-малко число, и оттам
ще имаме по-малка допустима граница на грешката. И може би ще искаш да намерим
границата на грешката толкова малка, че да предскажем убедително
кой ще спечели изборите.