If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 9

Урок 5: Биномиално разпределени случайни променливи

10%-тно правило за приемане, че експериментите са независими

10%-тно правило за приемане, че експериментите са независими.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Като напредваме в статистическата си кариера, ще бъде ценно да допускаме, че определени разпределения са нормални или понякога – биномни разпределения. По този начин, ако можем да направим това, можем да правим всевъзможни интересни изводи за тях, ако приемем такова допускане. Едно от ключовите неща за нормалните или биномните разпределения е фактът, че можем да приемем, че те са сумата или могат да бъдат разглеждани като сумата на куп независими опити. Следователно трябва да допуснем, че опитите са независими. Това е смислено в много ситуации, но ако например ще правиш анкета на хора излизащи от търговски център... В този случай нека кажем, че питаш дали са си платили вече данъците. Ако хората излизат от търговския център е трудно да се вземат извадки със замяна. Те излизат от търговския център. Няма как да им кажеш: "Хей, чакай!" "Просто исках да те попитам един въпрос." "Ти ми отговори." "Сега се връщай обратно в търговския център, защото искам всеки опит да е наистина независим." Но всички знаем, че интуитивно се усеща, че ако има 10 000 души в търговския център и ще анкетираме 10 от тях, то има ли значение дали опитите са наистина независими? Няма ли значение, че сме близо до това опитите да са независими? Поради тази идея и защото искаме да можем да правим изводи базирани на извадки близки до биномно или нормално разпределение имаме правило, наречено 10%-но правило. Това 10%-но правило казва, че за нашата извадка, ако тя е по-малка или равна на 10% от генералната съвкупност, то е допустимо да приемем приблизителна независимост. Има относително сложни методи за получаване на този праг от 10%. Можеше да се изберат 9%. Или пък 10,1%. Но 10% е хубаво, кръгло число. Ако погледнем някои реални примери, изглежда че работи добре. Например тук, нека х е броят момчета, от три опита, избирайки от класна стая с n ученици, където 50% от класа са момчета, а другите 50% са момичета. Това, което имаме тук е няколко различни стойности за n. Какво ще стане ако имаме 20 ученика в класа? Ами ако са 30? Ами ако са 100? Ако класът е от 10 000? Можем да намерим вероятността да изберем три момчета със заместване във всеки от тези случаи. Можем също да намерим вероятността да изберем три момчета без заместване и тогава да поразсъждаваме за това каква част представлява нашата извадка от цялата генерална съвкупност. Тогава можем да си направим извод дали 10%-ното правило има смисъл. Е, в първата колона, където избираме три момчета със заместване, понеже заместваме, всеки един от опитите е независим, истински независим. Ако опитите са независими, то х ще бъде истинска биномна променлива. Тук опитите не са независими, понеже не заместваме, записваме, че не са независими. Официално в тази колона тук, когато не заместваме, х няма да се счита за биномна случайна променлива. Нека видим дали има някаква граница, където ако размерът на извадка е достатъчно малък процент от цялата генерална съвкупност, че да не се чувстваме зле в случаите, когато допускаме, че х е близо до биномна променлива. Във всички случаи, в които имаме независими опити и 50% от популацията е момчета и 50% момичета ще умножим 1/2 по 1/2 по 1/2. Във всички тези случаи ще имаме 12,5% шанс х да бъде равно на три. Във всички тези случаи х ще бъде биномна променлива. Но погледни тук. Когато три е относително голям дял от популацията, в този случай е 15%, процентовият шанс да изтеглим три момчета без заместване е 10,5%, което значително се различава от 12,5%. Това са 2% разлика, но по отношение на 12,5%, това означава някъде между 10% и 20% разлика по отношение на вероятността. А това е относително голяма разлика. С увеличаване размера на генералната съвкупност обаче, без да увеличаваме размера на извадката, виждаме, че тези числа се приближават все повече едно до друго. Като стигнем до тук, където ако имаш 10 000 души в популацията и правиш само три опита, то числата стават много, много близки. Това всъщност е 12,49 и нещо процента, но ако го закръглим до най-близката десета от процент виждаш, че са почти неразличими. Мисля, че повечето хора ще кажат: "Добре, ако извадката е три десетохилядни от популацията не бих се притеснявал да разглеждам тази колона без заместване като много близка до биномна променлива." Повечето хора също ще кажат: "Добре, при първия сценарий, където размерът на извадката е 15% от генералната съвкупност, не бих се чувствал добре, ако разглеждам колоната без заместване като биномна случайна променлива." Но къде ще теглим чертата? Както споменахме по-рано в това видео, границата обикновено е при 10%. Това означава, че ако размерът на извадката е по-малък или равен на 10% от генералната съвкупност, то би имало смисъл да кажем за случайната променлива, дори и действително да не е биномна променлива, "ОК, може би пък е биномна променлива." Може действително да я разглеждаме като биномна променлива и така да направим всички мощни изводи, които сме склонни да правим в статистиката. От това става ясно, че колкото по-малък процент представлява извадката от генералната съвкупност – толкова по-добре. За да няма объркване – това не означава, че малките извадки са по-добри от големите извадки. В статистиката големите по размер извадки са много по-добри от малките. Но ако искаме да направим това допускане за независимост, дори и да не е напълно вярно, то трябва извадката да бъде малка част от популацията. В идеалния случай, нека кажем че правим анкета пред търговския център, бихме искали да анкетираме 100 души, но ще се надяваме, че ще има поне 1 000 души в търговския център, за да имаме сигурност, че опитите са достатъчно независими. Ако има 10 000 души в търговския център или пък 50 000 души, което ще бъде много голям търговски център, но това ще е още по-добре.