If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:6:44

Приблизително намиране на съотношенията (частите, на които се дели) в генералната съвкупност

Видео транскрипция

В това видео ще се задълбочим повече в доверителните интервали. В други видеа ги изчислявахме, дори ги тълкувахме, но сега ще се подсигурим, че правим правилните допускания, така че да можем да се доверим на доверителните си интервали. Също дали ги изчисляваме по правилен начин или в правилния контекст. Накратко да си припомним: голяма част от това, което правим при доверителните интервали, е, че се опитваме да установим приблизително някакъв параметър на генералната съвкупност. Нека да кажем, че това е делът. Може да е делът от гласоподаватели, които ще гласуват за даден кандидат. Не можем да анкетираме всички, затова правим извадка. И от тази извадка може да изчислим дял от извадката. После, използвайки този дял от извадката, изчисляваме доверителен интервал от всяка страна на този дял. Знаем е, че ако повторим това много, много, много пъти, при всяко повторение е много вероятно да имаме различен дял от извадката. Това ще бъде дял от извадката едно, дял от извадката две. И всеки път като го правим, може да получим... нека това е дял от извадката две, не само различен център на интервала, но и допустимата грешка може да се промени, защото използваме дял от извадката, за да я намерим. Но първото допускане, което трябва да бъде вярно преди каквито и да е твърдения за доверителния интервал, е, че извадката е случайна. Значи ни трябва случайна извадка. Ако трябва да установим приблизително дела от хората, които ще гласуват за определен кандидат, но анкетираме само хора от групата на пенсионерите, то това няма да е истински случайна извадка. Същото ще е ако анкетираме само хора във ВУЗ. И както с всичко в статистиката, наистина трябва да сме сигурни, че става въпрос за случайна извадка и в това трябва да вложим особено много усилия. Второто допускане, което трябва да направим, е често наричано условие за нормалност. Условие за нормалност. Запомни, че основното за доверителните интервали е допускането, че разпределението на дяловете от извадката, по-точно извадковото разпределение на дяла от извадката, е с приблизително нормална форма като това. Но за да направим това допускане, че това е приблизително нормално, имаме това условие за нормалност. И общото правило тук е, че очакваме на всяка извадка повече от 10 успеха и повече от 10 провала. Ето например, ако рамерът на извадката беше само 10, нека да кажем, че действителният дял е 50% или 0,5, то не можем да изпълним това условие за нормалност, защото ще очакваме пет успеха и пет провала за всяка извадка. Сега, тъй като обикновено когато правим доверителни интервали не знаем какъв е истинският параметър на генералната съвкупност, това което реално правим е, че гледаме извадката и само броим колко успеха и колко провала има. И ако има по-малко от десет от която и да е от двете категории, значи имаме проблем. Т.е. искаме да имаме по-голямо или равно на 10 успеха и 10 провала за всяка извадка. И реално няма нужда да казваме, че очакваме, защото щом правим извадка, ще преброим точно колко успеха и провала има. Ако не се получи това, значи условието за нормалност не е постигнато и твърденията които правим за доверителния интервал няма да бъдат валидни в пълна степен. Последното условие, което трябва да изпълним е познато като условие за независимост. И това е 10%-ното правило. Ако правим извадка без заместване, защото понякога е трудно да заместваме. Ако анкетираме хора, излизащи от магазин например, то не можем да ги помолим да се върнат обратно в магазина или поне ще бъде крайно неловко да ги молим това. И така условието за независимост е, че размерът на извадката, нека го обознача с n, значи n е по-малко от 10% от размера на генералната съвкупност. Нека кажем, че размерът на генералната съвкупност е 100 000 души. Ако анкетираме 1000 от тях, това ще бъде 1% от генералната съвкупност. Така можем да сме уверени, че условието за независимост е изпълнено. Още веднъж - това е ценно, когато правим извадка без заместване. Нека оценим как доверителните интервали не правят това, което би трябвало да правят, когато някое от тези условия е нарушено. Ще се фокусирам върху последните две. Условието за случайност на извадката е супер важно във всички дялове на статистиката. Нека първо разгледаме ситуация, където условието за независимост е нарушено. Ето тук можеш да видиш, че използваме симулацията с гумените топчета. В тази симулация имаме действителния дял от генералната съвкупност, но правещият тези извадки няма да я знае. Опитваме се да построим доверителен интервал с 95% ниво на значимост. Това, което казахме тук е, че не заместваме. Значи всеки член на извадката не се връща обратно, след като е изтеглен. Просто вземаме извадка от 200. И съм настроил генералната съвкупност, така че е много повече от 10% от нея. И тогава, когато изтеглих голям брой извадки, в този пример бяха почти 1500 извадки с размер 200, това което се получи е, че ситуацията, където истинският параметър на генералната съвкупност се съдържаше в доверителния интервал, който изчислихме за тази извадка. И в червено се виждат тези, които са извън интервала. И, както виждаш, успяваме само частично тук. Попадането в доверителните интервали, които изчисляваме, на истинският параметър на генералната съвкупност се случва само в около 93% от времето. А това е доста голям брой извадки. Ако наистина е с 95% доверителен интервал, това трябва да се случва в 95% от случаите. Аналогично, можем да разглеждаме ситуация, където условието за нормалност се нарушава. За условието за нормалност можем да видим тук, че размерът на извадката е 15. Всъщност, ако преместя малко надолу ще видим, че софтуерът дори предупреждава. Има по-малко от 10 очаквани успеха. И можеш да видиш, че направих много извадки тук. Направих повече от 2000 извадки. Въпреки, че се опитвам да настроя тези доверителни интервали така, че при изчисление, в 95% от случаите ще попада в интервала. Тук успеваемостта е само 94%. А съм направил наистина много извадки тук. И сега големият извод. Липсата на случайност наистина ще изкриви резултатите. Но ако не сме сигурни за това колко нормално е всъщност извадковото разпределение на дела на извадката или ако размерът на извадката е твърде голяма част от цялата генерална съвкупност и няма заместване, т.е. нарушаваме условието за независимост, то ниво на значимост, за което си мислим, че изчисляваме, когато правим доверителните интервали, може да не е валидно.