If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Симулация, демонстрираща пристрастно определяне на дисперсията

Симулация от Питър Колингридж, която ни дава по-добро разбиране защо делим на (n-1), когато изчисляваме безпристрастната дисперсия на извадката. Симулацията е налична на: http://www.khanacademy.org/cs/challenge-unbiased-estimate-of-population-variance/1169428428. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Това тук е симулация, която е била създадена от Питър Колингридж с използването на компютърен бележник на Кан Академия, за да разберем по-добре защо делим на n минус 1, когато изчисляваме неизместената оценка на дисперсията на извадката, за да намерим неизместена оценка на реалната дисперсия на извадката. Тази симулация, първо, създава разпределение на генералната съвкупност, случайно разпределение, и всеки път, когато влезеш в нея, това ще е различно разпределение на генерална съвкупност. Това има генерална съвкупност от 383 данни и после се изчисляват параметрите за тази генерална съвкупност, директно от него. Средната стойност е 10,5. Отклонението е 25,5. После симулацията използва тази генерална съвкупност и извадки от нея и прави извадки с големина две, три, четири, пет и така нататък до 10, като продължава да прави извадки от нея, изчислява статистиките за тези извадки, тоест, средната стойност и дисперсията на извадката, в частност, изместената оценка на дисперсията на извадката. Започва да ни казва някои неща, които ни дават логическо разбиране. Можеш да кликнеш на всяко от тези и да увеличиш, за да можеш наистина да изучиш детайлно тези графики. Вече направих скрийншот на това и го поставих на малката си подложка за драскане, за да можеш наистина да се гмурнеш в това и в логиката на това, което всъщност ни показва. Тук направих скрийншот и виждаш, че за този случай тук генералната съвкупност е била 529 данни. Средната стойност на генералната съвкупност е била 10,6. Тук долу в тази графа той поставя средната стойност на генералната съвкупност точно тук, на 10,6. Ето тук и виждаш, че дисперсията на генералната съвкупност е 36,6. Той поставя ето тук 36,6. Първата графика долу вляво ни казва две интересни неща. Просто да поясним, това което той пресмята, е изместена оценка на дисперсия на извадката. Това е изместена оценка на дисперсия на извадката. Той го пресмята. Това бива пресметнато за всяка от нашите точки информация. Като започнем с първата точка информация във всяка от нашите извадки и достигнем до n-тата точка информация в извадката. Взимаш тази точка информация, изваждаш я от средната стойност на извадката, повдигаш това на квадрат и после разделяш цялото нещо, не на n минус 1, а на малко n. Това ни казва няколко интересни неща. Първото нещо, което ни показва, е, че случаите, при които значително подценяваме дисперсията на извадката и получаваме дисперсии на извадката близки до нула, това са също случаите... или това непропорционално са случаите, при които средната стойност за тези извадки са много далеч от реалната средна стойност на извадката или можем да направим това наобратно. В случаите, при които средната стойност е много далеч от средната стойност на извадката, изглежда е много по-вероятно да подцениш дисперсията на извадката. Другото нещо, което може да забележиш, е, че по-розовите точки са тези за по-малка големина на извадката, докато сините точки са тези за по-голяма извадка. Тук виждаш тези две малки, предполагам опашки, така да кажем, на тази издутина, че тези краища са повече в червеникав цвят. Повечето от сините или лилавите точки са съсредоточени точно в средата ето тук, те ни дават по-добри оценки. Има някои червени тук и затова се вижда този лилав цвят, но тук, в тези опашки, почти чисто се вижда червено. Понякога, по случайност, има някоя синя, но непропорционално повече са червени, което наистина има смисъл, когато имаш по-малък размер на извадката, понеже тогава е по-вероятно да получиш средна стойност на извадката, която е лоша оценка на средната стойност на генералната съвкупност, която е далеч от средната стойност на генералната съвкупност, и е по-вероятно значително да подцениш дисперсията на извадката. Следващата диаграма наистина навлиза до сърцевината на проблема, понеже ни казва, че за големината на всяка от извадките, това ето тук е за извадка с големина две, ако продължим да взимаме извадка с големина две и продължим да пресмятаме тези изместени оценки на дисперсията на извадката и да делим това на дисперсията на генералната съвкупност, и да намираме средната стойност на всички тези, ще видиш много, много, много опити и много, много извадки с големина две, при които тази изместена оценка на дисперсията на извадката върху дисперсията на генералната съвкупност приближава половината от реалната дисперсия на генералната съвкупност. Когато размера на извадката е три, доближава 2/3, 66,6%, от реалната дисперсия на генералната съвкупност. При големина на извадката четири, доближава 3/4 от реалната дисперсия на генералната съвкупност. Можем да видим генералния модел, който се получава. Когато използваме изместена оценка, не се доближаваме до дисперсията на генералната съвкупност. Доближаваме (n – 1) върху n, по дисперсията на генералната съвкупност. Когато n беше две, това доближи 1/2. Когато n е три, това е 2/3. Когато n е четири, това е 3/4. Това ни дава изместена оценка. Как ще я направим неизместена? Ако наистина искаме да получим най-добра оценка на реалната дисперсия на генералната съвкупност, а не n минус едно върху n пъти дисперсията на генералната съвкупност, тогава искаме да умножим... ще направя това в цвят, който още не съм използвал, искаме да умножим по n върху n минус едно, за да получим неизместена оценка. Тук тези се съкращават и оставаме само с дисперсията на генералната съвкупност. Това искаме да изчислим. Ето тук ти остава неизместена оценка на дисперсията на генералната съвкупност, неизместена оценка на дисперсията на нашата извадка, която е равна на – и това видяхме в последните няколко видеа, което виждаш в книгите по статистика и понякога е объркващо, да се надяваме, че симулацията на Питър ти дава добра идея или поне те убеждава, че това е така. Затова ще искаш да разделиш на n минус 1.