If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Защо делим на n-1 при определяне на дисперсията

Още една визуализация, предоставяща доказателство, че деленето на n-1 наистина ни дава безпристрастна оценка на дисперсията на генералната съвкупност. Симулация в: http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Привет! Това е симулация, създадена от потребителя на Кан Академия –Джъстин Хелпс, който отново се опитва да ни покаже защо делим на n минус 1, за да получим неизместена оценка на дисперсията на генералната съвкупност, когато се опитваме да пресметнем дисперсията на извадка. Тази симулация има генерална съвкупност, която е с равномерно разпределение. Той казва: "Използвах равномерно вероятностно разпределение от 0 до 200 за моята генерална съвкупност." После започваме да взимаме извадки от тази генерална съвкупност. Ще използваме извадки с големина 50. Това, което правим за всяка от тези извадки, е, че пресмятаме дисперсията на извадката като делим на n, като делим на n минус 1 и на n минус 2. И докато продължаваме с още и още извадки, взимаме средната стойност на дисперсиите, пресметната по различни начини. Откриваме накъде клонят тези средни стойности. Това е една извадка. Това е друга извадка. Това е друга извадка. Ако взема тази извадка, тогава сега събирам няколко неща и продължавам да взимам извадки. Видяхме нещо много интересно да се случва. Когато разделя на n, получавам дисперсията на моята извадка и въпреки че взимам средната стойност на много, много, много дисперсии от извадки, които вече взех, все още подценявам реалната дисперсия. Когато разделя на n минус 1, изглежда че получавам доста добра оценка, средната стойност на всички дисперсии на извадките наистина клони към реалната дисперсия. Когато разделя на n минус 2, пределно ясно е, че надценявам средната стойност на дисперсията на извадките, надценявам реалната дисперсия. Това ни дава доста добра представа защо n минус 1 е правилното нещо, което трябва да направим. Това е друг интересен начин за визуализиране на това. На хоризонталната ос ето тук сравняваме... всяка точка е една от нашите извадки и колкото по-далеч надясно е, толкова по-висока е тази средна стойност спрямо реалната средна стойност. Когато отидем наляво, това показва ли колко по-малка е средната стойност на извадката от реалната средна стойност? Например тази извадка ето тук е чак дотук надясно. Средната стойност на извадката е доста по-голяма от реалната средна стойност. Средната стойност на извадката тук беше много по-малка от реалната средна стойност. Средната стойност тук е само малко по-висока от реалната средна стойност. На вертикалната ос, като използваме този знаменател – като делим на n, пресмятаме две различни дисперсии. При едната дисперсия използваме средната стойност на извадката. При другата дисперсия използваме средната стойност на генералната съвкупност. На вертикалната ос сравняваме разликите между средната стойност, пресметната със средната стойност на извадката спрямо средната стойност, пресметната със средната стойност на генералната съвкупност. Например тази точка ето тук, когато пресметнем средната стойност със средната стойност на извадката, което е нормалният начин, по който го правим, това значително подценява каква би била средната стойност, ако някак знаехме каква е средната стойност на генералната съвкупност и можем да я пресметнем по този начин. Получаваш тази наистина интересна форма. Това е нещо, за което да се замислиш. Той препоръчва да помислиш защо или какъв вид крива е това всъщност. Другото интересно нещо е, че когато го погледнеш по този начин, е доста ясно, че цялата тази графика се намира под хоризонталната ос. Винаги, когато пресмятаме дисперсията на извадката с тази формула, когато използваме средната стойност на извадката, което обикновено правим, винаги получаваме по-ниска дисперсия, отколкото когато използваме средната стойност за генералната съвкупност. Това тук, когато разделим на n минус 1, не винаги я подценяваме. Понякога я надценяваме. Когато вземеш средната стойност на всички тези дисперсии, отиваш някъде по средата. Тук надценяваме малко повече. За да е ясно за какво говорим в тези три графики, нека направя скрийншот на това и да обясня в малко повече детайли. За да е ясно, на тази червена графика ето тук... нека направя това във възможно най-близък цвят – това оранжево... какво е това разстояние (чертае) за всяка от тези извадки, пресмятаме дисперсията на извадката, като използваме средната стойност на извадката. В този случай използваме n за знаменател. В този случай ето тук. От това изваждаме дисперсията на извадката или, предполагам, че можеш да наречеш това някаква псевдо дисперсия на извадката, ако някак знаехме средната стойност на генералната съвкупност. Това не е нещо, което виждаш често в статистиката. То е критерий за това колко много подценяваме дисперсията на извадката, ако нямаме реалната средна стойност на генералната съвкупност на разположение. Това е разстоянието. Това е разстоянието, което пресмятаме. Виждаш, че винаги го подценяваме. Тук малко го надценяваме. И също подценяваме. Но когато вземеш средната стойност, когато ги усредниш, това се приближава до реалната стойност. Тук делим на n минус 1, тук делим на n минус 2.