Ако виждаш това съобщение, значи уебсайтът ни има проблем със зареждането на външни ресурси.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

Основно съдържание

Преговор и логично обяснение защо делим на n-1 за безпристрастно определяне на дисперсията на извадката

Преговор върху средна стойност на генералната съвкупност, средна стойност на извадката, дисперсия за генералната съвкупност и за извадката и логическо обяснение защо делим на n-1 за безпристрастно определяне на дисперсията на извадката. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В това видео искам да преговоря голяма част от това, за което говорихме, и после, да се надяваме, да укрепя логическото ти разбиране за това защо делим на n минус 1, ако искаме да получим неизместена оценка на дисперсията на генералната съвкупност, когато пресмятаме дисперсията на извадка. Нека помислим за генералната съвкупност. Да кажем, че това тук е генералната съвкупност. Тя е с размера главно N. Също така имаме извадка от тази генерална съвкупност, За нейна големина имаме малко n точки информация. Нека помислим за всички параметри и статистически данни, които знаем досега. Първо е идеята за средната стойност. Ако опитаме да пресметнем средната стойност за генералната съвкупност, това параметър ли ще е или статистическа информация? Когато опитваме да я пресметнем за генералната съвкупност, пресмятаме параметър. Пресмятаме параметър. Нека запиша това. За генералната съвкупност ние пресмятаме параметър. Това е параметър. Когато опитваме да пресметнем нещо за една извадка, наричаме това статистика. Как ще мислим за средната стойност за една генерална съвкупност? Първо, отбелязваме я с гръцката буква "мю" (mu). Взимаме всяка точка информация в нашата генерална съвкупност. Взимаме сбора на всички точки информация. Започваме с първата точка и продължаваме чак до N-тата точка информация. Добавяме всяка точка информация. Това е i-тата точка информация, така че х с индекс 1, плюс х с индекс 2, чак до х с индекс главно N. После делим на общия брой точки информация, които имаме. Как пресмятаме средната стойност на извадката? С извадката правим нещо много подобно. Отбелязваме я с х с черта отгоре. Ще вземем всяка точка информация в извадката, ще достигнем до малко n, събираме ги – това е сборът на всички точки информация в нашата извадка – и после делим на броя точки информация, които всъщност имаме. Другото нещо, което опитваме да изчислим за генералната съвкупност, което е параметър, а после опитваме да изчислим за извадката и да оценим приблизително за генералната съвкупност, това е дисперсията, която е мярка колко разпръснати са данните или колко много се различават точките информация от средната стойност. Нека запиша дисперсията ето тук. Как означаваме и изчисляваме дисперсията за една генерална съвкупност? Казваме, че дисперсията за генералната съвкупност... използваме гръцката буква сигма на квадрат... е равно на... и можеш да си го представиш като средната стойност на разстоянията на квадрат от средната стойност на генералната съвкупност. Но ние взимаме всяка точка информация, така че i е равно от 1, чак до n, взимаме тази точка информация и я изваждаме от средната стойност на генералната съвкупност Ако искаш да пресметнеш това, трябва да намериш това. Това е единият начин да го направим. Ще видим, че има и други начини да го направим, при които пресмятаме всичко наведнъж. Но най-лесният или най-логичният е първо да се пресметне това, после да се вземе всяка точка информация и да се извади от това, да се извади средната стойност от това, да се повдигне на квадрат, а после да разделим на общия брой точки информация, които имаме. Стигаме до интересната част – дисперсия на извадката. Когато хората говорят за дисперсия на извадка, има няколко инструмента в инструментариума им или има няколко начина за пресмятане. Единият начин е: изместена дисперсия на извадката, което не е неизместена оценка на дисперсията на генералната съвкупност. Това обикновено се отбелязва с s с долен индекс n. Как пресмятаме изместената оценка? Ще го пресметнем по начин, много подобен на начина на пресмятане на дисперсията ето тук. Но ще го направим за извадката си, а не за генералната съвкупност. Взимаме всяка точка информация в извадката си... имаме n броя от тях. От нея изваждаме средната стойност на извадката. Изваждаме средната стойност на извадката, повдигаме на квадрат и после делим на броя точки информация, които имаме. Но вече говорихме за това в последното видео. Какво е най-добрата ни неизместена оценка на дисперсията на генералната съвкупност? Обикновено опитваме да използваме него. Опитваме да намерим неизместена оценка на дисперсията на генералната съвкупност. В последното видео говорихме за това, че ако искаме да намерим неизместена оценка – и тук, в това видео, искам да ти покажа логиката защо това е така. Ще вземем сбора. Ще преминем през всяка точка информация в нашата извадка. Ще вземем тази точка информация, ще я извадим от средната стойност на извадката, ще повдигнем полученото на квадрат. Но вместо да делим на n, делим на n минус 1. Делим на по-малко число. Делим на по-малко число. Когато делиш на по-малко число, ще получиш по-голяма стойност. Тази ще е по-голяма. Тази ще е по-малка. Това се отнася до неизместената оценка. Това се отнася до изместената оценка. Ако хората пишат това, те говорят за дисперсията на извадката. Добра идея е да се пояснява за кое се говори. Но ако трябва да предполагаш и хората не ти дават допълнителна информация, те вероятно говорят за неизместена оценка на дисперсията. Така че вероятно ще делиш на n минус 1. Но нека помислим защо тази оценка ще е изместена и защо може да искаме оценка, което е по-голяма, като това. Може би в бъдещето бихме могли да имаме компютърна програма или нещо, което наистина ни прави да сме по-уверени, че деленето на n минус 1 ни дава по-добро изчисление на реалната дисперсия на генералната съвкупност. Нека си представим цялата информация в една генерална съвкупност. Ще ги поставя по номера на една линия. Това е моята числова ос. Това е моята числова ос. Нека схематизирам всички точки информация в генералната съвкупност. Това е някаква информация това е някаква информация. Тук има някаква информация. И тук има някаква информация. Мога да направя колкото точки си искам. Това са просто точки на числовата ос. Да кажем, че взема извадка от това. Това е цялата ми генерална съвкупност. Нека видим колко. Имам 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14. Колко ще е моето голямо N в този случай? Моето голямо N ще е 14. Голямото N ще е 14. Да кажем, че взема извадка... малко n... с големина на извадката 3. Преди да се замисля за това, нека помислим грубо къде ще е средната стойност на тази генерална съвкупност. Както го начертах... няма да изчислявам точно... изглежда средната стойност ще е някъде около това място. Реалната средна стойност на генералната съвкупност, параметърът, ще е ето тук. Нека помислим какво се случва, когато вземем извадка. Ще взема извадка с много малка големина, просто за да видим логиката, но това е вярно за извадка с каквато и да е големина. Да кажем, че имаме големина на извадката 3. Има вероятност, когато вземем извадка с големина 3, да сме взели извадка по такъв начин, че средната стойност на извадката да е доста близо до средната стойност на генералната съвкупност. Например, ако вземем извадка до тази точка, тази точка и тази точка, мога да си представя, че средната стойност на извадката може всъщност да е доста близо до средната стойност на генералната съвкупност. Но има слаба вероятност, че може би, когато взимам извадка, изваждам това и това. Ключовата идея тук е, че когато взимаш извадка, средната стойност на извадката винаги ще е в твоята извадка. Има вероятност, че когато вземеш извадка, средната стойност на генералната съвкупност може да бъде дори извън извадката. Това е просто за да ти покаже логиката. Тук средната стойност на извадката ще е някъде тук. Ако просто пресметнеш разстоянието от всяка от тези точки до средната стойност на извадката... това разстояние, и когато го повдигнеш на квадрат, и разделиш на броя на точки, които имаш – това ще е много по-ниска оценка, отколкото реалната дисперсия от реалната средна стойност на генералната съвкупност, при която нещата са много, много по-напред. Тази реална средна стойност на генералната съвкупност няма винаги да е извън извадката. Но е възможно да е. Като цяло, когато вземеш точките, намериш разстоянието на квадрат до средната стойност на извадката, която винаги ще се намира вътре в извадката , въпреки че реалната средна стойност на генералната съвкупност може да е извън нея или може дори да е в единия край на информацията, но, може да искаш да помислиш за това, вероятно ще подцениш дисперсията, вероятно ще подцениш реалната дисперсия на генералната съвкупност. Това тук е подценяване. Оказва се, че ако вместо да делиш на n, делиш на n минус 1, ще получиш малко по-голяма дисперсия на извадката. Това е неизместена оценка. В следващото видео... може да не стигна веднага до това... ми се иска да генерирам някакъв вид компютърна програма, която е по-убедителна, че това е по-добро изчисление за дисперсията на извадката, отколкото това.