If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:9:44

Преговор и логично обяснение защо делим на n-1 за безпристрастно определяне на дисперсията на извадката

Видео транскрипция

В това видео искам да преговоря голяма част от това, за което говорихме, и после, да се надяваме, да укрепя логическото ти разбиране за това защо делим на n минус 1, ако искаме да получим неизместена оценка на дисперсията на генералната съвкупност, когато пресмятаме дисперсията на извадка. Нека помислим за генералната съвкупност. Да кажем, че това тук е генералната съвкупност. Тя е с размера главно N. Също така имаме извадка от тази генерална съвкупност, За нейна големина имаме малко n точки информация. Нека помислим за всички параметри и статистически данни, които знаем досега. Първо е идеята за средната стойност. Ако опитаме да пресметнем средната стойност за генералната съвкупност, това параметър ли ще е или статистическа информация? Когато опитваме да я пресметнем за генералната съвкупност, пресмятаме параметър. Пресмятаме параметър. Нека запиша това. За генералната съвкупност ние пресмятаме параметър. Това е параметър. Когато опитваме да пресметнем нещо за една извадка, наричаме това статистика. Как ще мислим за средната стойност за една генерална съвкупност? Първо, отбелязваме я с гръцката буква "мю" (mu). Взимаме всяка точка информация в нашата генерална съвкупност. Взимаме сбора на всички точки информация. Започваме с първата точка и продължаваме чак до N-тата точка информация. Добавяме всяка точка информация. Това е i-тата точка информация, така че х с индекс 1, плюс х с индекс 2, чак до х с индекс главно N. После делим на общия брой точки информация, които имаме. Как пресмятаме средната стойност на извадката? С извадката правим нещо много подобно. Отбелязваме я с х с черта отгоре. Ще вземем всяка точка информация в извадката, ще достигнем до малко n, събираме ги – това е сборът на всички точки информация в нашата извадка – и после делим на броя точки информация, които всъщност имаме. Другото нещо, което опитваме да изчислим за генералната съвкупност, което е параметър, а после опитваме да изчислим за извадката и да оценим приблизително за генералната съвкупност, това е дисперсията, която е мярка колко разпръснати са данните или колко много се различават точките информация от средната стойност. Нека запиша дисперсията ето тук. Как означаваме и изчисляваме дисперсията за една генерална съвкупност? Казваме, че дисперсията за генералната съвкупност... използваме гръцката буква сигма на квадрат... е равно на... и можеш да си го представиш като средната стойност на разстоянията на квадрат от средната стойност на генералната съвкупност. Но ние взимаме всяка точка информация, така че i е равно от 1, чак до n, взимаме тази точка информация и я изваждаме от средната стойност на генералната съвкупност Ако искаш да пресметнеш това, трябва да намериш това. Това е единият начин да го направим. Ще видим, че има и други начини да го направим, при които пресмятаме всичко наведнъж. Но най-лесният или най-логичният е първо да се пресметне това, после да се вземе всяка точка информация и да се извади от това, да се извади средната стойност от това, да се повдигне на квадрат, а после да разделим на общия брой точки информация, които имаме. Стигаме до интересната част – дисперсия на извадката. Когато хората говорят за дисперсия на извадка, има няколко инструмента в инструментариума им или има няколко начина за пресмятане. Единият начин е: изместена дисперсия на извадката, което не е неизместена оценка на дисперсията на генералната съвкупност. Това обикновено се отбелязва с s с долен индекс n. Как пресмятаме изместената оценка? Ще го пресметнем по начин, много подобен на начина на пресмятане на дисперсията ето тук. Но ще го направим за извадката си, а не за генералната съвкупност. Взимаме всяка точка информация в извадката си... имаме n броя от тях. От нея изваждаме средната стойност на извадката. Изваждаме средната стойност на извадката, повдигаме на квадрат и после делим на броя точки информация, които имаме. Но вече говорихме за това в последното видео. Какво е най-добрата ни неизместена оценка на дисперсията на генералната съвкупност? Обикновено опитваме да използваме него. Опитваме да намерим неизместена оценка на дисперсията на генералната съвкупност. В последното видео говорихме за това, че ако искаме да намерим неизместена оценка – и тук, в това видео, искам да ти покажа логиката защо това е така. Ще вземем сбора. Ще преминем през всяка точка информация в нашата извадка. Ще вземем тази точка информация, ще я извадим от средната стойност на извадката, ще повдигнем полученото на квадрат. Но вместо да делим на n, делим на n минус 1. Делим на по-малко число. Делим на по-малко число. Когато делиш на по-малко число, ще получиш по-голяма стойност. Тази ще е по-голяма. Тази ще е по-малка. Това се отнася до неизместената оценка. Това се отнася до изместената оценка. Ако хората пишат това, те говорят за дисперсията на извадката. Добра идея е да се пояснява за кое се говори. Но ако трябва да предполагаш и хората не ти дават допълнителна информация, те вероятно говорят за неизместена оценка на дисперсията. Така че вероятно ще делиш на n минус 1. Но нека помислим защо тази оценка ще е изместена и защо може да искаме оценка, което е по-голяма, като това. Може би в бъдещето бихме могли да имаме компютърна програма или нещо, което наистина ни прави да сме по-уверени, че деленето на n минус 1 ни дава по-добро изчисление на реалната дисперсия на генералната съвкупност. Нека си представим цялата информация в една генерална съвкупност. Ще ги поставя по номера на една линия. Това е моята числова ос. Това е моята числова ос. Нека схематизирам всички точки информация в генералната съвкупност. Това е някаква информация това е някаква информация. Тук има някаква информация. И тук има някаква информация. Мога да направя колкото точки си искам. Това са просто точки на числовата ос. Да кажем, че взема извадка от това. Това е цялата ми генерална съвкупност. Нека видим колко. Имам 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14. Колко ще е моето голямо N в този случай? Моето голямо N ще е 14. Голямото N ще е 14. Да кажем, че взема извадка... малко n... с големина на извадката 3. Преди да се замисля за това, нека помислим грубо къде ще е средната стойност на тази генерална съвкупност. Както го начертах... няма да изчислявам точно... изглежда средната стойност ще е някъде около това място. Реалната средна стойност на генералната съвкупност, параметърът, ще е ето тук. Нека помислим какво се случва, когато вземем извадка. Ще взема извадка с много малка големина, просто за да видим логиката, но това е вярно за извадка с каквато и да е големина. Да кажем, че имаме големина на извадката 3. Има вероятност, когато вземем извадка с големина 3, да сме взели извадка по такъв начин, че средната стойност на извадката да е доста близо до средната стойност на генералната съвкупност. Например, ако вземем извадка до тази точка, тази точка и тази точка, мога да си представя, че средната стойност на извадката може всъщност да е доста близо до средната стойност на генералната съвкупност. Но има слаба вероятност, че може би, когато взимам извадка, изваждам това и това. Ключовата идея тук е, че когато взимаш извадка, средната стойност на извадката винаги ще е в твоята извадка. Има вероятност, че когато вземеш извадка, средната стойност на генералната съвкупност може да бъде дори извън извадката. Това е просто за да ти покаже логиката. Тук средната стойност на извадката ще е някъде тук. Ако просто пресметнеш разстоянието от всяка от тези точки до средната стойност на извадката... това разстояние, и когато го повдигнеш на квадрат, и разделиш на броя на точки, които имаш – това ще е много по-ниска оценка, отколкото реалната дисперсия от реалната средна стойност на генералната съвкупност, при която нещата са много, много по-напред. Тази реална средна стойност на генералната съвкупност няма винаги да е извън извадката. Но е възможно да е. Като цяло, когато вземеш точките, намериш разстоянието на квадрат до средната стойност на извадката, която винаги ще се намира вътре в извадката , въпреки че реалната средна стойност на генералната съвкупност може да е извън нея или може дори да е в единия край на информацията, но, може да искаш да помислиш за това, вероятно ще подцениш дисперсията, вероятно ще подцениш реалната дисперсия на генералната съвкупност. Това тук е подценяване. Оказва се, че ако вместо да делиш на n, делиш на n минус 1, ще получиш малко по-голяма дисперсия на извадката. Това е неизместена оценка. В следващото видео... може да не стигна веднага до това... ми се иска да генерирам някакъв вид компютърна програма, която е по-убедителна, че това е по-добро изчисление за дисперсията на извадката, отколкото това.