If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Дисперсия на извадката

Как можем да изчислим дисперсията на генералната съвкупност на база данните в извадката. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Да кажем, че ти е любопитно какви са навиците на хората за гледане на телевизия. И, в частност, колко часа телевизия гледат хората в страната? Ако си представим цялата страна – и вече говорихме за това – особено при страна като САЩ, но като цяло която и да е страна е много голяма генерална съвкупност. В САЩ говорим за около 300 милиона души. Идеално, ако можеш някак магически да го направиш, да проучиш или по някакъв начин да наблюдаваш всички 300 милиона души и да вземеш средната стойност за това колко часа телевизия гледат в даден ден. Това ще ти даде параметъра, средната стойност на генералната съвкупност. Но вече говорихме за това, в случай като този, това е много непрактично. Дори ако опиташ да го направиш, докато го направиш, информацията ти може да е стара, понеже някои хора може да са починали, други хора може да са били родени. Кой знае какво може да се случи. Това е истината. Има средна стойност за теоретичната генерална съвкупност за средното количество или средната стойност на часовете, през които американците гледат телевизия всеки ден. Това е правилно във всеки един момент. Почти е невъзможно да се намери точният отговор, да се намери тази точна стойност. Но не се отказвай. Казваш, че може би няма нужда да проучваш всички 300 милиона или да наблюдаваш всички 300 милиона. Вместо това ще наблюдаваме една извадка ето тук. Да кажем, за да опростим пресмятането, правиш извадка от шест. По-късно ще говорим защо шест може да не е толкова голяма извадка, колкото би ти се искало. Но проучваш колко телевизия гледат тези хора. Намираш един човек, който е гледал 1 и 1/2 часа. Друг човек е гледал 2 и 1/2 часа. Друг човек е гледал 4 часа. После намираш един човек, който е гледал 2 часа. И двама души, които са гледали по 1 час. С тази информация от извадката как ще получиш средната стойност на извадката? Средната стойност на извадката, което означаваме като малко х с черта отгоре, е сборът на всички тези, разделен на броя точки информация, които имаме. Да видим, имаме 1,5 плюс 2,5; плюс 4; плюс 2; плюс 1; плюс 1. Всичко това разделено на 6, което ни дава – да видим, 1,5 плюс 2,5 е 4, плюс 4 е 8, плюс 2 е 10, плюс още две е 12. Това ще е 12 върху 6, което е равно на 2 часа телевизия. Поне за извадката си можеш да кажеш, че средната стойност за извадката е два часа телевизия. Това е приблизителна оценка. Статистиката се опитва да определи този параметър, това нещо, което е много трудно да се разбере. Но това е най-добрият ни избор. Може би ще получим по-добър отговор, ако имаме повече информация. Но засега имаме това. Следващият въпрос, който си задаваш, е че не искаш да пресметнеш само средната стойност на генералната съвкупност, а също и друг параметър. Също искаш да пресметнеш дисперсията на генералната съвкупност. Отново, след като не можем да проучим всеки един в генералната съвкупност, това е почти невъзможно да се разбере. Но ще опитаме да получим приблизителната стойност на този параметър. Опитахме да изчислим средната стойност. Сега ще се опитаме да пресметнем и този параметър, параметърът дисперсия. Как ще го направиш? Логиката би казала, че може би ще направим същото нещо с извадката си, както бихме направили с генералната съвкупност. Когато търсиш дисперсията на генералната съвкупност, вземаш всяка точка информация в генералната съвкупност, намираш разликата между нея и обикновената средна стойност на генералната съвкупност, повдигаш тази разлика на квадрат и после събираш всички квадрати от тези разлики, а после ги делиш на броя точки информация, които имаш. Нека опитаме това. Нека вземем всяка от тези точки информация и да намерим разликата – нека направя това в различен цвят – всяка от тези точки информация и да намерим разликите между тази точка информация и средната стойност на нашата извадка – не средната стойност на генералната съвкупност, не знаем средната стойност на генералната съвкупност – средната стойност на извадката. Това е първата точка информация плюс втората точка информация – тоест, това е (4 минус 2) на квадрат. Това щеше да направиш и ако изчисляваше дисперсията на генералната съвкупност. Ако това беше цялата генерална съвкупност, така щеше да намериш средната стойност тук, ако това беше цялата генерална съвкупност. Намираш разстоянията на квадрат от всяка от тези точки информация и после разделяш на броя точки информация. Да помислим за това още малко. (1 минус 2) на квадрат. После имаш (2,5 минус 2) на квадрат, като 2 е средната стойност на извадката. Нека видя, този зелен цвят. Плюс (2 минус 2) на квадрат. Плюс (1 минус 2) на квадрат. После ще разделиш това на броя точки информация, които имаш. В този случай делим на 6. И какво ще получим? Ако просто направим изчислението, 1,5 минус 2 е –0,5. Повдигаме това на квадрат. Това става +0,25. (4 минус 2) на квадрат ще е 2 на квадрат, което е 4. (1 минус 2) на квадрат, това е –1 на квадрат става просто 1. 2,5 минус 2 е 0,5, на квадрат е 0,25. (2 минус 2) на квадрат, това е просто 0. После (1 минус 2) на квадрат е 1, това е –1 на квадрат. Така че получаваме 1. Ако съберем всички тези – нека първо събера целите числа. 4 плюс 1 е 5, плюс 1 е 6, а после имаме два пъти 0,25. Това ще е равно на 6,5... нека запиша това в неутрален цвят. Това ще е 6,5 върху 6. Има два начина, по които можем да запишем това, но нека просто извадя калкулатора и можем просто да го пресметнем. 6,5 разделено на 6 ни дава... ако го закръглим, приблизително 1,08. В това пресмятане е приблизително 1,08. Трябва да помислим дали това е най-доброто пресмятане, дали това е най-добрата оценка за дисперсията на генералната съвкупност, що се отнася до информацията, която имаме. Винаги можеш спориш, че можем да имаме повече информация. Но с информацията, която имаме, това ли е най-добрата оценка, която можем да направим, за да пресметнем дисперсията на генералната съвкупност? Ще трябва да се замислиш за момент. Оказва се, че това е близо, това е близо до най-доброто пресмятане, до най-добрата оценка, което можем да направим с информацията, която имаме. Това понякога бива наричано дисперсия на извадката. Това е определен тип дисперсия на извадка, при която просто разделяме на броя точки информация, които имаме. Хората записват това просто с n ето тук. Това е един начин за дефиниране на дисперсия на извадка в опит да изчислим нашата дисперсия на генералната съвкупност. Но се оказва – и в следващото видео ще ти дам интуитивно обяснение защо се оказва така. Иска ми се също да напиша компютърна симулация, която, поне експериментално, те кара да се чувстваш малко по-уверено. Но се оказва, че ще получиш по-добра оценка... отначало, когато първо помислиш за това, то е малко странно и като вуду магия... ще получиш по-добра оценка за дисперсията на генералната съвкупност, ако не делиш на 6, ако не делиш на броя точки информация, които имаш, а разделиш на числото, което е с едно по-малко от броя точки информация, които имаш. Как ще направим това? Можем да го обозначим като дисперсия на извадка. Когато повечето хора говорят за дисперсия на извадка, те говорят за дисперсия на извадка, при което правиш това изчисление, но вместо да делиш на 6, разделяш на 5. Ще разделиш на 5. Те ще кажат да разделиш на n минус 1. Какво ще получим в този случай. Горната част ще е абсолютно същата. Ще получим 6,5. Но нашият знаменател, нашето n е 6. Имаме 6 точки информация. Но ще разделим на 1 по-малко от 6. Ще разделим на 5. 6,5 разделено на 5 е равно на 1,3. Когато пресмятаме дисперсията на извадката с тази техника, която е по-основна техника, това изглежда малко като вуду магия. Защо разделяме на n минус 1, докато за дисперсията на генералната съвкупност делим на n? Помни, опитваме да определим дисперсията на генералната съвкупност. Оказва се, че това е по-добра оценка. Понеже другата оценка подценява каква е дисперсията на генералната съвкупност, това е по-добра оценка. Не знаем точно каква е. И двете могат да са далеч от истината. Може просто случайно да получим извадката. Но в много други извадки... и има много начини да си представиш това... това ще е по-доброто пресмятане. Ще ти даде по-добър резултат. Как записваме това? Как ще го запишем с математическо означаване? Помни, взимаме сбора. Взимаме всяка от тези точки информация. Ще започнем с първата точка информация и така нататък, до n-тата точка информация. Малкото n казва, че гледаме извадката. Ако имаме голямо N, това обикновено обозначава, че опитваме да сборуваме всичко в генералната съвкупност. Тук гледаме една извадка, малко n. Взимаме всяка точка информация, тоест всяко Xi и от това изваждаме средната стойност на извадката. После повдигаме това на квадрат. Взимаме сбора на разстоянията на квадрат. После разделяме, но не на броя точки информация, които имаме, но на 1 по-малко от броя точки информация, които имаме. Това пресмятане, при което просто сборуваме всичко това и после делим на 5, не на 6, това е стандартната дефиниция на дисперсия на извадка. Ще приключим тук. В следващото видео ще опитам да те накарам да разбереш защо делим на n минус 1, вместо да делим на n.