If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 10

Урок 2: Извадково разпределение на средна стойност на извадка

Стандартна грешка на средната стойност

Стандартна грешка на средната стойност (също позната като стандартно отклонение на извадковата средна стойност!). Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В последните няколко видеа започвахме с някое странно разпределение. Не е задължително да е странно. Може да е хубаво нормално разпределение. Но, за да обясня това, че не е задължително да имаш нормално разпределение, предпочитам да използвам странните. Да кажем, че имаш някакъв вид странно разпределение, което изглежда подобно на това. Може да изглежда всякак. Множество пъти сме виждали... взимаш извадки от това странно разпределение. Да кажем, че взимаш извадки от n равно на 10. Взимаме 10 отделни стойности на тази случайна променлива, намираме средно аритметичното и после го нанасяме. Това е един отделен случай. Продължаваме да правим това. Правим го отново. Взимаме 10 стойности на тази случайна променлива, намираме средно аритметичното, отново го поставяме. Правиш това множество пъти – на теория, безброен брой – и започваш да доближаваш емпиричното разпределение на средната стойност на извадката. При n равно на 10, това няма да е перфектно нормално разпределение, но ще е близо. Ще е перфектно, само ако n беше безкрайност. Но, да кажем, че евентуално – всичките ни извадки, намираме много средно аритметични стойности, които са там. Това става на купчинка. Това става на купчинка. И, евентуално, ще започнем да доближаваме нещо, което изглежда подобно на това. От последното видео видяхме, че, първо, ако... да допуснем, че го направехме още веднъж. Този път, да приемем, че n е равно на 20. Първо, разпределението, което ще получим, ще е по-нормално. И, може би, в бъдещи видеа, ние ще се задълбочим повече в неща като ексцес и асиметрия. Но това ще е по-нормално. Но още по-важно тук или, предполагам, още по-очевидно за нас, отколкото видяхме в експеримента, това ще има по-ниско стандартно отклонение. Всички те ще имат еднаква средна стойност. Да кажем, че средната стойност тук е 5. После, средната стойност тук също ще е 5. Средната стойност на емпиричното разпределение на средната стойност на извадката ще е 5. Няма значение какво е нашето n. Ако нашето n е 20, тя пак ще е 5. Но стандартното ни отклонение ще е по-малко в тези сценарии. Видяхме това чрез експериментиране. Може да изглежда така. Ще е по-нормално, но ще има по-тясно стандартно отклонение. Може да изглежда така. И, ако направехме това с по-голям размер на извадката – нека направя това в различен цвят. Ако направим това с още по-голям размер на извадката, n е равно на 100, тогава ще получим нещо, което дори още по-добре приляга на нормалното разпределение. Взимаме 100 отделни стойности от тази случайна променлива, взимаме средно аритметичното и го нанасяме. 100 отделни стойности на тази случайна променлива, взимаме средно аритметичното, нанасяме го. Продължаваме да правим това. Ако продължим да правим това, ще получим нещо, което е още по-нормално от което и да е от тези. Това ще пасне много по-добре на истинско нормално разпределение, но, дори по-очевидно за човешкото око, ще е още по-тясно. Ще има много ниско стандартно отклонение. Ще изглежда подобно на това. Ще ти покажа това видео на симулационното приложение, вероятно по-късно в това видео. Случват се две неща. Докато увеличаваш размера на извадката всеки път, когато вземеш средно аритметичното, две неща ще се случат. Това ще стане по-нормално и стандартното ти отклонение става по-малко. Може да изникне въпросът: "Има ли формула?" Ако знам стандартното отклонение... това е стандартното отклонение на оригиналната ми функция на вероятностна плътност. Това е средната стойност на оригиналната ми функция на вероятностна плътност. Знам стандартното отклонение и знам, че n ще се промени, в зависимост колко извадки взимам всеки път, когато пресмятам средната стойност на извадката. Знам стандартното отклонение или, може би, знам дисперсията. Дисперсията е просто стандартното отклонение на квадрат. Ако не помниш това, може да искаш да преговориш тези видеа. Но, ако знам дисперсията на оригиналното ми разпределение и ако знам колко е n, колко извадки взимам всеки път, когато сметна средно аритметичното, за да поставя едно нещо в емпиричното разпределение на средната стойност на извадката, има ли начин да предвидя каква ще е средната стойност на тези разпределения? Стандартното отклонение на тези разпределения. За да направя това, че да не се объркаш между това и това, нека кажа "дисперсията". Ако знаеш дисперсията, можеш да откриеш стандартното отклонение, понеже едното е просто корен квадратен на другото. Това е дисперсията на оригиналното ни разпределение. За да покажа, че това е дисперсията на нашето емпирично разпределение на средната стойност на извадката, ще го запишем тук. Това е дисперсията на средната стойност на извадката. Помни, реалната средна стойност е тази, гръцката буква "мю" (mu) е реалната средна стойност. Това е равно на средната стойност. Докато "х" с черта над него означава средна стойност на извадката. Тук казваме, че това е дисперсията на средните стойности на извадката. Това ще е реално разпределение. Това не е изчисление. Ако магически знаехме разпределението, тук има реална дисперсия. Разбира се, средната стойност – това има средна стойност. Това тук – ако искаме означаването ни да е вярно – това е средната стойност на емпиричното разпределение на средната стойност на извадката. Това е средната стойност на нашите средни стойности. Просто случайно е същото нещо. Това е средната стойност на средните стойности на нашата извадка. Това ще е същото като това, особено, ако направим опита отново и отново, и отново. Но целта на това видео е дали има начин да намерим тази дисперсия при дадени дисперсията на оригиналното разпределение и n. Оказва се, че има. Няма да показвам доказателството тук. Искам да ти покажа логиката. Мисля, че вече разбираш, че с всеки опит, който направиш, ако направиш 100, е много по-вероятно, когато вземеш средно аритметичното, да се доближиш до реалната средна стойност, отколкото ако вземеш n от 2 или n от 5. Много по-малко вероятно е да си далеч от нея, ако направиш 100 опита, отколкото ако направиш пет. Мисля, че знаеш, че това, по някакъв начин, трябва да е обратно пропорционално на n. Колкото по-голямо е n, толкова по-малко е стандартното отклонение. Оказва се, че това е толкова просто, колкото е възможно. Това е едно от тези магически неща в математиката. Някой ден ще ти го докажа. Искам първо да ти дам практическо знание. При статистиката винаги ми е трудно да реша дали трябва да съм по-формален, когато ти давам твърди доказателства, но стигнах до заключението, че в статистиката е по-важно първо да получиш практическо знание и после, по-късно, след като разбереш всичко това, можем да стигнем до наистина задълбочената математика и да ти го докажа. Но мисля, че засега ти трябват само експериментални доказателства, чрез използването на тези симулации, за да ти покажа, че това наистина е вярно. Оказва се, че дисперсията на емпиричното разпределение на средната стойност на извадката е равно на дисперсията на оригиналното разпределение – това ето тук – делено на n. Това е всичко. Ако това тук горе беше дисперсия от – да кажем, че това тук горе има дисперсия, равна на 20. Просто си измислих това число. После, да кажем, че n е 20. Тогава дисперсията на емпиричното разпределение на средната стойност на извадката за n равно на 20 – ще вземеш дисперсията тук горе – дисперсията е 20 – делено на n, 20. Тук дисперсията ще е 20 делено на 20, което е равно на 1. Това е дисперсията на оригиналното вероятностно разпределение. А това е твоето n. Колко ще е стандартното отклонение? Колко ще е корен квадратен от това? Стандартното отклонение ще е корен квадратен от 1. Това също ще е 1. Можем да запишем и това. Можем да вземем корен квадратен на двете страни на това и да кажем, че стандартно отклонение на емпиричното разпределение на средната стойност на извадката често се нарича стандартно отклонение на средната стойност, а също се нарича – ще запиша това – стандартна грешка на средната стойност. Всички тези неща, които сега споменах, означават стандартното отклонение на емпиричното разпределение на средната стойност на извадката. Затова това е объркващо. Понеже използваш думите "средна стойност" и "извадка" отново и отново. И, ако това те обърква, уведоми ме. Ще направя друго видео или ще спра и повторя, или нещо такова. Но, ако просто вземем корен квадратен от двете страни, стандартната грешка на средната стойност или стандартното отклонение на емпиричното разпределение на средната стойност на извадката е равно на стандартното отклонение на оригиналната функция на оригиналната функция на вероятностната плътност, което може да е доста ненормално, делено на корен квадратен от n. Просто взех корен квадратен на двете страни от това уравнение. Лично, предпочитам да помня това, че дисперсията е обратно пропорционална на n и после предпочитам да се върна към това, понеже това е по-лесно. Просто взимаш дисперсията, делена на n. Ако искам стандартното отклонение, просто взимам корен квадратен на двете страни и получавам тази формула. Тук, когато n е 20, стандартното отклонение на емпиричното разпределение на средната стойност на извадката ще е едно. Тук, когато n е 100, дисперсията... дисперсията на емпиричната средна стойност на разпределението на извадката или дисперсията на средната стойност, или средната стойност на извадката, ще е равна на 20, дисперсията на това, делено на n. Това е равно на – n е 100 – равно е на една пета. Стандартното отклонение на това или стандартното отклонение на емпиричното разпределение на средната стойност на извадката, или стандартната грешка на средната стойност, ще е корен квадратен от това. Тоест, 1 върху корен квадратен от 5. Това тук ще трябва да е малко под една втора от стандартното отклонение, докато това тук има стандартно отклонение от 1. Виждаш, че това определено е по-малко. Знам какво си казваш сега. "Сал, ти просто ми даде формула. Не е задължително да ти вярвам." Да видим дали можем да го докажем, чрез използване на симулацията. Просто за забавление малко ще си поиграя с това разпределение. Това е новото ми разпределение. Нека взема n – нека взема две неща, на които е лесно да вземем квадратния корен, понеже гледаме стандартните отклонения. Да кажем, че вземем n от 16 и n от 25. Да направим 10 000 опита. В този случай с всеки опит ще взимаме 16 извадки от тук, ще вземем средно аритметичното и ще направим диаграма на честотата. Тук ще направим 25 едновременно и после ще вземем средно аритметичното. За да го запомниш, ще го направя анимирано веднъж. Взимам 16 извадки, поставям това тук. Взимам 16 извадки, както е описано от тази функция на вероятностната плътност, или сега са 25. Поставям ги тук. Какво ще получа, ако направя това 10 000 пъти? Колко ще получа? Добре. Тук, просто визуално, можеш да кажеш, че когато n е било по-голямо, стандартното отклонение тук е по-малко. Това е по-свито. Но нека запиша това. Да видим дали мога да си го спомня. Тук n е 6. При това случайно разпределение, което направих, стандартното отклонение беше 9,3. Ще запомня тези. Стандартното отклонение за оригиналното беше 9,3. Стандартното отклонение тук беше 2,3 и стандартното отклонение тук е 1,87. Да видим дали това съответства на формулата ни. Ще махна това от екрана за малко, ще се върна обратно и ще направя няколко изчисления. Това е на другия ми екран, за да мога да си спомня тези числа. В опита, който направихме, шантавото ми разпределение имаше стандартно отклонение от 9,3. Когато n беше равно на 16 – просто направихме експеримента, направихме няколко опита, взехме средно аритметичното и направихме всичко това – получихме стандартното отклонение на емпиричното разпределение на средната стойност на извадката или стандартната грешка на средната стойност. Експериментално определихме, че това е 2,33. После, когато n беше равно на 25, получихме, че стандартната грешка на средната стойност е равна на 1,87. Да видим дали това съответства на формулите ни. Знаем, че дисперсията... или почти можем да кажем дисперсията на средната стойност или стандартната грешка – дисперсията на емпиричното разпределение на средната стойност на извадката е равно на дисперсията на оригиналното ни разпределение, разделена на n. Взимаме корен квадратен на двете страни. После получаваме, че стандартната грешка на средната стойност е равна на стандартното отклонение на оригиналното разпределение, делено на корен квадратен от n. Да видим дали това върши работа за тези две неща. Ако взема 9,3 – нека направя този случай. 9,3 делено на корен квадратен от 16 – n е 16 – тоест, делено на корен квадратен от 16, което е 4. Колко получавам? 9,3 делено на 4. Нека извадя калкулатор. Да видим. Искаме да разделим 9,3 на 4. 9,3 делено на корен квадратен от n – n беше 16, тоест, делено на 4 – е равно на 2,32. Това е равно на 2,32, което е много, много близо до 2,33. Това беше след 10 000 опита. Може би точно след това ще видя какво се случва, ако направим 20 000 или 30 000 опита, при които правим извадки от 16 и взимаме средно аритметичното. Нека разгледаме това. Тук ще вземем 9,3. Нека нарисувам малка черта тук. Може би ще скролна надолу. Това може да е по-добре. Взимаме стандартното отклонение на оригиналното разпределение – тази формула, която изведохме тук ще ни каже, че стандартната ни грешка трябва да е равна на стандартното отклонение на оригиналното разпределение – 9,3 – делено на корен квадратен от n, делено на корен квадратен от 25. Корен квадратен от 16 беше 4. Това е равно на 9,3 делено на 5. Да видим дали това е 1,87. Нека отново извадя калкулатора си. Ако сметна 9,3 делено на 5, колко ще получа? 1,86 и това е доста близо до 1,87. В този случай имаме 1,86. Както можеш да видиш, това, което експериментално получихме, беше почти точно – и това е след 10 000 опита – това, което очакваш. Нека направим още 10 000. Имаш още 10 000 опита. Все още сме в приблизителните стойности. Няма да стигнем до – може би не мога да се надявам да получа точното число, закръглено или каквото и да е. Но, както можеш да видиш, надявам се, че това ще е достатъчно задоволително за теб, че дисперсията на емпиричното разпределение на средната стойност на извадката ще е равна на дисперсията на оригиналното разпределение, без значение колко шантаво ще е разпределението ти, делено на размера на извадката, на броя извадки, които правиш за всяка група, чието средно аритметично взимаш. Предполагам това е най-добрият начин да си го представиш. Понякога това може да е объркващо, понеже взимаш извадки от средно аритметичните стойности, базирани на извадки. Когато някой каже размер на извадка, ти се питаш: "Дали размерът на извадката е броят пъти, когато взех средно аритметичните, или броят пъти, когато всеки път взимам средните стойности? Не боли да поясниш това. Обикновено, когато говорят за размер на извадката, те говорят за n. И, поне в моя ум, когато мисля за опитите като когато вземеш извадка с размер от 16, когато вземеш средно аритметичното, това е един опит. И после го поставяш. После го правиш отново и това е друг опит. После го правиш отново и отново. Надявам се, че това ти помага да си изясниш нещата. Сега също така ще разбираш как да получиш стандартната грешка на средната стойност.