If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 10

Урок 2: Извадково разпределение на средна стойност на извадка

Извадково разпределение на средната стойност на извадката

Централната гранична теорема и извадковото разпределение на средната стойност на извадката. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В последното видео учихме за това коя е вероятно най-значимата идея в статистиката и това е централната гранична теорема. Причината това да е толкова акуратно е, че можем да започнем с всяко разпределение, което има добре дефинирана средна стойност и дисперсия... написах стандартно отклонение тук в последното видео, но трябваше да е средната стойност, и, да кажем, че има определена дисперсия. Мога да го запиша така или мога да запиша стандартното отклонение тук. Но, докато имаме добре дефинирана средна стойност и стандартно отклонение, не ме интересува как изглежда разпределението. Мога да взема извадки – в последното видео от размер четири – това означава, че буквално взимам четири отделни случая на тази случайна променлива, това е един пример. Взимам тяхната средна стойност и взимам предвид тази средна стойност на извадката за първия ми опит или, почти можеш да кажеш, за първата ми извадка. Знам, че е много объркващо, понеже можеш да смяташ, че една извадка, че една поредица е извадка или можеш да смяташ, че всеки член на поредицата е извадка. Това може да е малко объркващо. Но имам тази първа средна стойност на извадката и после продължавам да правя това отново и отново. Във втората ми извадка размерът на извадката ми е четири. Имам четири отделни случая на тази случайна променлива, взимам средно аритметичното им, имам още една средна стойност на извадката. Хубавото нещо на централната гранична теорема е, че докато продължавам да нанасям честотното разпределение на средните стойности на извадката ми, тя започва да доближава нещо, което приблизително е нормално разпределение. И върши по-добра работа за приблизителното достигане на това нормално разпределение, докато n нараства. И, за да знаем част от терминологията, тази честота на разпределението, тук, където го поставих, или ето тук горе, където започнах да поставям това, се нарича – това е малко объркващо, понеже много използвам думата извадка – това се нарича емпирично разпределение на средната стойност на извадката. Нека анализираме малко това, така че това дълго описание на това разпределение да е малко по-логично. Когато кажем, че е емпирично разпределение, това ни казва, че то е произлязло от – то е разпределение на някаква статистическа информация, която в този случай е средната стойност на извадката и го извличаме от извадките на първоначалното разпределение. Всяка от тези. Това е първата ми извадка и размера на извадката е четири. Използвам статистическата информация, средната стойност. Можех да го направя с други неща, можех да го направя с модата или размаха, или други статистически величини. Но емпиричното разпределение на средната стойност на извадката е най-често срещаното. Вероятно е, според мен, най-доброто място, откъдето да започнем да учим за централната гранична теорема, и, дори, честно казано, за емпиричното разпределение. Така се нарича. Ще започна с малко история и ще ти докажа това експериментално, не математически, но мисля, че експерименталното е по-задоволително за статистиката – това ще има същата средна стойност като оригиналното разпределение. Като оригиналното разпределение тук. Има същата средна стойност, но в следващото видео ще видим, че това ще започне приблизително да наподобява нормално разпределение, въпреки че оригиналното ми разпределение, от което това е генерирано, е напълно не-нормално. Нека започнем с това приложение тук. Просто, за да дам необходимия кредит, това е – мисля, че беше разработено в Университета Райс – от onlinestatbook.com. Това е тяхното приложение, което мисля е доста добро приложение, понеже наистина ти помага да визуализираш какво е емпирично разпределение на средната стойност на извадката. Мога буквално да създам персонализирано разпределение. Нека направя това малко налудничаво. На теория можеш да направиш това с дискретна или непрекъсната функция на плътност на вероятността. Но тук можем да приемем една от 32 стойности и просто ще групирам различните възможности, за да получа тези 32 стойности. Очевидно, това тук не е нормално разпределение. Изглежда малко бимодално, но няма дълги опашки. Но първо ще използвам симулация, за да разбера по-добре какво е емпиричното разпределение. Ще взема – ще започнем с – по пет едновременно. Размера на извадката ми ще е пет. Когато натисна "animated" (анимирано), това ще вземе пет извадки от тази функция на вероятностното разпределение. Ще вземе пет извадки и ще видиш, когато натисна "animated", то ще вземе средно аритметичното от тях и ще го постави тук. После ще го натисна отново и то отново ще направи това. Прави пет извадки от тук, взима средно аритметичното от тях и го поставя тук. Какво правя? Натиснах – исках да изчистя това. Нека направя това долното... Нека направя това отново. Ще взимам пет едновременно. Взех пет извадки от тук и после то взе тяхната средна стойност и постави средната стойност тук. Нека направя това отново. Пет извадки от тази функция на вероятностното разпределение, поставих ги тук. Продължавам да го правя. Ще отнеме известно време. Но можеш да видиш, че ги поставих тук. Мога да направя това 1 000 пъти, ще отнеме много дълго време. Да кажем, че исках да го направя 1 000 пъти. За да е ясно, тази програма генерира случайните числа. Това не е като нагласена програма. Тя ще генерира случайните числа според тази функция на вероятностното разпределение. Ще взима по пет наведнъж, ще намира средните им стойности и ще поставя средните им стойности. Ако натисна "10 000", тя ще направи това 10 000 пъти. Ще взима пет числа от тук 10 000 пъти и ще намира средните им стойности 10 000 пъти и ще постави 10 000 средни стойности тук. Нека направим това. Ето. Забележи, това вече изглежда доста като нормално разпределение. Както казах, оригиналната средна стойност на налудничавото ми разпределение тук беше 14,41 и, след като направи 10 000 извадки – или 10 000 опита – средната ми стойност тук е 14,41. Вече се доближавам доста до средната стойност там. Може да забележиш, че стандартното ми отклонение е по-малко от това. Ще говорим за това в едно бъдещо видео. Асиметрията и ексцесът, те са неща, които ни помагат да измерим колко нормално е едно разпределение. Говорихме малко за това в миналото и нека направя това малко по-различно, интересно е. Това са доста прости концепции. Асиметрията буквално ни казва – ако това е– нека го направя в различен цвят – ако това е перфектно нормално разпределение – и очевидно рисунката ми е много далеч от перфектното – ако това е перфектно разпределение, то щеше да е напълно симетрично. Ако имаш положителна асиметрия, това означава, че имаш по-дълга дясна опашка, отколкото иначе щеше да очакваш. Понякога, с положителна асиметрия, може да изглежда подобно на това. Щеше да има по-дълга опашка надясно. Това би било положителна асиметрия, което го прави малко по-малко от идеално за положително разпределение. Отрицателна асиметрия би изглеждала така, ще има дълга опашка наляво. Така че една отрицателна асиметрия би изглеждало така. Това е отрицателна асиметрия. Ако ти е трудно да го запомниш, просто помни в коя посока отива опашката. Тази опашка отива в отрицателна посока, тази опашка отива в положителна посока. Ако нещо няма асиметрия, това означава, че е хубаво и симетрично около средната си стойност. Ексцес, което звучи като доста изискана дума, не е толкова изискана идея. Отново ще нарисувам перфектно нормално разпределение. Помни, няма едно нормално разпределение, може да имаш различни средни стойности и различни стандартни отклонения. Да кажем, че това е перфектно нормално разпределение. Ако имам положителен ексцес, ще имам по-дебели опашки – нека я нарисувам по-добре от това – ще имам по-дебели опашки, но ще имам по-остър връх. Не трябваше да го рисувам толкова остър, нека го нарисувам така. Ще имам по-дебели опашки и ще имам по-остър връх, отколкото при нормално разпределение. Това тук е положителен ексцес. Нещо, което има положителен ексцес – в зависимост от това колко положителен е – това ти казва, че е малко по-остро, отколкото реално нормално разпределение. Отрицателен ексцес има по-малки опашки, но е по-гладко близо до средата. То е като това. Нещо като това ще има отрицателен ексцес. Може би в бъдещи видеа ще разгледаме това в подробности, но в контекста на симулацията, това просто ни казва колко нормално е това разпределение. Когато нашият размер на извадката беше n равно на 5 и направихме 10 000 опита, доста се доближихме до нормално разпределение. Нека направим още 10 000 опита, просто, за да видим какво ще се случи. Изглежда още повече като нормално разпределение. Нашата средна стойност сега е точно същото число, но все още имаме малко изкривяване и малък ексцес. Нека сега видим какво се случва, ако направим същото нещо с по-голям размер на извадката. Можем да ги направим едновременно. Тук n е равно на 5. Нека тук направим това при n равно на 25. Нека изчистя тези. Ще направя емпирично разпределение на средната стойност на извадката. Ще направя 10 000 опита – ще направя един анимиран опит, просто, за да можеш да запомниш какво става. Буквално взимам първите пет извадки от тук и намирам средната им стойност. Сега взимам 25 извадки от тук, намирам средната стойност и я поставям тук долу. Тук размерът на извадката е 25, тук е пет. Ще го направя още веднъж. Взимам пет, взимам средната стойност, поставям я. Взимам 25, взимам средната стойност и после я поставям тук долу. Това е извадка с по-голям размер. Сега ще направя същото това нещо 10 000 пъти. Помни, първото ни разпределение беше просто това налудничаво, много не-нормално разпределение, но след като направихме това – оп, не исках да го направя толкова голямо. Скролвам малко нагоре. Какво е интересното тук? Имам предвид, и двете изглеждат долу-горе нормално, но ако погледнеш асиметрията и ексцеса, когато извадката ни е с по-голям размер, то е по-нормално. Това има по-малка асиметрия, отколкото когато размерът на извадката беше само пет. Това има и по-малък отрицателен ексцес, отколкото когато размерът на извадката беше пет. Това е по-нормално разпределение. Едно нещо, което ще разгледаме по-нататък в бъдещо видео, е не само, че това е по-нормално по форма, но също приляга по-тясно около средната стойност. Дори можеш да помислиш защо това е логично. Когато размерът на извадката ти е по-голям, шансовете да си доста далеч от средната стойност са доста ниски. Понеже е много малка вероятността, ако вземеш 25 или 100 извадки, да получиш няколко неща много отдалечени оттук или няколко неща много отдалечени оттук. Много вероятно е да получиш умерено разсейване на нещата. Тоест, логично е да е по-малко вероятно средната ти стойност – средната стойност на извадката – да е по-далеч от средната стойност. Ще говорим малко повече за това в бъдеще. Но се надявам, че това те задоволява – поне експериментално не съм ти го доказал с математическа стойност, което се надявам да направим в бъдеще. Но се надявам, че поне експериментално те задоволява, че централната гранична теорема наистина се прилага към всяко разпределение. Имам предвид, това е налудничаво разпределение. Окуражавам те да използваш това приложение на onlinestatbook.com и да експериментираш с други налудничави разпределения, за да го повярваш. Но интересните неща са, че ние се доближаваме до нормално разпределение, но когато размерът на извадката ми нараства, това по-добре приляга на нормално разпределение.