If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 10

Урок 2: Извадково разпределение на средна стойност на извадка

Централна гранична теорема

Въведение в централната гранична теорема и разпределението на средната стойност за извадката. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В този клип искам да разгледаме едно от най-основните и най-важните понятия в статистиката и може би в цялата математика. Това е централната гранична теорема. Тя ни казва, че можем да започнем с произволно разпределение, което има строго определени медиана и дисперсия. И ако има строго определена дисперсия, значи има и строго определено стандартно отклонение. Това може да е непрекъснато или дискретно разпределение Аз ще направя дискретно, защото ще ни е по-лесно да си го представим в този клип. Да кажем, че имам дискретна вероятностна функция. Ще внимавам много да не заприлича на нормално разпределение, защото искам да ти покажа силата на централната гранична теорема. Да кажем, че имам едно разпределение. Ще взема числата от 1 до 6: 1, 2, 3, 4, 5, 6. Това е някакъв странен зар. Много е вероятно да получим 1, тук ще направя права линия – да кажем, че е много вероятно да получим 1, невъзможно е да получим 2 и е средно вероятно да получим 3 или 4. Да кажем, че е невъзможно да получим 5. И накрая – много е вероятно да получим 6. Това е функцията ми за вероятностно разпределение. Ако трябва да начертаем средната стойност –това е симетрично, значи средната стойност ще е може би нещо такова. Средната стойност ще бъде по средата. Това тук ми е средната стойност. А стандартното отклонение ще е толкова отдалечено и толкова отдалечено под и над средната стойност. И това е моята функция за определено вероятностно разпределение. Ето какво ще направя сега. Вместо да правя извадки на стойности на тази променлива, която е описана от функцията ми за вероятностно разпределение, ще взема извадки, но ще намеря средноаритметичната им стойност и после ще погледна извадките и ще определя честотата на средноаритметичните им стойности. Под средноаритметични стойности имам предвид средните стойности. Нека определя нещо... да кажем какъв е размерът на извадките. Мога да взема произволно число, но нека първо кажем, че взимаме извадка от n = 4. Това означава, че ще взема 4 примерни стойности от тук. Да кажем, че първо взимам 4 примерни стойности. Размерът на извадката ми е 4. Да кажем, че получавам 1, после още едно 1, после 3 и после 6. Това е първата ми извадка с размер 4. Може би терминологията е малко объркваща тук. Имам извадка, съставена от 4 примерни стойности. Когато говорим за средна стойност на извадката и извадково разпределение на средната стойност – за които ще говорим още повече в следващите няколко клипа, под "извадка" обикновено се има предвид множеството от примерните стойности на разпределението. А размер на извадката означава колко примерни стойности от разпределението сме взели. Но терминологията може да те обърка, защото можем да си представим и една от примерните стойности като извадка. Но ние взимаме 4 такива стойности тук. Имаме размер на извадката 4. И сега ще намеря средната им стойност. Да кажем, че средната стойност... ще внимавам много, когато говоря за "средна стойност", каква е средната стойност на тази първа извадка с размер 4? 1 плюс 1 е 2. 2 плюс 3 е 5. 5 плюс 6 е 11. 11 делено на 4 е 2,75. Това е първата средна стойност на извадка от първата ми извадка с размер 4. Нека взема още една извадка. Още една извадка с размер 4. Да кажем, че получавам 3, 4, още едно 3 и 1. Този път на се получи 6. Спомни си, че не мога да получа 2 или 5. Не е възможно за това разпределение. Шансът да получа 2 или 5 е нулев. Значи тук не мога да имам двойки или петици. За втората ми извадка от 4 стойности, средната стойност е... втората ми средна стойност на извадка е 3 плюс 4, това е 7, 7 плюс 3 е 10, плюс 1 е 11. 11 делено на 4 е 2,75. Ще взема още една извадка, защото искам да стане много ясно какво правим. Значи взимам още една извадка – ще вземем и много други, но искам да разгледаме още една в детайли. Да кажем, че това е третата ми извадка с размер 4 – взимам точно 4 стойности. Извадката ми съдържа 4 стойности от първоначалното ми побъркано разпределение. Да кажем, че получавам 1, 1, 6 и 6. Средната стойност на третата извадка е: 1 плюс 1 = 2, 2 плюс 6 е 8, 8 плюс 6 е 14. 14 делено на 4 е 3,5. И като намирам средните стойности на всичките ми извадки с размер 4, ще намеря тяхната средна стойност. Ще нанеса тези средни стойности в диаграма на честотата на разпределението. След няколко секунди ще те изненадам. Нанасям всичко това върху честотната диаграма. За първата си извадка получих средна стойност 2,75. Нанасям честотата на средните стойности на извадките, които съм получил. Веднъж съм получил 2,75. Така че отбелязвам тук. Това е от ето тази извадка. Втория път също получих 2,75. Това тук е 2,75. Получил съм го два пъти. Така, тук нанасям честотата. После получих 3,5. Тук са всички възможни стойности, можех да имам 3, или 3,25, или 3,5... Имам 3,5, така че нанасям тук. И сега ще продължа да взимам такива извадки. Може би ще взема 10 000 от тях. Продължавам да взимам извадки. Да кажем, че съм взел 10 000. Ще нанеса само няколко. Ето как ще изглежда, всеки път слагам по една точка и ще трябва да променя мащаба. Ако погледнем така, пак ще имаме всички възможни стойности, които можем да получим. Може би 2,75 е тук. Първата ни точка ще е ето тук, а втората ще е тук. И третата, 3,5, ще бъде тук. Ще направя това 10 000 пъти – ще имам 10 000 точки. Да кажем, че продължавам да нанасям точките. Продължавам да нанасям честотите. Продължавам така с доста точки. Ето какво ще видим, когато нанеса много, много извадки с размер 4. Ще получа нещо, което ще започне да прилича на нормално разпределение. Всички тези точки представляват конкретни средни стойности на извадки. Продължавам да добавям към тази колона, което означава, че продължавам да получавам средна стойност 2,75. След известно време ще получа нещо, което започва да напомня нормално разпределение. Това е хубавото на централната гранична теорема. Централната гранична... в оранжево имам случая, когато n е равно на 4. Размерът на извадката ми беше 4. Ако направя същото с извадка от, да речем, 20... В този случай, вместо да взимам 4 примера от шантавото първоначално разпределение, ще взимам по 20 случайни стойности, ще ги събирам и деля сбора на 20, и после пак ще нанасям средните им стойности. В този случай ще имам разпределение, което изглежда така. Ще обсъдим това и в други клипове. Но излиза, че ако нанеса 10 000 средни стойности на извадки, ще се случат две неща. Ще заприлича още повече на нормално разпределение; средната стойност ще остане същата, но след няколко клипа, в следващите клипове ще видиш, че всъщност... Нека уточним – ще имаме същата средна стойност. Това ще има същата средна стойност. Но ще има по-малко стандартно отклонение. Ще започна отдолу, защото ще се натрупват. Получаваме една стойност, после друга и друга... но това все повече ще се приближава към нормално разпределение. Истината е, и това и е чудесното на централната гранична теорема – е, че когато размерът на извадката става по-голям, можем да кажем, че като се приближава да безкрайност, но няма нужда да сме толкова близо до безкрайността, ще достигнем нормално разпределение. Дори да имаме размер на извадка 10 или 20, вече сме много близо до нормално разпределение. Практически приближението се доближава максимално до това, което виждаме във всекидневния си живот. Но интересното е, че можем да започнем с някакво шантаво разпределение, нали така? Това няма нищо общо с нормално разпределение. Но ако имаме размер на извадка – тук беше 4 – но ако размерът е n равно на 10 или 100 и вземем 100 такива вместо 4, после намерим средноаритметичната стойност и я нанесем (това е честотата) , ето какво става. После пак взимаме 100, намираме средноаритметичното, взимаме средната стойност, пак нанасяме ... И ако направим това много пъти, дори ако можехме да го направим безкраен брой пъти, щяхме да получим идеално нормално разпределение. Това е невероятно! И не се отнася единствено до средната стойност на извадка. Тук навсякъде търсехме средната стойност на извадката, но можехме например да търсим сумата на извадката. Централната гранична теорема пак би била приложима. И това е страшно полезно качество. Защото в живота имаме какви ли не странни процеси – протеини се сблъскват, хората правят луди неща, комуникираме по странни начини. И не познаваме функциите на вероятностно разпределение на никои от тези неща. Но централната гранична теорема ни казва, че ако съберем голям брой от тези действия, като допуснем, че имат едно и също разпределение, или ако вземем средната стойност на всички тези действия и нанесем честотата им, в крайна сметка получаваме нормално разпределение! Ето защо нормалното разпределение се появява толкова много в статистиката и защо е много добро приближение за сумата или средната стойност на много процеси. Нормално разпределение А в следващия клип ще ти покажа, че всичко това е реалност, че като увеличаваме размера на извадката, или като увеличаваме n и като вземем много средни стойности на извадки, ще имаме честотна диаграма, която изглежда много, много близка до нормално разпределение.