If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: 12. клас (България) Профилирана подготовка Модул 4 Вероятности и анализ на данни > Раздел 4

Урок 1: Стандартно нормално разпределение като приближение на биномното

Задълбочено определение на нормалното разпределение

Ще се гмурнем много дълбоко в нормалното разпределение, за да изследваме основната елементарна функция, която генерира разпределения и как да модифицираме параметрите на функцията, за да получим нормално разпределение с всяка дадена средна стойност и стандартно отклонение. Също така ще разгледаме относителната честота като площта под кривата на нормалното разпределение. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Нормалното разпределение е вероятно най-важната концепция в статистиката. Всичко, или почти всичко, което правим при сравнителната (инференциалната) статистика, което всъщност са изводи въз основа на точки информация, до някаква степен се основава на нормалното разпределение. В това видео и в тази електронна таблица искам да ти дам колкото е възможно по-задълбочено разбиране на нормалното разпределение. И през останалата част на живота ти, ако някой каже: "Предполагаме, че едно нормално разпределение е...", ще знаеш какво е това. Ще кажеш: "Това е формулата и знам как да я използвам..." и така нататък. Само за информация, тази електронна таблица може да бъде изтеглена от www.khanacademy.org/downlads/ и ако просто въведеш тази част, ще видиш всичко, което може да се изтегли. После добавяш download/normalintro.xls. и ще получиш тази електронна таблица тук. Мисля, че направих това по правилния начин. Но както и да е, ако влезеш в Уикипедия и въведеш "нормално разпределение" или ако проведеш търсене на "нормално разпределение" – нека взема инструмента си за писане – ще видиш това (графиката). Буквално копирах и поставих това тук от Уикипедия и знам, че изглежда сложно. Има всякакви гръцки букви тук. Но буквата сигма (подчертава я) тук просто обозначава стандартното отклонение на разпределението. Ще си поиграем малко с тази графика и ще видим какво означава това. Имам предвид, знаеш какво е стандартно отклонение като цяло, но това е стандартно отклонение на това разпределение, което е функция на плътността на вероятността. Окуражавам те да изгледаш отново видеото за функции на плътност на вероятността, но това е малък преход от биномното разпределение, което е дискретно, нали така? При биномно разпределение си казваш: "Каква е вероятността да получиш 5?" И просто поглеждаш хистограма или стълбовидна диаграма и си казваш: "Ето това е вероятността." Но при непрекъснато вероятностно разпределение или непрекъсната функция на плътност на вероятността, не можеш просто да се запиташ каква е вероятността да получиш 5. Трябва да се запиташ каква е вероятността да получиш между, да кажем, 4,5 и 5,5. Трябва да зададеш някакъв диапазон. А вероятността не се получава, просто от разчитането на тази графика. Вероятността се получава от площта под кривата. Ще се получи от тази площ (щрихова я със зелено). Ако разбираш от висша математика, ако p от х (загражда го) е нашата функция на плътност на вероятността – няма нужда да е нормално разпределение, въпреки че често е нормално разпределение – това е начинът, по който можеш да изчислиш вероятността, да кажем, между 4 и 1/2 и 5 и 1/2. Каква е вероятността да получа между 4,5 и 5,5 инча дъжд утре? Всъщност това ще бъде интеграл от 4,5 до 5,5 от тази функция на плътност на вероятността, или от тази функция на плътност на вероятността, dх. Това е просто площта под кривата. Ако още не познаваш висшата математика, препоръчвам да изгледаш този плейлист. Но всичко това ни дава площта под кривата от тук до тук. Всъщност, за нормалното разпределение, се оказва, че това не е лесно да се изчисли аналитически. Изчислява се с числени методи. Не трябва да се притесняваш от изчисляването с числени методи, просто си казваш: "Как да намеря интеграла от това?" Има функции за тази цел, а дори можеш да го изчислиш приблизително. Един от начините да го изчислиш приблизително, е като използваш метода, по който като цяло приблизително интеграли, като можеш да се запиташ: "Каква е площта на това?" Това е приблизително площта на този трапец. Можеш да откриеш площта на този трапец, като вземеш средно аритметичното на тази точка и тази точка, а после го умножиш по основата. Нека сменя цветовете, понеже мисля, че използвам зеленото прекалено. Или можеш просто да вземеш височината на тази отсечка, ето тук, и да я умножиш по основата, като ще получиш площта на този правоъгълник, което може да е доста добро приблизително изчисление за площта под тази крива, понеже ще имаш малко повече тук, но ще пропуснеш малко ето тук. Така че може да е доста добро приблизително изчисление. Това правя в другото видео, просто за да изчисля приблизително площта под кривата и да ти помогна да разбереш, че нормалното разпределение е това, в което се превръща биномното разпределение, ако имаш много, много, много, много опити. Само за информация, интересното за нормалното разпределение – не знам дали вече го споменах - това тук е графиката. А това тук е просто друга дума. Хората може да споменат централната гранична теорема. Но това наистина е едно от най-важните и интересни неща за Вселената ни – централната гранична теорема. Няма да я доказвам тук, но тя ни казва – и можеш да разбереш това, като гледаш другото видео, при което говорим за хвърлянето на монета. Ако хвърлим монета много, много, много пъти, това са независими един от други опити. Ако вземеш сбора от всички хвърляния – ако си дадеш една точка, всеки път, когато ти се падне ези – и ако вземеш сбора от тях, докато доближаваш безкраен брой хвърляния, доближаваш нормалното разпределение. Интересното относно това е, че всеки от тези опити, в този случай – хвърляне на монета, тоест, всеки опит е хвърляне на монета – не е нужно всеки от тези опити да има нормално разпределение. Можем да говорим за молекулярни взаимоотношения и всеки път съединение х си взаимодейства със съединение у, не е нужно това, което може да се получи, да е нормално разпределено. Но, ако вземеш сбора от един тон от тези взаимоотношения, тогава, изведнъж, крайният резултат ще е нормално разпределен. Тази е причината това да е толкова важно разпределение. Виждаме го в природата през цялото време. Ако вземеш точки информация от нещо, което е много, много сложно, и то е сборът на много, почти безброй, индивидуални независими опити, добро предположение е, че това ще приеме нормално разпределение. Ще има други видеа, при които ще говорим кога това е добро предположение и кога не е добро предположение. Но, просто, за да осъзнаем малко това – нека всъщност го препиша. Това ще видиш в Уикипедия, но това може да се преработи като 1 върху сигма, умножено по корен квадратен от 2 pi по... "х" всъщност е "е" на тази степен. Това просто е "е" на степен цялото това нещо тук... минус, х минус средната стойност на квадрат, върху 2 сигма на квадрат. Това е стандартното отклонение. Стандартното отклонение на квадрат просто е дисперсията. Вероятно си мислиш, че има толкова гръцки букви тук и не знаеш какво да правиш. Това ти дава височината на функцията на нормалното разпределение. Да кажем, че това е разпределението на колко далеч на север живеят хората от моята къща или нещо такова. Не знам. Не. Това не е добър пример. Нека е – колко хора са по-високи от 5' 9" (177 см). Да кажем, че това не е 0, а 5' 9". Ако попиташ: "Какъв процент хора..." или ако искаш да разбереш каква е вероятността да намериш някого, който е около 5 инча по-висок от средното тук, ти ще поставиш това число тук, това 5, в "х". После знаеш стандартното отклонение, понеже взе множество извадки. Знаеш дисперсията, която е стандартното отклонение на квадрат. Знаеш средната стойност. Просто поставяш твоето "х" ето тук и то ти дава височината на функцията. После трябва да му зададеш диапазон. На можеш просто да попиташ: "Колко хора са точно 5 инча по-високи от средното?" Трябва да кажеш: "Колко хора са между 5,1 инча и 4,9 инча по-високи от средното?" Трябва да зададеш някакъв диапазон, понеже е почти невъзможно да си 5,9 инча до последния атом. Дори дефиницията на инч не е дефинирана толкова подробно. Така използваш тази функция. Мисля, че тя е много използвана – виждаме я в природата. Но и навсякъде в сравнителната статистика. Мисля, че е редно да се запознаеш колкото е възможно по-добре с тази формула. И, за да стане това, нека си поиграя малко с тази формула, за да ти дам логическа насоченост как всичко работи и т.н. Ако взема това – иска ми се да ти помогна да го запомниш – това може да бъде пренаписано като, ако вземем сигма в знака корен квадратен, ако вземем стандартното отклонение тук, тя става 1 върху корен квадратен от 2 pi сигма на квадрат. Не съм го виждал записано по този начин, но ми дава малко логическа насоченост, че сигма на квадрат – винаги се записва като сигма на квадрат – но това е само дисперсията. Дисперсията е това, което пресмяташ, преди да пресметнеш стандартното отклонение. Това е интересно. После тази горна част тук, това може да бъде записано като "е" на степен –1/2 по... и двете от тези неща са на квадрат, така че можем просто да кажем х минус средната стойност върху сигма на квадрат. Това донякъде пояснява какво става тук малко по-добре, понеже какво е това? х минус сигма е разстоянието между която и да е точка, която искаме да намерим... Да кажем, че сме тук. х минус мю (мю е средната стойност), това е тук. Това е това разстояние. Това е стандартното отклонение, което е това разстояние. Това тук ми казва с колко стандартни отклонения съм отдалечен от средната стойност. Това всъщност се нарича стандартна z-стойност. Говоря за това в друго видео. После повдигаме това на квадрат. И после повдигаме това на степен –1/2. Нека преработя това. Ако запиша "е" на... –1,2 пъти "а", това е същото нещо като "е" на степен "а", цялото на степен –1/2. Ако повдигнеш нещо на степен и после повдигнеш това на степен, можеш просто да умножиш тези степени. Така че и това може да се преработи като – това е равно на 1 върху корен квадратен от 2пи по сигма на квадрат, което просто е дисперсията. Просто си играя с формулата, понеже искам да видиш различните начини и да разбереш логиката зад това. Окуражавам те да ми пратиш имейл, ако видиш някаква логическа причина това да съществува. Отново, мисля, че е интересно, че изведнъж имаме тази друга формула, в която има пи и "е", и толкова много феномени биват описани от това. Отново, "пи" и "е" се появяват заедно. Както "е" на степен "i по пи" е равно на –1. Това ти казва нещо за Вселената ни. Но, както и да е, мога да преработя това като "е" на х минус мю върху сигма на квадрат и всичко това на –1/2. Степента –1/2 просто е 1 върху квадратния корен. Можем да представим това като 1 върху корен квадратен от 2 пи по дисперсията, по "е" на z-стойността на квадрат. Ако кажем, че z е това нещо тук – z представлява броя на стандартните отклонения, с които сме отдалечени от средната стойност – z-стойността на квадрат. Изведнъж това става много ясно – просто казваме 2 пи по дисперсията, по "e" на степен броя на стандартните отклонения, с които сме отдалечени от средната стойност. Повдигаш това на квадрат. Взимаш корен квадратен от това и го обръщаш, и това е нормалното разпределение. Исках да направя това, просто защото помислих, че е подредено и е интересно да си играя с него. Ако видиш някоя от останалите формули, няма да се запиташ "какво е това?" Няма да си кажеш: "Мислех, че нормалното разпределение беше това или беше това." Сега вече знаеш. Като казахме това, нека си поиграем малко с това нормално разпределение. В тази електронна таблица начертах нормално разпределение и можеш да промениш допусканията, които са в този зелено-син цвят. Сега то е със средна стойност 0 и стандартно отклонение 4. Записвам дисперсията тук, просто за информация. Дисперсията е стандартното отклонение на квадрат. Какво се случва, когато промениш средната стойност? Ако средната стойност стане от нула – да кажем, стане 5. Забележи, тази графика току-що се премести с 5 надясно. Центърът ѝ беше тук. Сега центърът ѝ е тук. Какво се случва, ако я направим –5. Цялата камбановидна крива току-що се измести с 5 наляво. Какво се случва, когато промениш стандартното отклонение. Дисперсията е средна стойност на квадрата на разстоянията от точките до средната стойност. Стандартното отклонение е корен квадратен от това. Не точно, но един вид средното разстояние от средната стойност. Колкото по-малко е стандартното отклонение, толкова по-близо до средната стойност ще бъдат голяма част от точките. Трябва да получим по-тясна графика и нека видим дали това се случва. Виждаме това, когато стандартното отклонение е 2. При графиката е по-вероятно да си много близо до средната стойност, отколкото по-далеч. Ако направиш стандартното отклонение, да кажем, 10 – изведнъж получаваш много равна диаграма. И това продължава до безкрайност. Това е една ключова разлика. Биномното разпределение винаги има край. Можеш да имаш ограничен брой стойности, докато нормалното разпределение се дефинира по цялата числова ос на реални числа. Ако имаш средна стойност от –5 и стандартното отклонение от 10, вероятността тук да получиш 1000 е много, много ниска, но има някаква вероятност. Има някаква вероятност всички атоми в тялото ми да се подредят перфектно, така че да пропадна през седалката, на която седя. Много невероятно е и вероятно няма да се случи във живота на Вселената, но може да се случи. И това може да бъде описано от едно нормално разпределение, понеже то казва, че всичко може да се случи, въпреки че може да е много, много, много малко вероятно. Това, за което говорих в началото на видеото, е, че когато преценяваш едно нормално разпределение, не можеш да гледаш само тази точка на диаграмата. Нека извадя инструмента си за писане. Трябва да намериш площта под кривата между две точки. Да кажем, че това беше нашето разпределение и аз кажех: "Каква е вероятността да получа 0?" Не знам какъв феномен описва това, но тази 0 се получава. Ако кажа точно 0, вероятността е 0, понеже – не трябва да използвам прекалено много нулата – понеже площта под кривата, точно под 0, всъщност не е площ. Това е само линия. Трябва да избереш диапазон. Например... мога да го напиша тук... вероятността между, да кажем, –0,005 и +0,05 е... това се закръгли, така че тук казва близо до 0. Нека го направя между –1 и между 1. Пресмята го на 7% и след малко ще ти покажа как пресметнах това. Нека извадя инструмента за рисуване на екрана. Какво направих? Това между –1 и 1... и ще ти покажа какво прави Excel зад кулисите... отиваме от –1, което е някъде тук, до 1. И пресмятаме площта под кривата. Пресмятаме тази площ. Ако познаваш висшата математика, пресмятаме интеграла от –1 до 1 на тази функция, при която стандартното отклонение тук е 10, а средната стойност е –5. Нека запиша това. За този пример пресмятаме, както е начертано тук, функцията нормално разпределение. Да видим. Стандартното отклонение е 10 по корен квадратен от 2 пи, по "е" на степен –1/2 по х минус нашата средна стойност. Сега средната ни стойност е отрицателна. Нашата средна стойност е –5. Това е х плюс 5 върху стандартното отклонение на квадрат, което е дисперсията. Това е 100. Цялото на квадрат. dx Ето тук е това число. Тези 7%, или всъщност 0,07 са тази площ тук отдолу. За нещастие, за нас това не е лесен за аналитично изчисляване интервал, дори за тези от нас, които знаят висша математика. Ето защо това се прави с числа. Един лесен начин да се направи това... е, не лесен начин, но е била дефинирана една функция, наречена функция на кумулативно разпределение, която е полезен инструмент за намиране на тази площ. Функцията на кумулативно разпределение е... нека я нарека функция на кумулативно разпределение – това е функция на х. Тя ни дава площта под тази крива. Нека кажем, че това тук е х. Това е нашето х. То ти дава площта под кривата нагоре до х. Друг начин да си го представиш – това ти казва каква е вероятността, че ще получиш някаква стойност, която е по-малка от стойността на х. Това е областта от минус безкрайност до х на нашата функция за вероятностно разпределение, dx. Когато използваш функцията за нормалното разпределение на Excel, трябва да зададеш "х" стойността си. Задаваш средната стойност. Задаваш стандартното отклонение. После казваш дали искаш кумулативното разпределение, в който случай казваш "true" (вярно), или искаш това нормално разпределение, когато казваш "false" (грешно). Ако искашграфика на това тук, ще избереш "FALSE", с главни букви. Ако искаш графика на функцията на кумулативното разпределение, която правя тук долу – нека преместя това малко надолу. Нека извадя химикала. Функцията на кумулативното разпределение е ето тук. После избираш "true", когато правиш този избор в Excel. Това е функцията на кумулативното разпределение за същото това – това е едно нормално разпределение. Това е едно кумулативно разпределение. Просто, за да ти покажа смисъла на това, да кажем, че искаш да знаеш каква е вероятността, че ще получа стойност по-малка от 20. При това разпределение мога да получа всяка стойност по-малка от 20. Кумулативното разпределение ето тук – нека го направя, така че да можеш да видиш – ако отидеш до 20, отиваш до тази точка тук. И виждаш, че вероятността да се получи 20 или по-малко е доста висока. Доближава 100%. Това има смисъл, понеже по-голямата част от площта под тази крива е по-малка от 20. Или, ако се запиташ: "Каква е вероятността да получа по-малко от –5?" –5 беше средната стойност, така че половината от резултатите трябва да са над нея, а половината трябва да са под нея. Ако отидеш до тази точка ето тук, можеш да видиш, че това тук е 50%. Така че вероятността да получиш по-малко от –5 е точно 50%. Ако исках да зная вероятността да получа между –1 и 1, аз ще... нека си взема химикала... аз ще намеря каква е вероятността да получа –1 или по-ниска стойност. Ще намеря цялата тази площ. После ще намеря вероятността да получа 1 или по-ниска стойност, което е цялата тази площ – нека направя това в различен цвят – всичко тук е 1 или по-малко. И изваждам жълтата площ от пурпурната площ. И ще получа това, което е тук вляво. Точно това направих в електронната таблица. Нека преместя надолу. Това може да затрудни компютъра ми, докато заснема екрана. Тук изчислих, че функцията на кумулативното разпределение е 1, което ще е точно тук. И изчислих, че функцията на кумулативното разпределение е –1, което е ето тук. Разликата между тези двете: изваждам това число от това число и това ми дава вероятността да съм между тези две числа. Друг начин на си го представиш е тази площ тук. Окуражавам те да си поиграеш с това и да разгледаш формулите на Excel. Тази площ тук, между –1 и 1. Едно нещо, което доста се набива на очи, е каква е вероятността да се окажеш в стандартното отклонение на... просто да знаеш, че тази графика, централната линия ето тук – това е средната стойност. После тези две линии, които нарисувах тук – това са едно стандартно отклонение под и едно стандартно отклонение над средната стойност. Някои хора се питат каква е вероятността да се озова в едно стандартно отклонение от средната стойност. Това е лесно. Просто ще натисна това. Да видим, каква е вероятността да се озова между... Средната стойност е –5. Едно стандартно отклонение под средната стойност е –15. Едно стандартно отклонение над средната стойност е 10 плюс –5, което е 5. Това е между 5 и 15. Тоест, 69,3% и това всъщност винаги се получава – винаги имаш 68,3% вероятност да се окажеш в едно стандартно отклонение от средната стойност, при положение че имаш нормално разпределение. Отново, това число представлява площта под кривата тук, тази площ под кривата. Начинът, по който получаваш това, е с функцията на кумулативното разпределение. Нека сляза надолу. Всеки път, когато местя това, трябва да махам химикала си. Пресметна, че това е +5, което е точно тук. Това беше едно стандартно отклонение над средната стойност, това е число някъде тук. Изглежда като че ли е, не знам, 80 и няколко процента, може би около 90%. После пресмяташ това за едно стандартно отклонение под средната стойност, което е –15. Изглежда, че е около 15%. 15%, 16%, може би 17%. Да кажем, 18%. Голямата картина тук е, че когато извадиш тази стойност от тази стойност, получаваш вероятността да се окажеш между тези двете. Това е понеже тази стойност ни казва вероятността да имаш по-малко от... Когато отидеш до функцията на кумулативното разпределение, получаваш това тук. Това ти дава вероятността, че ти – продължава да се движи напред-назад. Когато отидеш до 5, просто отиваш ето тук, това ти дава тази площ под кривата – вероятността да имаш стойност по-малка от или равна на 5. Всичко тук горе. После, когато я изчислиш на –15 тук долу, това ти дава вероятността да получиш стойност тук. Когато извадиш това от по-голямото нещо, остава ти това, което е под кривата ето тук. Просто, за да разбереш малко по-добре тази електронна таблица, понеже наистина искам да си поиграеш с нея, нека видим какво се случва, ако направя това разпределение. Средната стойност беше –5. Нека я направим 5. Това просто се премести надясно. Просто се премести с 5 надясно. Ще използвам химикала. Ако опитам да направя стандартното отклонение по-малко, ще видим, че цялото това нещо просто става малко по-тясно. Нека я направим 6 и изведнъж кривата става по-тясна. Правим я две и тя става още по-тясна. За да знаеш как пресметнах всичко – и наистина искам да си поиграеш с това, да си поиграеш с формулата и да разбереш логиката на функцията на кумулативното разпределение. Помисли си за това как тя се отнася до биномното разпределение. Ще говоря за това в последното видео. За да изобразя това, просто взех всяка една от тези точки. Поставих точките между –20 и 20, и просто увеличих с 1. Реших да увелича с 1. Това не е непрекъсната крива. Това е просто поставяне на по една точка във всяка точка и свързване на точките в линия. После намерих разстоянието между всяка от тези точки и средната стойност. Да кажем, че това разстояние е тази 0 минус 5. Това ти казва, че точката –20 е с 25 по-малка от средната стойност. Това направих там. После разделих това на стандартното отклонение. И това е стандартната z-стойност. Това ми казва с колко стандартни отклонения –20 е отдалечено от средната стойност. То е 12 и 1/2 стандартни отклонения под средната стойност. После използвам това, просто го вкарвам в тази формула, за да намеря височината на функцията. Да кажем, че при –20 височината е много ниска. Да кажем, че при –2 височината е малко по-добра. Височината ще е някъде тук. Това ми дава тази стойност. Но после, за да намеря вероятността за това... пресмятам функцията на кумулативното разпределение между тях: това е вероятността да имаш по-малко от това, тоест, площта под кривата под това, която е много, много малка. Не е 0. Знам, че изглежда че е 0, но това е просто, понеже закръглих. Ще е 0,0001. Това ще е много, много малко число. Има някаква вероятност дори да получим –1000. Друго логично нещо, което трябва да разбереш, е, че интегралът над това, или цялата площ на кривата, трябва да е 1, понеже това взима предвид всички възможни обстоятелства. Това трябва да се случи, ако поставим подходящо малко число тук и подходящо голямо число тук. Готово. Получаваме 100%, въпреки че това не е 100%. Ще трябва да преминем от минус безкрайност до плюс безкрайност, за да получим наистина 100%. Тук просто закръгляме до 100%. Вероятно е 99,999999% или нещо такова. За да пресметна това, трябва да взема функцията на кумулативното разпределение на тази точка и да извадя от това функцията на кумулативното разпределение на тази точка. Оттук получих тези 100%. Надявам се, че това ще ти даде добро разбиране за нормалното разпределение. Силно те окуражавам да си поиграеш с електронната таблица и дори да си направиш самостоятелно такава електронна таблица. В едно бъдещо упражнение ние ще използваме този вид електронна таблица като входяща информация в други модели. Ако правим финансов модел и ако кажем, че приходите ни имат нормално разпределение около някаква очаквана стойност, какво е разпределението на нетния ни доход? Или можем да измислим 100 различни вида примери. Както и да е, ще се видим в следващото видео.