If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Нормално разпределение (упражнение в excel)

(Продължителност 26 минути) Презентация върху електронна таблица, която показва, че нормалното разпределение приближава биномното разпределение при голям брой опити. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В това видео ще разгледаме едно понятие, което според някои е най-важното понятие в цялата статистика. Всъщност, ако разгледаме която и да е научна дисциплина, можем да заключим, че това е най-важното понятие. Всъщност съм казвал, че е някак тъжно, че това понятие не се разглежда в задължителната програма. Всеки трябва да е запознат с него, тъй като засяга всички страни на нашия живот, и това е нормалното разпределение, известно и като Гаусовото разпределение или камбановидната крива. И за да ти дам малко предварителна информация за същността му, тази информация може и да ти се стори доста странна, но се надявам, че докато гледаш това видео, ще разбереш каква е същността на това понятие. Гаусовото разпределение или нормалното разпределение, това са две имена на едно и също нещо. Всъщност на Гаус му е хрумнала идеята. Мисля, че е изследвал някакви астрономически явления, когато го е дефинирал. Но то е вероятностна функция на плътността, подобно на Поасоновото разпределение, за което говорихме. Същото е. И за да ти дам предварителна информация, то изглежда така. Вероятността да получиш произволно х – става дума за клас функции на вероятностното разпределение. Такива са и биномното разпределение, и Поасоновото разпределение, те се основават на няколко параметъра. Обикновено в повечето учебници го изписват по този начин и ако имаме време, бих искал да го трансформирам алгебрично, за да ти покажа по-ясно как всъщност работи. Или може би да ти дам малко информация за това как е започнала цялата тази история. Няма да го докажа в това видео, не това е нашата цел сега. Въпреки, че искам да го направя и най-вероятно ще се сблъскаме с някои прегледни математически трансформации. Ако сте с учител по математика и ментор, на други учители, сигурно ще е добре да потърсите в Уикипедия "формила на Стърлинг", наистина е вълнуващо. Формулата всъщност дава приближение на факториели чрез непрекъсната функция. Но сега няма да навлизам в подробности. Нормалното разпределение е 1 върху, така се изписва обикновено, върху стандартното отклонение по корен квадратен от два пъти пи, цялото по е на степен минус 1/2. Е, бих искал да го напиша по този начин, помни се по-лесно, по каквато стойност искаш да получиш, минус средната стойност на разпределението, разделена на стандартното отклонение на разпределението, цялото на квадрат. И така, ако се замислиш, добре е да отбележим този факт в този момент. Това е разстоянието от средната стойност и ние го делим на стандартното отклонение на нашето разпределение. Това е графика на нормалното разпределение, която съм подготвил, лилавата линия представлява нормалното разпределение. Основната цел на това упражнение... знам, че малко прескачам този път... е да покажа, че нормалното разпределение е добро приближение на биномното разпределение и обратното, ако имаме достатъчно наблюдения в нашето биномно разпределение, и това ще го обсъдим след малко. Според мен логиката ни за този член тук е интересна, тъй като казваме, че определяме разстоянието от средната стойност, разделяме на стандартното отклонение. И така този член тук показва колко стандартни отклонения е разликата от средната стойност. Това всъщност се нарича стандартна стойност, или z-стойност. Забелязал съм, че статистиката е пълна с много думи, много дефиниции и всички те звучат много сложно. Ето например стандартна z-стойност. Но самото понятие е пределно ясно. Да кажем, че имам вероятностно разпределение и получа някаква стойност, х, която е тук, и е на 3 и половина стандартни отклонения от средната, тогава нейната стандартна стойност е 3 и половина. Както и да е, нека се съсредоточим върху целта на това видео. И така, това е графиката на нормалното разпределение, на вероятностната функция на плътността на нормалното разпределение. Но как сме я получили? И което е по-важно, в края на това видео най-малкото трябва да можеш да кажеш, че това е добро приближение на биномното разпределение, ако вземеш достатъчно наблюдения. И това е вълнуващото за нормалното разпределение, че вземаме сумата, ще направя отделно видео за централната гранична теорема, Но, ако сумирате много независими наблюдения, като броят им клони към безкрайност, макар и разпределението на тези наблюдения да не е задължително нормално, разпределението на тяхната сума ще се приближава до нормално разпределение. Ще поговоря повече на тази тема по-късно. Но именно поради тази причина е добре да предполагаме, че именно това разпределение лежи в основата на много феномени -- от опитите да моделираме времето до моделите на взаимодействие между лекарствата и пациента, и ние ще обсъдим кога това допускане работи и кога не върши добра работа. Например, понякога хората допускат, че нормалното разпределение работи във финансовата сфера, а ние сме свидетели на финансовата криза и как тя доведе до крах много други сфери. Но нека се върнем към нашето упражнение. Това тук е електронна таблица. Току-що направих фона черен, можеш да свалиш файла от khanacademy.org/downloads. Всъщност, там ще можеш да видиш всички файлове, които могат да се свалят. Точно този не е качен още, ще го кача след като запиша видеото. Името на файла е: NormalDistribution.xls. Ако отидеш на адрес khanacademy.org/download/ ще видиш всички файлове и сред тях ще откриеш и тази таблица. Бих искал да те насърча да си поиграеш с нея и ако искаш – да създадеш и други таблици, докато експериемнтираш. И така, тази таблица, тя всъщност представлява една игра, или нека си представим, че стоя на улицата и си подхврлям монета, подхвърлям си една монета, която не е фалшива. Ако се падне тура, това е тура, ще отстъпя назад или нека да направя стъпка вляво. И ако се падне ези, ще направя стъпка вдясно. И така, в общия случай, имам... това е една монета, която не е фалшива... имам 50% шанс да направя стъпка вляво и 50% шанс да направя стъпка вдясно. И така, според моята логика, ако ти кажа, че съм хвърлил монетата хиляда пъти, ще се движа ту наляво, ту надясно. Ако случайно се падне няколко пъти тура, може и да се преместиш доста наляво. Ако се падне няколко пъти ези, ще минете надясно. А вече знаем, че шансовете да се падне няколко пъти ези или много повече пъти тура са доста по-малки от шанса резултатът да е равен или почти равен. И така тук, това, което съм направил... Нека минем по-надолу, тъй като не искам да изгубя цялото нещо... това, което направих тук, е дребно допускане и бих се зарадвал, ако го попълниш и промениш, както ти харесва. Това са броя стъпки, които съм направил. Това е средният брой стъпки наляво и съм изчислил вероятността и така сме изчислили и средната на това биномно разпределение. Средната стойност на биномното разпределение всъщност представлява вероятността да направя стъпка наляво по общия брой опити. И така, това е равно на 5, и така обясняваме това число. А сега и дисперсията... Не съм сигурен дали минахме това и трябва да го докажа, но планирам да направя друго видео за дисперсията на биномното разпределение. И така, дисперсията всъщност е равна на броя на опитите, 10, по вероятността да направя стъпка наляво или по своему да имам успешен опит, тук дефинирам стъпка наляво като успешен опит, разбира се, би могло да е и дясно, умножено по вероятността от 1 минус успешния опит, т.е. неуспешния опит. В този случай двете събития са с еднаква вероятност, затова и резултатът е 2,5. И всичко това е показано в електронната таблица. Ако кликнеш на самата клетка, ще можеш да видиш конкретната формула, която съм използвал. Имай предвид, че понякога нещата изглеждат объркващи в Excel. Тук става дума за корен квадратен от това число. Стандартното отклонение е просто корен квадратен от дисперсията. С други думи, корен квадратен от 2,5. И така, нека видим какво се казва тук... ОК, каква е вероятността да не направя никакви стъпки? И така, направил съм общо 10 стъпки... Правим това, за да разберем логиката на таблицата... Каква е вероятността да не направя никакви стъпки наляво, ако съм направил общо 10 стъпки? И само да уточним, ако не направя никакви крачки наляво, това означава, съм направил 10 крачки надясно. Изчислявам тази вероятност... Тук трябваше да съм теглил една черта... Изчислявам тази вероятност, като използвам биномното разпределение. И как съм направил това? Каква е вероятността, ако съм направил общо 10 стъпки, да... Само ще сменя цветовете, за да стане по-интересно. Дали има лилаво тук? Ще използвам синьото. И така синьо за биномното разпределение. Тук са показани всички стъпки, колко са те? Стъпките са общо 10. И така, 10 факториел, това е като броя опити, които съм провел. От тези 10 стъпки, решавам, че ще направя 0 стъпки наляво. И така, 0 факториел, умножено по факториел от 10 минус 0. Това е 10 над 0. Решавам, че от общо 10 стъпки 0 са наляво. Умножено по вероятността от 0 стъпки наляво, т.е. това е вероятността да направя стъпка наляво. Направил съм 0 такива, по вероятността да направя стъпка надясно, а от тези съм направил 10. И така получаваме числото 0,001. Така ни диктува биномното разпределение. А после, по подобен начин, това е равно на 10 факториел върху 1 факториел, умножено по 10 минус 1 факториел. Така получавам това число. И отново, ако кликнеш върху самата клетка в таблицата, ще видите обяснението. Направил съм го много пъти. Това е просто една биномна сметка. И след това, тук, след този ред, това можеш просто да не го гледаш. То е тук, за да мога да разиграя различни сценарии. Например, ако отворим моята таблица, и вместо да направим 10 стъпки, решим да направим 20 стъпки, тогава всичко се променя. Затова и тук долу, от определена стъпка нататък, цялото нещо като че ли се повтаря. Ще те оставя да помислиш защо съм го направил така. Може би трябваше да направя по-прегледна таблица. Но това не променя точковата диаграма, която съм направил. Ето, графиката в синьо, която едва се вижда, заради лилавото, което е почти върху нея. Хм, нека я направя по-малка, за да се вижда по-добре. Да предположим, че съм направил само 6 стъпки. Всъщност, все още е трудно да се забележи разликата между двете. Нека повторя, целта на упражнението е да видиш, че нормалното разпределение е добро приближение. Но те са толкова подобни, че дори не можем да забележим разликата на моята графика. Ако направиш само 4 стъпки, ОК, мисля, че тук може да се види. Синьото тук е... Нека да активирам инструмента за рисуване. Синята крива е някъде тук. Това е биномното разпределение. Тук има само няколко точки. Ето, точките стигат само до тук. Тук са случаите, в които правя 0 стъпки наляво, 1 стъпка наляво, 2 стъпки наляво, 3 стъпки наляво, 4 стъпки наляво. След това правя графиката и виждам каква е вероятността, ако използвам биномното разпределение. А ето тук е и моята крайна позиция, нали така? Ако направя 0 стъпки наляво, тогава правя 4 стъпки надясно, така че моята крайна позиция е на 4, и това е ето този сценарий тук. Нека сменя цвета отново и да върна жълтото, за да се вижда по-добре. Ако направя 4 стъпки наляво, тогава правя 0 стъпки надясно и крайната ми позиция е на минус 4. Това е ето тук. Ако направя по равен брой стъпки в двете посоки, това е този сценарий, ще съм в неутрална позиция. Ще съм останал в средата ето тук. Ако направя 2 стъпки надясно и след това 2 стъпки наляво, или обратното, първо направя 2 стъпки наляво и после направя 2 стъпки надясно, все се озовавам тук. Надявам се това да ти звучи смислено. Телефонът ми звъни. Няма да вдигна, тъй като нормалното разпределение е твърде важна тема. Всъщност деветседмичният ми син гледа това видео, така че за първи път имам публика наживо. Той може и да запомни нещо за нормалното разпределение. И така, синята линия ето тук, вероятно ще трябва да я повторя с жълто, за да я виждаш, е графиката на биномното разпределение. Аз съм свързал точките, но все още можеш да видиш, че биномното разпределение изглежда горе-долу така. Това е вероятността да се озовеш на минус 4. Това е вероятността да се озовеш на минус 2. Това е вероятността да не отидеш никъде. А това е вероятността да се озовеш 2 крачки надясно. Нека поправя и това, трябва да е тук някъде. А това – 4 надясно. Това е биномното разпределение. Аз просто отбелязах на графиката стойностите, дадени тук. Това е 0,375, това е 0,375. Това е височината на другото. И така, това, което исках да ти покажа, е, че нормалното разпределение е добро приближение на биномното разпределение. И така, това, което исках да обясня е, че нормалното разпределение ми казва каква е вероятността да направя точно 0 крачки наляво. Тук нещата са малко по-сложни, защото нормалното разпределение... Биномното разпределение е дискретно вероятностно разпределение. Можеш да погледнеш тази диаграма или тук и да попиташ каква е вероятността да направиш точно 1 стъпка наляво и 3 надясно, за да се озовеш на това място? Добре, просто поглеждаш тази графика и казваш: "О, това е този сценарий, Точно казах каква е тази вероятност, тя е 0,25. И си казваш:,"О, имам 25% шанс да се озова 2 стъпки надясно." Това е 25% шанс. Нормалното разпределение е непрекъснато вероятностно разпределение, което означава, че представлява непрекъсната крива. То изглежда по този начин, прилича на камбановидна крива, която стига до безкрайността и се приближава до 0 в двата си края. Изглежда горе-долу така. Това е едно непрекъснато вероятностно разпределение. Не можеш просто да избереш някаква точка и да попиташ каква е вероятността да се озовеш 2 стъпки надясно. Защото ако попиташ това, истинската вероятност това да се случи точно така... мда, трябва да гледаш видеото, посветено на плътността на вероятностните функции, но... вероятността да се озовеш точно 2 стъпки надясно, искам да кажа точно, с точност до атома, е близо до 0. В действителност трябва да уточниш някакъв интервал около тази стойност. Интервалът, който аз разглеждам, е 2 стъпки плюс половин стъпка във всяка посока. Нали така? Ако говорим за стъпки. За да го разбереш по-добре, ето какво съм направил – взех стойността на функцията на вероятностната плътност. И сега ще ти покажа как съм получил тази стойност. И след това умножавам това по 1. И така получавам тази площ. И използвам това като приближение за тази площ. Ако наистина искаме да сме прецизни в това, което правим, за да получим по-добро приближение, можем да вземем интеграла на тази крива между тези две точки. По-късно ще го направим. Но засега бих искал да ти покажа логиката, да ти дам увереност за това, че биномното разпределение наистина се припокрива с нормалното разпределение. И така, как съм получил това число тук? Добре, каква е вероятността за... О, не, нека използвам това число тук, не искам да работя с 0 стъпки.. каква е вероятността да направя 1 крачка наляво? Приехме, че стъпките наляво са успех. Каква е вероятността... И така, вероятността от 1, това е равно на 1, разделено на стандартното отклонение. Когато направихме само 4 крачки, стандартното отклонение беше 1. И така 1, разделено на 1. Всъщност, нека променя това. защото трябва да е.. да е... нека го променя. Да изберем по-голямо число. Не съм сигурен... Да се върнем към примера с 10-те стъпки. Добре. И така, ако това е 10. И нека пак активирам инструмента за рисуване И така, тази сметка тук.. Нека да извършим тази сметка. Всъщност, ще е по-добре да направим тази сметка. И така, каква е вероятността да съм направил 2 стъпки наляво? Ако съм направил 2 стъпки наляво, а общо стъпките са 10, значи имам 8 стъпки надясно и следователно накрая съм 6 стъпки надясно. И това отговаря на тази точка тук. И така, каква е вероятността? Как да я определя, като използвам функцията на вероятностната плътност? Как да определя тази височина? Добре, да кажем, че вероятността да направя 2 стъпки наляво, така се смята и ако отидеш върху клетката в електронната таблица, ще видиш това... Вероятността е равна на 1, разделено на стандартното отклонение, 1,581 (просто съм направил препратка към клетката там), умножено по корен квадратен от 2 пъти пи. Винаги се изумявам как така е умножено по пи е равно на минус 1. Но ето ти още един изумителен факт. С натрупването на повече опити, изведнъж получаваме формула, която съдържа е, пи и корен квадратен, но идеята е, тези числа непрекъснато се появяват. Това носи информация за "Реда във вселената", Ред с главно Р. Но нека продължим, всичко това, умножено по е на минус 1/2 по х. И така, опитваме се да намерим х, т.е. два успешни опита. Да направим точно 2 стъпки наляво, значи 2 минус средната стойност. А средната стойност е 5, и става 2 минус 5, разделено на стандартното отклонение, което е 1,581, и цялото това на квадрат. Така получаваме това число. И така, казах ти, че тази формула просто ми дава тази стойност тук. Ако искам да изчисля с точност тази вероятност, ми трябва тази площ. Ако просто използвам една права, нейната площ е 0. Нека ти напомня, в този случай можем да сме само 2 крачки настрани, тъй като се интересуваме от точния брой крачки. Но нормалното разпределение е непрекъсната функция на вероятностната плътност, т.е. може да ни каже каква е вероятността да сме направили 2,183 стъпки. Това, разбира се, може да се случи само, ако всеки път правим безкрайно малки стъпки. Но това е употребата на разпределението. То се получава, когато започнеш да правиш безкраен брой стъпки. Но то може да се използва като приближение на дискретното. И начинът това да стане е да кажеш каква е вероятността да съм в рамките на една стъпка от тази точка. И така, умножавам тази височина, която съм изчислил тук, по 1. И така, нека приемем, че това тук има основа 1, за да пресметнем площта, която използвам като приближение. И така, просто умножаваме това по 1 и получаваме това число тук. И нека само да ти покажа. Дори и само при 10 опита, кривите, нормалното разпределение тук е в лилаво, а биномното разпределение е в синьо. И така, те са почти една върху друга. Докато броят стъпки беше малък, те се различаваха. Но колкото повече стъпки правим, толкова повече те се сливат, почти се припокриват, и аз бих искал да те окуража да си поиграеш с електронната таблица. Всъщност, нека ти покажа, че те се припокриват. Единият от листовете в тази електронна таблица е посветен на припокриването, ако кликнеш върху „convergence”, ще го видиш. Това е същото нещо, но исках да ти покажа какво се случва във всяка една точка. Нека ти дам малко разяснения за тази таблица. И така, това е вероятността да се придвижа наляво и надясно, нали така? С други думи, фиксирам някаква точка и казвам каква е вероятността, а ти можеш да смениш тази точка, вероятността крайната ми позиция да е 10. А това всъщност ти казва, че ако направя 10 стъпки, за да се озова накрая в позиция 10 надясно, значи трябва да направя 10 стъпки надясно и 0 стъпки наляво. Ако направя 20 стъпки, за да се озова 10 стъпки надясно, ще трябва да направя 15 стъпки надясно и 5 наляво. По подобен начин, ако направя общо 80 стъпки, ако хвърля монетата 80 пъти, за да определя дали да пристъпя надясно или наляво, за да се озова 10 стъпки надясно, трябва да направя 45 стъпки надясно и 35 наляво в прозволен ред и действително ще се озова 10 крачки надясно. И така, това, което искам да разбера, е, ако започна да увеличавам общия брой хвърляния на монетата, тук максимумът е 170, та, ако хвърля монетата безкраен брой пъти, искам да разбера каква е вероятността моята крайна позиция да бъде 10 стъпки надясно. И искам да ти покажа, че колкото повече хвърляния правя, толкова повече нормалното разпределение става по-добро и по-добро приближение на биномното разпределение. И така, тук е пресметната биномната вероятност, точно както го правихме и преди, и ако кликнеш върху клетката, ще можеш да видиш формулата. Стъпките наляво се приемат за успешен опит. И така, това е 10 над 0, а ние знаем какво означава това. Това означава 10 факториел върху 0 факториел, разделено на факториел от 10 минус 0, умножено по 0,5 на 0-ва степен и по 0,5 на 10-та степен. Така получаваме това число тук. Ако отидем на това тук, нека видим, това тук е изчислено... Всъщност, нека го напиша, тъй като според мен ще е интересно. Направил съм общо 60 стъпки, следователно 60 факториел, разделено на, трябват ми 25 стъпки наляво, следователно 25 факториел. И така, това е факториел от 60 минус 25, умножено по вероятността за стъпка наляво, а тези стъпки са 25, умножено по вероятността за стъпка надясно, а пък тези стъпки са 35. И така, този ред просто показва биномната вероятност, вероятността, която ни показва биномното разпределение. А след това са пресметнати средната и дисперсията за всеки от тези сценарии и можеш да видиш формулите, но средната стойност е просто вероятността да направиш стъпка наляво, разделена на общия брой стъпки. А дисперсията е вероятността за лява стъпка по вероятността за дясна стъпка по общия брой крачки. А след това и вероятността от нормалното разпределение. И така, нека повторя, просто използвам тази вероятност. Получавам и нейното приближение по същия начин. Ето, например за този сценарий. Ексел има функция, която да пресмята нормалното разпределние, но аз всъщност съм въвел формулата, тъй като исках да ти покажа какво се крие под тази функция на Ексел. И така, всъщност казвам, каква е вероятността да направя 25 стъпки наляво? Не, извинявам се, 45 стъпки наляво. И така, вероятността за 45 стъпки наляво е равна на 1 разделено на стандартното отклонение. И така, в този сценарий стандартното отклонение е корен квадратен от 25. И така, 5, по корен квадратен от 2 пъти пи, цялото по е на степен минус 1/2 по 45 минус средната, т.е. минус 50, разделено на стандартното отклонение, което пресметнахме, че е 5, цялото на квадрат. И така, тази сметка ми казва каква е вероятността в този случай, според нормалното разпределение с това стандартно отклонение и с тази средна стойност. След това умножавам това по 1. Това не се вижда във формулата, тъй като не изписвам „по 1” за да намеря площта под кривата. Причината е, че нали си спомняш, това е непрекъсната вероятностна функция. Това тук просто ми дава стойността, но за да изчисля вероятността да се озова в рамките на интервал от 1 стъпка, аз трябва да умножа по 1. Всъщност това са приближения. В действителност би трябвало да взема интеграла от тази точка до тази, но и този правоъгълник е доста добро приближение. В тази таблица ти показвам, че с увеличаване на броя на стъпките. разликата между това, което ви казва нормалното разпределение, и това, което ти казва биномното разпределение, става все по-малка и по-малка. Става въпрос за вероятността накрая да се озовеш 10 крачки надясно. Разбира се, ти можеш да промениш числото тук. Нека го променя, за да ти покажа. Можеш да решиш да пресметнеш вероятността да се озовеш 15 крачки надясно. Хм, тук нещо не е наред. Нека проверя. При 12 се припокриват. И после при 13.... Мисля, че има някаква грешка с променливата запетая, защото при работа с факториели на големи числа не работи така, както очаквам. Но ако пробваш с 3, 5 или 10... Не, не, нещо странно се случва. Може да се наложи да увеличиш числата още повече. При 10 крачки, двете разпределения определено се припокриват. А аз ще се опитам да разбера защо получавам такива странни графики. За 11... Хм, всичко е объркано. Вероятно, когато заснемам екрана, нещата се объркват. Но както и да е... Целта на това упражнение беше да ти покаже, че ако искаш да изчислиш вероятността да се озовеш 10 крачки надясно, колкото повече пъти хвърляш монетата, толкова повече нормалното разпределение се превръща в по-добро приближение на това, което в действителност е биномно разпределение. И с приближаване на безкрайността, двете разпределение всъщност се сливат едно с друго. Както и да е, това е краят на това видео. Всъщност, ще направя още няколко филмчета за нормалното разпределение, тъй като то е толкова важно. До скоро.