If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:9:34

Видео транскрипция

В това видео ще помислим как да визуализираме разпределения на данни и после ще анализираме тези визуализации, и евентуално ще достигнем до нещо, познато като крива на плътността. Но нека започнем с един прост пример, просто за да преговорим някои концепции. Нека кажем, че попитам 16 ученици как биха измерили колко чаши вода са изпивали на ден за последните 30 дни и как ще усреднят това. Тази точка ето тук ни казва, че един ученик пиел средно 0,5 чаши вода на ден. Този човек вероятно е доста дехидратиран. Този човек е пиел средно по 8,1 чаши вода на ден за последните 30 дни – той е по-добре хидратиран. Ако искаме да визуализираме това, можем да създадем хистограма на честотата, в която можем да създадем няколко категории. Първата категория ще е за точките, които са по-големи или равни на нула и по-малки от едно, и можем да видим, че две точки попадат в тази категория и затова това стълбче ето тук за тази категория е две. Тази категория ето тук е по-голяма или равна на три и по-малка от четири. Забележи, има четири точки в тази категория и на хистограмата за честотата височината на стълба тук е четири. Това е добър начин да разгледаш едно разпределение. Но може би повече те интересува какъв процент от информацията ми попада във всяка една от тези категории. Това става особено интересно, ако имаме много, много, много точки. Ако имахме 1 600 432 507 точки, да знаем абсолютното число, което попада във всяка категория, не е толкова полезно. Процентът, който попада във всяка категория, е доста по-полезен. Затова можем да създадем хистограма на относителната честота. Забележи, това представлява същата информация. Но в тази първа категория, вместо стълбът да е с височина две, тя е 12,5%. Защо е така? Понеже две от 16-те точки попадат в тази категория. 2/16 е 1/8, което е 12,5%. Това тук, забележи, вместо да е с височина четири за четири точки, сега е 25%. Но показва същото нещо. Четири от 16-те точки попадат в тази категория. 4/16 е 1/4, което е 25%. И двата вида хистограми са много полезни и ще видиш, че се използват постоянно. Но има и случаи, при които имаш много, много, много повече точки и искаш по-малки категории. Можем да направим категориите си по-малки. Например, вместо да са с ширина от една чаша вода, може би можем да ги направим с широчина от половин чаша вода. Първата категория ще е повече от или равна на нула и по-малка от 0,5. Това ще ти даде по-ясна картина и предполагам, че в свят, в който имаме повече от 16 точки, може би имаме 16 милиона точки, това от лявата страна ще са проценти. Може би това не е достатъчно добро за теб, може да искаш да ги направиш още по-малки. Правиш всяка категория по четвърт чаша. Може би и това не те задоволява, искаш да са още и още по-малки. Можеш да си представиш накъде отива това. Можеш да стигнеш до момент, при който се доближаваш до безбройно количество категории и всяка категория е безкрайно тънка, супер, супер тънка до степен, при която ако свържеш горните краища на чертите, ще получиш крива. Този тип крива е нещо, което използваме в статистиката. Както обещах в началото на видеото, ще си говорим за кривата на плътността. Кривата на плътността е визуализация на разпределението, при която точките могат да приемат всяка стойност в континиума. Те не са просто включени в тези събирателни квадратчета. Как можеш да интерпретираш нещо такова? Ако погледнеш целия интервал от нула до, да кажем, девет, предполагаме, че никой не е пил повече от средно девет чаши на ден, дори в 16-те ни милиона точки. А площта под кривата в този интервал ще е 100% или 1,0. Това ще е вярно за всяка една крива на плътността – цялата площ под кривата е 100%, представлява всички точки информация. Една крива на плътността никога няма да приеме отрицателна стойност, няма да видиш кривата да слезе надолу и да направи нещо странно като това. Като уточнихме това, нека помислим как можем да го използваме. Ако искам да знам какъв процент от данните ми попада между две и четири чаши, ще погледна този интервал. Ще взема този интервал ето тук от две до четири и ще се опитам да разбера каква е площта под кривата тук. Тази площ ще е по-голяма от или равна на нула и по-малка от или равна на 100%. На пръв поглед, изглежда е около 40" от цялата област под кривата, така че просто на пръв поглед ще кажа 40% от моите данни попадат в този интервал. Ако те попитам какъв процент от данните са по-високи от три, тогава ще гледаш тази област и тя изглежда е около 50%, но отново, говоря приблизително. Но сега виждаш, че дори и при приблизително определяне, една крива на плътността може да е полезна. В реалността статистиците често имат таблици, които може да представляват данните за кривата на плътността, може да имат компютърни програми или някакъв вид автоматизирано устройство и имат също добре познатите криви на плътността, и известната камбановидна крива, която ще изучаваме по-нататък, при която има много прецизни данни, и много инструменти, за да открият точната стойност на площите. Последното нещо, което искам да разгледаме, е едно ключово погрешно схващане за кривите на плътността. Да кажем, че те питам: "Приблизително какъв процент от моите данни е точно три чаши вода на ден?" Когато казвам точно, имам предвид точно числото 3,000, като нулите продължават до безкрайност, точно числото три. Може да искаш да кажеш, че това е три. Нека видя съответната точка на кривата. Изглежда е около 0,2 или малко по-висока от това, така че, може би, ще кажеш "малко повече от 20% или приблизително 20%." А аз ще ти кажа, че това е грешно. Помни, процентът данни в един интервал не е височината на кривата, това е областта под кривата в този интервал. Ако говорим само за една точна стойност, като точно числото три, няма област под кривата. Тази вертикална линия, която току-що начертах над числото три, няма широчина, като това всъщност има смисъл в реалния живот. Дори ако проучиш 16 милиона души, много малко вероятно е, че някой ще пие по точно три чаши вода на ден. Говоря за точно три чаши, без нито един атом повече и нито един атом по-малко. Може да има много хора между 2,9 и 3,1 обаче никой не пие точно три чаши на ден. Когато някой каже, че пие по три чаши вода на ден, това вероятно ще е грубо изчисление. Вероятно пие 3,001 или 2,99999, или 3,15 или нещо друго. Вместо това можеш да кажеш какъв процент попада в интервала, който е по-голям от или равен на 2,9 и по-малък от или равен на 3,1. След като вече имаш един интервал, тогава можеш да погледнеш тази област, така че ще погледнем областта от 2,9 до 3,1. Сега имаме интервал, който има ширина, така че той ще е приблизително с височината на тази жълта област, която оцветявам, и можем да го сравним с правоъгълник, въпреки че горната част на тази крива не е равна, но можем да кажем, че приблизително изглежда като правоъгълник, който е 0,2 висок. Каква е ширината? Ширината тук, ако вземем интервала от 2,9 до 3,1... ширината ще е 0,2 и можем приблизително да изчислим тази област, като приблизително изчислим този правоъгълник, лицето на правоъгълника. 0,2 по 0,2 ще ни даде площ от 0,04. Или, можем да кажем, че приблизително 4% от данните попадат в този интервал.