If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Измерване на разсейването: размах, дисперсия и стандартно отклонение

Сал разглежда трите най-често срещани мерки за разсейване на данните. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В последното видео говорихме за различните начини да представим централната тенденция или средното на множество от данни. В това видео ще разгледаме по-широко това, за да разберем също как се разсейват данните. Нека просто помислим малко върху това. Да кажем, че имаме минус 10, 0, 10, 20 и 30. Нека кажем, че това там е едното множество от данни. И нека кажем, че другото множество от данни е 8, 9, 10, 11 и 12. Сега нека изчислим средната аритметична за двете множества от данни. Нека изчислим средната стойност. Когато се запознаеш по-подробно със статистиката, ще разбереш разликата между генерална съвкупност и извадка. Приемам, че това е цялата съвкупност от данни. Така че ще имаме средна стойност на генералната съвкупност. Ще имаме работа, както ще видиш, с мерките на генералната съвкупност за разсейване. Знам, че всичко това са сложни думи. По-нататък няма да имаш дадени всички данни. Ще имаш някакви извадки от тях и ще се опитваш да изчисляваш неща за цялата генерална съвкупност. Не искам сега да те тревожа прекалено много с това. Но ако продължиш по-нататък със статистиката, искам да направя това уточнение. Средната стойност на генералната съвкупност или аритметичната среда на това множество от данни ето тук е -10 плюс 0, плюс 10, плюс 20, плюс 30 върху – имаме 5 точки с данни – върху 5. На колко е равно това? Минус 10 се съкращава с плюс 10, 20 плюс 30 е 50, делено на 5 е равно на 10. Каква е средната стойност на това множество от данни? 8 плюс 9, плюс 10, плюс 11, плюс 12, цялото върху 5. Начинът, по който можем да го разглеждаме, е 8 плюс 12 е 20, 9 плюс 11 е също 20, така че имаме 40 и тогава ще имаме 50 там. Прибавяме още 10. Отново ще имаме 50 върху 5. Така че това има точно същата средна стойност на генералната съвкупност. Или ако не искаш да използваш думата генерална съвкупност или извадка или всичко това, и двете множества от данни имат точно една и съща средно аритметична стойност. Когато осредняваш всички тези числа и разделяш на 5 или когато имаш сбора от тези числа и разделиш на 5, получаваш 10, разделяш на 5 сумата от другите числа и получаваш също 10. Но е ясно, че тези множества от числа са различни. Ако просто погледнеш това число, ще кажеш, че може би това са много подобни едно на друго множества. Но когато разгледаш тези две множества от данни, можеш да забележиш нещо. Всички тези числа са много близки до 10. Искам да кажа, че най-отдалеченото число тук е на разстояние 2 от 10. 12 е само на разстояние 2 от 10. Тук тези числа са на по-голямо разстояние от 10. Дори най-близките са на на разстояние 10, а тези са на разстояние 20 от 10. Така че това множество от данни ето тук е по-разпръснато, нали? Тези данни са на по-голямо разстояние от средната стойност, отколкото са тези от средната стойност. Нека помислим върху различните начини, по които можем да измерим статистическото разсейване или на какво разстояние се намираме от центъра, средно. Единият от начините, като това е един вид най-простият начин, е размахът. Няма да го срещаш да се използва много често, но той е в известен смисъл много прост начин да измерим разсейването като разберем какво е разстоянието между най-голямото и най-малкото число. Буквално вземаме най-голямото число, което е 30 в примера и от него изваждаме най-малкото число. 30 минус -10, което е равно на 40, което ни показва, че разликата между най-голямото и най-малкото число е 40, така че за това множество от данни имаме размах 40. Тук размахът е най-голямото число, 12, минус най-малкото число, което е 8, което е равно на 4. Така че тук размахът е всъщност доста добра мярка за статистическото разсейване. Казваме, добре, двете множества имат средно аритметична стойност 10. Но когато разгледам размаха, това има по-голям размах, което ми показва, че е по-разпръснато множество. Но размахът не винаги ще ти даде пълна представа. Може да имаш две множества от данни с точно един и същ размах където, въз основа на това как са групирани числата, може въпреки това да имат много различно разпределение на числата. Нещото, което ще виждаш да се използва най-често, се нарича дисперсия. Всъщност в това видео ще видим стандартното отклонение. То вероятно е най-често използваното, но има много близка връзка с коефициента на вариация. Знакът, означаващ дисперсия... като ще имаме работа с дисперсия на генералната съвкупност... Още веднъж, приемаме, че това са всички данни от цялата генерална съвкупност, че нямаме просто извадка, нямаме само част от данните. Знакът за дисперсия буквално е този знак сигма, тази ръкописна гръцка буква, на квадрат. Това е знакът за дисперсия. Ще видим, че тази буква сигма всъщност е знак за стандартното отклонение. Като за това има причина. Но във всеки случай определението за дисперсия е, че вземаш всяка от тези точки със данни, намираш разликите между тях и средната стойност, повдигаш ги на квадрат, събираш ги и след това изчисляваш средното от тези квадрати. Знам, че това ти звучи много сложно, но когато всъщност го изчисля, ще видиш, че не е чак толкова лошо. Спомни си, че средната стойност тук е 10. Така че вземам първата точка с данни. Ще го напиша тук. Ще превъртя малко надолу. Вземам първата точка с данни. Минус 10. От нея ще извадя средно аритметичната стойност и ще го повдигна на квадрат. Просто намерих разликата от първата точка с данни до средната стойност и я повдигнах на квадрат. Като това по същество го прави положително число. Плюс втората точка с данни, 0, минус 10, това е средната стойност; имаме това 10 ето тук на квадрат плюс 10, минус 10 на квадрат – имаме това 10 тук в средата ... плюс 20 минус 10 – това е 10 , на квадрат... плюс 30 минус 10 на квадрат. Това е повдигнатата на квадрат разлика между всяко число и средно аритметичната стойност. Това там е средно аритметичната стойност. Намирам разликата между всяка точка от данни и средната стойност, повдигам на квадрат и ги събирам, като след това разделям на броя на точките с данни. Следователно изчислявам средното от тези числа, от повдигнатите на квадрат разстояния. Когато го кажеш на глас, това звучи много сложно. Но вземаш всяко число. Разликата между него и средната стойност, повдигаш на квадрат и изчисляваш средното от тях. Така че има 1, 2, 3, 4, 5 числа, делено на 5. На колко ще бъде равно това? Минус 10, минус 10 е минус 20. Минус 20 на квадрат е 400. 0 минус 10 е минус 10, на квадрат е 100, така че имаме плюс 100. 10 минус 10 на квадрат е просто 0 на квадрат, което е 0. Плюс 20 минус 10 е 10 на квадрат, което е 100. Плюс 30 минус 10, което е 20, на квадрат е 400. Цялото това върху 5. Какво имаме тук? 400 плюс 100 е 500, плюс още 500 е 1000. Равно е на 1000/5, което е равно на 200. Така че в тази ситуация дисперсията ще бъде 200. Това е мярката на разсейването тук. Нека го сравним с това множество от данни ето тук. Нека го сравним с дисперсията на това по-малко разпръснато множество от данни. Ще превъртя малко, за да имаме малко място, въпреки, че ми свършва. Може би мога да превъртя нагоре. Ето. Нека изчисля дисперсията за това множество от данни. Вече знаем неговата средна стойност. Дисперсията за това множество от данни ще бъде равна на 8 минус 10 на квадрат, плюс 9 минус 10 на квадрат, плюс 10 минус 10 на квадрат, плюс 11 минус 10 – нека превъртя малко нагоре – на квадрат, плюс 12 минус 10 на квадрат. Спомни си, че 10 е средната стойност, която изчислихме. Трябва първо да изчислиш средната стойност. Делено на ... имаме 1, 2, 3, 4, 5 повдигнати на квадрат разлики. Така че това ще бъде равно на – 8 минус 10 е минус 2, на квадрат е плюс 4. 9 минус 10 е минус 1, на квадрат е плюс 1. 10 минус 10 е 0 на квадрат. Получаваш също 0. 11 минус 10 е 1. Повдигаш го на квадрат и получаваш 1. 12 минус 10 е 2. Повдигаш го на квадрат и получаваш 4. И на колко е равно това? Цялото това е върху 5. Имаме 10/5. Така че ще имаме 10/5, което е равно на 2. Така че дисперсията тук – нека се уверя, че съм го получил вярно. Да, имаме 10/5. Дисперсията на това по-малко разпръснато множество от данни е много по-малка. Дисперсията на това множество от данни тук е само 2. Така че това ти дава някаква представа. Показва, че това е определено по-малко разпръснато множество от данни, отколкото това там. Проблемът с дисперсията е, че взимаш разликата между тези числа и средно аритметичната стойност, като я повдигаш на квадрат. Това ти дава малко произволно число и ако имаш работа с единици, да кажем ако това са разстояния. Това е минус 10 метра, 0 метра, 10 метра, това е 8 метра и така нататък, тогава когато повдигнеш на квадрат, получаваш дисперсия по отношение на метри на квадрат. Това е един вид странно множество от единици. Затова хората обичат да говорят по отношение на стандартното отклонение, което е просто корен квадратен от дисперсията или корен квадратен от сигма на квадрат. А знакът за стандартното отклонение е просто сигма. Сега, след като намерихме дисперсията, е много лесно да намерим стандартното отклонение на двете множества. Стандартното отклонение на първото множество от данни ще бъде корен квадратен от 200. Корен квадратен от 200 е колко? Корен квадратен от 2 по 100. Това е равно на 10 корен квадратен от 2. Това е за първото множество от данни. Стандартното отклонение за второто множество от данни ще бъде просто квадратния корен от неговата дисперсия, която е 2. Така че второто множество от данни има 1/10 от стандартното отклонение на първото множество. Това е 10 по корен от 2, а това е просто корен от 2. Това е 10 пъти стандартното отклонение на второто множество. Дано това да ти дава малко по-добра представа. Нека помислим върху него. Това има 10 пъти по-голямо стандартно отклонение от това. Нека си спомним как го изчисляваме. При изчисляване на дисперсията просто определяме всяка точка от множество данни на какво разстояние е от средната стойност, повдигаме на квадрат, събираме и изчисляваме средното от тях. След това изчисляваме квадратния корен, наистина просто за да изглеждат единиците добре, но крайният резултат е, че казваме, че първото множество от данни има 10 пъти по-голямо стандартно отклонение от второто множество. Нека погледнем двете множества от данни. Това има 10 пъти по-голямо стандартно отклонение, в което има смисъл интуитивно, нали? Имам предвид, че и двете имат 10 тук, но всяко от тези, 9 е само на единица разстояние от 10, 0 е на разстояние 10 от 10, с 10 по-малко. 8 е само на разстояние 2. Това е на разстояние 20. Така че средно имаме 10 пъти по-голямо разстояние. Така че стандартното отклонение, поне за мен, ни дава много по-добра представа за това, на какво разстояние средно се намираме от средно аритметичната стойност. Във всеки случай дано да си намерил това за полезно.