If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Средна стойност и стандартно отклонение срещу медиана и ИКР

Да се научим да избираме "предпочитаните" мерки за център и разсейване, когато в един набор данни имаме отдалечени стойности.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Имаме девет ученици, които наскоро са завършили малко училище, в което имало клас с девет души, и те искат да разберат каква е централната тенденция за заплатите една година след завършването? Те искат също да разберат какво е разсейването около тази централна тенденция една година след завършване. Те се съгласяват да въведат заплатите си в компютър и това са техните заплати. Те биват измервани в хиляди. Заплатите са 35 000; 50 000; 50 000; 50 000; 56 000; двама изкарват по 60 000; един изкарва 75 000 и един изкарва 250 000. Последният доста добре се справя. Компютърът извежда няколко параметъра, въз основа на тази информация тук. Той изважда два типични показателя за централна тенденция. Средната стойност е приблизително 76,2. Компютърът я изчислява, като събира всички тези числа, тези девет числа, и после ги дели на девет, а медианата е 56, тя е много лесна за изчисляване. Просто подреждаш числата и взимаш числото по средата, което тук е 56. Сега искам да поставиш това видео на пауза и да помислиш върху този набор данни. За тази група заплати кой показател за централна тенденция е по-добър? Нека помислим върху това. Ще направя една линия тук. Ще направя схема на информацията си, за да я разберем по-добре, така че да не виждаме нещата само като числа, но и да видим къде тези числа се намират едно спрямо друго. Нека това е нула. Да кажем, че това е едно, две, три, четири, пет. Това ще е 350, това е 50, 100, 150, 200, 200. Да видим. Да кажем, че ако това е 50, тогава това тук ще е приблизително 40. Това ще е около 60, 70, 80, 90. Можех да направя това малко по-спретнато, 60, 70, 80, 90. Нека разчистя малко повече тук. Това ето тук ще е малко по-близо до това. Нека го направя правилно. Това е 40, а това ще е 30, 20, 10. Така е доста добре. Нека нанесем тази информация. Един ученик изкарва 35 000, което е ето тук. Трима изкарват 50 000, така че имаме едно, две, три. Ще го направя така. Един изкарва 56 000, което го поставя ето тук. Двама изкарват по 60 000, което е ето така. Един изкарва 75 000, това е 60, 70, 75 000. Това ще е някъде тук. А един изкарва 250 000. Една заплата е чак тук. После, когато пресметнем средната стойност като 76,2 и като мярка за нашата централна тенденция, 76,2 е ето тук. Добро ли е това измерване на централната тенденция? Не ми се струва така, понеже нашето измерване за централната тенденция е по-високо от всички тези стойности, освен една, и причината за това е, че информацията ни е изкривена значително от тази стойност от 250 000 долара. Тя е толкова далеч от останалото разпределение, от останалата информация, че е изкривила средната стойност и това е нещо, което може да се види като цяло. Ако имаш изкривена информация и особено неща като информация за заплата, където повечето хора изкарват 50, 60, 70 000 долара, но някой може да изкарва два милиона долара, това ще изкриви средната стойност, когато ги събереш и разделиш на броя стойности, които имаш. В този случай, особено, когато имаш стойности, които биха изкривили средната стойност, медианата е много по-ясна. Медианата 56 стои ето тук, което изглежда много по-показателно за централната тенденция. Замисли се. Дори ако изкарваш толкова, вместо 250 000, ако правиш 250 милиона долара, което е огромна сума пари, то ще изкриви изключително много средната стойност, но няма да промени медианата, понеже за медианата няма значение колко голямо е това число. Може да е милиард долара. Може да е квадрилион (10 на степен 15) долара. Медианата ще си остане същата. Така че медианата е много по-ясна, ако имаш изкривен набор данни. Средната стойност има малко повече смисъл, ако имаш симетричен набор данни или ако имаш неща, които са приблизително над и под средната стойност, или нещата не са изкривени изключително много в една посока, особено от малко точки информация, както тук. В този пример медианата е много по-добро измерване за централната тенденция. А какво да кажем за разсейването? Може да си помислиш, че вече казах, че средната стойност не е толкова добра и стандартното отклонение се базира на средната стойност. Вземаш всяка една от тези точки информация, намираш разстоянието им от средната стойност, повдигаш числото на квадрат, събираш тези повдигнати на квадрат отклонения, разделяш на броя точки информация, ако това е стандартно отклонение на извадка, а после намираш корен квадратен от цялото това нещо. След като това се базира на средната стойност, която не е добро измерване за централната тенденция в тази ситуация, това също ще изкриви и стандартното отклонение. Това ще е много по-голямо, отколкото ако погледнеш реалния случай, когато искаш индикация за разсейването. Имаш тази една точка информация, която е много далече от средната стойност или от медианата, в зависимост как си го представяш, но повечето точки информация изглеждат доста по-приближени, така че за тази ситуация, не само използваме медианата, но интерквартилният размах също дава по-ясна оценка. Как пресмятаме интерквартилния размах ? Взимаме медианата и взимаме долната група числа и пресмятаме тяхната медиана. Това тук е 50, а после взимаме горната група числа и те са 60 и 75, като медианата е 67,5. Ако това не ти изглежда познато, имаме много видеа за интерквартилен размах и пресмятане на стандартно отклонение, и за медиана, и за средна стойност. Това е нещо като преговор. И разликата между тези двете е 17,5. Забележи, разстоянието между тези две стойности е 17,5. Това няма да се промени, дори ако това е 250 милиарда долара. Отново, и двата показателя са по-ясни, когато имаш изкривен набор данни. Това, което трябва да запомниш тук е, че средната стойност и стандартното отклонение не са лоши, ако имаш приблизително симетричен набор данни, ако нямаш значителни големи разлики в стойностите, неща, които наистина изкривяват набора данни, средната стойност и стандартното отклонение могат да са доста надеждни. Но ако гледаш нещо, което може доста да бъде изкривено от няколко стойности, медианата и интерквартилният размах, медианата за централната тенденция, а интерквартилният размах за разсейването около тази централна тенденция. Затова, когато хората говорят за заплати, те често говорят за медиани, понеже може да има някои твърде различни стойности на заплатите, особено в горния край. Когато говорим за неща като цени на домове, ще видиш, че медианата по-често бива пресмятана, отколкото средната стойност, понеже цените на домовете в даден квартал или град, цените на къщите могат да са около 200 000 или 300 000 долара, но може да има едно огромно имение, което е 100 милиона долара и ако пресметнеш средната стойност, това ще се изкриви и ще даде фалшива представа за средната или централната тенденция на цените в този град.