Текущ час:0:00Обща продължителност:5:26

Сравняване на точкови диаграми, хистограми и диаграми тип кутия

Видео транскрипция

В това видео искам да разгледам няколко примера за данни, представени по различни начини, и да помисля кой от тях е най-добрият. Или кой от тях може да ни помогне да отговорим на различни въпроси. Да видим първия пример. Един статистик записал дължината на всеки един от първите 14 филма на Пиксар. Той направил точкова диаграма, като всяка точка е един филм, хистограма и диаграма тип кутия, за да покаже данните за продължителността на филмите. Кой начин на излагане на данните може да бъде използван, за да намерим медианата? Нека разгледаме тези начини на представяне. Тук виждаме точковата графика. Имаме точка за всеки от 14-те филма. Един филм е бил с продължителност 81 минути. Виждаме това там. Друг е имал продължителност 92. Трети - 93. Виждаме, че един е бил с продължителност 95. А два са имали продължителност 96 минути, и т.н., и т.н. Аз твърдя, че мога да използвам това, за да намеря медианата, защото мога да направя списък с всяка от продължителностите на филмите, мога да ги подредя и след това мога да намеря медианата. Буквално мога да направя един списък. Мога да запиша 81 и след това 92, след това да напиша 93, после 95, след това мога да напиша 96 два пъти, и след това мога да напиша 98, после мога да напиша 100. Мисля, че разбираш, накъде отиват нещата. Мога да напиша целия списък и след това мога да намеря стойността в средата. Значи мога да използвам точковата диаграма, за да намеря средата. Но какво да кажем за хистограмата? Това тук е хистограмата. Тук начинът за намиране на медианата е просто да работим със списък на числата. Тук е даден един филм, който е между 80 и 85 минути, но не знам точната му продължителност. Продължителността му може да е била 81 минути, или може да е била 84 минути. Тук не знам и не мога в действителност да съставя списък на продължителностите на филмите и да намеря медианата. Не, не мисля, че ще мога да го направя, като използвам хистограма. При диаграмата тип кутия ето тук... Значи няма да отбележа хистограмата. При диаграмата тип кутия тук може да не мога да направя списък с всички стойности, но диаграмата тип кутия ясно ми показва каква е медианата. Отвесната линия в кутийката ни показва медианата. Колко е това? Ако това е 100, тази медиана е 99. Така че това е 95, 96, 97, 98, 99. Тя ясно ни показва, че медианата е 99. Това всъщност е най-лесният начин да изчислим медианата. Така че ще избера диаграмата тип кутия. За мен хистограмата е безполезна, ако искам да изчисля медианата. Нека решим още няколко от тези задачи. Нам притежава място с използвани коли. Той проверява километражите на колите и записва колко километра са карани. След това той създава хистограма и диаграма тип кутия, за да представи едни и същи данни, като и двете диаграми са показани по-долу. Кое представяне на данните може да бъде използвано, за да намерим колко автомобила са били карани повече от 200 000 километра? И така, колко автомобила са били карани повече от 200 000 километра? Изглежда, че тук в тази хистограма имам 3 автомобила, които са били между 200 и 250, а след това имам 2 автомобила, които са между 250 и 300. Изглежда доста ясно, че има 5 автомобила, три, които са навъртели между 200 000 и 250 000, и след това имам 2, които са изминали между 250 000 и 300 000. Сега мога да отговоря на въпроса. 5 автомобила са изминали над 200 000 километра. Мога да кажа, че хистограмата е доста полезна. Но нека докажем, че диаграмата тип кутия не е толкова полезна. Искам да знам колко автомобила са навъртели повече от 200 000. Ами знам, че ако сме изминали повече от 200 000, ще се намираме в четвъртия квартил, но не знаем колко стойности има там, само като гледаме тези данни тук, така че това няма да е полезно, за да отговорим на този въпрос. Нека разгледаме втория въпрос. Кой начин на представяне може да бъде използван, за да намерим стойността на медианата, кой начин на представяне може да бъде използван, за да намерим, че стойността на медианата е приблизително 140 000 километра? За да намериш медианата, по същество ще можеш да изброиш всичките числа и след това да намериш числото в средата. А тук не можем да изброим всички числа. Знам, че има 3 стойности, които са между 0 и 50 000 километра, но не знам, кои са те. Може да са 10 000, 10 000, 10 000. Може да са 10 000, 15 000 и 40 000. Не знам какви са, така че ако не мога да изброя всички тези неща и да ги подредя, аз наистина ще имам трудности, в намирането на стойността на медианата. Стойността на медианата ще бъде в този обхват някъде тук, но не знам точно колко ще бъде. Хистограмата не е полезна, защото сме поставили всички стойности в тези групи. Докато диаграмата тип кутия ясно, директно ни показва стойността на медианата. Тази линия ето тук вътре в кутийката ни показва стойността на медианата, а ние виждаме, че стойността на медианата тук, е 140 000 километра. Това е 100, 110, 120, 130, 140 000 км е стойността на медианата на разстоянията, изминати от колите. Така че диаграмата тип кутия ясно ни показва тези данни.