If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Статистическа значимост за скорост на автобуси

Сал определя дали резултатите от експеримент със скорост на автобуси са статистически значими.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

"Джована обикновено взима автобус В до работа, но сега мисли, че автобус А ще я докара по-бързо до там. Тя случайно разпределя 50 работни дни между експериментална група и контролна група. За всеки ден от експерименталната група тя взима автобус А; за всеки ден от контролната група тя взима автобус В. Всеки ден е засякла времето на пътуването." Това, което тя е направила, е много интересно, много важно, тя случайно е разпределила 50-те работни дни. Преди да направи това, вместо просто да се събуди сутринта и просто да реши кой автобус да вземе. Понеже хората са изключително зле в това да бъдат случайни. Дори когато мислим, че сме случайни, не сме толкова случайни. Тя може без да иска да взима автобус А по-рано през седмицата. Или може би времето за пътуване до работа е по-кратко. Или, може би, тя непредумишлено взима автобус А, когато времето е по-добро, когато има по-малко трафик. Помни, при човешките същества има естествена тенденция да искат да потвърдят хипотезите си. Така че, ако мисли, че автобус А е по-бърз, може би ще иска да избере дните, когато тя ще получи информация, която ще потвърди хипотезата ѝ. Много е важно, че случайно разпределя 50-те работни дни. Мога да си представя, че, може би, е написала всеки от работните дни, датите, на лист хартия. Тя ще има 50 листа хартия и после ги е обърнала на обратно или, може би, е затворила очите си и после е преместила листите по масата. После, със затворени очи, тя случайно е преместила листите до или лявата, или дясната част на масата. Ако са преместени до лявата част на масата, тогава те са дните, когато ще вземе автобус А, а ако ги е преместила в дясната част на масата, това са дните, когато тя взима автобус В. Така тя може да е сигурна, че това е напълно случайно. После ни казват, и това е важно: "Резултатите от експеримента показали, че медианата на времетраенето на пътуването с автобус А е с осем минути по-малка от медианата на времето за пътуване с автобус В." Можем да си го представим така: "Медианата на експерименталната група минус медианата на контролната група." Колко ще получим? Експерименталната група е с осем минути по-малко от контролната група. Това е А, това е В, тоест, ако това е с осем по-малко от това, тогава ще е равно на -8. Това е просто друг начин да кажем това, което подчертах ето тук. Алармата на нечия кола се включи, надявам се, че не я чуваш. Ще опитам да внимавам, докато тя се изключи. "За да провери дали резултатите могат да бъдат обяснени от случайността, тя създала таблицата по-долу, която обобщава резултатите от 1000 нови случайни разпределяния на данните (като разликите между медианите са закръглени до най-близките пет минути." Какво става тук? Можеш да си кажеш: "Тя е получила резултатите си, които е искала да получи, тези данни изглежда потвърждават, че автобус А я води по-бързо до работа. Защо е всичко това с новото преразпределение?" Важното нещо да осъзнаеш, и тя го разбира, е, че тя може просто да е получила тази информация, която подчертах, случайно. Има вероятност А и В да са напълно подобни, относно това, колко дълго пътуват в действителност. Тя просто е избрала автобус А в дните, когато автобус А е стигнал по-бързо до работа. Може би автобус В е по-бърз, но просто се е случило така, че е взела автобус А в дните, когато той е бил по-бърз. Дните, в които просто е имало по-малко трафик. Тук тя прави преразпределение на данните и иска да види при каква част от всички тези преразпределени данни, от всички тези 1000 преразпределения, имат резултат като този. Имам ли резултат, при който А с осем минути по-бърз или с повече? Или, можеш да кажеш, че медианата на пътуването с автобус А е с осем минути по-малко, или дори още по-малко от това, от медианата на пътуването с автобус В. Ако това беше с девет или 10 минути по-малко, или с 15 минути по-малко, всички интересуващи ни резултати са тези, които потвърждават хипотезата ни, че автобус А стига по-бързо до работа. Нека погледнем тази таблица, тя не е отдолу, а всъщност е вдясно. Нека си припомним какво е направила тук, понеже първият път, когато опиташ да разбереш това, може да изглежда малко затрудняващо. В експеримента си – нека запиша това, експеримент... Алармата на колата, която вероятно, надявам се, не чуваш, всъщност е доста приятно звучаща аларма, звучи като леко неприятна птица, но както и да е. Експериментът ѝ, начинът, по който го описах, е,че тя взима автобус А 25 дни, и автобус В също 25 дни. Тя записва времената на всички пътувания и, да кажем, имам 25 точки информация във всяка колона. Да кажем, че са 12 минути, 20 минути, 25 минути и продължаваш нататък, има 25 точки информация. Да кажем, че има 12 точки информация, които са по-малко от 20 минути и 12 точки информация, които са повече от 20 минути. Но, в тези обстоятелства, средната продължителност за автобус А ще е 20 минути – току-що си измислих това число. За да може това да е с осем минути по-малко от медианата за автобус В, медианата за автобус В трябва да е 28 и, може би тук също имаш точки информация. Може би това е 18 и имаш още 12, които са по-малко от 28. После имаш още 12, които са по-големи от 28. Медианата на времето за автобус В ще е 28 и отново просто си измислих тези данни. Взимаш медианата на експерименталната група. Ще я запиша като TGM за по-кратко. TGM минус медианата на контролната група. Колко ще получиш? 20 минус 28 е -8. Това са резултатите от... Това са теоретични, потенциални резултати, хипотетични резултати за експеримента ѝ. А какво да кажем за всичко това тук? Тук тя е взела тези времена и си е казала: "Нека си представим свят, при който може и за двата автобуса да съм получила всяко от тези времена случайно ." Тя ги е преразпределя по случаен начин между А и В, направила го е хиляда пъти. Първи път, втори път, трети път. Прави това 1000 пъти. Предполагам, че е използвала някакъв вид компютърна програма, за да го направи, и всеки път, отново, взима данните, които е имала, и просто ги пренарежда, сменя им местата. Може би А на първия ден. Може би е получила това 18. Може би получава това 25. Може би получава 30. Отново, имам 18, 25, 30 и, може би, В получава... Тя отново променя местата на всички тези други точки информация, които тук записах с точки и, може би, В... Да видим, тя е имала 18, 25, 30, 12, 20 и 28. В тези обстоятелства тя продължава отново и отново случайно да променя местата им. При това случайно променяне на местата, колко ще е медианата на експерименталната група минус медианата на контролната група? Ще е равна на +5. При това случайно променяне на местата, в този хипотетичен сценарий, медианата на автобус А ще е с пет минути по-дълга от тази на автобус В. Ако тя получи този резултат с това случайно променяне на местата, това ще е... Тя ще има колонка тук за пет. После тя ще степенува нещата тук. Изглежда е класифицирала нещата или, може би, дори не е взела данните, но ги е класифицирала умножени по две. Ако тя получи това отново, тогава ще постави една двойка тук. После ще си каже: "При колко от тези случайни промени на местата получавам сценарий, при който има пет минути разлика? Или където експерименталната група беше с пет минути по-дълга." Какво ни казва това? Например това казва, че 18 от тези 1000 промени на местата, при които случайно е променила местата на данните, 18 от тези 1000 пъти е открила сценарий, при който медианата на експерименталната група е била с 10 минути по-дълга от тази на контролната група. При които медианата на автобус А е била в това хипотетично преразпределяне, при което експерименталната група е с 10 минути по-бавна от контролната група. Имало е 159 пъти, в които експерименталната група... Отново, при случайното ѝ преразпределяне, тези не са основани на наблюдения, а са случайни променяния на местата. Има 159 пъти, в които експерименталната ѝ група е с четири минути по-бавна от контролната ѝ група. Цялата причина за това е, че тя казва: "Каква е вероятността да получа резултат като този или по-добър?" Казвам "по-добър" като имам предвид, че още повече потвърждава хипотезата ѝ, че експерименталната група е по-бърза от контролната група. Този сценарий тук е този ето тук и после друг, при който експерименталната група е още по-бърза, е този тук. Тук медианата на експерименталната група е с 10 по-малко от медианата на контролната група. В колко от тези хиляди сценарии се случва това? Това се случва 85 пъти, това се случва осем пъти. Ако ги събереш, 93 от хилядата пъти от преразпределянето ѝ или, предполагам можеш да кажеш, 9,3% от времето данните... 9,3% от тези 1000 случайни преразпределения, 9,3% от времето тя е получила данни, които са потвърждавали хипотезата ѝ точно толкова или повече, отколкото реалния експеримент. Един начин да го разгледаме е, че вероятността случайно да получим резултатите от експеримента ѝ или по-добри резултати отколкото тези от експеримента е 9,3%. Те са ниски, това е сравнително ниска вероятност, че това се е случило случайно. Въпросът е: "Каква е границата?" Ако това беше 50%, щеше да си кажеш: "Добре, беше много вероятно това да стане случайно." Ако това беше 25%, щеше да си кажеш: "Добре, това е много по-малко вероятно да стане случайно, но може да стане." 9,3%, това е приблизително 10%. За всеки 10 души, които са направили експеримент, както тя, дори ако това беше случайно, един човек щеше да получи такива данни. Обикновено статистиците рисуват праг и прагът за статистическа значимост обикновено е 5%. Един начин да си го представим е вероятността тя да получи този резултат случайно, този или по-екстремен резултат. Такъв, който още повече потвърждава хипотезата, че това е 9,3%. Границата ти за значимост е 5%. Тогава си казваш: "Това трябва да е 5% или по-малко." Казваш си: "Добре, това не е статистически значимо." Има повече от 5% шанс да получа този резултат чисто случайно. Отново, това просто зависи от къде имаш този праг. Когато се върнем обратно, мисля, че вече отговорихме на последния въпрос: "Според симулациите, каква е вероятността медианата на експерименталната група да е по-ниска от медианата на контролната група с осем минути или повече?" Като, отново, осем минути или повече, това ще е -8 и -10. Точно открихме, че това бяха 93 от хилядата случайни преразпределения, така че това е 9,3% шанс. Ако избереш 5% като граница за статистическа значимост, тогава си казваш, че това не отговаря на границата, така че това не е статистически значим резултат.