If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Видове статистически проучвания

Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Нека кажем, че подозираш, че захарта причинява по някакъв начин болести на сърцето. По някакъв начин причинява заболявания на сърцето. Искаш да изследваш това нещо по-подробно. Искаш да видиш какъв вид статистически изследвания можеш да извършиш, за да разбереш по-добре консумацията на захар в генералната извадка като цяло и дали изглежда, че причинява сърдечни заболявания по някакъв начин. Първото нещо, което може да искаш да направиш, е просто да опиташ да разбереш каква е консумацията на захар в генералната съвкупност като цяло. Ясно е, че не знаеш, няма начин да измериш точно колко захар употребява всеки член. Нека кажем, че говорим за Съединените щати. Колко употребява всеки член от населението от 300 милиона всеки ден. Начинът, по който се опитваме да добием представа за това колко захар се употребява, е чрез извършване на извадково изучаване. Имаш генерална съвкупност от 300 милиона човека. Тук имаме генералната съвкупност. Генерална съвкупност. И правиш извадка от нея. Правим извадка от генералната съвкупност, като не просто правим извадка, а правим случайна извадка. Очевидно е, че не искаме да изучаваме само хора, които обичат да посещават магазин за кексчета или хора, които обичат да ходят на фитнес. Искаме да имаме случайна извадка от хората, при които начинът, по който ги избираме, да не влияе по никакъв начин на отговорите им или на това, колко захар може да кажат, че употребяват. Но те ще ти кажат колко захар употребяват, да кажем средно на ден, може би като попълнят анкета или по някакъв друг начин. Като ти ще вземеш тези данни от тук и очевидно колкото повече извадки имаш, толкова по-добре, като ще говорим за това по-задълбочено в други клипове за статистика. За това, как получаваш по-добро предположение на действително верния параметър на генералната съвкупност, ако направиш колкото може повече извадки. Но можеш да направиш това, за да добиеш представа колко захар употребява средностатистическия американец за даден ден. Това тук, при което правим случайни извадки от генералната съвкупност, по същество образува статистика, която изчислява истински параметър, който е действителното количество захар, което американците употребяват всеки ден. Ще наричаме това извадково изучаване. Извадково изучаване. Това е начин, още веднъж, просто да изчислим приблизително какво е действителното количество захар, което хората употребяват всеки ден. Нека кажем, че искаме да отидем още по-далеч. Това ще ни даде представа, какво е приблизителното количество захар, което хората консумират всеки ден, но ти в действителност искаш да видиш, как това е свързано със сърдечните заболявания. Така че вместо това, провеждаш анкета сред хората. Провеждаш анкета и питаш: "Колко захар консумирате?". Още веднъж, когато избираш тези хора, ти би трябвало да го правиш на случаен принцип. Нека кажем, че правиш анкета на случайна извадка от 60 годишните. Още веднъж, не би желал да анкетираш само хора, които са в болницата, не би искал да анкетираш хора, които стоят само във фитнеса. Ще искаш да намериш случайна извадка или да ги интервюираш на места, които не би трябвало да повлияят на това, какъв отговор ще бъде даден. Нека кажем, че проучваш 300 шестдесетгодишни и ги питаш колко захар са консумирали през последните 30 години. Като ги питаш също за състоянието на сърцето им. Това, което ще получиш, е нещо подобно. На хоризонталната ос нанасяш консумацията на захар, а върху вертикалната ос нанасяш риска от сърдечни заболявания или нивото на сърдечните им заболявания. Риск от сърдечни заболявания, да кажем на 60. И получаваш графика, която изглежда по подобен начин. Всяка от тези точки... Това е някой, който е консумирал по 200 грама захар на ден и сега е с повишен риск от сърдечни заболявания на 60 годишна възраст. Но може би това е някой, който е с нисък риск от сърдечни заболявания на 60 годишна възраст, дори и да е употребявал много захар всеки ден. Като продължаваме да нанасяме всички тези точки. Ще кажеш: "Знаеш ли какво? Изглежда, че..." Очевидно няма да нанеса тук всичките 300. Казваш: "Добре, всъщност изглежда, че тук има някаква груба зависимост." Ако се опиташ да начертаеш права, определено ще има някои отдалечени точки тук, но изглежда, че има права, която можеш да свържеш с данните. Тогава може да кажеш: "Изглежда, че захарта и рискът от сърдечни заболявания на 60 години са свързани, те са свързани по някакъв начин, че те се движат заедно. Ако някой е консумирал много захар през последните 30 години, изглежда че има по-лошо състояние на сърцето и ако е употребявал много по-малко захар, изглежда, че има по-добро състояние на сърцето." Това често се случва в медицинската наука, когато хората видят нещо подобно, те често правят заключението, че следователно консумацията на повече захар трябва да повиши риска от сърдечни заболявания. Това е много опасно, защото само гледането на тези данни не ни казва със сигурност, че захарта причинява риск от сърдечни заболявания. Би могло да го направим по другия начин. Може да се окаже, че хората, които имат по-висок риск от сърдечни заболявания, може би са били пристрастени към захарта, но в действителност има някаква друга причина това да се случи. Може би са имали някаква друга липса, която ги кара да желаят да консумират захар. Така че не е ясно, по кой начин се случва това. Дали консумацията на захар води до нездраво сърце или по някакъв начин нездравото сърце ръководи консумацията на захар или може би има някаква друга причина. Може би консумацията на мазнини да води до сърдечни заболявания и може би хората, които са употребявали повече мазнини, също да употребяват и повече захар или обратното, кой знае. Всичко това ни казва, че има някаква зависимост. Това тук, можеш да го наричаш изследване чрез наблюдение. Наблюдаваш зависимостта, но не можеш наистина да кажеш, кое какво причинява. Нека го запиша тук отодлу. Това е изследване чрез наблюдение. Вероятно казваш: "Добре, тогава как можеш да докажеш или да се увериш в идеята, че захарта всъщност е причината, че в действителност има някаква причина за това?" За да го направиш, може всъщност да проведеш експеримент. Експеримент. За да направиш експериментално изследване, ще се опиташ да набереш две групи от хора. Ще имаш експериментална група. Това е експерименталната ти група. Всъщност нека я направя с кръг, така че това да е групата от хора. Нека кажем, че имаш 100 човека, които участват в експеримента. Това е експерименталната ти група. След това имаш контролна група. Имаш контролна група. Нещото, което щеше да направиш, ако искаше да направиш този тип експеримент, като ние ще видим, че този тип експеримент вероятно няма да бъде направен, защото някои ще го счетат за неетичен или всъщност аз също бих го счел за неетичен. Но това, което ще направиш, е произволно, нека кажем че избереш 30-годишни, произволно ще избереш 30-годишни и ще ги поставиш в едната от тези две групи. Още веднъж, когато казваме произволно, няма да сложиш всички здрави хора в едната група, а всички болни в другата или обратното. Искаш това да е на случаен принцип, не искаш да поставиш всички хора от един тип, от един демографски тип, с един икономически статус в една група или друга, а искаш това да е на случаен принцип. Така че произволно поставяш хората в тези две групи и след това в експерименталната група ще промениш една променлива. Променливата, която те интересува е захарта. Може да кажеш: "Добре, всички хора в тази група тук, независимо колко захар са консумирали, ще трябва да пият, не знам, ще трябва да пият чаша сироп всяка вечер или ще трябва да приемат минимално количество захар." Така че по същество налагаш захарта в тази група, като не я налагаш в другата група. И след 30 години, това вероятно е неетично да принудиш хората да употребяват нещо, което е много вероятно да не е добро за здравето им, като трябва да го направиш за дълъг период от време, ще трябва да изчакаш 30 години. Ще чакаш 30 години, когато те са вече на 60 и ще видиш, какво е състоянието на сърцето на тези хора. Колко хора може би са претърпели инфаркт? Какво е здравословното им състояние на 60? И тогава статистически е малко вероятно, разликата да бъде в следствие само на случайността. Например ако го направиш, да кажем, че тези хора са имали малко по-висок шанс за заболявания на сърцето или инфаркт, от тези хора след 30 години. Би било добър експеримент, но той няма да ти позволи да направиш заключението, че захарта причинява това, защото това може да се е случило случайно. Но ако например след 30 години, ако кажем, че тази група тук има 10 пъти повече риск от инфаркт или 10 пъти повече какъвто и да е рисков фактор за заболявания на сърцето. Статистически ще кажеш, че вероятността това да се стане случайно, 100 човека в тази група тук да имат 10 пъти повече шанс от инфаркт, отколкото тази група тук, е малко вероятно да е само случайно. Така че ще кажеш: "Добре!" Ще сме уверени в нашето заключение, че тази наложена за употреба захар причинява това. Както и да е, ще разгледам по-подробно всеки от тези три типа, но целта на това видео е просто да разбереш, че използваме статистиката доста често, но това ти дава представа, как я използваме в различни ситуации, когато правим статистически изследвания. Това е за да изчислим истинския параметър за една генерална съвкупност. Каква е действителната консумация на захар за генералната съвкупност? Случайно правиш извадка и след това използваш данните от извадката, за да образуваш статистика, която изчислява приблизително истинския параметър. Изучаване чрез наблюдение -- наблюдаваш какво се случва. Прием на захар срещу риск за сърцето. Казваш: "Хей, има зависимост може би това си заслужава да направим експеримент". Защото само чрез един експеримент можем да се опитаме да намерим някакъв вид зависимост.