If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Доверителни интервали за малък размер на извадката

Изграждане на доверителни интервали за малък размер на извадката използвайки t-разпределение. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Кръвното налягане на 7 пациенти било измерено, след като са приемали ново лекарство в продължение на 3 месеца. Било наблюдавано повишение на кръвното налягане, и тук ни дават седем точки данни – кой знае, това са в някакви единици за кръвно налягане. Да се изгради 95%-ен доверителен интервал за действителното очаквано нарастване на кръвното налягане при всички пациенти от генералната съвкупност. Има някакво разпределение на генералната съвкупност тук. Допускаме основателно, че това разпределение е нормално. Става дума за биологически процес. Т.е., ако дадем това лекарство на всеки човек, който някога е живял, това ще доведе до някакво средно повишение на кръвното налягане, или кой знае, може би всъщност то ще намалее. И при него също ще има някакво стандартно отклонение. Това е едно нормално разпределение. Причината да предположим основателно, че това е едно нормално разпределение, е тази, че това е един биологичен процес. Това е съвкупност от хиляди, милиони случайни събития. А резултатите от на милиони и хиляди произволни събития са един вид нормално разпределени. Това е разпределението на генералната съвкупност. И фактически не знаем нищо за него извън извадката, която имаме. Това, което можем да направим, и е хубаво да направим, когато имаме извадка, е просто да намерим всичко, което е възможно да намерим за тази извадка, още в началото. Имаме нашите точки информация. Можем да ги съберем и да ги разделим на 7, за да получим средната стойност на извадката. Средната стойност на извадката тук е 2,34. След това можем да пресметнем и стандартното отклонение на извадката. Намираме квадрата на разстоянието от всяка една от тези точки до средната стойност, събираме ги, разделяме на n минус 1, защото това е извадката, след това намираме квадратния корен, и получаваме стандартното отклонение на нашата извадка. Направих това предварително, за да спестя време. Стандартното отклонение на извадката е 1,04. И когато не знаем нищо за разпределението на генералната съвкупност, това, което правихме от началото, е да намерим този оценка за стандартното отклонение на извадката. Така че оценяваме действителното стандартно отклонение на генералната съвкупност чрез стандартното отклонение на извадката. И в тази задача, точно тази задача, се натъкваме на проблем. Пресмятаме стандартното отклонение, когато n е само 7. И това вероятно ще бъде не много добра оценка, защото... нека напиша – защото n е малко. По принцип се счита за лоша оценка, ако n е по-малко от 30. Над 30 сме в царството на добрите оценки. И фокусът на този клип е съсредоточен в това – когато мислим за извадковото разпределение, същото, което ще използваме, за да създадем нашия интервал, вместо да приемем , че извадковото разпределение е нормално, както и направихме в много други клипове, като приложихме централната гранична теорема и всичко това, тук ще променим извадковото разпределение. Няма да го приемаме като нормално разпределение, защото ще получим лоша оценка. Ще приемем, че има разпределение, наречено t-разпределение. t-разпределението по същество, най-добрият начин да го разглеждаме, е, че е все едно конструирано, за да даде по-добра оценка на доверителните интервали и всичко това, когато действително имаме малък размер на извадката. Изглежда много подобно на едно нормално разпределение. То има някаква средна стойност – това е нашата средна стойност на нашето извадково разпределение. Но тук то има и по-големи опашки. Начинът, по който разглеждам тези по-големи опашки, е, че приемам, че имаме налице едно стандартно отклонение за... ще направя още една стъпка. При нормалното разпределение намираме стойността на действителното стандартно отклонение, след което казваме, че стандартното отклонение на извадковото разпределение е равно на действителното стандартно отклонение на генералната съвкупност, делено на квадратен корен от n. В този случай n е равно на 7. Тогава си казваме: "Добре, никога не знаем действителното стандартно отлонение, или рядко знаем, понякога наистина го знаем, но рядко знаем действителното стандартно отклонение. А ако не го знаем, най-добрата оценка, която можем да поставим тук, това е стандартното отклонение на извадката. А това тук, това е цялата причина за това защо не казваме, че това е само интервал с вероятност 95%. Това е цялата причина да го наречем доверителен интервал, защото правим някои предположения. Това ще се променя от извадка до извадка. И конкретно, това ще бъде определено лоша оценка, когато имаме малък размер на извадката, размер, по-малък от 30. Така че, когато оценяваме стандартното отклонение, там, ние не го знаем, ние го пресмятаме от стандартното отклонение на извадката, и размерът на нашата извадка е малък, тогава ще използваме това, за да преметнем стандартното отклонение на нашето извадково разпределение, не приемаме, че разпределението на извадката е нормално разпределение. Приемаме, че то има по-дебели опашки. Има по-дебели опашки, защото всъщност ние подценяваме стандартното отклонение тук. Както и да е, с всичко казано дотук, нека само преминем през тази задача. Трябва да номерим 95%-ния доверителен интервал около тази средна стойност тук. 95%-ният доверителен интервал, ако това беше едно нормално разпределение, ще го погледнеш в Z-таблица. Но то не е, това е t-разпределение. Търсим 95%-ен доверителен интервал. Това е някакъв интервал около средната стойност, който обхваща 95% от площта. За t-разпределение използваме t-таблица, и тук имам една предварително направена такава. Сега в таблицата гледаме реда за симетрично двустранно разпределение (с две опашки), каквото имаме тук. И най-добрият начин да определим това е, че имаме симетрично разположение от двете страни на средната стойност. И затова наричаме разпределението двустранно. Би била едностранно, ако имаше един вид сумарен процент към даден критичен праг. Но в този случай то е двустранно, имаме симетричност. Или друг начин да го представим, е като изключим двете опашки. Така искаме 95% от средата. И това е извадково разпределение на средната стойност при n равно на 7. Тук няма да навлизам в подробности, но когато n =7, имаме 6 степени на свобода, или n минус 1. И начинът, по който са направени t-таблиците, показва как се намират степените на свобода. Не се използва n, а се използва n – 1. И затова отиваме на шест в таблицата. Ако искаме да оградим 95% от това тук, и имаме n от 6, трябва да отидем на 2,447 стандартни отклонения във всяка посока. А тази t-таблица предполага, че това стандартно отклонение е приблизително равно на нашето извадково стандартно отклонение. Друг начин да помислим за него, е когато трябва да стигнем на 2,447 по това приблизително изчислено стандартно отклонение. Нека го напиша тук. Така, трябва да стигнем до 2,447 – това разстояние тук е 2,447 по това приблизително определено стандартно отклонение. И понякога ще видим нещо такова в някой учебник по статистика. Това нещо тук, точно това число, е показано по този начин. Сложена е малка шапчица върху стандартното отклонение, за да стане ясно, че то е изчислено приблизително чрез извадковото стандартно отклонение. И ще сложим една шапчица тук, защото откровено казано, това е единственият елемент, който можем да пресметнем. И това показва колко далеч можем да отидем във всяка посока. Знаем и каква е тази стойност. Знаем какво е извадковото разпределение. Сега ще взема нашия калкулатор. Знаем, че стандартното отклонение на извадката е 1,04. И искаме да го разделим на корен квадратен от 7. Получаваме 0,39. Т.е. това тук е 0,39. И ако искаме да намерим областта около тази средна стойност на генералната съвкупност, която обгражда 95% от генералната съвкупност или от извадковото разпределение, трябва да умножим 0,39 по 2,447, така че нека го направим. Умножено по 2,447 дава 0,96. Така това е равно на... това разстояние тук е 0,96, а това тук е 0,96. И ако вземем една случайна извадка, а това е същото, което направихме, когато взехме тези 7 резултата. Когато за тези 7 резултата намерихме средната им стойност, тя може да се разглежда като случайна извадка от извадковото разпределение. Така вероятността, можем и да я видим, бихме казали, че имаме 95% вероятност... трябва всъщност да изразим всичко като доверителен интервал, понеже правим всички тези приблизителни оценки тук. И нямаме действителна точна 95% вероятност. Просто вярваме, че има 95% вероятност, че нашата случайна генерална съвкупност... нашата случайна извадка, която е 2,34, и можем някак да я използваме... просто взехме това 2,34 от разпределението тук. Така че има 95% вероятност... 2,34 да е в рамките на 0,96 от реалната средна стойност на извадковото разпределение, която също знаем, че е равна на средната стойност на генералната съвкупност. Или можем само да пренаредим изречението и да кажем, че има 95% вероятност действителната средна стойност, която е същото като средната стойност на извадковото разпределение, да е в рамките на 0,96 от средната стойност на извадката, или 2,34. Така в ниския край, ако отидем на 2,36 минус... ако отидем на 2,34 минус 0,96 – това е ниският край на нашия доверителен интервал, 1,38. А високият край на този интервал, 2,34 плюс 0,96 е равен на 3,3. Така нашият 95%-ен доверителен интервал е от 1,38 до 3,3.