Основно съдържание

Курс: Статистика и вероятности > Раздел 11

Урок 1: Приблизително намиране на съотношенията (частите, на които се дели) в генералната съвкупност

Условия за извеждане на статистически изводи за част от генералната съвкупност

Когато искаме да изведем заключения относно съотношенията (частите, на които се дели), да зададем доверителен интервал или да направим проверка за значимост, точността на методите зависи от няколко условия. Преди да извършим същинските изчисления за интервала или проверката, е важно да проверим дали тези условия са изпълнени, иначе нашите изчисления и изводи може да се окажат неверни.

Условията, които са необходими, за да направим заключение за едно съотношение, са:

Случайност: Данните трябва да са от случайна извадка от рандомизирано проучване.
Нормалност: Извадковото разпределение на $\hat{p}$ ‍ трябва да бъде приблизително нормално — необходими са поне $10$ ‍ очаквани положителни изхода и $10$ ‍ очаквани отрицателни изхода.
Независимост: Отделните наблюдения трябва да бъдат независими. Ако извадката е без заместване, размерът на извадката трябва да бъде по-голям от $10 %$ ‍ от генералната съвкупност.

Нека разгледаме всяко от тези условия малко по-задълбочено.

Условие за случайност

Случайните извадки ни дават обективни данни за генералната съвкупност. Когато извадките не се избират на случаен принцип, данните обикновено имат някакво изкривяване, така че използването на данни, които не са случайно избрани, за да се правят заключения за генералната съвкупност, е рисковано и необективно.

По-точно, съотношенията в извадката са обективни оценители на съотношенията в генералната съвкупност. Например, ако имаме пакет с бонбони, където

50 %

от бонбоните са оранжеви, и вземем случайни извадки от пакета, някои от тях ще имат повече от

50 %

оранжеви бонбони, а други ще имат по-малко. Но средно делът на оранжевите бонбони във всяка извадка ще е

50 %

. Това свойство се записва като

μ_{\hat{p}} = p

, което е вярно само тогава, когато извадката е случайна.

Това обаче не е задължително да се случи, ако нашата извадка не е избрана случайно. Изкривени извадки водят до неточни резултати, така че те не трябва да се използват за намиране на доверителни интервали или извършване на проверки за значимост.

Условие за нормалност

Извадковото разпределение на

\hat{p}

е приблизително нормално, когато очакваният брой на положителни и отрицателни резултати е поне

10

и за двете. Това е възможно, когато размерът на извадката

n

е достатъчно голям. Доказателството за това е извън границите на настоящия курс по статистика, но урокът за извадково разпределение ще разкрие донякъде логиката и ще потвърди, че това условие работи.

Необходими са ни:

\begin{aligned} очаквани положителни резултати: n p \geq 10 \\ очаквани отрицателни резултати: n (1 - p) \geq 10 \end{aligned}

Ако определяме доверителен интервал, нямаме стойност за

p

, с която да заместим, затова преброяваме наблюдавания брой на положителни и отрицателни резултати в данните от извадката, за да се уверим, че и двата са поне

10

. Ако правим проверка за значимост, използваме размерът на извадката

n

и допускаме някаква стойност за

p

, за да изчислим очаквания брой на положителни и отрицателни резултати.

Условие за независимост

За да използваме формулата за стандартно отклонение на

\hat{p}

, е необходимо отделните наблюдения да бъдат независими. При извадки без заместване, отделните наблюдения технически не са независими, тъй като изваждането на отделен елемент променя генералната съвкупност.

Но правилото за

10 %

-те процента казва, че ако извадката съдържа

10 %

или по-малко от генералната съвкупност, можем да разглеждаме отделните наблюдения като независими, тъй като изваждането на отделните елементи не променя съществено генералната съвкупност по време на изследването. Например, ако размерът на извадката е

n = 150

, трябва да има поне

N = 1500

елемента в генералната съвкупност.

Това ни позволява да използваме формулата за стандартното отклонение на

\hat{p}

σ_{\hat{p}} = \sqrt{\frac{p (1 - p)}{n}}

При тест за значимост използваме размера на извадката

n

и правим допускане за стойността на

p

Ако определяме доверителен интервал за

p

, ние всъщност не знаем колко е

p

, затова заместваме

\hat{p}

с приблизителна стойност за

p

. Когато правим това, го наричаме стандартна грешка на

\hat{p}

, за да го отличим от стандартното отклонение.

Така нашата формула за стандартната грешка на

\hat{p}

σ_{\hat{p}} \approx \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}

Искаш ли да се присъединиш към разговора?

Вписване в профила

Сортирай по:

Все още няма публикации.

Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.