If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: Статистика и вероятности > Раздел 12

Урок 4: Тест за средното на генералната съвкупност

Условия за статистически изводи относно средно аритметична стойност

Когато искаме да изведем заключения (да построим доверителен интервал или да направим тест за значимост) за средна стойност, точността на методите ни зависи от няколко условия. Преди да направим реалните изчисления за интервала или теста, важно е да проверим дали тези условия са били изпълнени, или не. Иначе изчисленията и заключенията може да не са верни.
Условията, които са необходими за заключение за една средна стойност, са:
  • Случайност: За получаване на данните трябва да са били използвани случайна извадка или рандомизиран експеримент.
  • Нормалност:Извадковото разпределение на x¯ (средната стойност на извадката) трябва да е приблизително нормално. Това е вярно, ако родителската генерална съвкупност е нормална или извадката ни е сравнително голяма (n30).
  • Независимост: Отделните наблюдения трябва да са независими. Ако правим извадка без заместване, размерът на извадката ни не трябва да е повече от 10% от генералната съвкупност.
Нека разгледаме всяко от тези условия малко по-задълбочено.

Условие за случайност

Случайните извадки ни дават неизместени данни от една генерална съвкупност. Когато не използваме случайно избиране, получаващите се данни обикновено имат някакъв вид изместване, така че използването им, за да заключим нещо за генералната съвкупност, може да бъде рисковано.
По-точно, средните стойности на извадките са неизместени оценки за средната стойност на генералната съвкупност. Например, предположи, че имаме торба топчета за пинг-понг, всяко от които е номерирано от 0 до 30, така че средната стойност на генералната съвкупност на торбата е 15. Можем да вземем случайна извадка топчета от торбата и да изчислим средната стойност за всяка извадка. Някои извадки ще имат средна стойност, по-голяма от 15, а някои – по-малка. Но средно средната стойност на всяка извадка ще е равна на 15. Пишем това свойство като μx¯=μ, което е вярно, докато взимаме случайни извадки.
Това обаче не е задължително да се случи, ако използваме неслучайни извадки. Изместени извадки могат да доведат до неточни резултати, така че не трябва да бъдат използвани за създаване на доверителни интервали или извършване на тестове за значимост.

Условие за нормалност

Извадковото разпределение на x¯ (средна стойност на извадка) е приблизително нормално в няколко различни случая. Формата на извадковото разпределение на x¯ предимно зависи от формата на родителската генерална съвкупност и размера на извадката n.

Случай 1: Родителската генерална съвкупност е нормално разпределена

Ако родителската генерална съвкупност е нормално разпределена, тогава извадковото разпределение на x¯ е приблизително нормално, без значение от размера на извадката. Така че ако знаем, че родителската генерална съвкупност е нормално разпределена, изпълняваме това условие, дори ако размерът на извадката е малък. Но в практиката обикновено не знаем дали родителската генерална съвкупност е нормално разпределена.

Случай 2: Не-нормална или неизвестна родителска генерална съвкупност; размерът на извадката е голям (n30)

Извадковото разпределение на x¯ е приблизително нормално, стига размерът на извадката да е сравнително голям. Поради централната гранична теорема, когато n30, можем да третираме извадковото разпределение на x¯ като приблизително нормално, без значение от формата на родителската генерална съвкупност.
Има няколко редки случая, при които родителската генерална съвкупност има толкова необичайна форма, че извадковото разпределение на средната стойност на извадката x¯ не е много нормално за извадки с размер близо до 30. Тези случаи са редки, така че в практиката обикновено е безопасно да приемем приблизителна нормалност в извадковото разпределение, когато n30.

Случай 3: Не-нормална или неизвестна родителска генерална съвкупност; размерът на извадката е малък (n<30)

Стига родителската генерална съвкупност да няма отдалечени стойности или силно изкривяване (асиметрия), дори по-малки извадки ще доведат до извадково разпределение на x¯, което е приблизително нормално. В практиката обикновено не можем да видим формата на родителската генерална съвкупност, но можем да опитаме да направим извод за формата въз основа на разпределението на данните в извадката. Ако данните в извадката показват асиметрия или отдалечени стойности, показваме съмнение, че родителската генерална съвкупност е приблизително нормална и че извадковото разпределение на x¯ също може да не е нормално. Но ако данните от извадката са приблизително симетрични и няма отдалечени стойности или силна асиметрия, можем да приемем, че извадковото разпределение на x¯ ще е приблизително нормално.
Голямата идея е, че трябва да начертаем графика на данните от извадката си, когато n<30, и после да направим решение за условието за нормалност въз основа на вида на данните от извадката.

Условие за независимост

За да използваме формулата за стандартно отклонение на x¯, трябва отделните наблюдения да са независими. В един експеримент един добър дизайн обикновено се грижи за независимостта между субектите (контрол, различни въздействия, рандомизация).
В едно наблюдателно проучване, което включва правене на извадка без заместване, отделните наблюдения технически не са независими, тъй като премахването на всяко наблюдение променя генералната съвкупност. Но условието за 10%-те процента ни казва, че ако правим извадка от 10% или по-малко от генералната съвкупност, можем да третираме отделните наблюдения като независими, тъй като премахването на всяко наблюдение не променя генералната съвкупност толкова много, когато правим извадка. Например ако размерът на извадката ни е n=30, трябва да има поне N=300 члена в генералната съвкупност за извадката, за да изпълним условието за независимост.
Като приемаме независимост между наблюденията, това ни позволява да използваме тази формула за x¯, когато правим доверителни интервали или създаване на тестове за значимост:
σx¯=σn
Обикновено не знаем стандартното отклонение на генералната съвкупност σ, така че заместваме стандартното отклонение на извадката sx като приблизителна стойност за σ. Когато направим това, наричаме го стандартна грешка на x¯, за да го различим от стандартното отклонение.
Тоест формулата ни за стандартната грешка на x¯ е:
σx¯sxn

Резюме

Ако всички тези три условия са изпълнени, тогава можем да сме уверени в използването на t разпределения за създаване на доверителен интервал или за да направим тест за значимост. Удовлетворяването на тези условия прави изчисленията ни точни, а заключенията ни – надеждни.
Условието за случайност е вероятно най-важното. Ако нарушим условието за случайност, вероятно в данните има изместване. Единственият надежден начин да поправим изместена извадка е отново да съберем данните по безпристрастен начин.
Другите две условия са важни, но ако не изпълняваме условията за нормалност или за независимост, може да не е нужно да започваме отново. Например има начин да поправим липсата на независимост, когато правим извадка от над 10% от една генерална съвкупност, но това е извън мащаба на това, което учим сега.
Основната идея е, че е важно да се уверим, че определени условия са изпълнени, преди да създаваме тези доверителни интервали или да правим тези тестове за значимост.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.