If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Тест за средното на генералната съвкупност

Видео транскрипция

"Сунил и приятелите му използват повече от година приложение за групови съобщения , за да си пишат един с друг. Той подозира, че те средно изпращат повече от 100 съобщения на ден. Сунил взима случайна извадка от 7 дни от тяхната чат история и записва колко съобщения са били изпратени в тези дни. Данните от извадката са силно изкривени надясно със средна стойност от 125 съобщения и стандартно отклонение от 44 съобщения. Той иска да използва данните от тази извадка, за да проведе t-тест за средната стойност. Кои условия за провеждане на този вид тест за значимост са били изпълнени?" Нека помислим какво става тук. Сунил може да има някакъв вид нулева хипотеза. Може би е взел тези 100, може би е прочел статия в списание, която казва, че средностатистическият тийнейджър изпраща 100 текстови съобщения на ден. И може би нулевата хипотеза е, че средната стойност на количеството съобщения на ден, които той и приятелите му изпращат, което е означено като мю, може би нулевата хипотеза е 100, тоест че те не са различават от останалите тийнейджъри. И може би той подозира – и те казват това ето тук – алтернативната му хипотеза ще е това, което той подозира. Че те изпращат повече от 100 текстови съобщения на ден. И той взима извадка от генералната съвкупност от дни, като има над 365. Те казват, че са използвали приложението за групови съобщения повече от година. И той взима 7 от тези дни. n = 7. И от това изчислява статистическата характеристика на извадката. Тойа пресмята средната стойност на извадката, като се опитва да направи оценка на истинската средна стойност на генералната съвкупност. Той също успява да пресметне стандартното отклонение на извадката. И при тест за значимост си казваш: каква е вероятността да получиш тази средна стойност на извадката или нещо по-голямо, приемайки нулевата хипотеза. И ако тази вероятност е под предварително поставен праг, тогава ще отхвърлиш нулевата хипотеза и това ще означава, че е вярна алтернативната хипотеза. Но за да сме сигурни в този тест за значимост и да можем да изчислим тази р-стойност със сигурност, има условия за извършването на този вид тест за значимост. Първото е, че това наистина е случайна извадка. И това е познато като условие за случайност. Виждали сме това преди, когато сме правили тестове за значимост за части, тук го правим за средни стойности. Средна стойност на генералната съвкупност, средна стойност на извадката...в миналото го правихме за част от генералната съвкупност и част от извадката. Условието за случайност – ето тук ни казват: "Сунил взима случайна извадка от 7 дни от тяхната чат история." Те не казват как го е направил, но просто ще повярваме на думите им, че това е била случайна извадка. Следващото условие понякога е познато като условието за независимост, условието за независимост и то е, че индивидуалните наблюдения в извадката ни са приблизително независими. Един начин те да са със сигурност независими е ако Сунил прави извадка със заместване. Те не казват това, но друго условие – или можеше да има извадка със заместване... или друг начин да се увериш, че това е приблизително независимо, е ако размерът на извадката ти е по-малък или равен на 10% от генералната съвкупност. В тази ситуация той е взел 7, той е взел извадка с размер от 7. И генералната съвкупност на дните – казват, че те са използвали приложението за групови съобщения повече от година. Така че са го използвали повече от 365 дни. 7 със сигурност е по-малко от или равно на 10% от 365, което е 36,5. Така че изпълняваме това условие, т.е. изпълняваме условието за независимост. Последното условие често е познато като условие за нормалност. И това е да сме сигурни, че извадковото разпределение на средните стойности на извадката, ето тук, е приблизително нормално. И това ще е малко по-различно от това, което видяхме при тестовете за значимост, когато работехме с части. Тук има няколко начина да сме сигурни, че извадковото разпределение на средните стойности на извадката е нормално. Едното е подлежащата главна генерална съвкупност да е нормална. Нормална главна генерална съвкупност. Тук не ни казват нищо за това дали има нормално разпределение на количеството време, което са прекарали в даден ден. Така че не знаем това със сигурност. Но понякога може да знаеш. Друг начин е да сме сигурни, че размерът на извадката ни е по-голям от или равен на 30. И това произлиза от централната гранична теорема. Това, че тогава извадковото ни разпределение ще е приблизително нормално. Но ясно виждаме, че нашата извадка не е по-голяма от или равна на 30, така че не изпълняваме и това ограничение. Третият начин да сме сигурни, че извадковото разпределение на средната стойност на извадката ни е приблизително нормално, е ако нашата извадка е симетрична и няма твърде отдалечени стойности, или може би трябва да кажем – значително отдалечени стойности. Това така ли е в този случай? Тук казват, че данните на извадката са силно изкривени надясно със средна стойност от 125 съобщения и стандартно отклонение от 44 съобщения. Това е силно изкривено надясно, така че очевидно данните на извадката не са симетрични. И не изпълняваме никое от тези подусловия на условието за нормалност. Така че не изпълняваме условието за нормалност за нашия тест за значимост.