If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Тест на хипотеза за разлика в средни стойности

Тест на хипотеза за разлика в средни стойности. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Миналия път намерихме 95%-ния доверителен интервал за средната стойност на загуба на тегло между групата на диета без мазнини и контролната група. В този клип искам да направя тест за значимост, за да проверя дали реално тези данни ще ни накарат да повярваме, че диетата за отслабване е въобще ефективна. За да направим това, нека установим нашите нулева и алтернативна хипотези. Нулевата ни хипотеза ще бъде, че тази диета за отслабване е неефективна. И ако диетата за отслабване е неефективна, това означава, че средната стойност за генералната съвкупност на тази диета минус средната стойност за генералната съвкупност на контролната ще е равна на 0. Това твърдение е напълно равносилно на това, че средната стойност на извадковото разпределение на групата на диета за отслабване минус средната стойност на извадковото разпределение на контролната група ще е равно на 0. Това е така, видяхме много пъти. Средната стойност на извадковото разпределение ще е равна на средната стойност на генералната съвкупност. Това е равно на това. Това пък на това. Или друг начин да го кажем е, ако помислим за средната стойност на разпределението на разликата на извадковите средни стойности, обърнахме внимание на това миналия път, че тук ще е равно на 0. Понеже това нещо тук е точно равно на това тук. Та това е нашата нулева хипотеза. А нашата алтернативна хипотеза, ще я напиша тук. Тя всъщност е тази, че диетата върши някаква работа. И нека кажем, че тя всъщност има подобрение. Това ще означава, че имаме по-голямо отслабване. И ако имаме средната стойност на група 1, средната стойност на генералната съвкупност на група едно минус средната стойност на генералната съвкупност за група две, тази разлика трябва да е по-голяма от нула. Така че това ще е едностранно разпределение. Или друг начин, по който бихме го разглеждали, е този, когато средната стойност на разликата от разпределенията, х1 минус х2 ще е по-голяма от нула. Това са равносилни твърдения. Защото знаем, че това е равно на това, което е равно на това, което написах ето тук. И сега, за да направим тест за значимост, трябва да определим нивото на значимост. Трябва да определим какво... Това, което ще направим, е че ще приемем нашата нулева хипотеза за вярна. И с това предположение, че нулевата хипотеза е вярна, ще видим каква е вероятността да получим тези данни от извадката тук. И ако тази вероятност е под някакъв праг, ще отхвърлим нулевата хипотеза в полза на алтернативната хипотеза. Този праг на вероятността, видяхме това и преди, се нарича ниво на значимост, понякога наречено алфа. И тук, ще изберем ниво на значимост 95%. Или друг начин да го обсъдим, приемайки нулевата хипотеза за вярна, искаме да няма повече от 5% вероятност да се получи този резултат тук. Или да няма повече от 5% вероятност неправилно да отхвърлим нулевата хипотеза, когато всъщност тя е вярна. Или това ще е грешка от първи род. И ако има по-малко от 5% вероятност това да се случи, ще отхвърлим нулевата хипотеза. По-малко от 5% вероятност, когато сме допуснали, че е вярна нулевата хипотеза, тогава ще отхвърлим нулевата хипотеза в полза на алтернативната. Нека помислим за това. Имаме нулевата хипотеза. Нека тук начертая едно разпределение. Нулевата хипотеза казва, че средната стойност от разликите на извадковите разпределения трябва да е равна на нула. И в този случай каква ще е нашата критична област тук? Нужен ни е резултат, така че ще тук ще ни трябва критична Z-стойност. Защото това не е нормализирано нормално разпределение. Но има някаква критична стойност тук. В статистиката най-трудното нещо е намирането на правилните думи. Има една критическа стойност тук, че вероятността да се намери извадка от това разпределение над тази стойност е само 5 %. И трябва само да намерим каква е тази критична стойност. Ако нашата стойност е по-голяма от тази критична стойност, тогава можем да отхвърлим нулевата хипотеза. Защото това означава, че вероятността да получим този резултат е по-малка от 5%. Бихме могли да отхвърлим нулевата хипотеза и да продължим с алтернативаната хипотеза. Пак да не забравяме, че можем да използваме Z-резултати, и да приемем, че имаме нормално разпределение, защото размерът на извадката е достатъчно голям за двете извадки. Имаме извадки с размер 100. И за да намерим търсеното, най-напред, ако само погледнем едно нормализирано нормално разпределение като това, каква е критичната Z-стойност? Получаваме резултат над тази Z-стойност, което има само 5% вероятност. И това всъщност е кумулативна стойност. Тази цялата област тук ще има 95% вероятност. Можем да погледнем Z-таблицата. Търсим 95% процента. Търсим в едностранния случай. Нека потърсим 95%. Това е най-близката стойност. Искаме да избегнем по-голямата грешка да бъдем тук от дясната страна. Та нека кажем, че 95,05 си е доста добре. Така тук имаме 1,65. Така че тази критична Z-стойност е равна на 1,65. Или друг начин да разглеждаме това е, когато това разстояние тук ще е 1,65 стандартни отклонения. Знам, че почеркът ми е наистина дребен. Само казвам стандартното отклонение на това разпределение. И какво е стандартното отклонение на това разпределение? Всъщност го пресметнахме миналия път, но и тук ще го изчислим. Стандартното отклонение на нашето разпределение на разликата от извадковите средни стойности ще е равно на корен квадратен от дисперсията на нашата първа генерална съвкупност... дисперсията на първата ни генерална съвкупност не я знаем. Но можем да я изчислим чрез извадковото стандартно отклонение. Ако вземем това извадково стандартно отклонение, 4,67 и го повдигнем на квадрат, получаваме дисперсията на извадката. И това е дисперсията. Това е нашата най-добра оценка за дисперсията на генералната съвкупност. И искаме да разделим това на размера на извадката. И след това плюс най-добрата оценка за дисперсията на генералната съвкупност за група две, която е 4,04 на квадрат. Извадковото стандартно отклонение на група две на квадрат. Това ни дава дисперсията, разделена на 100. Направих това миналия път. Може би още се вижда в моя калкулатор. Да, още е в калкулатора. Тази стойност тук горе. 4,67 на квадрат, делено на 100 плюс 4,04 на квадрат, делено на 100. Така получихме 0,617. Т.е. това тук ще е 0,617. А това разстояние тук ще е равно на 1,65 пъти по 0,617. Нека го пресметнем на колко е равно. И така, 0,617, умножено по 1,65. Това дава 1,02. Това разстояние тук е 1,02. И това ни казва, че ако приемем, че диетата е неефективна, има само 5% вероятност да наблюдаваме разлика между средните стойности на тези две извадки, която да е повече от 1,02. Има само 5% вероятност за това. Средната стойност, която всъщност получихме, е 1,91. И това е тук някъде. И определено спада към този критичен район. Вероятността да получим това, приемайки, че нулевата хипотеза е вярна, тази вероятност е по-малка от 5%. Така имаме по-малка вероятност от нашето ниво на значимост. Всъщност нека бъда много ясен. Нивото на значимост, това алфа, трябва да е 5%. Не 95 %. Мисля, че може да съм го казвал. Но там написах погрешното число. Извадих го от едно случайно. Вероятно съм го направил наум. Но както и да е, нивото на значимост е 5%. Вероятността, при условие, че е вярна нулевата хипотеза, вероятността да получим резултата, който получихме, вероятността да получим тази разлика, е по-малка от нашето ниво на значителност. Тя е по-малка от 5%. Така, въз основа на правилата, които приемаме, да имаме ниво на значимост 5%, ще отхвърлим нулевата хипотеза в полза на алтернативата, че диетата всъщност помага да отслабнем повече.