If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:15:49

Видео транскрипция

Проверяваме дали една нова диета за отслабване наистина помага на пълните хора да отслабнат. 100 произволно избрани хора са причислени към група едно, подлагайки се на диета с малко мазнини. Други 100 произволно избрани пълни хора са причислени към група две, подлагайки се на диета с приблизително същото количество храна, но без намалени мазнини. Един вид група две е контролата, където няма диета. Група едно е тази, която е подложена на диетата, за да се види действителният ѝ ефект. След четири месеца средната стойност на загуба на тегло била 9,31 фунта при първата група. Нека напиша това. Нека го представя много ясно. В групата с малко мазнини средната стойност на загубата на тегло била 9,31фунта. Т.е. нашата извадкова средна стойност за група едно е 9,31 фунта, със стандартно отклонение за извадката 4,67. Тези двете е много лесно да се изчислят, като се имат предвид реалните данни. За контролна група средната стойност за извадката е 7,40 фунта; това е група две. Стандартното отклонение на извадката е 4,04 фунта. Ако погледнем бегло това, изглежда, че отслабващата група е изгубила повече тегло, базирано само на нашата изведка, в сравнение с контролната група. Ако вземем разликата помежду им, ако вземем разликата между подложената на диета група и контролната група, тогава получаваме 9,31 минус 7,40 е равно на... ще взема калкулатора, получаваме 1,91. Така разликата за нашите извадки е 1,91. Въз основа на данните може би губим с 1,91 фунта повече на всеки четири месеца, ако сме на тази диета. В този клип искаме да намерим 95%-ен доверителен интервал около това число, за да видим дали винаги в този 95%-ен доверителен интервал наблюдаваме понижение на теглото? Дали е вероятно да имаме и различни резултати при диетата с ниски мазнини? И в този клип ще определим 95%-ен доверителен интервал. В следващия клип ще направим тест за значимост на хипотезата, като използваме същите данни. За да определим този 95%-ен доверителен интервал, нека да видим разпределението, което разглеждаме. Нека погледнем разпределението, свързано със задачата ни. Искаме да разгледаме разпределението на разликата в средните стойности. Ще има някаква действителна средна стойност, която е средната стойност на разликите между средните стойности на извадките. Това не е у, а имаме х1 и х2. Имаме извадковата средна стойност на х1 минус извадковата средна стойност на х2. Това разпределение тук ще има някакво стандартно отклонение. Т.е. това е стандартното отклонение на разпределението на средната стойност за х1 минус извадковата средна стойност на х2. Има някакво стандартно отклонение. Искаме да направим изводи относно това. Или предполагам, най-добрият начин да помислим по въпроса е като определим един 95%-ен доверителен интервал. Базирано на извадката ни искаме да създадем един интервал около това, където сме уверени, че има 95% вероятност тази действителна средна стойност, действителната средна стойност на разликите, ще попада в рамките на този интервал. А за да напарвим това, нека погледнем по другия начин. Как можем да изградим 95%-ен интервал около средната стойност, в който сме 95% сигурни, че която и да е извадка от това разпределение, и някоя извадка от извадките, че има 95% вероятност да попада в тази област тук. Т.е. интересува ни един 95%-ен интервал тук. И на колко стандартни отклонения трябва да отидем във всяка посока? За да направим това, трябва да погледнем една Z- таблица. И само запомни, ако имаме 95% тук в средата, ще имаме 2,5% тук и ще имаме 2,5% тук. Трябва да има 5%, които са разделени между тези две симетрични опашки. И когато погледнем Z-таблицата, търсим критичната Z-стойност, която ни е дадена тук. Трябва да внимаваме тук. Няма да гледаме на 95%, защото една Z-таблица ни дава сумарната вероятност до тази критична стойност. Z-таблицата ще тълкуваме по следния начин. Ще има някаква Z-стойност тук, като имаме 2,5% над нея. Вероятността да получим един по-отдалечен резултат или Z-резултат над този е 2,5%. А вероятността да получим резултат под този е 97,5%. Но ако можем да намерим Z-стойността за това тук, ще имаме същата Z-стойност като тази. И вместо да мислим както когато имаме една опашка, ще разсъждаваме както при двустранно разпределение. Та нека потърсим 97,5 % в нашата Z-таблица. Ето тук. Това е 0,975, или 97,5. Това ни дава Z-стойност 1,96. Т.е. Z е равно на 1,96. Или 2,5% от резултатите от тази генерална съвкупност ще бъдат отдалечени с повече от 1,96 стандартни отклонения от средната стойност. Така че тази критична стойност тук е 1,96 стандартни отклонения. Това е 1,96 пъти по стандартното отклонение на х1 минус х2. После това тук ще е равно на минус 1,96, умножено по същото нещо. Нека го напиша. Имаме симетричност. Това разстояние ще е равно на това разстояние. Т.е. имаме минус 1,96, умножено по стандартното отклонение на това разпределение. Има 95% вероятност... Ще го запиша така: има 95% вероятност за това извадката, която получихме от нашето разпределение – това е извадката като разлика между тези извадки. Има 95% вероятност 1,91 да се намира в рамките на 1,96 пъти по стандартното отклонение на това разпределение. И може да разглеждаш това като стандартна грешка на тази статистика. х1 минус х2... Или можем да кажем, че има... нека довърша това изречение. Има 95% вероятност, че 1,91, което е извадковата статистика, или статистиката, която получихме, да е в рамките на 1,96, умножено по стандартното отклонение на това разпределение на действителната средна стойност на разпределението. Или можем да кажем това по другия начин. Има 95% вероятност действителната средна стойност на разпределението да е в рамките на 1,96 пъти по стандартното отклонение за разпределението на 1,91. Това са развносилни твърдения. Ако кажа, че се намирам на около три фута от теб, това е равносилно на твърдението, че ти си на около три фута от мен. Това е всичко, което се казва. Но когато го формулираме по този начин, става пределно ясно как всъщност изграждаме доверителния интервал. Трябва просто да намерим колко е това разстояние тук. И за да го намерим, трябва да намерим колко е стандартното отклонение на разпределението. Стандартното отклонение на разликите между извадковите средни стойности ще е равно на... видяхме това в миналия клип – всъщност, мисля, че го имаме тук отдолу – то е равно на корен квадратен от дисперсиите на тези две разпределения. Нека го напиша така. Дисперсията, ще я докажа наново. Дисперсията на нашето разпределение на разликата от средните стойности е равна на сумата от дисперсиите на тези извадкови разпределения. И знаем, че дисперсията на всяко от извадковите разпределения е равна на дисперсията на това извадково разпределения, което е равно на дисперсията на разпределението на генералната съвкупност, разделено на размера на извадката. Размерът на извадката в този случай е 100. И дисперсията на това извадково разпределение за контролната група, ще е равна на дисперсията на разпределението на генералната съвкупност за контролната група, разделено на размера на извадката. И тъй като не знаем какво са тези неща, можем да ги определим приблизително. Най-вече поради това, че n е по-голямо от 30 при двете групи. Можем да намерим приблизително дисперсията на извадките за всяко от тези разпределения. И нека изясня това. Дисперсията на извадките за всяко от тези разпределения. Това ще е стандартното отклонение на извадка едно, на квадрат, което представлява дисперсията на извадката за това разпределение, върху 100. Плюс стандартното отклонение на извадката за контролната група, на квадрат, което е дисперсията на извадката – квадратът на стандартното отклонение е просто дисперсията; разделено на 100. А това ще ни даде дисперсията на това разпределение. И ако търсим стандартното отклонение, просто коренуваме двете страни. Ако търсим стандартното отклонение на това разпределение тук, това сега е дисперсията, и трябва само да коренуваме. Нека пресметнем това. Всъщност знаем тези стойности. S1, стандартното отклонение на извадката за група едно е 4,67. Тук също го написахме. Това е 4,76, а това тук е 4,04. S е 4,67, ще трябва да го повдигнем на квадрат. А S2 е 4,04, ще трябва и него да го повдигнем на квадрат. Ще ги сметна. Имаме квадратен корен на 4,67 на квадрат, разделен на 100 плюс 4,04 на квадрат, разделено на 100, И затваряме кръглите скоби. Получаваме 0,617. Нека го напиша тук. Това ще е равно на 0,617. Ако се върнем тук – изчислихме стандартното отклонение на това разпределение, което е 0,617. Сега можем вече да изчислим нашия интервал. Защото това ще е 0,617. И ако търсим 1,96 пъти по това, получаваме 1,96 по 0,617... ще запиша отговора, който току-що получихме. Така получаваме 1,21. И 95%-ният доверителен интервал ще е разликата от нашите средни стойности, 1,91, плюс или минус това число, 1,21. И какъв е нашият доверителен интервал? Долният край на интервала... мястото ми свършва... 1,91 минус 1,21, това дава 0,7. И тук долният край е 0,7. После горният край: 1,91 плюс 1,21 е равно на 2,12. Само да проверя. Понякога умът ми не работи много качествено при записа на тези клипове. 3,12, разбира се! И за да съм ясен, няма чиста 95% вероятност действителната разлика на реалните средни стойности да е тук. Само сме уверени, че има 95% вероятност. И винаги трябва да прибавяме "увереност" там, защото, спомни си, ние реално не знаехме стандартните отклонения на генералните съвкупности или техните дисперсии. Изчислихме ги чрез нашите извадки. И поради това не знаем каква е точната вероятност. Само казваме, че сме уверени в това, че има 95% вероятност. Ето защо казваме, че това е доверителен интервал. Не е категорична вероятност. Но е доста приличен резултат. Сега сме уверени, че има 95% вероятност действителната разлика на тези две извадки... спомни си, средните стойности на извадките, разликата... нека изясня нещата: разликата между средните стойности на извадките, очакваните средни стойности на извадките всъщност са равни на очакваните стойности на генералните съвкупности. И така тук получаваме всъщност един доверителен интервал за действителната разлика между генералните съвкупности. Ако дадем на всички, на всеки възможен човек диета едно и на всеки възможен човек диета две – това ни дава доверителен интервал за действителните средни стойности на генералната съвкупност. И когато погледнем тук, като че ли диета едно всъщност има някакъв ефект. Понеже във всеки случай, дори и в долния край на доверителния интервал, все още имаме по-голяма загуба на тегло, отколкото при втората диета. Надявам се, че това не е много объркващо. В следващия клип ще направим тест за значимост със същите данни.