Основно съдържание
Текущ час:0:00Обща продължителност:6:55

Видео транскрипция

"Муса се интересува от зависимостта между часовете прекарани в учене и консумацията на кофеин сред учениците в училището му. Той случайно избира 20 ученици от училището си и записва приема им на кофеин в милиграми и времето прекарано в учене през дадена седмица. Това е информацията, изведена от компютър, от анализ на регресията по метода на най-малките квадрати на извадката му. Приеми, че всички условия за извод са били изпълнени. Какъв е 95%-ият доверителен интервал за ъгловия коефициент на правата на регресия по метода на най-малките квадрати." Ако се вдъхнови, спри видеото и виж дали можеш да решиш това самостоятелно. Иначе ще направим това заедно. Нека първо си припомним какво става. Нека визуализираме регресията. Нашата хоризонтална ос, или оста х, ще е приемъг на кофеин в милиграми. После оста у, или нашата вертикална ос, приемам, че ще е в часове – това е времето прекарано в учене. И Муса случайно избира 20 ученици. За всеки от тези ученици отбелязва колко кофеин са приели и колко време са прекарали в учене, и ги поставя тук. Ще има 20 точки информация. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. Той въвежда тези точки информация в компютър, за да напасне права на регресия по метода на най-малките квадрати. Да кажем, че правата на регресия по метода на най-малките квадрати изглежда подобно на тази. И една права на регресия по метода на най-малките квадрати произлиза от опита за минимизиране на повдигнатите на квадрат разстояния между правата и всички тези точки. И после това ни дава информация за тази права на регресия по метода на най-малките квадрати. И най-ценните неща тук, ако искаме да ни помогнат да визуализираме или да разберем правата, са нещата, дадени в тази колона. Коефициентът на константата ни казва каква е пресечната точка с оста у. 2,544. И коефициентът на кофеина – това е един начин да помислим за това – за всяко увеличение в кофеина с колко се увеличава времето, прекарано в учене? Или може да разпознаеш, че това е ъгловият коефициент на правата на регресия по метода на най-малките квадрати. Това е ъгловият коефициент и това ще е равно на 0,164. Тази информация тук ни казва колко добре правата на регресия по метода на най-малките квадрати съвпада с данните. R^2, може това вече да ти е познато, ни казва колко от дисперсията в променливата у може да бъде обяснена от променливата х. Ако беше 1, или 100%, това означава, че цялата може да бъде обяснена и това е много добро напасване. Ако беше 0, означава, че изобщо не може да бъде обяснена и това би било много лошо напасване. Главно S, това е стандартното отклонение на остатъчните стойности. Това е друга мярка за това колко се различават тези точки информация от правата на регресия. Тази колона тук ще е полезна за отговарянето на този въпрос. Това ни дава стандартната грешка на коефициента. И коефициентът, който ни интересува – статистическата характеристика, която ни интересува – е ъгловият коефициент на правата на регресията. И това ни дава стандартната грешка за ъгловия коефициент на правата на регресия. Можеш да гледаш на това като на приблизително изчисление за стандартното отклонение на извадковото разпределение на ъгловия коефициент на правата на регресия. Помни, тук взехме извадка от 20 души и изчислихме една статистическа характеристика, която е ъгловият коефициент на правата на регресия. Всеки път, когато вземеш различна извадка, вероятно ще получиш различен ъглов коефициент. И този ъглов коефициент е приблизително изчисление на някакъв реален показател в генералната съвкупност. Това понякога също ще бъде наричано стандартна грешка на ъгловия коефициент на правата на регресия по метода на най-малките квадрати. За тези последните две колони не трябва да се тревожиш в контекста на това видео. Това е полезно, ако казваш: "Приемайки, че няма отношение между приема на кофеин и времето прекарано в учене каква е свързаната t-статистическа характеристика за статистическата характеристика, която вече изчислих, и каква ще е вероятността да получим нещо толкова или повече екстремно, като приемем, че няма връзка?" Като приемем това за този пример, реалният ъглов коефициент на правата на регресия е 0. И това ни казва, че ако приемем това, вероятността е доста ниска. Има около 1% вероятност да получиш тези резултати, ако всъщност нямаше отношение между приема на кофеин и времето на учене. Но като изяснихме това, нека всъщност отговорим на въпроса. За да построиш един доверителен интервал около една статистическа характеристика, взимаш стойността на статистическата характеристика, която пресметна от извадката си. Тоест 0,164. И после това ще е плюс или минус една критична t стойност и тя ще дойде от факта, че те интересува 95% доверителен интервал, и от степените на свобода – ще говоря за това след малко. И после умножаваш това по стандартната грешка на статистическата характеристика. В този случай статистическата характеристика, която ни интересува, е ъгловият коефициент. Това е 0,057. По 0,057. И причината да използваме критична t стойност, вместо критична z стойност, е понеже стандартната грешка на статистическата характеристика е приблизително изчисление. Всъщност не знаем стандартното отклонение на извадковото разпределение. Последното нещо, което трябва да определим, е каква е тази критична t стойност. Можеш да я намериш или с калкулатор, или с таблица. Аз ще я намеря с таблица. За да направим това, трябва да знаем степените на свобода. Когато правиш това с ъглов коефициент на регресия, както правим сега, степените ти на свобода ще са броят точки информация, които имаш, минус 2. Тоест степените ни на свобода ще са 20 – 2, което е равно на 18. Няма да навлизам в детайли сега. Всъщност защо изваждаме 2 е извън мащаба на това видео. Но за да можем да потърсим стойността в таблица, това са степените ни на свобода. Интересува ни 95% ниво на значимост. Това е еквивалентно на 2 цяло и 1/2% опашки от всяка страна. И степените ни на свобода са 18. Критичната ни t стойност е 2,101. И нашият 95%-ен доверителен интервал ще е 0,164 +/– критичната t стойност, 2,101 по стандартната грешка на статистическата характеристика. По минус, ще поставя това в скоби, – 0,057. И можеш да въведеш това в калкулатор, ако искаш да намериш точните стойности. Но начинът да интерпретираш един 95% доверителен интервал е че 95% от времето изчисленият 95% доверителен интервал ще се припокрива с реалната стойност на показателя, който изчисляваме.