Основно съдържание
Текущ час:0:00Обща продължителност:7:12

Видео транскрипция

В това видео ще говорим за регресионни линии, но това не е първият път, в който говорим за това. И ако идеята за регресия ти е чужда, окуражавам те да гледаш въвеждащите видеа. Тук ще говорим как можем да правим изводи от една регресионна линия. И ако идеята за статистически извод е нова за теб, или пък идеята за тестване на хипотеза, гледай преди това и тези видеа. Да приемем, че има положителна връзка между размера на обувката и височината. И тук, на хоризонталната ос, е размерът на обувката. Ще имаме размери 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 и можем да продължим. И после, за височината, или на тази ос, оста у, това ще е височината – 1 фут, 2 фута, 3 фута, 4 фута, 5 фута, 6 фута, 7 фута. И после можеш, за да видиш дали има връзка, можеш да вземеш една извадка. Да кажем, че взимаш случайна извадка от 20 души от генералната съвкупност. И в бъдещи видеа ще говорим за условията, които са нужни, за да направим подходящи изводи. Да кажем, че тези 20 души са тези 20 точки информация. Има едно малко дете и може би има един възрастен с по-големи крака и по-висок. И после 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. Имаш тези 20 точки информация. И после вероятно ще ги въведеш в компютър. Можеш да го направиш на ръка, но днес имаме компютри за това. И компютърът ще опита да напасне една регресионна линия. И има много техники за това, но една типична техника е да се опита да се минимизира повдигнатото на квадрат разстояние между тези точки и тази права. И регресионната права ще има уравнение, както всяка права би имала. И по принцип показваме това, като казваме "у с шапка", като тази шапка ни казва, че това е регресионна права, "е равно на пресечната точка с оста у, а + ъгловия коефициент по променливата ни х." Това ето тук ще е 'а'. Да поясним, ако вземеш друга извадка, може да получиш различни резултати. Всъщност нека наречем това у с индекс 1 за първата извадка, а1, b1 и това е а с индекс 1. Ако вземеш друга извадка от 20 души – нека направим това. Може би имаш 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. И после опиташ да напаснеш права към това, тази права може да изглежда нещо подобно. Може да има малко по-различна пресечна точка с оста у и малко по-различен ъглов коефициент. Можем да наречем това, за втората извадка, у с индекс 2 или у с шапка и индекс 2 е равно на а с индекс 2 плюс b с индекс 2 по х. И всеки път, когато вземеш извадка, вероятно ще получиш различни резултати за тези стойности, които са статистически характеристики. Помни, статистическите характеристики са неща, които можем да получим от извадки и опитваме да изчислим показателите на реалната генерална съвкупност. Какви ще са показателите на реалната съвкупност, които опитваме да изчислим? Представи си, че тук успя да откриеш реалното линейно отношение или може би тук има някакво реално линейно отношение между размера на обувките и височината. Можеш да получиш такова, ако теоретично можеш да измериш всяко човешко същество на планетата. И в зависимост от това какво определиш като генерална съвкупност, може да са всички живи хора или всички хора, които някога са живели. Това не е практично, но да кажем, че всъщност можеш. И ще имаш милиарди точки данни за реалната генерална съвкупност. И после, ако напаснеш една регресионна права към това, можеш да я приемеш за регресионната права на реалната генерална съвкупност. И това ще е у с шапка е равно на – и, да поясним тук, пресечната точка с оста у и ъгловият коефициент ще са реалните показатели на генералната съвкупност. Вместо да казваме 'а', казваме алфа. И вместо да казваме b, казваме бета по х. Но е много трудно да намерим точно какви са алфа и бета, затова изчисляваме приблизително с а и b, основани на извадка. Като знаем това, интересно е, че можем да започнем да правим изводи въз основа на извадката си. Знаем, че, например, b с индекс 2 надали ще е точно бета. Но колко уверени можем да бъдем, че има поне положително линейно отношение или линейно отношение, което не е равно на 0? Или можем ли да създадем доверителен интервал около тази статистическа характеристика, за да имаме добра представа къде може да е реалният показател? И простият отговор е да. За да направим това, ще използваме точно същите идеи, които използвахме, когато правехме изводи въз основа на части или въз основа на средни стойности. По начина, по който можеш да направиш извадка за, например, реалния ъглов коефициент на регресионната права за генералната съвкупност, да кажем, че взема една извадка, получавам този ъглов коефициент тук, така че просто ще нарека това b2, и после мога да създам доверителен интервал около това. И този доверителен интервал ще е основан на някаква критична стойност по, в идеалния вариант, стандартното отклонение на извадковото разпределение на статистическата характеристика на извадката. В този случай ще е ъгловият коефициент на регресионната права на извадката. Но понеже не знаем точно колко е това, не можем да определим точно колко ще е от извадката, ще я изчислим с това, което познаваме като стандартна грешка на статистическата характеристика. И ще навлезем в повече детайли в това в бъдещи видеа. След като правим приблизително изчисление, ще използваме критична t-стойност тук, която сме изучавали преди. Въз основа на нивото на значимост, което искаме да имаме, да кажем, че е 95%, въз основа на степените на свобода, които ще видим, че ще дойдат от това колко точки информация имаме, можем да намерим това. И от извадката можем да намерим това и това. И тогава ще сме построили доверителен интервал. Ще видим също, че можеш да направиш проверка на хипотеза. Можеш да кажеш: "нека направим една нулева хипотеза" и нулевата хипотеза ще е, че тук няма не-нулево линейно отношение, или че ъгловият коефициент на регресионната права на реалната генерална съвкупност е равен на 0. И алтернативната хипотеза е, че реалната зависимост може или да е по-голяма от нула, да е положителна линейна зависимост, или просто да е различна от 0. И после, като приемеш това, можеш да видиш каква е вероятността да получиш статистическа характеристика, която е поне толкова или повече екстремна. И ако тя е под даден праг, можеш да отхвърлиш нулевата хипотеза, което ще предположи алтернативната. Това и това са неща, които сме правили преди – създавали сме доверителен интервал около една статистическа характеристика и сме правили проверка на хипотеза, правили сме предположения за един реален показател. Единствената разлика тук е, че показателят, който опитваме да изчислим, ще са показатели за регресионна права за теоретична генерална съвкупност и ще направим това, като използваме статистически характеристики от извадката за една регресионна права на извадка.