If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:5:13

Видео транскрипция

В други видеа правехме линейни регресии на ръка, но споменахме, че повечето регресии се извършват с някакъв вид компютър или калкулатор. В това видео ще погледнем пример на резултат, който можем да видим от компютър. Целта е да свикнем и да не се притесняваме от това. Също така да видим как компютърът ни дава уравнението за линията на регресия, както и част от другите данни. Тук е казано: "Шерил Диксън иска да види дали ученици, които консумират повече кофеин, също така учат повече. Тя произволно избира 20 ученици от училището си и записва приема им на кофеин в милиграми и броя часове, които са прекарали в учене. Точкова диаграма на данните показала линейна взаимовръзка. Това е компютърно изчисление от анализирането на данните с регресия чрез метода на най-малките квадрати." Имаме тези неща, които са наречени предиктори, коефициенти, и после имаме тези други неща, наречени стандартна грешка на коефициент, Т и Р, а после – всички тези неща тук долу. Как да свържем това логически, за да получим уравнение за нашата линия на регресия? Нека разберем променливите си. Нека кажем, че това Y e нещото, което опитваме да прогнозираме, така че това са часовете, прекарани в учене. После, да кажем, че x е онова, което мислим, че обяснява часовете учене, или едно от нещата, които обясняват часовете учене, като това е количеството погълнат кофеин, това е консумиран кофеин в милиграми. Нашата линия на регресия ще има формата Y с диакритичен знак, като това ни казва, че това е линейна регресия, като опитва да изчисли реалните y стойности за дадени x, което ще е равно на mh + b. Как намираме m и b, въз основа на този компютърен резултат? Когато погледнеш тази таблица тук, първата колона казва "предиктори", и казва "константа", като това е "кофеин". Всичко това казва, че когато опитваш да прогнозираш броя часове учене, когато опитваш да прогнозираш Y, има две входящи данни. Използваш константната стойност и променливата, в този случай това е кофеина, за да прогнозираш количеството часове учене. Това ти дава коефициентът за всяка от тях. Коефициентът на константа е константата. Можеш да гледаш на това като коефициентът на x на нулевия член. Коефициентът за константата, това е константата, 2,544. После, коефициентът за кофеина – казахме, че x е консумираният кофеин – това е този коефициент, 0,164. И сега имаме уравнението за линията на регресия, поради което тези компютри са полезни. Можем просто да го запишем, Y с диактричен знак е равно на 0,164 Х плюс 2,544. Това е линията на регресия. Каква е тази друга информация, която ни дават? Няма да ти дам много задоволителен отговор, понеже всичко това всъщност е полезно за инференциалната статистика. Например, неща като: "Каква е вероятността, ако имаме нещо, което съвпада толкова добре, да е случайност? Това тук е R на квадрат, а ако искаш от това да намериш R, трябва да намериш корен квадратен. Можем да кажем, че R ще е равно на корен квадратен от 0,60032, в зависимост от това колко прецизност искаш. Но можеш да попиташ: "Как разбираме, че R е положителният корен квадратен или отрицателният корен квадратен от това, R може да приеме стойности между -1 и +1?" Отговорът е: гледай наклона. Имаме положителен наклон, което ни казва, че R ще е положителна стойност. Ако имахме отрицателен наклон, тогава щяхме да вземем отрицателния корен квадратен. Това тук е коригираното R на квадрат, но не трябва да се тревожим прекалено много за това, когато мислим само за бивариантни данни, в този случай говорим за кофеин и часове учене. Ако имахме повече променливи, които опитваха да обяснят часовете учене, тогава щяхме да се интересуваме за коригираното R на квадрат, но сега няма да правим това. Последно, но не и по важност, тази S променлива. Това е стандартното отклонение на остатъчните стойности, което учим в други видеа. Защо е полезно това? Това е мярка за колко добре линията на регресия съвпада с данните, можем да кажем, че е мярка за типичната грешка. Важното нещо да запомниш тук е, че компютрите са полезни, те ще ти дадат много данни и ключовото нещо е как ще подбереш нещата, които всъщност ти трябват, понеже ако знаеш как да го направиш, това може да е доста лесно.