If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Интерпретиране на данни за регресия от компютър

Интерпретиране на данни за регресия, генерирани от компютър, за намиране на уравнението на правата на регресия, получена по метода на най-малките квадрати. Фактори-аргумент (предиктори) и коефициенти. S (стандартно отклонение при регресия или стандартна грешка на изчисленията) и R на квадрат (коефициент на детерминация).

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В други видеа правехме линейни регресии на ръка, но споменахме, че повечето регресии се пресмятат с някакъв вид компютър или калкулатор. В това видео ще разгледаме пример на резултат, който можем да получим от компютър. Целта е да свикнем и да не се притесняваме от това. Също така да видим как компютърът ни дава уравнението за линията на регресия, както и част от другите данни. Тук се казва: "Шерил Диксън иска да разбере дали ученици, които консумират повече кофеин, също така учат повече. Тя произволно избира 20 ученици от училището си и записва приема им на кофеин в милиграми и броя часове, които са прекарали в учене. Точковата диаграма на данните показала линейна зависимост. Това е компютърно изглаждане на данните с регресия по метода на най-малките квадрати." Имаме тези неща, които са наречени предиктори, коефициенти, и после имаме тези други неща, наречени стандартна грешка на коефициент, Т и Р, а после – всички тези неща тук долу. Как да свържем това логически, за да получим уравнение за нашата линия на регресия? Нека разберем променливите си. Нека кажем, че това Y e нещото, което опитваме да прогнозираме, така че това са часовете, прекарани в учене. После, да кажем, че Х е онова, което мислим, че обяснява часовете учене, или едно от нещата, които обясняват часовете учене, като това е количеството погълнат кофеин, това е консумиран кофеин в милиграми. Нашата линия на регресия ще има вида Y с шапчица (диакритичен знак) = mХ + b като ни казват, че това е линейна регресия, която се опитва да изчисли реалните У стойности за дадени стойности на Х. Как намираме m и b, въз основа на този компютърен резултат? Когато погледнеш тази таблица тук, първата колона казва "предиктори", и казва "константа", като това е "кофеин". Всичко това казва, че когато опитваш да прогнозираш броя часове учене, когато опитваш да прогнозираш Y, има две входящи данни. Използваш константната стойност и променливата, в този случай това е кофеина, за да прогнозираш количеството часове учене. Това ти дава коефициентът за всяка от тях. Коефициентът на константа е константата. Можеш да гледаш на това като коефициентът пред Х на нулева степен. Коефициентът за константата, това е константата, 2,544. После, коефициентът за кофеина – казахме, че Х е консумираният кофеин – това е този коефициент, 0,164. И сега имаме уравнението за линията на регресия, поради което тези компютри са полезни. Можем просто да го запишем, Y с шапчица е равно на 0,164 Х плюс 2,544. Това е линията на регресия. Каква е тази друга информация, която ни дават? Няма да ти дам много задоволителен отговор, понеже всичко това всъщност е полезно за сравнителната (инференциалната) статистика. Например, неща като: "Каква е вероятността, ако имаме нещо, което съвпада толкова добре, да е случайност? Това тук е R на квадрат, а ако искаш от това да намериш R, трябва да намериш корен квадратен. Можем да кажем, че R ще е равно на корен квадратен от 0,60032, в зависимост от това колко прецизност искаш. Но можеш да попиташ: "Как разбираме, че R е положителният корен квадратен или отрицателният корен квадратен от това, R може да приеме стойности между -1 и +1?" Отговорът е: гледай наклона. Имаме положителен наклон, което ни казва, че R ще е положителна стойност. Ако имахме отрицателен наклон, тогава щяхме да вземем отрицателния корен квадратен. Това тук е коригираното R на квадрат, но не трябва да се тревожим прекалено много за това, когато мислим само за двумерни данни, в този случай говорим за кофеин и часове учене. Ако имахме повече променливи, които опитваха да обяснят часовете учене, тогава щяхме да се интересуваме за коригираното R на квадрат, но сега няма да правим това. Последно, но не и по важност, тази S променлива. Това е стандартното отклонение на остатъчните стойности, което учим в други видеа. Защо е полезно това? Това е мярка за колко добре линията на регресия съвпада с данните, можем да кажем, че е мярка за типичната грешка. Важното нещо да запомниш тук е, че компютрите са полезни, те ще ти дадат много данни и ключовото нещо е как ще подбереш нещата, които всъщност ти трябват, понеже ако знаеш как да го направиш, това може да е доста лесно.