If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Въведение в остатъчни стойности и регресия по метода на най-малките квадрати

При линейната регресия остатъчна стойност наричаме разликата между действителната стойност и стойността, прогнозирана по модела (y-ŷ) във всяка произволна точка. Регресията по метода на най-малките квадрати минимизира сумата от квадратите на остатъчните стойности.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Да кажем, че се опитваме да разберем връзката между височината и теглото на хората. Отиваме при 10 различни човека и измерваме ръста и теглото им. На тази точкова диаграма тук всяка точка представлява един човек. Например тази точка тук представлява човек, чийто ръст е 60 инча, или 5 фута. Това е точката (60;...) и теглото му, което нанасяме на оста у, е 125 паунда. Когато погледнеш точковата диаграма, веднага забелязваш някаква закономерност. Изглежда, че в общия случай, когато ръстът се увеличава, теглото също се увеличава. Но казах в общия случай. Определено имаш примери, когато по-високи хора са с по-ниско тегло. Интересен въпрос е дали можем да опитаме да напаснем права към тези данни. Тази техника за напасване на права колкото се може по-близо до възможно най-много точки е позната като линейна регресия. Най-честата техника е да опитаме да напаснем права, която минимизира квадрата на разстоянието до всяка от тези точки, което ще обсъдим в бъдещи видеа. Сега искам да получиш логическа представа. Ако просто го оценим на око и погледнем такава права, е очевидно, че това не е добро напасване. Изглежда повечето от данните стоят над правата. Тази права също не изглежда добре. Тук повечето от точките данни седят под правата. Но нещо такова изглежда много добре. Изглежда се доближава колкото е възможно повече до колкото е възможно повече точки. Изглежда описва този общ модел. Това е реалната права на регресия. Уравнението тук бихме записали като... ще запишем у с малка шапчица отгоре и това означава, че опитваме да изчислим приблизително у за дадено х. Това няма винаги да е реалното у за дадено х. Понеже, както виждаме, понякога точките не стоят на правата. Но казваме, че у с шапка е равно на... и пресечната ни точка с оста у за тази определена права на регресия е -140 плюс наклон от 14/3 по х. Сега, както можем да видим, за повечето от тези точки при дадена х стойност на тези точки, приблизителното изчисление, което правата на регресия ни дава, е различно от реалната стойност. Тази разлика между реалната стойност и приблизителното изчисление от правата на регресия се нарича остатъчна стойност. Нека запиша това. Например остатъчната стойност в тази точка, в тази точка ще е равен на, за дадено х, реалната стойност на у минус изчислената стойност на у от правата на регресия за същото това х. Друг начин да разглеждаме това е, че за тази х стойност, когато х е равно на 60, говорим за остатъчната стойност само в тази точка, тя ще е реалната у стойност минус приблизителното изчисление за стойността на у от тази права на регресия за тази стойност на х. Спри видеото и виж дали можеш да изчислиш остатъчната стойност. Можеш визуално да си я представиш като това ето тук. За да изчислим остатъчната стойност вземеш реалната стойност, която е 125, за тази х стойност. Помни, изчисляваме остатъчната стойност за една точка. Това е реалното у тук минус... каква ще е изчислената стойност на у за тази стойност на х? Можем просто да дойдем до това уравнение и да кажем какво ще е у с шапка, когато х е равно на 60. Това ще е равно на, да видим, имаме минус 140, плюс 14 върху 3, по 60. Да видим, 60/3 е 20. 20 по 14 е 280. Значи в скобите получаваме 140. Остатъчната ни стойност за тази точка е е 125 - 140, което е -15. Остатъчните стойности могат да са отрицателни. Ако остатъчната стойност е отрицателна, това означава, че за тази стойност на х, за точката информация, реалната стойност на у е под приблизително изчислената. Ако изчислим остатъчната стойност тук, или ако изчислим реалната стойност тук, реалната стойност за това х е над приблизително изчислената, така че ще получим положителна остатъчна стойност. Както ще видиш по-късно в кариерата си по статистика, начинът да изчисляваме тези прави на регресия цели да минимизира квадрата на тези остатъчни стойности.