If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: 12. клас (България) Профилирана подготовка Модул 4 Вероятности и анализ на данни > Раздел 6

Урок 3: Уравнения на регресия по метода на най-малките квадрати

Въведение в остатъчни стойности и регресия по метода на най-малките квадрати

Въведение в остатъчни стойности и регресия по метода на най-малките квадрати.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Интересувам се от намирането на връзката между ръста на хората в инчове и теглото им в паунди. Напосоки правя извадка с няколко души, като измервам ръста и теглото им и за всеки човек поставям точка, която представлява комбинацията от ръста и теглото му. Да кажем, че измеря някого, който е 60 инча висок, това ще е над пет стъпки височина и тежи 100 паунда. Отивам до 60 инча и после до 100 паунда. Тази точка ето тук е точката (60; 100). Можем да си представим, че измерваме по оста Ох или я поставяме на оста Ох, а после измерваме и по оста Оу. Тази точка за този човек е (60; 100) и представлява 60 инча, 100 паунда. Направих това за един, двама, трима, четирима, петима, шест, седем, осем, девет души и мога да продължа, но дори и с това мога да кажа, че вероятно тук има линейна връзка. Изглежда е положителна, понеже докато нараства височината, нараства и теглото. Може би мога да опитам да начертая права, която може приблизително да изглади тези данни. Нека опитам да направя това с линийката си. Мога да се сетя за няколко прави. При нещо такова изглежда (чертае) повечето от данните са под правата, така че това не изглежда правилно. Мога да направя нещо като това (чертае), но и то не изглежда добро попадение. Повечето от данните са над правата. Отново, просто преценявам на око, след време ще научиш по-добри методи за намиране на по-добре изглаждащи прави. Но тя е нещо като това и просто я преценявам на око, но изглежда правилна (чертае синя права) Можеш да разглеждаш тази права като регресионна права. Можем да гледаме на това като на у = mx + b. При което трябва да намерим наклона (ъгловия коефициент m) и пресечната точка (b) с оста Y и можем да го направим въз основа на това, което току-що начертах, или можем дори да си го представим като тегло. Теглото е равно на нашия наклон по височината плюс ординатата на пресечната точка с оста У, ако си представяш вертикалната ос като оста на теглото, можеш да си представиш това като пресечна точка с теглото. Но и по двата начина, това е моделът, който правя на око, това е моята линия на регресия. Нещо, с което опитвам да изгладя тези точки. Очевидно, една права не може да мине през всички тези точки. За всяка точка ще има някаква разлика, не за всички, но за много от тях, ще има някаква разлика между реалната точка и тази, която би била прогнозирана от правата. Разликата между реалните четири точки и това, което би било прогнозирано при дадена височина например, това се нарича остатъчна стойност. Трябва да запиша това. Остатъчна стойност R (от residual) за всяка от тези точки информация. Например, ако нарека това точка едно, остатъчната стойност за точка едно r1 е... Тя ще е за нашата променлива, височината, равна на 60 инча. Реалното тегло тук е 100 паунда. От него ще извадим теглото, което бихме прогнозирали. Прогнозното тегло би било... Мога просто да заместя 60 в това уравнение, така че това ще е m по 60 плюс b. Мога да го запиша, може би, по този начин – 60 m плюс b. Отново, просто взимам 60-те паунда и ги слагам в моя модел тук и казвам какво тегло би било прогнозирало това. Дори мога, просто, за да имам число тук... Мога да...нека извадя линийката си. Да опитам да получа права линия от тази точка. Нека начертая права линия от тази точка. Това не изглежда много право, но е добре. Изглежда е около 150 паунда. Моят модел би предсказал 150 паунда. Остатъчната стойност тук ще е равна на –50. Остатъчната стойност е отрицателна, ако реалната стойност е под предсказаната. Това ето тук. Това е нашето едно, то е с отрицателна остатъчна стойност. Да кажем, че опитваш да намериш, тази остатъчна стойност тук, за тази точка. Това r2 ще е положителна остатъчна стойност, понеже реалната стойност е по-голяма, отколкото тази, която е прогнозирана. Остатъчната стойност е добър начин да се каже колко добре правата, регресията, моделът, съответства на дадена точка информация или как дадена точка информация се сравнява с модела. Вероятно искаш да помислиш за някаква комбинация от всички остатъчни стойности и да опиташ да я минимизираш. Можеш да се запиташ: "Защо не събера всички остатъчни стойности и се опитам да ги минимизирам." Но това става сложно, понеже някои са положителни, а някои са отрицателни, така че една голяма отрицателна остатъчна стойност може да е в противовес на голяма положителна остатъчна стойност и това би дало сбор, равен на нула, а после да изглежда, че няма остатъчна стойност, така че просто можеш да събереш абсолютните стойности. Можеш да си кажеш: "Нека взема сбора на всички остатъчни стойности, на абсолютните стойности на всички остатъчни стойности. И после... нека променя m и b за моята права, за да минимизирам това." Това би било една техника да опиташ да създадеш регресионна права. Друг начин да го направиш, и това всъщност е най-типичният начин, който ще видиш в статистиката, е да се вземе сборът от квадратите на остатъчните стойности. Сборът от квадратите. Когато повдигнеш нещо на квадрат, без значение дали е отрицателно или положително, то ще стане положително, така че се справяш с проблема с отрицателни и положителни числа, които се се неутрализират. Когато повдигнеш едно число на квадрат, нещата с по-големи остатъчни стойности ще станат още по-големи, относително казано. Ако повдигнеш на квадрат едно голямо число е едно... Ако мислиш по този начин, да използваме нормални числа, едно, две, три, четири. Всички те са отдалечени едно от друго с едно, но ако ги повдигнеш на квадрат – едно, четири, девет, 16 – те се отдалечават все повече и повече. Затова, колкото по-голяма е остатъчната стойност, когато я повдигнеш на квадрат, тя ще представлява по-голяма част от сбора на квадратите. В бъдещи видеа ще видим, че има техника, наречена метод на най-малките квадрати. Метод на най-малките квадрати. При който можеш да намериш m и b за даден набор данни, така че да се минимизира сбора от квадратите на остатъчните стойности. Това е ценно и се използва най-много, защото се опитва да вземе предвид големите разлики в стойностите. Нещата, които стоят доста далеч от модела, нещо като това, с модел на най-малките квадрати ще бъде минимизирано, или ще бъде претеглено малко по-тежко, понеже, когато го повдигнеш на квадрат, то става още по-голям фактор в сумата. Но това е просто концептуално въведение. В бъдещи видеа ще пресмятаме остатъчни стойности. Ще извлечем формулата за намирането на m и b за права, така че да се минимизира сборът от квадратите от остатъчните стойности.