If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:7:40

Видео транскрипция

Интересувам се от намирането на взаимовръзката между ръста на хората в инчове и теглото им в паундове. Напосоки правя извадка с няколко души, като измервам ръста и теглото им и за всеки човек поставям точка, която представлява комбинацията от ръста и теглото му. Да кажем, че измеря някого, който е 60 инча висок, това ще е над пет стъпки височина, и тежи 100 паунда. Отивам до 60 инча и после до 100 паунда. Тази точка ето тук е точката (60; 100). Можем да си представим, че измерваме по оста Ох или я поставяме на оста Ох, а после измерваме и по оста Оу. Тази точка за този човек е (60; 100) и представлява 60 инча, 100 паунда. Направих това за един, двама, трима, четирима, петима, шест, седем, осем, девет души и мога да продължа, но дори и с това мога да кажа, че изглежда има грубо линейна взаимовръзка. Изглежда е положителна, понеже докато нараства височината, нараства и теглото. Може би мога да опитам да начертая линия, която може да се приближи до този модел. Нека опитам да направя това с линийката си. Мога да се сетя за няколко линии. При нещо такова изглежда повечето от данните са под линията, така че това не изглежда правилно. Мога да направя нещо като това, но и то не изглежда добро попадение. Повечето от данните са над линията. Отново, просто преценявам на око, след време ще научиш по-добри методи за намиране на по-добре пасваща линия. Но тя е нещо като това и просто я преценявам на око, но изглежда правилна. Можеш да разглеждаш тази линия като линия на регресия. Можем да гледаме на това като у = mx + b. При което трябва да намерим наклона (ъгловия коефициент) и пресечната точка с оста Y, въз основа на това, което току-що начертах, или можем дори да си го представим като тегло. Теглото е равно на нашия наклон по височината плюс ординатата на пресечната точка с оста У, ако си представяш вертикалната ос като оста на теглото, можеш да си представиш това като пресичането с теглото. Но и по двата начина, това е моделът, който правя на око, това е моята линия на регресия. Нещо, с което опитвам да наместя тези точки. Очевидно, една линия не може да мине през всички тези точки. За всяка точка ще има някаква разлика, не за всички, но за много от тях, някаква разлика между реалната и тази, която би била прогнозирана от линията. Разликата между реалните четири точки и това, което би било прогнозирано при дадена височина например, това се нарича остатъчна стойност. Трябва да запиша това. Остатъчната стойност за всяка от тези точки информация. Например, ако нарека това точка едно, остатъчната стойност за точка едно... Тя ще е за нашата променлива на височината 60 инча. Реалната тук е 100 паунда. От това ще извадим това, което бихме прогнозирали. Това тук би било прогнозирано. Мога просто да заместя 60 в това уравнение, така че това ще е m по 60 плюс b. Мога да го запиша, може би, по този начин – 60 m плюс b. Отново, просто взимам 60-те паунда и ги слагам в моя модел тук и казвам какво тегло би било прогнозирало това. Дори мога, просто, за да имам число тук... Мога да...нека извадя линията си. Да опитам да получа права линия от тази точка. Нека начертая права линия от тази точка. Това не изглежда много право, но е добре. Изглежда е около 150 паунда. Моят модел би предсказал 150 паунда. Остатъчната стойност тук ще е равна на –50. Отрицателна остатъчна стойност имаш, когато реалната е под предсказаната. Това ето тук. Това е нашето едно, то е с отрицателна остатъчна стойност. Да кажем, че опитваш да намериш, тази остатъчна стойност тук, за тази точка. Това r2 ще е положителна остатъчна стойност, понеже реалната е по-голяма, отколкото тази, която е прогнозирана. Остатъчната стойност е добър начин да се каже колко добре линията, регресията, моделът съответства на дадена точка информация или как дадена точка информация се сравнява с това. Вероятно искаш да помислиш за някаква комбинация от всички остатъчни стойности и да опиташ да я минимизираш. Можеш да се запиташ: "Защо просто не събера всички остатъчни стойности и да опитам да минимизирам това." Но това става сложно, понеже някои са положителни, а някои са отрицателни, така че една голяма отрицателна остатъчна стойност може да е в противовес на голямата положителна остатъчна стойност и то би дало сбор от нула, а после да изглежда, че няма остатъчна стойност, така че просто можеш да събереш абсолютните стойности. Можеш да си кажеш: "Нека взема сбора на всички остатъчни стойности, на абсолютните стойности на всички остатъчни стойности. И после... нека променя m и b за моята линия, за да минимизирам това." Това би било една техника да опиташ да създадеш линия на регресия. Но друг начин да го направиш, като това всъщност е най-типичният начин, който ще видиш в статистиката, е да се вземе сборът от квадратите на остатъчните стойности. Сборът от квадратите. И, когато повдигнеш нещо на квадрат, без значение дали е отрицателно или положително, то ще е положително, така че се справя с проблема с отрицателните и положителните знаци, които се съкращават. Когато повдигнеш едно число на квадрат, нещата с по-големи остатъчни стойности ще станат още по-големи, относително казано. Ако повдигнеш едно голямо число – ако помислиш по този начин, нека сложа нормални числа, едно, две, три, четири. Всички те са отдалечени едно от друго с едно, но ако ги повдигна на квадрат – едно, четири, девет, 16 – те се отдалечават все повече и повече. Затова, колкото по-голяма е остатъчната стойност, когато я повдигнеш на квадрат, тогава сборът от квадратите ще представлява по-голяма част от сбора. В бъдещи видеа ще видим, че има техника, наречена метод на най-малките квадрати. Метод на най-малките квадрати. При който можеш да намериш m и b за даден набор данни, така че това минимизира сбора от квадратите на остатъчните стойности. Това е ценно и се използва най-много, защото опитва да вземе предвид големите разлики в стойностите. Нещата, които стоят доста далеч от модела, нещо като това, с модел на най-малките квадрати, ще бъде минимизирано или ще бъде претеглено малко по-тежко, понеже, когато го повдигнеш на квадрат, то става още по-голям фактор в това. Но това е просто концептуално въведение. В бъдещи видеа ще пресмятаме остатъчни стойности. Ще извлечем формулата за намирането на m и b за линия, така че да се минимизира сборът от квадратите от остатъчните стойности.