If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:6:12

Видео транскрипция

В това видео ще говорим за идеята за диаграма на остатъчни стойности за дадена регресия и информацията, която тя опитва да обясни. Ето тук имаме доста лесна регресия с метода на най-малките квадрати. Опитваме се да напаснем четири точки. В предишни видеа разглеждахме уравнението за линия на регресия с метода на най-малките квадрати. Сега ще поставя остатъчните стойности за всяка от тези точки. Какво е остатъчна стойност? Просто за напомняне, остатъчната стойност за дадена точка е равна на реалната стойност минус прогнозираната. Как да направя това по-реално? Каква е остатъчната стойност за тази точка тук? При тази точка тук, реалната "у", когато "х" е равно на едно, е едно, но прогнозираната, когато "х" е равно на едно за тази линия на регресия с метода на най-малките квадрати, 2,5 по едно минус две, като това ще е 0,5. Така че нашата остатъчна стойност е едно минус 0,5. Имаме положителна стойност, имаме положителна остатъчна стойност от 0,5. Тук, за тази точка, имаме остатъчна стойност от нула. Реалната стойност е очакваната. За тази точка тук, реалната стойност, когато "х" е равно на две, "у" е две, но прогнозираната е три. Нашата остатъчна стойност тук, отново, реалната е "у" е равно на две, при "х" равно на две. Прогнозираната е две по 2,5 минус две, което е три, така че това ще е две минус три, което е равно на остатъчна стойност от -1. Ето тук нашата остатъчна стойност е реална. Когато "х" е равно на три, е шест, нашата прогнозирана, когато "х" е три, е 5,5. Шест минус 5,5 е положително 0,5. Това са остатъчните стойности, но как да ги нанесем на графиката? Ще начертая осите. Нека го направя тук. Едно, две и три. Да видим, максималната остатъчна стойност тук е +0,5. Минималната е -1. Да видим, това може да е 0,5, едно, -0,5 и -1. Това е отрицателната. Това е положителната. Каква беше остатъчната стойност, когато "х" е равно на едно? Реалната беше едно, а прогнозираната беше 0,5. Едно минус 0,5 е 0,5. Можем да я поставим ето тук. Остатъчната стойност е 0,5. Когато "х" е равно на две, имаме две точки информация. Първо, ще направя тази. При точката (2; 3) остатъчната стойност е нула. Остатъчната стойност за тази е нула. Остатъчната стойност за другата е –1. Нека го направя в различен цвят. Остатъчната стойност за другата е –1, така че ще я поставим ето тук. После е последната точка, като остатъчната стойност е +0,5. Ето така. Това, което точно създадох, при него виждаме, че за всяко "х", при което имаме съответна тока, поставяме точката над или под линията, въз основа на остатъчните стойности. Това се нарича диаграма на остатъчните стойности. Защо хората изобщо се тормозят да създават такава диаграма на остатъчните стойности? Отговорът е: без значение дали линията на регресия е с възходящ наклон или с низходящ наклон, това ти дава идея колко добре се нагажда тя и дали линията добре обяснява взаимовръзката между променливите. Общата идея е, че ако видиш, че точките са доста равномерно разпръснати или случайно разпръснати над и под тази линия, не различаваш някакъв модел тук, тогава линията вероятно е добър модел за данните. Но ако видиш някакъв вид модел, ако остатъчните стойности имат възходящ модел като това или създават крива нагоре-надолу, или имат низходящ модел, тогава ще разбереш, че линията не е добър избор и вероятно трябва да направиш нелинеен модел. Какви примери има за други диаграми на остатъчни стойности? Нека опитаме да ги анализираме. Тук имаш линия на регресия и съответстващата ѝ диаграма на остатъчните стойности. Отново виждаш, че тук остатъчната стойност е леко положителна. Реалната стойност е малко над линията и, виждаш ето тук, е малко положителна. Тази е още повече положителна, както виждаш тук. Но както при примера, който току-що разгледахме, изглежда тези остатъчни стойности са доста равномерно разпределени над и под линията. Няма някакъв отличаващ се модел. Така че бих казал, че за тези данни линейният модел и, в частност, линията на регресия, е добър модел. Но, ако видим нещо такова, изниква различна картина. Когато погледна само диаграмата на остатъчните стойности, те не изглеждат равномерно разпръснати. Изглежда тук има някакъв модел. Слизам надолу, но после се връщам нагоре. Когато видиш нещо такова, при което отиваш под х-оста на диаграмата на остатъчните стойности и после над нея, това може да означава, че вероятно линейният модел не е подходящ, за разлика от, може би, някакъв вид нелинеен модел. Някой вид нелинейна крива може да е по-добре да се нагоди към данните. Или – взаимовръзката между "у" и "х" е нелинейна. Друг начин да си представиш това е, когато имаш много остатъчни стойности, които са доста далеч от оста х на диаграмата на остатъчните стойности, можеш също да кажеш, че тази линия не се нагажда толкова добре към данните. Ако пресметнеш R стойността тук, тя ще е само леко положителна, но няма да е близка до едно.