Основно съдържание
Текущ час:0:00Обща продължителност:5:44

Видео транскрипция

"Точковата диаграма по-долу показва набор от бивариатни данни, заедно с линията на регресия с метода на най-малките квадрати. Обмисли премахването на най-отдалечената стойност (95; 1)." (95; 1)... ето тази отдалечена стойност тук... "и пресмятането на нова линия на регресия с метода на най-малките квадрати. Какви ефекти ще има премахването на най-отдалечената стойност? Избери всички верни отговори." Както винаги, спри видеото в виж дали можеш да отговориш на това. Да видим, дори с тази отдалечена стойност, имаме линия на регресия с възходящ наклон (ъглов коефициент). Изглежда нашето r вече е по-голямо от нула. Разбира се, ще е по-малко от едно. Нашето r ще е по-голямо от нула и по-малко от едно. Знаем, че това няма да е равно на едно, понеже тогава щяхме да преминем перфектно през всички точки и е очевидно, че тази точка тук наистина е много отдалечена. Остатъчната стойност между тази точка и линията е доста голяма. Имаме доста голямо разстояние тук. Ще е отрицателна остатъчна стойност, така че тази точка определено сваля r и определено сваля наклона на линията на регресия. Ако премахна тази точка, тогава ще е по-вероятно да имаме линия, която изглежда като това, в който случай, изглежда ще получим много, много, много по-добро напасване. Единствената причина линията да не прави това е, че се опитва да се приближи до тази точка тук. Ако премахнем тази отдалечена стойност, нашето r ще се увеличи. r ще се увеличи и наклонът на линията ни ще се увеличи. Наклонът (ъгловият коефициент) също ще се увеличи. Ще имаме по-добро напасване на тези положително корелирани данни и тази точка вече няма да сваля наклона надолу. Нека видим кои отговори са верни. "Коефициентът на определеност r на квадрат ще се увеличи." Ако r се увеличава, тогава квадратът на тази стойност също ще се увеличи. Ще оградя това. "Коефициентът на корелация r ще се приближи до 0." Не, всъщност, той ще се доближи до едно, понеже тук ще имаме по-добро напасване. Така че изключвам това. "Наклонът на линията с метода на най-малките квадрати ще се увеличи." Да, това е вярно. Тази точка, тази голяма разлика в стойностите, го сваля надолу. Ако я извадиш, това ще позволи на наклона (ъгловия коефициент) да се увеличи. Така че ще оградя и това. Нека направим друг пример. "Точковата диаграма по-долу показва набор бивариатни данни, заедно с линията на регресия с най-малките квадрати." Идеята е същата. "Обмисли премахването на отдалечената стойност (10; –18)." Говорим за тази точка тук. "И пресмятането на нова линия на регресия с метода на най-малките квадрати." Какво ще се случи този път? Без да премахваме тази отдалечена стойност имаме отрицателен наклон за тази линия на регресия, така че си имаме работа с отрицателно r. Вече знаем, че –1 е по-малко от r, което е по-малко от нула, без дори да премахваме отдалечената стойност. Знаем, че няма да е –1. Ако r беше точно –1, това щеше да е низходяща линия, която преминава точно през всички точки. Но какво ще се случи, ако премахнем тази точка? Тази регресия с метода на най-малките квадрати бива свалена надолу от тази голяма разлика в стойностите. Ако премахнеш тази точка, линията на регресия с метода на най-малките квадрати може да се придвижи нагоре в лявата страна и вероятно ще имаш линия, която изглежда повече като тази. Рисувам я на ръка. Но дори това, което нарисувах на ръка, изглежда пасва по-добре към останалите точки. Очевидно новата линия, която направих, след като премахнах тази отдалечена стойност, има по-отрицателен наклон. Премахването на тази отдалечена стойност ще намали r, r ще се доближи до –1, ще се доближи до перфектна отрицателна корелация. Също така това ще намали наклона. Ще намали наклона (ъгловия коефициент). Кои подточки отговарят на това? "Коефициентът на определеност r на квадрат ще намалее." Нека внимаваме. r вече беше отрицателно число. Ако го намалим, то ще стане още по-отрицателно. Ако повдигнем на квадрат нещо, което е по-отрицателно, то няма да стане по-малко. Да кажем, че преди да премахнеш тази точка, r е било – просто ще си измисля една стойност – да кажем, че е било –0,4 и после, след като премахнем голямата разлика в стойностите, r става по-отрицателно и ще е равно на –0,5. Ако повдигнем това на квадрат, то ще е +0,16, докато това ще е +0,25. Ако r вече е отрицателно и ако го направиш по-отрицателно, това няма да намали r на квадрат, а всъщност ще увеличи r на квадрат. Така че ще изключа това. "Наклонът на линията на регресия с метода на най-малките квадрати ще се увеличи." Не, той ще намалее. Ще има по-силна отрицателна корелация. Изключвам това. "Пресечната точка 0y на линията на регресия с метода на най-малките квадрати ще се увеличи." Да, като премахнем тази отдалечена стойност, можеш да си представиш, че лявата страна на тази линия ще се увеличи. Или, друг начин да си го представим е, че наклонът (ъгловият коефициент) на тази линия ще намалее, ще стане по-отрицателен. Знаем, че линията на регресия с метода на най-малките квадрати винаги ще премине през средните стойности на двете променливи. Просто ще се въртим около средната стойност на двете променливи, което означава, че пресечната точка с оста y ще се увеличи. Така че ще избера това.