If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Курс: 12. клас (България) Профилирана подготовка Модул 4 Вероятности и анализ на данни > Раздел 6

Урок 3: Уравнения на регресия по метода на най-малките квадрати

Изчисляване на уравнението на една права на регресия

Изчисляване на уравнението на права на регресия по метода на най-малките квадрати. Логиката зад това уравнение.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В предишни видеа взимахме тези бивариантни данни и пресмятахме коефициента на корелация. Нека да преговорим малко, имаме формулата тук, и тя изглежда малко страшно, но в това видео видяхме, че тя е средно аритметично от продукта на z стойностите за всяка от тези двойки Както казахме, ако r е равно на едно, имаш перфектна положителна корелация. Ако r е равно на –1, имаш перфектна отрицателна корелация. Ако r е равно на нула, нямаш корелация, но за този бивариантен набор данни в частност имаме r от 0,946. Това означава, че имаме доста силна положителна корелация. В това видео ще надградим тези знания и ще съставим уравнението на линията с метода на най-малките квадрати, която опитва да се нагоди към тези точки. Преди да направя това, нека визуализираме някои от статистическите данни, които имаме за тези точки информация. Очевидно имаме поставени четири точки информация, но нека поставим статистическите данни за "х". Средната стойност на извадката и стандартното отклонение на извадката за "х" тук са в червено и нека заградя тези в червено, така че да знаеш какво става тук. Лесно е да изчислим средната стойност на извадката за "х" – едно плюс две, плюс две, плюс три, разделено на четири...това е осем, разделено на четири, което е две, така че тук "х" е равно на две. После, това е едно стандартно отклонение на извадката над средната стойност, това е едно стандартно отклонение на извадката под средната стойност и после можем да направим същото за променливите "y". Средната стойност е три и това е едно стандартно отклонение на извадката за "y" над средната стойност, а това е едно стандартно отклонение за "у" под средната стойност. Визуализирането на тези средни стойности, особено пресечните им точки, и също стандартните отклонения, ще ни помогне да изградим логическото си разбиране за уравнението за линията с метода на най-малките квадрати. Като цяло, уравнението за произволна права е у = mx + b, при което това е наклонът (ъгловият коефициент), а това е пресечната точка с оста у. Ще поставим диакритичен знак за линията на регресията. Знакът показва, че се опитваме да пригодим регресионна линия към тези точки. Първо, това ще е наклонът (ъгловият коефициент). Наклонът ще е r по отношението между стандартното отклонение на извадката по оста у върху стандартното отклонение на извадката по оста х. В началото може да не изглежда логично, но ще говорим за това след малко и да се надяваме, че ще ти изглежда по-логично. Следващото нещо, което трябва да знаем, е щом можем да пресметнем наклона, как пресмятаме пресечната точка с оста у? Както учихме в раздела Алгебра 1, можеш да пресметнеш пресечната точка с оста у, ако вече знаеш наклона, като се запиташ коя точка определено ще е на линията. За линията на регресия с метода на най-малките квадрати определено ще имаш точката на средната стойност на извадката за "х" и средната стойност на извадката за "у". Определено преминаваш през тази точка. Преди да пресметна този пример в частност, при който в предишни видеа пресметнахме, че r ще е 0,946 или грубо равно на това, нека помислим какво става. Нашата линия с метода на най-малките квадрати определено ще премине през тази точка. Ако r беше едно, ако имахме перфектна положителна корелация, тогава наклонът ни щеше да е стандартното отклонение на "у" върху стандартното отклонение на "х". Ако трябваше да започнеш от тази точка и ако трябваше да преминеш стандартното отклонение за "х" и да увеличиш стандартното отклонение на "у", при перфектна положителна корелация, линията ти щеше да изглежда като тази. Това е доста логично, понеже гледаш разсейването на "у" върху разсейването на "х", ако r беше равно на едно, това щеше да е наклонът ти – стандартното отклонение на "у" върху стандартното отклонение на "х". Това има паралели към времето, когато за пръв път учеше за наклон/ъглов коефициент. Промени в "у" върху промени в "х", виждаш... можеш да кажеш средно аритметичното на разсейването при "у" върху средно аритметично на разсейването при "х". Това ще е в случая, когато r е едно, така че нека го запиша. Това ще е в случай, че r е равно на едно. Какво ще се случи, ако r беше равно на –1? Щеше да изглежда така. Това щеше да е нашата линия, ако имахме перфектна отрицателна корелация. А какво ако r беше нула? Тогава наклонът ти щеше да е нула и линията ти просто щеше да е тази линия, "у" е равно на средната стойност на "у", така че просто щеше да преминеш през това тук. Но нека помислим за този сценарий. В този сценарий, r е 0,946, така че имаме доста силна корелация, която е доста близо до едно. Ако вземеш 0,946 и го умножиш по това отношение, ако се придвижиш напред в "х" със стандартното отклонение при "х", колко нагоре ще се придвижиш по "у" в този случай? Ще се придвижиш нагоре с r пъти стандартното отклонение на "у". Както казахме, ако r е едно, ще достигнеш чак до тази перфектна линия на корелация, но тук той е 0,946, така че ще се придвижиш нагоре до около 95% от разстоянието до това. Нашата линия, без дори да гледаме уравнението, ще изглежда подобно на това, при което можем да видим, че доста добре се нагажда към тези точки. Не доказвам това тук във видеото. Но сега, когато вече схванахме логиката, надявам се, че ще можеш да разбереш, че това не идва от някаква странна формула, а всъщност има логика. Нека пресметнем това за този набор данни. М ще е равно на r, което е 0,946, по стандартното отклонение на извадката за "у" – 2,160, върху стандартното отклонение на извадката за "х" – 0,816. Можем да извадим калкулатора си, за да пресметнем това. 0,946 по 2,160, делено на 0,816 и това ни дава 2,50. Нека закръглим до най-близката стотна. Това ще е приблизително равно на 2,50. Как намираме пресечната точка с оста у? Помни, преминаваме през тази точка, така че ще имаме 2,50 по средната стойност за "х", като средната стойност за "х" е две – по две – помни, това тук е средната стойност на "х"... плюс b – плюс b ще е равно на средната стойност на "y" – виждаме, че средната стойност на "у" тук е три. Колко ще получим? Три е равно на пет плюс b. Колко е b? Ако извадиш пет от двете страни, получаваш, че b е равно на –2. Готово. Какво е уравнението за линията ни на регресия? Заслужаваме барабани тук. Диакритичният знак над у ни казва, че това е уравнението за линията на регресията, което е равно на 2,50 по "х" минус две. И сме готови.