If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Логиката на R на квадрат - коефициент на детерминация

Когато първо учихме за коефициента на корелация R, се фокусирахме върху това какво означава той, а не върху това как да го изчислим, понеже изчисленията са дълги и обикновено компютрите ги извършват вместо нас.
Ще направим същото с R, squared и ще се фокусираме върху това как да интерпретираме какво означава това.
По определен начин R, squared измерва каква част от грешката при прогнозата е елиминирана, когато използваме регресия по метода на най-малките квадрати.

Прогнозиране без регресия

Използваме линейна регресия, за да прогнозираме у при дадена някаква стойност на х. Но да предположим, че трябва да прогнозираме стойността на у, без да знаем съответната стойност на х.
Без да използваме регресия за променливата x, най-логичното ни изчисление ще е просто да прогнозираме средно аритметичното на стойностите на у.
Ето един пример, където правата на прогнозата е просто средната стойност на данните у:
Забележи, че тази права изглежда не съвпада много добре с данните. Един начин да измерим съвпадането на тази права е да изчислим сбора от повдигнатите на квадрат остатъчни стойности – това ни дава цялостно усещане за това каква е грешката на даден модел при прогнозиране.
Така че, без да използваме регресия по метода на най-малките квадрати, сборът от квадратите на отклоненията е 41, comma, 1879.
Използването на регресия по метода на най-малките квадрати ще намали ли грешката на прогнозата? Ако да, с колко? Да видим!

Прогнозиране с регресия

Това са същите данни със съответната права на регресия по метода на най-малките квадрати и обобщителни статистически характеристики:
УравнениеRR, squared
y, with, hat, on top, equals, 0, comma, 5, x, plus, 1, comma, 50, comma, 8160, comma, 6659
Тази права изглежда съвпада доста добре с данните, но за да измерим колко по-добре съвпада, можем отново да погледнем сбора на повдигнатите на квадрат остатъчни стойности:
Използването на регресия по метода на най-малките квадрати намали сбора на повдигнатите на квадрат остатъчни стойности от 41, comma, 1879 до 13, comma, 7627.
Така че използването на регресия по метода на най-малките квадрати елиминира значително количество грешка на прогнозирането. Но колко?

R на квадрат измерва колко грешка на прогнозирането сме елиминирали

Без да използваме регресия, моделът ни имаше общ сбор от квадратите на отклоненията 41, comma, 1879. Като използвахме регресия по метода на най-малките квадрати намалихме този сбор до 13, comma, 7627.
Общото намаление тук е 41, comma, 1879, minus, 13, comma, 7627, equals, 27, comma, 4252.
Можем да представим това намаление като процент от първоначалното количество грешка на прогнозирането:
start fraction, 41, comma, 1879, minus, 13, comma, 7627, divided by, 41, comma, 1879, end fraction, equals, start fraction, 27, comma, 4252, divided by, 41, comma, 1879, end fraction, approximately equals, 66, comma, 59, percent
Ако отново погледнеш по-горе, ще видиш, че R, squared, equals, 0, comma, 6659.
R на квадрат ни казва какъв процент от грешката на прогнозиране в променливата у е елиминирана, когато използваме регресия по метода на най-малките квадрати при променливата х.
Като резултат, R, squared също се нарича и коефициент на детерминация.
Много формални определения казват, че R, squared ни казва какъв процент от вариацията в променливата у се отчита от регресията на променливата х.
Изглежда доста забележително, че просто повдигането на R на квадрат ни дава това измерване. Доказването на тази зависимост между R и R, squared е доста сложно и е извън обхвата на един въвеждащ курс по статистика.