If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

R-квадрат или коефициент на детерминация

При линейната регресия r-квадрат (наричано още коефициент на детерминация) е делът на вариацията на зависимата променлива, който се определя от независимата променлива в модела. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В последните няколко клипа, видяхме, че ако имаме n точки, всяка от тях има х и у- координати. Нека нанеса n от тези точки. И нека наречем това точка едно. Тя има координати (х1; у1). Това тук е втората точка. Тя има координати (х2; у2). И продължаваме тук да нанасяме точки, докато накрая стигнем до n-тата точка. Тя има координати (xn; yn). Това, което видяхме, е, че съществува права, която минимизира сумата от квадратите на разстоянията от правата до точките. Тази права тук, ще я нарека у, има уравнение у = mx + b. Има някаква права, която минимизира сумата от квадратите на разстоянията от правата до точките. Нека само преговорим какво представляват тези квадрати на разстоянието. Това се нарича квадратично отклонение или квадратична грешка Това е отклонението на правата от точка едно. Ще го нарека отклонение едно. Това е отклонението на правата от точка две. Ще го нарека отклонение две. Това е отклонението на правата от точка n. Ако търсим общото отклонение, ако търсим сумата от квадратите на отклоненията – от тук всъщност започна цялата тази дискусия – сумата от квадратите на отклоненията на точките от правата... това, което буквално правим, е, че вземаме у-стойността във всяка точка. Така например вземаме у1. Това е тази стойност тук, вземаме у1 минус стойността на у в тази точка от правата. А тази точка от правата по същество е у-стойността, която получаваме при заместването на х1 в това уравнение. Така че ще заместя х1 в уравнението. Ето, минус m х1 плюс b. Това тук представлява тази у-стойност. Тук пък е m х1 + b. Не искам графиката да става толкова претрупана. Затова ще изтрия това там. Това там е отклонение едно. И търсим квадратите на отклоненията на всяка от точките от правата. Това е първата точка. След това правим същото за втората. И започнахме дискусията ни по този начин: у2 минус m х2 плюс b на квадрат, и т.н. слагаме точки, точки, точки, за да покажа, че има няколко такива, които трябва да отбележим, докато стигнем до n-тата точка – и т.н. до yn минус m xn плюс b на квадрат. Сега всъщност знаем как да намерим тези m и b, показах ти формулата. И фактически доказахме формулата. Можем да намерим тази права. И ако искаме да кажем, добре, колко голямо е отклонението ни там? Можем да го пресметнем. Понеже сега знаем стойностите на тези m и b. И можем да пресметнем това при определено множество от данни. Сега, това което искам да направя, е да намеря някакъв по-смислен начин на оценка за това колко добре тази права пасва на точките от данни, които имаме. А за да го направим, ще си зададем въпроса какъв е процентът в изменението на у, описано от изменението на х? Та нека помсилим за това. Колко от цялото изменение в у - очевидно има изменение в у. Тази у стойност е тук. Стойността на у за тази точка е тук. Определено има някакво изменение в у. Но колко от него се описва всъщност от изменението в х? Или се описва от правата? Нека помислим за това. Най-напред нека помислим за това какво е общото изменение. Колко голямо е общото изменение в у? Нека намерим какво е общото изменение в у. Това реално е инструмент за измерване. Когато мислим за изменение, а това е вярно дори, когато сме помислили за дисперсията, която беше равна на средното изменение в у. Ако помислим за квадрата на разстоянието от някаква централна тенденция, а най-добрата мярка за центъра, която можем да имаме за у, е аритметичната средна стойност. И можем да кажем, че общото изменение в у ще е равно на сумата от разстоянията до всеки от тези у. Така получаваме у1 минус средната стойност на всички у, на квадрат. Плюс у2 минус средната стойност на всички у, на квадрат. Плюс...и т.н., докато стигнем до n-та у стойност. До уn минус средната стойност на всички у, на квадрат. Това дава общата вариация на у. Можем просто да вземем всички у-стойности. Намираме средната им стойност. Тя ще е някакво число, може би то е някъде тук. И можем дори да го представим нагледно, по същия начин, по който представихме квадратите на отклоненията от правата. И ако го онагледим, можем да си представим някаква права, за която у е равно на средната стойност на у. Което ще изглежда по този начин. И това, което измерваме тук, това отклонение тук, представлява квадратът на това разстояние тук. Между тази точка отвесно и тази права. Второ ще е това разстояние. Директно до правата. И n-тото ще е разстоянието от там, по целия път до правата там. А ето ги и тези междинни точки. Това е общата вариация на у. Логично е. Ако разделим това на n, ще получим това, което типично свързваме с дисперсията на у, което е един вид средното квадратично отклонение. Сега имаме общото квадратично отклонение. Така че това, което искаме да направим е – колко от общата промяна на у се описва от промяната в х? И вероятно можем да помислим по въпроса по следния начин. Нашият знаменател, търсим какъв процент е общата промяна в у. Нека го запиша по този начин. Дефинираме това като средната квадратична грешка. Може би ще нарека това квадратична грешка от средната стойност на у. А то в действителност е общото изменение в у. Така че нека приемем това като знаменател. Общото изменение в у, което представлява квадратичната грешка или квадрата на отклонението от средната стойност на тези у. Сега търсим какъв процент от това се описва от изменението в х. Така, какво не е описано от изменението в х? Търсим това колко се описва от изменението в х. Но какво става, ако търсим каква част от общото изменение не се описва от линията на регресия? Ами вече имаме мерна единица за това. Имаме квадратичната грешка на правата. Това ни казва какъв е квадратът на разстоянията от всяка точка до нашата права. Един вид това е точно тази мярка. Тя ни казва колко от общото изменение не се описва от линията на регресия. И ако искаме да знаем какъв процент от общото изменение не се описва от линията на регресия, това ще е квадратичната грешка на правата, защото имаме налице общото изменение, което не се описва от линията на регресия, разделено на общото изменение. Нека изясня малко. Това тук ни казва какъв процент от общото изменение не се описва от изменението на х. Или от линията на регресия. И нека отговорим на нашия въпрос: какъв процент се описва от изменението? Ами, останалата част от него трябва да се описва от изменението в х. Понеже нашият въпрос е какъв процент от общото изменение се описва от изменението в х. Това е процентът, който не е описан. Така че, ако това число е 30% – ако 30% от изменението в у не се описват от правата, тогава останалата част ще се описва от нея. И по същество можем да извадим това от 1. Т.е. ако считаме 1 минус квадратичната грешка между нашите точки данни и правата над квадратичната грешка между тези у, и средната стойност на у, това всъщност ни казва какъв процент от общото изменение е описан от правата. Можем да го разглеждаме или като описано от правата, или от изменението на х. И това число тук се нарича коефициент на детерминация. Това е дефиницията, която му е дадена от статистиците. Нарича се още R-квадрат. Дори може да ти е познат този термин, когато се говори за регресия. Да помислим по въпроса. Ако квадратичната грешка на правата е наистина малка, какво означава това? Това означава, че тези грешки тук действително са малки. Което подсказва, че правата наистина пасва добре. Нека го запишем тук. Ако квадратичната грешка на правата е малка, тогава правата пасва добре. Така, а какво ще се случи тук? Ако това число е в действителност малко, това тук ще е една много малка дроб. 1 минус някаква много малка дроб ще представлява число, близко до 1. Тогава нашето R квадрат ще е близо до 1, което означава, че голяма част от изменението в у се описва от изменението в х. Което е понятно, защото правата подсказва това. Да вземем и обратния случай. Ако квадратичната грешка на правата е голяма, това означава, че има големи отклонения между точките данни и правата. Така че, ако това число е голямо, тогава това число тук също ще е голямо. Или то ще представлява процент, близък до 1. А 1 минус това ще е близо до 0. И ако квадратичната грешка на правата е голяма, цялото това нещо ще е близо до 1. А ако цялото това нещо е близо до 1, целият коефициент на детерминация, цялото R квадрат ще е близо до 0, което е разбираемо. Това означава, че много малка част от общото изменение в у се описва от изменението в х или от правата. Както и да е, всичко, с което се занимавах досега, беше малко абстрактно. Следващия път ще погледнем няколко примера с данни, като изчислим тяхната линия на регресия. Както и ще пресметнем R квадрат, като видим каква добра работа върши то.