If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Изчисляване на R-квадрат

Изчисляване на R-квадрат, за да разберем колко добре регресионната линия описва данните. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Миналия път успяхме да намерим уравнението на линията на регресия за тези четири точки данни. Целта ми в това видео е да намеря R-квадрат за тези точки данни. Да намеря колко добре тази линия пасва на данните. Или още по-добре, да намеря процента – което реално е същото – процента на изменение на тези точки от данни, най-вече изменението в у, което се дължи, или може да се обясни с изменението в х. И за да направим това, всъщност ще изнеса една електронна таблица. Опитвал съм се това да го изчисля с калкулатор, но е много по-трудно. Та надявам се, че употребата на електронна таблица няма да те обърка. Тук правя две колонки. Електронните таблици всъщност съдържат функции, които автоматично ще извършат всичко това, но ми се иска да го направя така, че да може, ако трябва, ръчно да го направиш. Така, тук правя две колони. Това ще е моята х-колоната. Това ще е у-колоната. Това ще е колоната – ще го нарека у*, което ще е стойността за у, която нашата линия прогнозира въз основа на нашата х-стойност. Това ще е грешката на линията. Нека я нарека квадратична грешка на правата. Не искам да използвам прекалено много място. Квадратична грешка на правата. И след това ще имам квадрата на отклонението на тази стойност на у от средната стойност на у. И мисля, че тези колони сами по себе си ще са достатъчни, за да направим всичко. Така че нека първо нанесем всички точки от данните. Така, имаме точка (– 2; –3). Това беше една точка данни. (– 1; –1). И имахме (1; 2). След това имаме (4; 3). Така, каква прогноза дава нашата права? Нашата права показва за дадена стойност на х каква стойност за у ще прогнозираме. Когато х е равно на –2, стойността за у от правата ще бъде наклонът... И това ще е равно на 41, разделено на 42, умножено по нашата стойност на х. Избрах тази кутийка. И като в учебник за електронни таблици, избирам кутийка D2. Успях да придвижа курсора си нагоре и да избера това. Така разбирам стойността на х. Минус 5/21. Минус 5, делено на 21. Ето така. Нека изясня какво правим. За това у звезда тук, получих –2,19. То ни казва, че в тази точка тук имаме –2,19. И когато намерим грешката, ще намерим разстоянието между минус 3, и нашата стойност –2,19. Така че нека пресметнем. Грешката ще е равна на нашата стойност за у. Това е клетка Е2. Минус стойността, която ще предскаже нашата права. А грешката всъщност е тази стойност. Но искаме да я повдигнем на квадрат. Следващото нещо, което искаме да намерим, е квадрата на отклонението. Това е равно на квадрата на отклонението на нашата стойност за у от средната стойност за у. А каква е средната стойност на у? Тя е 1/4. Така, минус 0,25, това е равносилно на 1/4. Това искаме да го повдигнем на квадрат. Така, ето я приятната част при електронните таблици. Сега мога да приложа тези формули към всеки ред. И забележи какво става, щом се намесих тук. Сега изведнъж това е стойността за у, която ще бъде предсказана от моята права, когато използваме тази стойност на х, която попълваме тук. Сега се изчислява квадрата на отклонението от правата с помощта на прогнозата на правата, и стойността за у е ето тази. И след това тук имаме същото. Така се намира квадрата на отклонението на тази стойност на у от средната стойност. И каква е общата квадратична грешка на правата тук? Нека събера това. Общата квадратична грешка за оста е 2,73. Тогава общото отклонение от средната стойност, квадратите на отклоненията от средната стойност на у, са 22,75. Нека добре изясня какво е това. Записвам тези числа. Ще запиша тук горе, за да може да поглеждаме тази реална графика. Та квадратичната грешка при тази права, общата ни квадратична грешка, тъкмо намерихме, че е 2,74. Малко го закръглих. И това означава, че се вземат предвид за всички тези точки данни вертикалните им отклонения от правата. Така имаме квадрата на това отклонение, плюс квадрата на това отклонение, плюс квадрата на това отклонение, плюс квадрата на това отклонение. Всичко това вече го изчислихме с Ексел. И така общото квадратично отклонение, квадратът на отклонението спрямо правата е 2,74. Или това е общата квадратична грешка спрямо правата. И тогава другият резултат, който намерихме, беше общото отклонение от средната стойност. Средната стойност тук е у, равна е на 1/4. Това ще се намира тук. у = 1/4. Това е 1/2. Ето го тук. Това е средната стойност на у. Това е средната стойност на у. Или централната тенденция за нашите стойности относно у. А това, което изчислихме после, беше общата грешка квадратична грешка от средните стойности на нашите стойности за у. Това изчислихме тук с електронната таблица. Вижда се във формулата. Ето го това число, Е2, минус 0,25, което е средната стойност на у, повдигнато на квадрат. Точно това пресметнахме. Пресметнахме го за всяка от стойностите на у. И тогава ги събрахме. Получи се 22,75. Това е равно на 22,75. Това всъщност е грешката, която правата не обяснява. Това е общата грешка, това е общото отклонение на стойностите. И ако искаме да знаем процента на цялото отклонение, който правата не обяснява, можем да вземем предвид това число, и да го разделим на това число. Т.е. 2,74 върху 22,75. Което ни казва процента на общото отклонение, което не се обяснява от правата или от отклоненията на х. А какво ще е числото? Пак ще използвам помощта на Ексел. Ще разделя това число на това число там. Получавам 0,12. Така че резултатът е равен на 0,12. Или друг начин да го разглеждаме, е, че 12% от цялото отклонение не се обяснява от отклонението на х. Квадратът на общото отлонение на всяка от точките или тяхното разпръскване, дисперсията им, не се обяснява чрез дисперсията на х. Ако търсим частта, която се обяснява от дисперсията на х, просто изваждаме това от 1. Нека го напиша тук. Имаме r на квадрат, което представлява процентът пълно изменение, обяснено от х, той ще е равен на 1 минус това 0,12, което намерихме преди малко. Което прави 0,88. Така че нашето r квадрат тук е 0,88. То е много, много близо до 1. Най-голямото число може да е 1. И това, което означава, или начинът, по който можем да го обясним, е, че 88% от цялото изменение на тези стойности на у, се обяснява чрез зависимостта, чрез правата, или чрез изменението на х. И можем да видим, че тази права изглежда, че пасва много добре. Всички тези точки не са на голямо разстояние. Всяка от точките определено е доста по-близо до реалната права, отколкото до средната права. Всъщност, всички те са по-близо до нашата реална права, отколкото до средната права.