If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Стандартно отклонение на остатъци и средна квадратична грешка (RMSD)

Изчисляване на стандартното отклонение на остатъците (или средна квадратична грешка (RMSD), или средно квадратично отклонение (RMSD)) за измерване на разминаването между един модел на линейна регресия и едно множество данни.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В това видео ще пресметнем една типична мярка за това колко добре реалните точки информация съвпадат с даден модел, в този случай, линеен модел и има няколко названия за това. Можем да считаме това за стандартното отклонение на остатъчните стойности и, всъщност, това ще пресметнем. Можеш също да го наричаш средна квадратична грешка и ще видиш защо се нарича така, понеже това наистина описва как я пресмятаме. Сега ще погледнем остатъчните стойности за всяка от тези точки и после ще намерим стандартното им отклонение. Като малък преговор, остатъчната стойност i ще е равна на стойността Y за дадено Х, минус прогнозираната Y стойност за дадено Х. Когато кажа Y с диактричен знак (шапчица), това просто казва какво ще прогнозира линейната регресия за дадено Х. Това е реалното Y за дадено Х. Например, правили сме това в други видеа, всичко това е преговор, остатъчната стойност тук, когато Х е равно на едно, имаме Y равно на едно, но моделът прогнозира 2,5 по едно минус две, което е 0,5. Едно минус 0,5. Тази остатъчна стойност тук е равна на едно минус 0,5 и това е равно на 0,5. Това е +0,5. Ако реалната точка е над модела, ще имаш положителна остатъчна стойност. При остатъчната стойност тук реалната стойност също е по-висока от модела, така че това ще е положителна остатъчна стойност и, отново, когато Х е равно на три, реалната стойност на Y е шест, прогнозираната стойност на Y е 2,5 по три, което е 7,5 минус две, което е 5,5. Имаш шест минус 5,5 и тук ще запиша, че остатъчната стойност е равна на шест минус 5,5. А това е равно на 0,5. Отново имаш положителна остатъчна стойност. За тази точка, която стои точно на модела, реалната стойност е прогнозираната, когато Х е две, реалната е три и прогнозираната от модела е три, така че остатъчната стойност тук е – реалната е три и прогнозираната е три – равна на нула. И, последно, но не и по важност, имаш тази точка информация, при която остатъчната стойност ще е реалната, когато Х е равно на две, е две, минус прогнозираната. Когато Х е равно на две, имаш 2,5 по две, което е равно на пет минус две, а това е три. Две минус три е равно на –1. Когато реалната стойност е под линията на регресия, ще имаш отрицателна остатъчна стойност, така че това тук ще е –1. Сега можем да пресметнем стандартното отклонение на остатъчните стойности. Ще вземем тази първа остатъчна стойност – тя е 0,5 – и ще я повдигнем на квадрат, ще я съберем с втората остатъчна стойност ето тук – ще използвам този син цвят – това е нула, ще повдигнем това на квадрат. После имаме тази трета остатъчна стойност, която е –1, тоест, плюс –1 на квадрат. После, най-накрая, имаме тази четвърта остатъчна стойност, която е 0,5 на квадрат. Още веднъж, взехме всяка от остатъчните стойности, които можеш да приемеш за разстоянието между точките и това, което моделът би прогнозирал, повдигаме ги на квадрат – когато взимаш типично стандартно отклонение, взимаш разстоянието между дадена точка и средната стойност. Тук взимаме разстоянието между една точка и това, което моделът би прогнозирал, но повдигаме всяка от тези остатъчни стойности на квадрат и ги събираме, и, точно както бихме направили при стандартно отклонение на извадка, сега ще разделим на едно по-малко от броя остатъчни стойности, които току-що повдигнахме на квадрат и събрахме, като имаме четири остатъчни стойности и ще разделим на четири минус едно, което, разбира се, е равно на три. Можеш да гледаш на тази част като средна стойност от грешките, повдигнати на квадрат, като сега ще вземем корен квадратен от това. Да видим, това ще е равно на корен квадратен от това 0,25... това е просто нула, това ще е +1, а това 0,5 на квадрат ще е 0,25. Всичко това върху три. Този числител ще е 1,5 върху три, което ще е равно на – 1,5 е точно половината от три – можем да кажем, че това е равно на корен квадратен от една втора, това едно върху корен квадратен от две. Едно, делено на корен квадратен от две, което ни дава – ако закръглим до най-близката хилядна – грубо 0,707. Тоест, приблизително 0,707. Ако искаш да визуализираш това, едно стандартно отклонение на остатъчните стойности под линията ще изглежда така, а едно стандартно отклонение над линията за всяка дадена Х стойност ще отиде с едно стандартно отклонение на остатъчните стойности над нея – което ще изглежда долу-горе така. Това очевидно е нарисувано на ръка и приблизително, но виждаш, че това изглежда грубо индикативно за типичната остатъчна стойност. Струва си да се отбележи, че понякога хората казват, че това е средно аритметичната остатъчна стойност и това зависи от как си представяш думата средно аритметична, понеже повдигаме остатъчните стойности на квадрат, тоест, големите разлики в стойностите, нещата, които са доста далеч от линията, когато ги повдигнеш на квадрат, ще получиш непропорционален ефект. Ако не искаш да получиш това поведение, можем да направим нещо от сорта на това да намерим средната стойност на абсолютните остатъчни стойности, което всъщност, в някои случаи, ще е по-простия начин, но това е стандартният начин, по който хората опитват да намерят колко много моделът не съвпада с реалните данни, така че, можеш да си представиш, че колкото по-малко е това число, толкова по-добре съвпада модела.