Основно съдържание
Текущ час:0:00Обща продължителност:12:41

Видео транскрипция

В последните няколко клипа, видяхме, че ако имаме n точки, всяка от тях има х и у- координати. Нека нанеса n от тези точки. И нека наречем това точка едно. Тя има координати х1, у1. Това тук е втората точка. Тя има координати х2, у2. И продължаваме тук да нанасяме точки, докато накрая стигнем до n-тата точка. Тя има координати xn, yn. Това, което видяхме е, че има една ос, която виждаме, че намалява квадратното разстояние. Тази ос тук, ще я нарека у, се приравнява на mx плюс b. Има дадена ос, която намалява квадратното разстояние към точките. Нека само преговорим какво представляват тези квадратни разстояния. Понякога това се нарича квадратна грешка. Това е грешката между оста и точка едно. Ще я нарека грешка едно. Това представлява грешката между оста и точка две. Ще я наречем грешка две. Това е грешката между оста и точка n. Така ако търсим общата грешка, ако търсим общата квадратна грешка - от тук всъщност започна цялата тази дискусия - общата квадратна грешка между точките и оста, това, което буквално правим, е че вземаме у-стойността във всяка точка. Така например, вземаме у1. Това е тази стойност тук, вземаме у1 минус стойността на у в тази точка от оста. А тази точка от оста по същество е у-стойността, която получаваме при заместването на х1 в това уравнение. Така че ще заместя х1 в уравнението. Ето, минус m х1 плюс b. Това тук представлява тази у-стойност. Тук пък е m х1 b. Не искам графиката да става толкова претрупана. Затова ще изтрия това там. Това там е грешка едно. И търсим квадратните грешки между всяка от точките на оста. Това е първата точка. След това правим същото за втората. И започнахме дискусията ни по този начин. у2 минус m х2 плюс b на квадрат, и т.н. слагаме точки, точки, точки, за да покажа, че има няколко такива, които трябва да отбележим докато стигнем до n-тата точка - и т.н. до yn минус m xn плюс b на квадрат. Сега всъщност знаем как да намерим тези m и b, показах ви формулата. И фактически доказахме формулата. Можем да намерим тази ос. И ако искаме да кажем, добре, каква е степента на грешката там? Можем да я пресметнем. Понеже сега знаем стойностите на тези m и b. И можем да пресметнем това при определен набор от данни. Сега, това което искам да направя, е да намеря някакъв по-смислен начин на пресмятане за това колко е добра тази ос при пасването на точките от данни, които имаме. А за да го направим, ще си зададем въпроса какъв е процентът в изменението на у, описано от изменението на х? Та нека помсилим за това. Колко от цялото изменение в у - очевидно има изменение в у. Тази у стойност е тук. Стойността на у за тази точка е тук. Определено има някакво изменение в у. Но колко от него се описва съществено от изменението в х? Или се описва от оста? Нека помислим за това. Най-напред нека помислим за това какво е общото изменение. Колко голямо е общото изменение в у? Нека намерим какво е общото изменение в у. Това реално е инструмент за измерване. Когато мислим за изменение, а това е вярно дори, когато сме помислили за варирането, което беше средното изменение в у. Ако помислим за квадратното разстояние от някаква центрирана тенденция, а най-добрата централна мярка, която можем да имаме за у е аритметичната средна стойност. И можем да кажем, че общото изменение в у ще е равно на сумата от разстоянията до всеки от тези у. Така получаваме у1 минус средната стойност на всички у на квадрат. Плюс у2 минус средната стойност на всички у на квадрат. Плюс...и т.н., докато стигнем до n-та у стойност. До уn минус средната стойност на всички у на квадрат. Това дава общото изменение на у. Можем да изнесем всички у стойности пред скоби. Намираме средната им стойност. Тя ще е някакво число, може би то е някъде тук. И можем дори да го представим нагледно, по същия начин, по който представихме квадратната грешка откъм оста. И ако го видим, можем да си представим дадена ос, за която у е равно на средната стойност на у. Което ще изглежда по този начин. И това, което измерваме тук, тази грешка тук, представлява квадратът на това разстояние тук. Между тази точка отвесно и тази ос. Второ ще е това разстояние. Директно откъм оста. И n-тото ще е разстоянието от там, по целия път до оста там. А ето ги и тези междинни точки. Това е общото изменение в у. Логично е. Ако разделим това на n, ще получим типично свързваното с промяната на у, което е един вид средното квадратно разстояние. Сега имаме общото квадратно разстояние. Така че това, което искаме да направим е - колко от общата промяна в у се описва от промяната в х? И вероятно можем да помислим по въпроса по следния начин. Та нашият знаменател, търсим какъв процент е общата промяна в у. Нека го запиша по този начин. Дефинираме това като средната квадратната грешка. Може би ще нарека това квадратна грешка от средната стойност на у. А то в действителност е общото изменение в у. Така че нека счетем това като знаменателя. Общото изменение в у, което представлява квадратната грешка от средната стойност на тези у. Сега търсим какъв процент от това се описва от изменението в х. Така, какво не е описано от изменението в х? Търсим това колко се описва от изменението в х. Но какво става, ако търсим каква част от общото изменение не се описва от регресивната ос? Ами вече имаме мерна единица за това. Имаме квадратната грешка на оста. Това ни казва какъв е квадратът разстояния от всяка точка към нашата ос. Един вид това е точно тази мярка. Тя ни казва колко от общото изменение не се описва от регресивната ос. И ако искаме да знаем какъв процент от общото изменение не се описва от регресивната ос, това ще е квадратната грешка на оста, защото имаме налице общото изменение, което не се описва от регресивната ос, разделено на общото изменение. Нека изясня малко. Това тук ни казва какъв процент от общото изменение не се описва от изменението в х. Или от регресивната ос. И нека отговорим на нашия въпрос, какъв процент се описва от изменението? Ами, останалата част от него трябва да се описва от изменението в х. Понеже нашият въпрос е какъв процент от общото изменение се описва от изменението в х. Това е процентът, който не е описан. Така че, ако това число е 30% - ако 30% от изменението в у не се описват от оста, тогава останалата част ще се описва от нея. И по същество можем да извадим това от 1. Т.е. ако считаме 1 минус квадратната грешка между нашите точки данни и оста над квадратната грешка между тези у, и средната стойност на у, това всъщност ни казва какъв процент от общото изменение е описан от оста. Можем да го разглеждаме или като описано от оста, или от изменението в х. И това число тук се нарича коефициент на определеност. Това е дефиницията, която му е дадена от статистиците. Нарича се още квадратно R. Дори може да сте чували този термин, когато се говори за регресия. Така, нека помислим по въпроса. Ако квадратната грешка на оста е наистина малка, какво означава това? Това означава, че тези грешки тук действително са малки. Което подсказва, че оста е наистина добро попадение. Нека го запишем тук. Ако квадратната грешка на оста е малка, тогава оста е добро попадение. Така, а какво ще се случи тук? Ами ако това число е в действителност малко, това тук ще е една много малка дроб. 1 минус някаква много малка дроб ще представлява число, близко до 1. Тогава, нашето квадратно R ще е близо до 1, което означава, че голяма част от изменението в у се описва от изменението в х. Което е понятно, защото оста подсказва това. Да вземем и обратния случай. Ако квадратната грешка на оста е голяма, това означава, че има много грешки между точките данни и оста. Така че ако това число е голямо, тогава това число тук също ще е голямо. Или то ще представлява процент, близък до 1. А 1 минус това ще е близо до 0. И ако квадратната грешка на оста е голяма, цялото това нещо ще е близо до 1. А ако цялото това нещо е близо до 1, целият коефициент на определеност, цялото квадратно R ще е близо до 0, което е разбираемо. Това означава много малка част от общото изменение в у се описва от изменението в х или от оста. Ами както и да е, всичко, с което се занимавах досега, беше малко абстрактно. Следващия път ще погледнем няколко примера с данни като изчислим регресивната им ос. Както и ще пресметнем квадратното R, като видим каква добра работа върши то.