If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Ковариация и линия на регресия

Ковариация, дисперсия и наклон на линия на регресия. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

С това видео искам да ви запозная с идеята за ковариация между две случайни променливи или по-точно произведението от разстоянията на всяка от случайните променлива до нейната средна стойност или до нейното математическо очакване. Нека запиша това. Първо имам Х – ще го направя в друг цвят. Това е стойността на случайната променлива Х минус математическото очакване на Х. Можеш да гледаш на това като на средната стойност на генералната съвкупност на Х, умножена... после това е случайна променлива Y... по разстоянието от Y до нейното математическо очакване ли до средната стойност на Y за генералната съвкупност. Ако не ти се вижда логично засега, човек винаги може да си го представи като някаква игра с някои числа. Но в реалността то казва колко много те се различават взаимно. Винаги взимаш Х и Y за всяка от точките с данни. Да кажем, че имаме цялата генерална съвкупност. Всяко Х и Y, които са свързани помежду си, това са координатите, които поставяш тук. Да кажем, че Х е над средната стойност, а Y е под средната стойност. Да кажем това за генералната съвкупност, която имаш. Един пример за случайните променливи, вадиш една извадка от Вселената и получаваш, че Х = 1 и Y е... да кажем, че е Y = 3. Да кажем, че предварително знаем, че прогнозираната стойност на Х е 0. Да кажем, че прогнозираната стойност на Y е равна на 4. Какво се случва в тази ситуация? Сега не знаем цялата ковариация, имаме само една извадка на тази случайна променлива. Но какво се случва тук? Имаме едно минус... няма да пресметнем цялата прогнозирана стойност, искам само да пресметнем какво се случва, когато извършим действията вътре в прогнозираната стойност. Ще имаме 1 минус 0, така че 1 по (3 – 4) по –1. Ще имаш 1 по –1, което е –1. Какво ни казва това? Казва ни, поне за тази извадка, този път, когато извадихме случайните променливи Х и Y, Х беше над прогнозираната си стойност, когато Y беше под прогнозираната си стойност. Ако продължим да правим това, да кажем, за цялата генерална съвкупност, тогава би било логично, че те ще имат отрицателна ковариация. Когато едната се покачи, другата намалява. Когато едната намалее, другата се покачва. Ако и двете се покачваха, щяха да имат положителна ковариация, или ако и двете се понижаваха. Степента, до която правят това заедно, ще ти каже степента на ковариацията. Да се надяваме, че това ти показва логиката на това, което ковариацията се опитва да ни каже. Но по-важното нещо, което искам да направя в това видео, е да свържа тази формула. Искам да свържа тази дефиниция за ковариацията, с всичко, което сме правили при определяне на регресия по метода на най-малките квадрати. Това е един вид математическо забавление – показването на всички тези връзки и къде дефиницията на ковариацията наистина става полезна. Мисля, че това се определя до голяма степен от мястото, където се появяват в регресиите. Всичко това вече един вид сме го виждали преди, просто ще го видиш по различен начин. В цялото това видео просто ще преработя тази дефиниция за ковариацията ето тук. Това ще е същото нещо като математическото очакване на... и ще умножа тези два бинома тук. Математическото очакване на случайната променлива Х по случайната променлива Y минус – ще направя първо Х. Плюс Х по отрицателната стойност на математическото очакване на Y. Просто ще кажа минус Х по математическото очакване на Y. Този отрицателен знак идва от този отрицателен знак ето тук. После имаме минус математическото очакване на Х по Y... Просто разкриваме скобите и умножаваме. И после, най-накрая, е отрицателната стойност математическото очакване на Х по отрицателната стойност на математическото очакване на Y. Отрицателните знаци взаимно се изключват. Просто ще имаш плюс математическото очакване на Х по математическото очакване на Y. И, разбира се, това е математическото очакване на цялото това нещо. Нека да видим можем ли да запишем това по различен начин. математическото очакване на сбора на група случайни променливи или сбора и разликата на група случайни променливи, това е сборът или разликата на техните математически очаквания. Това ще е същото нещо. Помни, на математическото очакване, при много контексти, можеш да гледаш като на аритметичната средна стойност. Или, при непрекъснато разпределение, можеш да гледаш на нея като вероятностно претеглена сума, или вероятностно претеглен интеграл. Мисля, че сме виждали това преди. Нека преобразувам това. Това е равно на математическото очакване на случайните променливи Х и Y. X умножено по Y. Опитвам се да ги правя в съответни цветове. После имаме минус Х по математическото очакване на Y. После ще имаме минус математическото очакване на Х по математическото очакване на Y. После ще имаш минус математическото очакване на това, ще затворя тази скоба, на това нещо ето тук. Математическо очакване на Х по Y. Знам, че това може да изглежда объркващо с всички тези поставени в скоби математически очаквания. Но един начин да си го представиш е като мислиш, че тези неща (Е-тата) вече имат стойности за математическото очакване и можеш да гледаш на тях като на числа. Вече ги използвахме. Ще ги махнем от математическото очакване , понеже математическото очакване на едно математическото очакване е същото нещо като самото математическото очакване. Нека запиша това тук, за да си го припомняме. Математическото очакване на математическото очакване на Х ще е равна на математическото очакване на Х. Представяй си го по този начин. Можеш да гледаш на това като на средна стойност на генералната съвкупност за случайната променлива. Това ще е известен факт, той фигурира във Вселената. Математическото очакване от това ще бъде равно на самото математическо очакване. Ако средната стойност на генералната съвкупност или математическото очакване е на Х е 5 – това е все едно да кажем, че математическото очакване е 5. Математическото очакване от 5 ще бъде 5, което е същото нещо кавото е математическото очакване на Х. Надявам се, че това ти звучи логично, ще го използваме след малко. Почти сме готови. Намерихме математическото очакване на това и ни остава един член. Последният член е математическо очакване на ето това. Тук можем да използваме свойството от самото начало. Ще го запиша. математическо очакване на (слагам големи скоби) на това нещо тук. Математическото очакване на Х по математическото очакване на Y. Да видим дали можем да опростим това още тук. Това ще е математическо очакване на произведението на тези две случайни променливи. Ще го оставя както си е. Просто ще замразя нещата, които ще оставя както са си. Прогнозираната стойност на XY. Какво имаме тук? Имаме математическо очакване на Х по Y – отново, можеш да гледаш на това като на ... ако се върнеш към това, което току-що казахме, това ще е число, математическото очакване на Y, така че можем да премахнем това. Ако това беше математическото очакване на 3Х, това би било същото нещо като 3 по математическото очакване на Х. Можем да препишем това като отрицателна стойност на математическото очакване на Y по математическото очакване на Х. Можеш да гледаш на това, все едно сме го извадили от математическото очакване, не сме го включили в изчислението. Ето така. После имаш минус. Същото нещо и тук. Можеш да не взимаш предвид това математическото очакване на Х. Минус математическото очакване на Х по математическото очакване на Y. Това става объркващо с всички тези Е-та, които имаме. Последно, математическото очакване на това нещо, на две математически очаквания, това просто ще е произведението от тези две математически очаквания. Това ще е плюс математическото очакване на Х по математическото очакване на Y. Какво имаме тук? Имаме математическото очакване на Y по математическото очакване на Х. После изваждаме математическото очакване на Х по математическото очакване на Y. Тези две неща са абсолютно еднакви. Това ще е – всъщност, погледни това. Изваждаме го два пъти и после имаме още веднъж. Всичко това е едно и също нещо. Това е математическото очакване на Y по математическото очакване на Х. Това е математическото очакване на Y по математическото очакване на Х, но просто записано в различен ред. Това е прогнозираната стойност на Y по прогнозираната стойност на Х. Изваждаме това два пъти и после го събираме. Можем да си представим, че това и това ще се изключат взаимно. Можеш също да избереш това и това. Но какво имаме отляво? Имаме ковариацията на тези две случайни променливи Х и Y, която е равна на математическото очакване на... ще премина отново към моите цветове, понеже това е крайният резултат. Математическото очакване на Х ... математическото очакване на произведението на XY минус... колко е това? математическото очакване на Y по математическото очакване на Х. Можеш да пресметнеш тези математически очаквания, ако знаеш всичко за вероятностното разпределение или функциите на плътността за всяка от тези случайни променливи. Или, ако имаше цялата генерална съвкупност, от която правиш извадки, всеки път търсиш доказателство за стойностите на тези случайни променливи. Но нека да кажем, че имаше само една извадка на тези случайни променливи. Как ще ги изчислиш? Ако изчисляваш математическото очакване на... да кажем, че имаш група точки, няколко координати. Мисля, че ще започнеш да забелязваш как това е свързано с онова, което правим при регресия. Математическото очакване на Х по Y, това може приблизително да бъде изчислено чрез средната стойност на извадката на резултатите от Х и Y. Това ще е средната стойност на извадката за Х по Y. Взимаш всяка от двойките XY, пресмяташ тяхното произведение и после взимаш средната стойност от всички тях. Това е произведението на Х и Y. После, това нещо тук, математическото очакване на Y, може да бъде приблизително изчислено като средна стойност на извадката за Y, а математическото очакване на Х може да бъде приблизително изчислено като средната стойност на извадката за Х. С какво може да бъде приблизително изчислена ковариацията на две случайни променливи? С какво може да бъде приблизително изчислена? Това тук е средната стойност на тяхното произведение за извадката минус средната стойност на Y от извадката по средната стойност на Х от извадката. Това трябва да започне да ти изглежда познато. Но защо, какво е това? Това беше числителят. Това тук е числителят, когато опитвахме да намерим наклона (ъгловия коефициент) на тази линия на регресия. Когато опитахме да открием наклона (ъгловия коефициент) на линията на регресия, имахме – нека препиша формулата тук, за да ти припомня – това буквално беше средната стойност от произведенията за всяка от нашите точки , или всички XY, минус средната стойност на всички Y по средната стойност на всички Х. Всичко това върху средната стойност на всички Х на квадрат. Можеш да гледаш на това като – върху средната стойност на Х по всички Х. Но мога да го запиша просто като Х на квадрат. Минус средната стойност на Х на квадрат. Така намерихме наклона (ъгловия коефициент) на нашата линия на регресия. Може би по-добър начин да си го представим, е да приемем, че в нашата линия на регресия, точките, които имаме, са извадка от цяла вселена от вероятни точки, тогава можеш да кажеш, че приблизително изчисляваме наклона (ъгловия коефициент) на нашата линия на регресия. Може да видиш този малък диакритичен знак, който прилича на шапка, в много книги. Не искам да се объркаш. Той показва, че приблизително изчисляваш линията на регресия на генералната съвкупност от една нейна извадка. Ето тук – всичко, което сме научили сега , това е ковариацията или това е оценка на ковариацията на Х и Y. Какво е това тук? Както току-що казах, можеш да преработиш това много лесно, като тази долна част тук, можеш да запишеш това като средната стойност на Х по Х, което е просто Х^2, минус средната стойност на Х по средната стойност на Х. Това всъщност е средната стойност на Х, повдигната на квадрат. Какво е това? Можеш да гледаш на това като ковариацията на Х с Х. Но вече сме го виждали. Показах ти го преди много, много видеа, когато за пръв път учехме какво е това. Ковариацията на случайна променлива със самата нея е всъщност просто вариацията на тази случайна променлива. Можеш самостоятелно да се увериш в това. Ако замениш това Y с Х (сочи формулата за Cov(X,Y)), това става Х минус математическото очакване на Х, по Х минус математическото очакване на Х. Това е математическото очакване на Х минус математическото очакване на Х на квадрат. Това е дефиницията за вариация. Друг начин да мислиш за наклона (ъгловия коефициент) на нашата линия на регресия, той може буквално да се каже, че е ковариацията на нашите две случайни променливи върху вариацията на Х. Или можеш да гледаш на него като независимата случайна променлива. Това тук е наклонът (ъгловия коефициент) на нашата линия на регресия. Мисля, че това беше интересно. Исках да свържа нещата, които виждаш в различни части от статистиката и да ти покажа, че те наистина са свързани.