If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Изчисляване на коефициента на корелация R

Най-често използваният начин за изчисляване на коефициента на корелация (r) е с използването на компютри, но използването на формулата може да ни помогне да разберем по какъв начин r измерва посоката и силата на линейната зависимост между две количествени променливи.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

В това видео ще пресметнем на ръка коефициента на корелация за група бивариантни данни. Когато кажа бивариантни, просто казвам, че за всяка "Х" точка информация има корелация с "Y" точка информация. Преди да пресметна коефициента на корелация, нека се уверим, че разбираме другите статистически данни, които са ни дали. Приемаме, че това са извадките за "Х" и съответстващата точка "Y" от по-широката ни генерална съвкупност. Имаме средна стойност за извадката за "Х" и стандартното отклонение на извадката за "Х". Средната стойност на извадката може много лесно да бъде пресметната, тя ще е просто едно плюс две, плюс две, плюс три, върху четири и това е осем върху четири, което е равно на две. Стандартното отклонение на извадката за "Х" – виждали сме това преди, така че това трябва да е малък преговор – ще е корен квадратен от разстоянието от всяка от тези точки до средната стойност на извадката на квадрат. Тоест (едно минус две) на квадрат, плюс (две минус две) на квадрат, плюс (две минус две) на квадрат, плюс (три минус две) на квадрат и, след като говорим за стандартното отклонение на извадка, всичко това е върху – имаме четири точки информация, така че едно по-малко от четири – всичко това върху три. Това всъщност доста добре ни улеснява, понеже това е нула, това е нула, това е едно, това е едно, така че получаваш корен квадратен от 2/3, което е приблизително 0,816. Това е. Същото нещо е валидно за "Y". Средната стойност на извадката за "Y", ако просто събереш едно плюс две, плюс три, плюс шест, върху четири – четири точки информация – и това е 12 върху четири, което е равно на три; и после ще пресметнеш по абсолютно същия начин стандартното отклонение на извадката за "Y", по който го направихме за "Х", и ще получиш 2,160. Като свършихме това, нека сега помислим как пресмятаме коефициента на корелация. Ето тук имаме представяне на формулата за коефициент на корелация и отначало може да изглежда малко страшно, докато не забележиш няколко неща. Това ни казва, че за всички съответни "Х" и "Y" намираш z стойността за "Х", така че наричаме това Z с подчинено "х" за това определено "Х", тоест Z с подчинено "Х", с подчинено "I" и можем да кажем, че това е Z стойността за точно това "Y". Един начин, по който можеш да си го представиш, е Z с подчинено "Y", с подчинено "I". Това ти казва за всяка точка да намериш разликата между нея и средната ѝ стойност, а после да разделиш на стандартното отклонение на извадката. Това е с колко стандартни отклонения на извадката тя е отдалечена от средната си стойност и това е Z стойността за тази "X" точка, а това е Z стойността за съответната "Y" точка информация. С колко стандартни отклонения на извадката тя е отдалечена от средната стойност? В реалния живот няма да имаш само четири двойки и ще е много трудно да го направиш на ръка, затова обикновено използваме софтуерни компютърни инструменти да го направят, но е наистина ценно да го направим на ръка, за да получим логическо разбиране за това, което става. В тази ситуация в частност R ще е равно на едно върху N минус едно. Имаме четири двойки, така че това ще е 1/3 и това ще е умножено по сбора на продуктите на Z стойностите. При тази първа двойка ето тук Z стойността ще бъде едно минус колко далеч е тя от средната стойност на извадка "X", разделено на стандартното отклонение на извадката "Х" – 0,816. Умножаваме това по едно, като сега гледаме променливата "Y", Z стойността за "Y", така че това е едно минус три, едно минус три върху "Y" стандартни отклонения – 2,160 – и просто продължаваме да правим това. Ще го направя по този начин. Следващото ще е две минус две, върху 0,816 и оттук взех двойката, и я изваждам от тази средна стойност на извадката ето тук, умножено по, сега гледаме това две, две, минус три, върху 2,160 и плюс – радвам се, че има само четири двойки тук – две минус две, върху 0,816 по три минус три, върху 2,160. За последната двойка ще имаш 3 – 2 върху 0,816 по шест минус три върху 2,160. Преди да извадя калкулатора, нека видя дали мога да направя някои съкращения. Две минус две, това ще е нула, нула по колкото и да е се равнява на нула, така че цялото това е нула. Две минус две е нула, три минус три е нула, това ще е нула по нула, така че цялото това нещо е нула. Да видим, това ще е едно минус две, което е –1, едно минус три е –2, така че R ще е 1/3 по отрицателно число, по отрицателно число, е положително и това ще е две върху 0,816 по 2,160 и, после, три минус две е едно. Шест минус три е три, тоест, плюс три върху 0,816 по 2,160. Това са еднакви знаменатели, така че мога да запиша, че имам две върху това, плюс три върху това... Пет върху това... Тоест, мога да препиша цялото това нещо, пет върху 0,816 по 2,160. Сега мога да извадя калкулатора, за да пресметна това. Имаме едно делено на три, по пет, делено на 0,816, по 2,16. Нулата няма да промени нищо, но ще я запиша и после ще затворя тази скоба, и да видим колко ще получим. Получаваме R... и след като всичко друго достига до мястото на хилядните, просто ще закръгля до мястото на хилядните, R е равно на 0,946. R е приблизително 0,946. Какво ни казва това? Коефициентът на корелация е мярка за това колко добре една линия може да опише връзката между "Х" и "Y". R винаги ще е по-голямо от или равно на –1 и по-малко от или равно на 1. Ако R е +1, това означава, че взаимовръзката може напълно да бъде описана от една линия с възходящ наклон. Ако R е –1, това означава, че взаимовръзката може напълно да бъде описана от една линия с низходящ наклон. Ако R е където и да е по средата, тогава това няма да е толкова добре. Ако R е нула, това означава, че една линия не описва добре взаимовръзката. При нашата ситуация тук, при нашата ситуация тук нашето R е доста близо до едно, което означава, че една линия може да достигне доста близо до описване на взаимовръзката между всички "Х" и всички "Y". Например ще опитвам да нарисувам на ръка една линия тук и се оказва, че нашата линия с най-малко квадратчета винаги ще преминава през средната стойност на "Х" и на "Y", като средната стойност на "Х" е две, средната стойност на "Y" е три, а в бъдещи видеа ще изучим това по-задълбочено, но, да видим, изглежда като доста добра линия. Нека я нарисувам ето тук. Виждаш, че мога да начертая линия, която доста приблизително я описва. Не е перфектно. Ако преминех през всяка точка, тогава щях да имам R от едно, но доста приблизително описва какво се случва. Следващото нещо, което искам да направя, е да се фокусирам върху логиката. Какво всъщност става тук с тези z стойности и как произведението на съответстващите z стойности ни дава това, за което точно говорих, при което R от едно ще е силна, положителна взаимовръзка, а R от –1 ще е силна, отрицателна взаимовръзка? Нека нарисувам средните стойности на извадката. Средната стойност на извадката "Х" е две, това е нашата Х ос тук, тук "Х" е равно на две, а нашата средна стойност на извадката "Y" е три. Това е линията Y, която е равна на три. Можем също да нарисуваме стандартните отклонения. Нека видим, това е стандартното отклонение за "Х", която е 0,816, така че ако отида с 0,816 по-надолу от средната ни стойност, ще стигна някъде тук, така че това е едно стандартно отклонение под средната стойност. Едно стандартно отклонение над средната стойност ще ни постави някъде тук и, ако направя същото нещо при Y, едно стандартно отклонение над средната стойност, 2,160, това ще е 5,160, така че ще това ще ни постави някъде тук, и едно стандартно отклонение под средната стойност, нека видим къде ще отидем, ако вземем две, отиваме до едно, а после ще извадим още 0,160, като това ще е някъде тук. Например, за тази първа част, едно запетайка едно. Какво направихме? Запитахме се с колко стандартни отклонения това е под средната стойност? Оказа се, че е –1 върху 0,816, това имаме тук, това бихме пресметнали, и после, колко стандартни отклонения за Y посоката, като това е –2 върху 2,160. Забележи, след като и двете от тях бяха отрицателни, допринесоха за това R да стане положителна стойност, като един начин да си го представиш е, че може да ни помогне да се доближим до единицата. Ако и двете от тях имат отрицателна Z стойност, това означава, че има положителна взаимовръзка между променливите. Когато едната е под средната стойност, можеш да кажеш, че другата е по същия начин под средната стойност. Ако отидем до следващата точка информация, (2; 2), ето тук, какво се случва? "Х" променливата е точно на средната стойност и затова цялото това нещо стана нула. Z стойността на Х беше нула. Това щеше да извади малко от нашия коефициент на корелация. Причината, поради която ще извади малко, въпреки че не е отрицателна, не допринася до сбора, но ще делиш на малко по-голяма стойност, като включваш тази допълнителна двойка. Ако имаше точка информация, при която, да кажем, "Х" беше под средната стойност и "Y" беше над средната стойност, нещо такова, ако това беше една от точките, това щеше да е отрицателно, понеже z стойността за "Y" щеше да е положителна, а z стойността на "Х" щеше да е отрицателна, така че, когато сложиш и сбора, това щеше да извади част от сбора и щеше да намали още повече R резултата. Подобно, нещо като това би направило R резултата още по-нисък, понеже щеше да имаш положителна z стойност за "Х" и отрицателна z стойност за "Y", така че произведението на положителна и отрицателна стойност ще е отрицателен.