If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание

Разлика в разпределението на извадкови средни стойности

Сал разглежда разликите в разпределението на средните стойности на извадка. Създадено от Сал Кан.

Искаш ли да се присъединиш към разговора?

Все още няма публикации.
Разбираш ли английски? Натисни тук, за да видиш още дискусии в английския сайт на Кан Академия.

Видео транскрипция

Искам малко да надградя на базата на направеното в миналия клип. Да кажем, че имаме две произволни променливи. Имам произволната променлива х. Ще изобразя нейното вероятностно разпределение. Всъщност не е нужно то да е нормално. Но ще го начертая като нормално разпределение. Това е разпределението на случайната променлива х. Това е средната стойност. Средната стойност на случайната променлива х за генералната съвкупност. Тя ще има някакво стандартно отклонение. Всъщност, нека обърнем внимание на дисперсията. Тук е налице дисперсия при случайната променлива х. Това е х, разпределението за х. Да кажем, че имаме още една случайна променлива. Случайната променлива у. Нека направим същото с нея. Начертаваме нейното разпределение. Ще покажа параметрите на това разпределение. Имаме реална средна стойност на случайната променлива у за генералната съвкупност. И тя има някаква дисперсия ето тук. Начертал съм я да е сравнително нормална. И пак да кажа, че не е нужно да допускаме, че е нормална, защото ще допуснем, когато минем на следващото ниво, че при вземане на извадките, правим достатъчно извадки, така че централната гранична теорема да може да се приложи. Но имайки това предвид, нека помислим за извадковите разпределения за всяка от тези произволни променливи. Т.е. нека помислим за извадковото разпределение извадковата средна стойност на х. Нека кажем, че размерът на извадката тук ще е равен на n. Какво получаваме? Имаме някакво разпределение. И допускаме, че n е едно сравнително голямо число. Т.е., ще разполагаме с едно нормално разпределение. Или може би то би се доближило до нормално разпределение. Нека някак го променя. Ще го изобразя да е малко по-тясно. Чертая средната стойност. И средната стойност за генералната съвкупност на това извадково разпределение ще обозначим с това х с къщичка, което ни казва разпределението на средните стойности при размер на извадката n. И знаем, че това ще е равно на средната стойност за генералната съвкупност за тази случайна променлива. А от централната гранична теорема знаем, че дисперсията на извадковото разпределение или, с други думи стандартната грешка на средната стойност ще е равна на дисперсията на генералната съвкупност, разделена на това n. И ако търсим стандартното отклонение на това, вземаме квадратният корен на двете страни. Нека направим същото при случайната променлива у. Вземаме извадковото разпределение за тази средна стойност за извадката. Но тук говорим за у, случайната променлива у. И нека кажем, че тя има различен размер на извадката. Не е нужно той да е различен. Просто не е нужно да е същият. Имаме размер на извадката m. Нека начертая това разпределение тук. Пак казваме, че това ще е по-тясно разпределение от разпределението за генералната съвкупност. И това ще е почти нормално, допускайки, че имаме достатъчно голям образцов размер. А средната стойност на извадковото разпределение за дадена извадкова средна стойност ще е равна на средната стойност на генералната съвкупност. Видяхме това много пъти. И неговата дисперсия ето тук... Дисперсията на извадковите средни стойности или стандартната грешка на средната стойност. Всъщност това не е стандартната грешка. Стандартната грешка ще е квадратният корен от това. И ако нарека това стандартна грешка на средната стойност не е правилно. Стандартната грешка на средната стойност е квадратният корен от това. Което е стандартното отклонение. Това е дисперсията на средната стойност. Не искам да те объркам. Така че дисперсията на средната стойност тук ще е абсолютно същото нещо. Тя ще е равна на дисперсията на генералната съвкупност, разделена на размера на извадката. И всичко, което до тук направихме, е един пълен преговор. Малко различно е, защото използвам две различни случайни променливи. А използвам две различни случайни променливи поради една причина. Тя е, че сега ще дефинирам една нова случайна променлива. Бихме могли да я наречем z. Но z е равна на разликата от извадковите средни стойности. Равна е на извадковата средна стойност х минус извадковата средна стойност у. А какво реално означава това? За да получим дадена извадкова средна стойност поне за това разпределение, вземаме n извадки от тази генерална съвкупност тук. Може би n е 10. Вземаме 10 извадки и намираме средната им стойност. Тази извадкова средна стойност представлява една случайна променлива. Да кажем, че вземаме 10 извадки от тук и получаваме 9,2 като тяхна средна стойност. На това 9,2 може да се гледа като на извадка от това разпределение ето тук. Същото получаваме, ако това тук е m. Или ако m тук е 12. Вземаме 12 извадки с тяхната средна стойност. И тази средна стойност, може би тя е 15,2, може да се приеме като извадка от това разпределение. Като извадка от извадковото разпределение. Т.е. това, което е z, z е една случайна променлива, където вземаме n извадки от това разпределение тук горе, това разпределение на генералната съвкупност, като вземаме средната стойност. След това вземаме m извадки от това разпределение на генералната съвкупност тук горе с неговата средна стойност. После намираме разликата между тази средна стойност и тази средна стойност. Което е друга случайна променлива. Но какво е разпределението на z? Ще го начертая. Има две неща, които моментално се сещаме за z. Стигнахме някак до тези факти в миналия клип. Вместо да пиша z, само ще представя средната стойност за х с горна черта... което е средното на х минус... което е извадка от извадковото разпределение на х или извадковата средна стойност на х, минус извадковата средна стойност на у. Средната стойност на това... Видяхме това в миналия клип. Всъщност имам още нещо да свърша тук горе. Да, все още имам работа тук. Средната стойност на разликата ще е равна на разликата от средните стойности. Средната стойност на разликата е едно и също нещо като разликата на средните стойности. Така че средната стойност на това ново разпределение тук ще е равна на средната стойност на нашата извадкова средна стойност минус средната стойност на нашата извадкова средна стойност на у. В този клип това може да изглежда малко абстрактно. В следващиия клип ще извършваме всичко това с конкретни числа. И вероятно така ще е по-разбираемо. И само за да знаеш къде ще стигнем с това, идеята е да можем накрая да приложим някаква подразбираща се статистика относно разликите в средните стойности. Колко вероятна е разликата между средните стойности на извадките при случайна възможност или неслучайна възможност? Или какъв е доверителният интервал за дадена разлика в средните стойности? На този принцип стъпваме тук. Та както и да е, знаем средната стойност на това разпределение тук. А каква е дисперсията на това разпределение? Стигнахме до този резултат миналия път. Ако по същество вземаме разликата на две случайни променливи, дисперсията ще представлява сбора от тези две случайни променливи. И целта на този клип е да можем да покажем, че не разликата на дисперсиите е важна, а сборът от тези дисперсии. Дисперсията в това ново разпределение... и още не съм начертал разпределението... дисперсията на това ново разпределение, само ще запиша х черта минус у черта, ще е равно на сбора от дисперсиите на всяко от тези разпределения. Дисперсията на х черта плюс промяната на у черта. Всъщност, нека начертая това тук. За да можем да представим едно друго разпределение. Всичко, което ще начертая, е едно друго нормално разпределение. Това е средната му стойност, Отивам малко надолу. И средната стойност тук, средната стойност на х черта минус у черта е равна на разликата от тези средни стойности тук, които току-що записахме. Нека начертая кривата. И забележи, че сега кривата е по-широка, отколкото за всяка една от тях. Защо правя това? Защото дисперсията тук представлява сумата от дисперсиите тук. Поради което ще имаме по-широка крива. Тя ще има по-голяма дисперсия или по-голямо стандартно отклонение от всяка една от тези тук. И имаме някаква дисперсия, дисперсията на х черта минус у черта. А какви са тези елементи по отношение на първоначалното разпределение на генералната съвкупност? Получихме тези резултати тук. Знаем какво е стандартното отклонение. Знаем, че това е равно на дисперсията на разпределението на генералната съвкупност, разделено на n. Такива сметки сме правили много, много пъти. На какво ще е равно това? Това тук е равно на разликата в разпределението на генералната съвкупност. А този х означава, че се визира случайната променлива х. Но отгоре няма черта. Това е действителното разпределение на генералната съвкупност, а не извадковото разпределение на извадковата средна стойност. Делим това на n. И след това, ако искаме дисперсията на у за извадковото разпределение... ще използвам тук различен цвят. Ще използвам синьо, защото го използвахме за случайната променлива у. Това ще е равно на това тук. И това сме го правили много пъти. Точно същата логика имаме. Разпределението на генералната съвкупност за у, разделено на m. И така, ще напиша пак това отпред. Това е дисперсията на разликите на извадковите средни стойности. И сега, ако търсим стандартното отклонение за разликите на извадковите средни стойности, трябва просто да коренуваме двете страни тук. След като поставим това под квадратния корен, получаваме , че стандартното отклонение за разликата на извадковите средни стойности е равно на корен квадратен от разпределението на генералната съвкупност х. Или дисперсията на разпределението за генералната съвкупност за х, разделено на n, плюс дисперсията на разпределението за генералната съвкупност за у, делено на m. Това вече е добре. Защото изглежда някак като формула за разстоянието. Ще изхвърля това там, защото става много сложно с тази статистика и ще се опитаме да визуализираме какво означава целият материал в темите за напреднали. Но важното тук е, че сега можем да правим заключения относно дадена разлика на средни стойности. Ако разполагаме с две извадки и вземем средните стойности на двете извадки, ако намерим тяхната разлика, можем да си направим някакви изводи относно вероятността тази разлика да е случайна. Ще направим това в следващия клип.