If you're seeing this message, it means we're having trouble loading external resources on our website.

Ако си зад уеб филтър, моля, увери се, че домейните *. kastatic.org и *. kasandbox.org са разрешени.

Основно съдържание
Текущ час:0:00Обща продължителност:6:35

Приблизително намиране на съотношенията (частите, на които се дели) в генералната съвкупност

Видео транскрипция

Дадено ни е, че Дела има повече от 500 песни на мобилния си телефон и иска да изчисли приблизително какъв дял от песните са изпълнени от жена. Тя прави проста случайна извадка - това означава ПСИ (SRS) - на 50 песни на телефона си и е открила, че 20 от тях са изпълнени от жена. Въз основа на тази извадка, кой от следните интервали представлява 99%-ов доверителен интервал за дяла на песните на телефона ѝ, които са изпълнени от жена. Както винаги, спри видеото и виж дали ще се справиш без помощ. Дела има библиотека от 500 песни ето тук. Тя се опитва да открие дяла от песни, които са изпълнени от жена. Тя няма време да провери всички 500 песни, т.е. да провери каква е действителната част от генералната съвкупност. Вместо това тя прави извадка то 50 песни. n е равно на 50. След това тя изчислява частта от извадката, което можем да означим като p-къщичка. Тя установява, че 20 от 50-те песни са изпълнени от жена. 20 от 50 – това е същото като 0,4. Тя иска да построи 99%-ов доверителен интервал. Преди дори да се опитаме да създадем доверителния интервал, трябва да направим проверка, за да сме сигурни, че правим валидни допускания и че използваме валидна техника. Нека наистина преди да изчислим доверителния интервал да сме сигурни, че извадковото разпределение не е изкривено по някакъв начин и че можем уверено да направим доверителен интервал. Първото условие е да се уверим, че извадката е наистина случайна. В условието е дадено, че е проста случайна извадка и би трябвало да му повярваме. Следващото условие е да допуснем, че извадковото разпределение на частта от извадката е приблизително нормално. За целта трябва да сме уверени, т.е. трябва да проверим дали в извадката има поне 10 успеха (благоприятни изходи) и поне 10 провала (неблагоприятни изходи). Тук имаме 20 успеха, което означава, 50 минус 20, т.е. имаме 30 провала. И двете са повече от 10. Условието е изпълнено. Последното условие понякога се нарича тест за независимост или условие за независимост или 10%-но правило. Ако правехме извадка със заместване, т.е. ако тя изтегляше една песен, проверяваше дали е изпълнена от жена и после я връщаше обратно в групата и чак след това изтегляше друга песен, то всяко от тези наблюдения би било истински независимо. Но ние не знаем това. Всъщност ще допусна, че е правила извадката без заместване. Ако извадката се прави без заместване можем да приемем приблизителна независимост за всяко проверяване на песен, ако това е не повече от 10% от популацията. Изглежда, че е точно 10% от популацията, така че Дела на косъм успява да изпълни условието за независимост. След като това е проверено, нека да помислим какъв ще бъде доверителният интервал. Той ще представлява частта на нейната извадка плюс или минус някаква критична стойност... А тази критична стойност ще бъде продиктувана от нивото на значимост, което искаме. Така, тази критична стойност умножена по стандартното отклонение на извадковото разпределение на частта от извадката, която не знаем. Вместо това ще използваме стандартната грешка на частта от извадката. В този случай ще бъде р-къщичка, умножено по едно минус р-къщичка, цялото върху n, размерът на извадката. Значи цялото върху 50. Колко ще бъде това? р-къщичка – частта от извадката - е равно на 0,4 плюс или минус, запазваме z*, критичната стойност, за още малко. Ще използваме z-таблица за нея. Получаваме 0,4 ето тук, едно минус 0,4 прави 0,6 тук и цялото е върху 50. Вече можем да видим някои подточки, които са интересни. Тази подточка и тази подточка изглеждат интересни и основното, което трябва да преценим, е коя е вярната критична стойност. Искаме ли 1,96 стандартни грешки нагоре или надолу от частта от извадката? Или искаме 2,576 стандартни грешки нагоре или надолу от частта от извадката? Ключът тук е 99%-ят доверителен интервал. Ако имаме 99% ниво на доверителност, един начин да си го представим е... Нека направя най-добрата си рисунка на нормално разпределение. И така, ако искаш 99% ниво на доверителност това означава, че искаш да запазиш 99-те %, тези 99% по средата, под кривата. Ето тази площ. Е, ако това са 99%, то това ето тук ще бъде 0,5% и това тук също ще бъде 0,5%. Искаме z-стойността, която ще остави 0,5% нагоре. И така, това всъщност ще бъде 99,5%. Това ще искаме да намерим в таблицата. Това е така, защото много z-таблици, включително тази, която може да видиш на изпит по статистика, ще работят с площта до и включително определена стойност. Това означава, че това ето тук няма да се счита за свободно. Нека да проверим 99,5% в нашата z-таблица. Добре, нека да преместя това надолу, за да може да го виждаш. Добре, това е z-таблицата. Ние търсим 99. То е ето тук. Това прави 2,5... Изглежда 2,57 или 2,58, някъде между тях. Значи това тук ще бъде около 2,57, по-точно между 2,57 и 2,58, което ни дава достатъчно информация, за да отговорим на въпроса. Определено няма да бъде този отговор тук. Тук имаме 2,576, което е наистина между 2,57 и 2,58. И така, нека да преговорим. Успяхме да построим доверителния интервал ето тук. Но какво означава това? Това означава, че ако продължим многократно да правим извадки с размер 50 и всеки път използваме тази техника, за да построим доверителните интервали, то приблизително 99% от тези така построени интервали ще съдържат истинския параметър на генералната съвкупност.