Биноминальная модель выборки

Эконометрика

Контрольные вопросы по предмету

0


Подпишитесь на бесплатную рассылку видео-курсов:

Текст видеолекции

Биномиальная модель выборки.

Она применяется для описания ответов на закрытые вопросы, имеющие две подсказки, например, "да" и "нет". Конечно, пары подсказок могут быть иными. Например, "согласен" и "не согласен". Или при опросе потребителей кондитерских товаров первая подсказка может иметь такой вид: "Больше люблю "Марс", чем "Сникерс". А вторая тогда такова: "Больше люблю "Сникерс", чем "Марс".

Пусть объем выборки равен n. Тогда ответы опрашиваемых можно представить как X1 , X2 ,…,Xn , где Xi = 1, если i-й респондент выбрал первую подсказку, и Xi = 0, если i-й респондент выбрал вторую подсказку, i=1,2,…,n. В вероятностной модели предполагается, что случайные величины X1 , X2 ,…,Xn независимы и одинаково распределены. Поскольку эти случайные величины принимают два значения, то ситуация описывается одним параметром р - долей выбирающих первую подсказку во всей генеральной совокупности. Тогда

Р(Xi = 1) = р, Р(Xi = 0)= 1-р, i=1,2,…,n.

Пусть m = X1 + X2 +…+Xn . Оценкой вероятности р является частота р*=m/n. При этом математическое ожидание М(р*) и дисперсия D(p*) имеют вид

М(р*) = р, D(p*)= p(1-p)/n.

По Закону Больших Чисел (ЗБЧ) теории вероятностей (в данном случае - про теореме Бернулли) частота р* сходится (т.е. безгранично приближается) к вероятности р при росте объема выборки. Это и означает, что оценивание проводится тем точнее, чем больше объем выборки. Точность оценивания можно указать. Займемся этим.

По теореме Муавра-Лапласа теории вероятностей

где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1,

где = 3,1415925…-отношение длины окружности к ее диаметру, e= 2,718281828… - основание натуральных логарифмов. График плотности стандартного нормального распределения

очень точно изображен на германской денежной банкноте в 10 немецких марок. Эта банкнота посвящена великому немецкому математику Карлу Гауссу (1777-1855), среди основных работ которого есть относящиеся к нормальному распределению. В настоящее время нет необходимости вычислять функцию стандартного нормального распределения и ее плотность по приведенным выше формулам, поскольку давно составлены подробные таблицы, а распространенные программные продукты содержат алгоритмы нахождения этих функций.

С помощью теоремы Муавра-Лапласа могут быть построены доверительные интервалы для неизвестной эконометрику вероятности. Сначала заметим, что из этой теоремы непосредственно следует, что

Поскольку функция стандартного нормального распределения симметрична относительно 0, т.е.  то

Зададим доверительную вероятность . Пусть удовлетворяет условию

т.е.

Из последнего предельного соотношения следует, что

 

 

К сожалению, это соотношение нельзя непосредственно использовать для доверительного оценивания, поскольку верхняя и нижняя границы зависят от неизвестной вероятности. Однако с помощью метода наследования сходимости можно доказать, что

Следовательно, нижняя доверительная граница имеет вид

в то время как верхняя доверительная граница такова:

Наиболее распространенным (в прикладных исследованиях) значением доверительной вероятности является  Иногда употребляют термин "95% доверительный интервал". Тогда  

Пример. Пусть n=500, m=200. Тогда p* =0,40. Найдем доверительный интервал для

Таким образом, хотя в достаточно большой выборке 40% респондентов говорят "да", можно утверждать лишь, что во всей генеральной совокупности таких от 35,7% до 44,3% - крайние значения отличаются на 8,6%.

Замечание. С достаточной для практики точностью можно заменить 1,96 на 2.

Удобные для использования в практической работе маркетолога и социолога таблицы точности оценивания разработаны во ВЦИОМ (Всероссийском центре по изучению общественного мнения). Приведем здесь несколько модифицированный вариант одной из них.

Табл. Допустимая величина ошибки выборки (в процентах)

 Объем группы

Доля р*

1000

750

600

400

200

100

Около 10% или 90%

2

3

3

4

5

7

Около 20% или 80%

3

4

4

5

7

9

Около 30% или 70%

4

4

4

6

9

10

Около 40% или 60%

4

4

5

6

8

11

Около 50% 

4

4

5

6

8

11

В условиях рассмотренного выше примера надо взять вторую снизу строку. Объема выборки 500 нет в таблице, но есть объемы 400 и 600, которым соответствуют ошибки в 6% и 5% соответственно. Следовательно, в условиях примера целесообразно оценить ошибку как ((5+6)/2)% = 5,5%. Эта величина несколько больше, чем рассчитанная выше (4,3%). С чем связано это различие? Дело в том, что таблица ВЦИОМ связана не с доверительной вероятностью  а с доверительной вероятностью  которой соответствует множитель Расчет ошибки по приведенным выше формулам дает 5,65%, что практически совпадает со значением, найденным по табл.

Минимальный из обычно используемых объемов выборки n в  маркетинговых или социологических исследованиях - 100, максимальный - до 5000 (обычно в исследованиях, охватывающих ряд регионов страны, т.е. фактически разбивающихся на ряд отдельных исследований - как  в ряде исследований ВЦИОМ). По данным Института социологии Российской академии наук, среднее число анкет в социологическом исследовании не превышает 700. Поскольку стоимость исследования растет по крайней мере как линейная функция объема выборки, а точность повышается как квадратный корень из этого объема, то верхняя граница объема выборки определяется обычно из экономических соображений. Объемы пилотных исследований (т.е. проводящихся впервые, предварительно или как первые в сериях подобных) обычно ниже, чем объемы исследований по обкатанной программе.

Нижняя граница определяется тем, что в минимальной по численности анализируемой подгруппе должно быть несколько десятков человек (не менее 30), поскольку по ответам попавших в эту подгруппу необходимо сделать обоснованные заключения о предпочтениях соответствующей подгруппы в совокупности всех потребителей растворимого кофе. Учитывая  деление опрашиваемых на продавцов и покупателей, на мужчин и женщин, на четыре градации по возрасту и восемь - по роду занятий, наличие 5 - 6 подсказок во многих вопросах, приходим к выводу о том, что в рассматриваемом проекте объем выборки должен быть не менее 400 - 500. Вместе с тем существенное превышение этого объема нецелесообразно, поскольку исследование является пилотным.

     Поэтому объем выборки был выбран равным 500. Анализ полученных результатов (см. ниже) позволяет утверждать, что в соответствии с целями исследования выборку следует считать репрезентативной.

Проверка однородности двух биномиальных выборок

Как сравнить две группы - мужчин и женщин, молодых и пожилых, и т.п.? В маркетинге это важно для сегментации рынка. Если две группы не отличаются по ответам, значит, их можно объединить в один сегмент и проводить по отношению к ним одну и туже маркетинговую политику, в частности, осуществлять одни и те же рекламные воздействия. Если же две группы различаются, то и относиться к ним надо по-разному. Это - представители двух разных сегментов рынка, требующих разного подхода при борьбе за их завоевание.

Эконометрическая постановка такова. Рассматривается вопрос с двумя возможными ответами, например, "да" и "нет". В первой группе из n1 опрошенных m1 человек сказали "да", а во второй группе из n2 опрошенных m2 сказали "да". В вероятностной модели предполагается, что m1 и m2 - биномиальные случайные величины B(n1 , p1 ) и B(n2 , p2 ) соответственно. (Запись B(n , p) означает, что случайная величина m, имеющая биномиальное распределение B(n , p) с параметрами n - объем выборки и p - вероятность определенного ответа (скажем, ответа "да"), может быть представлена в виде m = X1 + X2 +…+Xn , где случайные величины X1 , X2 ,…,Xn независимы, одинаково распределены, принимают два значения1 и 0, причем Р(Xi = 1) = р, Р(Xi = 0)= 1-р, i=1,2,…,n.)

Однородность двух групп означает, что соответствующие им вероятности равны, неоднородность - что эти вероятности отличаются. В терминах математической статистики: необходимо проверить гипотезу однородности

H0 : p1 = p2

при альтернативной гипотезе

H1 : p1 p2 .

(Иногда представляют интерес односторонние альтернативные гипотезы  и .)

Оценкой вероятности р1 является частота р1*=m1/n1, а оценкой вероятности р2 является частота р2*=m2/n2 . Даже при совпадении вероятностей р1 и р2 частоты, как правило, различаются, как говорят, "по чисто случайным причинам". Рассмотрим случайную величину р1* - р2*. Тогда

 M(р1* - р2*) = р1 - р2 , D(р1* - р2*) = р1 (1 - р1 )/ n1 + р2 (1-р2 )/ n2 .

Из теоремы Муавра-Лапласа и теоремы о наследовании сходимости следует, что

где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Для практического применения этого соотношения следует заменить неизвестную эконометрику дисперсию разности частот на оценку этой дисперсии:

D*(р1* - р2*) = р*1 (1 - р*1 )/ n1 + р*2 (1-р*2 )/ n2 .

 

 

С помощью указанной выше математической техники можно показать, что

При справедливости гипотезы однородности M(р1* - р2*) = 0. Поэтому правило принятия решения при проверке однородности двух выборок выглядит так:

1.      Вычислить статистику

2. Сравнить значение модуля статистика |Q| с граничным значением K. Если |Q|<K, то принять гипотезу однородности H0 . Если же |Q|>K, то заявить об отсутствии однородности и принять альтернативную гипотезу H1 .

Граничное значение К определяется выбором уровня значимости статистического критерия проверки однородности. Из приведенных выше предельных соотношений следует, что при справедливости гипотезы однородности H0 для уровня значимости имеем (при

Следовательно, граничное значение в зависимости от уровня значимости целесообразно выбирать из условия

Здесь - функция, обратная к функции стандартного нормального распределения. В социально-экономических исследованиях наиболее распространен 5% уровень значимости, т.е.  Для него К = 1,96.

Пример. Пусть в первой группе из 500 опрошенных ответили "да" 200, а во второй группе из 700 опрошенных сказали "да" 350. Есть ли разница между генеральными совокупностями, представленными этими двумя группами, по доле отвечающих "да"?

Уберем из формулировки примера термин "генеральная совокупность".

Пусть из 500 опрошенных мужчин ответили "да, я люблю пепси-колу" 200, а из 700 опрошенных женщин 350 сказали "да, я люблю пепси-колу". Есть ли разница между мужчинами и женщинами по доле отвечающих "да" на вопрос о любви к пепси-коле?

В рассматриваемом примере нужные для расчетов величины таковы: Вычислим статистику

Поскольку |Q| = 3,45 > 1,96, то необходимо отклонить нулевую гипотезу т принять альтернативную. Таким образом, мужчины и женщины отличаются по рассматриваемому признаку - любви к пепси-коле.

Необходимо отметить, что результат проверки гипотезы однородности зависит не только от частот, но и от объемов выборок. Предположим, что частоты (доли) зафиксированы, а объемы выборок растут. Тогда числитель статистики Q не меняется, а знаменатель уменьшается, значит, вся дробь возрастает. Поскольку знаменатель стремится к 0, то дробь возрастает до бесконечности и рано или поздно превзойдет любую границу. Есть только одно исключение - когда в числителе стоит 0. Следовательно, вывод эконометрика должен выглядеть так: "различие обнаружено" или "различие не обнаружено". Во втором случае различие, возможно, было бы обнаружено при увеличении объемов выборок.

Как и для доверительного оценивания вероятности, во ВЦИОМ разработаны две полезные таблицы, позволяющие оценить вызванные чисто случайными причинами допустимые расхождения между частотами в группах.

Табл. Допустимые расхождения (в %) между частотами в двух группах  в случае, когда наблюдаются частоты от 30% до 70%

Объемы

Групп

750

600

400

200

100

750

6

7

7

10

12

600

7

8

8

11

13

400

7

8

10

11

14

200

10

11

11

13

16

100

12

13

14

16

18

 

Табл. Допустимые расхождения (в %) между частотами в двух группах  в случае, когда наблюдаются частоты от 10% до30% или от 70% до 90%

Объемы

Групп

750

600

400

200

100

750

5

5

6

8

10

600

5

6

7

8

10

400

6

7

8

9

11

200

8

8

9

10

12

100

10

10

11

12

14