Выборочный метод

Анализ данных

Контрольные вопросы по предмету

0


Подпишитесь на бесплатную рассылку видео-курсов:

Текст видеолекции

Лекция 4 

Выборочный метод

1)      Виды случайных выборок

2)      Статистическое распределение выборки

3)      Основные характеристики выборки

4)                  Эмпирическая функция распределения

5)                  Графическое представление выборки

 

Контрольно-оценочное средство – тестовые задания

 

1. Виды случайных выборок

Сегодняшняя лекция целиком относится к математической статистике. Чтобы вникнуть в суть нужно знать основные положения дисциплины.

Математическая статистика – наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятности, позволяющую оценить надежность и точность выводов. Этот раздел прикладной математики посвящен изучению случайных величин по результатам наблюдений.

Развитие статистической науки, расширение сферы практической статистической работы привели к изменению содержания самого понятия «статистика». В настоящее время данный термин употребляется в трех значениях:
    - под статистикой понимают отрасль практической деятельности, которая имеет своей целью сбор, обработку, анализ и публикацию массовых данных о самых различных явлениях общественной жизни (в этом смысле «статистика» выступает как синоним словосочетания «статистический учет»);
    - статистикой называют цифровой материал, служащий для характеристики какой-либо области общественных явлений или территориального распределения какого-то показателя;
    - статистикой называется отрасль знания, особая научная дисциплина, соответственно учебный предмет в высших и средних специальных учебных заведениях. Мы, например, изучаем санитарную статистику.

Задачи статистической науки.

1. Постоянные (долговременные): а) обеспечить органы управления государством, регионами, отраслями и отдельными предприятиями своевременной полной и достоверной информацией, необходимой для принятия решений; б) информировать общественность о явлениях и процессах, происходящих в обществе;

2. Актуальные задачи формируются исходя из потребности общества и экономики на современном этапе: а) получение объективной информации о деятельности хозяйственных структур; б) создание автоматизированных баз данных о деятельности текущих хозяйственных структур с возможностью санкционированного доступа к ним для получения информации, необходимой для решения текущих хозяйственных задач; в) прогнозирование развития важных социально - экономических процессов и явлений; г) распространение выборочных обследований во всех секторах общественной и экономической жизни; д) проведение организационно - методологической работы по постепенному переходу на систему национальных счетов.

Исследование массовых общественных  явлений  включает в себя следующие этапы (этапы статистического исследования):
1.       сбор статистической информации и ее первичная обработка (статистическое наблюдение),
2.       группировка и выборка результатов наблюдения в определенные совокупности,
3.       обобщение и анализ полученных материалов.
На первом этапе статистического исследования формируются первичные статистические данные, или исходная статистическая информация, которая является фундаментом будущего статистического здания. Если при сборе первичных статистических данных допущена ошибка или материал оказался недоброкачественным, это повлияет на правильность и достоверность как теоретических, так и практических выводов. Поэтому, статистическое наблюдение от начальной до завершающей стадии — получения итоговых материалов — должно быть тщательно продуманным и четко организованным.
Статистическое наблюдение — представляет собой научно организованный по единой программе учет фактов, характеризующих явления и процессы общественной жизни, и сбор полученных на основе этого учета массовых данных. К статистическому наблюдению предъявляются следующие требования:
1.  полнота статистических данных (полноты охвата единиц изучаемой совокупности, сторон того или иного явления, а также полноты охвата во времени),
2.  достоверность и точность данных,
3.  единообразие и сопоставимость данных,
4.  планомерность проведения статистического наблюдения, 
5.  массовость статистических данных,
6.  систематичность проведения статистического наблюдения.
Не всякий сбор сведений является статистическим наблюдением. О статистическом наблюдении можно говорить лишь тогда, когда изучаются статистические закономерности, т.е. такие, которые проявляются только в массовом процессе, в большом числе единиц какой-то совокупности. Поэтому статистическое наблюдение должно отвечать вышеперечисленным методам.
На второй стадии совокупность делится по признакам различия и объединяется  по признакам сходства, подсчитываются  суммарные показатели по группам и в целом. С помощью различных методов изучаемые явления делятся на важнейшие типы, характерные группы и подгруппы по существенным признакам. С помощью группировок ограничивают качественно однородные в существенном отношении совокупности, что является предпосылкой для определения и применения обобщающих показателей.
На заключительном этапе анализа с помощью обобщающих показателей рассчитываются относительные и средние величины, дается сводная оценка вариации признаков, характеризуется динамика явлений, применяются индексы, балансовые построения, рассчитываются показатели, характеризующие тесноту связей в изменении признаков. С целью наиболее рационального и наглядного изложения цифрового материала он представляется в виде таблиц и графиков.

Статистическая совокупность - это множество явлений, имеющих один или несколько общих признаков и отличающихся между собой по значениям других признаков.

Единица совокупности - каждое отдельное явление, подлежащее учету, наделенное признаками сходства.

Учетные признаки - это свойства, характерная черта явления, подлежащая статистическому изучению. Делятся на:

1) Качественные (атрибутивные) - выражают существенное неотъемлемое свойство предмета. Противоположные качественные признаки называют альтернативными (мужчина - женщина, отличник - не отличник и т. д.)

2) Количественные - отдельные значения различаются по величине (возраст, рост, вес).

Статистические данные - сведения о числе объектов какой-либо обширной совокупности, обладающими теми или иными признаками (например, число студентов, родившихся в 1985году). Являются исходным материалом для любого статистического исследования. На основании статистических данных можно сделать научно обоснованные выводы. Для этого статистические данные должны быть предварительно определённым образом систематизированы и обработаны.

Одним из основных методов обработки статистических данных является выборочный метод. При выборочном исследовании из всей совокупности отбирают некоторым образом определённое число объектов и только их подвергают исследованию.

Генеральная совокупность - совокупность всех исследуемых объектов. Генеральную совокупность образуют, например, все больные с данным диагнозом, все новорождённые и дети и т.д. Общую сумму членов генеральной совокупности называют её объёмом и обозначают буквой N. Теоретически объём генеральной совокупности ничем не ограничен (N → ∞). Поэтому обычно изучается какая-то часть объектов генеральной совокупности – выборка.

Выборочная совокупность (выборка) - набор случайно отобранных объектов из генеральной совокупности.

Когда говорят о типах и видах выборки, то чаще используют случайную (вероятностную), но иногда работают и с неслучайными выборками.

Случайная / вероятностная выборка - строится так, чтобы все возможные комбинации основных свойств единиц генеральной совокупности имели равную вероятность быть извлеченными.

Достоинство случайной выборки в высокой степени возможности избежать систематических ошибок.

Ограничения случайной выборки:

  • необходимость (в большом числе случаев) полного списка генеральной совокупности;
  • громоздкая и длительная процедура опроса;
  • большой объем выборки по сравнению с другими видами отбора.

Основные виды случайной выборки:

  • простая (на основе таблицы случайных чисел),
  • механическая (отбор из списка каждого N-ого элемента, шаг выборки определяется как отношение объема генеральной совокупности к объему выборки.).

С теоретической точки зрения простая случайная выборка - лучший способ отбора единиц наблюдения. В повседневной речи слово случайный часто употребляется как синоним слова бессистемный. Однако в научном контексте оно имеет совершенно иное значение - имеется в виду одинаковая вероятность какого-то случая. Поэтому случайная выборка составлена таким способом, что любой элемент в генеральной совокупности (и любое сочетание элементов) может быть с одинаковой вероятностью включен в выборку.

Процесс создания случайной выборки начинается с составления полного списка всех потенциальных единиц наблюдения. Например, для проведения экзамена составляется 1000 тестовых заданий по дисциплине. При использовании компьютерного тестирования, программа отбирает 50 вопросов случайным образом (каждый номер и сочетание номеров могут быть представлены с одинаковой вероятностью). Таким образом, получится простая случайная выборка.

Иногда для случайного выбора используют специальные таблицы случайных чисел, которые имеются в учебниках по теории вероятности и математической статистике.

При составлении выборки заботятся о ее репрезентативности.

Репрезентативная выборка - выборка, имеющая такое же распределение относительных характеристик, что и генеральная совокупность.

Но в то же время, преимущество выборки теряется, если она требует слишком больших усилий.

Районированная выборка предполагает первоначальное разделение генеральной совокупности на однородные части, а затем случайный отбор единиц внутри этих частей, независимо друг от друга.

Стратифицированная выборка - данный способ предполагает разделение генеральной совокупности на слои или "страты", а затем составление выборки внутри каждого слоя - страты. Студенты 1-го, 2-го курса и т.п. могли бы быть выделены как отдельные страты. Этот способ применяется, когда возникают различные проблемы при составлении выборки среди разных групп населения (например, все первокурсники живут в общежитиях, но большинство студентов старших курсов проживают за их пределами) или когда отдельные части населения очень малочисленны, но, тем не менее, важны для исследования. ·

Районированная и стратифицированная выборки в данном случае являются синонимами.

Существует также понятие кластерной выборки.

Кластерная выборка, как и стратифицированная, предусматривает разделение генеральной совокупности на более мелкие. Основное различие между ними состоит в том, что при кластерной выборке производится отбор определенных частей (кластеров), из которых, в свою очередь, случайным образом осуществляется отбор лиц, попадающих в выборку. При стратификации в выборку включаются лица из каждой страты целевой совокупности. Тогда каждая страта является гомогенной по тому или иному признаку (например, полу, возрасту). В случае же кластерной выборки каждый кластер представляет собой уменьшенную модель генеральной совокупности. При этом единицы кластера должны быть максимально разнородными, а сами кластеры — как можно более однородными.

При исследовании здоровья населения страны кластеры могут быть сформированы по принципу территориальной привязки к определенному региону. Страна разбивается на четко определяемые части (кластеры), например области. Считается, что выделенные кластеры являются идентичными и состояние здоровья населения отдельных областей характерно для страны в целом. Далее случайным образом выбирается одна из областей (один кластер), формируется выборка, проводится соответствующее исследование, а выводы относятся к совокупности населения всей страны.

Достоинство кластерной выборки состоит в том, что при ее формировании отсутствует необходимость (как в случае стратифицированной) в сведениях относительно распределения совокупности но отдельным признакам (полу, возрасту, образованию, специальному статусу и т.д.). Одним из самых существенных преимуществ кластерных выборок является и то, что при их использовании исследования отличаются относительно небольшими затратами вследствие компактности отдельных кластеров, в качестве которых могут рассматриваться не только территориально-географические образования.

Гнездовая (серийная) выборка – отбираются компактные группы (гнезда), качественно отличающиеся от основной массы населения. Внутри них проводится сплошной опрос.

Систематическая выборка также может использоваться только в том случае, когда исследователь располагает полным списком единиц генеральной совокупности. Техника формирования данной выборки предполагает определение выборочного шага («интервала скачка») и стартового номера. Первый определяется как отношение объема генеральной совокупности к размеру выборки, второй — случайным образом (лотерейным подбором, по таблице случайных чисел). Предположим, что проводится исследование успеваемости студентов. На первом курсе обучается 1000 человек. Определено, что исследованием будет охвачено 100 студентов. Выборочный шаг равен 10 (1000 : 100). Случайным образом определяется стартовый номер (к примеру, 5). Таким образом, в выборку попадут студенты-первокурсники под номерами 5, 15, 25, 35 и т.д.

Возможности использования систематической выборки во многом определяются наличием для различных видов генеральных совокупностей списков (например, спецификаций, телефонных справочников). Систематическая выборка была бы полностью адекватна случайной, если бы единицы генеральной совокупности попадали в нее случайным образом. Такому условию не удовлетворяет ни один реальный список. Поэтому на практике систематический отбор считают эквивалентным случайному, если порядок расположения единиц в списке никак не связан с исследуемыми признаками.

При достаточно простой процедуре формирования систематическая выборка даже при небольших своих размерах позволяет охватить сравнительно большие по объему генеральные совокупности. Данный метод является более экономичным и оперативным по сравнению с методом простого случайного отбора. В то же время, при использовании систематической выборки получаются менее репрезентативные результаты.

Особенность многоступенчатой выборки (многофазной) состоит в том, что выборочная совокупность формируется постепенно, по ступеням отбора. На первой ступени с помощью заранее определенного способа и вида отбора отбираются единицы первой ступени. На второй ступени из каждой единицы первой ступени, попавшей в выборку, отбираются единицы второй ступени и т. д. Число ступеней может быть и больше двух. На последней ступени формируется выборочная совокупность, единицы которой подлежат обследованию. Так, например, для выборочного обследования бюджетов домашних хозяйств на первой ступени отбираются территориальные субъекты страны, на второй – районы в отобранных регионах, на третьей – в каждом муниципальном образовании отбираются предприятия или организации и, наконец, на четвертой ступени – в отобранных предприятиях отбираются семьи. Таким образом, выборочная совокупность формируется на последней ступени. Многоступенчатая выборка более гибкая, чем другие виды, хотя в общем она дает менее точные результаты, чем выборка того же объема, но сформированная в одну ступень. Однако при этом она имеет одно важное преимущество, которое заключается в том, что основу выборки при многоступенчатом отборе нужно строить на каждой из ступеней только для тех единиц, которые попали в выборку, а это очень важно, так как нередко готовой основы выборки нет.

Взаимопроникающие выборки – это две или более независимые выборки из одной и той же генеральной совокупности, образованные одним и тем же способом и видом. К взаимопроникающим выборкам целесообразно прибегать, если необходимо за короткий срок получить предварительные итоги выборочных обследований. Взаимопроникающие выборки эффективны для оценки результатов обследования. Если в независимых выборках результаты одинаковы, то это свидетельствует о надежности данных выборочного обследования. Взаимопроникающие выборки иногда можно применять для проверки работы различных исследователей, поручив каждому из них провести обследование разных выборок.

На практике не всегда имеется в наличии полный список единиц генеральной совокупности, что затрудняет или делает в принципе невозможным использование вероятностной выборки. Поэтому при проведении исследований широко применяются невероятностные (неслучайные) выборки, отличающиеся простотой формирования, а также требующие меньших временных и финансовых затрат. В то же время, они не обладают такой точностью и высокой степенью представительности и достоверности, которая характерна для вероятностных (случайных) выборок. При формировании невероятностных выборок подбор единиц в определенной степени является преднамеренным, а не случайным. Поэтому, в отличие от вероятностных выборок, статистические выводы применительно ко всей генеральной совокупности в этом случае делать не вполне правомерно.

Для разных практических задач составляют различные виды выборочных совокупностей, которые зависят от многих факторов, но в первую очередь рассчитываются различными способами стандартные ошибки выборки для сравнения с генеральной совокупностью.


 

2. Статистическое распределение выборки

 

Основными показателями выборки являются:

1) вариант; 2) объем; 3) размах; 4) частота; 5)относительная частота.

Вариант - количественное значение элемента выборки.

Объём выборки (будем обозначать буквой n) - число объектов выборки (например, из 10000 студентов для контрольной флюорографии отобраны 100 студентов, то объем генеральной совокупности равен 10000, а объем выборки равен 100).

Размахом выборки - разность меду наибольшим и наименьшим значениями числовой выборки (буква W).

Частота значения выборки - количество данного варианта в выборке(ni).

Относительные частоты выборки (pi) - это отношения частоты к объему выборки.

n1 + n2 + … + ni = n     и   ∑pi = 1

Если из генеральной совокупности получена выборка объема n, причём x1 появляется в ней n1 раз, значение x2- n2 раза и т.д. В этом случае числа n1,n2,....,ni называют частотами значения выборки, а отношения ni к n относительными частотами значениями выборки:

Для частот должно выполняться условие: сумма всех частот равна объему выборки, а для относительных частот.

Пусть для изучения количественного признака X из генеральной совокупности извлечена выборка x1,x2,....,xi. Наблюдавшиеся значения xi, признака X называют вариантами. Повторяемость признака xi называется частотой ni. Сумма всех частот равна n. Относительная частота – pi=ni/n-выборочный аналог вероятности pi появления значения xi случайной величины X. Тогда выборочным аналогом ряда распределения естественно считать вариационный ряд.

Вариационный ряд - выборка, представляющую собой неубывающую числовую последовательность. Любую числовую выборку можно записать в виде вариационного ряда.

Статистический ряд - последовательность пар (x1,n1), (x2,n2), …,(xi,ni) или троек чисел  (x1, n1, р1), (x2, n2, р2), …,(xi, ni, pi). Обычно статистический ряд записывают в виде таблицы, где хi - значения варианта выборки,  а ni – частоты значения выборки, pi - относительные частоты выборки.

X1

X2

...

Xi

n1

n2

...

ni

р1

р2

pi

 

Пример 1.

Выборка: 1, 10, -2, 0, -2, 5, 1, 10, 1, 7.

Вариационный ряд: -2, -2, 0, 1, 1, 1, 5, 7, 10, 10.

Статистический ряд:

 

Xi

- 2

0

1

5

7

10

ni

2

1

3

1

1

2

pi

0,2

0,1

0,3

0,1

0,1

0,2

Количество вариантов: 6.

Объём выборки: n=10.

Размах выборки: 10-(-2)=12.

Проверка: ∑ ni = n = 10,   ∑ pi = 1.

Выборочное распределение записывают в виде таблицы, где xi значения выборки, а  - относительные частоты значения выборки.

X1

X2

...

Xi

 

 

 

 

В математической статистике вводятся числовые характеристики выборки аналогично числовым характеристикам случайных величин в теории вероятности.

Пусть имеется выборка объема х1, х2, …, хn.

Выборочным математическим ожиданием (выборочным средним) называют среднее арифметическое выборки:

=  х1 + х2 + … + хn

                    n

Если выборка задана статистическим рядом, то

=  n1 х1 + n2 х2 + … + nn хn

                          n

Пример 2.

Дана выборка 1, 2, 3, 4, 5. Найти выборочное среднее .

Решение:

=  1 + 2 + 3 + 4 + 5      = 15/5 = 3

                     5

Для наглядного представления выборки часто используют различные графические изображения. Простейшими графическими изображениями выборки являются полигон и гистограмма? О которых уже упоминалось в предыдущих лекциях данной дисциплины. Пусть выборка задана статическим рядом: (x1,n1), (x2,n2), …,(xi,ni). Полигоном выборки называется ломаная линия. Существует два вида полигонов выборки: полигон частот (xi, ni) и полигон относительных частот ( xi, ).

Полигон выборки примера 1.

 

 

Дискретным вариационным рядом распределения называется ранжированная (расположенная в порядке возрастания или убывания) совокупность вариантов xi c соответствующими им частотами ni или относительными частотами pi.

Аналогично полигону распределения строится полигон относительных частот. Нецелесообразно построение дискретного ряда для непрерывной случайной величины или для дискретной, число возможных значений которой велико. В подобных случаях следует построить интервальный ряд.

Интервальным вариационным рядом называется упорядоченная совокупность интервалов варьирования значений случайной величины с соответствующими частотами или относительными частотами попаданий в каждый из них значений величины.

При большом объёме выборки более наглядное представление даёт гистограмма - ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длины h, а высоты равны относительной частоте или частоте.

Построив вариационный ряд и изобразив его графически, можно получить первоначальное представление о закономерностях, имеющих место в ряду наблюдений. Однако, на практике зачастую этого недостаточно. Такая ситуация возникает, например, когда имеется необходимость сравнить два ряда и более. Сравнительные распределения могут существенно отличатся друг от друга. Они могут иметь различные средние значения случайной величины, или различаться рассеиванием данных наблюдений вокруг указанных значений. Поэтому для дальнейшего изучения изменения значений случайной величины используют числовые характеристики вариационных рядов. Их обычно называют статистическими характеристиками или оценками.

Пример 3.

В результате измерения роста детей получена выборка:

118, 121, 115, 125, 125, 117, 124, 120, 120, 119, 121, 119,

122, 127, 118, 120, 123, 130, 123, 116, 124, 127, 120, 122.

Построить гистограмму, если число частичных промежутков равно 5.

Наименьшее значение выборки: 115.

Наибольшее значение выборки: 130.

Длина интервала h =  = 3

Число попаданий выборки в частичные промежутки соответственно равны:

[115,118) - 3, [118,121) - 8, [121,124) - 6, [124,127) - 4, [127,130] – 3.

Составим интервальный вариационный ряд:

Xi

[115,118)

[118,121)

[121,124)

[124,127)

[127,130]

ni

3

8

6

4

3

pi

3/24

8/24

6/24

4/24

3/24

Для контроля правильности находим S ni = 24, S рi = 1.

Строим гистограмму:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

3. Основные характеристики выборки

Приведем краткий обзор характеристик, которые применяются для анализа вариационного ряда и являются аналогами соответствующих числовых характеристик случайной величины.

Начальным выборочным моментом k-го порядка называется величина, определяемая по формуле:

, где хi – наблюдаемое значение с частотой ni, n – число наблюдений.

В частности, начальный выборочный момент первого порядка обозначается и называется выборочной средней:
.

Медианой называется значение признака, приходящееся на середину ранжированного ряда наблюдений.

Модой называется вариант, которому соответствует наибольшая частота.

Вариационный размах R или просто размах равен разности между наибольшим и наименьшим вариантом ряда.

Центральным выборочным моментом k-го порядка называется величина, определяемая по формуле:

.

В частности, центральной выборочный момент второго порядка обозначается S2 и называется выборочной дисперсией:

.

Средним квадратическим отклонением S называется арифметическое значение корня квадратного из дисперсии:

.

Коэффициентом вариации называется отношение среднего квадратического отклонения к средней, выраженное в процентах:

.

Справедливы следующие формулы, выражающие центральные выборочные моменты различных порядков через начальные:

и т.д.

Выборочным коэффициентом асимметрии называется число, определяемое формулой .

Выборочный коэффициент асимметрии служит для характеристики асимметрии полигона вариационного ряда. Если полигон асимметричен, то одна из ветвей его, начиная с вершины, имеет более пологий «спуск», чем другая.

В случае отрицательного коэффициента асимметрии более пологий «спуск» полигона наблюдается слева, в противном случае – справа. В первом случае асимметрию называют левосторонней, а во втором – правосторонней.

Выборочным эксцессом или коэффициентом крутизны называется число E˜k, определяемое формулой .

Выборочный эксцесс служит для сравнения на «крутость» выборочного распределения с нормальным распределением. Эксцесс для случайной величины, распределенной нормально, равен нулю. Поэтому за стандартное значение выборочного эксцесса принимают E˜k = 0. Если выборочному распределению соответствует отрицательный эксцесс, то соответствующий полигон имеет более пологую вершину по сравнению с нормальной кривой. В случае положительного эксцесса полигон более крутой по сравнению с нормальной кривой. 

В математической статистике используются числовые характеристики выборки аналогично числовым характеристикам случайных величин в теории вероятности.

Рассмотрим выборочные характеристики для  выборки объёмом n: x1,x2,....,xn.

Математическое ожидание – это среднее значение случайной величины. Для дискретной случайной величины, математическим ожиданием М (Х) называется сумма произведений значений случайной величины на вероятность этих значений.

Выборочным математическим ожиданием (выборочным средним) называют среднее арифметическое выборки. Математическое ожидание можно найти по одной из трех формул:

1)  =  i      ;                2)  =  i ni        ;                  3)  =   i pi  .

Выборочной дисперсией называют среднее арифметическое квадратов отклонений значений выборки от выборочного среднего. Дисперсия вычисляется по формулам:

1) D =  (xi – )2 ;              2) D = (xi – )2 pi .

Найдем математическое ожидание и дисперсию для примера 12, для этого вычислим средние значения интервала:

xi

116,5

119,5

122,5

125,5

128,5

pi

0,125

0,333

0,25

0,167

0,125

= i pi =14,5625+39,7935+30,625+20,9585+16,0625 » 122

D = (xi – )2 pi = (116,5-122)2 · 0,125+ (119,5-122)2 · 0,333 + (122,5 - - 122)2 · 0,25+ (125,5-122)2 · 0,167+ (128,5-122)2 · 0,125 » 13,25

 

 


 

4. Эмпирическая функция распределения

 

Под распределением понимают соответствие между наблюдаемыми вариантами и их частотами или частостями. Пусть nx – количество наблюдений, при которых случайные значения параметра Х меньше x. Частость события X<x равна nx/n . Это отношение является функцией от x и от объема выборки: Fn(x)=nx /n. Величина Fn(x) обладает всеми свойствами функции распределения:

  • Fn(x) неубывающая функция, ее значения принадлежат отрезку [0 – 1];
  • если x1 – наименьшее значение параметра, а xk – наибольшее, то Fn(x)=0, когда x<x1 , и Fп(xk)=1, когда x>=xk.

Функция Fn(x) определяется по экспериментальным данным, поэтому ее называют эмпирической функцией распределения. В отличие от эмпирической функции Fn(x) функцию распределения F(x) генеральной совокупности называют теоретической функцией распределения, она характеризует не частость, а вероятность события X<x. Из теоремы Бернулли вытекает, что частость Fn(x) стремится по вероятности к вероятности F(x) при неограниченном увеличении n. Следовательно, при большом объеме наблюдений теоретическую функцию распределения F(x) можно заменить эмпирической функцией Fn(x).

График эмпирической функции Fn(x) представляет собой ломаную линию. В промежутках между соседними членами вариационного ряда Fn(x) сохраняет постоянное значение. При переходе через точки оси x, равные членам выборки, Fn(x) претерпевает разрыв, скачком возрастая на величину 1/n.

Пример 4. Построить вариационный ряд и график эмпирической функции распределения по результатам наблюдений:

 

i

1

2

3

4

5

6

xi

51

43

56

60

64

56

Решение. Построим вариационный ряд, упорядочив по возрастанию значения варианты.

 

i

1

2

3

4

5

6

xi

43

51

56

56

60

64

Искомая эмпирическая функция:

 

Рисунок. Эмпирическая функция распределения

 

 

При большом объеме выборки (понятие «большой объем» зависит от целей и методов обработки, в данном случае будем считать п большим, если n>40) в целях удобства обработки и хранения сведений прибегают к группированию экспериментальных данных в интервалы. Количество интервалов следует выбрать так, чтобы в необходимой мере отразилось разнообразие значений параметра в совокупности, и, в то же время, закономерность распределения не искажалась случайными колебаниями частот по отдельным разрядам. Существуют нестрогие рекомендации по выбору количества t и размера h таких интервалов, в частности:

  • в каждом интервале должно находиться не менее 5 – 7 элементов. В крайних разрядах допустимо всего два элемента;
  • количество интервалов не должно быть очень большим или очень маленьким. Минимальное значение y должно быть не менее 6 – 7. При объеме выборки, не превышающем несколько сотен элементов, величину y задают в пределах от 10 до 20. Для очень большого объема выборки (n>1000) количество интервалов может превышать указанные значения. Некоторые исследователи рекомендуют пользоваться соотношением y=1,441ln(n)+1;
  • при относительно небольшой неравномерности длины интервалов удобно выбирать одинаковыми и равными величине h=(xmaxxmin)/?t, где xmax – максимальное и xmin – минимальное значение параметра. При существенной неравномерности закона распределения длины интервалов можно задавать меньшего размера в области быстрого изменения плотности распределения;
  • при значительной неравномерности лучше в каждый разряд назначать примерно одинаковое количество элементов выборки. Тогда длина конкретного интервала будет определять крайними значениями элементов выборки, сгруппироваными в этот интервал, т.е. будет различна для разных интервалов (в этом случае при построении гистограммы нормировка по длине интервала обязательна - в противном случае высота каждого элемента гистограммы будет одинакова).

Группирование результатов наблюдений по интервалам предусматривает: определение размаха изменений параметра х; выбор количества интервалов и их величины; подсчет для каждого i-го интервала [xi–xi+1] частоты ni или относительной частоты (частости ni) попадания варианты в интервал. В результате формируется представление экспериментальных данных в виде интервального или статистического ряда.

Графически статистический ряд отображают в виде гистограммы, полигона или ступенчатой линии. Часто гистограмму представляют как фигуру, состоящую из прямоугольников, основаниями которых служат интервалы длиною h, а высоты равны соответствующей частости. Однако такой подход неточен. Высоту i-го прямоугольника zi следует выбрать равной ni/(nh). Такую гистограмму можно интерпретировать как графическое представление эмпирической функции плотности распределения fn(x), в ней суммарная площадь всех прямоугольников составит единицу. Гистограмма помогает подобрать вид теоретической функции распределения для аппроксимации экспериментальных данных.

Полигоном называют ломаную линию, отрезки которой соединяют точки с координатами по оси абсцисс, равными серединам интервалов, а по оси ординат – соответствующим частостям. Эмпирическая функция распределения отображается ступенчатой ломаной линией: над каждым интервалом проводится отрезок горизонтальной линии на высоте, пропорциональной накопленной частости в текущем интервале. Накопленная частость равна сумме всех частостей, начиная с первого и до данного интервала включительно.

Пример 5. Имеются результаты регистрации значений затухания сигнала xi на частоте 1000 Гц коммутируемого канала телефонной сети. Эти значения, измеренные в дБ, в виде вариационного ряда представлены в таблице. Необходимо построить статистический ряд.

 

i

1

2

3

4

5

6

7

8

9

10

11

xi

25,79

25,98

25,98

26,12

26,13

26,49

26,52

26,60

26,66

26,69

26,74

i

12

13

14

15

16

17

18

19

20

21

22

xi

26,85

26,90

26,91

26,96

27,02

27,11

27,19

27,21

27,28

27,30

27,38

i

23

24

25

26

27

28

29

30

31

32

33

xi

27,40

27,49

27,64

27,66

27,71

27,78

27,89

27,89

28,01

28,10

28,11

i

34

35

36

37

38

39

40

41

42

43

44

xi

28,37

28,38

28,50

28,63

28,67

28,90

28,99

28,99

29,03

29,12

29,28

Решение. Количество разрядов статистического ряда следует выбрать минимальным, чтобы обеспечить достаточное количество попаданий в каждый из них, возьмем y = 6. Определим размер разряда

h = (xmaxxmin)/? =(29,28 – 25,79)/6 = 0,58.

Сгруппируем наблюдения по разрядам в таблице:

i

1

2

3

4

5

6

Номер интервала

xi

25,79

26,37

26,95

27,53

28,11

28,69

Середина интервала

ni

5

9

10

9

5

6

Частота

?i =ni/n

0,114

0,205

0,227

0,205

0,114

0,136

Относит. Частота

?i = ni/nh

0,196

0,353

0,392

0,353

0,196

0,235

Высота прямоуг.

На основе статистического ряда построим гистограмму, на рисунках далее график эмпирической функции распределения.

График эмпирической функции распределения, отличается от графика, представленного на предыдущем рисунке равенством шага изменения варианты и величиной шага приращения функции (при построении по вариационному ряду шаг приращения кратен 1/ n , а по статистическому ряду – зависит от частости в конкретном разряде).

 

Гистограмма распределения и Эмпирическая функция распределения.

Рассмотренные представления экспериментальных данных являются исходными для последующей обработки и вычисления различных параметров.

 


 

5. Графическое представление выборки

 

Пример 6.

Выборка: Х = {0; 2; 1; 2,6 ; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9; 2,6}

 

Вариационный ряд: 0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9.

Эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке Xi равна m/n, где — количество элементов выборки, совпадающих с  Xi .

Xi

0

1

2

2,6

3,1

4,6

6

7

9

ni

1

2

1

3

1

2

2

1

2

pi

0,067

0,133

0,067

0,2

0,067

0,133

0,133

0,067

0,133

Сумма частот рана объему выборки и равна 15.

Можно построить эмпирическую функцию распределения по вариационному ряду:

F(x) =

 

0, если Х ≤ 0

0,067, если 0 < X ≤ 1

0,2, если 1 < X ≤ 2

0,267, если 2 < X ≤ 2,6

0,467, если 2,6 < X ≤ 3,1

0,533, если 3,1 < X ≤ 4,6

0,667, если 4,6 < X ≤ 6

0,8, если 6 < X ≤ 7

0,867, если 7 < X ≤ 9

 

1, если х > 9

График эмпирической функции распределения

 

 

Для одного примера можно построить разные гистограммы, это зависит от количества разбиений выборки. Если разбить отрезок изменений на 4 отрезка, то получим гистограмму слева.

Рядом — тоже гистограмма для той же выборки, но при разбиении области на 5 равных отрезков.

 

 

 

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости.

 

Еще один пример построения кумуляты.

Кумулята распределения домохозяйств по размеру

Как рассчитать накопленные частоты:

Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.

Размер заработной платы, руб в месяц Xi

Численность работников, человек

Накопленные частоты, n

до 5000

4

4

5000 — 7000

12

16

7000 — 10000

8

24

10000 — 15000

6

30

Итого:

30

-

При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:

 

 

 

 


 

Литература:

1.  Теория вероятностей и математическая статистика. Гмурман В. Е. Учебное пособие для вузов. – Изд. 10-е, стер. – М.: Высш. шк., 2010. – 479с.

2.  Мятлев В.Д., Панченко Л.А., Ризниченко Г.Ю., Терехин А.Т. Теория вероятностей и математическая статистика. Математические модели –М.: изд. «Академия», 2009г (и последующие издания).

3.  Высшая математика в упражнениях и задачах. Учебное пособие для вузов / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 ч. – Изд. 6-е, стер. – М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и образование» , 2007. – 416с.

4. Баврин И.И. Теория вероятностей и математическая статистика: учебник. М.: Высшая школа 2005г.

5. Математические методы в психологии: учебник / О. Ю. Ермолаев – томин. – 5-е изд., испр. и доп. – М.: Издательство Юрайт, 2014. – 511с. – Серия: бакалавр. Базовый курс.

  1. 6.   http://opds.sut.ru/old/electronic_manuals/oed/f02.htm - Эмпирическая функция распределения  
  2. 7.   http://math.immf.ru/lections/203.html - статистические методы