Основные понятия анализа данных. Одномерный анализ.

Анализ данных

Контрольные вопросы по предмету

0


Подпишитесь на бесплатную рассылку видео-курсов:

Смотреть лекцию по частям


Текст видеолекции

Лекция 1.

Основные понятия анализа данных. Одномерный анализ.

1)                      Основные задачи, решаемые при выполнении статистических методов анализа.

2)                      Виды данных в исследованиях.

3)                      Одномерный анализ: табулирование.

4)                      Графическое представление данных.

5)                      Использование различных методов в анализе данных.

 

Контрольно-оценочное средство – тестовые задания

 

1. Основные задачи, решаемые при выполнении статистических методов анализа.

 

Дисциплина относится к общеобразовательным предметам ВПО математического и естественно-научного цикла.

Цель изучения дисциплины: формирование целостного восприятия логики исследовательского процесса; порождение научной рефлексии в процессе работы с эмпирическим материалом, изучение базовых алгоритмов анализа и интерпретации данных, формирование практических навыков использования современных программных средств для решения задач анализа и интерпретации данных.

Задачи дисциплины: 

1. изучение базовых алгоритмов анализа и интерпретации данных;

2. формирование практических навыков использования современных программных средств для решения задач анализа и интерпретации данных.

Для успешного усвоения студентам необходимы:

- знания по методологии количественных и качественных исследований;

- знания по методике и технике социологического исследования;

- умения интерпретировать, анализировать информацию;

- знания о методах математической статистики, теории вероятности;

- базовые знания по принципам измерения.

Для изучения дисциплины «Анализ данных» необходимо усвоение следующих дисциплин:

  • «Теория вероятностей и математическая статистика»;
  • «Методы прикладной статистики»;
  • «Методология и методы социологического исследования»;
  • Отраслевые дисциплины.

К направлениям изучения дисциплины относятся:

1)           ознакомление с основными элементами структуры эмпирико-прикладной социологии в целом и различных видов социологических исследований;

2)           предоставление знаний о методах подготовки к обработке и анализа профессиональной информации, полученной в виде определенных данных по ходу каждого социологического исследования;

3)           формирование умений и навыков практической работы по адекватному применению соответствующих методов, техник и процедур при подготовке к обработке, анализе, научной интерпретации профессиональной информации;

4)           выявление главных аспектов социологического отчета (аналитической справки, научной публикации) в форме обобщающих выводов, практических рекомендаций, прогнозов и т.д., а также подготовка качественной статистической отчетности;

5)           формирования представления об использовании результатов социологических и статистических исследований в практике менеджмента и экономических прогнозах либо узкопрофессиональное использование.

В результате освоения дисциплины обучающийся должен демонстрировать следующие результаты образования:

- студент должен знать основные элементы структуры эмпирического исследования, и уметь связывать теоретическую часть программы социологического исследования с формальной; 

- студент должен знать и владеть методами  подготовки к обработке и анализу статистической информации; 

- студент должен иметь навыки практической работы по адекватному применению соответствующих методов, техник и процедур при подготовке к обработке, анализу, научной интерпретации социологической информации, а также на этой основе – прогнозирования возможных социальных процессов, событий, явлений. 

- студент должен иметь представления об использовании результатов социологических и статистических исследований в практике менеджмента или другой профессиональной направленности.

Дисциплина «Анализ данных» раскрывает следующие вопросы:

  • Поиск статистических закономерностей как основная цель, стоящая перед эмпирической социологией.
  • Математические методы как средство познания социальных явлений.
  • Математическая статистика и анализ данных: линия размежевания.
  • Подготовка первичной социологической информации к обработке на ЭВМ или в ручную.
  • Техника обработки социологической информации на компьютере или в ручную. Линейные и кроссраспределения.
  • Понятие измерения в современной эмпирической социологии.
  • Средние величины и характеристика значений рассеяния  признака: анализа / интерпретации данных статистической информации.
  • Показатели колебаемости / вариации значений, признаков, статистические взаимосвязи и их социологический анализ.
  • Анализ повторных и сравнительных данных статистической информации.
  • Многомерный анализ социологической информации.
  • Статистические методы обработки информации.
  • Последовательность действий при качественно-количественном анализе социологических или иных данных.
  • Стратегия качественного анализа данных статистической информации.
  • Типологический анализ в социологическом исследовании.

 

Проблема применения математического метода в теоретической исследовании или какой-либо другой области распадается на три проблемы:

а) вопрос о возможности применения математического метода;

б) вопрос о пределах применения и о роли математического метода, о соотношении последнего с другими методами в теоретической экономии;

в) вопрос о формах применения математического метода. Наибольшее значение, конечно, представляет первый вопрос. Если бы была доказана принципиальная невозможность применения математики, например,  в теоретической экономии или ином направлении, то все остальные вопросы отпали бы. В данном случае методологии экономистов-математиков необходимо было бы противопоставить диаметрально противоположную методологию, основанную на полном отрицании применения математического метода.

Формы применения математики определяются на основании принципа целесообразности: тот математический прием заслуживает предпочтения, который позволяет легче, скорее, удобнее, разрешить данную задачу. С другой стороны, очевидно, что формы применения математики не могут оставаться фиксированными и неизменными.

Нельзя установить стандартных методов, которые были бы наиболее пригодны для разрешения всякой проблемы. С изменением характера проблемы могут меняться формы применяющихся математических приемов.

Необходимо, кроме того, отметить, что попытки установить количественную зависимость между отдельными величинами приводят к уяснению и уточнению отдельных понятий. Во всяком случае, не может быть никаких сомнений в том, что математический метод имеет ряд преимуществ:

  • математика может установить количественные закономерности,
  • уяснить содержание отдельных понятий,
  • натолкнуть на новые проблемы,
  • устранить некоторые ошибки путем приведения данных положений к абсурду,
  • реализация задачи интерполирования данных – определение промежуточного значения переменной, если переменная и функция заданы таблично,
  • позволяет выполнять апроксимацию ряда данных – подбор формулы, отображающей вид процесса,
  • применять экстраполяцию – прогноз на несколько шагов вперед или назад,
  • отображать графически динамику изменений явлений, монотонность рассматриваемых процессов,
  • определения по диаграммам и графикам числовых характеристик и т.п.

Поэтому помощь математического аппарата наиболее целесообразна и существенна при проведении любых анализов. Структуру исследований с применением математических методов можно представить следующим алгоритмом:

  • Постановка задачи исследования (исходная),
  • Обоснование и выбор исследуемых характеристик,
  • Обоснование и выбор интервальных оценок исследуемых характеристик,
  • Обоснование и выбор критерия оптимизации,
  • Изучение процессов в объекте исследования,
  • Обоснование и вывод уравнений математической модели объекта исследования,
  • Выбор метода решения уравнений математической модели объекта исследования,
  • Проверка адекватности математической модели объекта исследования,
  • Постановка задачи исследования (окончательная),
  • Выбор метода решения задачи оптимизации и имитационное моделирование,
  • Анализ результатов,
  • Выдача результатов, рекомендаций, методов и методик.

Данный алгоритм не линейный, некоторые шаги могут повторяться, на некоторых местах возможно ветвление, возможен возврат к началу или на несколько шагов назад, но выполнение каждого шага обязательно.

2. Виды данных в исследованиях.

 

Рассмотрим эмпирические данные, которые могут встретиться в социологических исследованиях.

В процессе построения математических моделей, изучения свойств требуются определенные типы информации. Можно рассмотреть множество оснований для выделения типов. Эти основания обусловлены существованием различий:

— в источниках (носителях) социологической или иной информации;

— в характере эмпирических индикаторов, порождающихся отдельными типами;

— в существовании различного вида объектов анализа;

— в формах (видах, представлениях) исходных для анализа данных, т. е. какими данными должен оперировать исследователь с точки зрения техники анализа (то, что называется обработкой информации);

— в технике получения (сбора, формирования) информации;

— в методах анализа;

— в целях, ради достижения которых используется тот или иной тип информации.

При выделении типов будем пользоваться одновременно несколькими основаниями. Выделим пять типов информации, с которыми сталкивается социолог на практике, и, в определенной мере условно, обозначим их как:

1. Данные типа “государственная статистика”

2. Данные, полученные с помощью анкет “простой” структуры.

3. Данные, полученные с помощью анкет “сложной” структуры.

4. Данные об использовании бюджета времени.

5. Текстовые данные.

Рассмотрим подробнее каждый тип данных.

1. Данные типа “государственная статистика”

В свою очередь данный тип состоит из нескольких специфических частей, обусловленных различиями в источниках информации и в объектах анализа.

1) Информация, которая собирается регулярно (ежегодно) о различных сторонах жизнедеятельности общества и хранится в архивах различного профиля. Имеется список из 11 архивов, существующих только в нашей стране. Этот список возглавляет Госкомстат Российской Федерации. Эта организация является основной по сбору и систематизации статистических данных. Обратите внимание, в каком контексте используется термин “статистика”. В рамках ООН издаются статистические ежегодники по демографии, культуре, экономике, труду, здравоохранению, торговле, питанию и т. д. В них содержатся значения социальных показателей по всем странам мира. Эти данные содержат в себе социальные показатели в явном и в неявном виде. В явном виде — когда показатель рассчитан как некий индекс на основе эмпирических индикаторов. Например, уровень скрытой безработицы. В неявном виде — когда есть основа для формирования социального показателя. В частности, в международной системе статистических показателей разработана и существует система социальных показателей качества жизни. Эта система состоит из 186 показателей по 11 социально значимым областям.

Из этого примера можно сделать следующий вывод: чем больше социальных показателей в рамках государственной статистики, тем лучше социологу. Объектами анализа для социолога являются страны, области жизнедеятельности, социальные общности, социальные показатели.

2) Данные переписи населения. В нашей стране, как и в большинстве стран, переписи проводятся примерно один раз в десять лет. Последняя сплошная перепись была в 2010 году. Вместе с тем Госкомстат регулярно проводит 5-процентные переписи населения, которые являются источником статистических данных. Источником информации в данном случае является индивид, а объектами анализа — социальные общности, регионы, социальные показатели.

3) Данные специальных исследований об условиях жизни. Госкомстат регулярно (ежегодно) проводит исследования использования бюджета семьи, т. е. изучает на разных типах семьи потребительскую корзину. В данном случае источником информации является семья, а объектами анализа — семья, статьи бюджета.

4) Результаты выборов, референдумов. Это особый вид статистики. Источник информации — территориальное образование (регион, область, район, округ, участок). Объекты анализа — кандидаты, территориальные образования, электоральное поведение.

5) Специфические документальные источники в виде архивов предприятий и т. д.

Таким образом, рассматриваемый нами тип социологической информации содержит характеристики социальных процессов на разном уровне их исследования: на уровне социума, институциональном, групповом и личностном, индивидуальном. Кроме этого, в типе данных отражена динамика социальных процессов. В третьих, это объективные характеристики жизнедеятельности людей, не зависящие от их субъективных оценок.

Тип 2: Данные, полученные с помощью анкет “простой” структуры.

Представляется целесообразным разделить информацию, получаемую (собираемую) социологом посредством формализованных методов опроса, на две части. С точки зрения задач анализа эти части имеет смысл рассматривать как два различных типа социологической информации. Первый из этих типов, получается в результате изучения общественного мнения (маркетинговые исследования, мониторинги разного вида). Эти исследования, как правило, носят описательный характер, и в них используются прямые, простые, однозначно интерпретируемые вопросы и ответы на них. В них не ставятся глубокие аналитические задачи, не ищутся ответы на вопрос “Почему это?..”. Главная проблема в этих исследованиях — проблема репрезентативности выборки. Инструмент социологического исследования — жестко структурированная анкета, достаточно короткая и содержащая несложные вопросы. Это обусловлено тем, что анкета рассчитана на неоднородную (по образованию, возрасту и т. д.) совокупность респондентов.

Основная задача анализа — изучение, условно говоря, поведения отдельных эмпирических индикаторов как по всей совокупности респондентов, так и по отдельным группам.

Тип 3: Данные, полученные посредством анкет “сложной” структуры.

К этому типу данных относим данные, полученные в исследованиях аналитического характера. Если говорить просто, то это те исследования, где наряду с поиском ответа на вопрос “Что это?” (имеется в виду интересующий социолога социальный феномен) ищется и ответ на вопрос “Почему это?”. Инструментарий сбора эмпирических данных в этих исследованиях, как правило, состоит из нескольких частей. Для сбора данных используются специфические, достаточно сложные приемы, методы, техники. Анкетирование может сопровождаться тестированием. Для изучения проблем конфликтности, лидерства в малых группах используется так называемая социометрическая техника.

Основным источником информации является индивид, формы существования информации — вариационные ряды, матрица вида (объект — признак), таблица сопряженности. Появляются и другие формы, такие, как матрицы (“объект — объект”, “признак — признак”).

Трудно перечислить все направления социологических исследований, в рамках которых социолог конструирует (создает инструментарий) условно так называемую анкету “сложной” структуры. Это и исследования ценностных ориентации (мотивы, предпочтения, потребности, интересы), социальных установок (упрощенно говоря, отношения к чему-либо), готовности к какому-то определенному типу поведения, идентичности (в частности, самоидентификация), социальных норм и т. д.

К примеру, любая социальная установка носит латентный (скрытый) характер. Непосредственному наблюдению, измерению, с помощью прямо поставленных вопросов, не поддается. Возникает необходимость в построении моделей изучения этой установки посредством доступных наблюдению признаков. Однако это не такое простое и понятное моделирование, как в случаях, которые мы рассматривали выше. Простота здесь условна, так как до уровня эмпирических индикаторов мы эти модели не доводили. Тогда и цель социолога была другая — убедиться в необходимости различных типов информации для изучения свойств социального объекта. Если, к примеру, попытаться довести модель “политическая активность студента” до экономической информации, то мы столкнемся с огромными трудностями. Сами по себе такие социальные феномены, как отношение людей к чему-то и к кому-то, установка на что-то, предпочтения чего-то, потребности в чем-то, носят не только латентный характер, но и многоаспектны, многофакторны, многомерны по своей сути.

Тип 4: Данные об использовании бюджета времени.

Информация о времяпрепровождении или использовании бюджета времени является данными о реальном поведении людей. В процессе проведения таких исследований собирается информация о занятиях отдельно взятого индивида за определенный промежуток времени. Чем, сколько, где и т. д. занимался индивид в течение, заданного исследователем времени. Таким промежутком времени (бюджетом) является один случайно выбранный день, два дня (рабочий и нерабочий день), три дня (будний день, суббота и воскресенье), неделя. Техника сбора заключается в самофиксации респондентом своих занятий за сутки от нуля до 24 часов. Бюджетом времени принято называть распределение времени или его использование за определенный период. Эмпирическим индикатором является отдельно взятое занятие (курение, лежание, умывание, чтение газет, пение и т.д.). Занятию ставится в соответствие так называемая бюджетная линейка. Это означает, что респондент может фиксировать не только то, чем он занимался (первичное, основное занятие) и сколько времени, но и то, чем еще при этом он занимался (вторичное, сопутствующее занятие), где происходило занятие, кто при этом присутствовал. Анализ сопутствующих занятий важен и потому, что некоторые занятия практически не выступают в роли основного, например слушание радио. Место проведения занятия играет огромную роль при изучении, например, досуга молодежи. Присутствие различных лиц при осуществлении занятия характеризует, в частности, тип общения, степень контактности. Поэтому для характеристики отдельно взятого занятия и используется бюджетная линейка, состоящая из таких показателей, как:

— шифр (код) основного занятия,

— продолжительность основного занятия,

— шифр дополнительного занятия,

— шифр места осуществления занятия,

— шифр “присутствующих при осуществлении занятия лиц”.

В исследованиях бюджета времени параллельно с дневниками (дневник — документ, где фиксируются характеристики занятия) используются и различные анкеты простой и сложной структуры. Бюджет времени (имеется в виду использование бюджета) как тип социологической информации имеет сложную структуру.

Тип 5: Текстовые данные.

Можно выделить несколько ситуаций, когда социологу приходится работать с текстовыми данными. Эти ситуации следует рассматривать как источник данного типа социологической информации. Во-первых, социолог сталкивается с такого рода информацией при работе с открытыми вопросами анкеты. Во-вторых, при работе с текстами различного рода неформализованных интервью, т. е. при работе с мягкими/гибкими методами сбора информации. Это результаты интервью, в основном использующиеся в биографическом к подходе изучению социальной реальности. Это результаты лейтмотивного интервью: индивидуального и группового (фокус — группа). В-третьих, при работе с материалами средств массовой информации. В четвертых, при сборе эмпирической информацией посредством так называемых проективных методов. Например, для изучения социальных норм используется метод неоконченных предложений, а для изучения идентичности методика двадцати самоопределений. Дальше мы будем рассматривать их как приемы измерения.

Существуют принципиально разные подходы к анализу текстов. Первый из них заключается в преобразовании текстовой информации в “анкетные” данные. Имеются также – контент-анализ, трансакционный анализ текстов, вторичный анализ.

Вместе с данными в статистике используются различные виды шкал: номинальных, порядковых, интервальных шкал.

Hоминальная шкала (неупоpядоченная шкала, шкала наименований) - это шкала, состоящая из пеpечня хаpактеpистик объекта или явления. Типичным пpимеpом номинальной шкалы может послужить pазбиение игpоков споpтивной команды по номеpам.

Поpядковая шкала (оpдинаpная, pанговая), по сути дела, является упоpядоченной номинальной шкалой, устанавливающей pавенство между объектами по выбpанным пpизнакам и отношения поpядка.

Общий вид поpядковой шкалы:

  • -максимально положительный ответ
  • -положительный ответ
  • -нейтpальный ответ
  • -отpицательный ответ
  • -максимально отpицательный ответ

Поpядковые шкалы применяются пpи изучении установок отношений опpашиваемого. С их помощью измеряют интенсивность оценок свойств, суждений, событий.

Пpи обpаботке данных, полученных с помощью шкалы поpядка, pассчитывают pанговые коpелляции: по Спиpмену и по Кендаллу.

Интеpвальная шкала обpазуется на основе pанговой путем пpисвоения баллов ее делениям. Каждой позиции pанговой шкалы пpиписывают числа. Hапpимеp, пятибальной шкале чаще всего пpиписывают баллы от 1 до 5 (1, 2, 3, 4, 5) или от -1 до 1.

В отличии от пpедыдущей шкалы интеpвальная шкала позволяет не только упоpядочить пpоявление изучаемого социального свойства или объекта, но и pассчитать pазность (интеpвал) между этими пpоявлениями.

После сегодняшней лекции понятие ранжирование должно быть понятно – расположение по возрастанию или убыванию, по номерам.

Шкалирование необходимо, так как нельзя измерить социальную установку одномерно, т. е. посредством количества, числа, хотя всегда хочется это сделать для того, чтобы сравнить установки различных респондентов и сделать вывод, что установка респондента А сильнее (больше), чем установка респондента В. Из этого не следует, что одномерности нет места в исследованиях, как правило. Обычно рассматривают приемы одномерного измерения, или одномерного шкалирования. Освоение же методов многомерного шкалирования требует серьезной математической подготовки.

Придумывание такой модели, которая отражает свойства определенного объекта, например, детей в возрасте от года до двух, и называется одномерным шкалированием. Образ линейки, необходим при работе с непрерывными величинами. Вместе с тем такой термин, как одномерный континуум (перевод с латинского - непрерывное), студенту необходимо знать. Он означает одномерность и непрерывность. Например, множество действительных чисел от О до 1 есть одномерный континуум.

В контексте рассмотрения данных другого типа возникает термин “гуманитарное измерение”. Это особый подход. Исходной посылкой является отказ от анализа эмпирии в терминах (профессия, пол и т. д.) и переход на язык локальных свойств. Эти свойства носят так называемый бинарный, или дихотомический характер - сопоставленность или противопоставленность двух частей целого. Для профессии локальные свойства — токарь, пекарь, аптекарь, социолог и т. д. Для пола — мужской, женский. Тогда респондента характеризует не профессия, пол и т. д., а то, пекарь он или не пекарь, токарь он или не токарь, мужчина он или не мужчина. Респондент либо обладает, либо не обладает отдельным свойством. Обратите внимание, здесь осуществляется переход к совершенно другому языку анализа эмпирии.

Формой существования информации является матрица вида “объект — свойство” и в клеточках матрицы 0 или 1. Если объект обладает свойством, то единица, а если не обладает, то нуль. Такого вида матрица — одна из форм существования информации данного типа вне зависимости от упомянутого подхода к измерению. В рамках этого типа возникают и другие формы, а именно матрицы вида “объект — объект”, “признак — признак”. Такие матрицы являются либо производными от матрицы “объект — признак”, либо получаются в результате использования специфических методов сбора информации.

 

 

 

 

 

 

3. Одномерный анализ: табулирование.

Существует два основных класса задач, решаемых с помощью статистических методов анализа. Задачей дескриптивной (описательной) статистики является описание распределения переменной-признака в конкретной выборке. Методы дескриптивной статистики позволяют также анализировать взаимосвязь между различными переменными. Другой класс задач, связанный с необходимостью вывести свойства большой совокупности, основываясь на имеющейся информации о свойствах выборки из этой совокупности, решается с помощью методов индуктивной статистики, или теории статистического вывода, основанной на вероятностном подходе к принятию решений. Воспользовавшись какой-то моделью для анализа полученных выборочных данных, социолог обычно также применяет некоторые методы статистического вывода, позволяющие определить, выполняются ли обнаруженные им при анализе данных отношения на уровне большой совокупности, из которой была извлечена выборка.

Выборка, в данном случае, набор случайных данных, полученных в результате какого-либо исследования. В статистике понятие выборки несколько иное – случайный выбор определенного количества вариантов из большого числа экспериментальных данных.

Исследователи отдают много времени попыткам выявить, каким образом одно явление соотносится и взаимосвязано с другим явлением. Для этого они пользуются переменными. Переменная – признак исследуемого объекта, который может принимать различные значения (пол, возраст, доход, профессия, статус и т.д.). Независимая переменная - та, которая оказывает влияние на остальные переменные; переменная, на которую оказывается воздействие, является зависимой. Например, если нас интересует влияние дохода на стиль жизни, то доход становится независимой переменной.

Но если переменные изменяются сообща, то это еще не значит, что между ними существует связь. Например, повышение давления и учащенное сердцебиение у пациентов. Обе переменные могут изменяться одновременно, а установкой вида связи, как раз и занимаются различные виды анализов.

Поэтому исследователи должны посмотреть вглубь, чтобы найти концы причин и следствий. В социологии, например, это может быть выполнено по следующей схеме.

Необходимо формулировать задачи анализа данных и ориентироваться в существующем разнообразии методов и техник, используемых другими исследователями при решении этих задач.

Независимо от того, какие статистические методы и модели собирается использовать исследователь, первым шагом в анализе данных всегда является построение частотных распределений для каждой изучавшейся переменной. Полученные результаты принято представлять в виде таблицы частотного распределения (или просто — таблицы распределения) для каждой существенной переменной. Примером табличного представления может служить приведенная ниже таблица далее, в которой представлены гипотетические данные (то есть предположительные, ожидаемые) выборочного опроса 500 владельцев домашних телефонов.

Таблица.

Частотное распределение ежемесячных расходов на международные телефонные переговоры

Интервал класса (расходы в руб.)

Абсолютная частота, чел.

Относительная частота, %

до 3000

51

11,0

3000—5999

40

8,6

6000—8999

135

29,0

9000—11999

80

17,2

12000—14999

65

14,0

15000—19999

49

10,5

20000—23999

37

8,0

свыше 24000

8

1,7

Всего N = 465 100% (= 465)

Не ответили 35 (35)

Иногда в таблице распределения указывают лишь относительные частоты, опуская абсолютные. Но и в этом случае в правом нижнем углу таблицы должны быть указаны абсолютное число ответивших (база для вычисления процентов) и число не ответивших.

В данном примере не выделены зависимые и независимые переменные, не установлена связь между рядами данных, это требует дополнительных исследований, математических расчетов, специальных методов, которыми и занимается анализ данных.

 

 

 

 

4. Графическое представление данных.

 

Помимо табличного представления частотных распределений обычно используют и различные методы графического представления. Самый распространенный метод графического представления одномерных распределений — это гистограмма, или столбиковая диаграмма. Каждый столбик соответствует интервалу значений переменной, причем его середина совмещается с серединой данного интервала. Высота столбика отражает частоту (абсолютную или относительную) попадания наблюдавшихся значений переменной в определенный интервал. При построении гистограмм часто приходится использовать некоторые конвенции, основанные на сугубо практических соображениях. Так, используя при группировке значений переменной неравные интервалы либо оставляя крайние градации открытыми (“старше 65 лет”, “свыше 24000 рублей” и т. д.), мы все же отображаем эти интервалы на гистограмме с помощью столбиков, имеющих одинаковую ширину. Другое практическое правило позволяет сделать гистограмму визуально уравновешенной, т. е. более привлекательной: масштаб шкалы обычно выбирают так, чтобы общая высота гистограммы составляла приблизительно 40—60% ее ширины.

Строят гистограммы частот или относительных частот, появления значений которых  указывается по вертикальной оси.

 

Более глубокого понимания сути эмпирического распределения можно добиться, построив полигон частот.

Полигон частот – рисунок, получаемый из гистограммы посредством соединения верхних точек столбцов гистограммы прямыми линиями.

 

 

 

 

 

 

Одномерная табуляция применяется и для расчета итоговых статистик (таких как мода, среднее значение, стандартное отклонение).

Мода, или наиболее часто происходящее событие, может быть определена непосредственно по одномерной табуляции.

Среднее значение рассчитывается посредством взвешивания каждого значения по частоте его появления, суммированием этих произведений и делением суммы на число событий.

Эти понятия подробнее будут рассмотрены в статистических методах.

 

 

 

 

5. Использование различных методов в анализе данных.

 

Анализ данных, как самостоятельная отрасль научного знания, использует для изучения своего предмета совокупность специфических методов. Их количество достаточно обширно, поэтому классификацию провести достаточно сложно. Следует отметить, что в каждой профессиональной области отдается предпочтение своим методикам: в медицине, например, ранговая корреляция, в экономике – кластерный анализ и т.д., это зависит от назначения исследования.

Рассмотрим некоторые виды методов:

  • Корреляционный анализ
  • Регрессионный анализ
  • Канонический анализ
  • Методы сравнения средних
  • Частотный анализ
  • Кросстабуляция (сопряжение)
  • Анализ соответствий
  • Кластерный анализ
  • Дисперсионный анализ
  • Статистическая проверка статистических гипотез
  • Дискриминантный анализ
  • Факторный анализ
  • Деревья классификации
  • Анализ главных компонент и классификация
  • Многомерное шкалирование
  • Моделирование структурными уравнениями (причинное моделирование)
  • Методы анализа выживаемости
  • Временные ряды
  • Нейронные сети
  • Планирование экспериментов
  • Карты контроля качества и т.д.

 

Каждая профессиональная область содержит в свою очередь свою классификацию методов. Например, все методы социологии можно подразделить на теоретические и эмпирические.

В качестве инструмента теоретического исследования в социологии, как и в философии, используется рефлексия (от лат. reflexio — обращение назад) — процесс осмысления чего-либо при помощи изучения и сравнения. Исходным материалом для производства нового научного знания служат уже существующие теории, идеи различных ученых, которые синтезируются с собственными научными воззрениями исследователя при помощи различных логических схем, на основе той или иной теоретической парадигмы. В процессе исследований социологи, как правило, используют такие теоретические методы, как системный, структурно-функциональный, синергетический, методы логической интерпретации, моделирования и ряд других.

Особую группу методов, широко применяющихся в социологических исследованиях, составляют методы математической статистики. Они позволяют осуществлять анализ и интерпретацию первичной социологической информации, а также верифицировать уже полученные данные.

Наряду с теоретическими методами, социология использует методы эмпирические. Исходным материалом эмпирического исследования служат различные мнения, суждения, социальные факты, смысловые индикаторы, явления или процессы, которые социолог пытается получить и систематизировать с использованием специальных методов сбора и обработки первичной социологической информации.

Эмпирические методы подразделяются на количественные (классические) и качественные. Некоторые методы имеют свои разновидности, как в количественном, так и в качественном подходе.

К числу количественных методов сбора социологической информации относятся, в первую очередь:

  • опросные методы;
  • анализ документов;
  • наблюдение;
  • социологический эксперимент.

Термин «количественный подход» в социологическом исследовании подчеркивает специфику его формы – прежде всего математической формы представления знания. Результаты количественных исследований представляются, как правило, в виде шкал, таблиц, гистограмм, а их содержание выражается в процентах и коэффициентах. В фокусе количественных исследований – общественные структуры, как над индивидуальные объективные образования, детерминирующие жизнь людей. В качестве объекта социологического анализа здесь выступают определенные социальные общности (группы), выбранные социологом в соответствии с целями и задачами исследования.

Одна из основных задач количественного социологического исследования — в сочетании с теоретическим анализом — состоит в определении причин и следствий.

На рисунке логическая схема количественного социологического исследования:

 

Количественные социологические исследования подразделяются на фундаментальные и прикладные.

Цель фундаментального исследования — развитие и со­вершенствование самой науки, т.е. получение нового на­учного знания, а цель прикладного исследования — реше­ние конкретной социальной проблемы. Таким образом, если фундаментальное исследование позволяет открыть законы того или иного явления, то прикладное — выработать конкретные способы преобразования социальной ситуации. Получаемые в ходе фунда­ментального исследования знания об обществе имеют чисто научный, или академический, интерес, а прикладные исследования обычно носят прагматический характер (слово произошло от родительного падежа греческого "pragma" – действие), то есть практический.

Результаты фундаментальных исследований адресованы научному сообществу, а прикладных – конкретному заказчику, который с их помощью предполагает решить конкретную проблему. Прикладные исследования проводятся по запросам руководства и касаются проблем, требующих последователь­ных, часто долгосрочных управленческих воздействий. Следует подчеркнуть, что фундаментальное исследова­ние может быть как теоретическим, так и эмпирическим. При­кладное социологическое исследование, как правило, бы­вает эмпирическим.

Ко второй группе методов получения социологической информа­ции относятся качественные методы исследования. Объектом социологического анализа здесь выступают индивиды как исполнители социальных ролей. Основная цель качественных методов – изучение социальных явлений и процессов с точки зрения действующего индивида как начала любой социальности. Социолог-исследователь здесь должен непременно «погрузиться» в мир личностных смыслов изучаемых людей, понять мотивы и цели их поступков, их объяснения происходящего, чтобы затем конструировать теорию. К числу качественных методов (типов, стратегий) социологического исследования относят, например, следующие: «кейс-стади» (исследование случая); исследования этнографического типа; «устная история»;  и т.д..

Во многих исследованиях используются статистические и детерминистские закономерности.

Выделим некоторые особенности статистической методологии. Их можно объединить в следующие обобщенные положения:

  • точное измерение и описание массовых данных;
  • измерение и анализ дифференциации явлений;
  • применение сводных (обобщающих) показателей для характеристики явлений и закономерностей их развития.

Если говорить о детерминизме (лат. определяю), то это – учение о всеобщей причинной обусловленности природных, общественных, психических явлений; система философских взглядов на мир как на объективные закономерные связи. Но причинность не исчерпывает данное понятие: в него входят необходимость, случайность, закон и др. Современный детерминизм включает два противоположных объективно существующих типа взаимообусловленных явлений. Первый тип – причинная детерминация, формы складываются на основе причинности - исследовании, учёте причинно-следственных связей явлений, когда одно явление порождает другое – является причиной. Второй тип – отношения между взаимосвязанными явлениями, которые не имеют причинного характера, т.к. отсутствует порождение одного события (процесса, явления) другим. Основными формами непричинного соотношения являются: функциональные связи и зависимости между явлениями, связь состояний (агрегатные состояния вещества, вероятные отношения, структурные системные и иные взаимосвязи).

Детерминизму противостоит индетерминизм (лат. не определять) – философская концепция, которая отвергает всеобщий характер универсальной взаимосвязи явлений или односторонне ограниченно ее понимает. Наиболее остро индетерминизм противостоит детерминизму по вопросу о месте и роли причинности, которая либо вообще игнорируется, либо отрицается её всеобщность и объективность.

Итак, сегодня мы рассмотрели некоторые основные понятия анализа данных, получили общие направления изучения данной дисциплины, узнали виды возможных анализов в рамках проведения различных исследований.

По ходу лекции были приведены примеры различных профессиональных направленностей, поэтому можно сделать вывод о том, что анализ данных получил широкое распространение в различных сферах человеческой деятельности: и в социологии, и в экономике, и в медицине и т.д.

На следующих лекциях мы рассмотрим некоторые виды анализов, которые можно профильно применять к исследованиям в различных областях.