Методы многомерного статистического анализа

Анализ данных

Контрольные вопросы по предмету

0


Подпишитесь на бесплатную рассылку видео-курсов:

Смотреть лекцию по частям


Текст видеолекции

Лекция 4 

Методы многомерного статистического анализа 

1)    Факторный анализ

2)    Дискриминантный анализ

3)    Кластерный анализ

4)    Дисперсионный анализ

5)    Многомерное шкалирование

Контрольно-оценочное средство – тестовые задания

 

1. Факторный анализ

 

Хозяйственные процессы и конечные результаты складываются под влиянием объективных и субъективных, внешних и внутренних факторов.

Фактор, перевод с латинского -  делатель, то есть движущая сила, фактическая причина какого-нибудь процесса, обусловливающая его или определяющая его характер. В экономической информатике факторы - это причины, воздействующие на изучаемый экономический показатель. Одни из них непосредственно связаны между собой, другие - косвенно.

Например, на величину валовой продукции непосредственное влияние оказывают такие факторы, как численность рабочих и уровень производительности труда. Субъективные или косвенные факторы — внутренние (руководство тем или иным производственным коллективом, организация производства, финансов, экономическая или организационная подготовленность исполнителей и т.д.). Следовательно, это изучение и измерение влияния факторов на величину исследуемых экономических показателей. Без всестороннего и тщательного изучения факторов невозможно сделать обоснованные выводы о результатах деятельности, выявить резервы производства, обосновать планы и управленческие решения.

Факторный анализ - это методика комплексного и системного изучения и измерения воздействия факторов на величину результативного показателя. Факторы в результате анализа получают количественную и качественную оценку. Каждый показатель может в свою очередь выступать и в роли факторного, и результативного.

Например, в модели П = ВП - С (прибыль равна выручке за минусом себестоимости) прибыль - результативный показатель, а в модели Rпр = П / РП (рентабельность продаж равна прибыли, деленной на выручку от реализации) прибыль является фактором по отношению к результативному показателю рентабельности продаж.

Различают следующие противоположные типы факторного анализа:

  • детерминированный и стохастический;
  • прямой и обратный;
  • одноступенчатый и многоступенчатый;
  • статический и динамический;
  • ретроспективный (исторический) и перспективный (прогнозный).

Детерминированный факторный анализ - представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер, т.е. когда результативный показатель представлен в виде произведения, частного или алгебраической суммы факторов. Взаимосвязи в детерминированном анализе можно формализовать и дать количественную оценку роли отдельных факторов на результативный показатель.

Стохастический факторный анализ - это методика исследования влияния факторов, связь которых с результатом является неполной. Носит характер вероятностной, корреляционной зависимости, поскольку изменение фактора может дать несколько значений результата в зависимости от сочетания других факторов. Например, производительность труда при одном и том же уровне фондовооруженности может быть неодинаковой на разных предприятиях. Это зависит от оптимальности сочетания других факторов, которые воздействуют на этот показатель.

Прямой факторный анализ - ведется дедуктивным способом - от общего к частному. Он проводится с целью комплексного исследования внутренних и внешних, объективных и субъективных факторов, формирующих величину изучаемого результативного показателя.

Обратный факторный анализ - осуществляет исследование причинно-следственных связей способом логической индукции - от частных, отдельных факторов к обобщающим, от причин к следствиям с целью установления чувствительности изменения многих результативных показателей к изменению изучаемого фактора.

Факторный анализ может быть одноуровневым и многоуровневым.

Одноуровневый факторный анализ - используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части. Например, y = ax+b.

Многоуровневый, многоступенчатый факторный анализ - проводит детализацию факторов а и b на составные элементы с целью изучения их сущности. Детализация факторов может быть продолжена. В таком случае изучается влияние факторов различных уровней соподчиненности.

Статический факторный анализ - применяется при изучении влияния факторов на результативные показатели на соответствующую дату.

Динамический факторный анализ - представляет собой методику исследования причинно-следственных связей в динамике.

Ретроспективный факторный анализ - изучает причины изменения результатов хозяйственной деятельности за прошлые периоды.

Перспективный факторный анализ - исследует поведение факторов и результативных показателей в перспективе.

Основные задачи факторного анализа:

  1. Выявление, поиск факторов.
  2. Отбор факторов для анализа исследуемых показателей.
  3. Классификация и систематизация их с целью обеспечения системного подхода.
  4. Моделирование взаимосвязей между результативными и факторными показателями.
  5. Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.
  6. Работа с факторной моделью (практическое ее использование для управления экономическими процессами).

Факторный анализ - это один из способов снижения размерности, то есть выделения во всей совокупности признаков тех, которые действительно влияют на изменение зависимой переменной. Или группировки сходно влияющих на изменение зависимой переменной признаков. Или группировки просто сходно изменяющихся признаков. Предполагается, что наблюдаемые переменные являются лишь линейной комбинацией неких ненаблюдаемых факторов. Некоторые из этих факторов являются общими для нескольких переменных, некоторые характерно проявляют себя только в одной. Те, что проявляют себя только в одной, очевидно, ортогональны друг другу и не вносят вклад к ковариацию переменных, а общие - как раз и вносят эту ковариацию. Задачей факторного анализа является как раз восстановление исходной факторной структуры исходя из наблюдаемой структуры ковариации переменных, несмотря на случайные ошибки ковариации, неизбежно возникающие в процессе снятия наблюдения.

Коэффициент взаимосвязи между некоторой переменной и общим фактором, выражающий меру влияния фактора на признак, называется факторной нагрузкой данной переменной по данному общему фактору. Значение (мера проявления) фактора у отдельного объекта называется факторным весом объекта по данному фактору.

Процесс стохастического факторного анализа состоит из трех больших этапов:

  1. Подготовки ковариационной матрицы (Иногда вместо нее используется корреляционная матрица);
  2. Выделения первоначальных ортогональных векторов (основной этап);
  3. Вращение с целью получения окончательного решения.

 

При подготовке к факторному анализу часто (некоторые методы этого не требуют, но большая часть - требует) составляют ковариационные и корреляционные матрицы. Это матрицы, составленные из ковариации и корреляций векторов-атрибутов (строки и столбцы - атрибуты, пересечение - ковариация/корреляция).

Ковариация двух векторов:  М(ХУ) – М(Х) • М(У),

где М(ХУ) =  , M(X) =  и M(У) = , причем

M(X) и М(У) - математические ожидания для величин Х и У.

Корреляция двух векторов находится как отношение ковариации и произведения средних квадратических отклонений.

 

Причем, средние квадратические отклонения

, а D(X) и D(Y) – дисперсии для Х и У.

D(X) = М(Х2) – М2(Х) и D(Y) = М(У2) – М2(У)

В зависимости от значения коэффициента корреляции делается вывод.

Обратите внимание, что в этом случае корреляция и ковариация двух векторов - числа, так как считаются через математическое ожидание вектора, а математическое ожидание вектора - число.

Таким образом, мы переходим от матрицы, составленной из объектов (которые могут быть и не математическими), к матрице, оперирующей уже исключительно математическими понятиями, и абстрагируемся от объектов, уделяя внимания только атрибутам.

Нет четко определенного графического эталона для результатов факторного анализа, поэтому на слайдах вы видите различную графическую интерпретацию выводов факторного анализа.

При выполнении факторного анализа могут быть использованы различные методы, например:

·       Метод главных компонент

·       Алгоритм вычисления главных компонент

·       Метод сингулярных компонент

·       Метод максимального правдоподобия

·       Метод альфа-факторного анализа

Факторный анализ является более общим методом преобразования исходных переменных по сравнению с компонентным анализом. Модель факторного анализа зависит от постоянных величин, называемых факторными нагрузками, общих факторов, используемых для представления всех исходных переменных и специфических факторов, уникальных для каждой переменной.

Для получения оценок общностей и факторных нагрузок используется эмпирический итеративный алгоритм, который сходится к истинным оценкам параметров. Сущность алгоритма сводится к следующему. Первоначальные оценки факторных нагрузок определяются с помощью метода главных факторов. На основании корреляционной матрицы R формально определяются оценки главных компонент: ищутся оценки общих факторов в определенном виде, оценки факторных нагрузок, оценки общностей.

На следующей итерации модифицируется матрица R - вместо элементов главной диагонали подставляются оценки общностей, полученные на предыдущей итерации; на основании модифицированной матрицы R с помощью вычислительной схемы компонентного анализа повторяется расчет главных компонент (которые не являются таковыми с точки зрения компонентного анализа), ищутся оценки главных факторов, факторных нагрузок, общностей, специфичностей. Факторный анализ можно считать законченным, когда на двух соседних итерациях оценки общностей меняются слабо.

Для сравнения - при проведении корреляционного анализа (справа) вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит n наблюдений.

  


 

2. Дискриминантный анализ

 

Данный вид анализа представлен в программе STATISTICA в модуле Discriminant analysis (Дискриминантный анализ). Здесь реализовано два общих метода дискриминантного анализа: стандартный и пошаговый (включения и исключения). Данные методы дискриминантного анализа аналогичны методам множественной регрессии. В случае двух групп методом наименьших квадратов строится регрессионная прямая (зависимая переменная – номер группы, все остальные переменные – независимые). Если групп несколько, то можно представить себе, что вначале строится дискриминация между группами 1 и 2, затем между 2 и 3, и так далее.

Дискриминантный анализ - раздел вычислительной математики, использующийся для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы).

 

Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.

Другой пример - Медик может регистрировать различные переменные, относящиеся к состоянию больного, чтобы выяснить, какие переменные лучше предсказывают, что пациент, вероятно, выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3). Биолог может записать различные характеристики сходных типов (групп) цветов, чтобы затем провести анализ дискриминантной функции, наилучшим образом разделяющей типы или группы.

В пошаговом методе модель строится последовательно по шагам. Для метода включения программа Statistica на каждом шаге оценивает вклад в функцию дискриминации не включенных в модель переменных. Переменная, дающая наибольший вклад, включается в модель, далее система переходит к следующему шагу. Если применяется так называемый пошаговый метод исключения, то вначале в модель включаются все переменные, затем производится их последовательное исключение.

Близкими к методам дискриминантного анализа являются методы дисперсионного анализа, кластерного и факторного анализов, а так же, как уже говорилось, методы множественной регрессии. Отличие кластерного анализа от дискриминантного в том, что в нем заранее не фиксировано число групп (кластеров).

Дискриминантный анализ «работает» при выполнении ряда предположений.

Предположение о том, что наблюдаемые величины – измеряемые характеристики объекта – имеют нормальное распределение. Это предположение следует проверять. В модуле программы Statistica имеются специальные опции, позволяющие быстро построить гистограммы. Умеренные отклонения от нормального распределения допустимы и анализ может быть успешно проведен.

Предполагается, что дисперсии и ковариации наблюдаемых переменных в разных классах однородны (отличие между классами имеется только в средних). Умеренные отклонения от этого предположения также допустимы.

Методы, реализованные в модуле, являются линейными. Функции классификации и дискриминантные функции являются линейными комбинациями наблюдаемых величин.

Сделаем важное замечание о проверке предположений анализа. Дискриминантный анализ может быть проведен и когда основные предположения не выполняются (предположение о нормальности и равенстве ковариационных матриц). Задача состоит в интерпретации результатов. В конечном счете, наиболее важным критерием правильности построенного классификатора является практика. И если окажется, что в результате построен классификатор, «работающий» на практике, то это будет достижением.

В связи с этим рекомендуется проводить проверку с разумной степенью точности, сосредоточив основные усилия на построении модели.

Примеры выполненного дискриминантного анализа.

 

Результат дискриминантного анализа мужской выборки (достаточно четкое разделение групп больных и здоровых ИБС (ишемическая болезнь сердца) мужчин по пропорциям тела, описанным при помощи канонических осей).

 

 

Дискриминантный анализ для случая классификации k нормально распределенных многомерных случайных величин.

 

 

       

 

Методы дискриминантного анализа:

  • Линейный дискриминант Фишера
  • Канонический дискриминантный анализ (он же линейный дискриминантный анализ)
  • Логистическая регрессия
  • Дерево решений

 

Итак, дискриминантный анализ представляет собой набор методов статистического анализа для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») возникающие наборы данных (так называемые «группы»). В отличие от кластерного анализа в дискриминантном анализе группы известны априори. Другими словами, дискриминантный анализ выполняет сегментирование различных категорий по группам.

3. Кластерный анализ 

Классификация объектов по осмысленным группам, называемая кластеризацией, является важной процедурой в различных областях научных исследований. Кластерный анализ - это многомерная статистическая процедура, упорядочивающая исходные данные (объекты) в сравнительно однородные группы.

Кластерный анализ выполняет следующие основные задачи:

  • Разработка типологии или классификации.
  • Исследование полезных концептуальных схем группирования объектов.
  • Порождение гипотез на основе исследования данных.
  • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

 

В программе Statistica реализован кластерный анализ наблюдений, т.е. в результате вычислительной процедуры каждое наблюдение относится к той или иной группе. Общим для всех исследований, использующих кластерный анализ, являются пять основных шагов:

  1. 1.                           отбор выборки для кластеризации; 
  2. 2.                           определение множества признаков, по которым будут оцениваться объекты в выборке; 
  3. 3.                           вычисление значений меры сходства между объектами; 
  4. 4.                           применение метода кластерного анализа для создания групп исходных данных; 
  5. 5.                           проверка достоверности результатов кластерного решения. 

Каждый из перечисленных шагов играет существенную роль при использовании кластерного анализа в прикладном анализе данных. При этом 1, 2 и 5 шаги целиком зависят от решаемой задачи и должны определяться пользователем. Шаги 3 и 4 выполняются программой кластерного анализа.

Многие методы кластерного анализа - довольно простые процедуры, которые не имеют, как правило, строгого статистического обоснования, т.е. являются эвристическими.

Разные кластерные методы могут порождать различные решения для одних и тех же данных.

 

В Statistica реализованы следующие методы кластеризации –

  • агломеративные методы: joining (tree clustering), two-way joining,
  • итеративный метод группировки k-means clustering (k-средних).

Обычно перед началом классификации данные стандартизуются (вычитается среднее и производится деление на корень квадратный из дисперсии). Полученные в результате стандартизации переменные имеют нулевое среднее и единичную дисперсию. Рассматриваемые далее данные уже стандартизованы.

Рассмотрим итеративный метод группировки (k-средних).

Данный метод работает непосредственно с объектами, а не с матрицей сходства.

В методе k-средних объект относится к тому классу, расстояние до которого минимально. Расстояние понимается как евклидово расстояние, то есть объекты рассматриваются как точки евклидова пространства.

Всем известно как определить евклидово расстояние. Чтобы определить расстояние от объекта до совокупности объектов нужно знать следующее: каждый класс объектов имеет центр тяжести (рассмотрите, как и ранее, простейший случай – представьте, что объект имеет только два параметра, тогда его можно изобразить точкой на плоскости, а группа объектов – это просто группа точек).

Расстояние между объектом и классом есть расстояние между объектом и центром класса. Чтобы вычислить центр класса нужно взять средние по каждому параметру. Тогда расстояние между объектом и группой объектов вполне определено и алгоритм может работать.

Представьте, что число объектов в группе равно 2. Соедините эти точки отрезком прямой и найдите его середину. Это и будет центр тяжести группы, состоящей из двух точек. Расстояние от этого центра до исходной точки будет искомым расстоянием.

Принципиально метод k-средних «работает» следующим образом:

  1. вначале задается некоторое разбиение данных на кластеры (число кластеров определяется пользователем);
  2. вычисляются центры тяжести кластеров;
  3. происходит перемещение точек: каждая точка помещается в ближайший к ней кластер;
  4. вычисляются центры тяжести новых кластеров;
  5. шаги 2, 3 повторяются, пока не будет найдена стабильная конфигурация (то есть кластеры перестанут изменяться) или число итераций не превысит заданное пользователем.

Итоговая конфигурация и является искомой.

Задача кластеризации относится к статистической обработке. Большинство исследователей склоняются к тому, что впервые термин «кластерный анализ» (англ. cluster — гроздь, сгусток, пучок) был предложен математиком Робертом Трионом. Впоследствии возник ряд терминов, которые в настоящее время принято считать синонимами термина «кластерный анализ»: автоматическая классификация, ботриология.

Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии,государственном управлении, филологии, антропологии, маркетинге, экологических исследованиях, социологии и других дисциплинах. Например, кластерный анализ можно рассмотреть для автомобилей разных марок, которые различаются ценой, расходом горючего и некоторыми техническими характеристиками, например, разгоном – временем, необходимым для того, чтобы достичь скорости 100 км в час.

Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

  Результат кластерного анализа обозначен раскрашиванием точек в соответствии с принадлежностью к одному из трёх кластеров.

4. Дисперсионный анализ

 

Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трех и более групп. Разработан Рональдом Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).

На практике дисперсионный анализ применяют, чтобы установить , оказывает ли существенное влияние некоторый качественный фактор, который имеет несколько уровней на изучаемую величину Х. Например, если требуется выяснить какой вид удобрений наиболее эффективен для получения наибольшего урожая, то фактор – это удобрение, а его уровни – виды удобрений.

Основная идея дисперсионного анализа состоит в сравнении «факторной дисперсии», порождаемой воздействием фактора, и «остаточной дисперсии», обусловленной случайными причинами. Если различия между этими дисперсиями значимо, то фактор оказывает существенное влияние на Х, в этом случае средние наблюдаемых значений на каждом уровне (групповые средние) различаются также значимо.

Если уже установлено, что фактор существенно влияет на Х, а требуется выяснить какой из уровней оказывает наибольшее воздействие, то дополнительно производят попарное сравнение средних.

Иногда дисперсионный анализ применяют, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению, если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные совокупности можно объединить в одну и тем самым получить о ней более полную информацию, и, следовательно, более надежные выводы.

В более сложных случаях исследуют воздействие нескольких факторов на нескольких постоянных или случайных уровнях и выясняют влияние отдельных уровней и их комбинаций – это многофакторный дисперсионный анализ.

Рассмотрим однофакторный дисперсионный анализ, для этого возьмем нормально распределенную величину х, на которую действует некоторый нормальный фактор А, имеющий k постоянных уровней, причем на всех уровнях распределение значений х является нормальным, а дисперсии одинаковы, хотя и неизвестны.

Пусть число наблюдений при действии каждого из уровней фактора одинаково (q) и результаты представлены в таблице:

Номер испытания

Уровень фактора

1

Х11

Х12

Х1k

2

Х21

Х22

Х2k

Х3k

q

Хq1

Хq2

Хqk

Групповая средняя

 

 

 

 

Все значения величины х, наблюдаемые при каждом фиксированном уровне фактора Аj, составляют группу и в последней строке таблицы представлены соответствующие выборочные групповые средние, вычисленные по формуле:

 =

Факторная дисперсия вычисляется по формуле:

 

Остаточная дисперсия вычисляется по формуле:

 

Здесь Ri =   - сумма значений величины х на уровне Аj

Pj=  – сумма квадратов значений хна уровне Аj

В математической статистике доказывается, что факторная дисперсия характеризует влияние фактора А на величину х, а остаточная – влияние случайных причин.

Поэтому, если окажется что  <  , следует сделать вывод об отсутствии существенного влияния фактора А на х. Если же  >  , то необходимо проверить значимость различия этих дисперсий, т. е. при заданном уровне значимости р проверить нулевую гипотезу о равенстве соответствующих генеральных дисперсий ( = ) при конкурирующей гипотезе ( > ).

Если проверка покажет значимость различия между  (число степеней свободы которой к-1) и  (число степеней свободы которой k • (q – 1)), следует сделать вывод о значимости различия между групповыми средними, то есть о существенном влиянии фактора А на х. Если различие незначимо, такого вывода сделать нельзя.

 

 

 

5. Многомерное шкалирование 

Многомерное шкалирование можно рассматривать как альтернативу факторному анализу. Целью последнего является поиск и интерпретация "латентных (т.е. непосредственно не наблюдаемых, скрытых) переменных", дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть различия, расстояния или степени связи между ними. В факторном анализе сходства между объектами (например, переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе Многомерного шкалирования дополнительно к корреляционным матрицам, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов.

Задача многомерного шкалирования в самом общем виде состоит в том, чтобы выявить структуру исследуемого множества стимулов. Под выявлением структуры понимается выделение набора основных факторов, по которым различаются стимулы, и описание каждого из стимулов в терминах этих факторов. Процедура построения структуры опирается на анализ объективной или субъективной информации о близостях между стимулами либо информации о предпочтениях на множестве стимулов. В случае анализа субъективных данных решаются одновременно две задачи. С одной стороны, выявляется объективная структура субъективных данных, с другой — определяются факторы, влияющие на процесс принятия решения.

Методы многомерного шкалирования могут использовать разные типы данных: данные о предпочтениях субъекта на множестве стимулов, данные о доминировании, о близостях между стимулами, данные о профилях и т. п. Как правило, с каждым типом данных принято соотносить определенную группу методов их обработки. Однако такое соотнесение не должно быть слишком жестким, поскольку часто не представляет особого труда перейти от одного типа данных к другому. Так, например, данные о профилях можно легко преобразовать в данные о близостях, для этого необходимо только воспользоваться подходящей метрикой. Данные о предпочтениях содержат в себе информацию о доминировании. С другой стороны, подсчитав корреляции между столбцами матрицы предпочтений, получим матрицу близостей между стимулами, а корреляции между строками той же матрицы дадут нам матрицу близостей между субъектами. В настоящей работе будет обсуждаться только анализ близостей.

В основе многомерного шкалирования лежит идея геометрического представления стимульного множества. Предположим, что нам задано координатное пространство, каждая ось которого соответствует одному из искомых факторов. Каждый стимул представляется точкой в этом пространстве, величины проекций этих точек на оси соответствуют значениям или степеням факторов, характеризующих данный стимул. Чем больше величина проекций, тем большим значением фактора обладает стимул. Мера сходства между двумя стимулами обратна расстоянию между соответствующими им точками. Чем ближе стимулы друг к другу, тем выше мера сходства между ними (и ниже мера различия), далеким точкам соответствует низкая мера сходства. Чтобы точным образом измерить близости, необходимо ввести метрику в искомом координатном пространстве; выбор этой метрики оказывает большое влияние на результат решения.

Рассмотрим Пример - Зрительное восприятие букв русского алфавита

Пятидесяти субъектам предъявлялись попарно восемнадцать букв русского алфавита, и они оценивали близость в каждой паре в терминах «похожи—непохожи». В результате были получены пятьдесят матриц сходств, которые затем были обработаны методом многомерного шкалирования. Анализ конфигурации, приведенной на слайде, позволяет, во-первых, выделить группы букв, сходных с точки зрения субъектов, и, во-вторых, выявить два фактора, которыми руководствовались субъекты при вынесении суждений о сходствах. Легко различить три «чистых» группы букв, состоящих из остроугольных элементов (К, У, М, Л, А, И), из прямоугольных элементов (И, П, Д, Т, Г, Е), из круглых элементов (О, С), и одну «смешанную», состоящую из букв, включающих элементы двух типов—прямые и круглые (Б, В, Р), и расположенную между группой букв из круглых элементов и группой букв из прямоугольных элементов. Промежуточное положение заняла буква 3, она расположилась между группой круглых и группой комбинированных букв, в частности из последних ближе всего к В. Буква Е заняла в группе прямых крайнюю позицию, примыкая к комбинированным Б и В.

Что касается факторов, то один из них оказалось возможным интерпретировать как наличие только прямых элементов—наличие только круглых элементов; в середине расположились буквы, состоящие из прямых и круглых элементов одновременно. Второй фактор интерпретируется как наличие остроугольных элементов — наличие прямоугольных элементов.

 

Как и в Факторном анализе, ориентация осей может быть выбрана произвольной. Таким образом, окончательная ориентация осей на плоскости или в пространстве является, в большей степени результатом содержательного решения в конкретной предметной области (т.е. решением пользователя, который выберет такую ориентацию осей, которую легче всего интерпретировать).

Многомерное шкалирование - это не просто определенная процедура, а скорее способ наиболее эффективного размещения объектов, приближенно сохраняющий наблюдаемые между ними расстояния. Другими словами, Многомерное шкалирование размещает объекты в пространстве заданной размерности и проверяет, насколько точно полученная конфигурация сохраняет расстояния между объектами. Говоря более техническим языком, Многомерное шкалирование использует алгоритм минимизации некоторой функции, оценивающей качество получаемых вариантов отображения.

Мерой качества отображения называется стресс, то есть мерой, наиболее часто используемой для оценки качества подгонки модели (отображения), измеряемого по степени воспроизведения исходной матрицы сходств, это и есть –так называемый стресс. Величина стресса обозначает неметрическое монотонное преобразование исходных данных (расстояний). Таким образом, Многомерное шкалирование воспроизводит не количественные меры сходств объектов, а лишь их относительный порядок.

Обычно используется одна из несколько похожих мер сходства. Тем не менее, большинство из них сводится к вычислению суммы квадратов отклонений наблюдаемых расстояний (либо их некоторого монотонного преобразования) от воспроизведенных расстояний. Таким образом, чем меньше значение стресса, тем лучше матрица исходных расстояний согласуется с матрицей результирующих расстояний.

Можно построить для текущей конфигурации точек график зависимости воспроизведенных расстояния от исходных расстояний. Такая диаграмма рассеяния называется диаграммой Шепарда. По оси ординат OY показываются воспроизведенные расстояния (сходства), а по оси OX откладываются истинные сходства (расстояния) между объектами (отсюда обычно получается отрицательный наклон). На этом график также строится график ступенчатой функции. Как уже упоминалось ранее, в принципе, ориентация осей в методе Многомерного шкалирования может быть произвольной, и систему координат можно повернуть в любом направлении. Поэтому на первом шаге получают диаграмму рассеяния точек, соответствующих объектам, на различных плоскостях.

 

Трехмерные решения также можно проинтерпретировать графически.

 

Однако эта интерпретация является несколько более сложной.

Заметим, что в дополнение к существенным осям координат, также следует искать кластеры точек, а также те или иные конфигурации точек (окружности, многообразия и др.).

"Красота" метода Многомерного шкалирования в том, что вы можете анализировать произвольный тип матрицы расстояний или сходства. Эти сходства могут представлять собой оценки экспертов относительно сходства данных объектов, результаты измерения расстояний в некоторой метрике, процент согласия между судьями по поводу принимаемого решения, количество раз, когда субъект затрудняется различить стимулы и мн. др. Например, методы Многомерное шкалирование весьма популярны в психологическом исследовании восприятия личности. В этом исследовании анализируются сходства между определенными чертами характера с целью выявления основополагающими личностных качеств. Также они популярны в маркетинговых исследованиях, где их используют для выявления числа и сущности латентных переменных (факторов), например, с целью изучения отношения людей к товарам известных торговых марок.

В общем случае, методы Многомерного шкалирования позволяют исследователю задать клиентам в анкете относительно ненавязчивые вопросы ("насколько похож товар фирмы A на товар фирмы B") и найти латентные переменные для этих анкет незаметно для респондентов.

Даже несмотря на то, что имеется много сходства в характере исследуемых вопросов, методы Многомерное шкалирование и факторного анализа имеют ряд существенных отличий. Так, факторный анализ требует, чтобы исследуемые данные подчинялись многомерному нормальному распределению, а зависимости были линейными. Методы Многомерного шкалирования не накладывают таких ограничений. Метод Многомерное шкалирование может применяться, пока сохраняет смысл порядок следования рангов сходств. В терминах различий получаемых результатов, факторный анализ стремится извлечь больше факторов (координатных осей или латентных переменных) по сравнению с Многомерным шкалированием; в результате чего Многомерное шкалирование часто приводит к проще интерпретируемым решениям. Однако более существенно то, что методы Многомерного шкалирования можно применять к любым типам расстояний или сходств, тогда как методы факторного анализа требуют, чтобы первоначально была вычислена матрица корреляций. Методы Многомерное шкалирование могут быть основаны на прямом оценивании сходств между стимулами субъектов, тогда как факторный анализ требует, чтобы субъекты были оценены через их стимулы по некоторому списку атрибутов.

Суммируя вышесказанное, можно сказать, что методы Многомерное шкалирование потенциально применимы к более широкому классу исследовательских задач.

Рассмотрим следующий пример (на слайде) 2005 года.

Предпочтения в использовании крупной денежной суммы

 

Анализ ответов респондентов с использованием процедур многомерного шкалирования показал, что у населения существуют четыре наиболее распространенные стратегии использования денежных средств. Их условно можно назвать потребление, сбережение, страхование и развитие.

Потребление – развлечения, удовольствия, турпоездки, покупка земли, дома, приобретение вещей для дома.

Сбережение – отложу надолго, чтобы накопить на дорогие вещи, драгоценности, золото, депозит в банке, покупка акций, ценных бумаг, что-то другое.

Страхование – страховой полис, отложу «про запас», лечение.

Развитие – вложение в собственное дело, предприятие, возвращение долгов, образование, переквалификация.

Другой пример - Поиск работы фрилансерами - результаты многомерного шкалирования:

  • биржи удаленной работы
  • постоянные заказчики, рекомендации друзей, знакомых
  • форумы, блоги, социальные сети
  • рекомендации бывших заказчиков, клиентов
  • собственный сайт

На диаграмме видно как распределились источники работы между социальными сетями и рынком.

 

 

Еще один интересный пример многомерного шкалирования.

Евразийский генофонд (на слайде) подразделен на «западный мир» и «восточный мир» Евразии. Генофонд Западного Кавказа, вошедший в «западный мир», оказался наиболее близок к генофонду народов Юго-Западной Азии и Восточному Кавказу. При этом народы Западного Кавказа генетически ближе к населению Балкан, чем Закавказья. Генетические расстояния от генофонда Западного Кавказа до Южной Европы  меньше, чем до Восточной.

 

На рисунке - Положение региональных генофондов Евразии по шести диаллельным аутосомным ДНК маркерам

Примечания: диаграмма двумерного шкалирования; число итераций–52; величина стресса Sо=0,04; кривая Шепарда удовлетворительна.

Еще более генетически удалены от Западного Кавказа генофонды Приуралья и Южного Урала. Максимально генетически далеки от Западного Кавказа генофонды Сибири, Дальнего Востока  и Восточной Азии. Полученные результаты согласуются с удаленностью изученных регионов от Западного Кавказа и в географическом, и антропоисторическом пространстве.

Регионы «восточного» кластера на графике двумерного шкалирования образуют два практически равнобедренных треугольника. Вершиной обоих треугольников оказался генофонд коренных народов Сибири, а основания образованы генофондами народов Центральной и Восточной Азии, Дальнего Востока и Южной Азии: генетические расстояния от этих регионов восточного ствола Евразии до Сибири минимальны.

На этом графике ярко видно, что граница между западным и восточным «мирами» евразийского генофонда проходит по Зауралью. При этом Зауралье представляет собой не просто промежуточную, переходную зону смешений – оно явно отличается и собственным генетическим своеобразием, не сводимым только к чертам Западной и Восточной Евразии. Народы Приуралья оказываются «на полпути» от народов Зауралья к народам Западной Евразии, к которой они в целом принадлежат.

Итак, по диаллельным ДНК маркерам генофонд народов региона Западного Кавказа оказался наиболее близок к генофондам Юго-Западной Азии, Восточному Кавказу, Закавказью, Балканам, Южной и Восточной Европе. Более значительны генетические расстояния от Западного Кавказа до генофонда Приуралья. Обнаружена одинаковая генетическая удаленность Западного Кавказа от Южного Урала и Западной Европы.

Методы многомерного шкалирования предназначены для анализа структуры субъективных данных. Они позволяют выявить факторы, лежащие в основе сходств и различий между стимулами, и построить модель принятия решения о сходствах. Следует заметить, что методы многомерного шкалирования работают только в том случае, когда сходства или различия между всеми стимулами исследуемого множества порождаются одной закономерностью. Когда же при сравнении одной пары стимулов субъект опирается на одну систему факторов, а при сравнении другой пары — на другую, многомерное шкалирование удовлетворительного результата дать не может. Кроме того, решение будет существенно зависеть от предлагаемого набора стимулов (контекста). Одни и те же стимулы, включенные в разные наборы, могут описываться разными факторами. Это обстоятельство является следствием того факта, что различия между стимулами одного набора могут характеризоваться расхождениями по одним факторам, а различия между стимулами другого набора — расхождениями по другим факторам. Так, если мы будем предъявлять испытуемому стимулы одинаковой формы, но разного цвета, он при сравнении будет обращать внимание только на цвет. Если мы будем в то же время варьировать стимулы по форме, то испытуемый будет принимать во внимание также и форму. Итак, что с помощью предлагаемой процедуры многомерного шкалирования можно выявить только те факторы, по которым различается стимулы исследуемого набора, но нельзя выявить факторы, по которым все они сходны.

 

 


 

Литература:

1.  Теория вероятностей и математическая статистика. Гмурман В. Е. Учебное пособие для вузов. – Изд. 10-е, стер. – М.: Высш. шк., 2010. – 479с.

2.  Мятлев В.Д., Панченко Л.А., Ризниченко Г.Ю., Терехин А.Т. Теория вероятностей и математическая статистика. Математические модели –М.: изд. «Академия», 2009г (и последующие издания).

3.  Высшая математика в упражнениях и задачах. Учебное пособие для вузов / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 ч. – Изд. 6-е, стер. – М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и образование» , 2007. – 416с.

4. Баврин И.И. Теория вероятностей и математическая статистика: учебник. М.: Высшая школа 2005г

5. http://ivan-shamaev.ru/factor-analysis-methods/ - методы факторного анализа  

6. http://cyber.econ.spbu.ru/uchebniki/statistica/modules/stdiscan.html - дискриминантный анализ

7. http://www.v-stat.ru/metody/mnogomernyi-analiz-dannyh/ - многомерный анализ данных

8. http://www.aup.ru/books/m93/4_4.htm - статистические методы контроля качества