Анализ статистических взаимосвязей

Анализ данных

Контрольные вопросы по предмету

0


Подпишитесь на бесплатную рассылку видео-курсов:

Смотреть лекцию по частям


Текст видеолекции

Лекция 1.

Анализ статистических взаимосвязей.

1)                      Общие понятия об изучении связей

2)                      Статистические (корреляционные) зависимости

3)                      Линейная корреляция

4)                      Множественная корреляция

5)                      Специальные средства для выполнения корреляционного анализа

 

Контрольно-оценочное средство – тестовые задания

 

1. Общие понятия об изучении связей.

Задачи статистики состоят в выявлении связи, определении ее направления и ее измерении. Наиболее же общая задача – это прогнозирование и регулирование социально-экономических явлений на основе полученных представлений о связях между явлениями. Изучение механизма рыночных связей, взаимодействия спроса и предложения, влияние объема и состава предложения товаров на объем и структуру товарооборота, формирование товарных запасов, издержек обращения, прибыли и других качественных показателей имеет первостепенное значение для прогнозирования конъюнктуры рынка, рациональной организации производственных процессов и решения многих вопросов успешного ведения бизнеса.

Статистика рассматривает экономический закон как существенную и устойчивую связь между определенными явлениями и процессами. Познавая связи, статистика познает законы. А их знание позволяет управлять общественным развитием. Основой изучения связей является качественный анализ.

Различают два вида признаков:

(1) Факторные – те, которые влияют на изменение других процессов.

(2) Результативные – те, которые изменяются под воздействием других признаков (факторных).

В статистике связи классифицируются по степени их тесноты. Исходя из этого различают функциональную (полную) и статистическую (неполную, корреляционную) связь.

Функциональная связь– такая связь, при которой значение результативного признака целиком определяется значением факторного (например, площадь круга определяется величиной радиуса).Она полностью сохраняет свою силу и проявляется во всех случаях наблюдения и для всех единиц наблюдения. Каждому значению факторного признака соответствует одно или несколько определенных значений результативного признака.

При проведении исследования в биологии или медицине, как правило, регистрируются множество учетных признаков. Представляет интерес вопрос об их взаимном изменении, т.е. обнаружение зависимостей между ними. Выявление наличия таких взаимосвязей является одной из важнейших задач любой науки.

Различают две формы количественных связей между явлениями или процессами: функциональную и корреляционную. Под функциональной понимают такую связь, при которой любому значению одного из признаков соответствует строго определенное значение другого. В точных науках, таких, как физика, химия и другие, может быть установлена функциональная взаимосвязь. Например, зависимость объема шара от длины радиуса в стереометрии, или в физике длина пути, пройденной телом в свободном падении, от времени. Наиболее известным видом функциональной зависимости является линейная, которая выражается математической формулой: y = ax+b.

В биологии и медицине установить функциональную зависимость, как правило, не удается. Объекты этих исследований имеют большую изменчивость и зависят от огромного числа факторов, измерить которые просто невозможно. В этом случае определяется наличие КОРРЕЛЯЦИОННОЙ связи, при которой значению каждой средней величины одного признака соответствует несколько значений другого взаимосвязанного с ним признака. Например: связь между ростом и массой тела человека. У группы людей с одинаковым ростом наблюдается различная масса тела, однако она варьирует в определенных пределах вокруг средней величины. Поэтому такую зависимость нужно оценивать с использованием понятия случайной величины с привлечением подходов теории вероятности. Такую форму зависимостей называют «Корреляционной».

Для корреляционной связи характерно то, что одному и тому же значению факторного признака может соответствовать сколько угодно различных значений результативного признака. Здесь связь проявляется лишь при достаточно большом количестве наблюдений и лишь в форме средней величины.

По направлению изменений факторного и результативного признака различают связь прямую и обратную.

Прямая связь – такая связь, при которой с изменением значений факторного признака в одну сторону, в ту же сторону меняется и результативный признак, т. е. при увеличении одного признака увеличивается второй.

Обратная связь – такая связь, при которой с увеличением (уменьшением) факторного признака происходит уменьшение (увеличение) результативного признака, т.е. при увеличении одного признака второй уменьшается.

По аналитическому выражению выделяются две основные формы связи:

прямолинейная (выражается уравнением прямой);

криволинейная (описывается уравнениями кривых линий – гипербол, парабол, степенных функций).

Кроме того связи могут быть однофакторными (результативная переменная зависит от одного фактора или переменной) и многофакторными (результативная переменная зависит от нескольких факторов взятых в комбинации).

Способами выявления корреляционной взаимосвязи между признаками являются:

-  Визуальные (таблицы и графики).

-  Статистические (корреляция и регрессия).

В статистике различают так называемые описательные (механические), компонентные и факторные методы.

К описательным методам относятся:

(1) метод приведения параллельных рядов,

(2) балансовый метод,

(3) графический метод,

(4) метод аналитической группировки.

К компонентным относится (5) индексный метод.

К факторным методам относятся (6) корреляционно - регрессионные методы.

Кроме того, существует группа так называемых (7) непараметрических методов, основанных на вычислении различных коэффициентов.

 

Наибольший эффект достигается при комбинировании нескольких методов.

(1) Метод приведения параллельных рядов

Приводится ряд данных по одному признаку и параллельно с ним – по другому признаку, связь с которым предполагается.

Исходные данные по признаку X располагаются в порядке возрастания или убывания, а по признаку Y записываются соответствующие им показатели. Путем сопоставления значений X и Y, делается вывод о наличии и направлении зависимости. По вариации признака в первом и втором ряду судят о наличии связи признаков. Такой метод позволяет вывести только направление связи, но не измерить ее.

(2) Балансовый метод

Взаимосвязь может быть также охарактеризована с помощью балансов.

Балансовая связь — характеризует зависимость между источниками формирования ресурсов (средств) и их использованием. Например, балансовая связь может быть выражена следующей записью (баланс материальных ресурсов на предприятии).

Балансовой связью можно воспользоваться для расчета недостающих показателей, например в качестве примера приведем баланс межрайонного грузообмена какого-либо продукта.

 

(3) Графический метод

Сущность графического метода составляет наглядное представление наличия и направления взаимосвязей между признаками. Для этого значение факторного признака X располагается по оси абсцисс, а значение результативного признака по оси ординат. По совместному расположению точек на графике делают вывод о направлении и наличии зависимости. При этом возможны следующие варианты:

Если точки на графике расположены беспорядочно, то зависимость между изучаемыми признаками отсутствует.

Если точки на графике концентрируются вокруг восходящей прямой, зависимость между признаками прямая.

Если точки концентрируются вокруг нисходящей прямой, то это свидетельствует о наличии обратной зависимости.

На основе метода параллельных данных и графического метода, могут быть рассчитаны показатели, характеризующие степень тесноты корреляционной зависимости.

 

(4) Метод аналитической группировки

Сначала выбираются два признака: факторный и результативный. По факторному признаку производится группировка, а по результативному – подсчет средних или относительных величин.

Путем сопоставления характера изменений значений факторного и результативного признака можно сделать вывод о наличии связи и ее направлении. При помощи метода аналитической группировки можно сделать вывод и о тесноте связи.

Это наиболее простой способ иллюстрации зависимости между двумя величинами — построение таблиц, показывающих, как при изменении одной величины меняется другая.

Пример: среднегодовая заработная плата работников предприятий отрасли.

Другой пример: Таблица, показывающая соотношение Производство молока в год. тыс. тонн. и Выработка продукции на 1 работающего, тыс. руб.

Таблицы показывают лишь согласованность в изменении двух величин, наличие связи. Но она не определяет ни тесноту связи, ни форму этой связи.

5) Компонентные связи показателей коммерческой деятельности характеризуются тем, что изменение статистического показателя определяется изменением компонентов, входящих в этот показатель, как множители:

 

В статистике коммерческой деятельности компонентные связи используются в индексном методе. Например, индекс товарооборота в фактических ценах  представляет произведение двух компонентов — индекса товарооборота в сопоставимых ценах и индекса цен. Важное значение компонентной связи состоит в том, что она позволяет определять величину одного из неизвестных компонентов.

 

 

 

 

2. Статистические (корреляционные) зависимости.

Мы уже перечислили основные методы установления корреляционных зависимостей. Рассмотрим более подробнее непараметрические методы изучения связей.

Степень взаимосвязи признаков по силе (тесноте) принято обозначать как:

-  Отсутствие;

-  Слабая;

-  Средняя;

-  Сильная;

-  Полная.

Следует подчеркнуть, что обнаружение корреляции между двумя признаками еще не говорит о существовании причинной связи между ними, а лишь указывает на возможность таковой или на наличие фактора, определяющего изменение обеих переменных совместно.

Приёмы визуализации данных позволяют обнаружить корреляционную зависимость лишь при небольшом числе наблюдений и только приблизительно. Для обнаружения корреляционной взаимосвязи с помощью таблицы в ней располагают ранжированные вариационные ряды и затем определяют совместное изменение признаков. График более наглядно демонстрирует такую зависимость и позволяет оценить ее форму: линейная, параболическая, тригонометрическая и др.

Наиболее точным способом обнаружения взаимосвязи между признаками является вычисление коэффициента корреляции. В зависимости от природы обрабатываемых данных применяются параметрические или непараметрические методы вычисления этого коэффициента.

При вычислении коэффициента корреляции исследователь получает возможность судить о силе связи (степени сопряженности) и ее направлении, а также с требуемой долей вероятности делать вывод о проявлении этой связи в генеральной совокупности. Чем больше коэффициент корреляции, тем с большей степенью уверенности можно говорить о наличии корреляционной зависимости между признаками. Если каждому заданному значению одного признака соответствуют близкие друг к другу, тесно расположенные около средней величины значения другого признака, то связь является более тесной. Когда эти значения сильно варьируют, связь менее тесная. Таким образом, мера корреляции указывает, насколько тесно связаны между собой параметры.

Коэффициент корреляции может принимать значения от -1 до +1. Направление обнаруженной взаимосвязи определяют по знаку коэффициента корреляции. При его положительном значении обнаруженная связь является прямой, при отрицательном – обратной. Сила связи оценивается по модулю этого коэффициента. Условно выделяют следующие уровни корреляционной связи: отсутствие – 0; слабая – от 0 до 0,3; средняя – от 0,3 до 0,7; сильная – 0,7 и более; полная – 1. Однако обсуждать наличие корреляции имеет смысл только в тех случаях, когда она статистически значима (p<0,05). Поэтому после вычисления коэффициента корреляции производится определение его ошибки репрезентативности и критерия достоверности.

Наиболее часто применяемыми в настоящее время методами обнаружения корреляции являются параметрический анализ по Пирсону и непараметрический анализ по Спирмену. Этими методами проверяется нулевая гипотеза (H0) об отсутствии связи между параметрами. Если такая гипотеза отклоняется при заданном уровне значимости, можно говорить о наличии взаимосвязи между параметрами.

Корреляционный анализ по Пирсону используется при решении задачи исследования линейной связи двух нормально распределенных параметров. Кроме проверки на нормальность распределения каждого параметра, до проведения корреляционного анализа рекомендуется строить график в координатах оцениваемых параметров, чтобы визуально определить характер зависимости.

Наиболее простым из них является вычисление коэффициента знаков Фехнера. Он рассчитывается по формуле:

 

C - сумма совпадающих знаков отклонений индивидуальных значений признака от средней.

H - сумма несовпадений

Данный коэффициент изменяется в пределах (-1;1).

Значение KF=0 свидетельствует об отсутствии зависимости между изучаемыми признаками.

Если KF=±1, то это говорит о наличии функциональной прямой (+) и обратной (-) зависимости. При значении KF > 0,6 делается вывод о наличии сильной прямой (обратной) зависимости между признаками.

Их еще называют ранговыми методами. Они связаны с расчетами различных коэффициентов. Применяются как отдельно, так и совместно с параметрическими. Особенно эффективны непараметрические методы, когда необходимо измерить связь между качественными признаками. Они проще в вычислении и не требуют никаких предположений о законе распределения исходных статистических данных, т.к. при их расчете оперируют не самими значениями признаков, а их рангами, частотами, знаками и т.д.

Далее Коэффициенты ассоциации и контингенции.

Для исследования взаимосвязи качественных альтернативных признаков, принимающих только 2 взаимоисключающих значения и состоящих только из двух групп, используется коэффициенты ассоциации и контингенции. При расчете этих коэффициентов составляется т.н. таблица 4-х камней.

1) коэффициент ассоциации - как мера тесноты связи применяется для изучения связи двух качественных признаков, состоящих только из двух групп.

2) коэффициент контингенции (сопряженности) - равен коэффициенту корреляции между X и Y и служит для измерения силы связи показателей, измеренных в номинальной шкале

Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если или .

Если признаки имеют 3 или более градаций, то для изучения взаимосвязей используются коэффициенты Пирсона и Чупрова. Они рассчитываются по формулам:

С - коэффициент Пирсона

 

К - коэффициент Чупрова

 

j - показатель взаимной сопряженности

K1 - число значений (групп) первого признака

K2 - число значений (групп) второго признака

 

fij - частоты соответствующих клеток таблицы

mi - столбцы таблицы

nj - строки

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА (rxy) или коэффициент линейной корреляции, был разработан в 90-х годах XIX века Карлом Пирсоном и его последователями в Англии. Он рассчитывается по формуле:

 

Иногда используется упрощенная запись этой формулы:

 

Отсутствие линейной корреляции еще не означает, что параметры полностью независимы. Связь между ними может быть нелинейной, или признаки, используемые в вычислениях, могут не подчиняться нормальному закону распределения. Поэтому, помимо вычисления коэффициента линейной корреляции, прибегают к использованию непараметрических коэффициентов корреляции, которые мы уже перечисляли. К ним относятся:

-             Коэффициент ранговой корреляции Спирмена;

-             Коэффициент ранговой корреляции Кендалла;

-             Коэффициент корреляции знаков Фехнера;

-             Коэффициент множественной ранговой корреляции (конкордации).

При ранжировании качественных признаков с целью изучения их взаимосвязи используется коэффициент корреляции Кэндалла.

 

n - число наблюдений

S - сумма разностей между числом последовательностей и числом инверcий по второму признаку.

S=P+Q

P - сумма значений рангов, следующих за данными и превышающих его величину

Q - сумма значений рангов, следующих за данными и меньших его величины (учитывается со знаком «-»).

При наличии связанных рангов формула коэффициента Кендалла будет следующей:

 

Vx и Vy определяются отдельно для рангов X и Y по формуле:

 

Объекты ранжирования могут быть либо все разными с точки зрения выраженности в них заданного свойства, либо некоторые объекты могут быть неразличимыми, как в случае только что рассмотренных примеров измерения по порядковой шкале. В первом случае все ранги будут различны, а во втором случае появятся одинаковые ранги. Они называются связанными рангами.

Коэффициент Спирмена (ранговый коэффициент)

Один из простых показателей тесноты корреляционной зависимости — показатель корреляции рангов. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ПО СПИРМЕНУ применяется для обнаружения взаимосвязи двух параметров, если распределение хотя бы одного из них отлично от нормального.

Каждому показателю x и y присваивается ранг. На основе полученных рангов рассчитываются их разности d. Затем вычисляется коэффициент корреляции (ρ) по формуле:

Но в ряде случаев, как видно из той же таблицы, увеличение товарооборота ведет и к уменьшению издержек обращения, поскольку, помимо двух названных величин, в реальном процессе торговли участвуют и другие факторы, которые в рассмотрение не включены и носят случайный характер.

Рассмотрим критерий тесноты связи, названный показателем корреляции рангов. От величин абсолютных перейдем к рангам по такому правилу: самое меньшее значение — ранг 1, затем 2 и т.д. Если встречаются одинаковые значения, то каждое из них заменяется средним.

Построим разности между рангами и возведем их в квадрат.

1. Если ранги совпадают, то ясно, что сумма их квадратов равна 0.

 

Связь полная, прямая.

2. Ранги образуют обратную последовательность

В этом случае

Связь полная, обратная.

Показатель корреляции рангов определяется по формуле:

 

Показатель показывает, как отличается полученная при наблюдении сумма квадратов разностей между рангами от случая отсутствия связи.

Проанализируем показатель корреляции рангов.

1. Связь полная и прямая, и

2. Связь полная и обратная, и

3. Все остальные значения лежат между -1 и +1.

 

Таким образом, мы выполнили обзор методов установки корреляционной зависимости с помощью различных способов.

Корреляционный анализ – раздел математической статистики, исследующий корреляционные зависимости. Корреляционный анализ изучает усредненный закон поведения каждой из величин в зависимости от значений другой величины, а также меру такой зависимости.

 

 

 

 

 

 

 

 

 

 

 

 

3. Линейная корреляция.

Термин "корреляция" впервые применил французский палеонтолог Жорж Кювье, который вывел "закон корреляции частей и органов животных" (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел в 1886 году английский биолог и статистик Френсис Гальтон (не просто связь - relation, а "как бы связь" - co-relation). Однако точную формулу для подсчёта коэффициента корреляции разработал его ученик - математик и биолог - Карл Пирсон (1857 -1936).

Корреляционным называется исследование, проводимое для подтверждения или опровержения гипотезы о статистической связи между несколькими (двумя и более) переменными. В психологии переменными могут выступать психические свойства, процессы, состояния и др.

"Корреляция" в прямом переводе означает "соотношение". Если изменение одной переменной сопровождается изменением другой, то можно говорить о корреляции этих переменных. Наличие корреляции двух переменных ничего не говорит о причинно-следственных зависимостях между ними, но дает возможность выдвинуть такую гипотезу. Отсутствие же корреляции позволяет отвергнуть гипотезу о причинно-следственной связи переменных. Различают несколько интерпретаций наличия корреляционной связи между двумя измерениями:

1. Прямая корреляционная связь. Уровень одной переменной непосредственно соответствует уровню другой. Примером является закон Хика: скорость переработки информации пропорциональна логарифму от числа альтернатив. Другой пример: корреляция высокой личностной пластичности и склонности к смене социальных установок.

 

2. Корреляция, обусловленная третьей переменной. Две переменные (а, с) связаны одна с другой через третью (в), не измеренную в ходе исследования. По правилу транзитивности, если есть R (а, b) и R (b, с), то R (а, с). Примером подобной корреляции является установленный психологами США факт связи уровня интеллекта с уровнем доходов. Если бы такое исследование проводилось в сегодняшней Российской Федерации, то результаты были бы иными. Очевидно, все дело в структуре общества. Скорость опознания изображения при быстром предъявлении и словарный запас испытуемых также положительно коррелируют. Скрытой переменной, обусловливающей эту корреляцию, является общий интеллект.

 

3. Случайная корреляция, не обусловленная никакой переменной.

 

4. Корреляция, обусловленная неоднородностью выборки. Представим себе, что выборка, которую мы будем обследовать, состоит из двух однородных групп. Например, мы хотим выяснить, связана ли принадлежность к полу с уровнем экстраверсии. Считаем, что "измерение" пола трудностей не вызывает, экстраверсию же измеряем с помощью опросником Айзенка ETI-1. У нас две группы: мужчины-математики и женщины-журналистки. Не удивительно, если мы получим линейную зависимость между полом и уровнем экстраверсии - интроверсии: большинство мужчин будут интровертами, большинство женщин -экстравертами.

 

Корреляция рассматривается как признак, указывающий на взаимосвязь ряда числовых последовательностей. Иначе говоря, корреляция характеризует силу взаимосвязи в данных. Если это касается взаимосвязи двух числовых массивов xt и у, то такую корреляцию называют парной.

При поиске корреляционной зависимости обычно выявляется вероятная связь одной измеренной величины x(для какого-то ограниченного диапазона ее изменения, например от x1 до xn) с другой измеренной величиной у (также изменяющейся в каком-то интервале у1... yn). В таком случае мы будем иметь дело с двумя числовыми последовательностями, между которыми и надлежит установить наличие статистической(корреляционной) связи. На этом этапе пока не ставится задача определить, является ли одна из этих случайных величин функцией, а другая - аргументом. Отыскание количественной зависимости между ними в форме конкретного аналитического выражения - это задача уже другого анализа, регрессионного. Статистический смысл термина значимость означает, что анализируемая зависимость проявляется сильнее, чем это можно было бы ожидать от чистой случайности.

 

Таким образом, корреляционный анализ позволяет сделать вывод о силе взаимосвязи между парами данных х и у, а регрессионный анализ используется для прогнозирования одной переменной (у) на основании другой (х). Иными словами, в этом случае пытаются выявить причинно-следственную связь между анализируемыми совокупностями.

 

Коэффициент корреляции или парный коэффициент корреляции в теории вероятностей и статистике -это мера линейной зависимости двух случайных величин.

Визуализация различных значений коэффициентов коэффициента корреляции.

 

Коэффициент корреляции может изменяться в диапазоне + - 1,0. Коэффициент +1,0 (полная положительная корреляция) означает, что изменения независимой переменной приведут к идентичным изменениям зависимой (т.е. изменение индикатора вызовет такое же изменение цены бумаги). Коэффициент 1,0 (полная отрицательная корреляция) означает, что изменения независимой переменной вызовут идентичные изменения зависимой, но в противоположном направлении. Коэффициент, равный нулю, свидетельствует об отсутствии связи между переменными, то есть изменения независимой переменной не влияют на изменения зависимой.

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между выборками. Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. В этом случае нет строгой, однозначной зависимости между величинами. При изучении стохастических зависимостей различают корреляцию и регрессию. Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема п связанных пар наблюдений (xi, yi) из совместной генеральной совокупности X и Y. Существует несколько типов коэффициентов корреляции, применение которых зависит от измерения (способа шкалирования) величин X и Y.

 

Для оценки степени взаимосвязи величин X и Y, измеренных в количественных шкалах, используется коэффициент линейной корреляции (коэффициент Пирсона), предполагающий, что выборки X и Y распределены по нормальному закону. Корреляционный анализ измеряет степень взаимосвязи между двумя переменными - например, ценой бумаги и индикатором. Полученная величина (именуемая "коэффициент корреляции") показывает, приведут ли изменения одной переменной (например, индикатора) к изменениям другой (например, цены).

При корреляционном анализе двух переменных одна из них называется "зависимая", а другая - "независимая". Цель анализа - определить, приведут ли изменения независимой переменной (обычно это индикатор) к изменениям зависимой (обычно это цена бумаги). Данные корреляционного анализа помогают определить прогностические возможности индикаторов.

 

Посмотрим на пример выполненного корреляционного анализа:

 

Графики рассеивания, иллюстрирующие корреляцию. Эти гипотетические данные принадлежат 10 пациентам, каждый из которых имеет некоторое повреждение участков мозга, ответственных, насколько известно, за узнавание лиц. На рисунке пациенты располагаются вдоль горизонтали соответственно объему повреждения мозга, причем самая левая точка показывает пациента с наименьшим повреждением (10%), а самая правая точка показывает пациента с наибольшим повреждением (55%). Каждая точка на графике отражает показатель для отдельного пациента в тесте на узнавание лиц. Корреляция положительная и равна0,90. На рисунке изображены те же самые данные, но теперь они показывают долю правильных ответов, а не ошибок. Здесь корреляция отрицательная, равная -0,90. На рисунке успехи пациентов в тесте на распознавание отображены в зависимости от их роста. Здесь корреляция равна нулю.

 

Примеры расчета линейной корреляции можно посмотреть на сайтах:

http://www.math-pr.com/exampl_sts3.htm -

http://www.toehelp.ru/theory/ter_ver/9_4/prim/

http://apollyon1986.narod.ru/docs/TViMS/NP/lekziitv/lekziya16.htm

 

 

 

 

 

4. Множественная корреляция.

До сих пор мы рассматривали корреляционные связи между двумя признаками: результативным (у) и факторным (х). Например, выпуск продукции зависит не только от размера основного капитала, но и от уровня квалификации рабочих, состояния оборудования, обеспеченности и качества сырья и материалов, организации труда и т.д. В связи с этим возникает необходимость в изучении, измерении связи между результативным признаком, двумя и более факторными. Этим занимается множественная корреляция.

Множественная корреляция решает три задачи. Она определяет:

- форму связи;

- тесноту связи;

- влияние отдельных факторов на общий результат.

Определение формы связи сводится обычно к отысканию уравнения связно с факторами x,z,w,...v. Так, линейное уравнение зависимости результативного признака от двух факторных определяется по формуле у =a0+a1x+a2z

Для определения параметров а0, a1 и а2, по способу наименьших квадратов необходимо решить систему трех нормальных уравнений с тремя неизвестных.

При определении тесноты связи для множественной зависимости пользуются коэффициентом множественной (совокупной) корреляции, предварительно исчислив коэффициенты парной корреляции. Так, при изучении связи между результативным признаком y и двумя факторными признаками - х и z, нужно предварительно определить тесноту связи между у и х, между у и z, т.е. вычислить коэффициенты парной корреляции, а затем для определения тесноты связи результативного признака от двух факторных исчислить коэффициент множественной корреляции по следующей формуле:

 

где rxy, rzy, rzx - парные коэффициенты корреляции.

Коэффициент множественной корреляции колеблется в пределах от 0 до 1. Чем он ближе к 1, тем в большей мере учтены факторы, определяющие конечный результат.

Если коэффициент множественной корреляции возвести в квадрат, то получим совокупный коэффициент детерминации, который характеризует долю вариации результативного признака у под воздействием всех изучаемых факторных признаков.

Совокупный коэффициент детерминации, как и при парной корреляции, можно исчислить по следующей формуле:

 

где учитываются дисперсия факторных признаков и дисперсия результативного признака.

Однако, вычисление теоретических значений Y при множественной корреляции и сложно, и громоздко. Поэтому факторную дисперсию исчисляют по отдельно.

Проверка существенности связи при множественной корреляции по сути ничем не отличается от проверки при парной корреляции.

Поскольку факторные признаки действуют не изолированно, а во взаимосвязи, то может возникнуть задача определения тесноты связи между результативным признаком и одним из факторных при постоянных значениях прочих факторов. Она решается при помощи частных коэффициентов корреляции. Например, при линейной связи частный коэффициент корреляции между х и у при постоянном z рассчитывается по следующей формуле:

В настоящее время многофакторный корреляционный анализ получил на практике широкое распространение.

Измерение тесноты связи при помощи дисперсионного и корреляционного анализа связано с определенными сложностями и требует громоздких вычислений. Для ориентировочной оценки тесноты связи пользуются приближенными показателями, не требующими сложных, трудоемких расчетов. К ним относятся: коэффициент корреляции знаков Фехнера, коэффициент корреляции рангов, коэффициент ассоциации и коэффициент взаимной сопряженности.

Коэффициент корреляции знаков основан на сопоставлении знаков отклонений от средней и подсчете числа случаев совпадения и несовпадения знаков, а не на сопоставлении попарно размеров отклонений индивидуальных значений факторного и результативного признаков от средней.

Коэффициент корреляции рангов исчисляется не по первичным данным, а по рангам (порядковым номерам), которые присваиваются всем значениям изучаемых признаков, расположенным в порядке их возрастания.

Если значения признака совпадают, то определяется средний ранг путем деления суммы рангов на число значений.

При этих расчетах коэффициент корреляции также колеблется в пределах от -1 до +1. При ранговой корреляции если ранги по обоим признакам совпадают, то сумма=0, значит, с=1 и, следовательно, связь полная прямая. Если с= -1, связь полная обратная, при с=0 связь между признаками отсутствует.

Коэффициент ассоциации применяется для установления меры связи между двумя качественными альтернативными признаками.

Для его вычисления строится комбинационная четырехклеточная таблица, которая выражает связь между двумя альтернативными явлениями.

Коэффициент ассоциации также изменяется от -1 до +1. Чем А ближе к единице, тем сильнее связаны между собой изучаемые признаки. При A = 0 и связь отсутствует.

Коэффициент взаимной сопряженности (контингенции) применяется в тех случаях, когда требуется установить связь между качественными признаками, каждый из которых состоит из трех и более групп.

Различия между условным и безусловным распределением свидетельствуют о влиянии факторного признака на распределение совокупности по результативному признаку, т.е. о наличии связи между факторным и результативным признаками, а чем больше эти различия, тем в большей мере признаки связаны между собой, тем теснее связь между ними.

Для определения степени тесноты связи вычисляется специальный показатель, который называется коэффициентом взаимной сопряженности.

Если же связь функциональная, то коэффициент взаимной сопряженности будет равен единице.

Иногда представляет интерес измерение частных зависимостей (между y и xj) при условии, что воздействие других факторов, принимаемых во внимание, устранено. В качестве соответствующих измерителей приняты коэффициенты частной корреляции.

Рассмотрим порядок расчета коэффициента частной корреляции для случая, когда во взаимосвязи находятся три случайные переменные – xyz. Для них могут быть получены простые коэффициенты линейной парной корреляции – ryx, ryz, rxz. Однако большая величина этого коэффициента может быть обусловлена не только тем, что y и x действительно связаны между собой, но и в силу того, что обе переменные испытывают сильное действие третьего фактора – z.

Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x) при условии, что влияние на них третьего фактора (z) устранено.

Соответствующая расчетная формула:

.

(6.10)

Частный коэффициент корреляции, так же как и парный коэффициент корреляции r (рассчитанный по формуле (6.4)), может принимать значения от -1 до 1.

Пример расчета множественной корреляции - http://ekonometred.ru/bilety-k-ekzamenu-ekonometrika/64-mnozhestvennaya-i-chastnaya-korrelyaciya.html

5. Специальные средства для выполнения корреляционного анализа.

 

В настоящее время существует множество средств для проведения корреляционного анализа. Самым распространенным остается - использование Microsoft Excel с множеством статистических функций для расчетов всех упомянутых в лекции коэффициентов, со встроенным пакетом – Анализ данных на вкладке Данные и достаточным аппаратом визуализации численных значений выборки.

Во многом уникальная программа, содержащая множество не просто математических функций, но и сложных для «ручного расчета» статистических возможностей. Excel позволяет рассчитывать элементы линейной алгебры, теории вероятностей, сложные статистические формулы, всевозможные коэффициенты, практически все характеристики случайных величин (математическое ожидание, дисперсию, среднеквадратическое отклонение и т.д.), логические соотношения с использованием выбора ситуации.

Программа дает возможность составлять и заполнять таблицы с целью выполнения задач интерполяции, экстраполяции и апроксимации и т.п.

Кроме того, Excel содержит аппарат построения графиков, диаграмм и схем, который также предоставляет большие возможности для статистических исследований, графических интерпретаций, плоскостной визуализации различных процессов. Положительным моментом работы программы является дружественный, интуитивно - понятный интерфейс, интеграция графических возможностей в совокупности с вычислительной обработкой большого массива числовых данных, расширенная интерактивность в области построения графиков и диаграмм.

Причем, программа сохраняет все возможности офисного пакета по редактированию и форматированию текста, таблиц и графиков.

Студенты, изучая математические дисциплины с использованием Microsoft Excel, расширяют свой интеллект сразу в нескольких направлениях: увеличивают математический багаж знаний и формируют высокий уровень информационной компетенции. Я пропускаю пока воспитательные моменты обучения и созидание личностных качеств будущего профессионала.

Кроме этого популярностью пользуется программа STATISTIKA с полным набором функций для статистического исследования. Программу STATISTICA можно использовать для решения следующих задач:

- регрессионный анализ, в том числе множественная регрессия,

- регистрационно - линейный анализ таблиц частоты,

- структурное моделирование,

- канонический анализ,

- дискриминантный анализ,

- многомерное масштабирование,

- индустриальная статистика,

- многомерный анализ данных – технология OLAP,

- подсчет вероятностей: распределения случайных величин, корреляционный анализ, подсчет сигмы шесть и т.д.

Данная программа может использовать строенный язык программирования Visual Basic, который расширяет функционал действия программного обеспечения.

 

Подобных программ существует уже достаточное количество, например, известный многим MathCad – система автоматизированного проектирования, позволяющая выполнять различные взаимосвязанные сложные расчеты, воспроизводит графические отображения формул. Данный пакет можно отнести к системе компьютерной алгебры, то есть это еще один пример интеграции математики и информатики.

Реалии современного образования таковы, что изучение практически каждой дисциплины ведется с использованием информационных технологий. В той или иной степени студенты выполняют какой – либо вид работы с помощью компьютерной техники или мобильных технических устройств. Базовых знаний обучающихся хватает на то, чтобы работать по алгоритму, применять компьютер в качестве устройства, автоматизируещего какой-либо процесс, внедрять в жизнь мультимедиа.

Но технологии не стоят на месте, а постоянно развиваются, поэтому современному человеку приходится непрерывно учиться осваивать новые приемы и манипуляции при обработке информации. То есть обучающиеся неуклонно формируют собственные навыки информационной практической деятельности с программным обеспечением и различными девайсами.

Профессиональное обучение высшей школы предполагает высокий уровень информационной компетенции, о чем указано в Федеральных государственных стандартах. Формированию умений при работе с информацией отводится первоочередное значение. Понятно, что на современном этапе развития информационных технологий процесс проведения, какого бы ни было статистического анализа (корреляционного, регрессионного, дисперсионного, проверка статистических гипотез и т.д.), автоматизирован за счет использования специального программного обеспечения. Здесь возможностей достаточно много.

 

Литература:

  1. Теория вероятностей и математическая статистика. Гмурман В. Е. Учебное пособие для вузов. – Изд. 10-е, стер. – М.: Высш. шк., 2010. – 479с.
  2.  Высшая математика в упражнениях и задачах. Учебное пособие для вузов / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 ч. – Изд. 6-е, стер. – М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и образование» , 2007. – 416 с. 
  3. 3.                   http://investments.academic.ru/1079/%D0%9A%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D1%8F#sel= - все о корреляции