Регрессионный анализ

Анализ данных

Контрольные вопросы по предмету

0


Подпишитесь на бесплатную рассылку видео-курсов:

Смотреть лекцию по частям


Текст видеолекции

Лекция 3.

Регрессионный анализ.

1)      Числовые характеристики регрессии

2)      Линейная регрессия

3)      Нелинейная регрессия

4)      Множественная  регрессия

5)      Использование MS EXCEL для выполнения регрессионного анализа

 

Контрольно-оценочное средство – тестовые задания

 

1. Числовые характеристики регрессии

 

Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных  на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения.

Цели регрессионного анализа

  • Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными).
  • Предсказание значения зависимой переменной с помощью независимой(-ых).
  • Определение вклада отдельных независимых переменных в вариацию зависимой.

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Для проведения регрессионного анализа первоначально необходимо познакомиться с базовыми понятиями статистики и теории вероятности.

Основные числовые характеристики дискретных и непрерывных случайных величин: математическое ожидание, дисперсия и среднее квадратическое отклонение.

Случайные величине делят на две разновидности:

  • · дискретные, которые могут принимать только конкретные, заранее оговоренные значения (например, - значения чисел на верхней грани брошенной игральной кости или порядковые значения текущего месяца);
  • · непрерывные (чаще всего - значения некоторых физических величин: веса, расстояния, температуры и т.п.), которые по законам природы могут принимать любые значения, хотя бы и в некотором интервале.

Закон распределения случайной величины - это соответствие между возможными значениями дискретной случайной величины и ее вероятностями, обычно записывается в таблицу:

Хi

Х1

Х2

Хn

Pi

Р1

Р2

Pn

Статистическое определение вероятности выражается через относительную частоту случайного события, то есть находится как отношение количества случайных величин к общему числу случайных величин.

Математическим ожиданием дискретной случайной величины X называется сумма произведений значений величины X на вероятности этих значений. Математическое ожидание обозначают   или M(X).

                                                    n 

 = M(X) = x1 p1+x2 p2+… + xn pnS xi pi 

                                                  i=1

       Рассеяние случайной величины относительно её математического ожидания определяется с помощью числовой характеристики, называемой дисперсией. Проще говоря, дисперсия – это разброс случайной величины относительно среднего значения. Для понятия сущности дисперсии рассмотрим пример. Средняя заработная плата по стране составляет около 25 тысяч рублей. Откуда берется эта цифра? Скорее всего, складываются все зарплаты и делятся на количество работников. В данном случае очень большая дисперсия (минимальная зарплата около 4 тыс. руб., а максимальная – около 100 тыс. руб.). Если бы зарплата у всех была одинаковой, то дисперсия была бы равна нулю, и разброса бы не было.

       Дисперсией дискретной случайной величины X называют математическое ожидание квадрата разности случайной величины и её математического ожидания:

D = M [ ( ( X – M (X) )2 ]

       Используя определение математического ожидания для вычисления дисперсии, получаем формулу:

      n

D = S (xi – M (X))2 · pi

     i=1

        Дисперсия имеет размерность квадрата случайной величины. В тех случаях, когда нужно иметь числовую характеристику рассеяния возможных значений в той же размерности, что и сама случайная величина, используют среднее квадратичное отклонение.

      Средним квадратичным отклонением случайной величины называют корень квадратный из её дисперсии.

s =

Среднее квадратичное отклонение есть мера рассеяния значений случайной величины около ее математического ожидания.

Пример.

Закон распределения случайной величины Х задан следующей таблицей:

Х

1

2

4

5

Р

0,1

0,4

0,4

0,1

Найти её математическое ожидание, дисперсию и среднее квадратичное отклонение.

Решение:

Используем приведенные выше формулы:

 = М (Х) = 1 · 0,1 + 2 · 0,4 + 4 · 0,4 + 5 · 0,1 = 3

D = ( 1-3 )2 · 0,1 + ( 2 – 3 )2 · 0,4 + ( 4 – 3 )2 · 0,4 + ( 5 – 3 )2 · 0,1 = 1,6

s = = 1,26

Пример.

В денежной лотерее разыгрывается 1 выигрыш в 1000 рублей, 10 выигрышей по 100 рублей и 100 выигрышей по 1 рублю при общем числе билетов 10000. Составьте закон распределения случайного выигрыша Х для владельца одного лотерейного билета и определите математическое ожидание, дисперсию и среднее квадратичное отклонение случайной величины.

Решение:

X1 = 1000, Х2 = 100, Х3 = 1, Х4 = 0,

 

Р1 = 1/10000 = 0,0001, Р2 = 10/10000 = 0,001, Р3 = 100/10000 = 0,01, Р4 = 1 - (Р1 + Р2+ Р3) = 0,9889.

 

Результаты поместим в таблицу:

Х

1000

100

1

0

P

0,0001

0,001

0,01

0,9889

Математическое ожидание - сумма парных произведений значения случайной величины на их вероятность. Для данной задачи его целесообразно вычислить по формуле 

=   i pi  .

  = 1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 рубля.

Получили настоящую «справедливую» цену билета.

        n

D = S (xi – M (X))2 · pi = (1000 – 0,21)2 • 0,0001 + (100 – 0,21)2 • 0,001 +

i=1

+ (1 – 0,21)2 • 0,01 + (0 – 0,21)2 • 0,9889 ≈ 109,97

s =  ≈ 10,49

 

Функция распределения непрерывных случайных величин

Величину, которая в результате испытания примет одно возможное значение (при этом заранее неизвестно какое), называется случайной величиной. Как говорилось выше, случайные величины бывают дискретные (прерывные) и непрерывные.

Дискретной называют случайную величину, принимающую отдельные друг от друга возможные значения с определенными вероятностями, которые можно пронумеровать.

Непрерывной называют случайную величину, которая может принимать все значения из некоторого конечного или бесконечного интервала.

До этого момента мы ограничивались только одной “разновидностью” случайных величин – дискретных, т.е. принимающих конечные значения.

Но теория и практика статистики требуют использовать понятие непрерывной случайной величины – допускающей любые числовые значения, из какого - либо интервала.

Закон распределения непрерывной случайной величины удобно задавать с помощью так называемой функции плотности вероятности. f (х). Вероятность Р (a < X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

                       b

Р (a < X < b) = ∫ f(x)dx 

                       a

График функции f (х) называется кривой распределения. Геометрически вероятность попадания случайной величины в промежуток (a; b), равна площади соответствующей криволинейной трапеции, ограниченной кривой распределения, осью Ох и прямыми х = а, х = b.

 

P(a£X<b)=P(a£X£b)=F(b)-F(a)

Если от сложного события вычесть конечное либо счетное множество, вероятность наступления нового события останется неизменной.

Функция f(x) - числовая скалярная функция действительного аргумента x называется плотностью вероятности, и существует в точке x, если в этой точке существует предел:

 

Свойства плотности вероятности:

  1. Плотность вероятности является неотрицательной функцией, т. е. f(x) ≥ 0

 

 

(если все значения случайной величины Х заключены в промежутке (a;b), то последнее

                                           b

равенство можно записать в виде ∫ f (x) dx = 1).

                                          a

Рассмотрим теперь функцию F(х) = Р (Х < х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) – функция плотности распределения вероятности

                                                                 х

непрерывной случайной величины Х, то    F (х) = ∫ f(x) dx = 1).

                                                                - ∞

Из последнего равенства следует, что f (x) = F' (x)

Иногда функцию f(x) называют дифференциальной функцией распределения вероятности, а функцию F(x) – интегральной функцией распределения вероятности.

Отметим важнейшие свойства функции распределения вероятности:

  1. F (х) – неубывающая функция.
  2. F (- ∞) = 0.
  3. F (+ ∞) = 1.

Понятие функции распределения является центральным в теории вероятностей. Используя это понятие, можно дать другое определение непрерывной случайной величины. Случайная величина называется непрерывной, если ее интегральная функция распределения F(х) непрерывна.

Числовые характеристики непрерывных случайных величин

Математическое ожидание, дисперсия и другие параметры любых случайных величин практически всегда вычисляются по формулам, вытекающим из закона распределения.

Для непрерывной случайной величины математическое ожидание вычисляется по формуле:

             ∞

М (Х) = ∫ x · f(x) dx

           - ∞

Дисперсия:

           ∞                                               ∞

D (X) = ∫ (x -  М (Х)) 2f(x) dx  или  D (X) = ∫ x2f(x) dx(М (Х))2

           - ∞                                           - ∞

 

 

 

 

 

2. Линейная регрессия

 

Пусть составляющие  Х  и  Y  двумерной случайной величины (Х,  Y) зависимы. Будем считать, что одну из них можно приближенно представить как линейную функцию другой, например

Y ≈ g(Х) =  α + βХ,  и определим параметры  α  и  β  с помощью метода наименьших квадратов.

Определение.  Функция  g(Х) =  α + βХ называется  наилучшим приближением Y  в смысле метода наименьших квадратов, если математическое ожидание  М(Y - g(Х))2принимает наименьшее возможное значение; функцию  g(Х) называют среднеквадратической регрессией Y  на  Х.

Теорема Линейная средняя квадратическая регрессия  Y  на  Х  имеет вид:

 

где  - коэффициент корреляции  Х  иY.

Коэффициенты уравнения  .

Можно проверить, что при этих значениях функция функция  F(α, β)

F(α, β) = M(Y – α – βX)²   имеет минимум, что доказывает утверждение теоремы.

Определение.  Коэффициент  называется  коэффициентом регрессии  Y  на  Х, а прямая  - -  прямой среднеквадратической регрессии  Y  на  Х.

Подставив координаты стационарной точки в равенство, можно найти минимальное значение функции  F(α, β), равное  Эта величина называется  остаточной дисперсией  Y  относительно  Х  и характеризует величину ошибки, допускаемой при замене Y  на 

g(Х) =  α+βХ.  При  остаточная дисперсия равна 0, то есть равенство является не приближенным, а точным. Следовательно, при  Y  и  Х  связаны  линейной функциональной зависимостью. Аналогично можно получить прямую среднеквадратической регрессии  Х  на  Y:

 и остаточную дисперсию  Х  относительно  Y. При  обе прямые регрессии совпадают. Сопоставив уравнения регрессии У на Х и Х на У и решив систему из уравнений, можно найти точку пересечения прямых регрессии – точку с координатами (тх, ту), называемую  центром совместного распределения величин  Х  и  Y.

Алгоритм составления уравнений регрессии рассмотрим из учебника В. Е. Гмурмана  «Теория вероятности и математическая статистика» стр. 256.

Х

У

Х2

У2

ХУ

1

1,00

1,25

1,00

1,5625

1,250

2

1,50

1,40

2,25

1,96

2,100

3

3,00

1,50

9,00

2,25

4,500

4

4,50

1,75

20,25

3,0625

7,875

5

5,00

2,25

25,00

5,0625

11,250

 

∑=15

∑=8,15

∑=57,50

∑=13,8975

∑=26,975

 

1)   Составить расчетную таблицу, в которой будут записаны номера элементов выборки, варианты выборки, их квадраты и произведение.

2)   Вычислить сумму по всем столбцам, кроме номера.

3)   Вычислить средние значения для каждой величины, дисперсии и средне квадратические отклонения.

4)   Рассчитать ковариацию и коэффициент корреляции по формулам:

5)   Проверить гипотезу о существовании связи между Х и У.

6)   Составить уравнения обеих линий регрессии и изобразить графики этих уравнений.

Угловой коэффициент прямой линии регрессии У на Х – это выборочный коэффициент регрессии

 

Коэффициент b=

Получим искомое уравнение линии регрессии У на Х:

У = 0,202 Х + 1,024

 

Аналогично уравнение регрессии Х на У:

Угловой коэффициент прямой линии регрессии У на Х – это выборочный коэффициент регрессии  pxy:

 

Коэффициент b=

 

Х = 4,119У – 3,714

 

 

 

 

 

 

 

 

3. Нелинейная регрессия

 

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, например:

– полиномы разных степеней

;

– равносторонняя гипербола – ;

– полулогарифмическая функция – .

2. Регрессии, нелинейные по оцениваемым параметрам, например:

– степенная – ;

– показательная – ;

– экспоненциальная – .

Регрессии нелинейные по включенным переменным приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов. Рассмотрим некоторые функции.

Парабола второй степени приводится к линейному виду с помощью замены: . В результате приходим к двухфакторному уравнению , оценка параметров которого при помощи Метода наименьших квадратов приводит к системе уравнений:

Парабола второй степени обычно применяется в случаях, когда для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую.

Равносторонняя гипербола может быть использована для характеристики связи удельных расходов сырья, материалов, топлива от объема выпускаемой продукции, времени обращения товаров от величины товарооборота. Классическим ее примером является кривая Филлипса, характеризующая нелинейное соотношение между нормой безработицы x и процентом прироста заработной платы y.

Гипербола приводится к линейному уравнению простой заменой: . Также можно использовать Метод наименьших квадратов для составления системы линейных уравнений.

Аналогичным образом приводятся к линейному виду зависимости: , и другие.

Равносторонняя гипербола и полулогарифмическая кривая используют для описания кривой Энгеля (математическое описание взаимосвязи доли расходов на товары длительного пользования и общих сумм расходов (или доходов)). Уравнения, в которых входят , применяются в исследованиях урожайности, трудоемкости сельскохозяйственного производства.

 

 

http://studopedia.ru/1_129922_nelineynaya-regressiya.html

 

 

 

4. Множественная регрессия

 

Множественная регрессия – уравнение связи с несколькими независимыми переменными:

 

где  - зависимая переменная (результативный признак);

 - независимые переменные (факторы).

Для построения уравнения множественной регрессии чаще используются следующие функции:

 линейная –

 степенная –

 экспонента –

 гипербола - .

Можно использовать и другие функции, приводимые к линейному виду.

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:

 

Для ее решения может быть применен метод определителей:

,  ,…, ,

где  - определитель системы;

- частные определители; которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Другой вид уравнения множественной регрессии – уравнение регрессии в стандартизированном масштабе, к уравнению множественной регрессии в стандартизированном масштабе применим МНК.

 

http://studopedia.ru/1_129909_mnozhestvennaya-lineynaya-regressiya.html

 

 

 

 

 

5. Использование MS EXCEL для выполнения регрессионного анализа

 

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находят оценки этих параметров, определяются статистические ошибки оценок или границы доверительных интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.

В линейном регрессионном анализе связь между случайными величинами предполагается линейной. В самом простом случае в парной линейной регрессионной модели имеются две переменные Х и Y. И требуется по n парам наблюдений (X1, Y1), (X2, Y2), ..., (Xn, Yn) построить (подобрать) прямую линию, называемую линией регрессии, которая «наилучшим образом» приближает наблюдаемые значения. Уравнение этой линии y=аx+b является регрессионным уравнением. С помощью регрессионного уравнения можно предсказать ожидаемое значение зависимой величины y, соответствующее заданному значению независимой переменной x. В случае, когда рассматривается зависимость между одной зависимой переменной  Y  и несколькими независимыми X1, X2, ..., Xm, говорят о множественной линейной регрессии. 

В этом случае регрессионное уравнение имеет вид

y = a0+a1x1+a2x2+…+amxm,

где a0, a1, a2, …, am – требующие определения коэффициенты регрессии.

Коэффициенты уравнения регрессии определяются при помощи метода наименьших квадратов, добиваясь минимально возможной суммы квадратов расхождений реальных значений переменной  Y  и вычисленных по регрессионному уравнению. Таким образом, например, уравнение линейной регрессии может быть построено даже в том случае, когда линейная корреляционная связь отсутствует.

 Мерой эффективности регрессионной модели является коэффициент детерминации  R2 (R-квадрат). Коэффициент детерминации может принимать значения между 0 и 1 определяет, с какой степенью точности полученное регрессионное уравнение описывает (аппроксимирует) исходные данные. Исследуется также значимость регрессионной модели с помощью F-критерия (Фишера) и достоверность отличия коэффициентов a0, a1, a2, …, am от нуля проверяется с помощью критерия Стьюдента. 

В Excel экспериментальные данные аппроксимируются линейным уравнением до 16 порядка:

y = a0+a1x1+a2x2+…+a16x16 

Для получения коэффициентов линейной регрессии может быть использована процедура «Регрессия» из пакета анализа.  Также полную информацию об уравнении линейной регрессии дает функция ЛИНЕЙН. Кроме того, могут быть использованы функции НАКЛОН и ОТРЕЗОК для получения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ и ПРЕДСКАЗ для получения предсказанных значений  Y  в требуемых точках  (для парной регрессии). 

Рассмотрим подробно применение функции  ЛИНЕЙН (известные_y, [известные_x], [константа], [статистика]): известные_у  –  диапазон известных значений зависимого параметра  Y. В парном регрессионном анализе может иметь любую форму; в множественном должен быть строкой либо столбцом; известные_х  –  диапазон известных значений одного или нескольких независимых параметров. Должен иметь ту же форму, что и диапазон  Y  (для нескольких параметров  – соответственно несколько столбцов или строк); константа  –  логический аргумент.  Если  исходя из практического смысла задачи регрессионного анализа необходимо, чтобы линия регрессии проходила через начало координат, то есть свободный коэффициент был равен 0, значение этого аргумента следует положить равным 0 (или «ложь»). Если значение положено 1 (или «истина») или опущено, то свободный коэффициент вычисляется обычным образом;  статистика  –  логический аргумент. Если значение  положено  1 (или «истина»), то дополнительно возвращается регрессионная статистика (см таблицу), используемая для оценки эффективности и значимости модели. В общем случае для парной регрессии y=аx+b результат применения функции ЛИНЕЙН имеет вид:

Таблица. Выводной диапазон функции ЛИНЕЙН для парного регрессионного анализа

Коэффициент а

Коэффициент b

Стандартная ошибка коэффициента а

Стандартная ошибка коэффициента b

Коэффициент детерминации R2

Стандартная ошибка для оценки y

Значение F-статистики

Число степеней свободы k2

Регрессионная сумма квадратов 

Остаточная сумма квадратов

 

В случае множественного регрессионного анализа для уравнения y=a0+a1x1+a2x2+…+amxm в первой строке выводятся коэффициенты  am,…,a1,а0, во второй  –  стандартные ошибки для этих коэффициентов. В 3-5 строках за исключением первых  двух столбцов, заполненных регрессионной статистикой, будет получено значение #Н/Д.  

 Вводить  функцию  ЛИНЕЙН следует как формулу массива, выделив вначале массив нужного размера для результата  (m+1  столбец и 5 строк, если требуется регрессионная статистика)  и завершив ввод формулы нажатием  CTRL+SHIFT+ENTER.

Результат для нашего примера:

0,202

1,024

0,052396

0,177683

0,832055

0,185248

14,86304

3

0,51005

0,10295

 

Кроме этого в программе имеется встроенная функция – Анализ данных на вкладке Данные.

 

С помощью нее можно также выполнять регрессионный анализ:

 

 

На слайде – результат регрессионного анализа, выполненного с помощью Анализа данных.

 

ВЫВОД ИТОГОВ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Регрессионная статистика

 

 

 

 

 

 

 

Множественный R

0,91217074

 

 

 

 

 

 

 

R-квадрат

0,83205546

 

 

 

 

 

 

 

Нормированный R-квадрат

0,77607395

 

 

 

 

 

 

 

Стандартная ошибка

0,18524758

 

 

 

 

 

 

 

Наблюдения

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

 

 

 

df

SS

MS

F

Значимость F

 

 

 

Регрессия

1

0,51005

0,51005

14,86304

0,030830944

 

 

 

Остаток

3

0,10295

0,034316667

 

 

 

 

 

Итого

4

0,613

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

1,024

0,177683239

5,763064694

0,010383

0,458532633

1,589467

0,458533

1,589467367

Переменная X 1

0,202

0,052395929

3,85526138

0,030831

0,035252771

0,368747

0,035253

0,368747229

Уравнения регрессии, которые мы смотрели ранее также построены в MS Excel. Для их выполнения сначала строится Точечная диаграмма, затем через контекстное меню выбираем – Добавить линию тренда. В новом окне ставим галочки – Показывать уравнение на диаграмме и поместить на диаграмму величину достоверности апроксимации (R^2).

 

 

 

Литература:

  1. Теория вероятностей и математическая статистика. Гмурман В. Е. Учебное пособие для вузов. – Изд. 10-е, стер. – М.: Высш. шк., 2010. – 479с.
  2.  Высшая математика в упражнениях и задачах. Учебное пособие для вузов / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 ч. – Изд. 6-е, стер. – М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и образование» , 2007. – 416 с. 
    1. 3.   http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F – некоторые  сведения о регрессионном анализе