Методы проверки статистических гипотез в психологии

Математические методы в психологии

Контрольные вопросы по предмету

0


Подпишитесь на бесплатную рассылку видео-курсов:

Смотреть лекцию по частям


Текст видеолекции

«МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ»
Лекция 2.Тема лекции: «Методы проверки статистических гипотез в психологии»
1. Статистические гипотезы.2. Проверка статистических гипотез. Принятие статистических решений.3. Статистические критерии.
1. СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ.
1.1. Научные гипотезы.
В самом широком смысле  
ГИПОТЕЗА  (от греч. hipothesis — основание, предположение) — положение, выдвигаемое в качестве предварительного, условного объяснения некоторого явления или группы явлений; предположение о существовании некоторого явления. 
Гипотеза может касаться существования объекта, причин его возникновения, его свойств и связей, его прошлого и будущего, и т.д. Гипотеза представляет собой необходимое звено в развитии научного знания. Выдвигаемая на основе определенного знания об изучаемом круге явлений гипотеза играет роль руководящего принципа, направляющего и корректирующего дальнейшие наблюдения и эксперименты.
Гипотеза выдвигается в науке для решения некоторой конкретной проблемы: объяснения новых фактических данных, устранения противоречия теории с отрицательными результатами экспериментов и т.п.  Процесс обоснования гипотезы, в ходе которого она либо отвергается, либо превращается в достоверное положение (развернутая гипотеза, касающаяся широкого круга явлений, становится научной теорией), в принципе не отличается от обоснования любого теоретического положения. 
Способы обоснования гипотез можно разделить на теоретические и эмпирические, учитывая, однако, что различие между ними относительно, как относительно само различение теоретического и эмпирического знания. 
Теоретические способы охватывают исследование гипотез:- на непротиворечивость, - на эмпирическую проверяемость, - на приложимость ко всему классу изучаемых явлений, - на выводимость ее из более общих положений, - на утверждение ее посредством перестройки той теории, в рамках которой она выдвинута. 
Эмпирические способы включают непосредственное наблюдение явлений, предполагаемых гипотезой (если оно возможно), и подтверждение в опыте следствий, вытекающих из нее.
Эмпирические способы обоснования гипотезы принято называть верификацией, или подтверждением.   Прямая верификация — это непосредственное наблюдение тех явлений, существование которых предполагается гипотезой. 
Научная гипотеза  — предположение, выдвигаемое как временное на основе наличных наблюдений и уточняемое последующими экспериментами. Научная гипотеза касается связей, закономерностей и существенных свойств определенных областей действительности, наиболее вероятных с позиций теории, которой придерживаются ученые-исследователи, ответ на поставленный вопрос-проблему. 
Научная гипотеза может формулироваться на различных уровнях обобщения, но формулировка должна быть конкретной, соотносясь с конкретными явлениями. Основное требование к гипотезе — ее проверяемость.  Возможна постановка нескольких равновозможных гипотез одновременно — тогда они проверяются последовательно.  
ПРЕЖДЕ ЧЕМ ВЫПОЛНИТЬ ЛЮБОЙ ПСИХОЛОГИЧЕСКИЙ ЭКСПЕРИМЕНТ, НЕОБХОДИМО ЧЕТКО СФОРМУЛИРОВАТЬ ЕГО ЗАДАЧИ, ОПРЕДЕЛИТЬ ЭКСПЕРИМЕНТАЛЬНУЮ ГИПОТЕЗУ И ВСЕ ЭТАПЫ ЕЕ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ, А ТАКЖЕ ВЫБРАТЬ СООТВЕТСТВУЮЩИЙ СТАТИСТИЧЕСКИЙ МЕТОД, НАИБОЛЕЕ ЭФФЕКТИВНЫЙ ДЛЯ РЕШЕНИЯ ПОСТАВЛЕННЫХ В ИССЛЕДОВАНИИ ЗАДАЧ.
Начало любого исследования — это постановка задачи. Научная задача формулируется в терминах определенной научной отрасли. 
ПРИМЕРЫ ПОСТАНОВКИ ЗАДАЧ ПСИХОЛОГИЧЕСКОГО ИССЛЕДОВАНИЯ.
Следующие проблемы сформулированы в терминах психологии развития и могут быть решены определенными средствами.
1.  Исследователя интересует вопрос: связаны ли между собой креативность (то есть творческая одаренность) и школьная тревожность пяти- и шестиклассников? Изучая литературу, исследователь обнаружил одну группу ученых, которые считают, что творчески мыслящий ребенок должен быть менее тревожным. Другая группа ученых считает, что эти свойства никак не связаны. Наш исследователь пока не примкнул ни к одному лагерю и собирается провести собственное небольшое экспериментальное исследование. 
2. Исследователя интересует вопрос «Являются ли различия в агрессивности, личностном свойстве людей, генетически детерминированным признаком или зависят от влияний семейного воспитания?» 
Постановка задачи ведет за собой формулировку гипотезы.  После того, как задача психологического исследования определена, переходят  к формулированию гипотезы. Научные (экспериментальные) гипотезы формулируются как предполагаемое решение проблемы. 
ПРИМЕР ФОРМУЛИРОВКИ НАУЧНОЙ ГИПОТЕЗЫ.
1. Например, исходя из теории социального научения, исследователь может предположить, что демонстрация сцен насилия по телевидению ведет к повышению агрессивности подростков.
Когда гипотеза сформулирована, переходят к ее проверке на опытном материале. Научная гипотеза проверяется с помощью научного метода. 
Здесь тоже можно выделить несколько этапов. Так, нужно определить общую стратегию и тактику исследования — те общие принципы, по которым оно будет строиться. Этот этап можно назвать организационным; здесь применяются соответственные методы организационные, и как основной — метод сравнительный. 
Гипотеза, проверяемая экспериментально, формулируется как предполагаемая связь между переменными независимыми и переменными зависимыми. Для ее проверки нужно ввести переменную независимую и выяснить, что будет происходить с переменной зависимой.
Научная гипотеза должна удовлетворять:
1) принципам фальсифицируемости – быть опровергаемой в эксперименте; принцип фальсифицируемости абсолютен, так как опровержение теории всегда окончательно;
2) принципам верифицируемости – быть подтверждаемой в эксперименте, этот принципотносителен, так как всегда есть вероятность опровержения гипотезы в следующем исследовании.
Процесс выдвижения и опровержения гипотез можно считать основным и наиболее творческим этапом деятельности исследователя. Установлено, что количество и качество гипотез определяется общей креативностью (общей творческой способностью) исследователя – «генератора идей». Гипотеза может отвергаться, но никогда не может быть окончательно принятой. Любая гипотеза открыта для последующей проверки.
1.2. Формулирование статистических гипотез. 
Современный исследователь часто имеет дело с вероятностными выводами различных гипотез.
Статистическая гипотеза — это научная гипотеза, допускающая статистическую проверку.
В математической статистике выделяются два фундаментальных понятия: генеральная совокупность и выборка.
Генеральной совокупностью называется практически счетное множество некоторых объектов или элементов, интересующих исследователя.
Свойством генеральной совокупности называется реальное или воображаемое качество, присущее ее элементам.  Свойство может быть случайным или неслучайным.
Параметром совокупности называется свойство, которое можно квантифицировать в виде константы или переменной величины.
Важным параметром является объем совокупности – количество образующих ее элементов. Величина объема зависит от того, как определена сама совокупность, и какие вопросы  нас конкретно интересуют.  Понятно, что совокупности большого объема можно исследовать только выборочным путем.
Выборкой называется некоторая часть генеральной совокупности, то, что непосредственноизучается. 
Выборки классифицируются по репрезентативности, объему, способу отбора и схеме испытаний.
Полученные в экспериментах выборочные данные всегда ограничены и носят в значительной мере случайный характер. Поэтому для анализа выборочных данных используются методы математической статистики, позволяющие обобщать закономерности, полученные на выборке и распространять их на всю генеральную совокупность.  
Основной является задача: Какие выводы можно сделать о свойствах генеральной совокупности по выборочным наблюдениям?
Оценка параметров генеральной совокупности на основе экспериментальных (выборочных) данных всегда будет сопровождаться погрешностью. Поэтому подобного рода оценки всегда должны рассматриваться как предположительные, а не как окончательные утверждения. 
Подобные предположения о свойствах генеральной совокупности получили название статистических гипотез.
Статистическая гипотеза – утверждение в отношении неизвестного параметра, сформулированное на языке математической статистики. Любая научная  гипотеза требует перевода на язык статистики. После проведения конкретного эксперимента  проверяются многочисленные статистические гипотезы, поскольку в каждом психологическом исследовании регистрируется не один, а множество поведенческих параметров. Каждый параметр характеризуется несколькими статистическими мерами: центральной тенденции, изменчивости  распределения. Можно вычислить меры связи параметров и оценить значимость этих связей.
Экспериментальная гипотеза служит для организации эксперимента, а статистическая – для организации процедуры сравнения регистрируемых параметров.
Статистическая гипотеза необходима на этапе математической интерпретации данных эмпирических исследований. Большое количество статистических гипотез необходимо для подтверждения или опровержения основной – экспериментальной гипотезы. Экспериментальная  гипотеза – первична, статистическая – вторична.
ОСНОВНОЙ ЗАДАЧЕЙ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ В ПСИХОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ ЯВЛЯЕТСЯ РЕПРЕЗЕНТАТИВНОЕ ВЫБОРОЧНОЕ ОПИСАНИЕ СВОЙСТВ ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ. 
Для описания значительных по объему совокупностей психических свойств, состояний, процессов требуется накопление огромного выборочного материала или проведение исследований в национальном масштабе. Поэтому задача репрезентативного описания сводится к задаче проверки однородности выборочных описаний, полученных в разных исследованиях, и к объединению однородных данных.
Для проверки однородности, необходимы:
а) однообразность статистических описаний одних и тех же психических явлений разнымиавторами;
б) указание на величину объектов выборок, из которых вычислялись статистические оценки параметров и функций.
Простая генеральная совокупность характеризуется:
-  отдельным свойством (например, все студенты Российской Федерации);- отдельным параметром в виде константы или переменной (например, все студенты женского пола);- системой непересекающихся (несовместных) свойств  (например, все учителя и школьники г. Волгограда).
Сложная генеральная совокупность характеризуется:
- системой, хотя бы частично пересекающихся свойств (студенты-психологи,  окончившие школу с золотой медалью);- системой параметров независимых и зависимых в совокупности; при комплексном исследовании личности.
Гомогенной или однородной называется генеральная совокупность, все характеристики которой  присущи каждому ее элементу;
Гетерогенной или неоднородной называется генеральная совокупность, характеристики которой сосредоточены в отдельных подмножествах элементов.
Репрезентативная выборка – это выборка, адекватно отображающая генеральную совокупность в качественном и количественном отношениях. Выборка должна адекватно отображать генеральную совокупность, иначе результаты не совпадут с целями исследования.
Репрезентативность зависит от объема, чем больше объем, тем выборка репрезентативней.
Выборки различаются по способу отбора.
Выборка называется случайной, если ее элементы отбираются случайным образом. Так как большинство методов математической статистики основывается на понятии случайной выборки, то естественно выборка должна быть случайной.
Неслучайную выборку можно получить  следующими способами:
- механический отбор, когда вся совокупность делится на столько частей, сколько единицпланируется в выборке и затем из каждой части отбирается один элемент;
-типический отбор – совокупность делится на гомогенные части, и из каждой осуществляется случайная выборка;
- серийный отбор – совокупность делят на большое число разновеликих серий, затем делаютвыборку одной какой-либо серии;
- комбинированный отбор – сочетаются рассматриваемые виды отбора, на разных этапах.
По схеме испытаний  выборки могут быть независимые и зависимые.
Объем выборки может быть любым, но не меньшим чем два респондента.В статистике различают малые, средние и большие выборки.
К малым относят выборки, в которых число элементов N < 30; Средняя выборка удовлетворяет условию 30 ≤  N ≤ 100;  Большая выборка  удовлетворяет условию N > 100.
Малые выборки используются при статистическом контроле известных свойств уже  изученных совокупностей.
Большие выборки используются для установки неизвестных свойств и параметров совокупности.
При построении статистической модели приходиться делать много различных допущений и предположений, и далеко не все из них мы собираемся или можем проверить.
СТАТИСТИЧЕСКАЯ ГИПОТЕЗА – ЭТО ПРЕДПОЛОЖЕНИЕ О РАСПРЕДЕЛЕНИИ ВЕРОЯТНОСТЕЙ,  КОТОРОЕ МЫ ХОТИМ ПРОВЕРИТЬ ПО ИМЕЮЩИМСЯ ДАННЫМ. 
Статистические гипотезы разделяются на простые и сложные: - простая гипотеза полностью задает распределение вероятностей;
- сложная гипотеза указывает не одно распределение, а некоторое множество распределений. Обычно это множество распределений, обладающих определенным свойством.
2. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ. ПРИНЯТИЕ СТАТИСТИЧЕСКИХ РЕШЕНИЙ.
Статистическая проверка гипотезы состоит в выяснении того, насколько совместима эта гипотеза с имеющимся результатом случайного выбора.
2.1. Нулевая и альтернативная статистические гипотезы.
При проверке статистических гипотез вводятся два понятия: нулевая гипотеза H0 и альтернативная гипотеза  H1.
Нулевая гипотеза H0 – это гипотеза  о сходстве.
Альтернативная гипотеза H1 – это гипотеза о различии. 
Таким образом, если принимается нулевая гипотеза H0, то делается вывод об отсутствии различий. Если принимается альтернативная гипотеза H1, то делается вывод о наличии различий.
При проверке гипотезы экспериментальные данные могут противоречить гипотезе H0, тогда эта гипотеза отклоняется. В противном случае, если экспериментальные данные не противоречат гипотезе H0, то эта гипотеза не отклоняется. 
ПРИМЕР.
Например, нам нужно убедиться, что разные испытуемые получают хотя и различные, но уравновешенные по трудности задания, или что экспериментальная и контрольная выборки не различаются между собой по каким-то значимым характеристикам. В этом случае мы хотим подтвердить нулевую гипотезу H0.
Но чаще всего требуется доказать значимость различий, ибо они более информативны для нас в поиске нового – то есть подтвердить гипотезу H1 о наличии различий.
Ясно, что при проверке статистических гипотез исследователь сталкивается с риском (вероятностью) принять ложное решение. При этом возможны ошибки двух родов (рис. 1). 
Ошибка первого рода: принимается решение отклонить гипотезу H0, хотя в действительности она является верной.
Ошибка второго рода: принимается решение не отклонять гипотезу H0, хотя в действительности она будет неверна. 

Результат проверки гипотезы H0 Возможные состояния проверяемой гипотезы Верна гипотеза H0 Верна гипотеза H1 Гипотеза H0 отклоняется Ошибка первого рода Правильное решениеГипотеза H0 не отклоняется Правильное решение Ошибка второго рода
Рис. 1. Ошибки первого и второго рода при принятии статистических решений.
Не исключено, что психолог может ошибиться при принятии своего статистического решения. Исключить ошибки полностью при принятии статистических гипотез невозможно, поэтому необходимо минимизировать возможные последствия принятия неверного решения (неверной статистической гипотезы). В большинстве случаев единственный способ минимизировать возможные ошибки – увеличить объем выборки.    
2.2. Проверка уровня статистической значимости. 
При обосновании статистического вывода необходимо решить вопрос: где проходит граница между принятием и отвержением нулевой гипотезы H0?
Уровень значимости – это вероятность ошибочного отклонения (отвержения) нулевой гипотезы H0. 
То есть уровень значимости (обозначим его α)  - это вероятность ошибки первого рода при принятии статистического решения. 
В ПСИХОЛОГИИ ПРИ ИСПОЛЬЗОВАНИИ СТАТИСТИЧЕСКИХ МЕТОДОВ, УСТАНАВЛИВАЮТСЯ СЛЕДУЮЩИЕ УРОВНИ ЗНАЧИМОСТИ.
Низший уровень статистической значимости: α = 0,05;  
Достаточный уровень статистической значимости: α = 0,01;  
Высший уровень статистической значимости: α = 0,001.  
Величины 0,05; 0,01; 0,001 – это стандартные уровни статистической значимости.
При статистическом анализе результатов психологического эксперимента (психологического измерения) психолог-исследователь должен выбрать необходимый уровень значимости. Необходимый уровень значимости зависит от задач и гипотез исследования.
Например, нижняя граница уровня статистической значимости 0,05 означает, что в выборке из 100 элементов (испытуемых, случаев) допускается 5 ошибок; в выборке из 20 элементов (испытуемых, случаев) допускается 1 ошибка. 
Другими словами, УРОВЕНЬ СТАТИСТИЧЕСКОЙ  ЗНАЧИМОСТИ – ЭТО ВЕРОЯТНОСТЬ ТОГО, ЧТО МЫ СОЧЛИ РАЗЛИЧИЯ СУЩЕСТВЕННЫМИ, А ОНИ НА САМОМ ДЕЛЕ СЛУЧАЙНЫ.
Когда мы указываем, что различия достоверны на 5% уровне значимости, или при α ≤ 0,05, то мы имеем ввиду, что вероятность того, что они недостоверны, составляет 0,05.
Если же мы указываем, что различия достоверны на 1% уровне значимости, или при α ≤ 0,01, то мы имеем ввиду, что вероятность того, что они все-таки недостоверны равна 0,01.
Иначе говоря, уровень значимости – это вероятность отклонения нулевой гипотезы, в то время как она верна.
В психологических исследованиях мы не имеем право отклонить нулевую гипотезу H0  до тех пор, пока уровень значимости не достигнет α = 0,05.  
Если вероятность ошибки – это α, то вероятность правильного решения равна: 1–α. Чем меньше α, тем больше вероятность правильного решения.
2.3. Правило принятия статистического вывода.
1. На основании полученных экспериментальных данных  психолог-исследователь подсчитывает экспериментальное значение по выбранному им экспериментальному методу – ЭМПИРИЧЕСКУЮ СТАТИСТИКУ (обозначим это число Кэ).2. Затем эмпирическая статистика (число Кэ) сравнивается с двумя критическими величинами К1 и К2. Число К1 соответствует уровню значимости 0,05 (5%), число К2 соответствует уровню значимости 0,01 (1%).  Критические значения К1 и К2 находятся по статистическим таблицам.  
Проиллюстрируем правило статистического вывода. 
Для облегчения принятия решения можно строить «ось значимости». На этой оси критические значения критерия обозначены как К1 (уровень значимости 0,05)  и К2 (уровень значимости  0,01), эмпирическое значение критерия как Кэ. 
Вправо от критического значения К2 (уровень значимости 0,01) простирается «зона значимости», в этот интервал попадают эмпирические значения К, которые ниже К2 (0,01)  и, следовательно, значимые.
Влево от критического значения К1 (уровень значимости 0,05) простирается «зона незначимости»;  в этот интервал попадают эмпирические значения К, которые ниже К1 (уровень значимости 0,05) и, следовательно, незначимы. 
Подсчитанное число Кэ (эмпирическая статистика) по какому-либо экспериментальному методу, должно попасть в одну из трех зон на оси значимости (рис. 2), а также Кэ может совпасть с одним из чисел К1 или К2.  
Зона неопределенности 
Зона незначимости Зона значимости 0,05         0,01

                                                         К1                                                 К2
Рис. 2. Ось «значимости».
1. Первый случай. Число Кэ (эмпирическая статистика) попало в зону незначимости, то есть Кэ < К1 (рис. 3). В этом случае гипотеза H0 не отклоняется (принимается). 


Зона неопределенности 
Зона незначимости Зона значимости 0,05         0,01

                                      Кэ              К1                                                 К2Рис. 3. Кэ < К1. Гипотеза Н0 не отклоняется (принимается).
2. Второй случай.  Число Кэ (эмпирическая статистика) попало в зону значимости, то есть Кэ > К2 (рис. 4). В этом случае гипотеза H0  отклоняется и принимается альтернативная гипотеза H1. 

Зона неопределенности 
Зона незначимости Зона значимости 0,05         0,01

  К1                                                 К2           Кэ              Рис. 4. Кэ  > К2. Принимается гипотеза H1 (гипотеза Н0 отклоняется).
3. Третий случай. Число Кэ (эмпирическая статистика) попало в зону неопределенности, то есть К1 < Кэ < К2 (рис. 5).  Зона неопределенности 
Зона незначимости Зона значимости 0,05         0,01

  К1                      Кэ                                К2                    
Рис. 5. К1 < Кэ < К2. 

Это тот случай, когда исследователь может допустить ошибки первого или второго рода. В этом случае перед психологом-исследователем стоит дилемма. А) исследователь может считать полученную статистическую оценку достоверной на уровне значимости 0,05 (5%). В этом случае принимается гипотеза  H1 (гипотеза H0 отклоняется).Б) исследователь может считать полученную статистическую оценку недостоверной на уровне значимости 0,01 (1%).  В этом случае гипотеза H0 не отклоняется (принимается), а  альтернативная гипотеза H1 о наличии различий отклоняется. При таких обстоятельствах лучше всего увеличить объем выборки для минимизации ошибки. 
4. Четвертый случай. Число Кэ = К1. В этом случае можно считать, что полученная статистическая оценка достоверна точно на уровне значимости 0,05 (5%) В этом случае принимается гипотеза H1 о наличии различий (гипотеза H0 отклоняется). В противном случае можно принять гипотезу H0.
5. Пятый случай. Число Кэ = К2. В этом случае, как правило, принимается альтернативная гипотеза H1 о наличии различий,  а нулевая гипотеза H0 отклоняется.
ПРИМЕР. Пусть, например,  К1 = 6 (уровень значимости 0,05), К2 = 9 (уровень значимости 0,01), Кэ = 8.Эмпирическое значение критерия Кэ  попадает в область между К1 (уровень значимости 0,05) и К2 (уровень значимости 0,01).  Это «зона неопределенности», при принятии решения исследователь может совершить ошибки первого или второго рода. 
А) Исследователь может отклонить нулевую гипотезу о недостоверности различий Н0,  если он будет считать полученную статистическую оценку достоверной на уровне значимости 0,05.   
Б) Исследователь может принять нулевую гипотезу о недостоверности различий Н0,  если он будет считать полученную статистическую оценку недостоверной на уровне значимости 0,01.  
Практически, можно считать достоверными уже те различия, которые не попадают в «зону незначимости», сказав, что они достоверны при  α ≤ 0,05.
2.4. Этапы принятия статистического решения.
Процесс принятия статистического решения можно разбить на следующие этапы (шаги).
Этап 1. Формулировка нулевой (H0) и альтернативной (H1) гипотез.
Этап 2. Определение объема выборки N.
Этап 3. Выбор соответствующего задаче уровня значимости (вероятности отклонения нулевой гипотезы H0). Это может быть величина, меньшая или равная 0,05. В важных исследованиях можно выбрать уровень значимости 0,01 или даже 0,001.
Этап 4. Выбор статистического метода, который зависит от типа решаемой психологической задачи.
Этап 5. Вычисление соответствующего эмпирического значения Кэ (эмпирической статистики) по выборочным данным, согласно выбранному статистическому методу.
Этап 6. Нахождение критических значений К1 (для уровня значимости 0,05) и К2 (для уровня значимости 0,01) по статистическим таблицам для выбранного статистического метода.
Этап 7.   Построение оси значимости, выделения зон на ней с помощью чисел К1 и К2, определения положения числа Кэ на  оси значимости по отношению к построенным зонам.  
Этап 8. Выбор соответствующей гипотезы H0 или H1.
3. СТАТИСТИЧЕСКИЕ КРИТЕРИИ.
3.1. Понятие статистического критерия.
«Статистический критерий – это решающее правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью»  (Суходольский Г.В.). Статистические критерии обозначают также метод расчета определенного числа и само это число.
В большинстве случаев для того, чтобы мы признали различия значимыми, необходимо, чтобы эмпирическое значение критерия превышало критическое, в некоторых критериях придерживаются противоположного правила. Эти правила оговариваются в описании каждого критерия.
В некоторых случаях расчетная формула критерия включает в себя количество наблюдений в исследуемой выборке, обозначаемое как N. В этом случае эмпирическое значение  критерия одновременно является тестом для проверки статистических гипотез. 
По специальной таблице определяется, какому уровню статистической значимости различий соответствует данная эмпирическая величина. В большинстве случаев, одно и то же эмпирическое значение критерия может оказаться значимым или незначимым в зависимости от количества наблюдений в выборке (N) или от так  называемого количества степеней свободы, которое обозначается как ν.
Число степеней свободы. Число степеней свободы равно числу классов вариационного ряда минус число условий, при которых он был сформирован. К числу таких условий относятся:  объем выборки, средние и дисперсии.
Если мы расклассифицировали наблюдения по классам какой-либо номинативной шкалы и подсчитали количество наблюдений в каждой ячейке классификации, то мы получаем так называемый частотный вариационный ряд. Единственное условие, которое соблюдается при его формировании – объем выборки N.
Допустим у нас три класса: «Умеет работать на ПК – умеет выполнять лишь определенные операции – не умеет работать на ПК».
Выборка состоит из 50 человек. Если в первом классе – 20 человек, во втором классе – 20 человек, то в третьем должны оказаться 10 человек. Мы ограничены только одним условием – объемом выборки. Мы не свободны в определении количества испытуемых в третьем классе, «свобода» простирается только на первые два класса: ν= с – 1 = 3 – 1 =2. 
Аналогичным образом, если бы у нас была классификация из 10 разрядов или классов, то мы были бы свободны только в 9 и т.д.
Зная N  и/или число степеней свободы, по специальным таблицам можно определить критические значения критерия и сопоставить с ними полученное эмпирическое значение.
Среди возможных статистических критериев выделяют: - односторонние и двусторонние;- параметрические и непараметрические; - более и менее мощные.
Односторонние и двусторонние статистические критерии. 
Понятие одностороннего либо двустороннего критерия связано с формулировкой гипотез. 
Если «нулевая» гипотеза H0 формулируется о равенстве (Х1 = Х2), то для проверки используется двусторонний критерий. 
Если же «нулевая» гипотеза H0 формулируется о неравенстве, то возможны варианты:
1) если X1 ≠ X2 , то используется двусторонний критерий;
2) если X1 >X2 или X1 < X2, то применяется односторонний критерий.
Параметрические критерии – это некоторые функции от параметров совокупности, они служат для проверки гипотез об этих параметрах или для их оценивания. Параметрические критерии включают в формулу расчета параметры распределения, т.е. выборочные средние и выборочные дисперсии.
Непараметрические критерии – это некоторые функции от функций распределения или непосредственно от вариационного ряда наблюдавшихся значений изучаемого случайного явления. Они служат только для проверки гипотез о функциях распределения или рядах наблюдавшихся значений. Непараметрические критерии не включают в формулу расчета параметров распределения и основанные на оперировании частотами или рангами.
И те, и другие критерии имеют свои преимущества и недостатки.
Параметрические критерии могут оказаться несколько более мощными, чем непараметрические, но только в том случае, если признак измерен по интервальной шкале и нормально распределен. Лишь с некоторой натяжкой мы можем считать данные, представленные в стандартизованных оценках, как интервальные. Кроме того, проверка распределения «на нормальность» требует достаточно сложных расчетов, результат которых заранее не известен. Может оказаться, что распределение признака отличается от нормального, и нам так или иначе все равно придется обратиться к непараметрическим критериям.
Непараметрические критерии лишены всех этих ограничений и не требуют таких длительных и сложных расчетов. По сравнению с параметрическими критериями они ограничены лишь в одном – с их помощью невозможно оценить взаимодействие двух или более условий или факторов, влияющих на изменение признака.
Мощность критерия. Важнейшей характеристикой любого статистического критерия является его мощность.
МОЩНОСТЬ КРИТЕРИЯ – ЭТО ЕГО СПОСОБНОСТЬ ВЫЯВЛЯТЬ РАЗЛИЧИЯ, ЕСЛИ ОНИ ЕСТЬ. ДРУГИМИ СЛОВАМИ, ЭТО СПОСОБНОСТЬ КРИТЕРИЯ ОТКЛОНИТЬ НУЛЕВУЮ ГИПОТЕЗУ ОБ ОТСУТСТВИИ РАЗЛИЧИЙ, ЕСЛИ ОНА НЕВЕРНА.
Вероятность ошибки второго рода статистического критерия обозначим как β, тогда величина 1–β будет мощностью критерия. Ясно, что мощность может принимать любые значения от 0 до 1. Чем ближе мощность к единице, тем эффективнее критерий.
Мощность критерия определяется эмпирическим путем. Одни и те же задачи могут быть решены с помощью разных критериев, при этом обнаруживается, что некоторые критерии позволяют выявить различия там, где другие оказываются неспособными это сделать.
Основанием для выбора критерия может быть не только его мощность, но и другие его характеристики, а именно:
а) простота;б) более широкий диапазон исследования (по отношению к данным, определенным по номинативной шкале, или по отношению к большим значениям N);
в) применимость по отношению к неравным по объему выборкам;г) большая информативность результатов.
3.2.  t-критерий Стьюдента.
t-критерий Стьюдента используется в следующих задачах:
1) установления сходства-различия средних арифметических значений в двух выборках (M1 ↔ M2) или в более общем виде, для установления сходства-различия двух эмпирических распределений;
2) установления отличия от нуля некоторых мер связи: коэффициента линейной корреляции Пирсона, ранговой корреляции Спирмена, точечно-бисериальной и рангово-бисериальной корреляции (rxy, rs , rpb ↔ «0») и коэффициента линейной регрессии (Rху ↔ «0»);
3) установления сходства-различия двух дисперсий (D1↔ D2) в двух зависимых выборках.
Ограничения использования t-критерия Стьюдента:
1) это параметрический критерий, поэтому необходимо, чтобы распределение признака, по крайней мере, не отличалось от нормального распределения;
2) для независимых и зависимых выборок применяются разные формулы расчета;
Формулирование статистических гипотез H0 и H1. 
1) Случай независимых выборок:
Нулевая гипотеза Н0: средние значения признака в обеих выборках не различаются,
Альтернативная гипотеза Н1: средние значения признака в обеих выборках статистически значимо различаются.
2)  Случай зависимых выборок:
Нулевая гипотеза Н0: разности оценок испытуемых в двух состояниях не отличаются от нуля.
Альтернативная гипотеза Н1: разности оценок испытуемых в двух состояниях статистически значимо отличаются от нуля.
Рассмотрим случай 1 (независимые выборки).
ПРИМЕР 1 (НЕЗАВИСИМЫЕ ВЫБОРКИ). 
Предположим, имеется две независимые выборки школьников, интеллект которых развивали в течение некоторого времени по двум различным методикам.  Требуется установить, какая из методик лучше (рис. 6). Предварительно было выяснено, что начальный уровень интеллекта был одинаковым в обеих выборках. 
Числовые характеристики Первая выборка Вторая выборкаN 30 32Mx 103 110σx 10 12
Рис. 6. Проверка статистических гипотез с помощью t-критерия Стьюдента.
Задача сравнения двух методик может быть переформулирована на язык статистики как задача сравнения средних арифметических значений интеллекта в обеих выборках.

Сформулируем следующие статистические гипотезы. 
Нулевая гипотеза Н0: средние значения уровня интеллекта в обеих выборках не различаются. 
Альтернативная гипотеза Н1: средние значения уровня интеллекта в обеих выборках статистически значимо различаются.
В данном случае для получения эмпирического значения t-критерия используется следующая формула: 
где: N1, N2 – количество испытуемых в 1-й и 2-й выборках;  M1, M2 – средние арифметические значения в 1-й и 2-й выборках; σ1 , σ2 – стандартные отклонения в 1-й и 2-й выборках.
Число степеней свободы df для нахождения критического значения t-критерия Стьюдента вычисляется по формуле:
df = N1 + N2  – 2.
В рассматриваемом примере критические значения t-критерия Стьюдента приводятся для ненаправленных гипотез.
По формуле  (1) получаем эмпирическую статистику tэ ≈ 2,486.
Критические значения t-критерия Стьюдента находим по статистической таблице («Критические точки распределения Стьюдента») для числа степеней свободы df=30+32-2=60.
t1 = 2,0  (для α ≤ 0,05),  t2 = 2,66 (для α ≤ 0,01). 
Полученное эмпирическое значение t-критерия Стьюдента превышает критическое для α=0,05, но оказывается меньше критического для α = 0,01, т.е. 2,0 < tэ =2,486 < 2,66
ВЫВОД: МОЖНО СЧИТАТЬ ПОЛУЧЕННУЮ СТАТИСТИЧЕСКУЮ ОЦЕНКУ ДОСТОВЕРНОЙ НА УРОВНЕ ЗНАЧИМОСТИ 0,05 (5%). В ЭТОМ СЛУЧАЕ ПРИНИМАЕТСЯ ГИПОТЕЗА  H1 (ГИПОТЕЗА H0 ОТКЛОНЯЕТСЯ), И МОЖНО СДЕЛАТЬ ВЫВОД О СТАТИСТИЧЕСКИ ЗНАЧИМОМ РАЗЛИЧИИ СРЕДНИХ АРИФМЕТИЧЕСКИХ ЗНАЧЕНИЙ В ДВУХ ВЫБОРКАХ ДЛЯ Α=0,05 И О ПРЕИМУЩЕСТВАХВТОРОЙ МЕТОДИКИ ПО СРАВНЕНИЮ С ПЕРВОЙ.
ПРИМЕР 2 (НЕЗАВИСИМЫЕ ВЫБОРКИ).
Рассмотрим следующий пример (рис. 7). 
Числовые характеристики Первая выборка Вторая выборкаN 20 22Mx 101 112σx 11 13
Рис. 7. Проверка статистических гипотез с помощью t-критерия Стьюдента
По формуле  (1) получаем эмпирическую статистику tэ ≈ 2,945.
Критические значения t-критерия Стьюдента находим по статистической таблице («Критические точки распределения Стьюдента») для числа степеней свободы df=20+22-2=40.
t1 = 2,02  (для α ≤ 0,05),  t2 = 2,7 (для α ≤ 0,01). 
Полученное эмпирическое значение t-критерия Стьюдента превышает критическое t2 для уровня значимости α=0,01. То есть tэ ≈ 2,945 >  2,7.  Эмпирическое значение tэ находится в «зоне значимости».  ВЫВОД: МОЖНО СДЕЛАТЬ ВЫВОД О ТОМ, ЧТО ИМЕЕТСЯ  СТАТИСТИЧЕСКИ ЗНАЧИМОЕ РАЗЛИЧИЕ СРЕДНИХ АРИФМЕТИЧЕСКИХ ЗНАЧЕНИЙ В ДВУХ ВЫБОРКАХ, И ВТОРАЯ  МЕТОДИКА ИМЕЕТ ПРЕИМУЩЕСТВА ПО СРАВНЕНИЮ С ПЕРВОЙ.
Строгое использование t-критерия Стьюдента предполагает, что обе выборки извлечены из нормальных совокупностей. Однако многие авторы не считают это условие достаточно жестким, указывая на возможность использования t-критерия Стьюдента в ситуациях, когда нет серьезных оснований сомневаться в нормальности распределения признака в генеральной совокупности, даже если это нельзя подтвердить статистически. 
Рассмотрим  случай 2 (зависимые выборки).
При зависимых выборках возникает корреляция результатов, поскольку измерения проводятся на одних и тех же испытуемых в различных условиях (X и Y)`, чтобы учесть влияние корреляции, применяется другая формула:
 
где di = xi – уi , то есть разность значений признака для каждого испытуемого. 
Количество степеней свободы равно:  df = N – 1. 
Проверяется статистическая гипотеза о соответствии распределения разностей t- распределению Стьюдента с нулевым средним значением.
ПРИМЕР (ЗАВИСИМЫЕ ВЫБОРКИ). 
Допустим, проводится измерение ситуативной тревожности до и после психотерапевтического воздействия с помощью некоторого опросника (рис. 8). Исследователя интересует вопрос, приводит ли воздействие к изменению уровня тревожности?
Сформулируем статистические гипотезы. 
Нулевая гипотеза Н0: разности оценок у испытуемых ситуативной тревожности до и после психотерапевтического воздействия не отличаются от нуля. 
Альтернативная гипотеза Н1: разности оценок у испытуемых ситуативной тревожности до и после психотерапевтического воздействия статистически значимо отличаются от нуля. 
Испытуемые xi  («до») yi («после») di di2 = (xi - yi)21 31 21 10 1002 34 18 16 2563 39 19 20 4004 51 44 7 495 35 38 -3 96 46 12 34 11567 32 29 3 98 27 22 5 25N = 8 ∑di = 92 ∑di2 = 2004
Рис. 8. Случай зависимых выборок.
Подставив в формулу (2)  найденные значения Σdi и Σ di2,  получим:
 
Мы получили следующую эмпирическую оценку: tэ ≈ 2,798
Находим по статистической таблице («Критические точки распределения Стьюдента») для степеней свободы  df = 7 критические значения.  t1= 2,36 (для уровня значимости α ≤ 0,05), t2 = 3,50 (для уровня значимости α ≤ 0,01).  Отсюда имеем неравенство: 2,36 < 2,798 < 3,50. То есть эмпирическое значение лежит в «зоне неопределенности». 
ВЫВОД: МОЖНО СЧИТАТЬ ПОЛУЧЕННУЮ СТАТИСТИЧЕСКУЮ ОЦЕНКУ ДОСТОВЕРНОЙ НА УРОВНЕ ЗНАЧИМОСТИ 0,05. В ЭТОМ СЛУЧАЕ ПРИНИМАЕТСЯ ГИПОТЕЗА  H1 (ГИПОТЕЗА H0 ОТКЛОНЯЕТСЯ). 
Таким образом, различия в уровнях тревожности до и после психотерапевтического воздействия можно  признать статистически значимыми на уровне значимости 0,05 (так как эмпирическое значение превышает первое критическое, но меньше второго). Следовательно, психотерапевтическое воздействие действительно снижает тревожность. 
3.3. F-критерий Фишера (для сравнения дисперсий). F-критерий Фишера используется в следующих случаях:
1) установления сходства-различия выборочных дисперсий в двух независимых выборках (D1 ↔D2);2) установления отличия от нуля коэффициента детерминации (η2 ↔ «0»);3) установления наличия-отсутствия влияния фактора в дисперсионном анализе.
Здесь мы применим  F-критерий Фишера для сравнения дисперсий для двух рядов выборочных наблюдений.   Эмпирическое значение F-критерия для сравнения двух дисперсий в независимых выборках находят по формуле: где D1 – большая дисперсия, D2 – меньшая дисперсия. 
Согласно F-критерию Фишера, величина числителя в формуле (3) должна быть больше или равна величине знаменателя. Поэтому в числитель подставляют  бóльшую дисперсию D1, а в знаменатель меньшую D2. 
Количество степеней свободы определяется отдельно для числителя и отдельно для знаменателя по формулам: 
df числ = df1 = Nчисл   –1;  df знам =  df2 = Nзнам  –1.
ПРИМЕР. Две группы испытуемых обучались некоторым моторным навыкам по двум разным методикам, фиксировалось количество ошибочных действий, до обучения результаты в обеих группах имели одинаковый разброс. Какая из методик даст наибольшее выравнивание результатов внутри группы после обучения (рис. 9).
Числовые характеристики Первая выборка   Вторая выборкаN – объем выборки 16 12σx – среднеквадратическое (стандартное) отклонение 4 6Dx – выборочная дисперсия 16 36
Рис. 9. Сравнение дисперсий по F-критерию Фишера.
Подставляя в формулу (3) данные из таблицы (рис. 8), получим: Fэ = 36/16 = 2,25.
df1 = df числ = 12 –1 = 11, df2 = df знам =16 – 1 = 15
Поскольку нам заранее не известно,  какая из методик может обладать меньшей дисперсией, мы используем ненаправленную гипотезу и, следовательно, двусторонний критерий.
Находим по статистической таблице («Критические точки F распределения Фишера»)  критическое значение Fкр для уровня значимости α = 0,05 (α/2+α/2 = 0,05) и для степеней свободы: 
df1 =  dfчисл = 11, df2 = df знам = 15, Fкр  = 2,51. Получим: Fэ =  2,25 < Fкр = 2,51.
ВЫВОД: ТАК КАК ЭМПИРИЧЕСКОЕ ЗНАЧЕНИЕ Fэ МЕНЬШЕ КРИТИЧЕСКОГО Fкр, ТО СТАТИСТИЧЕСКИ ЗНАЧИМЫХ РАЗЛИЧИЙ ДИСПЕРСИЙ В ПЕРВОЙ И ВТОРОЙ ГРУППАХ НЕТ И, СЛЕДОВАТЕЛЬНО, СТАБИЛИЗАЦИЯ НАВЫКА ПРИ ОБУЧЕНИИ ПО ОБЕИМ МЕТОДИКАМ ОДИНАКОВА.
Замечание. Для сравнения дисперсий в зависимых выборках более строгим будет применение t-критерия Стьюдента.
СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ
[1] Гласс Дж., Стенли Дж.  Статистические методы в педагогике и психологии.  Пер. С англ. М.: 1976. 
[2] Ермолаев О. Ю. Математическая статистика для психологов. Учебник. - 2-е изд., испр.М.: МПСИ: Флинта, 2003. - 336 с. - (Библиотека психолога).
[3] Лупандин В.И. Математические методы в психологии. Учебное пособие для студентов-психологов. Изд. 2-е испр. и доп. Екатеринбург, Изд-во Гуманитарного университета, 1997. – 119 с.  
[4] Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие. - Спб.: Речь, 2004. - 392 с. 
[5] Титкова Л.С. Математические методы в психологии. Учебно-методическое пособие. – Изд-во Дальневосточного университета: Владивосток, 2002. – 142 с.