Применение критерия колмогорова. Случайной величины. Критерий Колмогорова. Ограничения критерия Колмогорова-Смирнова


Критерий Колмогорова для простой гипотезы является наиболее простым критерием проверки гипотезы о виде закона распределения. Он связывает эмпирическую функцию распределения с функци­ей распределения
непрерывной случайной величиныX .

Пусть
- конкретная выборка из распределения с неизвестной непрерывной функцией распределения
и
- эмпирическая функция распределения. Выдвигается простая гипотеза
:
(альтернативная :
,
).

Сущность критерия Колмогорова состоит в том, что вводят в рассмотрение функцию

(7)

называемой статистикой Колмогорова, представляющей собой максимальное отклонение эмпирической функции распределения
от гипотетической (т. е. соответствующей теоретической) функции распределения
.

Колмогоров доказал, что при
закон распределения случайной величины
независимо от вида распределения с. в.X стремится кзакону распределения Колмогорова:

где К(х) - функция распределения Колмогорова, для которой составлена таблица, ее можно использовать для расчетов уже прип ≥ 20:

Найдем такое, что

Рассмотрим уравнение
С помощью функции Колмогорова найдем значение (корень) этого уравнения. Тогда по теореме Колмогорова,

откуда

Если
, то гипотезунет оснований опровергнуть; в противном случае - ее опровергают.

Пример 3. Монету бросали 4040 раз (Бюффон). Получили
выпадений герба и
выпадений решётки. Проверить, используя

а) критерий Колмогорова;

б) критерий Пирсона, согласуются ли эти данные с гипотезой о симметричности монеты (
0.05).

Случайная величина X принимает два значения:
(решётка);
(герб). Гипотеза :.

а) По таблице распределения Колмогорова находим корень урав­нения
при
. Следует
. Тогда

Для нахождения по выборке строим функции
и
и вычисляем величину
.

= -1

= -1


x i

x 1 = -1

x 2 = -1

n i

p i

0,493

0,507

Максимальное отклонение
от
равно 0,007, т.е.= 0,007. Поскольку
, то нет оснований отвергать, гипотезу
; опытные данные согласуются с гипотезой
о симметричности монеты.

б) Вычисляем статистику χ 2

По таблице
распределения находим критическую точку
Так как
, то опытные данные согласуются с гипотезой о симметричности монеты.

7. Критерий однородности Смирнова

Для проверки гипотез вида (2) (см. 20.2) об однородности двух или более выборок применяют критерий однородности :

Здесь, мы ограничимся частным случаем этой критерии для двух выборок (т.е.
). В качестве критической статистики применяется критерий однородности Смирнова, которая имеет вид:

(9)

где
число элементов выборок;
количество элементов соответственно первой и второй выборок, попавших в
й интервал.

При условии справедливости гипотезы
величинабудет распределена приблизительно по законус
степенью свободы. Гипотезаопровергается, если
или
ипринимается при всех остальных значениях критерия .

Рассмотрим следующую производственную задачу.

Пример 4. Ниже в таблице приведены условные данные о заработной плате работников двух видов предприятий: текстильной и машиностроительной отраслей, полученные в результате социологического опроса. Объёмы двух выборок выразятся как
.

Интервал зарплаты

Количество элементов выборки, попавших в данный интервал

Текстиль

Машиностроение

Решение. Проверим гипотезу (при уровнезначимости
) о том, что распределения вероятностей по заработной плате в анализируемых отраслях не отличаются друг от друга.

Далее вычисления величины по формуле критерии Смирнова (9) с учётом данных в таблице даёт

(10)

Задание. Самостоятельно проверьте это равенство.

Из таблицы значений -распределения (см. приложение) определяем критическую точку:
. Следовательно, гипотезу о совпадении вероятностных распределений заработной платы в двух отраслях необходимо отвергнуть, т.к.
. При этом, вероятность допускаемой ошибки равна 0,05.

Критерий однородности Смирнова относится к непараметрическим критериям (в отличие от критерия Пирсона), так как используемая в нём критическая статистика никак не зависит от наших предположений относительно распределения закона случайной величины.

Критерий предназначен для сопоставления двух распределений: эмпирического с теоретическим , например, равномерным или нормальным; одного эмпирического распределения с другими эмпирическим распределением .

Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

То есть сначала сопоставляются частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, сопоставляются всякий раз накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, что служит основанием признать различия статистически достоверными. В формулу критерия λ включается эта разность. Чем больше эмпирическое значение λ, тем более существенны различия.

Ограничения критерия Колмогорова-Смирнова

1. Критерий требует, чтобы выборка была достаточно большой. При сопоставлении двух эмпирических распределений необходимо, чтобы n 1,2 ≥ 50. Сопоставление эмпирического распределения с теоретическим иногда допускается при n ≥ 5 (Ван дер Варден Б.Л., 1960; Гублер Е.В., 1978).

2. Разряды должны быть упорядочены по нарастанию или убыванию какого-либо признака. Они обязательно должны отражать какое-то однонаправленное его изменение. Например, можно за разряды принять дни недели, 1-й, 2-й, 3-й месяцы после прохождения курса терапии, повышение температуры тела, усиление чувства недостаточности и т.д. В то же время, если взять разряды, которые случайно оказались выстроенными в данную последовательность, то и накопление частот будет отражать лишь этот элемент случайного соседства разрядов. Например, если шесть стимульных картин в методике Хекхаузена разным испытуемым предъявляются в разном порядке, невозможно говорить о накоплении реакций при переходе от картины №1 стандартного набора к картине №2 и т. д. Нельзя говорить об однонаправленном изменении признака при сопоставлении категорий «очередность рождения», «национальность», «специфика полученного образования»» и т.п. Эти данные представляют собой номинативные шкалы: в них нет никакого однозначного однонаправленного изменения признака.

Итак, невозможно накапливать частоты по разрядам, которые отличаются лишь качественно и не представляют собой шкалы порядка. Во всех тех случаях, когда разряды представляют собой не упорядоченные по возрастанию или убыванию какого-либо признака категории, следует .

Автоматический расчет критерия Колмогорова-Смирнова

Чтобы произвести расчет данных по критерию, необходимо:

Включить поддержку JavaScript;

Выбрать вид сопоставляемых распределений: «эмпирического с теоретическим» или «эмпирического с эмпирическим»;

Ввести данные разрядов (на увеличение или уменьшение), частоты. Данные необходимо вводить по одному числу на строку, без пробелов, пропусков и т.д., вводить только цифры;

Произвести расчет, нажав на кнопку «Шаг 2».

В случае некорректной работы скрипта (ошибок в расчетах и пр.), просим вас .

​ Критерий Колмогорова-Смирнова – непараметрический критерий согласия, в классическом понимании предназначен для проверки простых гипотез о принадлежности анализируемой выборки некоторому известному закону распределения. Наиболее известно применение данного критерия для проверки исследуемых совокупностей на нормальность распределения .

1. История разработки критерия Колмогорова-Смирнова

Критерий Колмогорова-Смирнова был разработан советскими математиками Андреем Николаевичем Колмогоровым и Николаем Васильевичем Смирновым .
Колмогоров А.Н. (1903-1987) - Герой Социалистического Труда, профессор Московского государственного университета, академик АН СССР - крупнейший математик XX века, является одним из основоположников современной теории вероятности.
Смирнов Н.В. (1900-1966)- член-корреспондент АН СССР, один из создателей непараметрических методов математической статистики и теории предельных распределений порядковых статистик.

Впоследствии критерий согласия Колмогорова-Смирнова был доработан с целью применения для проверки совокупностей на нормальность распределения американским статистиком, профессором Университета Джорджа Вашингтона Хьюбертом Лиллиефорсом (Hubert Whitman Lilliefors, 1928-2008). Профессор Лиллиефорс являлся одним из пионеров применения компьютерной техники в статистических расчётах.

Хьюберт Лиллиефорс

2. Для чего используется критерий Колмогорова-Смирнова?

Данный критерий позволяет оценить существенность различий между распределениями двух выборок, в том числе возможно его применение для оценки соответствия распределения исследуемой выборки закону нормального распределения.

3. В каких случаях можно использовать критерий Колмогорова-Смирнова?

Критерий Колмогорова-Смирнова предназначен для проверки совокупностей данных, измеренных в количественной шкале .

Для большей достоверности полученных данных объемы рассматриваемых выборок должен быть достаточно большими: n ≥ 50. При размерах оцениваемой совокупности от 25 до 50 элементов, целесообразно применение поправки Большева.

4. Как рассчитать критерий Колмогорова-Смирнова?

Критерий Колмогорова-Смирнова рассчитывается при помощи специальных статистических программ. В основе лежит статистика вида:

где sup S - точная верхняя грань множества S, F n - функция распределения исследуемой совокупности, F(x) - функция нормального распределения

Выводимые значения вероятности основаны на предположении, что среднее и стандартное отклонение нормального распределения известны априори и не оцениваются из данных.

Однако на практике обычно параметры вычисляются непосредственно из данных. В этом случае критерий нормальности включает сложную гипотезу ("насколько вероятно получить D статистику данной или большей значимости, зависящей от среднего и стандартного отклонения, вычисленных из данных"), и приводятся вероятности Лиллиефорса (Lilliefors, 1967).

5. Как интерпретировать значение критерия Колмогорова-Смирнова?

Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.

Описание критерия

Классический критерий Колмогорова (иногда говорят Колмогорова-Смирнова) предназначен для проверки простых гипотез о принадлежности анализируемой выборки некоторому полностью известному закону распределения.

Пусть - выборка независимых одинаково распределённых случайных величин, - эмпирическая функция распределения , - некоторая "истинная" функция распределения с известными параметрами. Статистика критерия определяется выражением:

Обозначим через гипотезу о том, что выборка подчиняется распределению . Тогда по теореме Колмогорова при справедливости проверяемой гипотезы:

0:%20%5Cquad%20%5Clim_%7Bn%20%5Cto%20%5Cinfty%7DP(%5Csqrt%7Bn%7D%20D_n%20%5Cleq%20t)=K(t)=%5Csum_%7Bj=-%5Cinfty%7D%5E%7B+%5Cinfty%7D(-1)%5Ej%20%5Cmathrm%7Be%7D%5E%7B-2j%5E2t%5E2%7D." alt="\forall t>0: \quad \lim_{n \to \infty}P(\sqrt{n} D_n \leq t)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j \mathrm{e}^{-2j^2t^2}.">

Гипотеза отвергается, если статистика превышает квантиль распределения заданного уровня значимости , и принимается в противном случае.

Примечание: В критерии Колмогорова целесообразно использовать статистику с поправкой Большева: . Распределение этой статистики при справедливости проверяемой гипотезы быстро сходится к распределению Колмогорова и при 25%20" alt=" n>25 "> зависимостью от объема выборки можно пренебречь.

Использование критерия для проверки нормальности

В данном случае критерий Колмогорова используется для проверки гипотезы о принадлежности наблюдаемой выборки нормальному закону, параметры которого оцениваются по этой самой выборке методом максимального правдоподобия. То есть, проверяется сложная гипотеза и в качестве оценок параметров нормального закона используются выборочные оценки среднего и дисперсии.

В этом случае (Lilliefors) использовались модифицированные статистики вида:

.

Критические значения для статистики приведены в следующей таблице (Lilliefors):

0,15 0,10 0,05 0,03 0,01
0,775 0,819 0,895 0,955 1,035

Проверка сложных гипотез

При проверке сложных гипотез, когда по выборке оцениваются параметры закона, с которым проверяется согласие, непараметрические критерии согласия теряют свойство свободы от распределения (Kac, Kiefer, Wolfowitz). При проверке сложных гипотез условные распределения статистик непараметрических критериев согласия (и критерия Колмогорова) зависят от ряда факторов: от вида наблюдаемого закона, соответствующего справедливой проверяемой гипотезе; от типа оцениваемого параметра и числа оцениваемых параметров; в некоторых случаях от конкретного значения параметра (например, в случае семейств гамма- и бета-распределений); от метода оценивания параметров.

Различия в предельных распределениях той же самой статистики при проверке простых и сложных гипотез настолько существенны, что пренебрегать этим ни коем случае нельзя.

О применении критерия Колмогорова для проверки различных сложных гипотез см. на сайте Новосибирского государственного технического университета:

  • Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход: монография. – Новосибирск: Изд-во НГТУ, 2011. – 888 с. (главы 3 и 4)
  • Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч.I // Измерительная техника. 2009. № 6. – С.3-11.
  • Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч.II // Измерительная техника. 2009. № 8. – С.17-26.

Литература

  1. Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione // Giornale dell` Istituto Italiano degly Attuari. 1933. – Vol. 4. – № 1. – P. 83-91.
  2. Большев Л.Н., Смирнов Н.В. Таблицы математической статитики. М.: Наука, 1983.
  3. Lilliefors H.W. On the Kolmogorov-Smirnov test for normality with mean and variance unknown // J. Am. Statist. Assoc., 1967. V.62. – P.399-402.
  4. Kac M., Kiefer J., Wolfowitz J. On Tests of Normality and Other Tests of Goodness of Fit Based on Distance Methods // Ann. Math. Stat., 1955. V.26. – P.189-211.
  5. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. – М.: Изд-во стандартов. 2002. – 64 с.

Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для

Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для сравнения эмпирического распределения с теоретическим.

Критерий позволяет найти точку, в которой сумма накопленных частот расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения. Нулевая гипотеза H 0 ={различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними)}.

Схематично алгоритм применения критерия Колмогорова-Смирнова можно представить следующим образом:

Проиллюстрируем использование критерия Колмогорова-Смирнова на примере.

При изучении творческой активности студентов были получены результаты для экспериментальных и контрольных групп (см. таблицу). Являются ли значимыми различия между контрольной и экспериментальной группами?

Уровень усвоения

Частота в экспериментальной группе

Частота в контрольной группе

Хороший

172 чел.

120 чел.

Приблизительный

36 чел.

49 чел.

Плохой

15 чел.

36 чел.

Объём выборки

n 1 =172+36+15=223

n 2 = 120+49+36=205

Вычисляем относительные частоты f , равные частному от деления частот на объём выборки, для двух имеющихся выборок.

В результате исходная таблица примет следующий вид:

Относительная частота экспериментальной группы ( f эксп )

Относительная частота контрольной группы ( f контр )

Модуль разности частот | f эксп – f контр |

172/223≈ 0.77

120/205≈ 0.59

0.18

36/223≈ 0.16

49/205≈ 0.24

0.08

15/223≈ 0.07

36/205≈ 0.17

Среди полученных модулей разностей относительных частот выбираем наибольший модуль, который обозначается d max . В рассматриваемом примере 0.18>0.1>0.08, поэтому d max =0.18.

Эмпирическое значение критерия λ эмп определяется с помощью формулы:

Чтобы сделать вывод о схожести по рассматриваемому критерию между двумя группами, сравним экспериментальное значение критерия с его критическим значением, определяемым по специальной таблице, исходя из уровня значимости . В качестве нулевой гипотезы примем утверждение о том, что сравниваемые группы незначительно отличаются друг от друга по уровню усвоения. При этом нулевую гипотезу следует принять в том случае, если наблюдаемое значение критерия не превосходит его критического значения.

Считая, что , по таблице определяем критическое значение критерия: λ кр (0,05)=1,36.

Таким образом, λ эмп =1,86>1,36= λ кр. Следовательно, нулевая гипотеза отвергается, и группы по рассмотренному признаку отличаются существенно.

Заметим, что объёмы рассматриваемых выборок должны быть достаточно большими: n 1 ≥50, n 2 ≥50.