Проверка гипотез о параметрах распределения. Проверка гипотез о параметрах нормального распределения

Общая схема проверки гипотез

Понятие и классификация статистических гипотез

Статистической гипотезой называется предположение относительно вида неизвестного распределения или параметров известных распределений наблюдаемой случайной величины.

Ранее в 5.2 рассматривались примеры 1, 2, где вычислялись выборочные характеристики, были построены полигон или гистограмма. Можно предположить, что данная случайная величина распределена по одному из известных законов. Следующий этап: нужно проверить, что экспериментальные данные соответствуют высказанной гипотезе и принять её. Этот этап называется проверкой статистической гипотезы. Алгоритм проверки гипотезы называется решающим правилом. Так как гипотеза выдвигалась на основе выборочных данных, то гипотеза будет носить вероятностный характер.

К основным задачам математической статистики относятся:

  1. Статистическая проверка гипотез о параметрах распределения. В этом случае предполагается, что закон распределения случайной величины установлен. Пусть совокупность распределена по нормальному закону. Выдвигается гипотеза о математическом ожидании в предполагаемом диапазоне.
  2. Статистическая проверка гипотез о законе распределения случайной величины. Гипотезы о виде распределения выдвигаются в условиях недостаточной информации о выборке.

Практически экспериментальные данные при большой выборке приближаются к нормальному закону. Выдвинув такую гипотезу, далее следует найти доверительные интервалы для параметров этого распределения. Проверяемая гипотеза называется нулевой (основной), наиболее правдоподобной по каким-то соображениям, и обозначают её H 0 . Наряду с основной гипотезой рассматривают альтернативную (конкурирующую) гипотезу H 1 , противоречащую основной. Выдвинутая нулевая гипотеза нуждается в дальнейшей проверке.

При этом могут быть допущены ошибки двух типов:

  1. Ошибка первого рода – отвергнута правильная гипотеза;
  2. Ошибка второго рода – принята неправильная гипотеза.

Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближённое распределение которой известно, обозначают её через Z, если она распределена нормально, T – по закону Стьюдента, c 2 – по закону «хи–квадрат». Данная специально подобранная случайная величина называется статистическим критерием или критерием значимости, который в дальнейшем будет обозначаться через Z. Статистический критерий служит для проверки нулевой гипотезы.

Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия принимают отношение исправленных выборочных дисперсий. Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий величин и получают наблюдаемое значение критерия. Наблюдаемым значением критерия Z набл называют значение критерия, вычисленное по выборкам. Например, если по двум выборкам найдены выборочные дисперсии d 1 =27; d 2 =9, то наблюдаемое значение критерия равно отношению большей исправленной дисперсии к меньшей: Задачу проверки гипотез можно сформулировать следующим образом.



1. Требуется найти случайную величину Z, которую ещё называют статистикой критерия, удовлетворяющую двум основным требованиям:

б) Распределение критерия известно в предположении, что нулевая гипотеза верна.

2. После поиска или выбора статистики находится критическая область. На числовой оси выделяется область, попадание в которую для случайной величины маловероятно. Малая вероятность задаётся, как и в доверительных интервалах, малым числом – a, которое называют уровнем значимости. Вероятность совершить ошибку первого рода (вероятность отвергнуть правильную гипотезу) равна a – уровню значимости.

Критической областью называют совокупность значений критерия Z, при которых нулевую гипотезу отвергают. Областью принятия гипотез называют совокупность значений критерия Z, при которых нулевую гипотезу принимают.

Критическими точками (границами) – z kp называют точки, отделяющие критическую область от области принятия гипотезы.

Различают три вида критической области:

  • правосторонняя, определяемая неравенством Z > z kp > 0;
  • левосторонняя, определяемая неравенством Z < z kp < 0;
  • двусторонняя, определяемая неравенством Z < -z кр; Z > z кр.

В частности, если критические точки симметричны относительно нуля, то двусторонняя критическая область определяется неравенством ½Z½ > z kp > 0. При отыскании критической области задаются достаточно малой вероятностью – уровнем значимости a и ищут критические точки, исходя из требования, чтобы вероятность того, что критерий Z примет значения, лежащие в критической области, была равна принятому уровню значимости. В результате получают:

  • для правосторонней критической области:
P (Z > z kp) = a; (7.1)
  • для левосторонней критической области P (Z < z kp) = a;
  • для двусторонней симметричной области P (Z > z kp) = a/2 .

Основной принцип статистической проверки гипотез заключается в следующем:

  • Если наблюдаемое значение критерия Z набл, вычисленное по данным выборки, принадлежит критической области, то гипотезу отвергают.
  • Если наблюдаемое значение не принадлежит критической области, то нет оснований отвергать гипотезу.

Для каждого критерия имеются соответствующие таблицы, позволяющие по a найти критические точки z kp , удовлетворяющие требованию (7.1).

Проверяется гипотеза H 0: a = a 0 , в качестве альтернативной гипотезы рассмотрим H 1: a a 0 (двусторонняя альтернатива). Выберем уровень значимости .

    При известном отклонении :

Если |U набл | < U kp

    При неизвестном отклонении :

(критическое значение определяется из таблицы распределения Стьюдента по вероятности  и числу степеней свободы (n –1)).

Если |U набл | < U kp , то нет оснований отвергнуть нулевую гипотезу

    Пусть выборка X = (X 1 , …, X n) взята из нормальной совокупности N(a 1 ; 1 2), выборка Y = (Y 1 , …, Y m) взята из нормальной совокупности N(a 2 ; 2 2).

Проверяется гипотеза H 0: a 1 = a 2 , в качестве альтернативной гипотезы рассмотрим H 1: a 1 a 2 (двусторонняя альтернатива). Выберем уровень значимости .

    Дисперсии 1 2 , 2 2 известны:

Если |U набл | < U kp , то нет оснований отвергнуть нулевую гипотезу.

    дисперсии 1 2 , 2 2 неизвестны, но предполагается, что 1 2 = 2 2:

(критическое значение определяется из таблицы распределения Стьюдента по вероятности  и числу степеней свободы (n + m –2)).

Если |U набл | < U kp , то нет оснований отвергнуть нулевую гипотезу.

Для проверки гипотезы о равенстве дисперсий H 0: 1 2 = 2 2 используется критерий Фишера:

(в предположении, что
),

(критическое значение определяется из таблицы распределения Фишера по вероятности  и числу степеней свободы (n –1), (m –1)).

Если F набл < F kp , то нет оснований отвергнуть гипотезу о равенстве дисперсий.

Проверка гипотезы о независимости признаков (критерий 2).

Предположим, что признак A имеет m градаций (уровней): A 1 , …, A m , признак B имеет n градаций: B 1 , …, B n .

Экспериментальные данные содержатся в таблице сопряженности признаков:

q 1

q k

q m

p 1

p s

p n

p s = n 1s +…+ n ks +…+ n mn , s=1, …, n;

q k = n k1 +…+ n ks +…+ n kn , k=1, …, m;

N общее число наблюдений.

Проверяется гипотеза H 0: признаки А и В независимы.

;



, то нет оснований отвергнуть нулевую гипотезу.

Проверка гипотезы об однородности m выборок (критерий 2).

Предположим, что имеется m выборок. Проверяется гипотеза H 0: выборки однородны, т. е. извлечены из одной и той же генеральной совокупности.

(объем выборки)

1 выборка

q 1

2 выборка

q 2

m выборка

q m

p 1

p 2

p k

Последняя строка и последний столбец получены суммированием:

p 1 = n 11 +n 21 +…+ n m1 ;…;

q 1 = n 11 + n 12 +…+ n 1k , …;

N – общее число наблюдений.

Вычисляется наблюдаемое значение критерия:
;

вычисляется критическое значение
по таблице критических значений 2 ; если
, то нет оснований отвергнуть нулевую гипотезу.

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Постановка задачи

В обычной речи слово «гипотеза» означает предположение. В статистике - это предположение о виде закона распределения («данная генеральная совокупность нормально распределена»), о значениях его параметров («генеральное среднее равно нулю»), об однородности данных («эти две выборки извлечены из одной генеральной совокупности»). Статистическая проверка гипотезы состоит в выяснении того, согласуются ли результаты наблюдений (выборочные данные) с нашим предположением.

Результатом такой проверки может быть отрицательный ответ: выборочные данные противоречат высказанной гипотезе, поэтому от нее следует отказаться. В противном случае мы получаем ответ неотрицательный: выборочные данные не противоречат гипотезе, поэтому её можно принять в качестве одного из допустимых решений (но не единственно верного).

Статистическая гипотеза, которая проверяется, называется основной (нулевой) и обозначается Гипотеза, которая противопоставляется основной, называется альтернативной (конкурирующей) и обозначается Цель статистической проверки гипотез: на основании выборочных данных принять решение о справедливости основной гипотезы или отклонить в ее пользу альтернативной.

Так как проверка осуществляется на основании выборки, а не всей генеральной совокупности, то существует вероятность, возможно, очень малая, ошибочного заключения.

Так, нулевая гипотеза может быть отвергнута, в то время как в действительности в генеральной совокупности она является справедливой. Такую ошибку называют ошибкой первого рода , а её вероятность - уровнем значимости и обозначают Возможно, что нулевая гипотеза принимается, в то время как в генеральной совокупности справедлива альтернативная гипотеза. Такую ошибку называют ошибкой второго рода, а её вероятность обозначают (табл. 6.1).

Таблица 6.1

Результаты проверки статистической гипотезы

Проверка статистических гипотез осуществляется с помощью статистического критерия . Статистический критерий K - это правило (функция от результатов наблюдений), определяющее меру расхождения результатов наблюдений с нулевой гипотезой. Вероятность называют мощностью критерия.

При проверке статистических гипотез принято задавать заранее уровень значимости (стандартные значения: 0.1, 0.05, 0.01, 0.001). Тогда из двух критериев, характеризующихся одной и той же вероятностью выбирают тот, которому соответствует меньшая ошибка 2-го рода, т.е. большая мощность. Уменьшить вероятности обеих ошибок и одновременно можно, увеличив объем выборки.

Значения критерия K разделяются на две части: область допустимых значений (область принятия гипотезы ) и критическую область (область принятия гипотезы ). Критическая область состоит из тех же значений критерия К , которые маловероятны при справедливости гипотезы . Если значение критерия K , рассчитанное по выборочным данным, попадает в критическую область, то гипотеза отвергается в пользу альтернативной в противном случае мы утверждаем, что нет оснований отклонять гипотезу .

Пример. Для подготовки к зачету преподаватель сформулировал 100 вопросов (генеральная совокупность) и считает, что студенту можно поставить «зачтено», если тот знает 60 % вопросов (критерий). Преподаватель задает студенту 5 вопросов (выборка из генеральной совокупности) и ставит «зачтено», если правильных ответов не меньше трех. Гипотеза : «студент курс усвоил», а множество - область принятия этой гипотезы. Критической областью является множество - правильных ответов меньше трех, в этом случае основная гипотеза отвергается в пользу альтернативной «студент курс не усвоил, знает меньше 60 % вопросов».

Студент А выучил 70 вопросов из 100, но ответил правильно только на два из пяти, предложенных преподавателем, - зачет не сдан. В этом случае преподаватель совершает ошибку первого рода.

Студент Б выучил 50 вопросов из 100, но ему повезло, и он ответил правильно на 3 вопроса - зачет сдан, но совершена ошибка второго рода.

Преподаватель может уменьшить вероятность этих ошибок, увеличив количество задаваемых на зачете вопросов.

Чтобы построить критическую область, нужно знать закон распределения статистики K при условии, что гипотеза справедлива. Уровень значимости (вероятность наблюдаемому значению попасть в критическую область) определяет «размер» критической области, а конкурирующая гипотеза - «форму» критической области. Например, если проверяется гипотеза а в качестве альтернативы - то критическая область будет правосторонней (рис. 6.1, а ). При альтернативе критическая область - левосторонняя (рис. 6.1, б ). При альтернативе критическая область - двусторонняя (рис. 6.1, в ). Во всех этих случаях при заданном уровне значимости заштрихованная площадь составляет % от всей площади под кривой плотности распределения статистики K .

Алгоритм проверки статистических гипотез сводится к следующему:

1) сформулировать основную и альтернативную гипотезы;

2) выбрать уровень значимости ;

3) в соответствии с видом гипотезы выбрать статистический критерий для ее проверки, т.е. случайную величину K , распределение которой известно;

4) по таблицам распределения случайной величины K найти границу критической области (вид критической области определить по виду альтернативной гипотезы );

5) по выборочным данным вычислить наблюдаемое значение критерия

6) принять статистическое решение: если попадает в критическую область - отклонить гипотезу в пользу альтернативной ; если попадает в область допустимых значений, то нет оснований отклонять основную гипотезу.

Проверка гипотез о параметрах распределения

Постановка задачи о проверке статистической гипотезы

Статистическая гипотеза – всякое предположение о виде закона распределения исследуемой переменной или параметрах известного распределения.

Так, например, можно предположить (выдвинуть гипотезу), что изучаемая переменная X распределена по нормальному закону. В этой гипотезе речь идет о виде предполагаемого закона распределения. Достаточно типична и такая ситуация: закон распределения изучаемой переменной известен, но неизвестны параметры этого распределения. Тогда естественно выдвинуть гипотезу о том, что неизвестный параметр принадлежит, например, заданному интервалу.

Таким образом, статистические гипотезы подразделяются на две группы:

· гипотезы о виде закона распределения;

· гипотезы о параметрах известного закона распределения (параметрические гипотезы).

Выдвигаемую гипотезу называют нулевой (основной) и обозначают через . Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу . Гипотезу, которая противоречит нулевой, называют конкурирующей (альтернативной) и обозначают через ( = ).

Выдвинутая гипотеза , как и всякое предположение, в действительности может быть либо верной, либо неверной; поэтому возникает необходимость ее проверки.

Исходным материалом для проверки выдвинутой гипотезы служат выборочные данные (выборка).

Задача проверки гипотезы описательно заключается в следующем: на заданном уровне значимости требуется установить, согласуется ли выдвинутая гипотеза с выборочными данными или противоречит им.

Уровень значимости – вероятность совершить ошибку первого рода ("степень риска"), т.е. вероятность ошибочно отвергнуть верную гипотезу. Уровень значимости назначается исследователем; наиболее часто принимают равным 0,05 (5%) или 0,01 (1%), что соответствует практически ничтожному риску, и тем самым обеспечивают высокую надежность правильного решения задачи.

Основные принципы и необходимые этапы проверки статистической гипотезы

Для проверки выдвинутой гипотезы используется статистический критерий (разрешающее правило), согласно которому на основании данных выборки принимается решение сохранить либо отвергнуть нулевую гипотезу .

В основе критерия лежит его статистика Z – специально подбираемая для выдвинутой гипотезы случайная величина, закон распределения которой достаточно хорошо изучен (имеется таблица квантилей этого распределения).

Обозначим через множество всех возможных значений статистики Z . Это множество разбивается на два непересекающихся подмножества и :

, ,

где – область допустимых значений статистики Z;


– критическая область статистики Z.

Точки, отделяющие от , называются критическими точками статистики Z . Вопрос построения критической области мы здесь рассматривать не будем, отметим лишь только, что .

По выборочным данным (выборке) вычисляется наблюдаемое значение статистики: .

Критерий (разрешающее правило) проверки выдвинутой гипотезы заключается в следующем:

1. Если , то гипотеза отвергается.

2. Если , то гипотеза сохраняется (т.е. она согласуется с выборочными данными).

Заметим, что отвергают гипотезу более решительно, чем принимают. Принимают гипотезу весьма осторожно. Дело в том, что в случае выдвинутая гипотеза еще не доказана (по данным одной ограниченной выборки). На практике для большей уверенности принятия гипотезы повторяют эксперимент, увеличив объем выборки, и еще раз проверяют гипотезу (может быть другими способами).

Итак, необходимыми этапами проверки статистической гипотезы являются:

· формирование выборки;

· выдвижение гипотез и ;

· назначение уровня значимости ;

· выбор подходящей статистики Z для проверки ;

· вычисление по выборке наблюдаемого значения статистики ;

· определение по таблице критических точек статистики Z и построение критической области ;

· принятие решения согласно критерию проверки гипотезы .

Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий Колмогорова

Для изучаемой переменной Cвыдвигается статистическая гипотеза : C имеет нормальный закон распределения. Исходным материалом для проверки являются выборочные данные (выборка). На заданном уровне значимости требуется установить, согласуется ли выдвинутая гипотеза с выборочными данными или противоречит им.

Проверка гипотезы нормальности по критерию Колмогорова основана на сравнении между собой эмпирической функции распределения , полученной по данным выборки объема , и гипотетической (теоретической) функции распределения нормального закона. Близость между ними оценивается статистикой Колмогорова.