Дисперсия взвешенная рассчитывается по формуле. Показатели вариации: понятие, виды, формулы для вычислений

Дисперсия — это мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Является наиболее используемой мерой рассеяния в статистике, вычисляемая путем суммирования, возведенного в квадрат, отклонения каждого значения данных от средней величины. Формула для вычисления дисперсии представлена ниже:

s 2 – дисперсия выборки;

x ср — среднее значение выборки;

n размер выборки (количество значений данных),

(x i – x ср) — отклонение от средней величины для каждого значения набора данных.

Для лучшего понимания формулы, разберем пример. Я не очень люблю готовку, поэтому занятием этим занимаюсь крайне редко. Тем не менее, чтобы не умереть с голоду, время от времени мне приходится подходить к плите для реализации замысла по насыщению моего организма белками, жирами и углеводами. Набор данных, редставленный ниже, показывает, сколько раз Ренат готовит пищу каждый месяц:

Первым шагом при вычислении дисперсии является определение среднего значения выборки, которое в нашем примере равняется 7,8 раза в месяц. Остальные вычисления можно облегчить с помощью следующей таблицы.

Финальная фаза вычисления дисперсии выглядит так:

Для тех, кто любит производить все вычисления за один раз, уравнение будет выглядеть следующим образом:

Использование метода «сырого счета» (пример с готовкой)

Существует более эффективный способ вычисления дисперсии, известный как метод «сырого счета». Хотя с первого взгляда уравнение может показаться весьма громоздким, на самом деле оно не такое уж страшное. Можете в этом удостовериться, а потом и решите, какой метод вам больше нравится.

— сумма каждого значения данных после возведения в квадрат,

— квадрат суммы всех значений данных.

Не теряйте рассудок прямо сейчас. Позвольте представить все это в виде таблицы, и тогда вы увидите, что вычислений здесь меньше, чем в предыдущем примере.

Как видите, результат получился тот же, что и при использовании предыдущего метода. Достоинства данного метода становятся очевидными по мере роста размера выборки (n).

Расчет дисперсии в Excel

Как вы уже, наверное, догадались, в Excel присутствует формула, позволяющая рассчитать дисперсию. Причем, начиная с Excel 2010 можно найти 4 разновидности формулы дисперсии:

1) ДИСП.В – Возвращает дисперсию по выборке. Логические значения и текст игнорируются.

2) ДИСП.Г — Возвращает дисперсию по генеральной совокупности. Логические значения и текст игнорируются.

3) ДИСПА — Возвращает дисперсию по выборке с учетом логических и текстовых значений.

4) ДИСПРА — Возвращает дисперсию по генеральной совокупности с учетом логических и текстовых значений.

Для начала разберемся в разнице между выборкой и генеральной совокупностью. Назначение описательной статистики состоит в том, чтобы суммировать или отображать данные так, чтобы оперативно получать общую картину, так сказать, обзор. Статистический вывод позволяет делать умозаключения о какой-либо совокупности на основе выборки данных из этой совокупности. Совокупность представляет собой все возможные исходы или измерения, представляющие для нас интерес. Выборка — это подмножество совокупности.

Например, нас интересует совокупность группы студентов одного из Российских ВУЗов и нам необходимо определить средний бал группы. Мы можем посчитать среднюю успеваемость студентов, и тогда полученная цифра будет параметром, поскольку в наших расчетах будет задействована целая совокупность. Однако, если мы хотим рассчитать средний бал всех студентов нашей страны, тогда эта группа будет нашей выборкой.

Разница в формуле расчета дисперсии между выборкой и совокупностью заключается в знаменателе. Где для выборки он будет равняться (n-1), а для генеральной совокупности только n.

Теперь разберемся с функциями расчета дисперсии с окончаниями А, в описании которых сказано, что при расчете учитываются текстовые и логические значения. В данном случае при расчете дисперсии определенного массива данных, где встречаются не числовые значения, Excel будет интерпретировать текстовые и ложные логические значения как равными 0, а истинные логические значения как равными 1.

Итак, если у вас есть массив данных, рассчитать его дисперсию ни составит никакого труда, воспользовавшись одной из перечисленных выше функций Excel.

Вычислим в MS EXCEL дисперсию и стандартное отклонение выборки. Также вычислим дисперсию случайной величины, если известно ее распределение.

Сначала рассмотрим дисперсию , затем стандартное отклонение .

Дисперсия выборки

Дисперсия выборки (выборочная дисперсия, sample variance ) характеризует разброс значений в массиве относительно .

Все 3 формулы математически эквивалентны.

Из первой формулы видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего , деленная на размер выборки минус 1.

дисперсии выборки используется функция ДИСП() , англ. название VAR, т.е. VARiance. С версии MS EXCEL 2010 рекомендуется использовать ее аналог ДИСП.В() , англ. название VARS, т.е. Sample VARiance. Кроме того, начиная с версии MS EXCEL 2010 присутствует функция ДИСП.Г(), англ. название VARP, т.е. Population VARiance, которая вычисляет дисперсию для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у ДИСП.В() , у ДИСП.Г() в знаменателе просто n. До MS EXCEL 2010 для вычисления дисперсии генеральной совокупности использовалась функция ДИСПР() .

Дисперсию выборки
=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)
=(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула
=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1 ) –

Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению . Обычно, чем больше величина дисперсии , тем больше разброс значений в массиве.

Дисперсия выборки является точечной оценкой дисперсии распределения случайной величины, из которой была сделана выборка . О построении доверительных интервалов при оценке дисперсии можно прочитать в статье .

Дисперсия случайной величины

Чтобы вычислить дисперсию случайной величины, необходимо знать ее .

Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]

дисперсия вычисляется по формуле:

где x i – значение, которое может принимать случайная величина, а μ – среднее значение (), р(x) – вероятность, что случайная величина примет значение х.

Если случайная величина имеет , то дисперсия вычисляется по формуле:

Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии стандартное отклонение .

Некоторые свойства дисперсии :

Var(Х+a)=Var(Х), где Х - случайная величина, а - константа.

Var(aХ)=a 2 Var(X)

Var(Х)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2 =E(X 2)-2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Это свойство дисперсии используется в статье про линейную регрессию .

Var(Х+Y)=Var(Х) + Var(Y) + 2*Cov(Х;Y), где Х и Y - случайные величины, Cov(Х;Y) - ковариация этих случайных величин.

Если случайные величины независимы (independent), то их ковариация равна 0, и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это свойство дисперсии используется при выводе .

Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения .

Стандартное отклонение выборки

Стандартное отклонение выборки - это мера того, насколько широко разбросаны значения в выборке относительно их .

По определению, стандартное отклонение равно квадратному корню из дисперсии :

Стандартное отклонение не учитывает величину значений в выборке , а только степень рассеивания значений вокруг их среднего . Чтобы проиллюстрировать это приведем пример.

Вычислим стандартное отклонение для 2-х выборок: (1; 5; 9) и (1001; 1005; 1009). В обоих случаях, s=4. Очевидно, что отношение величины стандартного отклонения к значениям массива у выборок существенно отличается. Для таких случаев используется Коэффициент вариации (Coefficient of Variation, CV) - отношение Стандартного отклонения к среднему арифметическому , выраженного в процентах.

В MS EXCEL 2007 и более ранних версиях для вычисления Стандартного отклонения выборки используется функция =СТАНДОТКЛОН() , англ. название STDEV, т.е. STandard DEViation. С версии MS EXCEL 2010 рекомендуется использовать ее аналог =СТАНДОТКЛОН.В() , англ. название STDEV.S, т.е. Sample STandard DEViation.

Кроме того, начиная с версии MS EXCEL 2010 присутствует функция СТАНДОТКЛОН.Г() , англ. название STDEV.P, т.е. Population STandard DEViation, которая вычисляет стандартное отклонение для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у СТАНДОТКЛОН.В() , у СТАНДОТКЛОН.Г() в знаменателе просто n.

Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера )
=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1))
=КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))

Другие меры разброса

Функция КВАДРОТКЛ() вычисляет сумму квадратов отклонений значений от их среднего . Эта функция вернет тот же результат, что и формула =ДИСП.Г(Выборка )*СЧЁТ(Выборка ) , где Выборка - ссылка на диапазон, содержащий массив значений выборки (). Вычисления в функции КВАДРОТКЛ() производятся по формуле:

Функция СРОТКЛ() является также мерой разброса множества данных. Функция СРОТКЛ() вычисляет среднее абсолютных значений отклонений значений от среднего . Эта функция вернет тот же результат, что и формула =СУММПРОИЗВ(ABS(Выборка-СРЗНАЧ(Выборка)))/СЧЁТ(Выборка) , где Выборка - ссылка на диапазон, содержащий массив значений выборки.

Вычисления в функции СРОТКЛ () производятся по формуле:

.

Обратно, если - неотрицательная п.в. функция, такая что , то существует абсолютно непрерывная вероятностная мера на такая, что является её плотностью.

    Замена меры в интеграле Лебега:

,

где любая борелевская функция, интегрируемая относительно вероятностной меры .

Дисперсия, виды и свойства дисперсии Понятие дисперсии

Дисперсия в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:

1. Простая дисперсия (для несгруппированных данных) вычисляется по формуле:

2. Взвешенная дисперсия (для вариационного ряда):

где n - частота (повторяемость фактора Х)

Пример нахождения дисперсии

На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение

Пример 1. Определение групповой, средней из групповой, межгрупповой и общей дисперсии

Пример 2. Нахождение дисперсии и коэффициента вариации в группировочной таблице

Пример 3. Нахождение дисперсии в дискретном ряду

Пример 4. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию

Построим интервальную группировку. Определим размах интервала по формуле:

где X max– максимальное значение группировочного признака; X min–минимальное значение группировочного признака; n – количество интервалов:

Принимаем n=5. Шаг равен: h = (192 - 159)/ 5 = 6,6

Составим интервальную группировку

Для дальнейших расчетов построим вспомогательную таблицу:

X"i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)

Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:

Определим дисперсию по формуле:

Формулу можно преобразовать так:

Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.

Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии , вычисленной по способу моментов, по следующей формуле менее трудоемок:

где i - величина интервала; А - условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой; m1 - квадрат момента первого порядка; m2 - момент второго порядка

Дисперсия альтернативного признака (если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:

Подставляя в данную формулу дисперсии q =1- р, получаем:

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

Внутригрупповая дисперсия характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.

Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi - групповая средняя; ni - число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).

Средняя из внутри групповых дисперсий отражает случайную вариацию, т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:

Наряду с изучением вариации признака по всей по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии.
Выделяют дисперсию общую, межгрупповую и внутригрупповую .
Общая дисперсия σ 2 измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию, .

Межгрупповая дисперсия (δ) характеризует систематическую вариацию, т.е. различия в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. Она рассчитывается по формуле:
.

Внутригрупповая дисперсия (σ) отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она вычисляется по формуле:
.

Средняя из внутригрупповых дисперсий : .

Существует закон, связывающий 3 вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсии: .
Данное соотношение называют правилом сложения дисперсий .

В анализе широко используется показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии. Он носит название эмпирического коэффициента детерминации (η 2): .
Корень квадратный из эмпирического коэффициента детерминации носит название эмпирического корреляционного отношения (η) :
.
Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1.
Покажем его практическое использование на следующем примере (табл. 1).

Пример №1 . Таблица 1 - Производительность труда двух групп рабочих одного из цехов НПО «Циклон»

Рассчитаем общую и групповые средние и дисперсии:




Исходные данные для вычисления средней из внутригрупповых и межгрупповой дисперсии представлены в табл. 2.
Таблица 2
Расчет и δ 2 по двум группам рабочих.


Группы рабочих
Численность рабочих, чел. Средняя, дет./смен. Дисперсия

Прошедшие техническое обучение

5 95 42,0

Не прошедшие техническое обучение

5 81 231,2

Все рабочие

10 88 185,6
Рассчитаем показатели. Средняя из внутригрупповых дисперсий:
.
Межгрупповая дисперсия

Общая дисперсия:
Таким образом, эмпирическое корреляционное соотношение: .

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается посредством вычисления следующих видов дисперсий:

Внутригрупповая дисперсия доли определяется по формуле

где n i – численность единиц в отдельных группах.
Доля изучаемого признака во всей совокупности, которая определяется по формуле:
Три вида дисперсии связаны между собой следующим образом:
.

Это соотношение дисперсий называется теоремой сложения дисперсий доли признака.

По данным выборочного обследования произведена группировка вкладчиков по размеру вклада в Сбербанке города:

Определите:

1) размах вариации;

2) средний размер вклада;

3) среднее линейное отклонение;

4) дисперсию;

5) среднее квадратическое отклонение;

6) коэффициент вариации вкладов.

Решение:

Данный ряд распределения содержит открытые интервалы. В таких рядах условно принимается величина интервала первой группы равна величине интервала последующей, а величина интервала последней группы равна величине интервала предыдущей.

Величина интервала второй группы равна 200, следовательно, и величина первой группы также равна 200. Величина интервала предпоследней группы равна 200, значит и последний интервал будет иметь величину, равную 200.

1) Определим размах вариации как разность между наибольшим и наименьшим значением признака:

Размах вариации размера вклада равен 1000 рублей.

2) Средний размер вклада определим по формуле средней арифметической взвешенной.

Предварительно определим дискретную величину признака в каждом интервале. Для этого по формуле средней арифметической простой найдём середины интервалов.

Среднее значение первого интервала будет равно:

второго - 500 и т. д.

Занесём результаты вычислений в таблицу:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х xf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Итого 400 - 312000

Средний размер вклада в Сбербанке города будет равен 780 рублей:

3) Среднее линейное отклонение есть средняя арифметическая из абсолютных отклонений отдельных значений признака от общей средней:

Порядок расчёта среднего линейонго отклонения в интервальном ряду распределения следующий:

1. Вычисляется средняя арифметическая взвешенная, как показано в п. 2).

2. Определяются абсолютные отклонения вариант от средней:

3. Полученные отклонения умножаются на частоты:

4. Находится сумма взвешенных отклонений без учёта знака:

5. Сумма взвешенных отклонений делится на сумму частот:

Удобно пользоваться таблицей расчётных данных:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Итого 400 - - - 81280

Среднее линейное отклонение размера вклада клиентов Сбербанка составляет 203,2 рубля.

4) Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической.

Расчёт дисперсии в интервальных рядах распределения производится по формуле:

Порядок расчёта дисперсии в этом случае следующий:

1. Определяют среднюю арифметическую взвешенную, как показано в п. 2).

2. Находят отклонения вариант от средней:

3. Возводят в квадрат отклонения каждой варианты от средней:

4. Умножают квадраты отклонений на веса (частоты):

5. Суммируют полученные произведения:

6. Полученная сумма делится на сумму весов (частот):

Расчёты оформим в таблицу:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Итого 400 - - - 23040000