Простая линейная регрессия. Характеристики регрессионной модели Простая линейная регрессионная модель

Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.

Виды регрессии

Само это понятие было введено в математику в 1886 году. Регрессия бывает:

  • линейной;
  • параболической;
  • степенной;
  • экспоненциальной;
  • гиперболической;
  • показательной;
  • логарифмической.

Пример 1

Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.

Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:

Количество уволившихся

Зарплата

30000 рублей

35000 рублей

40000 рублей

45000 рублей

50000 рублей

55000 рублей

60000 рублей

Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а 0 + а 1 x 1 +…+а k x k , где х i — влияющие переменные, a i — коэффициенты регрессии, a k — число факторов.

Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.

Использование возможностей табличного процессора «Эксель»

Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:

  • с вкладки «Файл» перейти в раздел «Параметры»;
  • в открывшемся окне выбрать строку «Надстройки»;
  • щелкнуть по кнопке «Перейти», расположенной внизу, справа от строки «Управление»;
  • поставить галочку рядом с названием «Пакет анализа» и подтвердить свои действия, нажав «Ок».

Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.

в Excel

Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:

  • щелкаем по кнопке «Анализ данных»;
  • в открывшемся окне нажимаем на кнопку «Регрессия»;
  • в появившуюся вкладку вводим диапазон значений для Y (количество уволившихся работников) и для X (их зарплаты);
  • подтверждаем свои действия нажатием кнопки «Ok».

В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.

Анализ результатов регрессии для R-квадрата

В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:

Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ коэффициентов

Число 64,1428 показывает, каким будет значение Y, если все переменные xi в рассматриваемой нами модели обнулятся. Иными словами можно утверждать, что на значение анализируемого параметра оказывают влияние и другие факторы, не описанные в конкретной модели.

Следующий коэффициент -0,16285, расположенный в ячейке B18, показывает весомость влияния переменной Х на Y. Это значит, что среднемесячная зарплата сотрудников в пределах рассматриваемой модели влияет на число уволившихся с весом -0,16285, т. е. степень ее влияния совсем небольшая. Знак «-» указывает на то, что коэффициент имеет отрицательное значение. Это очевидно, так как всем известно, что чем больше зарплата на предприятии, тем меньше людей выражают желание расторгнуть трудовой договор или увольняется.

Множественная регрессия

Под таким термином понимается уравнение связи с несколькими независимыми переменными вида:

y=f(x 1 +x 2 +…x m) + ε, где y — это результативный признак (зависимая переменная), а x 1 , x 2 , …x m — это признаки-факторы (независимые переменные).

Оценка параметров

Для множественной регрессии (МР) ее осуществляют, используя метод наименьших квадратов (МНК). Для линейных уравнений вида Y = a + b 1 x 1 +…+b m x m + ε строим систему нормальных уравнений (см. ниже)

Чтобы понять принцип метода, рассмотрим двухфакторный случай. Тогда имеем ситуацию, описываемую формулой

Отсюда получаем:

где σ — это дисперсия соответствующего признака, отраженного в индексе.

МНК применим к уравнению МР в стандартизируемом масштабе. В таком случае получаем уравнение:

в котором t y , t x 1, … t xm — стандартизируемые переменные, для которых средние значения равны 0; β i — стандартизированные коэффициенты регрессии, а среднеквадратическое отклонение — 1.

Обратите внимание, что все β i в данном случае заданы, как нормируемые и централизируемые, поэтому их сравнение между собой считается корректным и допустимым. Кроме того, принято осуществлять отсев факторов, отбрасывая те из них, у которых наименьшие значения βi.

Задача с использованием уравнения линейной регрессии

Предположим, имеется таблица динамики цены конкретного товара N в течение последних 8 месяцев. Необходимо принять решение о целесообразности приобретения его партии по цене 1850 руб./т.

номер месяца

название месяца

цена товара N

1750 рублей за тонну

1755 рублей за тонну

1767 рублей за тонну

1760 рублей за тонну

1770 рублей за тонну

1790 рублей за тонну

1810 рублей за тонну

1840 рублей за тонну

Для решения этой задачи в табличном процессоре «Эксель» требуется задействовать уже известный по представленному выше примеру инструмент «Анализ данных». Далее выбирают раздел «Регрессия» и задают параметры. Нужно помнить, что в поле «Входной интервал Y» должен вводиться диапазон значений для зависимой переменной (в данном случае цены на товар в конкретные месяцы года), а в «Входной интервал X» — для независимой (номер месяца). Подтверждаем действия нажатием «Ok». На новом листе (если так было указано) получаем данные для регрессии.

Строим по ним линейное уравнение вида y=ax+b, где в качестве параметров a и b выступают коэффициенты строки с наименованием номера месяца и коэффициенты и строки «Y-пересечение» из листа с результатами регрессионного анализа. Таким образом, линейное уравнение регрессии (УР) для задачи 3 записывается в виде:

Цена на товар N = 11,714* номер месяца + 1727,54.

или в алгебраических обозначениях

y = 11,714 x + 1727,54

Анализ результатов

Чтобы решить, адекватно ли полученное уравнения линейной регрессии, используются коэффициенты множественной корреляции (КМК) и детерминации, а также критерий Фишера и критерий Стьюдента. В таблице «Эксель» с результатами регрессии они выступают под названиями множественный R, R-квадрат, F-статистика и t-статистика соответственно.

КМК R дает возможность оценить тесноту вероятностной связи между независимой и зависимой переменными. Ее высокое значение свидетельствует о достаточно сильной связи между переменными «Номер месяца» и «Цена товара N в рублях за 1 тонну». Однако, характер этой связи остается неизвестным.

Квадрат коэффициента детерминации R 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.

F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.

(критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > t кр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.

В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.

Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.

Задача о целесообразности покупки пакета акций

Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.

Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:

  • кредиторская задолженность (VK);
  • объем годового оборота (VO);
  • дебиторская задолженность (VD);
  • стоимость основных фондов (СОФ).

Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.

Решение средствами табличного процессора Excel

Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:

  • вызывают окно «Анализ данных»;
  • выбирают раздел «Регрессия»;
  • в окошко «Входной интервал Y» вводят диапазон значений зависимых переменных из столбца G;
  • щелкают по иконке с красной стрелкой справа от окна «Входной интервал X» и выделяют на листе диапазон всех значений из столбцов B,C, D, F.

Отмечают пункт «Новый рабочий лист» и нажимают «Ok».

Получают анализ регрессии для данной задачи.

Изучение результатов и выводы

«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:

СП = 0,103*СОФ + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

В более привычном математическом виде его можно записать, как:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Данные для АО «MMM» представлены в таблице:

Подставив их в уравнение регрессии, получают цифру в 64,72 млн американских долларов. Это значит, что акции АО «MMM» не стоит приобретать, так как их стоимость в 70 млн американских долларов достаточно завышена.

Как видим, использование табличного процессора «Эксель» и уравнения регрессии позволило принять обоснованное решение относительно целесообразности вполне конкретной сделки.

Теперь вы знаете, что такое регрессия. Примеры в Excel, рассмотренные выше, помогут вам в решение практических задач из области эконометрики.


16.1 Простая линейная регрессия

    Чтобы вызвать регрессионный анализ в SPSS, выберите в меню Analyze... (Анализ) Regression... (Регрессия). Откроется соответствующее подменю.

Рис. 16.1:

При изучении линейного регрессионного анализа снова будут проведено различие между простым анализом (одна независимая переменная) и множественным анализом (несколько независимых переменных). Никаких принципиальных отличий между этими видами регрессии нет, однако простая линейная регрессия является простейшей и применяется чаще всех остальных видов.

Этот вид регрессии лучше всего подходит для того, чтобы продемонстрировать основополагающие принципы регрессионного анализа. Рассмотрим пример из раздела корреляционный анализ с зависимостью показателя холестерина спустя один месяц после начала лечения от исходного показателя. Можно легко заметить очевидную связь: обе переменные развиваются в одном направлении и множество точек, соответствующих наблюдаемым значениям показателей, явно концентрируется (за некоторыми исключениями) вблизи прямой (прямой регрессии). В таком случае говорят о линейной связи.

у = b х + а ,
где b - регрессионные коэффициенты, a - смещение по оси ординат (OY).

Смещение по оси ординат соответствует точке на оси Y (вертикальной оси), где прямая регрессии пересекает эту ось. Коэффициент регрессии b через соотношение:
b = tg(a) - указывает на угол наклона прямой.

При проведении простой линейной регрессии основной задачей является определение параметров b и а. Оптимальным решением этой задачи является такая прямая, для которой сумма квадратов вертикальных расстояний до отдельных точек данных является минимальной.

Если мы рассмотрим показатель холестерина через один месяц (переменная chol1 ) как зависимую переменную (у), а исходную величину как независимую переменную (х), то тогда для проведения регрессионного анализа нужно будет определить параметры соотношения:
chol1 = b chol0 + a

После определения этих параметров, зная исходный показатель холестерина, можно спрогнозировать показатель, который будет через один месяц.


Расчёт уравнения регрессии

    Выберите в меню Analyze... (Анализ) Regression...(Регрессия) Linear... (Линейная). Появится диалоговое окно Linear Regression (Линейная регрессия).

    Перенесите переменную chol1 в поле для зависимых переменных и присвойте переменной chol0 статус независимой переменной.

    Ничего больше не меняя, начните расчёт нажатием ОК.

Рис.16.2

Вывод основных результатов выглядит следующим образом:

Model Summary (Сводная таблица по модели)

Model (Модель) R R Square (R-квадрат) Adjusted R Square (Скорректир. R-квадрат) Std. Error of the Estimate (Стандартная ошибка оценки)
1 ,861 а ,741 ,740 25,26

а. Predictors: (Constant), Cholesterin, Ausgangswert (Влияющие переменные: (константы), холестерин, исходная величина)

Model (Модель) Sum of Squares (Сумма Квадратов) df Mean Square (Среднее значение квадрата) F Sig. (Значимость)
1 Regression (Регрессия) 314337,948 1 314337,9 492,722 ,000 a
Residual (Остатки) 109729,408 172 637,962
Total (Сумма) 424067,356 173

a. Predictors: (Constant), Cholesterin, Ausgangswert (Влияющие переменные: (константа), холестерин, исходная величина).
b. Dependent Variable: Cholesterin, nach 1 Monat (Зависимая переменная холестерин через 1 месяц)

Coefficients (Коэффициенты) а

Model (Модель) Unstandardized Coefficients
t Sig. (Значимость)
B Std: Error
(Станд. ошибка)
ß (Beta)
1 (Constant) (Константа) 34,546 9,416 3,669 ,000
Cholesterin, Ausgangswert ,863 ,039 ,861 22,197 ,000

a. Dependent Variable (Зависимая переменная)

Рассмотрим сначала нижнюю часть результатов расчётов. Здесь выводятся коэффициент регрессии b и смещение по оси ординат а под именем "константа". То есть, уравнение регрессии выглядит следующим образом:

chol1 = 0,863 chol0 + 34,546

Если значение исходного показателя холестерина составляет, к примеру, 280, то через один месяц можно ожидать показатель равный 276.

Частные рассчитанных коэффициентов и их стандартная ошибка дают контрольную величину Т; соответственный уровень значимости относится к существованию ненулевых коэффициентов регрессии. Значение коэффициента ß будет рассмотрено при изучении многомерного анализа .

Средняя часть расчётов отражает два источника дисперсии: дисперсию, которая описывается уравнением регрессии (сумма квадратов, обусловленная регрессией) и дисперсию, которая не учитывается при записи уравнения (остаточная сумма квадратов). Частное от суммы квадратов, обусловленных регрессией и остаточной суммы квадратов называется "коэфициентом детерминации". В таблице результатов это частное выводится под именем "R-квадрат". В нашем примере мера определённости равна:

314337,948 / 424067,356 = 0,741

Эта величина характеризует качество регрессионной прямой, то есть степень соответствия между регрессионной моделью и исходными данными. Мера определённости всегда лежит в диапазоне от 0 до 1. Существование ненулевых коэффициентов регрессии проверяется посредством вычисления контрольной величины F, к которой относится соответствующий уровень значимости.

В простом линейном регрессионном анализе квадратный корень из коэфициента детерминации, обозначаемый "R", равен корреляционному коэффициенту Пирсона. При множественном анализе эта величина менее наглядна, нежели сам коэфициент детерминации. Величина "Cмещенный R-квадрат" всегда меньше, чем несмещенный. При наличии большого количества независимых переменных, мера определённости корректируется в сторону уменьшения. Принципиальный вопрос о том, может ли вообще имеющаяся связь между переменными рассматриваться как линейная, проще и нагляднее всего решать, глядя на соответствующую диаграмму рассеяния. Кроме того, в пользу гипотезы о линейной связи говорит также высокий уровень дисперсии, описываемой уравнением регрессии.

И, наконец, стандартизированные прогнозируемые значения и стандартизированные остатки можно предоставить в виде графика. Вы получите этот график, если через кнопку Plots...(Графики) зайдёте в соответствующее диалоговое окно и зададите в нём параметры *ZRESID и *ZPRED в качестве переменных, отображаемых по осям у и х соответственно. В случае линейной регрессии остатки распределяются случайно по обе стороны от горизонтальной нулевой линии.


Сохранение новых переменных

Многочисленные вспомогательные значения, рассчитываемые в ходе построения уравнения регрессии, можно сохранить как переменные и использовать в дальнейших расчётах.

    Для этого в диалоговом окне Linear Regression (Линейная регрессия) щёлкните на кнопке Save (Сохранить). Откроется диалоговое окно Linear Regression: Save (Линейная регрессия: Сохранение) как изображено на рисунке 16.3.

Рис. 16.3:

Интересными здесь представляются опции Standardized (Стандартизированные значения) и Unstandardized (Нестандартизированные значения), которые находятся под рубрикой Predicted values (Прогнозируемые величины опции). При выборе опции Не стандартизированные значения будут рассчитывается значения у, которое соответствуют уравнению регрессии. При выборе опции Стандартизированные значения прогнозируемая величина нормализуется. SPSS автоматически присваивает новое имя каждой новообразованной переменной, независимо от того, рассчитываете ли Вы прогнозируемые значения, расстояния, прогнозируемые интервалы, остатки или какие-либо другие важные статистические характеристики. Нестандартизированным значениям SPSS присваивает имена pre_1 (predicted value), pre_2 и т.д., а стандартизированным zpr_l.

    Щёлкните в диалоговом окне Linear Regression: Save (Линейная регрессия: Сохранение) в поле Predicted values (Прогнозируемые значения) на опции Unstandardized (Нестандартизированные значения).

В редакторе данных будет образована новая переменная под именем рrе_1 и добавлена в конец списка переменных в файле. Для объяснения значений, находящихся в переменной рrе_1 , возьмём случай 5. Для случая 5 переменная рrе_1 содержит нестандартизированное прогнозируемое значение 263,11289. Это прогнозируемое значение слегка отличается в сторону увеличения от реального показателя содержания холестерина, взятого через один месяц (chol1 ) и равного 260. Нестандартизированное прогнозируемое значение для переменной chol1 , так же как и другие значения переменной рге_1, было вычислено исходя из соответствующего уравнения регрессии.

Если мы в уравнение регрессии:

chol1 = 0,863 chol0 + 34,546

подставим исходное значение для chol0 (265), то получим: chol1 = 0,863 265 + 34,546 = 263,241

Небольшое отклонение от значения, хранящегося в переменной рге_1 объясняется тем, что SPSS использует в расчётах более точные значения, чем те, которые выводятся в окне просмотра результатов.

    Добавьте для этого в конец файла hyper.sav , ещё два случая, используя фиктивные значения для переменной chol0. Пусть к примеру, это будут значения 282 и 314.

Мы исходим из того, что нам не известны значения показателя холестерина через месяц после начала лечения, и мы хотим спрогнозировать значение переменной chol1 .

    Оставьте предыдущие установки без изменений и проведите новый расчёт уравнения регрессии.

В конце списка переменных добавится переменная рге_2. Для нового добавленного случая (№175) для переменной chol1 будет предсказано значение 277,77567, а для случая №176 - значение 305,37620.


Построение регрессионной прямой

Чтобы на диаграмме рассеяния изобразить регрессионную прямую, поступите следующим образом:

Рис. 16.9:


Выбор осей

Для диаграмм рассеяния часто оказывается необходимой дополнительная корректировка осей. Продемонстрируем такую коррекцию при помощи одного примера. В файле raucher.sav находятся десять фиктивных наборов данных. Переменная konsum указывает на количество сигарет, которые выкуривает один человек в день, а переменная puls на количество времени, необходимое каждому испытуемому для восстановления пульса до нормальной частоты после двадцати приседаний. Как было показано ранее, постройте диаграмму рассеяния с внедрённой регрессионной прямой.

    В диалоговом окне Simple Scatterplot (Простая диаграмма рассеяния) перенесите переменную puls в поле оси Y, а переменную konsum - в поле оси X. После соответствующей обработки данных в окне просмотра появится диаграмма рассеяния, изображённая на рисунке 16.10.

Рис. 16.10:

Так как никто не выкуривает минус 10 сигарет в день, точка начала отсчёта оси X является не совсем корректной. Поэтому эту ось необходимо откорректировать.

В окне просмотра Вы увидите откорректированную диаграмму рассеяния (см. рис. 16.13).

Рис. 16.13:

На откорректированной диаграмме рассеяния теперь стало проще распознать начальную точку на оси Y, которая образуется при пересечении с регрессионной прямой. Значение этой точки примерно равно 2,9. Сравним это значение с уравнением регрессии для переменных puls (зависимая переменная) и konsum (независимая переменная). В результате расчёта уравнения регрессии в окне отображения результатов появятся следующие значения:

Coefficients (Коэффициенты) а

Model (Модель) Unstandardized Coefficients
(Не стандартизированные коэффициенты)
Standardized Coefficients (Стандартизированные коэффициенты) t Sig. (Значимость)
B Std: Error
(Станд. ошибка)
ß (Beta)
1 (Constant) (Константа) 2,871 ,639 4,492 ,002
tgl. Zigarettenkonsum ,145 ,038 ,804 3,829 ,005

a. Dependent Variable: Pulsfrequenz unter 80 (Зависимая переменная: частота пульса ниже 80)

Что дает следующее уравнение регрессии:

puls = 0,145 konsum + 2,871

Константа в вышеприведенном уравнении регрессии (2,871) соответствует точке на оси Y, которая образуется в точке пересечения с регрессионной прямой.


Парная (простая) линейная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной рассматривается как функция одной независимой (объясняющей) переменной x , т.е. это модель вида:

Так же y называют результативным признаком, а x признаком-фактором.

Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости. Практически в каждом отдельном случае величина y складывается из двух слагаемых:

(4.5)

где y – фактическое значение результативного признака;

– теоретическое значение результативного признака, найденное исходя из уравнения регрессии;

e – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.

Случайная величина e включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

Различают линейные и нелинейные регрессии.

Линейная регрессия: y = a + b × x + e .

Нелинейные регрессии делятся на два класса:

ü регрессии,нелинейныеотносительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

ü регрессии, нелинейные по оцениваемым параметрам.

Например:

ü регрессии, нелинейные по объясняющим переменным :

полиномы разных степеней y = a + b × x + b × x 2 + ... + b × x n + e ;

равностронняя гипербола y = a + b /x + e ;

ü регрессии, нелинейные по оцениваемым параметрам :

степенная y = a × x b × e ;

Показательная y = a × b x ×e ;

Экспоненциальная y = e a + bx +e .

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такиеоценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических минимальна, т.е.

(4.6)

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b :

(4.7)

Можно воспользоваться готовыми формулами, которые вытекают непосредственно из решения этой системы:

(4.8)

где – ковариация признаков x и y,

– дисперсия признака x и

(Ковариация – числовая характеристика совместного распределения двух случайных величин, равная математическому ожиданию произведения отклонений этих случайных величин от их математических ожиданий. Дисперсия – характеристика случайной величины, определяемая как математическое ожидание квадрата отклонения случайной величины от ее математического ожидания. Математическое ожидание – сумма произведений значений случайной величины на соответствующие вероятности.)

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции r xy для линейной регрессии(-1£ r xy £1):

(4.9)

и индекс корреляции r xy – для нелинейной регрессии(0£ r xy £ 1):

(4.10)

где общая дисперсия результативного признака у ;

остаточная дисперсия, определяемая исходя из уравнения регрессии

Оценку качества построенной модели даст коэффициент (индекс) детерминации r 2 (для линейной регрессии) либо r 2 (для нелинейной регрессии), а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

(4.11)

Допустимый предел значений – не более 10%.

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на1%от своего среднего значения:

(4.12)

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом,так и отдельных егопараметров.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера , которому предшествует дисперсионный анализ. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – « объясненную » и «необъясненную »:

где ∑(y - ) 2 – общая сумма квадратов отклонений;

( - ) 2 – сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);

∑(y – ) 2 – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 4.1 (n – число наблюдений, m – число параметров при переменной x ).

Таблица 4.1

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду (напомним, что степени свободы – это числа, показывающие количество элементов варьирования, которые могут принимать произвольные значения, не изменяющие заданных характеристик). Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера:

Фактическое значение F -критерия Фишера сравнивается с табличным значением F табл (a ; k 1 ; k 2) при уровне значимости a и степенях свободы k 1 = m и k 2 = n - m - 1. При этом, если фактическое значение F -критерия больше табличного, то признается статистическая значимость уравнения в целом.

Для парной линейной регрессии m = 1, поэтому

(4.15)

Величина F -критерия связана с коэффициентом детерминации r xy 2 , и ее можно рассчитать по следующей формуле:

(4.16)

Для оценки статистической значимости параметров регрессии и корреляции рассчитываются t -критерий Стьюдента и доверительные интервалы каждого из показателей.Оценка значимости коэффициентоврегрессии и корреляции с помощью t -критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

(4.17)

Стандартные ошибки параметров линейной регрессии икоэффициента корреляции определяются по формулам:

4.18

Сравнивая фактическое и критическое (табличное) значения t - статистики – t табл и t факт – делаем вывод о значимости параметров регрессии и корреляции. Если t табл < t факт то параметры a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если t табл > t факт , то признается случайная природа формирования a , b или r xy .

Для расчета доверительного интервала определяем предельную ошибку ∆для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

Связь между F -критерием Фишера и t -статистикой Стьюдента выражается равенством

В прогнозных расчетах по уравнению регрессии определяется предсказываемое индивидуальное значение y 0 как точечный прогноз при x = x 0 ,т.е.путем подстановки в линейное уравнение = a + b × x соответствующего значения x. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибки

(4.19)

где , и построением доверительного интервала прогнозного значения :

C помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии.

Если в меню сервис еще нет команды Анализ данных , то необходимо сделать следующее. В главном меню последовательно выбираем Сервис→Надстройки и устанавливаем «флажок» в строке Пакет анализа (рис. 4.1).

1. Если исходные данные уже внесены, то выбираем Сервис→Анализ данных→Регрессия .

2. Заполняем диалоговое окно ввода данных и параметров вывода (рис. 4.2).

Входной интервал Y –диапазон,содержащий данныерезультативного признака;

Входной интервал X –диапазон,содержащий данные признака-фактора;

Метки – «флажок»,который указывает,содержит ли первая строканазвания столбцов;

Рис. 4.1. Строка Пакет анализа

Рис. 4.2. Диалоговое окно ввода данных и параметров вывода

Константа – ноль – «флажок»,указывающий на наличие илиотсутствие свободного члена в уравнении;

Выходной интервал –достаточно указать левую верхнюю ячейкубудущего диапазона;

Новый рабочий лист –можно указать произвольное имя новоголиста (или не указывать, тогда результаты выводятся на вновь созданный лист).

Получаем подобные результаты:

Откуда выписываем, округляя до 4 знаков после запятой и переходя к нашим обозначениям:

Уравнение регрессии:

76,9765+0,9204x .

Коэффициент корреляции:

r xy =0,7210.

Коэффициент детерминации:

r xy 2 =0,5199.

Фактическое значение F -критерия Фишера:

F =10,8280

Остаточная дисперсия на одну степень свободы:

S ост 2 =157, 4922.

Корень квадратный из остаточной дисперсии (стандартная ошибка):

S ост =12,5496.

Стандартные ошибки для параметров регрессии:

m a =24, 2116 , m b =0, 2797.

Фактические значения t -критерия Стьюдента:

t a =3,1793, t b =3,2906.

Доверительные интервалы:

23,0298 £ a * £130,9232,

0,2972 £ b * £ ,5437.

Как видим, найдены все рассмотренные выше параметры и характеристики уравнения регрессии, за исключением средней ошибки аппроксимации (значение t -критерия Стьюдента для коэффициента корреляции совпадает с t b ). Результаты «ручного счета» от машинного отличаются незначительно (отличия связаны с ошибками округления).

4.3. Финансовое моделирование в Excel.

Начиная создавать финансовую модель предприятия, лучше руководствоваться принципом «от простого к сложному», иначе в попытке учесть все нюансы есть риск запутаться в большом количестве формул и ссылок. Поэтому вполне оправдано вначале создать простейшую модель (с минимальным количеством элементов), установить связи общего характера между внешними параметрами (спрос на продукцию, стоимость ресурсов) и внутренними показателями деятельности предприятия (выручка, затраты, денежные потоки и т. д.). В первой итерации можно не заботиться об особой точности задаваемых параметров. На этом этапе важнее установить правильные взаимосвязи между переменными так, чтобы финансовая модель предприятия автоматически пересчитывалась после изменения исходных данных и позволяла выстраивать различные сценарии. Уже после этого можно приступить к ее развитию, детализовать показатели, ввести дополнительные уровни аналитики и т. д.

1) Доходы. Построение финансовой модели в Excel начинается с задания внешних параметров. Отправной точкой для дальнейших расчетов послужит план продаж. ля этого в Excel на одном из листов книги размещается таблица с планом продаж в денежном выражении (табл. 4.1). На этом этапе выручку можно указать «навскидку» или использовать данные прошлого года. Пока точность не имеет большого значения. Позднее при детализации модели план продаж придется доработать.

2) Расходы. Исходя из объема продаж, определяется размер переменных затрат. В самом общем виде расчет может выглядеть следующим образом:

Переменные затраты = Доля в выручке х Объем продаж

Сделаем небольшое допущение и предположим, что в примере переменными являются только затраты на оплату труда – заработная плата сотрудников полностью зависит от объема оказанных услуг, на нее уходит примерно 30 процентов выручки от реализации. Кстати, план затрат удобнее разместить на отдельном листе Excel (табл. 4.2). В нем зарплата рассчитывается помесячно как произведение коэффициента 0,3 (30% / 100%) и плана продаж на определенный месяц. Расходы на аренду и управление вводятся на первом этапе создания финансовой модели предприятия не как расчетные величины, а как фиксированные значения. В дальнейшем при детализации модели их можно будет заменить формулами, увязав с другими показателями.

Таблица 4.1

План продаж в финансовой модели предприятия, тыс. руб.

Таблица 4.2

План затрат в финансовой модели предприятия, тыс. руб.

Не стоит перегружать планы верхнего уровня (баланс, прибыли и убытки, движение денежных средств) показателями. Лучше стремиться к тому, чтобы каждый из них мог уместиться на одном печатном листе. Зачастую трудно удержаться от соблазна расшифровать каждую цифру (например, в плане доходов и расходов расписать выручку по видам продукции, группам клиентов, каналам сбыта и т. п.). Если в план доходов и расходов включить сотню видов готовой продукции и статей затрат, это значительно затруднит его восприятие. Тем не менее с точки зрения информативности полезно подобные планы дополнять различными относительными показателями (например, в баланс внести показатели структуры активов и пассивов (удельные веса статей в валюте баланса), в план доходов и расходов – рентабельность).

В плане доходов и расходов (табл. 4.3) строки «Операционные расходы» и «Операционные доходы» заполняются при помощи ссылок на соответствующие ячейки функциональных планов. Выручка расшифрована по видам услуг, затраты – по статьям. В этом случае такая расшифровка допустима, поскольку не утяжеляет восприятие отчета и не усложняет его анализ. Кроме того, в отчет включены два аналитических показателя – рентабельность (как отношение прибыли к выручке) и прибыль нарастающим итогом. Если понадобится провести более глубокий анализ, в частности, динамики доли оплаты труда в себестоимости услуг, все необходимые для этого расчеты лучше проводить на отдельном листе.

Таблица 4.3

План доходов и расходов в финансовой модели предприятия, тыс. руб.

План движения денежных средств (табл. 4.4) в нашем примере формируется со следующими допущениями.

Таблица 4.4

План движения денежных средств, тыс. руб.

Первое: разделы «Финансовая деятельность» и «Инвестиционная деятельность» исключены из плана. Предполагается, что предприятие осуществляет только операционную деятельность, не привлекая заемные средства и не осуществляя капитальные вложения. Еще одно допущение. Предприятие оказывает услуги физическим лицам за наличный расчет, а значит, время оказания услуги и ее оплаты совпадает – в итоге у предприятия нет дебиторской задолженности. Ситуация с платежами по операционной деятельности не так однозначна. Зарплата и аренда выплачиваются в месяце, следующем за месяцем начисления, а управленческие расходы – в месяце их осуществления.Последнее, что остается сделать, – создать прогнозный баланс (табл. 4.5). Данные по оборотам за период берутся из ПДР и ПДДС, начальные остатки – из баланса за предыдущий период (здесь допустимо ручное внесение информации).

Таблица 4.5

Прогнозный баланс, тыс. руб.

Построенная таким образом финансовая модель обозначает основные группы показателей, характеризующих деятельность предприятия (доходы, расходы, денежные средства и т. п.), увязывает их в три сводных плана. Даже эту простейшую на первый взгляд модель можно использовать для сценарного анализа. В частности, если исключить из плана продаж услугу № 1(соответствующую строку удалять не нужно, достаточно проставить по ней нули), то можно увидеть, насколько ухудшатся показатели рентабельности и ликвидности.

Чтобы превратить модель в полноценный инструмент сценарного анализа, потребуется «насытить» ее аналитикой, детализировать исходную информацию до показателей, которыми можно управлять на практике. Например, в случае с предприятием, оказывающим услуги, очевидна необходимость детализации плана продаж, внесенного ранее в модель в денежном выражении. Выручку по каждому виду услуг можно рассчитать как произведение цены единицы услуги и количества указанных услуг. На практике, естественно, план продаж формируется исходя из конъюнктуры рынка, ожидаемого спроса, предполагаемой цены реализации, достигнутых договоренностей с ключевыми клиентами, запланированных маркетинговых мероприятий, ценовой и кредитной политики и т. д.

Аналогично детализируются и другие исходные данные. Например, арендную плату можно было бы разложить на площадь арендуемого помещения и стоимость одного квадратного метра, зарплату расписать по сотрудникам, управленческие расходы разбить по видам. В итоге функциональность финансовой модели предприятия развивается до такого уровня, что можно увидеть, как влияет изменение любого, даже самого незначительного параметра на конечный результат.

Сверстать подробную финансовую модель предприятия – задача интересная, но сложная. Потребуется скрупулезно изучить и адекватно математически описать существующие взаимосвязи как внутрипроизводственных процессов, так и внешних факторов. Силами одной финансовой службы такую модель не сделать, понадобится участие всех служб предприятия – от департамента продаж до бухгалтерии.

Использование финансовой модели при планировании деятельности помогает увидеть, как те или иные планы развития отражаются на структуре активов, пассивов, доходов и расходов предприятия, а также определить, от каких факторов в наибольшей степени зависят будущая прибыль, ликвидность и финансовая устойчивость. Модель служит скорее инструментом мониторинга текущей ситуации на предприятии и выработки адекватной финансовой политики.

Финансовую модель предприятия стоит использовать в процессе бюджетирования сразу же после утверждения плана продаж. Если план продаж «прогнать» через модель, то полученный финансовый результат можно показать акционерам, чтобы установить целевые значения по затратам, прибыли, дивидендам. Если планируемая выручка не обеспечивает необходимой прибыли с точки зрения акционеров, прямо в модели корректируются влияющие показатели. Окончательный вариант расчетов модели определяет целевые значения бюджетных лимитов для всех центров финансовой ответственности. В течение года финансовую модель предпредприятия можно будет корректировать, проставлять по пройденным месяцам фактические данные вместо плановых и контролировать таким образом финансовые результаты, отслеживать негативные тенденции и четко понимать, к чему они приведут предприятие.

Финансовая модель в Excel дает возможность:

Спланировать деятельность по проекту, внести ясность в соотношение его эффективности и планируемых затрат на его реализацию;

Проанализировать финансовые показатели проекта, такие как как NPV, IRR, PBP, WACC и др.;

Вводить и анализировать любые изменения в проект.

К преимуществам использования моделирования в Excel относится то, что получаемая финансовая модель гибка и понятна. Вы с любой момент можете посмотреть формулу расчета того или иного показателя и изменять исходные данные проекта по своему усмотрению. Еще одно преимущество построения финансовой модели в Excel - то, что все расчеты идут последовательно и обоснованно.

Для построения финансовой модели в Excel необходима следующая информация по проекту:

Баланс компании на последнюю отчетную дату;

Список продуктов, цены, объем продаж, способы оплаты;

Перечень издержек компании, таких как прямые и общие издержки, заработная плата персонала;

Условия финансирования;

Инвестиционный план проекта;

Условия лизинга (если имеется).

Выходами финансовой модели в Excel являются:

Отчет о прибыли и убытках;

Отчет о движении денежных средств;

Финансовые показатели проекта.

Если функция регрессии линейная, то говорят о линейной регрессии . Линейная регрессия находит весьма широкое применение в эконометрике в связи с четкой экономической интерпретации ее параметров. Кроме того, построенное линейное уравнение может служить начальной точкой эконометрического анализа.

Простая линейная регрессия представляет собой линейную функцию между условным математическим ожиданием зависимой переменной и одной зависимой переменной X (x i – значения зависимой переменной в i -ом наблюдении):

. (5.5)

Для отражения того факта, что каждое индивидуальное значение y i отклоняется от соответствующего условного математического ожидания, необходимо ввести в соотношение (5.5) случайное слагаемое e i :

. (5.6)

Это соотношение называется теоретической линейной регрессионной моделью ; b 0 и b 1 – теоретическими коэффициентами регрессии . Таким образом, индивидуальные значения y i представляют в виде двух компонент – систематической () и случайной (e i ). В общем виде теоретическую линейную регрессионную модель будем представлять в виде

. (5.7)

Основная задача линейного регрессионного анализа состоит в том, чтобы по имеющимся статистическим данным для переменных X и Y получить наилучшие оценки неизвестных параметров b 0 и b 1 . По выборке ограниченного объема можно построить эмпирическое линейное уравнение регрессии :

где – оценка условного математического ожидания , b 0 и b 1 – оценки неизвестных параметров b 0 и b 1 , называемые эмпирическими коэффициентами регрессии . Следовательно, в конкретном случае

, (5.9)

где отклонение e i – оценка теоретического случайного отклонения e i .

Задача линейного регрессионного анализа состоит в том, чтобы по конкретной выборке (x i ,y i ) найти оценки b 0 и b 1 неизвестных параметров b 0 и b 1 так, чтобы построенная линия регрессии была бы наилучшей в определенном смысле среди всех других прямых. Другими словами, построенная прямая должна быть «ближайшей» к точкам наблюдений по их совокупности. Мерами качества найденных оценок могут служить определенные композиции отклонений e i . Например, коэффициенты b 0 и b 1 эмпирического уравнения регрессии могут быть оценены исходя из условия минимизации функции потерь (loss function) : . Например, функции потерь могут быть выбраны в следующем виде:



1) ; 2) ; 3) .

Самым распространенным и теоретически обоснованным является метод нахождения коэффициентов, при котором минимизируется первая сумма. Он получил название метод наименьших квадратов (МНК) . Этот метод оценки является наиболее простым с вычислительной точки зрения. Кроме того, оценки коэффициентов регрессии, найденные МНК при определенных предпосылках, обладают рядом оптимальных свойств. Хорошие статистические свойства метода, простота математических выводов делают возможным построить развитую теорию, позволяющую провести тщательную проверку различных статистических гипотез. Минусы метода – чувствительность в «выбросам».

Метод определения оценок коэффициентов из условия минимизации второй суммы называется методом наименьших модулей . Этот метод обладает определенными достоинствами, например, по сравнению с методом наименьших квадратов он нечувствителен к выбросам (обладает робастностью). Однако у него имеются существенные недостатки. В первую очередь это связано со сложностью вычислительных процедур. Во-вторых, с неоднозначностью метода, т.е. разным значениям коэффициентов регрессии могут соответствовать одинаковые суммы модулей отклонений.

Метод минимизации максимума модуля отклонения наблюдаемого значения результативного показателя y i от модельного значения называется методом минимакса , а получаемая при этом регрессия минимаксной .

Среди других методов оценивания коэффициентов регрессии отметим метод максимального правдоподобия (ММП) .

Рассмотрим парную линейную регрессионную модель взаимосвязи двух переменных, для которой функция регрессии φ(х) линейна. Обозначим черезy x условную среднюю признакаY в генеральной совокупности при фиксированном значенииx переменнойХ . Тогда уравнение регрессии будет иметь вид:

y x = ax + b , гдеa коэффициент регрессии (показатель наклона линии линейной регрессии). Коэффициент регрессии показывает, на сколько единиц в среднем изменяется переменнаяY при изменении переменнойХ на одну единицу. С помощью метода наименьших квадратов получают формулы, по которым можно вычислять параметры линейной регрессии:

Таблица 1. Формулы для расчета параметров линейной регрессии

Свободный член b

Коэффициент регрессии a

Коэффициент детерминации

Проверка гипотезы о значимости уравнения регрессии

Н 0 :

Н 1 :

, ,, Приложение 7 (для линейной регрессии р = 1)

Направление связи между переменными определяется на основании знака коэффициента регрессии. Если знак при коэффициенте регрессии положительный, связь зависимой переменной с независимой будет положительной. Если знак при коэффициенте регрессии отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

Для анализа общего качества уравнения регрессии используют коэффициент детерминации R 2 , называемый также квадратом коэффициента множественной корреляции. Коэффициент детерминации (мера определенности) всегда находится в пределах интервала . Если значениеR 2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значениеR 2 близкое к нулю, означает плохое качество построенной модели.

Коэффициент детерминации R 2 показывает, на сколько процентовнайденная функция регрессии описывает связь между исходными значениямиY иХ . На рис. 3 показана– объясненная регрессионной моделью вариация и- общая вариация. Соответственно, величинапоказывает, сколько процентов вариации параметраY обусловлены факторами, не включенными в регрессионную модель.

При высоком значении коэффициента детерминации 75%) можно делать прогноздля конкретного значенияв пределах диапазона исходных данных. При прогнозах значений, не входящих в диапазон исходных данных, справедливость полученной модели гарантировать нельзя. Это объясняется тем, что может проявиться влияние новых факторов, которые модель не учитывает.

Оценка значимости уравнения регрессии осуществляется с помощью критерия Фишера (см. табл. 1). При условии справедливости нулевой гипотезы критерий имеет распределение Фишера с числом степеней свободы , (для парной линейной регрессиир = 1 ). Если нулевая гипотеза отклоняется, то уравнение регрессии считается статистически значимым. Если нулевая гипотеза не отклоняется, то признается статистическая незначимость или ненадежность уравнения регрессии.

Пример 1. В механическом цехе анализируется структура себестоимости продукции и доля покупных комплектующих. Было отмечено, что стоимость комплектующих зависит от времени их поставки. В качестве наиболее важного фактора, влияющего на время поставки, выбрано пройденное расстояние. Провести регрессионный анализ данных о поставках:

Расстояние, миль

Время, мин

Для проведения регрессионного анализа:

    построить график исходных данных, приближенно определить характер зависимости;

    выбрать вид функции регрессии и определить численные коэффициенты модели методом наименьших квадратов и направление связи;

    оценить силу регрессионной зависимости с помощью коэффициента детерминации;

    оценить значимость уравнения регрессии;

    сделать прогноз (или вывод о невозможности прогнозирования) по принятой модели для расстояния 2 мили.

2. Вычислим суммы, необходимые для расчета коэффициентов уравнения линейной регрессии и коэффициента детерминации R 2 :

; ;;.

Искомая регрессионная зависимость имеет вид: . Определяем направление связи между переменными: знак коэффициента регрессии положительный, следовательно, связь также является положительной, что подтверждает графическое предположение.

3. Вычислим коэффициент детерминации: или 92%. Таким образом, линейная модель объясняет 92% вариации времени поставки, что означает правильность выбора фактора (расстояния). Не объясняется 8% вариации времени, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.

4. Проверим значимость уравнения регрессии:

Т.к. – уравнение регрессии (линейной модели) статистически значимо.

5. Решим задачу прогнозирования. Поскольку коэффициент детерминации R 2 имеет достаточно высокое значение и расстояние 2 мили, для которого надо сделать прогноз, находится в пределах диапазона исходных данных, то можно сделать прогноз:

Регрессионный анализ удобно проводить с помощью возможностей Exel . Режим работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу. В диалоговом окне следует заполнить следующие параметры:

Пример 2. Выполнить задание примера 1 с помощью режима "Регрессия" Exel .

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

Переменная X 1

Рассмотрим представленные в таблице результаты регрессионного анализа.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). В нашем примере мера определенности равна 0,91829, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным и совпадает с коэффициентом детерминации R 2 , вычисленным по формуле.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации. В простом линейном регрессионном анализе множественный коэффициент R равен линейному коэффициенту корреляции (r = 0,958).

Коэффициенты линейной модели: Y -пересечение выводит значение свободного члена b , а переменная Х1 – коэффициента регрессии а. Тогда уравнение линейной регрессии:

у = 2,6597 x + 5,9135 (что хорошо согласуется с результатами расчета в примере 1).

Далее проверим значимость коэффициентов регрессии: a и b . Сравнивая попарно значения столбцов Коэффициенты и Стандартная ошибка в таблице, видим, что абсолютные значения коэффициентов больше, чем их стандартные ошибки. К тому же эти коэффициенты являются значимыми, о чем можно судить по значениям показателя Р-значение, которые меньше заданного уровня значимости α=0,05.

Наблюдение

Предсказанное Y

Остатки

Стандартные остатки

В таблице представлены результаты вывода остатков . При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в данном случае - 1,89256, наименьшее - 0,05399. Для лучшей интерпретации этих данных строят график исходных данных и построенной линией регрессии. Как видно из построения, линия регрессии хорошо "подогнана" под значения исходных данных, а отклонения носят случайный характер.