Математическая статистика

Регрессионный анализ

Задачи регрессионного анализа




Рассмотрим задачу определения значения случайной величины по данным значениям другой величины. Пусть Y – случайная величина, значения которой требуется определить, x – известная величина, которая может представлять собой значение некоторой случайной величины X или заданное значение некоторой переменной. Предположим, что между величинами Y и X имеется статистическая связь, т.е. распределение случайной величины Y зависит от значения x.

С точки зрения математической статистики поставленная задача представляет собой задачу оценивания значения случайной величины Y при данном значении x. Пусть $\hat{y}=\hat{y}(x)$ – оценка значения случайной величины Y при данном значении x. В связи с тем, что x – фиксированное значение, то оценка $\hat{y}$ не является случайной величиной. Случайной величиной является ошибка этой оценки:

$\varepsilon (x)=\hat{y}(x)-Y$.

(1)

В качестве меры точности оценки $\hat{y}(x)$ целесообразно использовать математическое ожидание квадрата ошибки $\varepsilon (x)$:

${{m}_{{{\varepsilon }^{2}}}}(x)=\text{M}\left[ {{\left( \hat{y}(x)-Y \right)}^{2}}|x \right]$.

(2)

Наилучшей оценкой значения случайной величины Y при данном значении x будет оценка, минимизирующая ошибку (2):

$\text{M}\left[ {{\left( \hat{y}(x)-Y \right)}^{2}}|x \right]\to \underset{\hat{y}(x)}{\mathop{\min }}\,$.

(3)

Из известного в теории вероятностей равенства

$\text{M}\left[ {{\left( Y-a \right)}^{2}} \right]=\text{D}[Y]+{{\left( \text{M}[Y]-a \right)}^{2}}$

(4)

следует, что математическое ожидание квадрата ошибки (1) будет минимальным, если $\hat{y}(x)$ будет математическим ожиданием случайной величины Y при данном значении x:

$\hat{y}(x)=\text{M}\left[ Y|x \right]$.

(5)

Следовательно, зависимость оценки $\hat{y}(x)$ значения случайной величины Y при данном значении x представляет собой регрессию Y на X. Таким образом, оптимальной с точки зрения среднего квадрата ошибки (1) оценкой зависимости Y от x служит регрессия Y на X. В частности, оптимальным прогнозом величины Y по данному значению x будет прогноз по регрессии.

Модель, определяемая регрессией Y на X, называется регрессионной моделью. Построение и исследование регрессионных моделей составляет предмет регрессионного анализа.

Регрессионную модель имеет смысл строить, если априорно или по результатам предварительного анализа выявлено, что между входными и выходными величинами имеется статистическая связь. В терминах регрессионного анализа входные величины называются регрессорами, или предикторами, а выходные переменные - откликами модели.

Ниже перечислены основные задачи регрессионного анализа.

1) Выбор класса функций для описания зависимости откликов модели ${{Y}_{1}},...,{{Y}_{l}}$ от регрессоров ${{X}_{1}},...,{{X}_{m}}$.

2) Нахождение оценок неизвестных параметров функции, описывающей зависимость откликов модели ${{Y}_{1}},...,{{Y}_{l}}$ от регрессоров ${{X}_{1}},...,{{X}_{m}}$.

3) Статистический анализ найденной зависимости откликов модели ${{Y}_{1}},...,{{Y}_{l}}$ от регрессоров ${{X}_{1}},...,{{X}_{m}}$.

4) Предсказание значений откликов модели ${{Y}_{1}},...,{{Y}_{l}}$ по результатам наблюдения регрессоров ${{X}_{1}},...,{{X}_{m}}$ на основе найденной зависимости.

Рассмотрим случай одного регрессора X и скалярного отклика Y.

Как показано выше, оптимальной функцией, описывающей зависимость отклика модели Y от регрессора X, является функция регрессии Y на X. При этом возможны следующие ситуации.

1) Вид функции регрессии известен, исходя из априорной информации о наблюдаемых величинах. Например, если известно, что случайные величины X и Y имеют нормальный закон распределения, то уравнение регрессии Y на X (как и X на Y) может быть только линейным.

2) Вид функции регрессии не известен или эта функция слишком сложна. В этой ситуации возможны следующие подходы к определению вида функции регрессии.

а) Исследователь задаёт некоторый ограниченный класс функций Ψ, например, линейные или полиномиальные функции, в котором предлагается искать функцию регрессии. Если этот класс функций не содержит «истинную» функцию регрессии, то минимум среднего квадрата ошибки $\varepsilon (x)$ при каждом значении x не может быть обеспечен. На практике ищут оценку зависимости $\hat y(x)$ в выбранном классе функций из условия минимума математического ожидания (2) квадрата ошибки $\varepsilon (x)$ в рассматриваемой области изменения величины x. Для выбора класса функций, в котором целесообразно искать функцию регрессии, нередко требуется проведение предварительного анализа результатов наблюдений.

б) Функция регрессии оценивается по результатам наблюдений. Такое оценивание основано на расчёте множества условных средних значений наблюдений отклика Y и аппроксимации линии регрессии по рассчитанным точкам.

Схема оценивания функции регрессии