Я ждал этого долгие дни, чтобы опубликовать свой первый пост, и вот он. Первый алгоритм, который могут изучить все специалисты по данным. Линейная регрессия.

Что такое линейная регрессия?

Линейная регрессия — это контролируемый алгоритм машинного обучения, в котором мы пытаемся найти линейную связь между выходной переменной (зависимой) и входной переменной (независимой).

Как правило, в линейной регрессии мы делаем прогнозы, вычисляя взвешенную сумму входных признаков плюс смещение (константа в случае, если входные переменные равны нулю).

Уравнение линейной регрессии

Допущения в линейной регрессии

Есть в основном пять предположений для линейной регрессии

  1. Выходная переменная (зависимая переменная) должна представлять собой линейную комбинацию входных характеристик (независимая переменная).
  2. В остатках не должно быть автокорреляции (функции, коррелирующие сами с собой). Обычно автокорреляция возникает в данных временных рядов, по этой причине, как правило, мы не используем линейную регрессию для задач временных рядов.
  3. Ошибки должны иметь нулевое среднее значение и нормальное распределение. Это означает, что модель не должна ни переоценивать, ни недооценивать.
  4. Между независимыми функциями не должно быть мультиколлинеарности или она должна быть небольшой.
  5. Ошибки должны быть гомоскедастическими, что означает, что ошибки должны показывать постоянную дисперсию по отношению к независимым переменным.

Работа линейной регрессии

Основная цель линейной регрессии — найти наилучшую линию соответствия между независимыми переменными и зависимой переменной. Лучшая линия соответствия также известна как линия регрессии.

Наилучшая линия соответствия получается путем минимизации функции потерь. Существуют различные типы функций потерь. Наиболее часто используются среднеквадратическая ошибка и среднеквадратическая ошибка.

Что такое функция потерь?

Функция потерь - это функция прогнозируемого вывода и фактического вывода, с помощью которой машина может понять свое обучение (независимо от того, улучшается она или нет).

Среднеквадратическая ошибка (MSE)

Наиболее распространенной функцией потерь, используемой в линейной регрессии, является MSE. MSE - это среднее (среднее) суммы квадратов ошибок (квадрата разницы между прогнозируемым выходом и фактическим выходом).

Среднеквадратичная ошибка (RMSE)

RMSE — это просто корень среднеквадратичной ошибки.

В следующем посте мы обсудим коэффициент детерминации или пригодность добра для линейной регрессии.

Спасибо за чтение. :)
И аплодируйте, если это было хорошим чтением. Наслаждайтесь!