Я ждал этого долгие дни, чтобы опубликовать свой первый пост, и вот он. Первый алгоритм, который могут изучить все специалисты по данным. Линейная регрессия.
Что такое линейная регрессия?
Линейная регрессия — это контролируемый алгоритм машинного обучения, в котором мы пытаемся найти линейную связь между выходной переменной (зависимой) и входной переменной (независимой).
Как правило, в линейной регрессии мы делаем прогнозы, вычисляя взвешенную сумму входных признаков плюс смещение (константа в случае, если входные переменные равны нулю).
Уравнение линейной регрессии
Допущения в линейной регрессии
Есть в основном пять предположений для линейной регрессии
- Выходная переменная (зависимая переменная) должна представлять собой линейную комбинацию входных характеристик (независимая переменная).
- В остатках не должно быть автокорреляции (функции, коррелирующие сами с собой). Обычно автокорреляция возникает в данных временных рядов, по этой причине, как правило, мы не используем линейную регрессию для задач временных рядов.
- Ошибки должны иметь нулевое среднее значение и нормальное распределение. Это означает, что модель не должна ни переоценивать, ни недооценивать.
- Между независимыми функциями не должно быть мультиколлинеарности или она должна быть небольшой.
- Ошибки должны быть гомоскедастическими, что означает, что ошибки должны показывать постоянную дисперсию по отношению к независимым переменным.
Работа линейной регрессии
Основная цель линейной регрессии — найти наилучшую линию соответствия между независимыми переменными и зависимой переменной. Лучшая линия соответствия также известна как линия регрессии.
Наилучшая линия соответствия получается путем минимизации функции потерь. Существуют различные типы функций потерь. Наиболее часто используются среднеквадратическая ошибка и среднеквадратическая ошибка.
Что такое функция потерь?
Функция потерь - это функция прогнозируемого вывода и фактического вывода, с помощью которой машина может понять свое обучение (независимо от того, улучшается она или нет).
Среднеквадратическая ошибка (MSE)
Наиболее распространенной функцией потерь, используемой в линейной регрессии, является MSE. MSE - это среднее (среднее) суммы квадратов ошибок (квадрата разницы между прогнозируемым выходом и фактическим выходом).
Среднеквадратичная ошибка (RMSE)
RMSE — это просто корень среднеквадратичной ошибки.
В следующем посте мы обсудим коэффициент детерминации или пригодность добра для линейной регрессии.
Спасибо за чтение. :)
И аплодируйте, если это было хорошим чтением. Наслаждайтесь!