В этой статье будут рассмотрены некоторые основные и промежуточные концепции логистической регрессии. Логистическая регрессия — это популярный алгоритм, который используется в задачах классификации, но не ограничивается ими. Эти проблемы пытаются предсказать класс новой точки данных. Зависимая переменная или выходные данные представлены в категориальном формате, а независимые переменные имеют непрерывный характер.
Проблемы классификации могут быть бинарными или мультиклассовыми. Задачи бинарной и многоклассовой классификации имеют дело с двумя классами и несколькими классами соответственно. Например, случай определения того, является ли электронное письмо спамом, является проблемой бинарной классификации, а прогнозирование того, будет ли погода облачной, солнечной или дождливой, является задачей классификации с несколькими классами, поскольку она состоит из нескольких классов.
Что такое логистическая регрессия?
Логистическая регрессия — это алгоритм классификации, используемый для задач машинного обучения, таких как бинарная классификация (два класса) или задачи классификации нескольких классов. Это контролируемый алгоритм машинного обучения, который предсказывает вероятность попадания точки данных в определенный класс или категорию. Этот алгоритм применим, когда данные линейно разделимы (это означает, что точки данных могут быть разделены одной линией).
Обзор характеристик логистической регрессии -
› Цель состоит в том, чтобы обучить набор данных непрерывным независимым переменным и вычислить вероятность класса новой точки данных.
› Результат логистической регрессии всегда находится в диапазоне [0,1]
› Он использует сигмовидную функцию, чтобы поддерживать вывод в указанном выше диапазоне.
›Логистическую регрессию можно использовать с многочисленными входными переменными и выбирать только соответствующие функции для вычисления выходных данных.
›Он называется регрессией, так как использует концепцию прогнозного моделирования для регрессии, но классифицирует по классам, следовательно, это алгоритм классификации.
Линейная регрессия против логистической регрессии
Линейная регрессия — еще один популярный алгоритм машинного обучения, который специально используется для задач с непрерывными выходными данными. Это довольно надежный и эффективный алгоритм, но у него есть свои недостатки:
› Если в наборе данных есть хотя бы один выброс, данные классифицируются неправильно
› В некоторых случаях значение вероятности может стать ›1 или ‹0
Эти недостатки преодолеваются логистической регрессией, поскольку она использует сигмовидную функцию . Сигмоидальная функция — это математическая функция, используемая для сопоставления прогнозируемых значений с вероятностями.Сигмоидальная функция нормализует данные в диапазоне [0,1] и, таким образом, уменьшает аномалию из-за наличия выбросов. Это также исключает возможность выхода вероятности за пределы. График сигмовидной функции представляет собой S-образную кривую, как показано ниже.
Эффект выбросов в линейной регрессии-
Обратите внимание, как линия наилучшего соответствия отклонилась из-за наличия выброса, что привело к неправильной классификации некоторых точек данных. В логистической регрессии сигмовидная функция будет обрабатывать случай выброса следующим образом:
Обратите внимание, что наличие выброса не повлияло на общий результат, и вероятность все еще находится в диапазоне.
На изображении ниже показано сравнение между логистической регрессией и линейной регрессией, а также влияние на них выбросов. Линейная регрессия основана на поиске линии наилучшего соответствия (линейной), которая может превышать диапазон вероятностей от 0 до 1, тогда как логистическая регрессия использует S-образную кривую сигмовидной функции, которая предотвращает превышение прогнозируемого значения диапазона. Таким образом, логистическая регрессия преодолевает недостаток линейной регрессии и становится идеальной для задач классификации.
Работа логистической регрессии-
Логистическая регрессия используется для задач классификации с линейно разделимыми элементами данных. Линейно разделяемый означает, что точки данных могут быть разделены одной линией. Итак, давайте рассмотрим линейное уравнение и применим к нему логистическую функцию (сигмоидальную функцию).
Пусть линейное уравнение: y=b1x+b0
Теперь уравнение сигмовидной функции выглядит следующим образом:
Применяя сигмовидную функцию к линейному уравнению, мы получаем модель логистической регрессии, таким образом:
Модель логистической регрессии = f(b1x+b0)
Для всех точек данных, которые лежат на линейной модели, примените к ним сигмовидную функцию, и выходные данные будут лежать в диапазоне [0,1], а объединенные сформируют S-образную кривую.
Проверка точности-
Точность модели логистической регрессии можно проверить с помощью матрицы путаницы или кривой AUC-ROC. Матрица путаницы — это табличная визуализация, описывающая производительность модели классификации.
Надеюсь, эта статья была полезной и пополнила ваши знания. Если у вас есть какие-либо отзывы о статье, не стесняйтесь упомянуть об этом.