Здравствуйте, ребята!
В машинном обучении (ML), основанном на прогнозном моделировании, предвзятость и дисперсия играют жизненно важную роль. Модель с высоким смещением приводит к недостаточной подгонке, в то время как высокая дисперсия начинает подгонять модель. Однако в идеале модель ML должна обеспечивать низкое смещение и низкую дисперсию, что невозможно. Таким образом, хорошая модель должна обеспечивать компромисс между предвзятостью и дисперсией. Термины предвзятости и дисперсии раньше сбивали людей с толку. В этой статье я расскажу, в чем разница между предвзятостью и дисперсией? В чем причина? Каковы способы борьбы с компромиссом?
Итак, давайте углубимся в эту дискуссию.
При обсуждении прогнозирования машинного обучения важно различать два вида ошибок прогнозирования (предвзятость и дисперсию). Способность модели свести к минимуму систематическую ошибку и вариацию является компромиссом. Смещение возникает, когда алгоритм имеет ограниченную гибкость для обнаружения реального индикатора из набора данных.
Что такое предвзятость в модели машинного обучения?
Предвзятость — это ошибка, вызванная неправильными предположениями в процессе обучения модели ML. Недообучение — это когда алгоритм упускает важные взаимосвязи между функциями и целевыми результатами из-за высокого смещения. Таким образом, точность наших прогнозов известна как предвзятость.
Высокое смещение указывает на то, что прогноз будет неверным. Предвзятость можно понимать как предвзятость по отношению к другим людям. Вы более склонны делать неправильные предположения о ком-то, если вы очень предвзяты. Несправедливая динамика создается чрезмерно упрощенным мышлением. Вы называете их предвзятыми. Предвзятость — это действительно склонность алгоритма повторять неправильное обучение, не принимая во внимание все ключевые переменные, и это приводит к недообучению.
Упрощающие предположения модели упрощают целевую функцию, облегчая ее оценку.
Низкое смещение – предполагается, что существует меньше предположений относительно формы целевой функции.
High-Bias — Предлагает сделать дополнительные предположения о форме целевой функции.
Что такое дисперсия в модели машинного обучения?
Дисперсия — это величина, на которую изменяется оценка целевой функции при использовании разных обучающих данных. Расхождение в предсказаниях многих моделей известно как дисперсия. В отличие от предыдущего сравнения, мы применяем сложные модели. В результате модель может зафиксировать любой шум в наборе данных. Когда мы используем сложные модели, которые потенциально превосходят наши тренировочные наборы, мы получаем высокую дисперсию.
Низкая дисперсия. Предполагается, что небольшие изменения в наборе обучающих данных приведут к небольшим изменениям в оценке целевой функции.
Высокая дисперсия. Предполагается, что изменения в обучающем наборе данных вызывают значительные отклонения в оценке целевой функции.
Как работает компромисс смещения отклонения в модели ML?
Любая модель машинного обучения должна стремиться к низкой дисперсии и низкому смещению. Высокое смещение приводит к недообучению моделей, тогда как высокая дисперсия приводит к переоснащению моделей (см. диаграмму выше). Оба должны быть низкими в идеальных условиях, но получение одного происходит за счет роста другого. Компромисс между смещением и дисперсией — вот как это называется. Но не существует количественного метода для нахождения этой сбалансированной точки ошибки, когда обе точки находятся на самом низком уровне. Вместо этого вам нужно будет использовать измерения точности и изменять сложность вашей модели, пока вы не найдете итерацию, которая минимизирует общую ошибку.
Например, сложная модель может показать, что имена людей являются хорошим предиктором нашей гипотезы. Имена, с другой стороны, совершенно случайны и не должны использоваться для прогнозирования чего-либо. В одном наборе данных было показано, что люди с именем «Вижай» с большей вероятностью могут быть преступниками. С другой стороны, люди с именем «Виджай» могут подразумевать, что они, вероятно, будут джентльменами в другом наборе данных. В результате имена не должны использоваться в качестве предиктора. Если использовать упрощенную модель, то можно прийти к выводу, что каждый «Виджай» — фантастический человек. Это проблема высокого смещения и низкой дисперсии. Ваши данные смещены в сторону лиц по имени Виджай. В результате многие прогнозы будут одинаковыми, потому что вы предполагаете, что люди с именем «Виджай» ведут себя определенным образом. Вы пытаетесь восстановить модель. Однако модель слишком сложна. Разные группы людей получают разные результаты от вашей модели. В результате «Вижай» может стать джентльменом, преступником, ученым и вором. Вы должны достичь баланса! Хорошая новость заключается в том, что перекрестная проверка позволяет вам тренироваться на многих наборах данных и усреднять результаты. Тем не менее, систематическая ошибка и дисперсия не могут быть сведены к минимуму.
Заключение
Когда модель слишком проста или недостаточно приспособлена, возникает предвзятость. Предвзятость — это разница между тем, что мы ожидаем, и тем, что получаем. Независимо от того, сколько точек данных вы используете, модель будет постоянно ошибаться в прогнозах. Если мы изменим набор данных несколько раз, подгонка существенно не изменится.
Когда модель слишком сложна или переоснащена, возникает дисперсия. Другими словами, это величина, на которую другой набор данных изменит оценку цели. Метод весьма чувствителен к наборам данных, используемых при обучении модели. Шум в данных будет неверно истолкован моделями как сигналы. Таким образом, чтобы создавать эффективные прогнозы, вы должны найти баланс между смещением и дисперсией, который уменьшает общую ошибку, и этот компромисс имеет решающее значение для моделей ML.
Подводя итоги, не стесняйтесь делиться своими комментариями. Ваши аплодисменты и комментарии, безусловно, помогут мне лучше представить содержание. Увидимся на следующей неделе.
Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter и LinkedIn. Присоединяйтесь к нашему сообществу Discord.