Если вы новичок в машинном обучении и прочем, вы, вероятно, запутались в алгоритмах выбора функций, когда их использовать, какой из них выбрать и т. д. В этой короткой статье и последующих я буду описывать их, как могу. Я надеюсь, что вы найдете это полезным.

В конвейерах машинного обучения выбор функций иногда можно определить как процесс, с помощью которого в конечном итоге будет выбрано подмножество функций как лучших и наиболее значимых функций для цели (если таковые имеются). В общем, выбор функций относится к практике выбора или удаления некоторых функций в наборе данных.

Существует три основных подхода к выбору функций: фильтр, оболочка и встроенные методы. Я буду обсуждать их в нескольких статьях здесь. но, прежде всего, позвольте мне объяснить различия между этими подходами.

Чтобы понять это, давайте сосредоточимся на разнице между их местом в конвейере машинного обучения. Другими словами, методы фильтрации появляются непосредственно перед моделью обучения; методы фильтрации выбирают лучшие функции набора данных на основе критерия, и после его выбора мы переходим к следующему этапу, который изучает модель с выбранным подмножеством функций.

Расположение методов-оболочек в конвейере машинного обучения также находится перед алгоритмом обучения, но для выбора наилучшего подмножества функций они получают обратную связь от модели и обновляют подмножество на каждом этапе. этот процесс будет продолжаться до тех пор, пока не будет выбрано лучшее подмножество или мы не будем удовлетворены результатами. возможно, приведенный ниже рисунок отсюда облегчит понимание:

В последнем подходе, я имею в виду встроенные методы, процесс выбора признаков идет параллельно с процессом обучения. Другими словами, модель находит лучшее подмножество признаков во время обучения. Чтобы было понятно, взгляните на этот рисунок:

Изучение множества документов, статей и бумажей и сбор информации из других источников привели меня к категоризации алгоритмов в каждом подходе, как показано на следующем рисунке:

Каждая пара алгоритмов в одной и той же категории имеет некоторые сходства, которые я буду описывать в следующих статьях.

Использованная литература:

https://heartbeat.fritz.ai/hands-on-with-feature-selection-techniques-filter-methods-f248e0436ce5
https://medium.com/r/?url=https%3A %2F%2Fieeexplore.ieee.org%2Fdocument%2F7745366
https://www.analyticsvidhya.com/blog/2016/12/introduction-to-feature-selection-methods-with-an-example- или-как-выбрать-правильные-переменные/