Модели машинного обучения, правила или эвристические подходы?

Когда вы решаете проблему, в каких обстоятельствах вы будете применять машинное обучение?

Верно ли, что в любых обстоятельствах машинное обучение всегда превосходит правила и эвристические подходы?

До того, как я окончил университет, я был очарован тем, как модели машинного обучения потенциально могут решать любые проблемы в мире. Всякий раз, когда я сталкиваюсь с какой-либо проблемой, я сначала думаю о том, как ее можно решить, используя подход машинного обучения.

Например, когда я искал недвижимость для аренды в Сингапуре, я хотел знать диапазон цен в одном конкретном районе. Другими словами, учитывая критерии, которые я хочу, каков оптимальный ценовой диапазон для этой конкретной области. Очевидно, есть несколько подходов к ответу.

Во-первых, если я заранее знаю, что диапазон цен в определенной области, я могу иметь приблизительное представление о том, каков диапазон цен на основе местоположения области. Во-вторых, я могу зайти на различные сайты недвижимости, такие как propertyguru и 99.co, чтобы отфильтровать условия, не соответствующие моим предпочтениям. Отсюда я могу получить приблизительный ценовой диапазон. В-третьих, я могу построить модель машинного обучения, просматривая веб-сайты, чтобы найти оптимальный ценовой диапазон на основе моих предпочтений.

Что мне выбрать?

Как энтузиаст науки о данных, я выбрал для обучения модель, которая может дать мне диапазон цен в любой области. Через несколько дней мне удается обучить модель с приемлемой точностью. Однако это лучший подход?

Если вы хотите получить достаточно точный ответ за короткий период времени, забудьте о моделях машинного обучения, используйте эвристические подходы.

Давайте поговорим о примере бизнес-проблемы на рабочем месте. Допустим, вы работаете в компании, занимающейся электронной коммерцией, над проектом по запрету объявлений о незаконной продаже. Например, оружие, необъявленные фармацевтические продукты, товары для взрослых и т. Д. Операционная группа уже имеет метод или список ключевых слов для обнаружения этих продуктов, но хотела бы выявлять не только больше незаконных списков, но и они хотят, чтобы результаты были очень высокими. точный. Учитывая, что у вас не только нет чистых данных с этикетками, но и у вас есть короткий период времени для поиска новых незаконных продуктов, как вы решите эту проблему ?

Один из подходов может заключаться в изучении моделей изображений. Получите какое-нибудь изображение с пометкой, а затем обучите классификатор изображений. Кроме того, вы можете обучить текстовую модель для классификации этих списков, или, может быть, вы могли бы просто объединить для этого и текстовую, и графическую модель. У вас очень мало времени, и вы беспокоитесь, сможете ли вы добиться результата, что бы вы могли сделать?

Поскольку у операционной группы уже есть набор ключевых слов, на которые они полагаются, вам, вероятно, следует просто использовать подход, основанный на правилах, поскольку это самый быстрый способ. Позже вы можете попросить свою команду переназначить существующие данные, чтобы убедиться, что они достаточно чистые. Затем вы можете обучить более эффективные модели машинного обучения.

Короче говоря, алгоритм, основанный на правилах, дает вам отличный способ достичь желаемой точности. Однако в долгосрочной перспективе лучше всего использовать модели машинного обучения.

А теперь давайте представим другой сценарий из реального мира. Вы работаете специалистом по обработке данных в финансовой индустрии и отвечаете за проект по обнаружению мошенничества. Ваша компания является сторонней компанией, у которой есть доступ к данным о транзакциях в Интернете. Ваша задача - обнаруживать подозрительные транзакции с желаемой точностью. Кроме того, очень важным аспектом является объяснимость модели.

Например, когда лицо, ответственное за этот проект, спрашивает вас, почему существует мошенническая транзакция с огромной суммой денег, но ваша модель не обнаруживает ее? Или почему так много транзакций помечаются как мошенничество, но на самом деле это обычные транзакции? Ваша модель должна быть пояснительной, чтобы вы могли объяснить ее КВС.

Скорость отзыва может быть принята в качестве показателя приоритета вашей модели. Это связано с тем, что если ваша модель неправильно классифицирует большое количество случаев мошенничества, это будет очень дорого для банка. Как вы, как специалист по данным, можете решить эту проблему?

Вы можете построить модель глубокого обучения, которая могла бы обнаруживать необычное поведение человека. Однако вы вряд ли сможете объяснить, если прогноз вашей модели неверен. С другой стороны, вы можете построить модель, основанную на правилах. Таким образом, вы можете объяснить свои результаты КВС.

Если либо цена решения, принятого вашей моделью, слишком высока, либо ваша модель требует объяснительной силы, подход, основанный на правилах, будет лучшим вариантом.

Последние мысли

Спасибо, что дочитали до конца.

Машинный интеллект - это последнее вмешательство, которое когда-либо понадобится человечеству. - Ник Бостром

Приведенная выше цитата показывает огромный потенциал машинного обучения, который можно применить к любой проблеме в мире. Эта статья не говорит вам, что машинное обучение не кажется хорошим вариантом для внедрения в бизнес. Однако я надеюсь, что вы понимаете, при каких обстоятельствах машинное обучение не подходит.

Надеюсь, вам понравится эта статья, в которой предлагается другой взгляд на машинное обучение. Следите за моим постом на следующей неделе!

Если вы заинтересованы в получении отличных прокси, оцените эту услугу!

об авторе

Лоу Вей Хун - специалист по анализу данных в Shopee. Его опыт больше касался сканирования веб-сайтов, создания конвейера данных, а также внедрения моделей машинного обучения для решения бизнес-задач.

Он предоставляет услуги сканирования, которые могут предоставить вам точные и очищенные данные, которые вам нужны. Вы можете посетить этот веб-сайт, чтобы просмотреть его портфолио, а также связаться с ним для получения услуг сканирования.

Вы можете связаться с ним в LinkedIn и Medium.