Все, что вам нужно знать о системах HITL

Сегодня системы машинного обучения нашли свое применение во всех отраслях, будь то медицина, археология, шоппинг, логистика и т. д. С ростом их использования разработчикам необходимо убедиться, что их системы хорошо работают с меняющимися данными, разнообразными географическими регионами и всеми типами клиентов или клиентов. конечные пользователи. Наряду с хорошей производительностью, интерпретируемостью и конфиденциальностью данных, которые в последнее время набирают обороты в исследованиях машинного обучения.

Поскольку все параметры модели оптимизируются с использованием обучающих данных, модель можно рассматривать как высокоуровневую сводку данных. Обеспечение хороших обучающих данных является сложной задачей, особенно когда задача является относительно новой в индустрии машинного обучения. Данные также меняются в зависимости от региона; например, акцент определенного языка (для задач классификации звука), физические параметры, такие как температура и давление (для прогноза погоды), изменения в поведении потребителей и т. д.

Принимая во внимание все эти проблемы, группы разработчиков внедрили и приняли системы Human In The Loop (HITL). Это помогает им внедрять человеческие знания и контроль в свои системы машинного обучения, тем самым повышая общую производительность и надежность системы.

Системы Human In The Loop (HITL)

Системы HITL вовлекают людей в процесс улучшения системы машинного обучения, тем самым нарушая автономию компьютера в процессе принятия окончательного решения

Системы машинного обучения, которые имеют массу обработки и математики, нацелены на обслуживание клиентов-людей. Ни один алгоритм не хорош, если конечные клиенты не удовлетворены. HITL объединяет человеческий интеллект с машинным интеллектом для решения задачи машинного обучения. Маркировка экземпляров данных вручную — это простейший вид деятельности HITL, которую можно увидеть в группе разработчиков машинного обучения.

Сочетание человеческих и машинных знаний также может быть использовано для получения улучшенных результатов, поскольку и люди, и машины могут преодолевать ограничения друг друга, тем самым максимизируя общую производительность системы. В некоторых случаях модель можно научить воспроизводить поведение человека в задачах, для которых заранее доступен высококачественный набор данных. Мы рассмотрим каждый аспект систем HITL и изучим их реальный потенциал в решении сложных задач.

Как помогают системы HITL?

Прозрачность в системах машинного обучения

Поскольку мы вводим человека в систему машинного обучения, система должна быть интерпретируема самими людьми. Введение операторов-людей может улучшить интерпретируемость системы. Предпринимаются важные шаги по наблюдению за людьми, что делает систему прозрачной. Были достигнуты успехи в интерпретации глубоких нейронных сетей, которые обычно называют «черными ящиками» из-за сложности понимания того, как был сделан определенный прогноз.

Обработка граничных вариантов использования

Как правило, в машинном обучении наша цель — обучить модель, устойчивую к выбросам. Выбросы — это точки данных, которые значительно отличаются от других точек данных. Но в некоторых случаях, особенно когда данные изменяются с течением времени, выбросы могут быть полезны для понимания определенных тенденций, которые могут проявляться в поведении пользователя/потребителя.

Это делает разработчиков неуверенными при развертывании своих новых систем машинного обучения в производстве. Будучи первой итерацией, система машинного обучения может быть недостаточно зрелой, чтобы справляться с крайними случаями. Такие случаи могут быть обработаны человеком-экспертом, чтобы исправить ошибки, допущенные моделью. Эти крайние случаи могут быть проанализированы далее и могут быть включены в обучение модели ML. Это обеспечивает безопасность и постоянно совершенствующуюся систему машинного обучения.

Обеспечение более безопасных систем машинного обучения

Системы машинного обучения могут использоваться в ситуациях, когда необходимы безопасность и надежность. Использование систем машинного обучения в лабораториях и клиниках должно быть безопасным, так как результаты напрямую связаны со здоровьем пациента. Наличие человека-эксперта в составе системы обеспечивает как безопасность, так и точность. Роботы, контролирующие качество продукции на производственных линиях, также должны быть эффективными, поскольку любой сбой может привести к производственным потерям.

Системы машинного обучения, обученные на ограниченном количестве образцов, могут плохо работать в некоторых реальных сценариях. В этом случае человек может скорректировать предсказание системы, тем самым избежав каких-либо сбоев. Думая с другой точки зрения, эксперты-люди также могут ошибаться или иметь разные мнения по одной и той же проблеме. С такими сложностями можно справиться с помощью систем машинного обучения, которые обучены работать одинаково в подобных ситуациях. Таким образом, системы машинного обучения корректируют людей, а люди, в свою очередь, корректируют системы машинного обучения, в результате чего получается более точная и безопасная система.

Маркировка данных для нестандартных задач

Набором данных легко управлять для таких задач, как распознавание цифр, перевод с английского на французский, оценка позы человека, поскольку они широко используются в академических и промышленных целях.

Что касается языкового перевода, данные могут быть недоступны для языков, на которых говорит небольшая часть населения. Точно так же для оценки позы человека точки данных позы, указывающие положение суставов и частей тела, могут быть недоступны для определенных поз, которые являются необычными, но необходимы для решения проблемы.

В таких задачах, где нет данных для обучения (или тестирования) системы машинного обучения, разработчикам необходимо собирать данные и маркировать их. Наличие человека для маркировки данных обеспечит высококачественные обучающие образцы, что приведет к созданию эффективной системы машинного обучения.

Подходы к системам HITL

Амазонка Механический Турок

Amazon Mechanical Turk (аббревиатура MTurk) — это служба, которая предлагает распределенную рабочую силу для маркировки данных, модерации контента, проведения опросов и т. д. Их рабочая сила распределена по нескольким странам мира, что помогает устранить любую форму предвзятости в возложенных на них задачах.

Эта услуга может сыграть важную роль в системах HITL для создания высококачественных наборов данных с привлечением временной рабочей силы по запросу. Они также могут анализировать прогнозы модели и подсказывать разработчикам, как исправить конкретную проблему или выброс.

Текстовая классификация

Классификация текста — одна из самых фундаментальных задач обработки естественного языка (NLP), в которой заданное пользователем предложение подразделяется на два или более классов. Система HITL была введена Кармакхармом и др. [1] в задаче классификации слухов, которая является вариантом использования классификации текстов. Они получили набор данных слухов о новостных статьях или сообщениях, а затем обучили на нем систему классификации слухов (текстовый классификатор). Затем журналистов попросили просмотреть прогнозы модели и соответствующим образом скорректировать их. Затем эти исправления/человеческие аннотации были включены в набор данных, и модель была повторно обучена.

Поскольку системы классификации текстов в основном представляют собой глубокие нейронные сети, им не хватает интерпретируемости, и поэтому их называют «черными ящиками». Используя подход HITL, обеспечивается прозрачность в системе ML.

Восстановление изображения

Восстановление изображения относится к тем методам, которые улучшают качество зашумленного/испорченного изображения. Подход HITL можно использовать для улучшения прогнозов модели, вводя в процесс человека. Вебер и др. [2] в своем исследовании «Draw with me: Human-in-the-loop для восстановления изображений» реализовали такой метод, в котором человеческие знания могут быть встроены в предсказания модели для улучшения восстановления изображения с каждой итерацией. В их подходе изображения сначала проходят через модель восстановления изображения для предварительного восстановления. Эти восстановленные изображения затем передаются операторам, которые могут точно настроить изображение с помощью предварительно разработанного пользовательского интерфейса. Точно настроенные изображения снова передаются в модель восстановления изображений.

Следовательно, цикл продолжается до тех пор, пока не будут получены удовлетворительные изображения. Таким образом, человеческие знания могут быть использованы для предоставления модели предварительной информации о том, как восстановить изображение с учетом потребностей пользователя.

[1] Т. Кармахарм, Н. Алетрас и К. Бончева, «Журналист в курсе: непрерывное обучение как услуга для анализа слухов», Конференция по эмпирическим методам обработки естественного языка (EMNLP), 2019 г., стр. 115–120.

[2] Т. Кармахарм, Н. Алетрас и К. Бончева, «Журналист в курсе: непрерывное обучение как услуга для анализа слухов», Конференция по эмпирическим методам обработки естественного языка (EMNLP), 2019 г., стр. 115–120.

Конец

Надеюсь, вам понравилась история. Если у вас есть какие-либо вопросы/предложения, дайте мне знать в комментариях ниже. Спасибо за чтение и хорошего дня впереди!