Автоматизируйте процесс оценки выходных данных NLG с помощью оценочных показателей, чтобы сэкономить время и увеличить емкость оцениваемых экземпляров.
Прежде чем мы начнем; для тех, кто прямо хочет погрузиться в вычисления и увидеть результаты на своем корпусе; недавно мы открыли исходный код пакета Python для оценки NLG Systems, Жюри. Чтобы вычислить метрики для ваших моделей NLG и сравнить их, вы можете взглянуть на проект, и вы можете легко настроить его с помощью нескольких строк кода :). Вы также можете прочитать Официальный блог жюри.
Жюри: https://github.com/obss/jury.
В области машинного обучения, как и в самых несвязанных областях, нам нужна какая-то оценка. Вы можете представить себе студента, сдающего экзамен, машину в краш-тесте, веб-сервер при нагрузочном тесте и оценку производительности модели в ИИ. Методы оценки в этих областях различаются, а критерии эволюции разработаны незначительно. Эта процедура необходима в основном для оценки качества выходных данных модели, а также для сравнения их между разными моделями или с разными настройками и т. Д.
Генерация естественного языка (NLG), область обработки естественного языка (NLP), представляет собой прикладное подполе искусственного интеллекта, целью которого является создание текстового вывода. Он имеет огромное количество подзадач, таких как машинный перевод (MT), ответы на вопросы (QA), обобщение, генерация вопросов (QG) и т. Д. Здесь обсуждается производительность моделей, выходными данными которых является текст. NLG - это в основном преобразование текста в текст, но некоторые метрики NLG также могут быть применены и уже приняты, например, для оценки моделей преобразования речи в текст (например, расстояние редактирования на уровне фонем).
Хотя ранние работы, такие как [3], [4] и [6], были пионерами эволюции автоматизированных метрик оценки, они были примитивными и простыми метриками, которые еще не готовы к отражению некоторых сложных аспектов лингвистических функций. Эпоха, которую они начали, быстро принесла улучшенные метрики, некоторые из которых широко используются для многих задач NLG, но все еще продолжается дискуссия об их адекватности.
Есть два распространенных способа оценки качества сгенерированного текста (на самом деле три согласно этой статье в Википедии):
i) Оценка человеком: процесс оценки качества созданного текста человеком-оценщиком. Обычно полученные результаты распределяются среди группы экспертов-людей для увеличения разнообразия.
ii) Метрики: процесс оценки сгенерированного текста с помощью автоматизированной метрики, перед созданием которой может потребоваться вмешательство человека (я позже перейду к этому вопросу). Хотя многие из них предлагали ориентироваться на конкретную задачу (например, MT), они, как правило, применимы к другим задачам NLG.
Основное различие между этими двумя подходами - это компромисс между точностью и усилием / временем. Человеческая оценка - лучший способ измерить качество сгенерированных текстов, но она дорогостоящая. Метрики, с другой стороны, рентабельны и могут применяться к большому количеству сгенерированных корпусов, хотя они могут быть не так хороши, как человеческая оценка, а также нуждаются в правильных справочных корпусах для сравнения сгенерированного текста.
Отличная таксономия метрик оценки NLG, предложенная [13] (если вы хотите погрузиться в обзорную статью, я настоятельно рекомендую взглянуть на эту статью), в которой также различают метрики, не зависящие от задачи или метрики, зависящие от задачи, заключается в следующем. :
Здесь, однако, я делю оценочные метрики на 4 группы, чтобы подвести итог и сохранить удобство чтения:
- Строковые показатели
- Метрики на основе N-граммов
- Встраивание показателей на основе
- Выученные функции
1. Строковые показатели
Это самые ранние показатели, которые использовались в поле AI для текстовых выходных данных. Они работают на уровне характера или фонемы. Как правило, эти показатели относятся к семейству дистанции редактирования. Большинство показателей в этой группе используют три основных компонента: расстояние редактирования, вставку (I), удаление (D) и замещение (S).
Пример выше широко известен как расстояние Левенштейна [6]. Если в метрике не используется подстановка, тогда подстановки будут засчитываться как 2 операции, замененные удалением и вставкой последовательности (или наоборот), см. Расстояние до самой длинной общей подпоследовательности (LCS).
Более ранние версии показателей в этой группе по существу не учитывают беглость, синтаксическую и семантическую целостность, а рассматривают только лексическую согласованность. Однако улучшенные версии попытались восполнить этот пробел, также рассматривая фразовые сдвиги, перефразирование, синонимы и т. Д.
Существует множество производных, которые используют операции редактирования, алгоритм Вагнера-Фишера [11], расстояние Левенштейна [6], расстояние Хэмминга [3] и т. Д. Помимо их использования в задачах преобразования текста в текст, эти метрики также приняты приложения для распознавания речи. Вы можете увидеть список строковых показателей.
2. Метрики на основе N-граммов
Эти метрики используют n-граммы для вычислений между сгенерированным текстом и справочным корпусом. Широко используемым и известным примером этой группы является BLEU, который ищет соответствие n-грамм в справочном корпусе, но не принимает во внимание синтаксическую целостность и грамматическую правильность. BLEU, например, вычисляет точность n-граммов с параметром порядка n-граммов. Авторы предложили штраф за краткость, чтобы приблизить человеческое суждение к коротким предложениям.
В качестве примера члена из этого набора вы можете увидеть вычисление точности биграмм для кандидата 2, которое необходимо для вычисления оценки bleu для порядка n граммов ≥ 2.
Более ранние эксперименты показали, что BLEU - хороший показатель для многих задач NLG, поскольку он сильно коррелирует с человеческим суждением. Однако в настоящее время считается, что BLEU может привести к обманчивым результатам. Здесь - подробная статья, посвященная потенциальным побочным эффектам, вызываемым BLEU, и упоминаются альтернативные способы от Рэйчел Татман.
Некоторые члены этой группы: BLEU [10], METEOR [1], ROUGE [7], NIST [2], Word Error Rate (WER) [19], Translation Edit Rate (TER) [16], TER-Plus ( ТЕРП) [17] и др. Хотя такие меры, как WER и TER, были получены на основе расстояния редактирования, они работают на уровне слов, а не на уровне символов или фонем.
3. Метрики на основе встраивания
Эта группа показателей использует представления языковой модели (LM) для расчета оценки сходства или несходства. Вложения получены с помощью LM как для сгенерированного текста, так и для справочного корпуса, а затем косинусное сходство или аналогичные меры используются для вычисления сходства или несходства. Вложения могут быть получены на уровне символа, слова, предложения, абзаца или корпуса с подходящей LM. Можно просто создавать собственные расчеты с вложениями и с какой-то метрикой сходства или несходства.
Метрики в этой группе довольно разнообразны из-за большого количества уровней вложений и LM. Комбинируя разные уровни встраивания и разные LM, можно разработать обобщенную метрику или для конкретной задачи.
В этой группе есть несколько показателей: Embedding Average [5], Greedy Matching [12], BERTscore [20], YiSi [8]. Обычно используемым членом этой группы является BERTScore, который использует вложения слов BERT для вычисления сходства (косинусного сходства) слов-кандидатов и слов-ссылок друг с другом в отношении как слов-кандидатов, так и слов-ссылок. Таким образом, видно, что это похоже на оценку F1. Я не собираюсь здесь подробно останавливаться, но вкратце он также необязательно взвешивает оценку косинусного сходства каждого встраиваемого слова с обратной частотой документа (IDF). Это предназначено для большего вознаграждения за совпадения редких слов и меньшего вознаграждения за совпадения общих слов. Фазы вычисления BERTScore проиллюстрированы ниже.
A космический корабль - это транспортное средство или машина, предназначенная для полетов в космическое пространство. Тип искусственных спутников, космические аппараты используются для различных целей, включая связь, наблюдение Земли, метеорологию, навигацию, колонизацию космоса, исследование планет И перевозка людей и грузов.
источник: https://en.wikipedia.org/wiki/Spacecraft
Например, слово «а» имеет низкий вес из-за частого употребления, а слово «исследование» имеет более высокий вес из-за того, что редко встречается в корпусе.
4. Изученные функции
Цель этой группы показателей - найти отображение f: (P, R) - ›Human Rating, где P - это прогнозы (или сгенерированный текст), а R - ссылки. . Они обеспечивают сквозную оценку прогнозов и ссылок с помощью предварительно обученной регрессионной модели.
Входные данные этих моделей могут сильно различаться, некоторые используют встраивание слов или текста, некоторые используют извлеченную статистику и / или простые метрики (точность, F1 и т. Д.) Из прогнозов и ссылок и т. Д.
Некоторыми членами этой группы являются GLEU [9], BEER [18], RUSE [15], BLEURT [14] и т. Д. BEER, например, использует другие показатели уровня слова, такие как отзыв, точность и F1-оценка, чтобы сопоставить сгенерированный текст с человеческий рейтинг. RUSE, с другой стороны, использует встраивание предсказаний и ссылок на уровне предложения для вычисления оценки. BLEURT - это предварительно обученная модель BERT с линейным слоем наверху.
Как видите, есть две фазы предварительной подготовки для BLEURT, а затем - точная настройка на общедоступных человеческих рейтингах. При желании его можно точно настроить для конкретного приложения с человеческим рейтингом для конкретной задачи. Ниже вы можете увидеть несколько предложений-кандидатов, оцененных BLEURT.
Заключительные слова
Я попытался подвести итоги оценочных показателей, которые используются для систем NLG. До сих пор мы рассмотрели 4 основные категории, которые (в некотором смысле) расположены в хронологическом порядке. Хотя эти метрики упрощают процесс оценки и сокращают усилия, вы должны использовать те метрики, которые относительно больше подходят для вашей задачи. [13] проиллюстрировал использование нескольких показателей среди некоторых задач, которые можно увидеть ниже.
Подтверждение
Особая благодарность и благодарность Джемилю Дженгизу за ценные отзывы и всей команде OBSS ML ❤ за обсуждения и поддержку.
Ссылки
[1] Банерджи, С., и Лави, А. (2005, июнь). МЕТЕОР: автоматическая метрика для оценки МП с улучшенной корреляцией с человеческими суждениями. В Труды семинара acl по внутренним и внешним мерам оценки для машинного перевода и / или реферирования (стр. 65–72).
[2] Доддингтон, Г. (2002, март). Автоматическая оценка качества машинного перевода с использованием статистики совпадения n-граммов. В материалах Труды второй международной конференции по исследованиям технологий человеческого языка (стр. 138–145).
[3] Хэмминг Р. У. (1950). Коды обнаружения и исправления ошибок. Технический журнал системы Bell, 29 (2), 147–160.
[4] Хант, М. Дж. (1990). Достоинства для оценки распознавателей связанных слов. Речевое общение, 9 (4), 329–336.
[5] Ландауэр, Т. К., и Дюмэ, С. Т. (1997). Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний. Психологический обзор, 104 (2), 211.
[6] Левенштейн В. И. (1966, февраль). Двоичные коды, способные исправлять удаления, вставки и обращения. В Докладах советской физики (т. 10, №8, с. 707–710).
[7] Линь С. Ю. (2004, июль). Rouge: Пакет для автоматической оценки резюме. В Текстовое обобщение разветвляется (стр. 74–81).
[8] Ло, К. К. (2019, август). YiSi - единая семантическая оценка качества машинного перевода и метрика оценки для языков с разным уровнем доступных ресурсов. В Труды четвертой конференции по машинному переводу (том 2: общие задания, день 1) (стр. 507–513).
[9] Барашек, А., Драс, М., Ван, С., и Дейл, Р. (2007, июнь). GLEU: автоматическая оценка беглости на уровне предложений. В Протоколах 45-го ежегодного собрания Ассоциации компьютерной лингвистики (стр. 344–351).
[10] Папинени, К., Рукос, С., Уорд, Т., и Чжу, В. Дж. (2002, июль). Bleu: метод автоматической оценки машинного перевода. В Протоколах 40-го ежегодного собрания Ассоциации компьютерной лингвистики (стр. 311–318).
[11] Роберт А. Вагнер и Майкл Дж. Фишер. 1974. Проблема преобразования строки в строку. J. ACM 21, 1 (январь 1974 г.), 168–173. DOI: https://doi.org/10.1145/321796.321811
[12] Рус В. и Линтян М. (2012, июнь). Оптимальная оценка ввода учащихся, владеющих естественным языком, с использованием показателей пословного сходства. В Международной конференции по интеллектуальным системам обучения (стр. 675–676). Шпрингер, Берлин, Гейдельберг.
[13] Сай, А. Б., Моханкумар, А. К., и Хапра, М. М. (2020). Обзор показателей оценки, используемых для систем NLG. Препринт arXiv arXiv: 2008.12009.
[14] Селлам, Т., Дас, Д., и Парих, А. П. (2020). BLEURT: изучение надежных показателей для генерации текста. Препринт arXiv arXiv: 2004.04696.
[15] Шиманака, Х., Кадзивара, Т., и Комачи, М. (2018, октябрь). Русе: Регрессор, использующий вложения предложений для автоматической оценки машинного перевода. В Proceedings of the Third Conference on Machine Translation: Shared Task Papers (стр. 751–758).
[16] Сновер, М., Дорр, Б., Шварц, Р., Микчулла, Л., и Махоул, Дж. (2006). Исследование скорости редактирования переводов с целевой аннотацией, сделанной человеком. В материалах Труды 7-й конференции Ассоциации машинного перевода в Северной и Южной Америке: технические документы (стр. 223–231).
[17] Сновер, Мэтью и Маднани, Нитин и Дорр, Бонни и Шварц, Ричард. (2009). TER-Plus: улучшения перефразирования, семантики и согласования для скорости редактирования перевода. Машинный перевод. 23. 117–127. 10.1007 / s10590–009–9062–9.
[18] Станоевич М. и Симан К. (2014, июнь). Пиво: Лучшая оценка по рейтингу. В Труды девятого семинара по статистическому машинному переводу (стр. 414–419).
[19] Су, К. Ю., Ву, М. В., и Чанг, Дж. С. (1992). Новый количественный показатель качества для систем машинного перевода. В COLING 1992 Том 2: 14-я Международная конференция по компьютерной лингвистике.
[20] Чжан, Т., Кишор, В., Ву, Ф., Вайнбергер, К. К., и Арци, Ю. (2019). Bertscore: оценка генерации текста с помощью bert. Препринт arXiv arXiv: 1904.09675.