1. Multi-perspective Information Fusion Res2Net с RandomSpecmix для обнаружения ложной речи (arXiv)

Автор: Shunbo Dong, Jun Xue, Cunhang Fan, Kang Zhu, Yujie Chen, Zhao Lv.

Аннотация: В этой статье мы предлагаем Res2Net слияния многоточечной информации (MPIF) со случайным Specmix для обнаружения ложной речи (FSD). Основная цель этой системы — улучшить способность модели изучать точную информацию о подделке для задачи FSD в сценариях низкого качества. Задача случайного Specmix, расширения данных, состоит в том, чтобы улучшить способность модели к обобщению и улучшить способность модели находить дискриминационную информацию. Specmix вырезает и вставляет информацию о частотном измерении спектрограммы в тот же набор образцов, не вводя другие данные, что помогает модели находить действительно полезную информацию. В то же время мы случайным образом выбираем образцы для дополнения, чтобы уменьшить влияние увеличения данных, непосредственно изменяющего все данные. Как только цель помощи модели в поиске информации достигнута, также важно уменьшить количество ненужной информации. Роль MPIF-Res2Net заключается в уменьшении избыточной информации о помехах. Обманчивая информация с одной точки зрения всегда похожа, поэтому модель, изучающая эту схожую информацию, будет давать избыточные подсказки и мешать действительно различающей информации. Предлагаемая MPIF-Res2Net объединяет информацию с разных точек зрения, делая информацию, полученную моделью, более разнообразной, тем самым уменьшая избыточность, вызванную похожей информацией, и избегая помех для изучения дискриминационной информации. Результаты набора данных ASVspoof 2021 LA демонстрируют эффективность предложенного нами метода, достигая EER и min-tDCF 3,29% и 0,2557 соответственно.

2. Многопроходное обучение и кросс-информационное слияние для сквозного распознавания акцентированной речи с низкими ресурсами (arXiv)

Автор: Сюэфэй Ван, Яньхуа Лун, Ицзе Ли, Хаоран Вэй.

Аннотация: Распознавание речи с акцентом в условиях ограниченных ресурсов является одной из важных проблем, с которыми сталкивается современная технология ASR в практических приложениях. В этом исследовании мы предлагаем архитектуру на основе Conformer, называемую Aformer, для использования как акустической информации из больших данных обучения без акцента, так и с ограниченным акцентом. В частности, в Aformer разработаны общий кодировщик и кодировщик акцента для извлечения дополнительной акустической информации. Кроме того, мы предлагаем обучать Aformer многопроходным способом и исследовать три метода слияния перекрестной информации, чтобы эффективно объединить информацию как от общего, так и от акцентного кодеров. Все эксперименты проводятся как на акцентированном английском, так и на китайском языке ASR. Результаты показывают, что предлагаемые нами методы превосходят базовый уровень сильного Conformer за счет относительного снижения частоты ошибок слов/символов на 10,2–24,5% в шести тестовых наборах с акцентом в домене и вне домена.