1. Последовательное многозадачное обучение на основе перекрестного внимания (arXiv)

Автор: Sunkyung Kim, Hyesong Choi, Dongbo Min.

Аннотация: В многозадачном обучении (MTL) для понимания визуальной сцены крайне важно передавать полезную информацию между несколькими задачами с минимальными помехами. В этой статье мы предлагаем новую архитектуру, которая эффективно передает информативные функции, применяя механизм внимания к многомасштабным функциям задач. Поскольку применение модуля внимания непосредственно ко всем возможным признакам с точки зрения масштаба и задачи требует высокой сложности, мы предлагаем применять модуль внимания последовательно для задачи и масштаба. Модуль перекрестного внимания к задачам (CTAM) сначала применяется для облегчения обмена соответствующей информацией между несколькими задачами одного масштаба. Затем модуль межмасштабного внимания (CSAM) собирает полезную информацию из карт объектов с разным разрешением в одной и той же задаче. Кроме того, мы пытаемся зафиксировать долгосрочные зависимости с помощью модуля самоконтроля в сети извлечения признаков. Обширные эксперименты демонстрируют, что наш метод обеспечивает высочайшую производительность на наборах данных NYUD-v2 и PASCAL-Context.

2. Аудиовизуальное слияние для распознавания эмоций в пространстве валентности-возбуждения с использованием совместного перекрестного внимания (arXiv)

Автор: R Gnana Praveen, Eric Granger, Patrick Cardinal.

Аннотация: Автоматическое распознавание эмоций (ER) в последнее время вызывает большой интерес из-за его потенциала во многих реальных приложениях. В этом контексте было показано, что мультимодальные подходы улучшают производительность (по сравнению с одномодальными подходами) за счет объединения различных и дополнительных источников информации, обеспечивая некоторую устойчивость к зашумленным и отсутствующим модальностям. В этой статье мы сосредоточимся на пространственном ER, основанном на слиянии лицевых и голосовых модальностей, извлеченных из видео, где исследуются дополнительные аудиовизуальные (AV) отношения для прогнозирования эмоциональных состояний человека в пространстве валентного возбуждения. Большинство современных методов слияния основаны на рекуррентных сетях или традиционных механизмах внимания, которые не могут эффективно использовать взаимодополняющий характер модальностей AV. Чтобы решить эту проблему, мы вводим совместную модель кросс-внимания для слияния AV, которая извлекает характерные черты всех модальностей AV, что позволяет эффективно использовать интермодальные отношения, сохраняя при этом внутримодальные отношения. В частности, он вычисляет веса перекрестного внимания на основе корреляции между общим представлением признаков и представлением отдельных модальностей. Развернув совместное представление функций AV в модуле перекрестного внимания, он помогает одновременно использовать как внутримодальные, так и интермодальные отношения, тем самым значительно повышая производительность системы по сравнению с обычным модулем перекрестного внимания. Эффективность предлагаемого нами подхода подтверждена экспериментально на сложных видео из наборов данных RECOLA и AffWild2. Результаты показывают, что наша совместная модель слияния A-V с перекрестным вниманием обеспечивает экономически эффективное решение, которое может превзойти современные подходы, даже когда модальности зашумлены или отсутствуют.