Имея некоторый исследовательский опыт и учитывая, что я только что закончил бакалавриат, я подумал, что было бы неплохо поделиться некоторыми из моих лучших работ, которые я прочитал. Большинство статей, которые я читал (и я предполагаю, что характер моей работы) основаны на нейронных сетях, применяемых для речи и языка.

Внимание — это все, что вам нужно (https://arxiv.org/abs/1706.03762)

Мне потребовалась пара месяцев (после прочтения статьи NMT), чтобы понять, что происходит и почему вокруг Transformer столько шумихи. Transformer уже применялся в других областях, таких как ASR(https://arxiv.org/pdf/1804.08050.pdf), GAN (https://arxiv.org/abs/1805.08318), языковое моделирование ( https://arxiv.org/abs/1901.02860, https://arxiv.org/abs/1810.04805) и др.

Репрезентативное обучение с контрастным прогнозирующим кодированием (https://arxiv.org/abs/1807.03748)

Эта статья была для меня довольно сложной, так как я не знаком с методами оценки плотности, но мне очень нравится ее неконтролируемая структура обучения, и моя дипломная работа основана на ней. Есть и другие недавние расширения (https://arxiv.org/abs/1812.00271, https://arxiv.org/abs/1901.08810).

Проверка динамика с использованием адаптированных моделей гауссовской смеси (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.117.338&rep=rep1&type=pdf)

Это один из самых цитируемых докладов, и модель GMM-UBM прокладывает путь для последующих разработок в области распознавания говорящих, таких как i-vectors (https://ieeexplore.ieee.org/document/5545402) . Я прочитал эту статью два года назад и до сих пор считаю, что это очень хорошая вводная статья для новичков в ораторском искусстве.

Изучение уровня кодирования и функции потерь в сквозной системе распознавания речи и языка (https://arxiv.org/abs/1804.05160)

Статья (LDE) очень хорошо написана, а сама идея довольно нова для распознавания говорящего (хотя она еще не привлекла большого внимания). x-vectors (https://www.danielpovey.com/files/2018_icassp_xvectors.pdf) продемонстрировала эффективность DNN, а LDE представила по-настоящему сквозной подход к задачам спикеров.

Нейронный машинный перевод путем совместного обучения выравниванию и переводу (https://arxiv.org/abs/1409.0473)

В этой статье показано, что сквозные модели потенциально могут превзойти статистические подходы. Это оказывает глубокое влияние на NMT и ASR.

Глубокое остаточное обучение для распознавания изображений (https://arxiv.org/abs/1512.03385)

Это, вероятно, самая основная статья по глубокому обучению, но ResNet был основой многих архитектур нейронных сетей, особенно для обнаружения объектов (https://arxiv.org/abs/1506.01497, https://arxiv.org/ abs/1612.03144) и распознавание изображений (https://arxiv.org/abs/1608.06993, https://arxiv.org/abs/1709.01507).

Генеративные состязательные сети (https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf)

Оригинальная статья GAN — одна из первых исследовательских работ, которые я прочитал. GAN и состязательное обучение получили много шума за эти два года, и их варианты, такие как CycleGAN (https://arxiv.org/abs/1703.10593), имеют несколько интересных приложений для речи.

Сети глубокого прогнозирующего кодирования для прогнозирования видео и обучения без учителя (https://arxiv.org/abs/1605.08104)

Я узнал об этой статье из выступления Дэвида Кокса о нейронауке/глубоком обучении (https://www.youtube.com/watch?v=P0yVuoATjzs). Статью легко читать, но она имеет хорошо зарекомендовавшую себя связь с некоторыми теориями нейронауки/когнитивистики, что довольно интересно.

Похвальный отзыв:

  1. Перенос обучения с проверки говорящего на синтез речи с несколькими говорящими (https://arxiv.org/abs/1806.04558)
  2. Неконтролируемое изучение распутанных и интерпретируемых представлений из последовательных данных (https://arxiv.org/abs/1709.07902)