Имея некоторый исследовательский опыт и учитывая, что я только что закончил бакалавриат, я подумал, что было бы неплохо поделиться некоторыми из моих лучших работ, которые я прочитал. Большинство статей, которые я читал (и я предполагаю, что характер моей работы) основаны на нейронных сетях, применяемых для речи и языка.
Внимание — это все, что вам нужно (https://arxiv.org/abs/1706.03762)
Мне потребовалась пара месяцев (после прочтения статьи NMT), чтобы понять, что происходит и почему вокруг Transformer столько шумихи. Transformer уже применялся в других областях, таких как ASR(https://arxiv.org/pdf/1804.08050.pdf), GAN (https://arxiv.org/abs/1805.08318), языковое моделирование ( https://arxiv.org/abs/1901.02860, https://arxiv.org/abs/1810.04805) и др.
Репрезентативное обучение с контрастным прогнозирующим кодированием (https://arxiv.org/abs/1807.03748)
Эта статья была для меня довольно сложной, так как я не знаком с методами оценки плотности, но мне очень нравится ее неконтролируемая структура обучения, и моя дипломная работа основана на ней. Есть и другие недавние расширения (https://arxiv.org/abs/1812.00271, https://arxiv.org/abs/1901.08810).
Проверка динамика с использованием адаптированных моделей гауссовской смеси (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.117.338&rep=rep1&type=pdf)
Это один из самых цитируемых докладов, и модель GMM-UBM прокладывает путь для последующих разработок в области распознавания говорящих, таких как i-vectors (https://ieeexplore.ieee.org/document/5545402) . Я прочитал эту статью два года назад и до сих пор считаю, что это очень хорошая вводная статья для новичков в ораторском искусстве.
Изучение уровня кодирования и функции потерь в сквозной системе распознавания речи и языка (https://arxiv.org/abs/1804.05160)
Статья (LDE) очень хорошо написана, а сама идея довольно нова для распознавания говорящего (хотя она еще не привлекла большого внимания). x-vectors (https://www.danielpovey.com/files/2018_icassp_xvectors.pdf) продемонстрировала эффективность DNN, а LDE представила по-настоящему сквозной подход к задачам спикеров.
Нейронный машинный перевод путем совместного обучения выравниванию и переводу (https://arxiv.org/abs/1409.0473)
В этой статье показано, что сквозные модели потенциально могут превзойти статистические подходы. Это оказывает глубокое влияние на NMT и ASR.
Глубокое остаточное обучение для распознавания изображений (https://arxiv.org/abs/1512.03385)
Это, вероятно, самая основная статья по глубокому обучению, но ResNet был основой многих архитектур нейронных сетей, особенно для обнаружения объектов (https://arxiv.org/abs/1506.01497, https://arxiv.org/ abs/1612.03144) и распознавание изображений (https://arxiv.org/abs/1608.06993, https://arxiv.org/abs/1709.01507).
Генеративные состязательные сети (https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf)
Оригинальная статья GAN — одна из первых исследовательских работ, которые я прочитал. GAN и состязательное обучение получили много шума за эти два года, и их варианты, такие как CycleGAN (https://arxiv.org/abs/1703.10593), имеют несколько интересных приложений для речи.
Сети глубокого прогнозирующего кодирования для прогнозирования видео и обучения без учителя (https://arxiv.org/abs/1605.08104)
Я узнал об этой статье из выступления Дэвида Кокса о нейронауке/глубоком обучении (https://www.youtube.com/watch?v=P0yVuoATjzs). Статью легко читать, но она имеет хорошо зарекомендовавшую себя связь с некоторыми теориями нейронауки/когнитивистики, что довольно интересно.
Похвальный отзыв:
- Перенос обучения с проверки говорящего на синтез речи с несколькими говорящими (https://arxiv.org/abs/1806.04558)
- Неконтролируемое изучение распутанных и интерпретируемых представлений из последовательных данных (https://arxiv.org/abs/1709.07902)