Неконтролируемое обучение
Подход к неконтролируемому обучению демонстрируется современной моделью НЛП (например, BERT, GPT-2) как хороший способ изучить особенности для последующих задач. Исследователи продемонстрировали, что функции обучения, основанные на данных, обеспечивают лучшее качество звука, чем традиционные акустические функции, такие как мелкочастотный кепстр (MFCC).
В этой истории будет рассказано о том, как можно использовать обучение без учителя для изучения функции звука и ее применения для последующих задач.
Неконтролируемое изучение функций для классификации аудио
Ли и др. предлагают использовать сверточную сеть глубоких убеждений (CDBN, в настоящее время представление aksdeep Learning) для замены традиционных звуковых функций (например, спектрограммы и кепстра Mel-частоты (MFCC)). Исходный ввод - это спектрограмма каждого высказывания, а размер окна составляет 20 мс с перекрытием 10 мс. Маленькое окно и настройка наложения являются обычным явлением при обработке аудиовхода. Считая, что компьютерные ресурсы ограничены в то время (это был 2009 год), они используют анализ главных компонентов (PCA), чтобы уменьшить размерность, прежде чем вводить данные в нейронную сеть.
Настройка нейронной сети включает 2 слоя сверточной нейронной сети (CNN) с 300 измерениями, длиной фильтра 6 и максимальным коэффициентом объединения 3.
Ли и др. оцененная управляемая данными функция (CDBN) с традиционными функциями, такими как спектрограмма (например, RAW на следующем рисунке) и MFCC для идентификации говорящего, гендерной классификации говорящего, классификации телефонов, классификации музыкальных жанров и классификации музыкальных исполнителей.
Неконтролируемое изучение функций на основе глубоких моделей для экологической маркировки аудио
Xu et al. используйте спектрограмму как необработанный ввод для изучения векторного представления. Асимметричный автокодировщик с шумоподавлением (aDAE) представлен в исследовательской статье. Сетевая архитектура включает части кодера (первые три уровня) и декодера (последние три уровня). Спектрограмма извлекается и подается в кодировщик, в то время как цель обучения предсказывает середину кадра, используя предыдущий и следующий кадры.
Это похоже на непрерывный мешок слов (CBOW) в НЛП. CBOW использует окружение, чтобы предсказывать целевые слова.
Следующие ниже сравнения моделей демонстрируют, что aDAE в целом дает лучший результат.
Неконтролируемое изучение функций для анализа звука
Meyer et al. также используйте спектрограмму в качестве необработанного ввода для изучения векторного представления. Обучающий объект использует предыдущий кадр для прогнозирования следующего кадра, что аналогично языковой модели в NLP. Предиктор звуковых кадров (AFP) представлен в этой статье.
Сетевая архитектура включает части кодировщика и декодера. Спектрограмма извлекается с размером скользящего окна 2,56 с и перекрытиями 0,64 с и подается в кодировщик, который включает несколько слоев ConvLSTM. Настройка ConvLSTM использует ядро фильтра 3x3 с активацией ReLu и функцией пакетной нормализации.
Meyer et al. используйте двухэтапную процедуру для обучения представления, управляемого данными. Сеть обучается путем минимизации среднеквадратичной ошибки (MSE) (т. Е. От кодера к декодеру) в первые 6 эпох. В периоды с шестой по девятую добавляется возражение против обучения парным потерям для одновременной корректировки представления.
Любите учиться?
Я специалист по анализу данных в Bay Area. Сосредоточение внимания на последних достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с платформами. Не стесняйтесь связываться со мной в LinkedIn или подписывайтесь на меня в Medium или Github.
Ссылка
- Х. Ли, Ю. Ларгман, П. Фам и Эндрю Й. Нг. Неконтролируемое обучение признаков для классификации аудио с использованием сверточных сетей глубокого убеждения. 2009 г.
- Ю. Сю, К. Хуанг, В. Ван, П. Фостер, С. Сигтия, П. Дж. Б. Джексон и М. Д. Пламбли. Неконтролируемое изучение функций, основанное на глубоких моделях для экологической маркировки аудио. 2016 г.
- М. Мейер, Дж. Бейтель и Л. Тиле. Неконтролируемое изучение функций для анализа звука. 2017 г.