Неконтролируемое обучение

Подход к неконтролируемому обучению демонстрируется современной моделью НЛП (например, BERT, GPT-2) как хороший способ изучить особенности для последующих задач. Исследователи продемонстрировали, что функции обучения, основанные на данных, обеспечивают лучшее качество звука, чем традиционные акустические функции, такие как мелкочастотный кепстр (MFCC).

В этой истории будет рассказано о том, как можно использовать обучение без учителя для изучения функции звука и ее применения для последующих задач.

Неконтролируемое изучение функций для классификации аудио

Ли и др. предлагают использовать сверточную сеть глубоких убеждений (CDBN, в настоящее время представление aksdeep Learning) для замены традиционных звуковых функций (например, спектрограммы и кепстра Mel-частоты (MFCC)). Исходный ввод - это спектрограмма каждого высказывания, а размер окна составляет 20 мс с перекрытием 10 мс. Маленькое окно и настройка наложения являются обычным явлением при обработке аудиовхода. Считая, что компьютерные ресурсы ограничены в то время (это был 2009 год), они используют анализ главных компонентов (PCA), чтобы уменьшить размерность, прежде чем вводить данные в нейронную сеть.

Настройка нейронной сети включает 2 слоя сверточной нейронной сети (CNN) с 300 измерениями, длиной фильтра 6 и максимальным коэффициентом объединения 3.

Ли и др. оцененная управляемая данными функция (CDBN) с традиционными функциями, такими как спектрограмма (например, RAW на следующем рисунке) и MFCC для идентификации говорящего, гендерной классификации говорящего, классификации телефонов, классификации музыкальных жанров и классификации музыкальных исполнителей.

Неконтролируемое изучение функций на основе глубоких моделей для экологической маркировки аудио

Xu et al. используйте спектрограмму как необработанный ввод для изучения векторного представления. Асимметричный автокодировщик с шумоподавлением (aDAE) представлен в исследовательской статье. Сетевая архитектура включает части кодера (первые три уровня) и декодера (последние три уровня). Спектрограмма извлекается и подается в кодировщик, в то время как цель обучения предсказывает середину кадра, используя предыдущий и следующий кадры.

Это похоже на непрерывный мешок слов (CBOW) в НЛП. CBOW использует окружение, чтобы предсказывать целевые слова.

Следующие ниже сравнения моделей демонстрируют, что aDAE в целом дает лучший результат.

Неконтролируемое изучение функций для анализа звука

Meyer et al. также используйте спектрограмму в качестве необработанного ввода для изучения векторного представления. Обучающий объект использует предыдущий кадр для прогнозирования следующего кадра, что аналогично языковой модели в NLP. Предиктор звуковых кадров (AFP) представлен в этой статье.

Сетевая архитектура включает части кодировщика и декодера. Спектрограмма извлекается с размером скользящего окна 2,56 с и перекрытиями 0,64 с и подается в кодировщик, который включает несколько слоев ConvLSTM. Настройка ConvLSTM использует ядро ​​фильтра 3x3 с активацией ReLu и функцией пакетной нормализации.

Meyer et al. используйте двухэтапную процедуру для обучения представления, управляемого данными. Сеть обучается путем минимизации среднеквадратичной ошибки (MSE) (т. Е. От кодера к декодеру) в первые 6 эпох. В периоды с шестой по девятую добавляется возражение против обучения парным потерям для одновременной корректировки представления.

Любите учиться?

Я специалист по анализу данных в Bay Area. Сосредоточение внимания на последних достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с платформами. Не стесняйтесь связываться со мной в LinkedIn или подписывайтесь на меня в Medium или Github.

Ссылка