В статье представлен новый подход к обучению с подкреплением на основе моделей, в котором максимально возможная часть процесса оптимизации траектории включена в задачу выборки. Это отличается от традиционных методов, которые полагаются на классические оптимизаторы траектории в сочетании с изученными моделями динамики. Предлагаемый подход использует диффузионную вероятностную модель, которая итеративно очищает траектории от шума, позволяя выборке из модели и планированию с ее помощью стать почти идентичными. В статье исследуются свойства методов планирования на основе диффузии и демонстрируется эффективность этого подхода в условиях контроля, в которых особое внимание уделяется долгосрочному принятию решений и гибкости времени тестирования. Авторы также показывают, как выборка с помощью классификатора и раскрашивание изображения могут быть переосмыслены как стратегии планирования в рамках этой структуры.
Если вы хотите узнать больше о статьях, связанных с моделями диффузии, пожалуйста, прочитайте следующие статьи.
Методология
Хотя изученные модели можно использовать для преодоления этой проблемы, они могут не подходить для алгоритмов планирования, разработанных для моделей, основанных на реальных фактах, что приводит к неоптимальным планировщикам. Авторы предлагают более тесную связь между моделированием и планированием путем включения как можно большей части процесса планирования в структуру генеративного моделирования с использованием диффузионной модели траекторий. Отделяя информацию о динамике от распределения возмущений, одну модель диффузии можно повторно использовать для нескольких задач в одной и той же среде. Этот подход включает в себя поиск физически реалистичных траекторий с высоким вознаграждением в условиях возмущенного распределения.
Генеративная модель для планирования траектории
Временное упорядочение.
Объединение выборки из траекторной модели с планированием порождает новое ограничение, из-за которого предсказание состояний во временном порядке становится нежизнеспособным. Для уточнения рассмотрим пример целеобусловленного вывода, p(s1 | s0, sT), где следующее состояние s1 зависит как от прошлого, так и от будущего состояния. Это иллюстрирует более широкий принцип: в то время как прогнозирование динамики является каузальным и определяется прошлыми событиями, принятие решений и контроль могут быть антикаузальными, поскольку они основаны на будущем. В результате временное авторегрессионное упорядочение несостоятельно, и Диффузор сформулирован так, чтобы предсказывать все временные шаги плана одновременно.
Временная локальность.
Несмотря на свою неавторегрессивную или немарковскую природу, Диффузор демонстрирует расслабленную форму временной локальности. На иллюстрации выше мы представляем график зависимости для диффузионной модели, состоящей из единственной временной свертки. Восприимчивое поле данного предсказания охватывает исключительно ближайшие временные промежутки как из прошлого, так и из будущего. Следовательно, каждый шаг шумоподавления может делать прогнозы только на основе локальной согласованности траектории. Тем не менее, объединение многочисленных шагов шумоподавления может обеспечить глобальную согласованность за счет использования локальной согласованности.
Архитектура.
Эта статья состоит из повторяющихся временных сверточных остаточных блоков. Структура модели похожа на успешные U-сети, используемые в моделях распространения на основе изображений, хотя и с одномерными временными свертками вместо двумерных пространственных сверток, как показано на рисунке A1. Поскольку модель является полностью сверточной, ее горизонт прогнозирования не зависит от архитектуры модели, а вместо этого зависит от входной размерности, которая при необходимости может динамически изменяться во время планирования. Общая архитектура показана следующим образом.
Обучение с подкреплением как управляемая выборка
Чтобы решить проблемы обучения с подкреплением с помощью Diffuser, необходимо установить систему вознаграждения. Это требует использования графической модели управления как логического вывода. Для достижения этой цели пусть O_t обозначает бинарную случайную величину, которая представляет оптимальность временного шага t в пределах заданной траектории. Примечательно, что p(O_t = 1) устанавливается равным exp(r(s_t, a_t)). Выборка из набора оптимальных траекторий может быть выполнена путем установления h(τ) = p(O_{1:T} | τ) внутри системы.
А теперь мы заменили задачу обучения с подкреплением на задачу условной выборки. Переходы обратного диффузионного процесса можно аппроксимировать гауссовским:
где μ, Σ — параметры исходного обратного процесса перехода pθ(τ_{i−1} | τ_i) и
Отношения, описанные в этом абзаце, обеспечивают прямое сопоставление между выборкой, управляемой классификатором, и контекстом задачи обучения с подкреплением. Сначала мы обучаем диффузионную модель pθ(τ) состояниям и действиям, присутствующим во всех доступных данных о траекториях. Затем мы обучаем отдельную модель J_φ, предназначенную для прогнозирования совокупного вознаграждения выборок траектории, τ_i. Затем градиенты J_φ используются для управления процессом дискретизации траектории путем изменения среднего значения μ обратного процесса. После этого первое действие выбранной траектории, τ ∼ p(τ | O_{1:T} = 1), может быть выполнено в среде, после чего процесс планирования возобновляется через типичный контур управления удаляющимся горизонтом.
На следующем рисунке показан псевдокод алгоритма.
Целеобусловленное RL как Inpainting
Некоторые проблемы планирования могут быть более эффективно сформулированы как упражнения на удовлетворение ограничений, а не на максимизацию вознаграждения. В таких сценариях цель состоит в том, чтобы сгенерировать любую возможную траекторию, удовлетворяющую заданному набору ограничений, например достижение заданного целевого местоположения. Используя представление траекторий в виде двумерного массива, эту ситуацию можно перевести в задачу рисования, где ограничения состояния и действия функционируют аналогично наблюдаемым пикселям изображения. Крайне важно, чтобы все ненаблюдаемые позиции в массиве заполнялись диффузионной моделью в соответствии с наблюдаемыми ограничениями. Функция возмущения, необходимая для этого предприятия, принимает форму дельты Дирака для наблюдаемых значений и остается постоянной в противном случае. Чтобы уточнить, если ct является ограничением состояния на временном шаге t, то
Определение ограничений действия отражает определение ограничений состояния. С практической точки зрения этот процесс может быть реализован путем выборки из невозмущенного обратного процесса, τ_{i−1} ∼ pθ (τ_{i−1} | τi), а затем подстановки полученных значений на обусловливающие значения, c_t, в конце концов временные шаги диффузии, i ∈ {0, 1, . . . , Н}. Примечательно, что даже задачи максимизации вознаграждения требуют обусловливания путем раскрашивания, поскольку все выборочные траектории должны начинаться с текущего состояния.
Свойства диффузора
Обученное долгосрочное планирование
Поскольку метод планирования тесно связан с выборкой и отличается только включением функции возмущения, успех Diffuser в качестве долгосрочного предиктора может быть напрямую трансформируется в успешное долгосрочное планирование. Это показано на рисунке выше (а), где мы демонстрируем преимущества изученного планирования в среде достижения цели, демонстрируя способность Diffuser генерировать жизнеспособные траектории в сценариях с редким вознаграждением, где традиционные подходы, основанные на стрельбе, часто дают сбои.
Временная композиционность
Одношаговые модели основаны на марковском свойстве создания переходов в пределах заданного распределения, что позволяет им обобщать его за пределы распределения. Однако Diffuser генерирует глобально согласованные траектории, улучшая локальную согласованность, позволяя комбинировать знакомые подпоследовательности новыми способами. В частности, на приведенном выше рисунке (b) они обучают Диффузор на прямолинейных траекториях и демонстрируют его способность обобщать V-образные траектории путем интегрирования траекторий в точке их пересечения.
Планы переменной длины
Горизонт планирования модели определяется не выбором архитектуры, а размером входного шума, поскольку предлагаемая модель является полностью сверточной по размеру горизонта своего прогноза. Эта характеристика позволяет генерировать планы переменной длины, где процесс шумоподавления инициируется входным шумом τ N ∼ N (0, I), что показано на рисунке (c) выше.
Композиционность задач
Diffuser предоставляет информацию о динамике и поведении среды, но не зависит от функции вознаграждения. Поскольку модель служит априорным прогнозом по отношению к возможному будущему, при планировании можно руководствоваться облегченными функциями возмущения h(τ), которые соответствуют различным вознаграждениям, даже в комбинации. Мы показываем это в нашей демонстрации, планируя новую функцию вознаграждения, которой не было во время обучения диффузионной модели, подчеркивая гибкость функции возмущения в управлении процессом планирования, что показано на рисунке выше (d).
В этой статье я кратко излагаю свою точку зрения на бумагу. Я надеюсь, что вы сможете узнать больше об этом после прочтения. Я также предлагаю ссылку на видео о статье, надеюсь, вам понравится!!!!
Если вам понравилась статья, пожалуйста, дайте мне немного 👏, поделитесь статьей и следуйте за мной, чтобы узнать больше о мире мультиагентного обучения с подкреплением. Вы также можете связаться со мной в LinkedIn, Instagram, Facebookи Github.