Публикации по теме 'generative-model'
Команда Bengio предлагает генеративные модели на основе потоковых сетей, которые учатся стохастической политике из…
Для стандартных алгоритмов обучения с подкреплением (RL) максимизация ожидаемой отдачи достигается путем выбора единственной последовательности действий с наивысшим вознаграждением. Но для задач в комбинаторной области, таких как синтез молекул лекарств, где исследования важны, желаемая цель больше не просто генерировать единственную последовательность действий с наивысшей наградой, а, скорее, тщательно пробовать разнообразный набор решений с высокой отдачей. .
Чтобы решить эту..