Вторник, 17 сентября 2019 16 +   Регистрация   Подписка на обновления  RSS  Обратная связь
12:54, 21 августа 2019

DeepMind опубликовали библиотеку для RL экспериментов


bsuite — это коллекция экспериментов для исследования поведения разных RL-агентов на общих задачах. Библиотека автоматизирует оценку и анализ поведения агентов на задачах. Она служит для упрощения создания повторяемых исследований.

У библиотеки две основные цели. Первая — собрать понятные и масштабируемые проблемы, которые описывают основные проблемы в разработке эффективных RL-алгоритмов. Вторая — изучить поведения разных агентов на одних и тех же задачах.

Технический обзор 

bsuite состоит из набора экспериментов, которые определены в субдиректории “experiments”. Каждая субдиректория отвечает за один эксперимент и содержит:

  • Файл, определяющий RL среду, которая может быть конфигурируемой и предоставлять разные уровни сложности;
  • Последовательность ключевых аргументов для этой среды, которые определены в переменной SETTINGS в файле sweep.py;
  • Файл analysis.py, в котором определены графики для анализа

Библиотека работает так, что логгирует результаты изнутри каждой среды, когда загружает среду через функцию load_and_record. Это означает, что каждый эксперимент автоматически будет выдавать данные в корректном для анализа формате. Это не накладывает ограничения на структуру агентов или алгоритмов.

7 основных показателей для анализа агентов

Стандартные агенты

Разработчики включили реализации нескольких общих агентов в субдиректории “baselines”. Основные зависимости — TensorFlow и Sonnet. Зависимости не предустанавливаются по дефолту, потому что библиотека не требует пользователей использовать какую-то специальную библиотеку.

Прогнать эксперимент

Каждый из агентов из папке “baselines” имеет скрипт для прогона, который служит как пример для запуска агента на одной среде или на последовательности экспериментов. При запуске агента на ряде экспериментов начинается пул процессов, который максимально параллелит запуск экспериментов на машине. Для большинства агентов и на машине с 12 ядрами обучение завершится за ночь. Как альтернатива можно запускать эксперименты на Google Compute Platform с помощью скрипта run_on_gcp.sh.

В будущем разработчики планируют добавить более эксперименты с более сложным дизайном и собирать обзоры на эксперименты от известных исследователей.

Источник: neurohive.io
Telegram: Подписаться

0
Поделиться в соцсетях:

Об авторе: Dmitry Yoda

Помимо силы, мастер Йода очень увлекался блокчейном.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Нажимая кнопку [ОТПРАВИТЬ КОММЕНТАРИЙ], Вы соглашаетесь на сбор и обработку своих персональных данных и подтверждаете ознакомление с политикой конфиденциальности!!!

Мы в соцсетях:
О проекте
Реклама и сотрудничество
Обратная связь
Поддержать проект

© 2017-2019 RuHash#
Интернет-медиа о мире высоких технологий

Новости, исследования, интересные события в мире науки и высоких технологий.
Актуальные темы: искусственный интеллект, блокчейн, нанотехнологии, роботы, нейронные сети, квантовый мир.

Дизайн и поддержка: GoodwinPress.ru


Политика конфиденциальности

Материалы, представленные на данном сайте, не являются офертой или рекомендацией к покупке или продаже каких-либо активов.
Копирование и распространение материалов с сайта ruhash.com разрешено только с указанием активной ссылки на RuHash#
как на источник. Указание ссылки является обязательным при копировании материалов в социальные сети или печатные издания.

Авторизация
*
*
Регистрация
*
*
*
Пароль не введен
captcha
Генерация пароля