Вторник, 17 сентября 2019 16 +   Регистрация   Подписка на обновления  RSS  Обратная связь
12:54, 23 июня 2019

PHYRE: как обучить RL-агента решать физические задачи


PHYRE — это 2D-симулятор с 50 видами физических головоломок для обучения RL-агентов. Всего в симуляторе 5 тысяч головоломок. Задачи были разработаны исследователями из Facebook AI. Несмотря на то, что головоломки в PHYRE относительно просты для человека, они плохо решаются системами, которые успешно играют в Go, StarCraft и DoTA. Проект доступен по ссылке. 

PHYRE был разработан для оценки возможности агентов к оперированию физическими законами при решении задачи. Название PHYRE собирается из слов PHYsical REasoning. Сборник создали для того, чтобы поддержать исследования в области систем физического мышления. 

Примеры задач из PHYRE

Чтобы решить физическую задачу в PHYRE, агенты должны предпринять действие, которое спровоцирует столкновение определенных предметов. В примерах выше правильный бросок красного мячика провоцирует контакт между зеленым и голубым мячиками или между зеленым мячиком и фиолетовой платформой.

Как это работает

PHYRE состоит из 50 коллекций задач, каждая из которых содержит 100 типовых физических головоломок. Каждая головоломка представляет начальное состояние среды и конечную цель. Начальное состояние содержит набор шариков, стаканов, платформ и других простых объектов. Конечная цель формулируется как “нужно, чтобы шарик N коснулся стакана”. Чтобы достичь конечной цель, агент должен поставить на верные места один или больше объектов из среды, а затем ждать, пока все объекты в среде не остановятся. Например, чтобы перенести содержание одного стакана в другой, расположенный ниже, необходимо кинуть мячик так, чтобы он опрокинул содержимое верхнего стакана.

Почему это не так просто

Количество потенциальных действий, которые могут быть предприняты в головоломках, составляет десятки миллионов. Для сравнение, в Go количество возможных действий ограничивается сотнями. Системы, играющие в DoTA и StarCraft, опирались на методы, которые требовали миллионы или миллиарды попыток, чтобы найти решение. Агенты в PHYRE могут максимизировать свою награду, только если минимизируют количество неудачных попыток. Задачи в PHYRE поощряют обучение эффективным стратегиям. Из-за того, что решение физических головоломок предполагает совершение одного действия и результат виден напрямую, у задач в PHYRE нет проблем с назначением награды агенту.

Источник: neurohive.io
Telegram: Подписаться

0
Поделиться в соцсетях:

Об авторе: Dmitry Yoda

Помимо силы, мастер Йода очень увлекался блокчейном.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Нажимая кнопку [ОТПРАВИТЬ КОММЕНТАРИЙ], Вы соглашаетесь на сбор и обработку своих персональных данных и подтверждаете ознакомление с политикой конфиденциальности!!!

Мы в соцсетях:
О проекте
Реклама и сотрудничество
Обратная связь
Поддержать проект

© 2017-2019 RuHash#
Интернет-медиа о мире высоких технологий

Новости, исследования, интересные события в мире науки и высоких технологий.
Актуальные темы: искусственный интеллект, блокчейн, нанотехнологии, роботы, нейронные сети, квантовый мир.

Дизайн и поддержка: GoodwinPress.ru


Политика конфиденциальности

Материалы, представленные на данном сайте, не являются офертой или рекомендацией к покупке или продаже каких-либо активов.
Копирование и распространение материалов с сайта ruhash.com разрешено только с указанием активной ссылки на RuHash#
как на источник. Указание ссылки является обязательным при копировании материалов в социальные сети или печатные издания.

Авторизация
*
*
Регистрация
*
*
*
Пароль не введен
captcha
Генерация пароля