Пятница, 22 ноября 2019 16 +   Регистрация   Подписка на обновления  RSS  Обратная связь
12:54, 23 августа 2019

В Nvidia обучили языковую модель с 8 миллиардами параметров


MegatronLM — это языковая модель с 8.3 миллиардами параметров, которую в Nvidia обучили на 512 GPU. MegatronLM основывается на GPT-2. По размеру MegatronLM больше BERT в 24 раза и больше GPT-2 в 5.6 раз. На текущий момент это самая крупная обученная языковая модель.Разработчики опубликовали распараллеленную реализацию модели. 

Большие языковые модели показывают лучшие результаты на таких на задачах генерации текста. Обучение большой нейросети для NLP задач показало значительное увеличение в качестве предсказаний. Две последние работы, — BERT и GPT-2, — иллюстрируют преимущества крупномасштабных нейросетей для решения NLP задач. Обучение таких моделей требует сотни эксафлопсов вычислений и осторожную работу с памятью. Несмотря на это, для моделей с более чем миллиардом параметров памяти одного GPU не хватает. Это требует распараллелить процесс обучения таких моделей, чтобы распределить вычисления на несколько GPU. Существующие подходы к параллелизации моделей сложны в использовании. В MegatronLM разработчики реализовали распараллеленную языковую модель на PyTorch. Для параллелизации была использована библиотека NCCL.

Дизайн экспериментов

Эксперименты проводились на NVIDIA’s DGX SuperPOD. Без распараллеливания модели одна модель с 1.2 миллиардами параметров вмещалась на одну V100 32GB GPU. Базовая модель тратила 39 терафлопс на обучение. После масштабирования модели до 8.3 миллиардов параметров на 512 GPU она требовала 15.1 петафлопс на обучение. Это на 76% более эффективная реализация, чем базовая модель с 1 GPU.

Параметры, использованные в экспериментах. Первая строчка — базовая модель, последняя — итоговая модель

Обучение GPT-2

В качестве данных для обучения модели был собран датасет постов с Reddit. Размер датасета составил 37 гигабайт. Всего в выборке было 8.1 миллионов постов.

Перплексия на валидационном наборе данных. Обучение модели остановили, когда она начала переобучаться на датасете

Исследователи смотрели на точность и перплексию моделей с разными параметрами. Ниже можно видеть, что модели с 2.5 и 8.3 миллиардами параметров практически не отличаются по метрикам.

Оценка работы моделей с разными параметрами

Источник: neurohive.io
Telegram: Подписаться

0
Поделиться в соцсетях:

Об авторе: Dmitry Yoda

Помимо силы, мастер Йода очень увлекался блокчейном.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Нажимая кнопку [ОТПРАВИТЬ КОММЕНТАРИЙ], Вы соглашаетесь на сбор и обработку своих персональных данных и подтверждаете ознакомление с политикой конфиденциальности!!!

Мы в соцсетях:
О проекте
Реклама и сотрудничество
Обратная связь
Поддержать проект

© 2017-2019 RuHash#
Интернет-медиа о мире высоких технологий

Новости, исследования, интересные события в мире науки и высоких технологий.
Актуальные темы: искусственный интеллект, блокчейн, нанотехнологии, роботы, нейронные сети, квантовый мир.

Дизайн и поддержка: GoodwinPress.ru


Политика конфиденциальности

Материалы, представленные на данном сайте, не являются офертой или рекомендацией к покупке или продаже каких-либо активов.
Копирование и распространение материалов с сайта ruhash.com разрешено только с указанием активной ссылки на RuHash#
как на источник. Указание ссылки является обязательным при копировании материалов в социальные сети или печатные издания.

Авторизация
*
*
Регистрация
*
*
*
Пароль не введен
captcha
Генерация пароля