Пятница, 22 ноября 2019 16 +   Регистрация   Подписка на обновления  RSS  Обратная связь
12:54, 23 августа 2019

Нейросеть от Google AI распознает жесты в реальном времени


Goole AI опубликовали подход для распознавания жестов в реальном времени с камеры телефона. Модель реализована в MediaPipe, открытом фреймворке для обработки видео- и аудиоданных. Текущие state-of-the-art решения нуждаются в вычислительной мощности ПК, а подход от Google выдает результаты в реальном времени на телефоне и масштабируется на несколько рук. 

Возможность распознавать форму и движение рук может быть катализатором к улучшению пользовательского опыта для множества приложений. Например, для приложений дополненной реальности. Разработка устойчивой легковесной модели для распознавания рук в реальном времени является нетривиальной задачей.

Предложенный исследователями подход был анонсирован на CVPR 2019 в июне. Этот подход использует нейросетевые модели для предсказания расположения 21 3D точек руки на основе одного кадра. 

Пайплайн для распознавания рук и жестов

Пайплайн состоит из нескольких моделей, которые работают совместно:

  • Модель для распознавания ладони (BlazePalm), которая принимает на вход изображение и выдает границы ладони;
  • Модель для разметки ладони, которая принимает на вход обрезанное по границам изображение ладони и выдает 3D точки ладони;
  • Детектор жестов, который классифицирует полученную на прошлом этапе последовательность точек ладони по заранее размеченным классам

Исследователи замечают, что правильно обрезанная фотография ладони позволяет значительно сократить необходимость в увеличении размерности данных. Так сеть фокусируется на предсказании координатов точек ладони.

Визуализация составных частей пайплайна

BlazePalm

Чтобы распознать изначальное положение руки на изображении применяется модель BlazePalm. Сначала обучается детектор ладони. Затем используется кодировщик-декодировщик, чтобы учитывать контекст изображения. Focal функция потерь минимизируется во время обучения.

Использование таких техник позволяет достичь точности в 95.7% в предсказании границ ладони.

Распознавание точек ладони

После детектора границ ладони оригинальное изображение обрезается. Детектор точек ладони работает с обрезанным изображением. Модель распознает положение 21 точки ладони и выдает их координаты на выходе. Сеть устойчива к частично видимым рукам и скрещиваниям рук.

Распознавание жестов

Поверх распознанному скелету ладони применяется модель для классификации жестов. Изначально в классы были записаны такие жесты, как палец вверх, кулак, “OK”, “Rock” и “Spiderman”.

Источник: neurohive.io
Telegram: Подписаться

0
Поделиться в соцсетях:

Об авторе: Dmitry Yoda

Помимо силы, мастер Йода очень увлекался блокчейном.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Нажимая кнопку [ОТПРАВИТЬ КОММЕНТАРИЙ], Вы соглашаетесь на сбор и обработку своих персональных данных и подтверждаете ознакомление с политикой конфиденциальности!!!

Мы в соцсетях:
О проекте
Реклама и сотрудничество
Обратная связь
Поддержать проект

© 2017-2019 RuHash#
Интернет-медиа о мире высоких технологий

Новости, исследования, интересные события в мире науки и высоких технологий.
Актуальные темы: искусственный интеллект, блокчейн, нанотехнологии, роботы, нейронные сети, квантовый мир.

Дизайн и поддержка: GoodwinPress.ru


Политика конфиденциальности

Материалы, представленные на данном сайте, не являются офертой или рекомендацией к покупке или продаже каких-либо активов.
Копирование и распространение материалов с сайта ruhash.com разрешено только с указанием активной ссылки на RuHash#
как на источник. Указание ссылки является обязательным при копировании материалов в социальные сети или печатные издания.

Авторизация
*
*
Регистрация
*
*
*
Пароль не введен
captcha
Генерация пароля