Нейронная сеть преобразует слова в роботизированные движения

Исследователи из Университета Сеула создали Text2Action, нейронную сеть, которая преобразует текстовое описание действия в анимацию движения трехмерной модели. Алгоритм работает на основе антагонистической генерирующей сети (GAN, для ее сокращения на английском языке), и с ее помощью можно, например, научить робота понимать текстовое описание действий.

GAN основан на модели Seq2Seq. Эта нейронная сеть изучает зависимости между входными и выходными данными, в этом случае между полученным порядком для указания действия и соответствующего анимированного изображения. Обработка текстовой информации и последующий процесс ее обработки на изображении основаны на работе рекуррентных нейронных сетей.

Нейронная сеть была обучена открытой базе данных MSR-VTT , созданной Microsoft, которая содержит видеоролики действий нескольких людей и их автоматическое письменное описание. Всего для тренинга использовалось 29 770 пар «описание-видео». В результате нейронная сеть могла не только конвертировать отдельные предложения (в сочетании с видео) в анимированные модели, но и создавать новые модели на основе нескольких пар «видео-описание». Результаты работы нейронной сети превзошли в реализме алгоритм, представленный ранее.

Кроме того, разработчики интегрировали новую нейронную сеть в Baxter, робота с открытым исходным кодом, который исследователи часто используют в проектах машинного обучения (например, для проверки функционирования нейронного интерфейса). Исследователям удалось научить робота выполнять действия, основанные на описании текста.