Алгоритм научился подделывать речь

Исследователи из Стэнфордского и Принстонского университетов создали алгоритм, который искажает речь человека на видео. Для убедительности программа не только подстраивает голос, но и изменяет мимику, а также длину ролика.

Как рассказали разработчики, устроена их программа так: из ролика она выделяет аудиодорожку, разделяя речь человека на фонемы. Далее ПО создает 3D модель лица человека, сканируя, как он двигает губами, произнося слова. Затем машина находит висемы — звуки, которые выглядят одинаково при движении губ — и использует их для создания мимики под новые фразы. В итоге из двух произнесенных слов алгоритм создает третье.

Чтобы отредактированный голос больше походил на речь модели, исследователи пользуются программой VoCo, которую они представили в 2016 году. Проанализировав небольшой монолог человека, она способна «спародировать» его голос.

В ознакомительном ролике исследователи показали демоверсию разработки. Например, одного диктора они «заставили» говорить French toast вместо Napalm в предложении I love the smell of napalm in the morning. Другого диктора и вовсе лишили одного слова — программа также умеет удалять речь из ролика.

источник