Microsoft разрабатывает ИИ, способный имитировать человеческий голос после нескольких секунд обучения

Группа исследователей из Microsoft поделилась своими наработками по VALL-E — ИИ, который способен имитировать человеческий голос после нескольких секунд обучения. Для его создания ученые использовали 60 000 часов англоязычной речи, полученной от более чем 7000 уникальных дикторов:

Крупномасштабные данные, взятые из Интернета, всегда приводят к снижению производительности. Поскольку обучающие данные относительно малы, существующие системы TTS по-прежнему страдают от плохой обобщенности. Сходство с диктором и естественность речи резко снижаются для невидимых дикторов в сценарии «нулевого выстрела» (речь о способности ИИ воссоздавать голоса, не будучи специально обученным на них).

Результаты экспериментов показывают, что Vall-E значительно превосходит современную систему TTS с «нулевым выстрелом» по естественности речи и сходству с диктором. Кроме того, мы обнаружили, что VALL-E может сохранять эмоции диктора и акустическое окружение при синтезе.

Ознакомиться с примерами имитации человеческой речи можно на сайте GitHub.

Исследователи понимают, что сам по себе такой инструмент может и наверняка будет использоваться мошенниками:

Поскольку VALL-E может синтезировать речь, сохраняя идентичность говорящего, это может нести потенциальные риски неправильного использования, такие как подмена идентификации голоса или выдача себя за конкретного говорящего. Чтобы снизить такие риски, можно построить модель обнаружения, позволяющую определить, был ли аудиоклип синтезирован VALL-E.

Что ж, теперь нам нужен ИИ, который будет распознавать другой ИИ. Иначе как мы узнаем, что опекуны Джона Коннора на самом деле мертвы?