В пятницу OpenAI анонсировала новый инструмент аудиоклонирования на основе ИИ под названием Voice Engine. Хотя компания, очевидно, гордится потенциалом этой технологии, расхваливая, как ее можно использовать для помощи детям в чтении и предоставления голоса тем, кто его потерял, OpenAI явно нервничает по поводу того, как инструмент может быть использовано в злых целях. И не без оснований.

«OpenAI привержена разработке безопасного и широко полезного ИИ», — говорится в заявлении компании, четко обозначая свои опасения уже в первом предложении.

Voice Engine, по сути, использует ту же технологию, что лежит в основе ее API для преобразования текста в речь и ChatGPT Voice, но это приложение связано с клонированием голоса, а не с чтением чего-либо вслух с интонацией и ударением незнакомца. OpenAI отмечает, что ее технология исключительна тем, что ей требуется всего 15-секундный образец, чтобы «создать эмоциональные и реалистичные голоса».

Сегодня мы делимся предварительными идеями и результатами небольшого превью модели под названием Voice Engine, которая использует текстовый ввод и один 15-секундный аудиообразец для генерации естественно звучащей речи, близко напоминающей исходный голос.

На сайте OpenAI есть примеры аудио, пропущенных через Voice Engine, и они чертовски впечатляющие. Возможность изменить язык, на котором говорит человек, тоже очень крутая. Но вы пока не можете попробовать инструмент сами.

Уже существует ряд инструментов клонирования голоса, таких как ElevenLabs и переводчики вроде Respeecher. Но OpenAI стала гигантом с тех пор, как впервые публично запустила ChatGPT в конце 2022 года. И как только она сделает Voice Engine общедоступным продуктом (о дате выпуска пока ничего не известно), это может открыть врата для всевозможных злоупотреблений, о которых мы даже не мечтали.

В заявлении OpenAI отмечается:

Мы применяем осторожный и продуманный подход к более широкому релизу из-за потенциала неправильного использования синтетического голоса.

Придется в очередной раз напоминать своим родственникам, чтобы не верили голосовым сообщениям и звонкам, даже если на другом конце представляются Папой Римским.