NVIDIA представила экспериментальную генеративную модель ИИ под названием Fugatto (Foundational Generative Audio Transformer Opus 1), которую компания называет «швейцарским ножом для работы со звуком». Эта модель может превращать текстовые команды в аудио или изменять существующие музыкальные, голосовые и звуковые файлы.

Fugatto разработана международной командой исследователей ИИ, что, по словам NVIDIA, усилило ее «многоязычные и мультиакцентные возможности».

Мы хотели создать модель, которая понимает и генерирует звуки так, как это делают люди.

— Рафаэль Валье, руководитель отдела прикладных аудиоисследований NVIDIA и один из авторов проекта

Компания описала несколько практических сценариев применения Fugatto. Например, музыканты смогут быстро генерировать прототипы песен и экспериментировать с различными стилями, голосами и инструментами. Модель также может использоваться для создания материалов для языковых курсов с выбором голоса или для генерации звуковых эффектов в видеоиграх, которые адаптируются к действиям и выборам игрока.

Кроме того, Fugatto способна на задачи, которые не входили в ее первоначальное обучение. Например, она может комбинировать раздельно изученные инструкции, создавая речь с определенным акцентом и эмоциональной окраской, или звуки природы, такие как пение птиц во время грозы. Также модель может генерировать звуки с динамическими изменениями, например, звук приближающегося ливня.

Пока не заявлено, станет ли Fugatto доступной для широкой публики, но эта модель не первая в своем роде. Другие крупные технологические компании представляют свои альтернативы, правда, один из главных вопросов — это наличие инструментария для работы с подобными ИИ-моделями.

https://youtu.be/qj1Sp8He6e4