Познакомьтесь с Анной — в 30 лет она перенесла инсульт, который оставил её парализованной. Она не могла двигаться и говорить, но теперь у неё есть шанс вернуть хотя бы часть своих способностей к речи. Анна помогает исследователям из Калифорнии разрабатывать новую технологию интерфейса мозг-компьютер, которая позволяет людям общаться через цифровой аватар.

Технология преобразует данные из мозговых сигналов в слова, которые произносит аватар. Исследователи обучали глубокие модели на основе нейроданных, собранных во время попыток участника произносить предложения молча. В результате их модель производит около 78 слов в минуту со средним уровнем ошибок в 25% — значительное улучшение по сравнению с 14 словами в минуту, которые демонстрируют другие технологии.

Мы демонстрируем понятную и быструю синтезированную речь, а также анимацию аватара, который передает речевые и неречевые жесты. Декодеры достигли высокой производительности менее чем за две недели обучения. Наши результаты представляют собой многофункциональный подход к нейропротезированию речи, который обладает большим потенциалом для восстановления полноценной коммуникации у людей с тяжелым параличом.

Проще говоря, команда разработала алгоритм для синтеза речи Анны так, чтобы она звучала как её голос до травмы, используя запись её речи на свадьбе. Эта работа не только впечатляет, но и трогает Анну, которая сказала, что это как «слышать старого друга».

Что касается аватара, он также связан с мозгом Анны и может выражать её эмоции.

Команда анимировала аватар Анны с помощью софта, который симулирует и анимирует движения мышц лица, разработанного компанией Speech Graphics. Исследователи создали специализированные процессы машинного обучения, которые позволили ПО компании синхронизироваться с сигналами от мозга Анны во время попыток говорить и преобразовывать их в движения на лице её аватара.

Впереди еще много испытаний, однако этот случай наглядно демонстрирует эффективность, так что внедрение остается лишь вопросом времени.