OpenAI недавно наделала много шуму, представив ChatGPT, который в ближайшие годы может стать заменой гуглу и персональным помощникам. Теперь компания анонсировала релиз нового инструмента. Он называется POINT-E, его особенность — генерация трехмерных изображений объектов на основе текстовых запросов. Правда, пока они состоят из отдельных точек, а не привычных полигонов.

Текст-в-3D — очередной шаг эволюции для ИИ-генераторов. Результаты пока не впечатляют детализацией или высоким уровнем оригинальности. Но всего год-два назад подобное говорили и про нейросети, генерирующие изображения.

Сейчас процесс создания 3D-моделей состоит из двух этапов: сначала генерируется 2D-изображение по запросу, после этого к нему применяется нейросеть, обученная на парах 2D и 3D-объектов. Оба шага выполняются за время, исчисляемое секундами, при этом не требуется затратная оптимизация.

Если ввести запрос «кот ест булочку», то сперва Point-E создаст синтетический 3D-рендер кота, после чего пропустит изображение через серию моделей, генерируя трехмерное цветное облако точек. Сначала из 1024 точек, потом из 4096.

Хотя нынешний метод производит не такие хорошие результаты, как некоторые аналоги, преимущество Point-E в высокой скорости. Попробовать технологию можно самостоятельно. Код доступен на github.