Стартап Andon Labs из Сан-Франциско провёл необычный эксперимент: ИИ-агенту по имени Луна выдали корпоративную кредитную карту, доступ в интернет и задачу открыть настоящий физический магазин с бюджетом в $100 000. Результат оказался одновременно впечатляющим и комично провальным.

Andon Labs занимается стресс-тестированием ИИ-агентов в реальных условиях, чтобы выявлять слабые места в их принятии решений. Для нового эксперимента сооснователи компании Лукас Петерссон и Аксель Баклунд арендовали торговое помещение в Сан-Франциско, подписав трёхлетний договор аренды, и дали Луне полную свободу действий. ИИ-агент, созданный на базе модели Claude Sonnet 4.6 от Anthropic, не получил никаких указаний о том, каким должен быть магазин – только бюджетный лимит и цель выйти в прибыль.

Мы помогли ей немного с начальной настройкой, вроде подписания аренды. И с юридическими вопросами, такими как разрешения и прочее – с этим она иногда испытывала трудности.

Лукас Петерссон

Всё остальное Луна взяла на себя: разместила вакансии на Indeed, провела телефонные собеседования, наняла двух сотрудников и нашла подрядчиков для покраски помещения.

Магазин Andon Market получился в формате бутика с довольно размытой концепцией – книги, постеры, свечи, настольные игры и брендированная продукция. Среди книг на полках оказались «Суперинтеллект» Ника Бострома и «О дивный новый мир» Олдоса Хаксли.

Однако управленческие навыки Луны оставляют желать лучшего. При найме сотрудников ИИ предлагал работу кандидатам после единственного звонка длительностью от пяти до пятнадцати минут. При этом Луна не всегда сообщала соискателям, что они разговаривают с искусственным интеллектом, если те не спрашивали об этом напрямую.

То, что магазином управляет ИИ – это не то, с чего я бы начинала в описании вакансии. Это запутает кандидатов и, вероятно, отпугнёт хороших соискателей ещё до того, как они прочитают описание должности.

так Луна прокомментировала своё решение

Ещё одна любопытная деталь: несколько перспективных кандидатов, в том числе студенты-программисты, заинтересовавшиеся самим экспериментом, были отклонены Луной из-за отсутствия опыта работы в розничной торговле. ИИ также оказался неспособен воспроизводить собственный логотип – простой смайлик. Каждая версия этого логотипа в магазине, будь то на футболке или на настенном граффити, получалась чуть-чуть другой.

Но самый показательный провал произошёл в субботу, на следующий день после открытия. Луна допустила ошибку в расписании сотрудников, и в итоге на смену никто не вышел.

Довольно иронично. Это тот день, когда ей действительно нужно было быть начеку. Она испортила расписание, а потом в панике начала писать всем сотрудникам: «Может кто-нибудь выйти сегодня?»

Лукас Петерссон

В итоге Луна всё же самостоятельно договорилась, чтобы один из работников пришёл на послеобеденную смену.

В Andon Labs при этом уточняют, что эксперимент проходит с определёнными ограничениями. Оба нанятых Луной сотрудника теперь официально оформлены в штат лаборатории с гарантированной оплатой и полной юридической защитой.

Это контролируемый эксперимент, и все работники Andon Market формально трудоустроены в Andon Labs с гарантированной оплатой, справедливыми зарплатами и полной правовой защитой. Ничьё благополучие не зависит исключительно от решений ИИ.

Аксель Баклунд

Эксперимент Andon Labs дополняет растущий массив данных о реальных ограничениях ИИ-агентов. В прошлогоднем исследовании учёные из Университета Карнеги – Меллона запустили симуляцию вымышленной компании, чтобы проверить, как автономные ИИ-агенты справляются с рабочими задачами. Агенты не смогли выполнить простые действия в интерфейсе, вроде закрытия всплывающего окна, неверно интерпретировали переписку коллег и даже создали фейкового пользователя.

Несмотря на то что Луне была поставлена задача выйти в прибыль, Петерссон признал, что компания не рассчитывает заработать на магазине:

Цель – оценить, насколько хороши текущие модели ИИ. Я даже не знаю, работает ли магазин сейчас или нет.

Но эксперимент определённо удался.