AlphaZero и AlphaStar

AlphaZero и AlphaStar — это два ИИ, разработанные Google DeepMind для игры на профессиональном уровне. Создание ИИ для победы над людьми в играх всегда было способом оценки ИИ-систем.

AlphaZero, как сообщает moyizametki.ru, вышел в конце 2017 года и был ИИ для игры в шахматы, сёги и го, и он мог побеждать предыдущих лучших ИИ для каждой игры.

Го было трудной для взлома игрой, и первый ИИ, победивший человека, AlphaGo, вышел в октябре 2015 года. Тогда как DeepBlue, первый ИИ, победивший человека в шахматах, вышел в 1996 году. Это почти 20-летняя разница, и дает хорошее представление о сложности игры Go over chess. AlphaGo также был создан DeepMind и является предшественником AlphaZero.

AlphaZero был уникальным из-за того, как он научился играть в игры. AlphaZero использовал глубокие нейронные сети. Он не использовал «настоящие» игры, в которые играли люди, для обучения или какую-либо стратегию того, как пройти игру. Вместо этого он использовал только игры против себя, чтобы тренироваться.

Процесс игры AlphaZero против самого себя называется обучением с подкреплением. Именно там неподготовленная система с нейронными сетями играла в игры против себя миллионы раз и запрограммирована на получение «наград» и «наказаний» за победы и поражения. Игры начинаются совершенно случайно, но когда система учится на своих победах и проигрышах, она начинает вносить коррективы в свой игровой процесс, пытаясь выиграть.

AlphaStar вышел в январе 2019 года и является первым ИИ, победившим профессионального игрока в StarCraft II. StarCraft считается одной из самых сложных игр в реальном времени (RTS), а также одной из самых продолжительных игр RTS.

AlphaStar обучался так же, как AlphaZero, используя нейронные сети и обучение с подкреплением, но он также использовал контролируемое обучение. Он использовал игровые данные из реальных турнирных игр людей для начальной фазы обучения под наблюдением.

AlphaStar смог преодолеть множество проблем, которые мучили ИИ на протяжении многих лет:

Теория игр: нет единой лучшей стратегии для StarCraft. Поэтому ИИ должен постоянно пробовать новые стратегии, чтобы найти то, что работает, помогая тем самым расширять свои стратегические знания.

Несовершенная информация: в отличие от AlphaZero, который имел дело с играми с отличной информацией, когда оба игрока могут видеть всю игровую доску в любое время, StarCraft обладает несовершенной информацией, когда противоборствующим игрокам нужно активно разведывать, чтобы узнать, что делает другой игрок.

Долгосрочное планирование: игра в StarCraft займет примерно час или около того. И некоторые из действий, которые предпринимаются в начале игры, не дают результатов.

В реальном времени: в отличие от AlphaZero, в StarCraft нужно играть в реальном времени.

Это дает ИИ возможность иметь гораздо больше возможностей в реальной окружающей среде. AlphaZero и AlphaStar могут оказать большое влияние на эффективность ИИ. Тестирование этих теорий, чтобы увидеть, работают ли они в игровом процессе, является отличным подтверждением концепции, которую, могут взять другие и создать ИИ, чтобы помочь решить проблемы реального мира.