Самообучающийся интеллект AlphaZero научился играть в Quake III Arena

3 Июня 2019

МОСКВА, 3 июня. Компания DeepMind сказала о том, что нарисованный ей самообучающийся искусственный интеллект AlphaZero научился играть в сетевой шутер Quake III Arena не сквернее, чем это делают самые успешные геймеры. Результаты их экспериментов были опубликованы в журнале Science.

Мы показали, что машина может самостоятельно начать очень вкусного играть в полноценные трехмерные игры, используя для обучения лишь те пиксели, которые выводятся на экран монитора. Наша работа открывает дорогу для важного человеческого уровня производительности в тех задачах, которые раньше сообразовывались недоступными для ИИ, — заявил Дэвид Сильвер (David Silver), главный создатель стартапа DeepMind. Сияние чистого рассудка

Система ИИ AlphaGo была разработана Дэвидом Сильвером и его коллегами в краю 2014 года. Сначала ее работа была протестирована на шахматный короле Европы Фане Хое (Fan Hui), который продул все пять матчей машине. Вскоре после этого она обставила Ли Седола, чемпиона спокойствия по го из Южной Кореи, уступив ему лишь один матч. 9 января, 13:10Математики усомнились во всемогуществе искусственного интеллекта

Сильвер и его коллеги смогли достичь этих успехов, организовал свой ИИ на базе не одной, а сразу двух нейронных сетей – особых методов, имитирующих работу цепочек нейронов в мозге человека. Одна из них отвечает за оценку текущей позиции на доске, а вторая использует результаты психоанализа, подготовленные первой сетью, для того, чтобы выбирать следующий шаг.

Позже ученые перестроили его практику таким образом, что их искусственный разум научился самостоятельно обучаться играть в го, без помощи и участия человека, зная лишь общие правила игры и небольшой набор примитивных стратегий.

Первая версия этой системы, AlphaGo Zero, очень быстро достигла и превзошла своего прародителя, а ее потомок, AlphaZero, научился играть и в другие настольные игры, в том числе обычные и самурайские шахматы. Она успешно одолела эти игры и достигла гроссмейстерского уровня еще быстрее, чем ее предшественники.

Добившись подобного успеха, Сильвер и его коллеги не стали скрывать амбиции и сразу же заявили, что следующей жертвой их системы станет одна из популярных онлайн-игр, подобных Dota 2, Starcraft 2 или другие двумерные MOBA-игры или стратегии. Идеальный бот

Вместо этого ученые накрутили себе задачу и попытались заставить AlphaZero научиться играть в полноценную трехмерную игру, широкой известную Quake III Arena. Эта игра, выпущенная компанией id Software в декабре 1999 года, давно стала образцом для подражания и своеобразным эталоном среди сетевых шутеров, наследие коей можно найти в любой самый актуальном проекте такого рода.

В рамках этого эксперимента AlphaZero училась играть не в обычный дезматч, игру на выживание, а в кооперативный режим CTF. В его рамках игроки объединяются в две команды, каждая из которых пытается проникнуть на авиабазу противника, выкрасть его знамя и доставить его на свою территорию, обороняя ее от аналогичных атак.

Решение подобных задач, как отмечает Сильвер, предпочтительного сложно дается системам машинного курс обучения, особенно если они окажутся в тех же условиях, что и игроки-люди, и у них нет читов – возможности напрямую общаться с другими ботами, иметь встроенную карту местности или способность видеть через стену.

Как показали первые же эксперименты, даже AlphaZero не могла в принципе научиться действовать превосходнее, чем игроки-новички в подобных условиях. Это заставило ученых внести некоторые изменения в ее работу, позволившие ей в очередной раз достигнуть гроссмейстерских показателей.

Для этого специалисты DeepMind встроили в AlphaZero своеобразную систему целеполагания – каждое действие в игре, приближающее команду к виктории или улучшающее ее диспозиции, оценивалось в определенное число очечный, которые начислялись каждому боту. Эти оценки не бывальщины заданы свыше, а тоже вырабатывались самой системой, используя нейросеть с системой обратных интрижек и внешней памятью. 2 июня 2018, 08:00Унутре нейронка: Яндекс превратил искусственный рассудок в реставратора

Весь искусственный интеллект, в свою очередь, был предопределённый на то, чтобы распечатывать максимальное число этих баллов. Подобный подход, который ученые назвали популярным геймерским акронимом FTW, сделал систему самообучения более гибкой, научил машину более стратегически воспринимать игровое поле и синхронизировать свои действия с другими игроками, не общаясь с ними. Игра на победу

Эти изменения назвали к потрясающим результатам – всего за десять тысяч игр AlphaZero достигла уровня компьютерных ботов, чье поведение было запрограммировано виновниками игры, и примерно через 45 тысяч попыток она достигла уровня игроков-новичков. Через 200 тысяч игр она начала побеждать геймеров-профессионалов и стала неотличимой в стиле игры и поведении от людей.

Что интересно, одним из следствием появления системы FTW находилось то, что машина начала планировать свои действия вперед и самостоятельно выработала несколько стратегий и тактик, которыми часто пользуются реальные игроки.

К примеру, AlphaZero достаточно быстро научился так называемому флаг-кемпингу – когда бот достигал комнаты с чужим флагом, где его сейчас не было, он не убегал, а ждал, пока он возвратится на место, если его команда его растеряла. Аналогичным образом, опытный ИИ больше уделял внимания защите базы, чем другим действиям.

Окончательную проверку AlphaZero прошла в рамках небольшого чемпионата по Quake III, в котором участвовали различные версии этой системы ИИ, другие боты, а также несколько десятков реальных опытных инвесторов. Игры проходили как на уже знакомых картах, так и на новых площадках, случайно сгенерированных для этого матча.

Несмотря на то, что ученые искусственно замедлили скорость реакции AlphaZero и уменьшили точность прицеливания, игроки всех уровней не могли победить машину, если их команда состояла только из случайно подобранных людей или комбинации покупателей и простых ботов. Они достигали победы только в том случае, если в команде был хотя бы один искусственный интеллект, и даже в этом случае вероятность их виктории составляла всего 5%. 6 декабря 2018, 22:00Ученые нарисовали самообучающийся ИИ, способный играть во все игры

Если игроки могли разговаривать друг с другом и контролировать свои действия, они начинали побеждать чаще, но творили это только после очень длительных тренировок и при очень определенном уровне игры. В лучшем случае они выигрывали всего один из четырех матчей.

Эти же принципы и подходы, как обозначает Сильвер, можно применять и для работы с другими компьюторными играми, а также для решения различных сложных задач и в реальном мире, часто не имеющих четкой формулировки или очень сложных по своей сути.

Редактор рубрики

Олег Кудрин

Место события на карте мира:

Самообучающийся интеллект AlphaZero научился играть в Quake III Arena

комментарии (0)

Другие интересные новости

Объявлены зарубежные гости Московской недели интерьера и дизайна