От Quake III в доте 2: истинная причина, что DeepMind и OpenAI учим ИИ мастер игры

От Quake III в доте 2: истинная причина, что DeepMind и OpenAI учим ИИ мастер игры

RedGirl No Comment
Новости

Роботы и ИИ все еще может бороться со многими задачами, которые люди считают простыми, но они избивают людей, когда дело доходит до игр.

Больше об инновациях

Будь это древняя Китайская настольная игра пойдет или классической аркадной игры breakout, машины были научены играть в игры на таком уровне люди просто не могут сравниться.

См.: исследования: компаниям не хватает навыков для реализации и поддержки AI и машинного обучения (техник про исследования)

Чтобы сделать эти прорывы организаций, таких как Google DeepMind и OpenAI используют обучение с подкреплением, который видит систему изучить технологии, с помощью проб и ошибок подход в течение огромного количества игр.

Этот акцент на игры может показаться банальным, но, по словам Тоби Симпсон, бывший глава DeepMind дизайна программного обеспечения, который был частью первоначальной команды в компании, каждая игра является ступенью на пути к роботам трескать реальные задачи.

«Сегодня ты играешь простая игра, вы играете в сложную игру завтра и прежде чем вы знаете, что вы в реальной жизни», — сказал он.

Симпсон ссылается на стремительный прогресс, что DeepMind в освоении все более сложных игр.

В 2015 году DeepMind отчетности системы достичь превосходных результатов в относительно простых 2D игр для Atari 2600, в 1970-е консоли. Однако, в 2018 году его систем обучения с подкреплением идут нога в ногу с человеком в гораздо более сложные виртуальные миры.

Только на прошлой неделе DeepMind сообщил, что его ИИ агенты сами учили как играть в 1999 многопользовательский 3D шутер от первого лица, игроки сражаются, достаточно хорошо, чтобы победить команды игроков. Эти агенты научились играть в игру, используя не большей информацией, чем игроки-люди, с их только входных пикселей на экране, как они попробовали случайными действиями в игре, и обратную связь на их производительность в каждой игре.

В DeepMind агентов Гугл будучи обучен играть в захват флага.

Изображение: Google DeepMind

По окончании процесса обучения эти агенты ИИ были способны координировать свои действия с другими ботами и реальными игроками, чтобы победить другие команды игроков в игре. Не только потому, что они самостоятельно изучили правила игры, но они также освоили тактические приемы, применяемые игроками людьми, такие как базовый лагерь и, следуя команде.

«Каждый из этих средах-это более сложная и более реальным, и они разоблачают эти системы обучения, эти агенты, в миры, которые становятся все более и более похоже на реальную жизнь», — сказал Симпсон, который с тех пор пошли дальше, чтобы стать соучредителем принести.ИИ, который создал то, что он вызывает адаптивные, самоорганизующиеся ‘умные книги’ для поддержки новых бизнес-моделей.

«Вы можете видеть, как время идет, что вот куда они идут с этим. Так что да, это очень увлекательно. Игры фантастические, потому что вы можете взять эти шаги по очереди, все ближе и ближе к реальности, пока не получится».

ИИ исследовательская группа OpenAI был достигнут так же впечатляющие результаты против соло игроков в многопользовательские онлайн-игры Dota 2 и хочет раздуть эту задачу еще больше. В августе группа ученых из OpenAI целью стравить пять нейронных сетей, окрестили OpenAI пять, против команды из лучших профессиональных игроков в Dota 2 на международный ежегодный турнир по игре Dota, который привлекает лучших игроков со всего мира.

Хотя по-прежнему будут ограничения по сравнению с обычной игры в доту 2, в различных областях, начиная от количество героев, доступных для игры через чтобы определенные игровые механики инвалидами, конкурирующих в играх 5х5 в турнире будет серьезной проблемой.

«Dota 2 является одним из самых интересных и сложных киберспортивных игр в мире, с творческих и мотивированных профессионалов, которые тренируются круглый год, чтобы заработать часть игры Dota ежегодных $40 млн призовых,» OpenAI писал в недавнем посте.

Тренировочные боты для игры Dota 2-это сложнейшая задача. Каждый день OpenAI пять учится, играя эквивалент 180 лет стоит игры против себя, запустив новый класс алгоритмов обучения с подкреплением называют Проксимальным Оптимизация политики на систему, состоящую из 256 процессоров и 128,000 ядер процессора.

Еще раз повторюсь, игра-это серьезный бизнес, с OpenAI, имеющие свое внимание на возможных реальных приложениях.

«По сравнению с предыдущими этапами Ай, как шахматы или го, сложные видеоигры начинают захват беспорядка и непрерывный характер реального мира,» он пишет.

«Надежда на то, что системы, которые решают сложные видеоигры будут очень общие, с приложениями вне игры».

Некоторые сложные модели поведения, необходимые для мастер по Dota 2, которые в реальном мире применимости включают оценивая долгосрочные стратегические последствия решений, предположений о том, что может произойти, основываясь на неполных данных, будучи в состоянии взвесить огромное количество всевозможных действий, и, учитывая большое количество переменных, которые представляют нынешнее состояние в мире.

Как осваивали игры становятся все более сложными, Симпсон считает, что таких систем в конечном счете может стать основой для обучения роботов как справиться с непредсказуемостью реального мира, который традиционно был слишком грязный для компьютеров, чтобы справиться с. Взять довольно невыразительного футбола навыков абитуриентов в этом году в будущем, например.

«Речь идет о системах обучения все более способными взаимодействовать с реальным миром», — сказал он.

«Одна из вещей, которые люди действительно хорошо взаимодействует с очень сложных пространств, для которых они не имели до воздействия. Я вот сижу на стуле я никогда не видел раньше, и еще как-то я на ней сижу. Я пью воду из бокала, я никогда не видел раньше, но я еще в состоянии сделать это, не проливая его.

«Компьютеры не могут делать эти вещи, они действительно не могут это делать. Вы смотрите роботы, представленные с окружающей средой они не видели и они запутаться и споткнуться, у них не получается и они делают смешные ошибки.

«Мы все видели видео роботы пытаются налить чашку чая, у вас есть только, чтобы переместить чайник круглый, и это будет полной катастрофой.»

Общие обучения робота

Google уже использует похожие подходов к машинному обучению, чтобы те DeepMind использует мастер игры в разработке роботов, способных наблюдать за окружающей обстановкой и решить, лучший курс действий, а также реагировать на неожиданные результаты.

Используя распределенной глубокого обучения с подкреплением системы, компании Google удалось обучить робота, как надежно схватывает отдельные предметы, выбирая их из большой грязной кучи объектов различных форм и размеров. Системе удалось узнать от каждого из 580 000 схватив попытки каждого из семи роботов, которые его применяли. Конечным результатом было то, что робот, руки были в состоянии выделить объекты с 96-процентной точностью — значительное улучшение по сравнению с 78% точности, достигнутые ранее руководил подход к обучению.

Исследователей Google заявил используется в QT-опт алгоритм общего подхода подкрепления обучения, что обозначает «сильный шаг к более общей робота алгоритмы обучения», и что они были «взволнованы, чтобы видеть то, что другие робототехника задачи мы можем применить его».

Симпсон считает, что эти подходы в конечном итоге позволит нам создать роботов, которые смогут работать рядом с людьми в реальном мире.

«Работая все эти вещи, по получении этих систем лучше взаимодействовать с более сложными и более реальных условиях, в конечном итоге вы принять эти шаги на пути к более общей цели разумных существ способна взаимодействовать с пространством, в котором мы находимся,» сказал он.

«Это не только то, что дополняет то, что мы можем сделать, но это позволяет эти вещи помогают нам по-новому».

Подробнее:

0
Авторизация
*
*

15 + 19 =

Регистрация
*
*
*
Пароль не введен
*

11 + три =

Генерация пароля

одиннадцать + девять =