Искусственный интеллект после самообучения выиграл в Го у лучшего игрока.

Программа компании DeepMind, занимающейся искусственным интеллектом, достигла нового уровня в стратегической игре «Го» без вмешательства в процесс обучения со стороны человека.

Способность программы самостоятельно развиваться без участия человека является решающим шагом на пути к созданию общего ИИ, способного решать сложные задачи. Вполне возможно, что уже в ближайшей перспективе мы сможем наблюдать применение программ искусственного интеллекта в научных исследованиях и разработках различных направлений.

Предыдущие игровые компьютеры, разработанные Google DeepMind, стартовали с обучения, сыграв в «Го» более 100 000 партий с экспертами. В отличие от них, последняя версия, названная AlphaGo Zero, начала игру практически с нуля и с помощью случайного перебора вариантов училась играть сама с собой. В течение 40 дней самообучения и противостояния самой себе AlphaGo Zero сыграла 30 миллионов партий. В конечном итоге ИИ Zero смог победить лучшего в мире обученного игрока AlphaGo Master, разработанного тем же DeepMind. И что интересно, что после 40 дней в программе были найдены комбинации, которые до этого не были известны экспертам.

Как и его предшественники, AlphaGo Zero использовал глубокую нейронную сеть для изучения возможных вариантов развития игры. Базовыми данными были только правила и конечная цель, остальное обучение ИИ происходило путём проб и ошибок, самостоятельного анализа информации о том, что улучшилось после каждой игры. Поначалу самообучение AlphaGo Zero напоминало игру новичков, допускающих стандартные ошибки, но уже через три дня компьютер освоил более сложную тактику, подобную той, которую используют игроки высокого уровня.

Предшественники AlphaGo Zero использовали две отдельные нейронные сети: одну для прогнозирования вероятных лучших ходов и вторую для оценки тех ходов, которые, вероятно, выиграют. Чтобы сделать последнее, они используют «roll out» - генерируя и проигрывая несколько вариантов, чтобы проверить возможные результаты.

AlphaGo Zero использует одну нейронную сеть, которая вместо того, чтобы исследовать возможные результаты с каждой позиции, прогнозирует победителя. «Это похоже на тот случай, когда вы просите сделать прогноз эксперта, а не полагаетесь на варианты игр 100 слабых игроков», - сказал Дэвид Сильвер из DeepMind, который руководил разработкой AlphaGo. «Слияние этих функций в единую нейронную сеть сделало алгоритм более сильным и гораздо более эффективным», - добавил он.

Для AlphaGo Zero потребовалась огромная вычислительная мощность из четырёх тензорных процессоров, которые, по оценкам Демиса Хассабиса (одного из основателей стартапа DeepMind Technologies), стоят 25 миллионов долларов США. По его словам предшественники AlphaGo Zero обошлись в десять раз дороже. При этом результаты нового ИИ были получены в более короткие сроки.

И, тем не менее, Дэвид Сильвер признал, что для более широкого применения своего подхода к реальным задачам этой версии потребуется возможность учиться из меньших объёмов данных и опыта, поскольку на данном этапе (подразумевается игра Го), результаты связаны с известными правилами и имеют хорошо очерченную цель.

***

Спасибо за голоса, репосты.

***

Источник изображения тут, информации тут