Уважаемые пользователи Голос!
Сайт доступен в режиме «чтение» до сентября 2020 года. Операции с токенами Golos, Cyber можно проводить, используя альтернативные клиенты или через эксплорер Cyberway. Подробности здесь: https://golos.io/@goloscore/operacii-s-tokenami-golos-cyber-1594822432061
С уважением, команда “Голос”
GOLOS
RU
EN
UA
konstantin
6 лет назад

Как AI меняет стратегию игры в шахматы

Привет. Это звучит как классический случай непреодолимой силы, действующей против неподвижного объекта. Два компьютера с мировым уровнем, каждый из которых запрограммирован совершенно по-разному, играют друг с другом в шахматы. Кажется, гарантирована титаническая борьба. 

Шахматная стратегия значительно изменилась со времен первого официального чемпиона Вильгельма Стейница в 1886 году до своего последнего норвежского гроссмейстера Магнуса Карлсена. Но всегда действовал один закон: решающее значение имеет количество и ценность фигур на поле (т.н. "материал"). Мышление войны за истощение было почерпнуто компьютерами, с их способностью пробиваться через миллионы вариантов, чтобы найти брешь в обороне противника, у людей, как лучших шахматистов, почти два десятилетия назад.

Но в конце прошлого года шахматная программа с весьма нетрадиционным алгоритмом игры совершила прорыв.

Прорыв был сделан на 21 ходу в одной из 100 игр между двумя супер-машинами: Stockfish 8 - один из ведущих компьютерных шахматных движков в мире; и AlphaZero - программа, разработанная DeepMind от Google. Stockfish, играя черным, имел сильную оборонительную позицию и получил явное преимущество в плане «материала». Именно в этот момент белые совершили то, что выглядело как дикая глупость. Они послали ферзя глубоко во вражеский тыл, прямо в лапы черной пешки.

Жертвовать самую ценную фигуру без очевидного выигрыша выглядит как классическая ошибка. «По большому счету, игры решаются путем подсчета материала», - говорит специалист по компьютерам и шахматам Джонатан Шеффер. 

Но что-то неожиданное произошло после того, как белый ферзь безрассудно бросился в бой. Он выпал из игры, и доска начала открываться. Шаг белых привел к возможности серьезной активности на доске, а черные были связаны по рукам и ногам.

Ни один топ-шахматист не будет подвергаться такому большому риску. Но у этого компьютера, похоже, есть такой контроль над доской, это почти так, как если бы у него была интуиция, что должно произойти что-то хорошее. Вердикт шахматных специалистов об его общей игровой способности: «Невероятно. Это просто не помещается в голове».

Стюарт Рассел, эксперт в области AI в Калифорнийском университете в Беркли, называет производительность нового компьютера «очень впечатляющей». И это, безусловно, изменит компьютерный мир шахмат.

Но результат этой битвы за кремниевые мозги выходит далеко за рамки ее влияния на шахматы и ее понимание того, как AI может быть более практичным для решения повседневных проблем - он может даже знаменовать момент, когда родился действительно гибкий интеллектуальный компьютер.

В наши дни кажется, что мы уже находимся на пороге другого прорыва. Каждый из них неумолимо уменьшает пропасть между человеком и машиной. Но, несмотря на эту шумиху, большинство из этих машин все-таки имеют ограниченную ценность. Компьютеры - даже умные - пока умеют делать только то, для чего они запрограммированы. Если бы им пришлось применить свой умный трюк к другой проблеме, они бы потерпели неудачу. Однако, изредка машина делает и неожиданные ходы.

Даже начинающий шахматист понимает явную глупость жертвы ферзя за пешку, когда это не дает очевидного шанса либо захватить фигуру хотя бы равной ценности, либо нанести сокрушительную атаку. Что еще более удивительно, так это то, что компьютер, играющий белыми, был новичком в игре. AlphaZero является последним в серии игровых систем, построенных компанией DeepMind; его предшественник, AlphaGo, победил мирового лидера в игру Go два года назад.

AlphaZero обучился игре в шахматы с нуля всего за четыре часа, играя в игры против себя, изучая и отвергая дебюты и эндшпили, которые люди развивали на протяжении веков. Исходя из основных правил шахмат, система могла свободно составлять свою собственную стратегию, неограниченную тем, что было придумано раньше. В программном обеспечении используется метод подкрепления, чтобы понять, какие шаги, скорее всего, будут успешными. Он делает ход, а затем разыгрывает все возможные комбинации последующих шагов.

Это похоже на собаку Павлова, если шаг приводи к нужному результату, он получает награду. Он очень похож на компьютер в фильме «WarGames» 1983 года, который учил себя бесперспективности ядерной войны, сыграв сам с собой в "крестики-нолики" и обнаружив, что победить невозможно. Но, конечно, в отличие от этой простой игры, в шахматах существует много миллиардов возможных комбинаций.

Поразительно, AlphaZero не был создан как чистый шахматный компьютер. Используя глубокую нейронную сеть - подход, основанный на теории о том, как человеческий мозг фильтрует информацию, чтобы найти закономерности - он также научил себя играть в течение нескольких часов, а японской настольной игре «Сёге» - за два часа, победив лучшее на это время программное обеспечение. Имеет ли он недостаток знаний о человеческой истории шахмат - то, что используется для тонкой настройки других шахматных программ, чтобы увидеть игру свежим взглядом?

«В каждой другой шахматной программе много человеческих моментов - говорит исследователь. Машина DeepMind не была ограничена таким же образом. Как еще объяснить его превосходство? «Я абсолютно уверен, что это потому, что он не учился у людей».

Значит ли это, что возникло нечто похожее на чужой разум, и простым смертным нужно переосмыслить все, что они думали о шахматах? Не совсем. Раньше чемпионы мира играли так. Но оборонительная стратегия в последние годы заняло доминирующее положение, особенно с тех пор, как компьютерные шахматы заняли свое место в игре.

В шахматных кругах AlphaZero сравнивается с Полом Морфи, американским шахматным вундеркиндом 19-го века, когда в моде был более элегантный стиль игры. Также его сравнивает с Тиграном Петросяном, советским чемпионом 1960-х годов, который играл в атаку на всех фронтах: «Он был как питон, он медленно сжимая кольцо вокруг тебя».

Таким образом, мы видим первый пример нового класса компьютеров, это первый шаг в создании реального AI.

Каспаров знает кое-что об AI. В конце концов, он был первым чемпионом мира по шахматам, который проиграл компьютеру. Каспаров, став самым молодым чемпионом мира по шахматам в 1985 году, в возрасте 22 лет, продолжал доминировать в игре в течение двух десятилетий. Он был известен очень динамичным стилем игры, особенно его агрессивными дебютами, предназначенными для того, чтобы сбить конкурентов с самого начала. Но в одном из определяющих соревнований в истории человека против машины он был повержен компанией Deep Blue два десятилетия назад.

Может быть, это бестактно, чтобы поднимать опять эту тему. И действительно, когда кто-то упоминает Deep Blue, Каспаров занимает оборонительную позицию. Он сразу говорит о том, что победил машину в своей первой встрече, а также взял верх в первой игре во второй раз, когда они встретились, в следующем году. Но в итоге он проиграл 2-1, с тремя ничьими. Это оказалось важной игрой для человечества в этой сфере, которая долгое время считалась маркером нашего стратегического гения. С тех пор компьютерные шахматные программы продолжали увеличивать отрыв.

Кроме того, известно, например, что человек, который играет белым и кто ходит первым, имеет преимущество. Но Каспаров говорит, что победа AlphaZero над Stockfish показала, что масштабы этого стартового преимущества на самом деле намного больше, чем кто-либо предполагал. Он выиграл 50 процентов игр, когда играл белыми, по сравнению с 6 процентами, когда играл черными. (Остальные игры были в ничью)

Каспаров осторожно предсказывает, что AlphaZero предлагает новую стратегию шахмат, которые могут побудить некоторых игроков попробовать «более динамичную игру». Каспаров изучил AI и написал книгу об этом. AlphaZero, по его словам, является «прототипом гибкой машины», о которой мечтали на заре компьютерного века два из провидцев этой сферы Алан Тьюринг и Клод Шеннон.

Все компьютеры до этого работали грубой силой, используя интеллектуальный эквивалент катка для взлома обороны соперника. Люди не действуют таким образом: «Люди гибки, потому что мы знаем, что иногда нам нужно отходить от правил» . В AlphaZero он увидел, как первый компьютер в истории осознал этот трюк.

На этом этапе мы должны сделать шаг назад. Нет, мы не находимся в точке, где компьютеры собираются достичь уровня общего интеллекта, чтобы соответствовать, а затем обогнать человечество. Предсказания о неизбежном росте машин всегда оказывались чрезмерно оптимистичными. Герберт Саймон, один из пионеров AI, в 1965 году прогнозировал, что компьютеры смогут выполнять любую работу, на которую способен человек в течение 20 лет. Когда сегодняшние эксперты в этой области были спрошены, когда наступит этот момент, только половина выбрала время в течение следующих 30 лет.

Но иногда отдельные шаги на пути к этому еще далекому будущему наступают раньше, чем ожидалось. 

Для расчета их результатов на всех компьютерах используется крупномасштабный логические вычисления. То, что им не хватает - интуиции, которая, по-видимому, помогает человеческому интеллекту, они компенсируют вычислительной мощностью. Но когда представлен выбор, который может привести к миллиардам потенциальных результатов - например, взглянуть на возможные шаги на шахматной доске - как они решают, какие из ходов, скорее всего, приведут к правильному результату и должны быть проверены в первую очередь? И, возможно, что еще более важно, как они узнают, когда они нашли достаточно хороший ответ, и пришло время прекратить вычислять бесконечные альтернативные результаты?

Стюарт Рассел, который изучал проблемы, подобные тем, которые были решены AlphaZero, говорит, что все шахматные программы с 1940-х годов использовали одну и ту же базовую технику и что программное обеспечение DeepMind. По мере того, как они пытаются предвидеть исход конкретного хода, пути, по которым игра может затем последовать, открываются перед ними, как ветви дерева. Человеческий мозг не работает таким образом. Человеческ, оценивая ту же ситуацию на доске, работает обратно от желаемого результата. Рассел говорит, что процесс мышления работает примерно так: «Держу пари, я могу взять ферзя, позвольте мне подумать о том, как это сделать».

AlphaZero может быть ограничен, как и все шахматные компьютеры, и смотреть на проблему по-другому. Но он разработал свою собственную форму интуиции, чтобы улучшить процесс. Для победы над Stockfish, он научился сокращать количество перспективных шагов для проверки. Вместо того, чтобы смотреть на все дерево вариантов, он стал понимать, на какой ветке ему нужно сосредоточиться. Рассматривать только то, что кажется наиболее перспективным вариантом, - возможно, более человеческий подход к поиску решения, чем то, как машины обычно обрабатывают задачи.

Это подтверждается меньшим количеством вычислений AlphaZero, проведенным по сравнению со Stockfish. Каждый раз, когда он изучал ход, он искал 80 000 позиций в секунду, гораздо меньше, чем искала программа-соперник. Однако, когда они переходят в реальный мир, пропасть между AI и человеческим мозгом снова вырастает. Шахматы, говорит Рассел, имеют «известные правила и короткие горизонты», и они «полностью наблюдаемы, дискретны, детерминированы, статичны». Реальный мир, напротив, «не имеет ровно ни одной из этих характеристик».

Существует, например, вопрос о том, как программное обеспечение понимает, что оно придумало лучший ответ, без предварительного изучения всех возможных результатов, независимо от того, насколько они неактуальны.

Еще одна головоломка в реальном мире заключается в том, как использовать этот метод для обучения машин пониманию последствий своих решений. Во многих случаях у нас просто нет таких данных для обучения в форме, доступной для компьютеров.

«Вы ограничены в объеме обучения, которое вы можете обеспечить в физическом мире. Например, чтобы научить автономный автомобиль ездить по всей стране, было бы полезно иметь миллионы примеров подобных поездок, которые были сделаны ранее, но таких наборов данных просто не существует."

И чем сложнее ситуация, тем менее ясна связь между действием и его результатом. Обучение подкреплением работает только тогда, когда вы получаете мгновенную награду за то, что поступаете правильно.

Если вы зададите машине сложную задачу реального мира, она, возможно, даже не поймет, с чего начать. В поисках первого полезного действия он мог «попробовать всевозможные вещи: очистить яйцо, укладывать деревянные блоки, жевать провода, ткнуть пальцами в электрические розетки и т.п.». Но ничто из этого не создало бы достаточно сильную петлю обратной связи, чтобы убедить компьютер, что он был на правильном пути, и привести его к следующему необходимому действию.

Этот вид программного обеспечения никогда не узнает сам по себе, как завершить сложную задачу в реальном мире, «даже если бы мы ждали жизни миллиардов вселенных и использовали вычислительную машину размером с галактику».

Однако, есть много человеческих проблем, которые могут быть гораздо больше похожими на настольные игры, чем нам кажется. В таких ситуациях может возникнуть вероятность того, что более гибкая машина, будет способная перенести свою вычислительную мощность на решение наиболее перспективных проблем.

Самый большой вопрос, будет ли он адаптироваться? Будет ли он учиться? 

В любом случае, несомненно, это еще один шаг на длинный путь к истинному искусственному интеллекту. В нем будут использоваться совершенно новые и бескомпромиссные вычислительные методы, позволяющие машинам свободно работать в условиях открытого реального мира.

Подробней, фото1, 2, 3, 4, 5, 6

2
385.573 GOLOS
Комментарии (2)
Сортировать по:
Сначала старые