Возможно ли запрограммировать "любопытство" для AI ?

Сегодня существуют машины, которые запрограммированы на любопытство, которые, исследуют свое окружение по собственной инициативе и учиться ради обучения. В конечном итоге роботы смогут даже формировать свои собственные гипотезы и укреплять научное достояние человечества.

Любопытство имеет основополагающее значение для интеллекта - люди, которые подходят к жизни с сомнением, стремятся понять себя, других и все вокруг себя, являются основными источниками проникновения в мир непознанного, в мир инноваций . Ученые давно пытались создать алгоритм "любопытства" для AI, но воссоздание человеческой любознательности в значительной степени оказалось трудно достижимым - большинство методов до сих пор не смогли заполнить пробелы в знаниях искусственного интеллекта, и AI в значительной степени доказал свою неспособность сформулировать предсказательные гипотезы.

По сути, в то время как большинство людей способны отличить плохие идеи от хороших на основании своих интуитивных прогнозов, они могут чувствовать, что стоит исследовать, а что нет, машины пока терпят неудачу в этом отношении, теряя много времени на поиски очевидных тупиков.

Тем не менее, компьютерщики из Google DeepMind и Техасского университета намерены решить проблему раз и навсегда.

Они разработали новый алгоритм Targeted Exploration with Variance-And-Novelty-Intrinsic-Rewards (TEXPLORE-VENIR) - «Целевое исследование с вариантами и внутренней наградой за новизну», который опирается на метод, называемый «обучение усилению», чтобы решить эту проблему.

В обучении усилению программа AI вознаграждается, если путь, который она выбирает, приближает ее к решению определенной проблемы - например, ответ на сложную математическую задачу. Если он успешно достигнет решения и получит вознаграждение, он скорее повторит это опять в будущем.

Такой подход ранее использовался исследовательской группой OpenAI для улучшения способности машины общаться с людьми.

Исследователи организации провели эксперимент, который бросил вызов программным ботам для выполнения ряда задач, таких как переход в конкретное место, в простом двумерном виртуальном мире, представив решение этой задачи скорее, как совместное действие, чем конкурентное, стимулирующее сотрудничество между устройствами в процессе решения.

Тем не менее, TEXPLORE-VENIR устанавливает внутреннюю цель для программы, и программа вознаграждает себя за понимание чего-то нового - даже если знание не приближает ее к конечной цели. Серьезные открытия и понимание столь же ценны, как и решение конкретных задач. Он также вознаграждает себя за общее снижение неопределенности - знакомство с новыми вещами.

Разработчики проверили свой метод в двух сценариях. Первым был виртуальный лабиринт, состоящий из четырех комнат, соединенных запертыми дверями, к которым бот должен был найти ключ, забрать его и разблокировать дверь. Каждый раз, когда он проходил через дверь, он зарабатывал 10 очков, и у него было 3000 шагов для достижения высокого балла.

Если исследователи пускали бота, руководствуясь только TEXPLORE-VENIR, он зарабатывал 55 "дверных очков", если бот использовал другие алгоритмы "любопытства" для своего исследования, его оценка на этапе тестирования колебалась от нуля до 35. В другом сценарии, когда бот должен был одновременно исследовать и проходить через двери, TEXPLORE-VENIR заработал около 70 очков, R -Макс заработал около 35, а остальные заработали менее пяти.

Во втором тестировании алгоритм был имплантирован в игрушку - Nao. В трех отдельных задачах машина зарабатывала очки за: -попадание по тарелке, за поиск розовой ленты, и за точное нажатие кнопки на ноге игрушки. В среднем за 13 испытаний Nao быстрей находил розовую ленту, исследуя пространство руками с помощью TEXPLORE-VENIR, чем когда исследовать его случайным образом.

Он нажимал кнопку семь из 13 проб, используя TEXPLORE-VENIR, но не разу не смог сделать это случайным образом, и попал в тарелку в одном из пяти испытаний с использованием TEXPLORE-VENIR, но не разу не смог сделать это без использования алгоритма. Благодаря экспериментам с собственным телом и окружающей средой, TEXPLORE-VENIR был хорошо подготовлен к поставленным задачам - исследователи сравнивают его с ребенком, который сначала изучает, как работают его конечности, прежде чем начинает ползать.

Тем не менее, любопытство может оказать пагубное влияние на производительность робота - если вознаграждение за достижение проницательности будет больше, чем выполнение его основных задач, последнее может быть проигнорировано если целью является именно обучение "любопытству".

Бот R-Max заработал меньше очков, когда вознаграждение за исследование было сопряжено с одновременным разблокированием дверей именно потому, что он отвлекался на свое собственное любопытство, другими словами, синдром дефицит внимания AI.

С другой стороны, внешние награды также могут помешать учебе, подобно тому, как студент, поставивший цель получать одни пятерки, вместо того, чтобы получать знания будет сконцентрирован только на оценках. На сегодняшний день задача состоит в том, чтобы обучать роботов правильному балансу внутренних и внешних вознаграждений.

Подробней1, 2, фото1, фото2