DeepMind пытается определить критерии обеспечения уверенности в безопасности ИИ

Уверенность в том, что искусственный интеллект делает то, что мы хотим, и ведет себя предсказуемым образом, будет иметь решающее значение, поскольку технология становится все более повсеместной. Это область, которой часто пренебрегают в гонке за разработкой продуктов, но DeepMind теперь изложил свою исследовательскую повестку для решения этой проблемы.

Безопасность ИИ, как известно, в последние годы приобретает все большее значение. Это, вероятно, по крайней мере частично связано с чрезмерными предупреждениями о грядущем апокалипсисе ИИ от благонамеренных, но недостаточно квалифицированных экспертов, таких как Илон Маск и Стивен Хокинг. Но это также признание того факта, что технология ИИ быстро проникает во все аспекты нашей жизни, принимая решения обо всем, от того, какие фильмы мы смотрим, до того, получаем ли мы ипотеку.

Вот почему DeepMind нанял множество исследователей, которые специализируются на прогнозировании непредвиденных последствий того, как развивается ИИ. И теперь команда изложила три ключевые области, которые, по их мнению, требуют исследований, если мы собираемся построить автономные машины, которые делают то, что мы хотим.

В новом блоге, предназначенном для предоставления обновлений о работе команды, они вводят идеи спецификации, надежности и уверенности, которые, по их словам, будут выступать в качестве краеугольных камней их будущих исследований. Спецификация включает в себя обеспечение того, чтобы системы ИИ делали то, что ждет от них оператор; надежность означает, что система может справиться с изменениями в своей среде и не пытается сбиться с курса; и гарантия включает в себя нашу способность понимать, что делают системы и как их контролировать.

Классический мысленный эксперимент, призванный проиллюстрировать, как мы можем потерять контроль над системой ИИ может помочь проиллюстрировать проблему спецификации. Философ Ник Бостром утверждал, что гипотетическая машина должна сделать как можно больше скрепок. Поскольку создатели не могут добавить то, что является очевидными дополнительными целями, такими как не причинение вреда людям, ИИ уничтожает человечество, поэтому мы не можем отключить его, прежде чем он превратит всю материю во Вселенной в скрепки.

Очевидно, что пример экстремален, но он показывает, как плохо определенная цель может привести к неожиданным и катастрофическим результатам. Однако правильно кодифицировать желания дизайнера нелегко; часто нет точных способов охватить как явные, так и неявные цели способами, понятными машине и не оставляющими места для двусмысленностей, то есть мы часто полагаемся на неполные приближения.

Исследователи отмечают недавние исследования OpenAI, в которых ИИ был обучен играть в лодочную гоночную игру под названием CoastRunners. Игра вознаграждает игроков за попадание по целям, выложенным по маршруту гонки. ИИ понял, что он может получить более высокий балл, неоднократно сбивая регенерирующие цели, а не двигаться по маршруту. В блоге есть ссылка на таблицу с подробным десятки таких примеров.

Еще одна ключевая проблема для дизайнеров ИИ - сделать их создание устойчивым к непредсказуемости реального мира. Несмотря на их сверхчеловеческие способности в некоторых задачах, большинство передовых систем ИИ удивительно хрупки. Они, как правило, обучаются на высокоуровневых наборах данных и поэтому могут потерпеть неудачу, когда сталкиваются с незнакомыми входными данными. Это может произойти случайно или по дизайну—исследователи придумали множество способов обмануть алгоритмы распознавания изображений в неправильной классификации вещей, в том числе думать, что 3D-печатная черепаха была на самом деле пистолетом.

Построение систем, которые могут иметь дело со всеми возможными столкновениями, может быть нецелесообразным, поэтому большая часть повышения надежности ИИ может заключаться в том, чтобы они избегали рисков и обеспечивали восстановление после допущенных ошибок или имели отказоустойчивость, чтобы ошибки не приводили к катастрофическому сбою.

И, наконец, нам нужно иметь способы, позволяющие убедиться, что мы можем сказать, работает ли ИИ так, как мы этого ожидаем. Ключевой частью обеспечения является возможность эффективного мониторинга систем и интерпретации того, что они делают—если мы основываем медицинское обслуживание или вынесение приговора на выходе ИИ, мы хотели бы видеть обоснование принятого решения. Это основная нерешенная проблема для популярных подходов к глубокому обучению, которые в значительной степени являются неразборчивыми черными ящиками.

Другая половина уверенности - это возможность вмешаться, если машина ведет себя не так, как нам бы хотелось. Но проектирование надежного выключателя сложно, потому что большинство систем обучения имеют сильный стимул, чтобы никто не мешал их целям.

Авторы не претендуют на то, чтобы иметь все ответы, но они надеются, что рамки, которые они определили, могут помочь другим работать над безопасностью ИИ. Хотя может пройти некоторое время, прежде чем ИИ действительно сможет нанести нам вред, возможно, ранние усилия, подобные этим, будут означать, что он построен на прочном фундаменте безопасности и надежности.

Источник