Разработан новый тест для определения того, достиг ли AI уровня интеллекта, сопоставимого с человеческим

Привет. Ранее в этом году чат-бот по имени Евгений Густман успешно прошел тест Тьюринга для искусственного интеллекта в рамках конкурса, организованного университетом США (пост об этом). Почти сразу стало очевидно - вместо доказательства достижения алгоритмом AI человеческого уровня интеллекта, все, что показало прохождение теста, заключалось в том, что программное обеспечение стало достаточно искусным, чтобы обманывать людей, заставляя их думать, что они разговаривают с реальным человеком.

Сегодня уже ясно, что нам нужен более эффективный тест и такой тест уже создан. Он называется Winograd (Виноград). Этот тест довольно легко пройти человеку, но для машины он является серьезной проблемой.

Проблема с тестом Тьюринга заключается в том, что на самом деле это не проверка того, способна ли программа искусственного интеллекта мыслить: это проверка того, может ли программа AI обмануть человека. И надо признать, что люди действительно бывают не очень умны, мягко говоря. Мы часто ведемся на всевозможные трюки, которые хорошо запрограммированный AI может использовать, чтобы убедить нас в своей человеческой природе, способной думать.

Например, чат-бот Юджин Густман прикинулся 13-летним мальчиком, потому что 13-летние мальчики часто являются неуравновешенными идиотами, и это оправдает многие обстоятельства, при которых у AI возникают проблемы при ответе на вопросы человека. Так, что действительно, чат-бот вообще неинтеллектуальен - просто нужно заставить человека забыть о его глупых ответах, периодически правильно отвечая на доступные для него вопросы.

Концептуально, тест Тьюринга по-прежнему действителен, но нам нужен более практичный процесс тестирования искусственного интеллекта. Новый тест AI, продвигаемый Nuance Communications и CommonsenseReasoning.org, предлагает приз в размере 25 000 долларов для любого AI, который сможет успешно пройти так называемый тест Winograd, названный в честь Терри Винограда (Terry Winograd), профессора компьютерных наук в Стэнфордском университете.

Вот один из примеров:

Приз не помещается в коричневый чемодан, потому что он слишком большой. Что слишком большое?

Очевидно, приз. Это очевидно для человека, но совсем не очевидно для машины. Это очевидно для нас, потому что мы знаем все о призах и чемоданах. Мы даже не должны «думать» об этом; это почти интуитивно понятно. Но для компьютерной программы неясно, что означает «он». Чтобы быть успешным при ответе на такой вопрос, искусственный интеллект должен обладать некоторыми базовыми знаниями и умением рассуждать.

Вот еще один пример:

Джим успокоил Кевина, потому что он был сильно расстроен. Кто был расстроен?

Вот правила, которым должны соответствовать вопросы по схеме Winograd:

Две фразы упоминаются в предложении с помощью существительных. Это могут быть два мужчины, две женщины, два неодушевленных предмета или две группы людей или предметов.
Местоимение или притяжательное прилагательное используется в предложении по отношению к одной из сторон, но также является правильным видом для второй стороны. В случае мужчин это «он/им/его»; для женщин это «она/ей/её»; для неодушевленного объекта это «это /это/эти»; и для групп это «они/ими/их».
Вопрос включает определение референта местоимения или притяжательного прилагательного. Ответ 0 всегда является первой стороной, упомянутой в предложении (но повторенной из предложения для ясности), а ответ 1 - второй стороной.
Существует слово (называемое специальным словом), которое появляется в предложении и, возможно, в вопросе. Когда оно заменяется другим словом (называемым альтернативным словом), предложение по-прежнему имеет смысл, но ответ меняется.

Для получения дополнительной информации приведу здесь заявление разработчиков нового теста:

Как и Тьюринг, мы считаем, что обеспечение правильного поведения является главной задачей в развитии AI-системы. Мы также согласны с тем, что понимание английского языка в самом широком смысле является отличным показателем интеллектуального поведения. Там, где у нас есть небольшое несогласие с Тьюрингом - это является ли разговор в свободной форме на английском языке правильным методом тестирования. Наша задача WS [Winograd schemas] не позволяет субъекту прятаться за дымовой завесой словесных трюков, шутливости или ответов-заготовок. То, что мы предложили здесь, конечно, менее требовательно, чем разумная беседа о сонетах (скажем), как предполагалось Тьюрингом, однако, этот тест менее подвержен злоупотреблениям.

Стоит отметить, что многие исследователи скептически относятся к тому, что нам действительно возможно «протестировать» достижение AI человеческого уровня интеллекта. Благодаря высокоструктурированному тесту с конкретными вопросами и ответами, которые однозначно правильны или неправильны, существует много возможностей для умного (но не мыслящего) AI, чтобы найти способы его преодолеть.

Тогда возникает вопрос, является ли "интеллект" просто технологической системой, которая достаточно сложна для правильного ответа на ряд вопросов, которые (ответы) несколько более сложная биологическая система (человек) произвольно интерпретирует, как достаточные для вывода о наличии мышления.

Подробней, фото1, фото2, фото3