Может ли AI отличить белого медведя от консервного ножа?

Не проходит и дня без очередного заголовка о нейронных сетях: какая-то новая задача, в которой алгоритмы глубокого обучения могут преуспеть, приблизиться или даже превзойти человеческую компетентность. По мере того, как применение этого подхода к компьютерному зрению продолжает совершенствоваться, с алгоритмами, способными выполнять специализированные задачи распознавания, подобные тем, которые встречаются в медицине, программное обеспечение становится ближе к широкому коммерческому использованию—например, в самоуправляемых автомобилях. Наша способность распознавать закономерности огромная часть человеческого интеллекта: если это можно сделать быстрее с помощью машин, последствия будут самыми серьезными.

Тем не менее, как всегда с алгоритмами, существуют глубокие опасения по поводу их надежности, особенно когда мы не знаем точно, как они работают. Современные нейронные сети будут уверенно—и неправильно—классифицировать изображения, которые выглядят как телевизионное статическое или абстрактное искусство, как объекты реального мира, такие как школьные автобусы или танки. Конкретные алгоритмы могут быть нацелены на “состязательные примеры”, где добавление незаметного количества шума к изображению может привести к тому, что алгоритм полностью ошибочно примет один объект за другой. Эксперты по машинному обучению любят создавать эти изображения, чтобы обмануть передовое программное обеспечение, но если самоходный автомобиль можно обмануть несколькими наклейками, это может быть не так весело для пассажиров.

Эти трудности сложно сгладить в значительной степени, потому что у нас нет большой интуиции относительно того, как эти нейронные сети “видят” и “распознают” объекты. Анализ обученной сети может дать нам ряд статистических Весов, связывающих определенные группы точек с определенными объектами: это может быть очень трудно интерпретировать.

Теперь новое исследование от UCLA, опубликованное в журнале PLOS Computational Biology, тестирует нейронные сети, чтобы понять пределы их зрения и различия между компьютерным зрением и человеческим зрением. Николас Бейкер, Хунцзин Лу и Филипп Дж. Келлман из Калифорнийского университета в Лос-Анджелесе вместе с Геннадием Эрлихманом из Университета Невады проверили глубокую сверточную нейронную сеть под названием VGG-19. Это современная технология, которая уже превосходит людей по стандартизированным тестам, таким как ImageNet Large Scale Visual Recognition Challenge.

Они обнаружили, что, хотя люди склонны классифицировать объекты на основе их общей (глобальной) формы, глубокие нейронные сети гораздо более чувствительны к текстурам объектов, включая локальные цветовые градиенты и распределение точек на объекте. Этот результат помогает объяснить, почему нейронные сети в распознавании изображений совершают ошибки, которых не допускал ни один человек, - и могли бы обеспечить лучший дизайн нейронных сетей в будущем.

В первом эксперименте нейронная сеть была обучена сортировать изображения по 1 из 1000 различных категорий. Затем были представлены силуэты этих изображений: вся локальная информация была утеряна, остался только контур объекта. Обычно обученная нейронная сеть была способна распознавать эти объекты, присваивая более 90% вероятности правильной классификации. Изучая силуэты, это снизилось до 10%. В то время как человеческие наблюдатели почти всегда могли создавать правильные метки формы, нейронные сети казались почти нечувствительными к общей форме изображений. В среднем, правильный объект был оценен нейронной сетью как 209-е наиболее вероятное решение, хотя общие формы были точными.

Особенно яркий пример возник, когда они пытались заставить нейронные сети классифицировать стеклянные фигурки объектов, которые они уже могли распознать. В то время как вам или мне может быть легко идентифицировать стеклянную модель выдры или белого медведя, нейронная сеть классифицирует их как «кислородная маска» и «консервный нож» соответственно. Представляя стеклянные фигурки, в которых теряется информация о текстуре, на которую опирались нейронные сети для классификации объектов, нейронная сеть не могла распознавать объекты только по форме. Нейронная сеть была так же безнадежна в классификации объектов на основе рисунков их контуров.

Если у вас есть правильные ответы об этих изображениях, вы лучше, чем современное программное обеспечение для распознавания изображений.

Когда нейронная сеть была обучена распознавать силуэты объектов—не имея никакой информации в обучающих данных, кроме контуров объектов,—исследователи обнаружили, что незначительных искажений или “ряби” на контуре изображения было достаточно, чтобы обмануть ИИ, в то время как люди не обращали на них внимания.

Тот факт, что нейронные сети, по-видимому, нечувствительны к общей форме объекта—полагаясь вместо этого на статистические сходства между локальными распределениями точек—предполагает дальнейший эксперимент. Что делать, если вы кодируете изображения так, что общая форма была потеряна, но местные особенности были сохранены? Оказывается, нейронные сети гораздо лучше и быстрее распознают зашифрованные версии объектов, чем контуры. Студенты смогли классифицировать только 37% зашифрованных объектов, в то время как нейронная сеть преуспела в 83% случаев.

Люди значительно превосходят машины в классификации объекта (а) как медведя. в то время как алгоритм машинного обучения имеет меньше проблем при классификации медведя на рисунке (b).

«Это исследование показывает, что такие системы получают правильный ответ на изображениях, на которых они тренировались, без учета формы», - сказал Келлман. «Для человека общая форма имеет первостепенное значение для распознавания объектов, а идентификация изображений по общей форме, по-видимому, вообще отсутствует в этих системах глубокого обучения».

Наивно было бы ожидать, что, поскольку многие слои нейронной сети смоделированы на связях между нейронами в мозге и напоминают зрительную кору, способ работы компьютерного зрения обязательно должен быть похож на человеческое зрение. Но такого рода исследования показывают, что, хотя фундаментальная архитектура может напоминать архитектуру человеческого мозга, результирующий “ум” работает совсем по-другому.

Исследователи могут все чаще наблюдать, как “нейроны” в нейронных сетях загораются при воздействии стимулов и сравнивать их с тем, как биологические системы реагируют на те же стимулы. Возможно, когда-нибудь можно будет использовать эти сравнения, чтобы понять, как нейронные сети “думают” и чем эти реакции отличаются от людей.

Но пока требуется более экспериментальная психология, чтобы исследовать, как нейронные сети и алгоритмы искусственного интеллекта воспринимают мир. Тесты, используемые для исследования нейронной сети, ближе к тому, как ученые могут попытаться понять чувства животного или развивающийся мозг маленького ребенка, а не часть программного обеспечения.

Объединив эту экспериментальную психологию с новыми нейронными сетями или методами исправления ошибок, можно сделать их еще более надежными. Тем не менее, это исследование показывает, насколько мы все еще не понимаем алгоритмы, которые мы создаем и используем: как они работают, как они принимают решения и чем они отличаются от нас. Поскольку они играют все большую роль в обществе, понимание психологии нейронных сетей будет иметь решающее значение, если мы хотим использовать их мудро и эффективно.

Источник