Создана уникальная технология автоматического профессионального улучшения сделанных на телефон фотографий при помощи AI
Привет. Сегеодня фотографии, отснятые современными цифровыми камерами, часто рассматриваются лишь как исходный материал для конечного обработанного изображения. Прежде чем загружать фотографии на сайты социальных сетей, даже не профессиональные пользователи, делающие снимки на сотовый телефон, могут потратить несколько минут на обработку фотографии при помощи одной из многих популярных программ обработки изображений.
На этой неделе на Siggraph, ведущей цифровой графической конференции, исследователи из MIT Computer Science и Лаборатории искусственного интеллекта и Google представили новую систему, которая может автоматически ретушировать изображения в стиле профессионального фотографа. Это приложением может работать на сотовом телефоне в режиме реального времени, чтобы фотограф мог видеть окончательную версию изображения, пока он еще не сделал снимок.
Приложение представляет собой систему обучения искусственного интеллекта, означающую, что машина учится выполнять задачи, анализируя данные, полученные в процессе обучения. В этом случае, для каждой новой задачи, для решения которой он изучил тысячи пар изображений, сырыми и ретушированными.
Первоначальная версия этого приложения заключался в том, что сделанный "сырой" снимок автоматически отправлялся на сайт, где проходил преобразование и отсылался обратно на телефон.
В новой работе основная часть обработки изображений выполняется на изображении с низким разрешением, что значительно сокращает время и потребление энергии. Но это приносит новую трудность, потому что значения цвета отдельных пикселей в изображении с высоким разрешением должны быть выведены из гораздо более грубого снимка при помощи обучающегося алгоритма.
В прошлом исследователи пытались использовать машинное обучение, чтобы научить искусственный интеллект производительному преобразования изображения с низким разрешением в изображение с высоким разрешением, сохраняя все цветовые пиксели на своих местах. Но на практике это не работает, изображение преобразованное в низкое разрешение просто теряет слишком много данных.
Исследователи решили эту проблему двумя хитрыми трюками. Во-первых, выход их системы машинного обучения работает не с реальным изображением, а с набором простых формул, описывающих цветовую схему изображения.
Второй трюк - это метод определения того, как применять эти формулы к отдельным конкретным пикселям изображения с высоким разрешением. Выход системы исследователей представляет собой трехмерную сетку, 16 на 16 на 8. 16-на-16 граней сетки соответствуют местоположениям пикселей в исходном изображении; Восемь слоев, уложенных поверх них, соответствуют разным интенсивностям пикселей. Каждая ячейка сетки содержит формулы, которые определяют модификации значений цвета исходных изображений.
Это означает, что каждая ячейка одной из 16-на-16 граней сетки должна содержать тысячи пикселей в изображении с высоким разрешением. Но предположим, что каждый набор формул соответствует одному месту в центре его ячейки. Тогда любой заданный пиксель изображения с высоким разрешением попадает в квадрат, определяемый четырьмя наборами формул.
Грубо говоря, изменение значения цвета этого пикселя представляет собой комбинацию формул на углах квадрата, взвешенных по их расстоянию от центра. Аналогичное взвешивание происходит в третьем измерении сетки, которое кодирует интенсивность пикселей.
Исследователи обучили свою систему набору данных, разработанных создателями Photoshop. Набор данных включает 5000 изображений, каждое из которых ретушировалось пятью разными фотографами. Они также обучили свою систему при помощи тысяч пар изображений, созданных с помощью применения определенных алгоритмов обработки изображений. Программное обеспечение для выполнения каждой модификации занимает примерно столько места в памяти, что и отдельная цифровая фотография, поэтому, в принципе, мобильный телефон легко может быть оборудован для обработки изображений в различных стилях.
Наконец, исследователи сравнили эффективность своей системы с производительностью системы машинного обучения, которая обрабатывала изображения с высоким разрешением, а не с низким (как в новой системе). Во время обработки для первой версии требовалось около 12 гигабайт памяти для выполнения операций. Для версии исследователей требовалось около 100 мегабайт или в 100 раз меньше.
Технология обработки фотографий может быть очень полезной для улучшения изображения в реальном времени на мобильных платформах. До недавнего времени, использование машинного обучения для обработки фотографий было захватывающей перспективой, но ограниченной серьезными вычислительными и энергетическими возможностями мобильных телефонов. Новая технология поможет обойти такие проблемы и подарить новые, убедительные возможности обработки фотографий в режиме реального времени без полного уничтожения заряда батареи телефона.