Искусственный интеллект от Google учится самостоятельно готовить статьи для википедии

Привет. Команда исследователей Google Brain - лаборатории по машинному обучению веб-гиганта - научила программное обеспечение создавать статьи в стиле Википедии, обобщая информацию с множества веб-страниц.

Как известно, интернет - это бесконечная куча статей, сообщений в социальных сетях, мемов, радости, ненависти и блогов. Невозможно мониторить все эти статьи, чтобы идти в ногу с новой информацией. Использование AI для того, чтобы отделять изображения собак от изображений кошек, это конечно мило, но если бы такие компьютеры могли объединять информацию из множества источников в полезные тематические фрагменты, это было бы действительно очень удобно. Однако, это непросто.

В своем докладе, опубликованном в прошлом месяце, разработчики описывают, насколько трудным является текстовое обобщение.

Несколько компаний также проводили исследования в этом направлении. Salesforce обучала рекуррентную нейронную сеть методом усиления обучения, чтобы получать информацию и пересказывать ее в двух словах, и результаты были неплохими.

Тем не менее, генерируемые компьютером предложения являются простыми и короткими; им не хватало творческого таланта и ритма текста, написанного людьми. Последние усилия Google Brain позволили достичь немного лучшего результата: предложения стали длиннее и кажутся более естественными.

Вот пример темы: «Крылья над Канзасом», авиационный сайт для пилотов и любителей. Параграф слева представляет собой обобщенную информацию об организации, составленную на компьютере, а та, которая находится справа, берется со страницы Википедии по этому вопросу.

Созданный алгоритмом AI текст немного трудно читать без заглавных букв в начале новых предложений, и большинство предложений имеют одинаковую жесткую структуру. В целом, это все еще довольно читаемо. Кажется, что генерация текста работает нормально, хотя для этого конкретного примера аспект суммирования невелик, поскольку он больше, чем соответствующая запись в Википедии.

Модель работает, анализируя десять лучших веб-страниц по данной теме - исключая запись Википедии - или получая информацию из ссылок в разделе references статьи Википедии. Большинство выбранных страниц используются для обучения, а некоторые из них остаются в разработке и тестировании системы.

Абзацы с каждой страницы ранжируются, а текст со всех страниц добавляется для создания одного длинного документа. Текст кодируется и сокращается, разделяясь на 32 000 отдельных слов и используется в качестве входных данных.

Затем он вводится в абстрактную модель, где длинные предложения на входе сокращаются. Это умный трюк, используемый для создания и обобщения текста. Генерируемые предложения взяты из более ранней фазы извлечения и не построены с нуля, что объясняет, почему структура довольно повторяющаяся и жесткая.

«Фаза извлечения является узким местом, которое определяет, какие части входных данных будут подаваться на этап абстракции. В идеале мы хотели бы передавать все данные из справочных документов." - Мохаммад Салех, соавтор статьи и инженер-программист в команде Google AI.

Разработка моделей и аппаратных средств, которые могут поддерживать более длинные входные последовательности, в настоящее время является активной областью исследований, которые могут смягчить эти ограничения.

Объективности ради, нужно признать, что мы по-прежнему очень далеки от эффективного обобщения или генерации текста. И хотя проект Google Brain довольно интересен, было бы неразумно использовать такую систему, чтобы автоматически генерировать записи в Википедии. Пока, во всяком случае.

Кроме того, поскольку он полагается на популярность первых десяти веб-сайтов в Интернете по какой-либо конкретной теме, если эти сайты не являются особенно достоверными, то получающиеся в результате работы алгоритма статьи, вероятно, также будут не очень точными. Конечно, ведь мы не можем доверять всему, что читаем в Интернете.

Подробней, фото1, фото2