Автоматическая классификация текстов и идентификация объектов и их свойств в тексте

Для автоматической классификации текстов и идентификации объектов и их свойств в тексте могут использоваться системы “Webcat” и “Aigents”.

I. Система классификации текстов “Webcat”
Система позволяет осуществлять автоматическую классификацию текстовых сообщений и файлов. Демонстрация системы представлена в Интернете: http://www.webstructor.net/mine/. Классификация основана на статистическом методе с реализацией “машинного обучения” на основе принципа “нейронной сети”.
Анализ текстов может осуществляться как без словаря (с учетом любых слов встреченных в тексте), так и со словарем (с учетом только слов, присутствующем в сконфигурированном словаре). Кроме возможных словарей, при анализе текстов не используются грамматические особенности того или иного человеческого языка. Это позволяет работать с текстами на произвольных языках, с использованием жаргонов и текстов со множественными ошибками. Также, исключение грамматического анализа позволяет обеспечить высокую скорость классификации при большом объеме входных данных. Однако, отсутствие грамматического анализа не позволяет использовать определенные факторы, связанные с синтаксисом и морфологией текстов на тех или иных национальных языках.
В основе автоматической классификации лежит определение множества особенностей текста, соответствующих тем или иным категориям (например - темам обсуждения или местам географического расположения). В текущей версии системы в качестве особенностей выступают слова. В экспериментальной версии системы, находящейся в разработке, такими особенностями могут быть также последовательности слов, их взаимные сочетания, также наборы альтернативных слов (синонимов).
Для обучения системы автоматической классификации, на начальном этапе работы, требуется подготовка тренировочного набора данных. Тренировочный набор данных должен включать множество текстов со связанными с ними категориями по результатам предварительной ручной классификации. В ходе работы, тренировочный набор может периодически обновляться, с учетом уточнений и корректировок, сделанных в ручную по результатам автоматической классификации. На основании обучения на тренировочном наборе, система получает возможность предлагать подходящие категории по новым текстам (не классифицированным ранее).
Также, система может работать в полностью интерактивном режиме, когда обучение происходит непосредственно по каждому отдельному тексту — система предлагает подходящие категории а оператор верифицирует или корректирует их с мгновенным переобучением.

II. Система идентификации объектов текста «Aigents»
Система позволяет идентифицировать в тексте объекты, описываемые шаблонами, и извлекать свойства этих объектов из текста. Демонстрационные версии системы для мобильных устройств и Интернет-браузеров представлены на сайте: https://aigents.com.
Как и в системе «Webcat», в системе «Aigents» не применяется грамматический анализ, специфичный для того или иного человеческого языка. Это позволяет как высокопроизводительную обработку данных, так и работу с произвольными языками, жаргонами, сокращениями и искажениями. Вместе с тем, учет грамматических факторов в шаблонах может достигаться только за счет ручной настройки каждого отдельного шаблона.
В основе работы системы лежит использование иерархических шаблонов, настроенных оператором. Шаблоны могут включать слова, шаблоны слов, «переменные» для заполнения, а также последовательности и наборы всего выше перечисленного.
По результатам анализа текста, с использованием набора заданных шаблонов, в тексте могут быть идентифицированы места проявления всех указанных шаблонов, с заполнением имеющихся «переменных» и построением компактного текстового представления шаблона с заполненными «переменными». При этом, каждая такая идентификация сопровождается созданием учетного объекта со свойствами, определяемыми значениями «переменных» - для хранения в базе данных и последующей обработки.

III. Требования к системам
Обе описанные системы работают с данными, хранящимися в оперативной памяти и не используют дисковую память, что обеспечивает высокую производительность. Вместе с тем, при наличии больших объемов данных, используемых для обучения или хранения для повторной обработки, требуются дополнительные системные «надстройки», предназначенные для долговременного хранения больших объемов информации и загрузки ее в системы «Webcat» или «Aigents» для обучения, классификации или идентификации объектов.
Основным требованием к обоим системам также является наличие предварительно подготовленных в ручную тренировочных наборов данных («Webcat») либо настроенных шаблонов («Aigents»), а также — систем категорий и понятий, используемых для классификации и идентификации объектов и их свойств (в обоих случаях).

Более подробную информацию можно получить в презентации:

http://aigents.com/papers/2015/Kolonin-Automatic-text-classification-and-property-extraction-SIBIRCON-2015-slides.pdf

и в подробной статье на английском языке:

http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=7361868