Проектирование структуры программной системы обработки корпусов текстовых документов

Владимир Б. Барахнин; Ольга Ю. Кожемякина; Равиль И. Мухамедиев; Юлия С. Борзилова; Кирилл О. Якунин

doi:10.17323/1998-0663.2019.4.60.72

Владимир Б. Барахнин Новосибирский национальный исследовательский государственный университет, 630090, г. Новосибирск, ул. Пирогова, д. 1 ; Институт вычислительных технологий, Сибирское отделение Российской академии наук, 630090, г. Новосибирск, пр-т Академика Лаврентьева, д. 6 https://orcid.org/0000-0003-3299-0507
Ольга Ю. Кожемякина Институт вычислительных технологий, Сибирское отделение Российской академии наук, 630090, г. Новосибирск, пр-т Академика Лаврентьева, д. 6 https://orcid.org/0000-0003-3619-1120
Равиль И. Мухамедиев Университет ISMA, Латвия, LV-1019, г. Рига, ул. Ломоносова, 1; Институт информационных и вычислительных технологий , Казахстан, 050010, г. Алматы, ул. Пушкина, д. 125; Satbayev University , Казахстан, 050013, г. Алматы, ул. Сатпаева, д. 22a https://orcid.org/0000-0002-3727-043X
Юлия С. Борзилова Институт вычислительных технологий, Сибирское отделение Российской академии наук, 630090, г. Новосибирск, пр-т Академика Лаврентьева, д. 6 https://orcid.org/0000-0002-8265-9356
Кирилл О. Якунин Институт информационных и вычислительных технологий , Казахстан, 050010, г. Алматы, ул. Пушкина, д. 125; Satbayev University , Казахстан, 050013, г. Алматы, ул. Сатпаева, д. 22a https://orcid.org/0000-0002-7378-9212

DOI: https://doi.org/10.17323/1998-0663.2019.4.60.72

Ключевые слова: обработка естественных языков, потоковая обработка текстов, информационная система анализа текстов, разработка системы обработки корпусов текстов

Аннотация

Одной из труднорешаемых задач в области интеллектуального анализа данных является разработка универсального инструментария для анализа текстов художественного и делового стиля. Популярным направлением развития алгоритмов обработки корпусов текстовых документов является использование методов машинного обучения, которые позволяют решать задачи обработки естественных языков. Основанием для проведения исследований в этой области являются такие факторы, как специфика структуры текстов художественного и делового стиля (что требует формирования отдельных наборов данных и, в случае использования методов машинного обучения, – дополнительных параметров при обучении), а также отсутствие укомплектованных систем массовой обработки корпусов текстовых документов для русского языка (в отношении научного сообщества в коммерческой среде существуют системы меньших масштабов, решающие узкоспециализированные задачи, например, определение тональности текста). Целью текущего исследования является проектирование и последующая разработка структуры системы обработки корпусов текстовых документов. При проектировании учитывались требования, предъявляемые к широкомасштабным системам: модульность, возможность масштабирования компонентов и их условная независимость. Проектируемая система представляет собой совокупность компонентов, каждый из которых сформирован и используется в виде Docker-контейнеров. Уровни системы: обработка данных, хранение данных, визуализация и управление результатами обработки данных. На уровне обработки данных выполняется сбор (скраппинг) текстовых документов (например, новостных событий) и их дальнейшая обработка с помощью ансамбля методов машинного обучения, каждый из которых реализован в системе как отдельная Airflow-задача. Полученные результаты помещаются для хранения в реляционную базу данных, а для увеличения быстродействия поиска по данным (более 1 млн. единиц) используется инструмент ElasticSearch. Визуализация статистики, полученной в результате работы алгоритмов, осуществляется с использованием плагина Plotly. Администрирование и просмотр обработанных текстов доступны через веб-интерфейс с использованием фреймворка Django. Общая схема взаимодействия компонентов организована по принципу ETL (extract, transform, load). В настоящее время система используется для анализа корпусов новостных текстов с целью сравнительного анализа параметров текстов и средств массовой информации в целом. В перспективе планируется усовершенствование системы и опубликование компонентов в открытом репозитории GitHub для доступа научного сообщества.

Скачивания

Данные скачивания пока не доступны.