TY - JOUR TI -

Проектирование структуры программной системы обработки корпусов текстовых документов

T2 - Бизнес-информатика IS - Бизнес-информатика KW - обработка естественных языков KW - потоковая обработка текстов KW - информационная система анализа текстов KW - разработка системы обработки корпусов текстов AB -       Одной из труднорешаемых задач в области интеллектуального анализа данных является разработка универсального инструментария для анализа текстов художественного и делового стиля. Популярным направлением развития алгоритмов обработки корпусов текстовых документов является использование методов машинного обучения, которые позволяют решать задачи обработки естественных языков. Основанием для проведения исследований в этой области являются такие факторы, как специфика структуры текстов художественного и делового стиля (что требует формирования отдельных наборов данных и, в случае использования методов машинного обучения, - дополнительных параметров при обучении), а также отсутствие укомплектованных систем массовой обработки корпусов текстовых документов для русского языка (в отношении научного сообщества в коммерческой среде существуют системы меньших масштабов, решающие узкоспециализированные задачи, например, определение тональности текста). Целью текущего исследования является проектирование и последующая разработка структуры системы обработки корпусов текстовых документов. При проектировании учитывались требования, предъявляемые к широкомасштабным системам: модульность, возможность масштабирования компонентов и их условная независимость. Проектируемая система представляет собой совокупность компонентов, каждый из которых сформирован и используется в виде Docker-контейнеров. Уровни системы: обработка данных, хранение данных, визуализация и управление результатами обработки данных. На уровне обработки данных выполняется сбор (скраппинг) текстовых документов (например, новостных событий) и их дальнейшая обработка с помощью ансамбля методов машинного обучения, каждый из которых реализован в системе как отдельная Airflow-задача. Полученные результаты помещаются для хранения в реляционную базу данных, а для увеличения быстродействия поиска по данным (более 1 млн. единиц) используется инструмент ElasticSearch. Визуализация статистики, полученной в результате работы алгоритмов, осуществляется с использованием плагина Plotly. Администрирование и просмотр обработанных текстов доступны через веб-интерфейс с использованием фреймворка Django. Общая схема взаимодействия компонентов организована по принципу ETL (extract, transform, load). В настоящее время система используется для анализа корпусов новостных текстов с целью сравнительного анализа параметров текстов и средств массовой информации в целом. В перспективе планируется усовершенствование системы и опубликование компонентов в открытом репозитории GitHub для доступа научного сообщества. AU - В. Б. Барахнин AU - О. Ю. Кожемякина AU - Р. И. Мухамедиев AU - Ю. С. Борзилова AU - К. О. Якунин UR - https://bijournal.hse.ru/2019--4 Vol.13/325243423.html PY - 2019 SP - 60-72 VL -