Скрыть
Раскрыть

ISSN 1998-0663 (print),
ISSN 2587-8166 (online)

English version: ISSN 2587-814X (print),
ISSN 2587-8158 (online)

Барахнин В. Б.1,2, Кожемякина О. Ю.2, Мухамедиев Р. И.3,4,5, Борзилова Ю. С.2, Якунин К. О.4,5
  • 1 Новосибирский национальный исследовательский государственный университет, 630090, г. Новосибирск, ул. Пирогова, д. 1
  • 2 Институт вычислительных технологий, Сибирское отделение Российской академии наук, 630090, г. Новосибирск, пр-т Академика Лаврентьева, д. 6
  • 3 Университет ISMA, Латвия, LV-1019, г. Рига, ул. Ломоносова, 1
  • 4 Институт информационных и вычислительных технологий , Казахстан, 050010, г. Алматы, ул. Пушкина, д. 125
  • 5 Satbayev University , Казахстан, 050013, г. Алматы, ул. Сатпаева, д. 22a

Проектирование структуры программной системы обработки корпусов текстовых документов

2019. № 4 Vol.13. С. 60–72 [содержание номера]

      Одной из труднорешаемых задач в области интеллектуального анализа данных является разработка универсального инструментария для анализа текстов художественного и делового стиля. Популярным направлением развития алгоритмов обработки корпусов текстовых документов является использование методов машинного обучения, которые позволяют решать задачи обработки естественных языков. Основанием для проведения исследований в этой области являются такие факторы, как специфика структуры текстов художественного и делового стиля (что требует формирования отдельных наборов данных и, в случае использования методов машинного обучения, – дополнительных параметров при обучении), а также отсутствие укомплектованных систем массовой обработки корпусов текстовых документов для русского языка (в отношении научного сообщества в коммерческой среде существуют системы меньших масштабов, решающие узкоспециализированные задачи, например, определение тональности текста). Целью текущего исследования является проектирование и последующая разработка структуры системы обработки корпусов текстовых документов. При проектировании учитывались требования, предъявляемые к широкомасштабным системам: модульность, возможность масштабирования компонентов и их условная независимость. Проектируемая система представляет собой совокупность компонентов, каждый из которых сформирован и используется в виде Docker-контейнеров. Уровни системы: обработка данных, хранение данных, визуализация и управление результатами обработки данных. На уровне обработки данных выполняется сбор (скраппинг) текстовых документов (например, новостных событий) и их дальнейшая обработка с помощью ансамбля методов машинного обучения, каждый из которых реализован в системе как отдельная Airflow-задача. Полученные результаты помещаются для хранения в реляционную базу данных, а для увеличения быстродействия поиска по данным (более 1 млн. единиц) используется инструмент ElasticSearch. Визуализация статистики, полученной в результате работы алгоритмов, осуществляется с использованием плагина Plotly. Администрирование и просмотр обработанных текстов доступны через веб-интерфейс с использованием фреймворка Django. Общая схема взаимодействия компонентов организована по принципу ETL (extract, transform, load). В настоящее время система используется для анализа корпусов новостных текстов с целью сравнительного анализа параметров текстов и средств массовой информации в целом. В перспективе планируется усовершенствование системы и опубликование компонентов в открытом репозитории GitHub для доступа научного сообщества.

Графическая аннотация


Библиографическое описание:

Барахнин В.Б., Кожемякина О.Ю., Мухамедиев Р.И., Борзилова Ю.С., Якунин К.О. Проектирование структуры программной системы обработки корпусов текстовых документов // Бизнес-информатика. 2019. Т. 13. № 4. С. 60–72. DOI: 10.17323/1998-0663.2019.4.60.72

BiBTeX
RIS
 
 
Rambler's Top100 rss