Миркин Борис Григорьевич – доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики». Адрес: 101000, Москва, Мясницкая ул., 20. E-mail: bmirkin@hse.ru
Черняк Екатерина Леонидовна – студент магистерской программы «Математическое моделирование», отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики». Адрес: 101000, Москва, Мясницкая ул., 20. E-mail: ktr.che@gmail.com
Чугунова Ольга Николаевна – студент магистерской программы «Математическое моделирование», отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики». Адрес: 101000, Москва, Мясницкая ул., 20. E-mail: olya.chug@gmail.com
Имеется два основных направления автоматизации анализа неструктурированных текстов: одно – основанное на использовании моделей естественного языка, второе – основанное на статистических характеристиках фрагментов текста, рассматриваемых как строки символов. Преимущество второго направления – отсутствие привязки к языку, его грамматике и семантике. Важный инструмент внутри этого направления – методика агрегированного представления текстов в виде суффиксных деревьев, аннотированных частотами встречаемости фрагментов текста (АСД). Этот инструмент успешно использовался в задачах кластеризации и категоризации текстов.
Целью данной работы является определенная модификация метода, направленная на ускорение и повышение адекватности вычислений и применение в нетрадиционных областях семантического анализа текстов.
В работе рассматриваются два типа проблем анализа текстовой информации: (а) связь корпуса текстов и совокупности ключевых словосочетаний и (б) связь корпуса текстов с таксономией предметной области.
Обе проблемы анализируются с применением так называемой ПС-таблицы, представляющей собой матрицу словосочетание-публикация, формируемую на экспертно заданном множестве публикаций (текстов) и ключевых словосочетаний. Элементами ПС-таблицы являются величины, характеризующие степень релевантности текста и словосочетания друг другу, полученные на основе АСД как нормированные характеристики суммарных усредненных условных вероятностей символов.
Для решения первой проблемы ПС-таблицы использовались в двух направлениях: для анализа структуры совокупности статей и для анализа структуры совокупности словосочетаний. По первому направлению использовался модифицированный метод концептуального кластер-анализа, приводящий к осмысленному и легко интерпретируемому дереву таксономии публикаций в терминах словосочетаний. По второму направлению строился граф ассоциаций между словосочетаниями, позволяющий дать обобщающее описание всего множества публикаций. В качестве иллюстрации использовался комплекс газетных публикаций и словосочетаний, характеризующих бизнес-процессы в России после кризиса 2008 г.
Для исследования второй проблемы сформирована методика автоматического достраивания таксономии на основе анализа структуры и текстов статей русскоязычной Википедии. Методика иллюстрируется на примере блока «теория вероятностей и математическая статистика» таксономии математики.