Метод аннотированного суффиксного дерева для оценки степени вхождения строк в текстовые документы

Б. Г. Миркин; Е. Л. Черняк; О. Н. Чугунова

Миркин Борис Григорьевич – доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».
Адрес: 101000, Москва, Мясницкая ул., 20.
E-mail: bmirkin@hse.ru

Черняк Екатерина Леонидовна – студент магистерской программы «Математическое моделирование», отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».
Адрес: 101000, Москва, Мясницкая ул., 20.
E-mail: ktr.che@gmail.com

Чугунова Ольга Николаевна – студент магистерской программы «Математическое моделирование», отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».
Адрес: 101000, Москва, Мясницкая ул., 20.
E-mail: olya.chug@gmail.com

Имеется два основных направления автоматизации анализа неструктурированных текстов: одно – основанное на использовании моделей естественного языка, второе – основанное на статистических характеристиках фрагментов текста, рассматриваемых как строки символов. Преимущество второго направления – отсутствие привязки к языку, его грамматике и семантике. Важный инструмент внутри этого направления – методика агрегированного представления текстов в виде суффиксных деревьев, аннотированных частотами встречаемости фрагментов текста (АСД). Этот инструмент успешно использовался в задачах кластеризации и категоризации текстов.

Целью данной работы является определенная модификация метода, направленная на ускорение и повышение адекватности вычислений и применение в нетрадиционных областях семантического анализа текстов.

В работе рассматриваются два типа проблем анализа текстовой информации: (а) связь корпуса текстов и совокупности ключевых словосочетаний и (б) связь корпуса текстов с таксономией предметной области.

Обе проблемы анализируются с применением так называемой ПС-таблицы, представляющей собой матрицу словосочетание-публикация, формируемую на экспертно заданном множестве публикаций (текстов) и ключевых словосочетаний. Элементами ПС-таблицы являются величины, характеризующие степень релевантности текста и словосочетания друг другу, полученные на основе АСД как нормированные характеристики суммарных усредненных условных вероятностей символов.

Для решения первой проблемы ПС-таблицы использовались в двух направлениях: для анализа структуры совокупности статей и для анализа структуры совокупности словосочетаний. По первому направлению использовался модифицированный метод концептуального кластер-анализа, приводящий к осмысленному и легко интерпретируемому дереву таксономии публикаций в терминах словосочетаний. По второму направлению строился граф ассоциаций между словосочетаниями, позволяющий дать обобщающее описание всего множества публикаций. В качестве иллюстрации использовался комплекс газетных публикаций и словосочетаний, характеризующих бизнес-процессы в России после кризиса 2008 г.

Для исследования второй проблемы сформирована методика автоматического достраивания таксономии на основе анализа структуры и текстов статей русскоязычной Википедии. Методика иллюстрируется на примере блока «теория вероятностей и математическая статистика» таксономии математики.

Миркин Б. Г.1,2, Черняк Е. Л., Чугунова О. Н. 1 НИУ ВШЭ, 101000, Россия, Москва, ул. Мясницкая, д.202 НИУ ВШЭ, 603014, Россия, Нижний Новгород, Сормовское шоссе, д.30

Метод аннотированного суффиксного дерева для оценки степени вхождения строк в текстовые документы

Миркин Б. Г.^1,2, Черняк Е. Л., Чугунова О. Н.
¹ НИУ ВШЭ, 101000, Россия, Москва, ул. Мясницкая, д.20
² НИУ ВШЭ, 603014, Россия, Нижний Новгород, Сормовское шоссе, д.30