TY  - JOUR
TI  - Метод аннотированного суффиксного дерева для оценки степени вхождения строк в текстовые документы
T2  - Бизнес-информатика
IS  - Бизнес-информатика
KW  - анализ текстов
KW  - аннотированное суффиксное дерево
KW  - интерпретация
KW  - концептуальные кластеры
AB  - Миркин Борис Григорьевич - доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: bmirkin@hse.ruЧерняк Екатерина Леонидовна - студент магистерской программы «Математическое моделирование», отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: ktr.che@gmail.comЧугунова Ольга Николаевна - студент магистерской программы «Математическое моделирование», отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: olya.chug@gmail.comИмеется два основных направления автоматизации анализа неструктурированных текстов: одно - основанное на использовании моделей естественного языка, второе - основанное на статистических характеристиках фрагментов текста, рассматриваемых как строки символов. Преимущество второго направления - отсутствие привязки к языку, его грамматике и семантике. Важный инструмент внутри этого направления - методика агрегированного представления текстов в виде суффиксных деревьев, аннотированных частотами встречаемости фрагментов текста (АСД). Этот инструмент успешно использовался в задачах кластеризации и категоризации текстов.Целью данной работы является определенная модификация метода, направленная на ускорение и повышение адекватности вычислений и применение в нетрадиционных областях семантического анализа текстов.&nbsp;В работе рассматриваются два типа проблем анализа текстовой информации: (а) связь корпуса текстов и совокупности ключевых словосочетаний и (б) связь корпуса текстов с таксономией предметной области.Обе проблемы анализируются с применением так называемой ПС-таблицы, представляющей собой матрицу словосочетание-публикация, формируемую на экспертно заданном множестве публикаций (текстов) и ключевых словосочетаний. Элементами ПС-таблицы являются величины, характеризующие степень релевантности текста и словосочетания друг другу, полученные на основе АСД как нормированные характеристики суммарных усредненных условных вероятностей символов.Для решения первой проблемы ПС-таблицы использовались в двух направлениях: для анализа структуры совокупности статей и для анализа структуры совокупности словосочетаний. По первому направлению использовался модифицированный метод концептуального кластер-анализа, приводящий к осмысленному и легко интерпретируемому дереву таксономии публикаций в терминах словосочетаний. По второму направлению строился граф ассоциаций между словосочетаниями, позволяющий дать обобщающее описание всего множества публикаций. В качестве иллюстрации использовался комплекс газетных публикаций и словосочетаний, характеризующих бизнес-процессы в России после кризиса 2008 г.Для исследования второй проблемы сформирована методика автоматического достраивания таксономии на основе анализа структуры и текстов статей русскоязычной Википедии. Методика иллюстрируется на примере блока «теория вероятностей и математическая статистика» таксономии математики.
AU  - Б. Г. Миркин
AU  - Е. Л. Черняк
AU  - О. Н. Чугунова
UR  - https://bijournal.hse.ru/2012--3(21)/63370530.html
PY  - 2012
SP  - 31-41
VL  -