TY - JOUR TI - Метод аннотированного суффиксного дерева для оценки степени вхождения строк в текстовые документы T2 - Бизнес-информатика IS - Бизнес-информатика KW - анализ текстов KW - аннотированное суффиксное дерево KW - интерпретация KW - концептуальные кластеры AB - Миркин Борис Григорьевич - доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: bmirkin@hse.ruЧерняк Екатерина Леонидовна - студент магистерской программы «Математическое моделирование», отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: ktr.che@gmail.comЧугунова Ольга Николаевна - студент магистерской программы «Математическое моделирование», отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: olya.chug@gmail.comИмеется два основных направления автоматизации анализа неструктурированных текстов: одно - основанное на использовании моделей естественного языка, второе - основанное на статистических характеристиках фрагментов текста, рассматриваемых как строки символов. Преимущество второго направления - отсутствие привязки к языку, его грамматике и семантике. Важный инструмент внутри этого направления - методика агрегированного представления текстов в виде суффиксных деревьев, аннотированных частотами встречаемости фрагментов текста (АСД). Этот инструмент успешно использовался в задачах кластеризации и категоризации текстов.Целью данной работы является определенная модификация метода, направленная на ускорение и повышение адекватности вычислений и применение в нетрадиционных областях семантического анализа текстов. В работе рассматриваются два типа проблем анализа текстовой информации: (а) связь корпуса текстов и совокупности ключевых словосочетаний и (б) связь корпуса текстов с таксономией предметной области.Обе проблемы анализируются с применением так называемой ПС-таблицы, представляющей собой матрицу словосочетание-публикация, формируемую на экспертно заданном множестве публикаций (текстов) и ключевых словосочетаний. Элементами ПС-таблицы являются величины, характеризующие степень релевантности текста и словосочетания друг другу, полученные на основе АСД как нормированные характеристики суммарных усредненных условных вероятностей символов.Для решения первой проблемы ПС-таблицы использовались в двух направлениях: для анализа структуры совокупности статей и для анализа структуры совокупности словосочетаний. По первому направлению использовался модифицированный метод концептуального кластер-анализа, приводящий к осмысленному и легко интерпретируемому дереву таксономии публикаций в терминах словосочетаний. По второму направлению строился граф ассоциаций между словосочетаниями, позволяющий дать обобщающее описание всего множества публикаций. В качестве иллюстрации использовался комплекс газетных публикаций и словосочетаний, характеризующих бизнес-процессы в России после кризиса 2008 г.Для исследования второй проблемы сформирована методика автоматического достраивания таксономии на основе анализа структуры и текстов статей русскоязычной Википедии. Методика иллюстрируется на примере блока «теория вероятностей и математическая статистика» таксономии математики. AU - Б. Г. Миркин AU - Е. Л. Черняк AU - О. Н. Чугунова UR - https://bijournal.hse.ru/2012--3(21)/63370530.html PY - 2012 SP - 31-41 VL -