Черняк Екатерина Леонидовна - аспирант кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики». Адрес: 101000, Москва, Мясницкая ул., 20. E-mail: echernyak@hse.ru
Миркин Борис Григорьевич - доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики». Адрес: 101000, Москва, Мясницкая ул., 20. E-mail: bmirkin@hse.ru
В большинстве задач семантического анализа текстовых материалов возникает потребность в использовании мер релевантности строка-текст. К таким задачам относится и задача рубрикации научных статей. Как правило, научные статьи индексируют согласно системе рубрик, заданной таксономией – иерархической структурой рубрик (или понятий). Например, в научных журналах международной Ассоциации вычислительной техники (ACM), наиболее авторитетной в области информатики организации, статьи проиндексированы их авторами с использованием специально разработанной многоуровневой таксономии ACM CCS. В работе исследуется возможность автоматизации рубрикации научных статей с использованием мер релевантности строка-текст: в качестве строк используются темы таксономии, а в качестве текстов – непосредственно тексты научных статей или некоторые их фрагменты. Мера релевантности строка-текст ставит им в соответствие некоторое число, которое может интерпретироваться по-разному в зависимости от используемой модели релевантности. Чем больше значение показателя релевантности, тем сильнее связь между строкой и текстом. В статье проведено экспериментальное сравнение различных мер релевантности строка-текст для автоматизации рубрикации научных статей. В эксперименте участвуют три меры: (а) косинусная мера релевантности, основанная на традиционном кодировании текстов с использованием tf-idf весов термов, (б) популярная характеристика вероятности порождения термов BM25 и (в) предложенная авторами характеристика условной вероятности символа в фрагментах, выделенных с использованием аннотированного суффиксного дерева, СУВСС. Для эксперимента использованы аннотации статей, опубликованных в журналах ACM, и таксономия ACM CCS 2012. В результате применения каждой из этих трёх мер получаются автоматические рубрикации статей – списки таксономических тем, упорядоченных по убыванию оценки релевантности данной статье. Оценка качества полученных результатов осуществляется с помощью сравнения автоматической рубрикации с авторской: чем выше в соответствующем списке авторская тема, тем точнее получившаяся рубрикация. Точность рубрикации оценивается с помощью популярных мер MAP и nDCG, а также меры, характеризующей количество вхождений авторских тем в топ списка,предложенной в данной работе. Проведённые нами эксперименты показывают, что использование СУВСС существенно повышает точность рубрикации по сравнению с другими двумя мерами релевантности.