TY - JOUR TI - Использование мер релевантности строка-текст для автоматизации рубрикации научных статей T2 - Бизнес-информатика IS - Бизнес-информатика KW - меры релевантности строка-текст KW - аннотированные суффиксные деревья KW - рубрикация текстов KW - мера качества рубрикации AB - Черняк Екатерина Леонидовна - аспирант кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: echernyak@hse.ruМиркин Борис Григорьевич - доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: bmirkin@hse.ru      В большинстве задач семантического анализа текстовых материалов возникает потребность в использовании мер релевантности строка-текст.  К таким задачам относится и задача  рубрикации научных статей. Как правило, научные статьи индексируют согласно системе рубрик, заданной таксономией - иерархической структурой рубрик (или понятий). Например, в научных журналах международной Ассоциации вычислительной техники (ACM), наиболее авторитетной в области информатики организации, статьи проиндексированы их авторами с использованием специально разработанной многоуровневой таксономии ACM CCS. В работе исследуется возможность автоматизации рубрикации научных статей с использованием мер релевантности строка-текст: в качестве строк используются темы таксономии, а в качестве текстов - непосредственно тексты научных статей или некоторые их фрагменты. Мера релевантности строка-текст ставит им в соответствие некоторое число, которое может интерпретироваться по-разному в зависимости от используемой модели релевантности. Чем больше значение показателя релевантности, тем сильнее связь между строкой и текстом.      В статье проведено экспериментальное сравнение различных мер релевантности строка-текст для автоматизации рубрикации научных статей. В эксперименте участвуют три меры: (а) косинусная мера релевантности, основанная на традиционном кодировании текстов с использованием tf-idf весов термов, (б) популярная характеристика вероятности порождения термов BM25 и (в) предложенная авторами характеристика условной вероятности символа в фрагментах, выделенных с использованием аннотированного суффиксного дерева, СУВСС. Для эксперимента использованы аннотации статей, опубликованных в журналах ACM, и таксономия ACM CCS 2012. В результате применения каждой из этих трёх мер получаются автоматические рубрикации статей - списки таксономических тем, упорядоченных по убыванию оценки релевантности данной статье. Оценка качества полученных результатов осуществляется с помощью сравнения автоматической рубрикации с авторской: чем выше в соответствующем списке авторская тема, тем точнее получившаяся рубрикация. Точность рубрикации оценивается с помощью популярных мер MAP и nDCG, а также меры,   характеризующей количество вхождений авторских тем в топ списка,предложенной в данной работе. Проведённые нами эксперименты показывают, что использование СУВСС существенно повышает точность рубрикации по сравнению с другими двумя мерами релевантности. AU - Е. Л. Черняк AU - Б. Г. Миркин UR - https://bijournal.hse.ru/2014--2 (28)/128737467.html PY - 2014 SP - 51-62 VL -