@ARTICLE{26583204_128737467_2014, author = {Е. Л. Черняк and Б. Г. Миркин}, keywords = {, меры релевантности строка-текст, аннотированные суффиксные деревья, рубрикация текстовмера качества рубрикации}, title = {Использование мер релевантности строка-текст для автоматизации рубрикации научных статей}, journal = {Бизнес-информатика}, year = {2014}, number = {2 (28)}, pages = {51-62}, url = {https://bijournal.hse.ru/2014--2 (28)/128737467.html}, publisher = {}, abstract = {Черняк Екатерина Леонидовна - аспирант кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: echernyak@hse.ruМиркин Борис Григорьевич - доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: bmirkin@hse.ru      В большинстве задач семантического анализа текстовых материалов возникает потребность в использовании мер релевантности строка-текст.  К таким задачам относится и задача  рубрикации научных статей. Как правило, научные статьи индексируют согласно системе рубрик, заданной таксономией - иерархической структурой рубрик (или понятий). Например, в научных журналах международной Ассоциации вычислительной техники (ACM), наиболее авторитетной в области информатики организации, статьи проиндексированы их авторами с использованием специально разработанной многоуровневой таксономии ACM CCS. В работе исследуется возможность автоматизации рубрикации научных статей с использованием мер релевантности строка-текст: в качестве строк используются темы таксономии, а в качестве текстов - непосредственно тексты научных статей или некоторые их фрагменты. Мера релевантности строка-текст ставит им в соответствие некоторое число, которое может интерпретироваться по-разному в зависимости от используемой модели релевантности. Чем больше значение показателя релевантности, тем сильнее связь между строкой и текстом.      В статье проведено экспериментальное сравнение различных мер релевантности строка-текст для автоматизации рубрикации научных статей. В эксперименте участвуют три меры: (а) косинусная мера релевантности, основанная на традиционном кодировании текстов с использованием tf-idf весов термов, (б) популярная характеристика вероятности порождения термов BM25 и (в) предложенная авторами характеристика условной вероятности символа в фрагментах, выделенных с использованием аннотированного суффиксного дерева, СУВСС. Для эксперимента использованы аннотации статей, опубликованных в журналах ACM, и таксономия ACM CCS 2012. В результате применения каждой из этих трёх мер получаются автоматические рубрикации статей - списки таксономических тем, упорядоченных по убыванию оценки релевантности данной статье. Оценка качества полученных результатов осуществляется с помощью сравнения автоматической рубрикации с авторской: чем выше в соответствующем списке авторская тема, тем точнее получившаяся рубрикация. Точность рубрикации оценивается с помощью популярных мер MAP и nDCG, а также меры,   характеризующей количество вхождений авторских тем в топ списка,предложенной в данной работе. Проведённые нами эксперименты показывают, что использование СУВСС существенно повышает точность рубрикации по сравнению с другими двумя мерами релевантности.}, annote = {Черняк Екатерина Леонидовна - аспирант кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: echernyak@hse.ruМиркин Борис Григорьевич - доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: bmirkin@hse.ru      В большинстве задач семантического анализа текстовых материалов возникает потребность в использовании мер релевантности строка-текст.  К таким задачам относится и задача  рубрикации научных статей. Как правило, научные статьи индексируют согласно системе рубрик, заданной таксономией - иерархической структурой рубрик (или понятий). Например, в научных журналах международной Ассоциации вычислительной техники (ACM), наиболее авторитетной в области информатики организации, статьи проиндексированы их авторами с использованием специально разработанной многоуровневой таксономии ACM CCS. В работе исследуется возможность автоматизации рубрикации научных статей с использованием мер релевантности строка-текст: в качестве строк используются темы таксономии, а в качестве текстов - непосредственно тексты научных статей или некоторые их фрагменты. Мера релевантности строка-текст ставит им в соответствие некоторое число, которое может интерпретироваться по-разному в зависимости от используемой модели релевантности. Чем больше значение показателя релевантности, тем сильнее связь между строкой и текстом.      В статье проведено экспериментальное сравнение различных мер релевантности строка-текст для автоматизации рубрикации научных статей. В эксперименте участвуют три меры: (а) косинусная мера релевантности, основанная на традиционном кодировании текстов с использованием tf-idf весов термов, (б) популярная характеристика вероятности порождения термов BM25 и (в) предложенная авторами характеристика условной вероятности символа в фрагментах, выделенных с использованием аннотированного суффиксного дерева, СУВСС. Для эксперимента использованы аннотации статей, опубликованных в журналах ACM, и таксономия ACM CCS 2012. В результате применения каждой из этих трёх мер получаются автоматические рубрикации статей - списки таксономических тем, упорядоченных по убыванию оценки релевантности данной статье. Оценка качества полученных результатов осуществляется с помощью сравнения автоматической рубрикации с авторской: чем выше в соответствующем списке авторская тема, тем точнее получившаяся рубрикация. Точность рубрикации оценивается с помощью популярных мер MAP и nDCG, а также меры,   характеризующей количество вхождений авторских тем в топ списка,предложенной в данной работе. Проведённые нами эксперименты показывают, что использование СУВСС существенно повышает точность рубрикации по сравнению с другими двумя мерами релевантности.} }