@ARTICLE{26583204_128737467_2014, 
	author = {Е. Л. Черняк and Б. Г. Миркин}, 
	keywords = {, меры релевантности строка-текст, аннотированные суффиксные деревья, рубрикация текстовмера качества рубрикации},
	title = {Использование мер релевантности строка-текст для автоматизации рубрикации научных статей},
	journal = {Бизнес-информатика},
	year = {2014},
	number = {2 (28)},
	pages = {51-62},
	url = {https://bijournal.hse.ru/2014--2 (28)/128737467.html},
	publisher = {},
	abstract = {Черняк Екатерина Леонидовна -&nbsp;аспирант кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: echernyak@hse.ruМиркин Борис Григорьевич -&nbsp;доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: bmirkin@hse.ru&nbsp; &nbsp; &nbsp; В большинстве задач семантического анализа текстовых материалов возникает потребность в использовании мер релевантности строка-текст.&nbsp; К таким задачам относится и задача&nbsp; рубрикации научных статей. Как правило, научные статьи индексируют согласно системе рубрик, заданной таксономией - иерархической структурой рубрик (или понятий). Например, в научных журналах международной Ассоциации вычислительной техники (ACM), наиболее авторитетной в области информатики организации, статьи проиндексированы их авторами с использованием специально разработанной многоуровневой таксономии ACM CCS. В работе исследуется возможность автоматизации рубрикации научных статей с использованием мер релевантности строка-текст: в качестве строк используются темы таксономии, а в качестве текстов - непосредственно тексты научных статей или некоторые их фрагменты. Мера релевантности строка-текст ставит им в соответствие некоторое число, которое может интерпретироваться по-разному в зависимости от используемой модели релевантности. Чем больше значение показателя релевантности, тем сильнее связь между строкой и текстом.&nbsp; &nbsp; &nbsp; В статье проведено экспериментальное сравнение различных мер релевантности строка-текст для автоматизации рубрикации научных статей. В эксперименте участвуют три меры: (а) косинусная мера релевантности, основанная на традиционном кодировании текстов с использованием tf-idf весов термов, (б) популярная характеристика вероятности порождения термов BM25 и (в) предложенная авторами характеристика условной вероятности символа в фрагментах, выделенных с использованием аннотированного суффиксного дерева, СУВСС. Для эксперимента использованы аннотации статей, опубликованных в журналах ACM, и таксономия ACM CCS 2012. В результате применения каждой из этих трёх мер получаются автоматические рубрикации статей - списки таксономических тем, упорядоченных по убыванию оценки релевантности данной статье. Оценка качества полученных результатов осуществляется с помощью сравнения автоматической рубрикации с авторской: чем выше в соответствующем списке авторская тема, тем точнее получившаяся рубрикация. Точность рубрикации оценивается с помощью популярных мер MAP и nDCG, а также меры,&nbsp; &nbsp;характеризующей количество вхождений авторских тем в топ списка,предложенной в данной работе. Проведённые нами эксперименты показывают, что использование СУВСС существенно повышает точность рубрикации по сравнению с другими двумя мерами релевантности.},
	annote = {Черняк Екатерина Леонидовна -&nbsp;аспирант кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: echernyak@hse.ruМиркин Борис Григорьевич -&nbsp;доктор технических наук, профессор кафедры анализа данных и искусственного интеллекта, отделение прикладной математики и информатики, факультет бизнес-информатики, Национальный исследовательский университет «Высшая школа экономики».Адрес: 101000, Москва, Мясницкая ул., 20.E-mail: bmirkin@hse.ru&nbsp; &nbsp; &nbsp; В большинстве задач семантического анализа текстовых материалов возникает потребность в использовании мер релевантности строка-текст.&nbsp; К таким задачам относится и задача&nbsp; рубрикации научных статей. Как правило, научные статьи индексируют согласно системе рубрик, заданной таксономией - иерархической структурой рубрик (или понятий). Например, в научных журналах международной Ассоциации вычислительной техники (ACM), наиболее авторитетной в области информатики организации, статьи проиндексированы их авторами с использованием специально разработанной многоуровневой таксономии ACM CCS. В работе исследуется возможность автоматизации рубрикации научных статей с использованием мер релевантности строка-текст: в качестве строк используются темы таксономии, а в качестве текстов - непосредственно тексты научных статей или некоторые их фрагменты. Мера релевантности строка-текст ставит им в соответствие некоторое число, которое может интерпретироваться по-разному в зависимости от используемой модели релевантности. Чем больше значение показателя релевантности, тем сильнее связь между строкой и текстом.&nbsp; &nbsp; &nbsp; В статье проведено экспериментальное сравнение различных мер релевантности строка-текст для автоматизации рубрикации научных статей. В эксперименте участвуют три меры: (а) косинусная мера релевантности, основанная на традиционном кодировании текстов с использованием tf-idf весов термов, (б) популярная характеристика вероятности порождения термов BM25 и (в) предложенная авторами характеристика условной вероятности символа в фрагментах, выделенных с использованием аннотированного суффиксного дерева, СУВСС. Для эксперимента использованы аннотации статей, опубликованных в журналах ACM, и таксономия ACM CCS 2012. В результате применения каждой из этих трёх мер получаются автоматические рубрикации статей - списки таксономических тем, упорядоченных по убыванию оценки релевантности данной статье. Оценка качества полученных результатов осуществляется с помощью сравнения автоматической рубрикации с авторской: чем выше в соответствующем списке авторская тема, тем точнее получившаяся рубрикация. Точность рубрикации оценивается с помощью популярных мер MAP и nDCG, а также меры,&nbsp; &nbsp;характеризующей количество вхождений авторских тем в топ списка,предложенной в данной работе. Проведённые нами эксперименты показывают, что использование СУВСС существенно повышает точность рубрикации по сравнению с другими двумя мерами релевантности.}
}