@ARTICLE{26583204_208606327_2017, 
	author = {С. А. Фомин and Р. Л. Белоусов}, 
	keywords = {, коллекция коротких текстовых сообщений, кластеризация текстов, нечеткие дубликаты, векторная модель семантикинейронная сеть},
	title = {<p class="text">Поиск семантических дубликатов в коротких новостных сообщениях</p>},
	journal = {Бизнес-информатика},
	year = {2017},
	number = {2 (40)},
	pages = {47-56},
	url = {https://bijournal.hse.ru/2017--2 (40)/208606327.html},
	publisher = {},
	abstract = {С.А.&nbsp;Фомин -&nbsp;бакалавр технических наук, оператор лаборатории&nbsp;научно-исследовательского центра, Академия гражданской защиты МЧС РоссииАдрес: 141435, Московская область, г. Химки, мкр. НовогорскE-mail: sergio-dna@yandex.ruР.Л.&nbsp;Белоусов -&nbsp;кандидат технических наук, научный сотрудник научно-исследовательского центра,&nbsp;Академия гражданской защиты МЧС РоссииАдрес: 141435, Московская область, г. Химки, мкр. НовогорскE-mail: romabel-87@mail.ru&nbsp; &nbsp; &nbsp; В статье рассмотрена задача, связанная с обнаружением публикаций, схожих по смыслу, а также публикаций, посвященных одному событию. Особенность решаемой задачи заключается в том, что в качестве публикаций рассматриваются короткие новостные сообщения, средняя длина которых составляет 40 слов. Для решения указанной задачи разработан алгоритм, в основу которого положена векторная модель семантики, где каждый текст рассматривается как точка в многомерном пространстве. Преобразование корпуса текстов в матрицу производится с помощью меры TF-IDF. Необходимо отметить, что даже для небольших корпусов (объемом порядка 800 сообщений) размерность векторного пространства может превосходить 2000 компонент, а в среднем размерность составляет около 8500 компонент. Для сокращения размерности пространства используется метод главных компонент. Его применение позволяет рационально сократить размерность пространства и оставить около трех процентов компонент от их исходного количества.&nbsp; &nbsp; &nbsp; В сокращенном пространстве для объединения векторов в кластеры применяется агломеративная иерархическая кластеризация по алгоритму Ланса-Уильямса, который запускает процесс слияния кластеров. Слияние кластеров производится с помощью вычисления расстояния между ближайшими элементами этих кластеров. Процесс слияния кластеров прекращается в том случае, если расстояние между двумя кластерами превышает некоторое значениеr.&nbsp; &nbsp; &nbsp; При проведении численного эксперимента построена регрессионная модель, позволяющая найти наиболее подходящее значение параметра r для каждого корпуса сообщений. В качестве исходных данных для проведения численного эксперимента использовалась коллекция коротких новостей, общий объем которых составляет около 135 тысяч сообщений.&nbsp; &nbsp; &nbsp; Разработанный алгоритм имеет достаточно высокие показатели качества, которые учитывают, с одной стороны, способность классифицировать парытекстовых сообщений как семантические дубликаты, а с другой - способность объединять найденные дубликаты в группы.&nbsp;},
	annote = {С.А.&nbsp;Фомин -&nbsp;бакалавр технических наук, оператор лаборатории&nbsp;научно-исследовательского центра, Академия гражданской защиты МЧС РоссииАдрес: 141435, Московская область, г. Химки, мкр. НовогорскE-mail: sergio-dna@yandex.ruР.Л.&nbsp;Белоусов -&nbsp;кандидат технических наук, научный сотрудник научно-исследовательского центра,&nbsp;Академия гражданской защиты МЧС РоссииАдрес: 141435, Московская область, г. Химки, мкр. НовогорскE-mail: romabel-87@mail.ru&nbsp; &nbsp; &nbsp; В статье рассмотрена задача, связанная с обнаружением публикаций, схожих по смыслу, а также публикаций, посвященных одному событию. Особенность решаемой задачи заключается в том, что в качестве публикаций рассматриваются короткие новостные сообщения, средняя длина которых составляет 40 слов. Для решения указанной задачи разработан алгоритм, в основу которого положена векторная модель семантики, где каждый текст рассматривается как точка в многомерном пространстве. Преобразование корпуса текстов в матрицу производится с помощью меры TF-IDF. Необходимо отметить, что даже для небольших корпусов (объемом порядка 800 сообщений) размерность векторного пространства может превосходить 2000 компонент, а в среднем размерность составляет около 8500 компонент. Для сокращения размерности пространства используется метод главных компонент. Его применение позволяет рационально сократить размерность пространства и оставить около трех процентов компонент от их исходного количества.&nbsp; &nbsp; &nbsp; В сокращенном пространстве для объединения векторов в кластеры применяется агломеративная иерархическая кластеризация по алгоритму Ланса-Уильямса, который запускает процесс слияния кластеров. Слияние кластеров производится с помощью вычисления расстояния между ближайшими элементами этих кластеров. Процесс слияния кластеров прекращается в том случае, если расстояние между двумя кластерами превышает некоторое значениеr.&nbsp; &nbsp; &nbsp; При проведении численного эксперимента построена регрессионная модель, позволяющая найти наиболее подходящее значение параметра r для каждого корпуса сообщений. В качестве исходных данных для проведения численного эксперимента использовалась коллекция коротких новостей, общий объем которых составляет около 135 тысяч сообщений.&nbsp; &nbsp; &nbsp; Разработанный алгоритм имеет достаточно высокие показатели качества, которые учитывают, с одной стороны, способность классифицировать парытекстовых сообщений как семантические дубликаты, а с другой - способность объединять найденные дубликаты в группы.&nbsp;}
}