Надежное обнаружение плагиата малым числом поисковых запросов

В. В. Дягилев; А. А. Цхай; С. В. Бутаков

Дягилев Вадим Викторович – аспирант кафедры высшей математики и математического моделирования, естественнонаучный факультет, Алтайский государственный технический университет им. И.И.Ползунова.
Адрес: 656038, Алтайский край, Барнаул, пр. Ленина, 46.
E-mail: dyagilev@mail.ru

Цхай Александр Андреевич – доктор технических наук, профессор, заведующий кафедрой математики и прикладной информатики в экономике, экономический факультет, Алтайская академия экономики и права.
Адрес: 656038, Алтайский край, Барнаул, Комсомольский пр., 82.
E-mail: taa1956@mail.ru

Бутаков Сергей Владимирович – кандидат технических наук, доцент кафедры математики и прикладной информатики в экономике, экономический факультет, Алтайская академия экономики и права.
Адрес: 656038, Алтайский край, Барнаул, Комсомольский пр., 82.
E-mail: sergey.butakov@gmail.com

В работе проанализированы известные подходы к обнаружению текстового плагиата и выявлены потенциальные проблемы, связанные с аутсорсингом поиска схожих документов в сети Интернет. Недостаток существующих систем состоит в том, что организация-контролер, оказывающая услуги по поиску плагиата, должна получить проверяемый документ полностью, что может быть не всегда приемлемо, например, с точки зрения авторского права.

На основе проведенного анализа представлена усовершенствованная архитектура системы обнаружения плагиата. Приведены результаты эксперимента, показывающего эффективность предложенного подхода. В предложенном варианте поисковый Интернет-сервис выделен в отдельный модуль, размещаемый на стороне организации-контролера. В отличие от традиционных архитектур предполагается, что контролер вместо проверяемого документа получает только некоторую его часть, содержащую ключевые фразы, которых достаточно для обнаружения идентичных фрагментов текста в сети Интернет. При этом контролер передает обратно только возможные источники заимствования, а детальное сравнение проводится на стороне клиента. Проведенный эксперимент связывает количество текста, заимствованного из документов, размещенных в глобальной сети, с качеством обнаружения плагиата малым числом запросов. Показано, что если объем заимствованного текста из сети Интернет составляет как минимум 5% от всего объема анализируемого на плагиат узкоспециализированного текста, то предложенный подход позволяет обнаруживать идентичные фрагменты по запросам, на основе которых практически невозможно полное восстановление исходного проверяемого текста. Для текстов общей направленности данный минимум несколько выше. В целом предложенный подход позволяет избежать необходимости посылать проверяемый документ организации-контролеру полностью.

Дягилев В. В., Цхай А. А., Бутаков С. В.

Надежное обнаружение плагиата малым числом поисковых запросов