@ARTICLE{26583204_934278001_2024, 
	author = {Ф. В. Краснов}, 
	keywords = {, методы извлечения на основе эмбеддингов, информационный поиск, пороговые показателисемантический поиск},
	title = {<p class="text">Пороговые показатели полноты и точности для оценки системы извлечения информации о товарах на основе&nbsp;эмбеддингов</p>},
	journal = {Бизнес-информатика},
	year = {2024},
	number = {2 Vol 18},
	pages = {22-34},
	url = {https://bijournal.hse.ru/2024--2 Vol 18/934278001.html},
	publisher = {},
	abstract = {&nbsp; &nbsp; &nbsp; Современные системы извлечения информации о товарах для семантического поиска становятся все более сложными за счет использования дополнительных модальностей представления товаров, таких как пользовательское поведение, семантика языка и изображения. Однако добавление новой информации и усложнение моделей машинного обучения не обязательно ведут к улучшению показателей поиска, так как после извлечения производится ранжирование списка товаров, вносящее свое смещение. Тем не менее, бизнес-показатели продуктового поиска с ранжированием неполного списка товаров всегда будут хуже по сравнению с использованием полного списка, а от идеальной сортировки не соответствующих поисковому запросу товаров релевантность поисковой выдачи не улучшится. Поэтому основными показателями качества поиска для фазы извлечения товаров остаются полнота и точность по порогу k. В работе сопоставлено несколько архитектур систем извлечения товаров для семантического продуктового поиска на электронных торговых интернет-площадках. Для этого исследованы понятия пороговой полноты и точности для информационного поиска и выявлена зависимость этих показателей от порядка поисковой выдачи. Разработана автоматическая процедура расчета пороговой полноты и точности, позволяющая сравнивать эффективность систем извлечения информации. Предложенная автоматическая процедура протестирована на публичном наборе данных WANDS для нескольких ключевых архитектур. Полученные показатели полноты R@1000 = 84% &plusmn; 9% и точности P@10 = 67% &plusmn; 17% находятся на уровне SOTA моделей.},
	annote = {&nbsp; &nbsp; &nbsp; Современные системы извлечения информации о товарах для семантического поиска становятся все более сложными за счет использования дополнительных модальностей представления товаров, таких как пользовательское поведение, семантика языка и изображения. Однако добавление новой информации и усложнение моделей машинного обучения не обязательно ведут к улучшению показателей поиска, так как после извлечения производится ранжирование списка товаров, вносящее свое смещение. Тем не менее, бизнес-показатели продуктового поиска с ранжированием неполного списка товаров всегда будут хуже по сравнению с использованием полного списка, а от идеальной сортировки не соответствующих поисковому запросу товаров релевантность поисковой выдачи не улучшится. Поэтому основными показателями качества поиска для фазы извлечения товаров остаются полнота и точность по порогу k. В работе сопоставлено несколько архитектур систем извлечения товаров для семантического продуктового поиска на электронных торговых интернет-площадках. Для этого исследованы понятия пороговой полноты и точности для информационного поиска и выявлена зависимость этих показателей от порядка поисковой выдачи. Разработана автоматическая процедура расчета пороговой полноты и точности, позволяющая сравнивать эффективность систем извлечения информации. Предложенная автоматическая процедура протестирована на публичном наборе данных WANDS для нескольких ключевых архитектур. Полученные показатели полноты R@1000 = 84% &plusmn; 9% и точности P@10 = 67% &plusmn; 17% находятся на уровне SOTA моделей.}
}