TY - JOUR TI -

Пороговые показатели полноты и точности для оценки системы извлечения информации о товарах на основе эмбеддингов

T2 - Бизнес-информатика IS - Бизнес-информатика KW - методы извлечения на основе эмбеддингов KW - информационный поиск KW - пороговые показатели KW - семантический поиск AB -       Современные системы извлечения информации о товарах для семантического поиска становятся все более сложными за счет использования дополнительных модальностей представления товаров, таких как пользовательское поведение, семантика языка и изображения. Однако добавление новой информации и усложнение моделей машинного обучения не обязательно ведут к улучшению показателей поиска, так как после извлечения производится ранжирование списка товаров, вносящее свое смещение. Тем не менее, бизнес-показатели продуктового поиска с ранжированием неполного списка товаров всегда будут хуже по сравнению с использованием полного списка, а от идеальной сортировки не соответствующих поисковому запросу товаров релевантность поисковой выдачи не улучшится. Поэтому основными показателями качества поиска для фазы извлечения товаров остаются полнота и точность по порогу k. В работе сопоставлено несколько архитектур систем извлечения товаров для семантического продуктового поиска на электронных торговых интернет-площадках. Для этого исследованы понятия пороговой полноты и точности для информационного поиска и выявлена зависимость этих показателей от порядка поисковой выдачи. Разработана автоматическая процедура расчета пороговой полноты и точности, позволяющая сравнивать эффективность систем извлечения информации. Предложенная автоматическая процедура протестирована на публичном наборе данных WANDS для нескольких ключевых архитектур. Полученные показатели полноты R@1000 = 84% ± 9% и точности P@10 = 67% ± 17% находятся на уровне SOTA моделей. AU - Ф. В. Краснов UR - https://bijournal.hse.ru/2024--2 Vol 18/934278001.html PY - 2024 SP - 22-34 VL -