Алгоритмы для рекомендательной системы: технология LENCOR

А. Г. Дьяконов

Дьяконов Александр Геннадьевич – доктор физико-математических наук, доцент кафедры математических методов прогнозирования, факультет вычислительной математики и кибернетики, Московский государственный университет им. М.В.Ломоносова.
Адрес: 119991, Москва, ГСП-1, Ленинские горы, МГУ им. М.В.Ломоносова, 1, стр. 52.
E-mail: djakonov@mail.ru

В статье описаны алгоритмы, которые заняли первые места на Международном соревновании «ECML/PKDD Discovery Challenge 2011 (VideoLectures.Net Recommender System Challenge)» по написанию рекомендательной системы для ресурса VideoLectures.net (научного репозитария лекций). В работе охарактеризованы все альтернативные методы решения этой задачи, которые можно разбить на две группы: методы коллаборативной фильтрации (collaborative filtering) и контентные методы (content-based, information filtering).

Первые используют статистику поведения пользователей (например, рекомендуют товары и услуги, которые были интересны для похожих пользователей), а вторые – описания товаров и услуг (например, рекомендуют товары из той же категории, ценовой группы, сопутствующие товары и т.д.). Естественно, возможно одновременное использование методов двух групп (hybrid prediction), а также алгоритмов, основанных на априорном знании потребностей пользователей (knowledge-based).

Рассмотренные в статье методы LENKOR ориентированы на задачи со сложным заданием объектов (признаками разных типов и/или непризнаковым описанием), относительно малыми выборками (недостаточными для применения статистических методов), а также нетрадиционной функциональностью алгоритмов. Предложено ввести множество функций близости между объектами (каждая оценивает сходство по своему типу информации), сформировать общую формулу вычисления близости (как правило, в виде обычной линейной комбинации введенных функций), а также способ получения ответа. Затем следует произвести настройку алгоритма и изменение общей формулы, с внесением в нее нелинейностей.

Описанные алгоритмы достаточно просты, универсальны, допускают возможности распараллеливания. Решение получается в удобном виде, как вектор оценок. Для рекомендации некоторого количества лекций достаточно отобрать несколько наибольших элементов вектора, при этом параллельно можно получить оценки популярности каждой лекции. По сути, в основе технологии LENKOR лежат идеи алгебраического подхода: выбирается «правильная» база пространства векторов оценок, а затем настраивается алгебраическое выражение.

Предложенные методы могут использоваться для других типов задач: например, алгоритм решения задачи «холодный старт» может быть легко адаптирован к решению задач кредитного скоринга и оценки перспективности проектов.