Скрыть
Раскрыть

ISSN 1998-0663 (print),
ISSN 2587-8166 (online)

English version: ISSN 2587-814X (print),
ISSN 2587-8158 (online)

Орлов М. А. 1
  • 1 НИУ ВШЭ, 101000, Россия, Москва, ул. Мясницкая, д.20

Алгоритм формирования многокритериальной стратификации

2014. № 4 (30). С. 24–35 [содержание номера]

Орлов Михаил Анатольевич - аспирант кафедры анализа данных и искусственного интеллекта, факультет компьютерных наук, Национальный исследовательский университет «Высшая школа экономики».
Адрес: 101000, Москва, Мясницкая ул., 20.
E-mail: ormian@mail.ru 

      Данная работа развивает подход к проблеме многокритериального ранжирования, называемый нами многокритериальной стратификацией. При таком подходе представляет интерес не столько полное упорядочивание вариантов, сколько разбиение множества вариантов на заданное число классов, упорядоченных по предпочтению. Ранжирование получается путем линейной свертки критериев с весами. При этом веса определяются, исходя из предположения о наличии некоторой структуры в данных, такой что можно выделить «параллельные» слои – страты.  
      В работе [6] авторы сформулировали задачу формирования оптимальной стратификации, как задачу оптимизации некоторой целевой функции относительно весов критериев, однако, предложенный в этой работе алгоритм решения получаемой задачи, использующий случайный поиск, оказался неэффективным по сравнению с другими методами стратификации.
      В данной работе предлагается новый алгоритм оптимизации целевой функции многокритериальной стратификации на основе квадратичного программирования. Для всестороннего экспериментального исследования качества работы алгоритма предлагается усовершенствованная модель генерации искусственных стратифицированных данных. Новая модель генерации страт имеет больше параметров для настройки и позволяет гибко задавать геометрию страт: ориентацию, толщину, размах и интенсивность, что лучше учитывает структуру реальных данных.  Предлагаемый алгоритм экспериментально сравнивается с существующими методами стратификации на искусственных данных, и показывается его преимущество в большинстве рассмотренных случаев. Рассматриваются два примера реальных данных – библиометрические показатели 118 научных журналов и характеристики публикационной активности 102 стран. На этих данных новый алгоритм приводит к хорошо интерпретируемым и адекватным результатам. Также оказалось, что на этих данных построенное алгоритмом многокритериальное разбиение наиболее согласовано с разбиениями, построенными по отдельно взятым критериям. 

BiBTeX
RIS
 
 
Rambler's Top100 rss