@ARTICLE{26583204_965601920_2024, author = {Ю. А. Зеленков and Е. В. Лашкевич}, keywords = {, контрфактуальные объяснения, генерация синтетических данных, моделирование мультимодальных распределений, байесовская сетькредитный скоринг}, title = {

Контрфактуальные объяснения на основе генерации синтетических данных

}, journal = {Бизнес-информатика}, year = {2024}, number = {3 Vol 18}, pages = {24-40}, url = {https://bijournal.hse.ru/2024--3 Vol 18/965601920.html}, publisher = {}, abstract = {      Контрфактуальное объяснение - это генерация для заданного экземпляра множества объектов, которые принадлежат к противоположному классу, но находятся в пространстве признаков максимально близко к объясняемому фактуалу. Известные алгоритмы, решающие эту задачу, как правило, основаны на сложных моделях, требующих большого объема обучающих данных и значительных вычислительных затрат. В данной статье предлагается метод, который включает два этапа. На первом этапе на основе простых статистических моделей (гауссовская копула, последовательная модель на основе условных распределений, байесовская сеть и др.) генерируется синтетическое множество потенциальных контрфактуалов, на втором - производится отбор объектов, удовлетворяющих ограничениям правдоподобия, близости, разнообразия и т.д. Такая организация позволяет сделать процесс прозрачным, управляемым и повторно использовать модели генерации. Эксперименты на трех свободно распространяемых наборах данных показали, что предложенный метод позволяет добиться результатов, как минимум, сравнимых с известными алгоритмами контрфактуальных объяснений, а в ряде случаев их превосходит, особенно на малых наборах данных. Наиболее эффективной моделью генерации при этом является байесовская сеть.}, annote = {      Контрфактуальное объяснение - это генерация для заданного экземпляра множества объектов, которые принадлежат к противоположному классу, но находятся в пространстве признаков максимально близко к объясняемому фактуалу. Известные алгоритмы, решающие эту задачу, как правило, основаны на сложных моделях, требующих большого объема обучающих данных и значительных вычислительных затрат. В данной статье предлагается метод, который включает два этапа. На первом этапе на основе простых статистических моделей (гауссовская копула, последовательная модель на основе условных распределений, байесовская сеть и др.) генерируется синтетическое множество потенциальных контрфактуалов, на втором - производится отбор объектов, удовлетворяющих ограничениям правдоподобия, близости, разнообразия и т.д. Такая организация позволяет сделать процесс прозрачным, управляемым и повторно использовать модели генерации. Эксперименты на трех свободно распространяемых наборах данных показали, что предложенный метод позволяет добиться результатов, как минимум, сравнимых с известными алгоритмами контрфактуальных объяснений, а в ряде случаев их превосходит, особенно на малых наборах данных. Наиболее эффективной моделью генерации при этом является байесовская сеть.} }