Скрыть
Раскрыть

ISSN 1998-0663 (print),
ISSN 2587-8166 (online)

English version: ISSN 2587-814X (print),
ISSN 2587-8158 (online)

Ланин М. О.1
  • 1 Московский физико-технический институт (государственный университет); программист, ООО «Аби Продакшн», 141700, Московская обл., г. Долгопрудный, Институтский пер., д. 9

Автоматический поиск опорных элементов на документах полужесткой структуры

2014. № 4 (30). С. 17–23 [содержание номера]

Ланин Михаил Олегович - аспирант кафедры распознавания изображений и обработки текста, факультет инноваций и высоких технологий, Московский физико-технический институт (государственный университет); программист, ООО «Аби Продакшн».
Адрес: 141700, Московская обл., г. Долгопрудный, Институтский пер., д. 9.
E-mail: mike.lanin@gmail.com

      Статья посвящена проблеме потокового извлечения данных из документов полужесткой структуры, для которых слабо применимы методы сплошного оптического распознавания символов. Для облегчения процесса создания структурных описаний таких документов широко используются методы машинного обучения. Тем не менее, существующие решения по-прежнему достаточно сложны для конечного пользователя, поскольку требуют ручного описания элементов структуры документа, не имеющих прямого отношения к извлекаемым данным.
      В работе рассматривается возможный подход к описанию изображений документов переменной структуры, используемый в системе потокового ввода ABBYY FlexiCapture, а также метод автоматического построения такой структурной модели по разметке всех элементов структуры. Подробно описывается алгоритм автоматического поиска опорных элементов по пользовательской разметке извлекаемых данных, позволяющий значительно облегчить с точки зрения пользователя процесс создания структурной модели документа ABBYY FlexiCapture. Интеграция описанной технологии обучения на этапе верификации извлекаемых данных позволяет инкрементально улучшать структурную модель документа, при этом все, что требуется от конечного пользователя – исправлять неверно найденные в процессе ввода регионы извлекаемых полей. Также в статье описан метод и результат оценки эффективности предложенного подхода. Описанный способ поиска опорных элементов показал свою применимость на реальных платежных документах ряда немецких поставщиков: 89,3% счетов могут быть обработаны без ошибок при минимальном участии пользователя, при этом верно извлечены данные из 97,8% полей.

BiBTeX
RIS
 
 
Rambler's Top100 rss