@ARTICLE{26583204_143009551_2014, author = {М. О. Ланин}, keywords = {, система потокового ввода, документы полужесткой структуры, структурное описание изображения документа, опорные элементы, реперы, поля, разметка полей, методы машинного обучениячастотный словарь}, title = {

Автоматический поиск опорных элементов на документах полужесткой структуры

}, journal = {Бизнес-информатика}, year = {2014}, number = {4 (30)}, pages = {17-23}, url = {https://bijournal.hse.ru/2014--4 (30)/143009551.html}, publisher = {}, abstract = {Ланин Михаил Олегович - аспирант кафедры распознавания изображений и обработки текста, факультет инноваций и высоких технологий, Московский физико-технический институт (государственный университет); программист, ООО «Аби Продакшн».Адрес: 141700, Московская обл., г. Долгопрудный, Институтский пер., д. 9.E-mail: mike.lanin@gmail.com      Статья посвящена проблеме потокового извлечения данных из документов полужесткой структуры, для которых слабо применимы методы сплошного оптического распознавания символов. Для облегчения процесса создания структурных описаний таких документов широко используются методы машинного обучения. Тем не менее, существующие решения по-прежнему достаточно сложны для конечного пользователя, поскольку требуют ручного описания элементов структуры документа, не имеющих прямого отношения к извлекаемым данным.      В работе рассматривается возможный подход к описанию изображений документов переменной структуры, используемый в системе потокового ввода ABBYY FlexiCapture, а также метод автоматического построения такой структурной модели по разметке всех элементов структуры. Подробно описывается алгоритм автоматического поиска опорных элементов по пользовательской разметке извлекаемых данных, позволяющий значительно облегчить с точки зрения пользователя процесс создания структурной модели документа ABBYY FlexiCapture. Интеграция описанной технологии обучения на этапе верификации извлекаемых данных позволяет инкрементально улучшать структурную модель документа, при этом все, что требуется от конечного пользователя - исправлять неверно найденные в процессе ввода регионы извлекаемых полей. Также в статье описан метод и результат оценки эффективности предложенного подхода. Описанный способ поиска опорных элементов показал свою применимость на реальных платежных документах ряда немецких поставщиков: 89,3% счетов могут быть обработаны без ошибок при минимальном участии пользователя, при этом верно извлечены данные из 97,8% полей.}, annote = {Ланин Михаил Олегович - аспирант кафедры распознавания изображений и обработки текста, факультет инноваций и высоких технологий, Московский физико-технический институт (государственный университет); программист, ООО «Аби Продакшн».Адрес: 141700, Московская обл., г. Долгопрудный, Институтский пер., д. 9.E-mail: mike.lanin@gmail.com      Статья посвящена проблеме потокового извлечения данных из документов полужесткой структуры, для которых слабо применимы методы сплошного оптического распознавания символов. Для облегчения процесса создания структурных описаний таких документов широко используются методы машинного обучения. Тем не менее, существующие решения по-прежнему достаточно сложны для конечного пользователя, поскольку требуют ручного описания элементов структуры документа, не имеющих прямого отношения к извлекаемым данным.      В работе рассматривается возможный подход к описанию изображений документов переменной структуры, используемый в системе потокового ввода ABBYY FlexiCapture, а также метод автоматического построения такой структурной модели по разметке всех элементов структуры. Подробно описывается алгоритм автоматического поиска опорных элементов по пользовательской разметке извлекаемых данных, позволяющий значительно облегчить с точки зрения пользователя процесс создания структурной модели документа ABBYY FlexiCapture. Интеграция описанной технологии обучения на этапе верификации извлекаемых данных позволяет инкрементально улучшать структурную модель документа, при этом все, что требуется от конечного пользователя - исправлять неверно найденные в процессе ввода регионы извлекаемых полей. Также в статье описан метод и результат оценки эффективности предложенного подхода. Описанный способ поиска опорных элементов показал свою применимость на реальных платежных документах ряда немецких поставщиков: 89,3% счетов могут быть обработаны без ошибок при минимальном участии пользователя, при этом верно извлечены данные из 97,8% полей.} }