Оцифровка стала легкой благодаря OCR и ICR.

Оцифровка и хранение документов в цифровом виде с помощью OCR и ICR

By Tobias Mohr On Дек 4, 2020

Хотя оцифровка продвигается вперед, даже сегодня компании все еще имеют широкий спектр документов, доступных только в рукописной или машинописной форме. Оптическое распознавание символов (OCR) и интеллектуальное распознавание символов (ICR) обеспечивают здесь исправление и много новых возможностей для упрощения процессов.

Оцифровка продвигается, но что делается с обычными документами, которые до сих пор были доступны только в письменной форме? Даже если они, возможно, уже были отсканированы, они часто остаются неисследованными, потому что состоят только из объединенной растровой графики.

Даже лучшее разрешение бесполезно, если текст не редактируется компьютером. И еще есть рукописные заметки, такие как протокол заседания или расшифровка стенограмм, которые, в конечном счете, должны быть кропотливо перенесены в цифровую систему. Так что же делать?

Index

Печать была вчера, сегодня — OCR.

В случае шаблонов, которые существуют только тактильно, например, старые файлы и документы, программное обеспечение для сканирования с помощью OCR может помочь вам создать редактируемый текст из шаблона изображения. Можно также снимать сфотографированные документы или другие файлы на основе пикселей. Для этого вам понадобится программное обеспечение для распознавания текста и основательная система OCR, например, от KADMOS, ABBYY и др.

Что такое OCR?

OCR означает «оптическое распознавание символов» и, таким образом, процесс, который генерирует текст из шаблона изображения с помощью сканирования, шаблона и вычислительной схемы. Это делается с помощью обычного сканера. После этого сгенерированный таким образом шаблон загружается в программу распознавания текста. Движок OCR анализирует теперь изображение по отношению к его компонентам, так что он может легко распознать, какая часть отсканированного документа является изображением, какой текст. Этот шаг очень важен для последующего монтажа.

Теперь детали, распознанные как текст, сравниваются с образцами и свойствами, доступными в программе. Соответствует ли это накопление пикселей символу или букве? Оценка анализа различными алгоритмами делает такое решение возможным для компьютера. Таким образом, программа распознает текст строка за строкой и в конце концов вновь собирает документ в соответствии с начальным анализом. Изображение превратилось в редактируемый документ с возможностью поиска. Затем документ сохраняется в требуемом формате PDF, DOC или в другом формате.

Распознавание рукописного текста благодаря ICR

ICR (Интеллектуальное Распознавание Символов) является логическим развитием OCR. Это подробный анализ и оценка результатов сканирования, в том числе с учетом семантического контекста. Это означает, что после захвата изображения содержимое не только разделяется на текст и изображение, но и внутри текста анализируется, целесообразно ли использовать это письмо с точки зрения содержания. Особенно при использовании символов схожего вида, таких как «8» или «B», эта техника значительно повысила точность цифрового распознавания текста. Даже если на оригиналах уже имеются выцветшие буквы в связи с возрастом, их часто можно распознать и оцифровать без проблем благодаря ICR.
Большой областью для ICR является распознавание рукописных текстов, что часто было проблемой для программного обеспечения распознавания текста. Однако с помощью встроенной ICR их можно без проблем оцифровывать.

Приложения для OCR и ICR

Во времена сетевого взаимодействия цифровое извлечение информации в собственной сети компании так же важно, как и в архивных документах. С помощью программного обеспечения для распознавания текста, которое интегрировало OCR и ICR, можно защитить существующие бумажные архивы и содержащееся в них важное содержание от распада и сделать их юридически доступными в долгосрочной перспективе. Это относится и к историческим документам, написанным шрифтом Фрактур!

OCR/ICR также может использоваться для упрощения процессов сортировки, например, для входящей почты или в административных почтовых ящиках. Здесь характеристики на конвертах и/или пакетах могут быть распознаны, а затем перенесены в существующие системы сортировки. Полнотекстовое распознавание и поиск делают возможным обработку и полное распознавание документов. Это относится как к структурированным документам, таким как бланки, рецепты и бланки банковских переводов, так и к полуструктурированным текстам, таким как счета-фактуры или накладные, или даже к непрерывным текстам, не структурированным — например, письмам с жалобами и другим входящим сообщениям. Все эти типы документов также могут быть захвачены из облака — OCR обеспечивает положительную поддержку сетевых процессов. Экономия времени является значительной, и сокращение количества ошибок по сравнению с ручным захватом также впечатляет.

В бухгалтерии или даже в организации программное обеспечение для захвата текста может быть использовано для автоматического сканирования документов и автоматической передачи полученных данных в соответствующие программы для дальнейшей обработки. Таким образом, ошибки при наборе текста могут быть сведены к минимуму, а подача важных документов осуществляется в одно и то же время.

Особенно в цифровую эпоху Вы можете воспользоваться преимуществами технологии в мобильной области. Отчеты и формы о расходах на проезд могут быть признаны и обработаны позднее. Показания счетчиков, например, нагревателей, счетчиков воды и т.п., также могут быть сфотографированы, а затем отправлены на дальнейшую обработку в собственном процессе.

Во все более укореняющейся области Industry 4.0 такие технологии, как технология OCR, позволяют получать информацию с экранов и машин без перерывов. Таким образом, удается избежать дорогостоящих запусков и задержек. Ваше производство может быть продолжено, и Вы все равно без труда получите необходимую информацию и факты.

Особенно успешным было использование в аптечном секторе наборов программного обеспечения OCR/ICR от поставщика информационных технологий. Здесь несколько миллионов рецептов и рецептов по всей Германии были импортированы машиной. Коэффициент ошибок остался ниже 5%. Благодаря чтению рецептов у стойки были сохранены сотни человеко-часов и значительно оптимизирован процесс оцифровки.

Поэтому становится очевидным, что программное обеспечение OCR/ICR будет все больше и больше приводить в движение оцифровку аналоговых документов.

Tobias Mohr

Chief Executive Officer der KADMOS GmbH, einem der weltweit führenden Unternehmen im Bereich von Schriftenerkennung OCR und ICR, mit über 20 Jahren Management Erfahrung in internationalen Dokumenten Management und Capture Unternehmen.