Digitalisierung leicht gemacht mit OCR und ICR

Mit Hilfe vovn OCR und ICR die Dokumente digitalisieren und digital abzulegen

Obwohl die Digitalisierung voranschreitet, sind in Unternehmen auch heute noch die verschiedensten Dokumente nur in hand- oder maschinenschriftlicher Form vorhanden. Hier schaffen Optical Character Recognition (OCR) und Intelligent Character Recognition (ICR) Abhilfe und viele neue Möglichkeiten der Vereinfachung von Prozessen.

Die Digitalisierung schreitet voran, doch was macht man mit den herkömmlichen Dokumenten, welche bisher nur in Schriftform vorhanden sind? Auch wenn diese vielleicht schon gescannt sind, bleiben Sie häufig undurchsuchbar, weil diese nur aus zusammengefügten Rastergrafiken bestehen.

Auch die beste Auflösung nützt nichts, wenn der Text für den Computer nicht bearbeitbar ist. Und dann gibt es noch die handschriftlichen Notizen, etwa bei Meetingprotokollen oder Mitschriften, welche letztlich aufwendig in das digitale System übertragen werden müssen. Was also tun?

Abtippen war gestern, heute ist OCR.

Bei Vorlagen, die nur haptisch vorhanden sind, etwa alte Akten und Dokumente kann Ihnen eine Scansoftware mit OCR helfen, aus einer Bildvorlage einen bearbeitbaren Text zu schaffen. Auch abfotografierte Unterlagen oder andere pixelbasierte Dateien können hiermit erfasst werden. Hierfür benötigen Sie eine Texterkennungssoftware und eine möglichst gründliche OCR-Engine, wie z.B. von KADMOS, ABBYY etc.

Was ist OCR?

OCR steht für „Optical Character Recognition“ (Optische Zeichenerkennung) und damit für ein Verfahren, das aus der Bildvorlage mittels Scan, Muster und Berechnungsschema einen Text generiert. Dabei erfolgt das Erfassen auf einem normalen Scanner. Anschließend wird die so generierte Vorlage in das Texterkennungsprogramm eingeladen. Die OCR-Engine analysiert nun das Bild hinsichtlich der Bestandteile, sodass es problemlos erkennt, welcher Teil des eingescannten Dokumentes Bild, welcher Text ist. Dieser Schritt ist für das spätere Zusammensetzen sehr wichtig.

Nun werden die Teile, welche als Text erkannt wurden, mit im Programm vorhandenen Mustern und Eigenschaften verglichen. Entspricht diese Ansammlung von Pixeln eher einem Symbol oder einem Buchstaben? Die Bewertung der Analyse durch verschiedene Algorithmen macht eine solche Entscheidung für den Computer möglich. So erkennt das Programm Zeile für Zeile den Text und setzt zum Schluss das Dokument entsprechend der Ausgangsanalyse wieder zusammen. Aus dem Bild ist ein bearbeitbares, durchsuchbares Dokument geworden. Die Speicherung erfolgt dann nach Wunsch in ein PDF, DOC oder sonstiges Dateiformat.

Handgeschriebenes erkennen dank ICR

Als ICR (Intelligent Character Recognition) bezeichnet man die logische Weiterentwicklung des OCR. Hierbei handelt es sich um eine detaillierte Analyse und Bewertung des Scanergebnisses auch hinsichtlich des semantischen Zusammenhangs. Das heißt, dass nach dem Erfassen eines Bildinhaltes nicht nur in Text und Bild getrennt wird, sondern innerhalb des Textes auch analysiert wird, ob es inhaltlich auch sinnvoll ist diesen Buchstaben zu verwenden. Insbesondere bei ähnlich ausschauenden Zeichen wie zum Beispiel „8“ oder „B“ brachte diese Technik eine starke Verbesserung der Genauigkeit von digitaler Texterkennung. Auch wenn die Vorlagen aufgrund des Alters bereits ausgeblichene Buchstaben aufzeigen, können diese häufig dank ICR problemlos erkannt und digitalisiert werden.
Ein großer Bereich für die ICR ist die Erkennung von handgeschriebenen Texten, an denen bisher häufig Texterkennungssoftware gescheitert ist. Mit eingebundenen ICR ist es jedoch möglich auch diese unproblematisch zu digitalisieren.

Einsatzbereiche für OCR und ICR

In Zeiten der Vernetzung ist das digitale Auffinden von Informationen im eigenen Firmennetzwerk genauso wichtig wie in den archivierten Dokumenten. Mittels Texterkennungssoftware, welche OCR und ICR eingebunden haben, ist es möglich, vorhandene Papierarchive und die wichtigen Inhalte darin vor dem Verfall zu schützen und auch langfristig rechtssicher zugänglich zu machen. Das gilt auch für historische Dokumente in Frakturschrift!

Auch kann OCR/ICR eingesetzt werden um Sortierungsvorgänge, etwa beim Posteingang oder in Verwaltungseingängen zu vereinfachen. Hier können Merkmale auf Briefumschlägen und/oder Versandstücke erkannt werden und dann in vorhandene Sortieranlagen übergeben werden. Dabei macht die Volltexterkennung und Suche die Verarbeitung und komplette Dokumentenerkennung möglich. Das gilt für strukturierte Dokumente wie etwa Formulare, Rezepte und Überweisungsträger genauso wie für semi-strukturierte Texte, etwa Rechnungen, oder Lieferscheine oder auch Fließtexte ohne Strukturierung – etwa Beschwerdebriefe und weitere Posteingänge. All diese Arten der Dokumente können auch aus einer Cloud erfasst werden – der Vernetzung Ihrer Vorgänge steht OCR positiv unterstützend zur Seite. Die Zeitersparnis ist erheblich und auch die Fehlerreduktion gegenüber manueller Erfassung kann sich sehen lassen.

In der Buchhaltung oder auch der Organisation kann die Texterfassungssoftware eingesetzt werden, um Belege automatisch einzuscannen und die gewonnenen Daten automatisch den entsprechenden Programmen zur weiteren Bearbeitung zu übertragen. So können Tippfehler minimiert werden und die Ablage wichtiger Dokumente ist gleichzeitig erfolgt.

Gerade im digitalen Zeitalter profitieren Sie von der Technologie auch im mobilen Bereich. Reisekostenabrechnungen und Formulare können so erkannt und später verarbeitet werden. Auch Zählerstände von etwa Heizungen, Wasserzählern oder dergleichen können fotografisch aufgenommen werden und dann zur weiteren Verarbeitung im unternehmenseigenen Prozess übersendet werden.

Im sich immer stärker etablierenden Bereich der Industrie 4.0 können dank Technologien wie der OCR-Technologie unterbrechungsfrei Informationen von Bildschirmen und Maschinen erfasst werden. Kostenintensive Anlauf- und Haltezeiten werden so verhindert. Ihre Produktion kann weiterlaufen und Sie erhalten dennoch ohne Schwierigkeiten die benötigen Informationen und Fakten.

Besonders gelungen ist der Einsatz von OCR/ICR-Softwarekits eines IT-Anbieters im Apothekenbereich. Hier wurden mehrere Millionen von Rezepten und Verordnungen in ganz Deutschland maschinell eingelesen. Die Fehlerquote blieb bei unter 5%. Man sparte durch das Einlesen der Verordnungen am Ladentisch hunderte von Arbeitsstunden und optimierte den Prozess der Digitalisierung erheblich.

Es zeichnet sich also ab, das OCR/ICR-Software mehr und mehr die Digitalisierung des Analogen vorantreiben wird.

    Chief Executive Officer der KADMOS GmbH, einem der weltweit führenden Unternehmen im Bereich von Schriftenerkennung OCR und ICR, mit über 20 Jahren Management Erfahrung in internationalen Dokumenten Management und Capture Unternehmen.

    Die Kommentarfunktion ist geschlossen.

    This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More