Abbyy & ocr technieken

Post on 21-Jun-2015

1.268 views 4 download

description

About OCR with Abbyy software

Transcript of Abbyy & ocr technieken

Over Elveo b.v.Uw partner bij het in de praktijk brengen van document

automatisering;Meer dan 20 jaar ervaring in scanning en herkenning;Gespecialiseerd in optimaliseren van werkprocessen met

behulp van digitalisering.

Al vanaf 1989 een van de grootste producenten op OCR gebied

Over Abbyy

1. Abbyy Finereader2. Flexicapture3. Recognition Server

OCR (Optical Character Recognition)ICR (handprint recognition)OMR (checkmark recognition)Barcodes recognitionDocument conversion with accurate layout retrievalPDF conversion (in and out) with advanced security &

accessibility supportFixed and semi-structured forms and documents captureDocuments classification

4

ABBYY FineReader Engine: een breed scala aan toepassingseigenschappen

Stap 1. Scanning, Image Laden, Pre-Processing en aanpassenCompenseren van imagefouten en het beter leesbaar maken van het

document geschikt voor automatische OCRStap 2. Document Layout Analysis

Detectie van documentsecties, analyze layout en het vinden van barcodes

Stap 3. Character RecognitionAutomatische herkenning van karakters, toepassen van geselecteerde

taalherkenning , bibliotheken en andere settingsStap 4. Verificatie door Operators (optioneel)

Handmatige validatie van mogelijk fout herkende karakters en woordenStap 5. Document Synthese en Export

Generen van het output document in gewenst formaat

5

ABBYY OCR Processing

Stap 1. Image Laden, Pre-Processing en aanpassen

Intelligente filtering van de achtergrond

‘Adaptive’ Binarisatie

6

OCR Processing Steps

Algemene binarisatie op image niveau leidt niet tot een optimaal OCR resultaat

Stap 1. Image Laden, Pre-Processing en aanpassen Compensatie van scanfouten

Automatisch rechtzetten naar correcte positionering

Corrigeren teksregels Gecontroleerde “de-speckle”

(wegpoetsen vervuilende pixels)

7

ABBYY OCR Processing Steps

Stap 2. Document Layout Analyse

8

Document Layout Analyse

Stap 3. Karakter herkenningNa de lijn detectie volgt de herkenning van karakters met verschillende

`classifiers´

9

OCR Processing Steps

Raster classifier Contour classifier

10

Document Analyse (DA) maakt het verschilABBYY FlexiCapture Engine

DA met behoud van de Layout (FineReader)

“Eigen factuur DA Logic” (FlexiLayout)

12

ABBYY Terminologie & Document Types

Vaste structuren:Vragenlijsten, enquetes, multiple choice testen, vaak handgeschreven Identieke layout

Semi-gestructureerd:Facturen, prijslijsten, paspoorten,vrachtbrieven, inkoop orders Gelijke data maar andere layouts

Ongestructureerd:Contracten, brieven, artikelenOngestrucureerde inhoud en verschillende layouts

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

De standaard mogelijkhedenVolledige tekst herkenningVolledige tekst herkenningClassificerenClassificerenIndex velden en/of vaste data gegevens uitlichten, Index velden en/of vaste data gegevens uitlichten, Redactioneel (b.v. anonimiseren van correspondentie)Redactioneel (b.v. anonimiseren van correspondentie)Routeren van poststukkenRouteren van poststukkenAutomatisch archiverenAutomatisch archiverenHergebruik van tekstenHergebruik van tekstenImage RotatieImage Rotatie

Volledige tekst herkenningALLE text op de paginaInclusief:

Image Pre-processingDocument Analyse/Zone herkenningData extractieExport naar PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel,

PowerPoint and DBF

ClassificerenDe Software herkent de dokument soortenScan batches van gemengde documenten

Ondersteuning Image processingGebruik van OCR techniek om archiefstructuren vast te

leggenBijvoorbeeld door barcodes, zone herkenning of combinatie

van factoren.

Vaste Formulier Verwerking

Semi gestructureerde formulieren

Ongestructureerde documenten

Vastleggen:•Datum•Afzender•Contactpersoon

Techniek: Hoe accuraatOf liever, hoe bepaal je de accuratesse

Dokumentsoort accuratesseVeld/Zone locatie accuratesseDatasoort accuratesseWoord accuratesseKarakter/cijfer accuratesse

Bedenk dat fouten niet altijd zichtbaar zijn en bepaal daarom van tevoren de invloed van mogelijke herkenningsfouten.

26

OCRModerne OCR technologie behaalt:

98-99% accuratesse bij machinefonts

90-95% accuratesse bij handschriften

Nut van OCR wordt bepaald door het percentage herkende karakters alsmede het percentage fouten daarin

Controleren en corrigeren van OCR-fouten kost 10 keer zo veel tijd als data entry van niet herkende karakters.

27

Waarderingsformule OCRDe waardebepaling van OCR op een schaal van 1 – 100.

Volgens de formule: P-(10*fout) = waarderingscijfer

Bijvoorbeeld: het cijfer voor een systeem dat 90% van de karakters herkend maar daarvan 4% foutief komt neer op 90-(10*4) = 50.

Het verhogen van de herkenningsgraad met 5% tot 95% leidt tot een cijfer van 55. (95-(10*4)=55.

Het verlagen van het foutpercentage met 2% echter leidt tot een waardering van 70. (90-(10*2)=70.

Pas op, bespreek het totaalScanner / InputIndex gegevensOpslagZorg van tevoren voor een lijst met prioriteiten.