Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan...

Mit freier Software Text in Digitalisaten erkennen

OCR-Praxis an derUB Mannheim

Stefan Weil Philipp Zumstein

Goobi Workshop 2016-05-12

ē

2 24 Universitaumltsbibliothek Mannheim

Uumlbersicht

Aktuelle Projekte mit OCR

OCR-Software

Workflow-Einbindung

Erkennungsgenauigkeit messen und verbessern

Resuumlmee



DigitalisierungsprojektldquoAncien Droitrdquo

Projekt ldquoAktienfuumlhrer 2rdquo

Reichs- und Staatsanzeiger

hellip stellen ganz unterschiedlicheAnforderungen an die OCR


Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert

Besonderheiten

Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a

Hauptsaumlchlich Alt-Franzoumlsisch und Latein

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit


Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978

Besonderheiten

Antiqua-Schrift

Deutsch aber mit internationalen Firmen- und Personennamen

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere bei Zahlen

Layouterkennung (Tabellen) besonders wichtig


Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)

Besonderheiten

Fraktur-Schrift

Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt

Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)

Ziel

Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten


OCR Software

Kommerzielle Software

ABBYY FinereaderBIT Alpha

TesseractOcropusCuneiFormOcrad

Freie Software


ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom


Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)


OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy


OCR Volltext im DFG-Viewer


Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform


Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt




Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen


Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools


Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _


Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse


Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung


Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++


Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)


Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen


Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion


Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24


Uumlbersicht


OCR-Software

Workflow-Einbindung


Resuumlmee









Besonderheiten



Anforderungen




Besonderheiten

Antiqua-Schrift


Anforderungen





Besonderheiten

Fraktur-Schrift



Ziel



OCR Software




Freie Software









httpwwwocr4linuxcom















Kein Woumlrterbuch



Ausgabeformat hOCR










oder

























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24









Besonderheiten



Anforderungen




Besonderheiten

Antiqua-Schrift


Anforderungen





Besonderheiten

Fraktur-Schrift



Ziel



OCR Software




Freie Software









httpwwwocr4linuxcom















Kein Woumlrterbuch



Ausgabeformat hOCR










oder

























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24



Besonderheiten

Antiqua-Schrift


Anforderungen





Besonderheiten

Fraktur-Schrift



Ziel



OCR Software




Freie Software









httpwwwocr4linuxcom















Kein Woumlrterbuch



Ausgabeformat hOCR










oder

























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24



Besonderheiten

Fraktur-Schrift



Ziel



OCR Software




Freie Software









httpwwwocr4linuxcom















Kein Woumlrterbuch



Ausgabeformat hOCR










oder

























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24


OCR Software




Freie Software









httpwwwocr4linuxcom















Kein Woumlrterbuch



Ausgabeformat hOCR










oder

























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24









httpwwwocr4linuxcom















Kein Woumlrterbuch



Ausgabeformat hOCR










oder

























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24















Kein Woumlrterbuch



Ausgabeformat hOCR










oder

























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24









oder

























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24
























1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24



Scannen



OCR



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24



Scannen



Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24



Ausrichten





Binarisierung
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24
























Folie 1

Folie 2

Folie 3

Folie 4

Folie 5

Folie 6

Folie 7

Folie 8

Folie 9

Folie 10

Folie 11

Folie 12

Folie 13

Folie 14

Folie 15

Folie 16

Folie 17

Folie 18

Folie 19

Folie 20

Folie 21

Folie 22

Folie 23

Folie 24

Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan...

Documents

Transcript of Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan...