Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan...

24
Mit freier Software Text in Digitalisaten erkennen OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē

Transcript of Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan...

Page 1: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

Mit freier Software Text in Digitalisaten erkennen

OCR-Praxis an derUB Mannheim

Stefan Weil Philipp Zumstein

Goobi Workshop 2016-05-12

ē

2 24 Universitaumltsbibliothek Mannheim

Uumlbersicht

Aktuelle Projekte mit OCR

OCR-Software

Workflow-Einbindung

Erkennungsgenauigkeit messen und verbessern

Resuumlmee

3 24 Universitaumltsbibliothek Mannheim

Aktuelle Projekte mit OCR

DigitalisierungsprojektldquoAncien Droitrdquo

Projekt ldquoAktienfuumlhrer 2rdquo

Reichs- und Staatsanzeiger

hellip stellen ganz unterschiedlicheAnforderungen an die OCR

4 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert

Besonderheiten

Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a

Hauptsaumlchlich Alt-Franzoumlsisch und Latein

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit

5 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978

Besonderheiten

Antiqua-Schrift

Deutsch aber mit internationalen Firmen- und Personennamen

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere bei Zahlen

Layouterkennung (Tabellen) besonders wichtig

6 24 Universitaumltsbibliothek Mannheim

Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)

Besonderheiten

Fraktur-Schrift

Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt

Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)

Ziel

Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten

7 24 Universitaumltsbibliothek Mannheim

OCR Software

Kommerzielle Software

ABBYY FinereaderBIT Alpha

TesseractOcropusCuneiFormOcrad

Freie Software

8 24 Universitaumltsbibliothek Mannheim

ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 2: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

2 24 Universitaumltsbibliothek Mannheim

Uumlbersicht

Aktuelle Projekte mit OCR

OCR-Software

Workflow-Einbindung

Erkennungsgenauigkeit messen und verbessern

Resuumlmee

3 24 Universitaumltsbibliothek Mannheim

Aktuelle Projekte mit OCR

DigitalisierungsprojektldquoAncien Droitrdquo

Projekt ldquoAktienfuumlhrer 2rdquo

Reichs- und Staatsanzeiger

hellip stellen ganz unterschiedlicheAnforderungen an die OCR

4 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert

Besonderheiten

Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a

Hauptsaumlchlich Alt-Franzoumlsisch und Latein

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit

5 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978

Besonderheiten

Antiqua-Schrift

Deutsch aber mit internationalen Firmen- und Personennamen

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere bei Zahlen

Layouterkennung (Tabellen) besonders wichtig

6 24 Universitaumltsbibliothek Mannheim

Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)

Besonderheiten

Fraktur-Schrift

Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt

Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)

Ziel

Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten

7 24 Universitaumltsbibliothek Mannheim

OCR Software

Kommerzielle Software

ABBYY FinereaderBIT Alpha

TesseractOcropusCuneiFormOcrad

Freie Software

8 24 Universitaumltsbibliothek Mannheim

ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 3: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

3 24 Universitaumltsbibliothek Mannheim

Aktuelle Projekte mit OCR

DigitalisierungsprojektldquoAncien Droitrdquo

Projekt ldquoAktienfuumlhrer 2rdquo

Reichs- und Staatsanzeiger

hellip stellen ganz unterschiedlicheAnforderungen an die OCR

4 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert

Besonderheiten

Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a

Hauptsaumlchlich Alt-Franzoumlsisch und Latein

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit

5 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978

Besonderheiten

Antiqua-Schrift

Deutsch aber mit internationalen Firmen- und Personennamen

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere bei Zahlen

Layouterkennung (Tabellen) besonders wichtig

6 24 Universitaumltsbibliothek Mannheim

Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)

Besonderheiten

Fraktur-Schrift

Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt

Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)

Ziel

Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten

7 24 Universitaumltsbibliothek Mannheim

OCR Software

Kommerzielle Software

ABBYY FinereaderBIT Alpha

TesseractOcropusCuneiFormOcrad

Freie Software

8 24 Universitaumltsbibliothek Mannheim

ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 4: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

4 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert

Besonderheiten

Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a

Hauptsaumlchlich Alt-Franzoumlsisch und Latein

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit

5 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978

Besonderheiten

Antiqua-Schrift

Deutsch aber mit internationalen Firmen- und Personennamen

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere bei Zahlen

Layouterkennung (Tabellen) besonders wichtig

6 24 Universitaumltsbibliothek Mannheim

Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)

Besonderheiten

Fraktur-Schrift

Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt

Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)

Ziel

Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten

7 24 Universitaumltsbibliothek Mannheim

OCR Software

Kommerzielle Software

ABBYY FinereaderBIT Alpha

TesseractOcropusCuneiFormOcrad

Freie Software

8 24 Universitaumltsbibliothek Mannheim

ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 5: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

5 24 Universitaumltsbibliothek Mannheim

Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978

Besonderheiten

Antiqua-Schrift

Deutsch aber mit internationalen Firmen- und Personennamen

Anforderungen

Hohe Erkennungsgenauigkeit insbesondere bei Zahlen

Layouterkennung (Tabellen) besonders wichtig

6 24 Universitaumltsbibliothek Mannheim

Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)

Besonderheiten

Fraktur-Schrift

Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt

Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)

Ziel

Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten

7 24 Universitaumltsbibliothek Mannheim

OCR Software

Kommerzielle Software

ABBYY FinereaderBIT Alpha

TesseractOcropusCuneiFormOcrad

Freie Software

8 24 Universitaumltsbibliothek Mannheim

ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 6: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

6 24 Universitaumltsbibliothek Mannheim

Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)

Besonderheiten

Fraktur-Schrift

Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt

Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)

Ziel

Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten

7 24 Universitaumltsbibliothek Mannheim

OCR Software

Kommerzielle Software

ABBYY FinereaderBIT Alpha

TesseractOcropusCuneiFormOcrad

Freie Software

8 24 Universitaumltsbibliothek Mannheim

ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 7: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

7 24 Universitaumltsbibliothek Mannheim

OCR Software

Kommerzielle Software

ABBYY FinereaderBIT Alpha

TesseractOcropusCuneiFormOcrad

Freie Software

8 24 Universitaumltsbibliothek Mannheim

ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 8: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

8 24 Universitaumltsbibliothek Mannheim

ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux

ABBYY OCR SDK Cloud OCR SDK oder Linux CLI

Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig

Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz

Ausgabeformate TXT ALTO XML PDF u a

Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs

Training mit Windows-Version und OCR unter Linux

httpwwwocr4linuxcom

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 9: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

9 24 Universitaumltsbibliothek Mannheim

Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000

Layouterkennung mit Leptonica

Zeichenbasierte Erkennung durch Mustervergleich

Geplant fuumlr 2016 neuronales Netzwerk

Mehr als 100 Sprachen auswaumlhlbar

Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet

Ausgabeformate hOCR TXT PDF und Spezialformate

Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr

Bestandteil aller groszligen Linux-Distributionen

Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 10: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

10 24 Universitaumltsbibliothek Mannheim

OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben

Zeichenerkennung durch neuronales Netz

Kein Woumlrterbuch

Training sehr wichtig

Modelle fuumlr Antiquaschriften und Fraktur

Ausgabeformat hOCR

httpsgithubcomtmbdevocropy

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 11: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

11 24 Universitaumltsbibliothek Mannheim

OCR Volltext im DFG-Viewer

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 12: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

12 24 Universitaumltsbibliothek Mannheim

Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)

1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen

$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml

$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr

$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml

oder

httpsgithubcomUB-Mannheimocr-transform

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 13: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

13 24 Universitaumltsbibliothek Mannheim

Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen

ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 14: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

14 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen und verbessern

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 15: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

15 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen

OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen

Entscheidungsgrundlage fuumlr weitere Optimierungsschritte

OCR-Software optimal auf die Vorlage konfigurieren

Trainingsdaten nebenbei erzeugen

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 16: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

16 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Ground Truth Gold Standard

Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen

ndash Basis ocropus-gtedit + hocr-tools

ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 17: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

17 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR

ndash Zeilenweise Vergleich mit Edit-Distanz

ndash ocropus-errs + ocropus-econf

$ ocropus-errs gttxt

errors 14 missing 0 total 2555 err 0548 Errnomiss 0548

$ ocropus-econf gttxt

1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 18: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

18 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

OCR

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 19: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

19 24 Universitaumltsbibliothek Mannheim

Erkennungsgenauigkeit verbessern

Scannen

Strukturdatenerfassung

Praumlsentation im Web

Postprocessing

Preprocessing

Zeichenerkennung

Layoutanalyse

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 20: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

20 24 Universitaumltsbibliothek Mannheim

Preprocessing Seitenaufteilung

Ausrichten

Seitenraumlnder anpassen

Inhalt waumlhlen Aufteilung TextBild

Entzerren (dewarping)

Artefakte entfernen (despeckling)

Binarisierung

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 21: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

21 24 Universitaumltsbibliothek Mannheim

Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 22: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

22 24 Universitaumltsbibliothek Mannheim

Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich

Korrektur automatisch oder semi-automatisch

Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 23: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

23 24 Universitaumltsbibliothek Mannheim

Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen

Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen

Erkennungsgenauigkeit messen und verbessern

Gute OCR steht und faumlllt mit

ndash Scan-Qualitaumlt

ndash Aufwand beim Pre-Processing

ndash Training der OCR-Software

ndash domaumlnenspezifischem Post-Processing

Links zu OCR httpsgithubcomkbaawesome-ocr

Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24
Page 24: Mit freier Software Text in Digitalisaten erkennen€¦ · OCR-Praxis an der UB Mannheim Stefan Weil, Philipp Zumstein Goobi Workshop, 2016-05-12 ē . 2 / 24 Universitätsbibliothek

24 24 Universitaumltsbibliothek Mannheim

Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)

httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)

httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)

fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)

httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)

  • Folie 1
  • Folie 2
  • Folie 3
  • Folie 4
  • Folie 5
  • Folie 6
  • Folie 7
  • Folie 8
  • Folie 9
  • Folie 10
  • Folie 11
  • Folie 12
  • Folie 13
  • Folie 14
  • Folie 15
  • Folie 16
  • Folie 17
  • Folie 18
  • Folie 19
  • Folie 20
  • Folie 21
  • Folie 22
  • Folie 23
  • Folie 24