Mit freier Software Text in Digitalisaten erkennen
OCR-Praxis an derUB Mannheim
Stefan Weil Philipp Zumstein
Goobi Workshop 2016-05-12
ē
2 24 Universitaumltsbibliothek Mannheim
Uumlbersicht
Aktuelle Projekte mit OCR
OCR-Software
Workflow-Einbindung
Erkennungsgenauigkeit messen und verbessern
Resuumlmee
3 24 Universitaumltsbibliothek Mannheim
Aktuelle Projekte mit OCR
DigitalisierungsprojektldquoAncien Droitrdquo
Projekt ldquoAktienfuumlhrer 2rdquo
Reichs- und Staatsanzeiger
hellip stellen ganz unterschiedlicheAnforderungen an die OCR
4 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert
Besonderheiten
Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a
Hauptsaumlchlich Alt-Franzoumlsisch und Latein
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit
5 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978
Besonderheiten
Antiqua-Schrift
Deutsch aber mit internationalen Firmen- und Personennamen
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere bei Zahlen
Layouterkennung (Tabellen) besonders wichtig
6 24 Universitaumltsbibliothek Mannheim
Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)
Besonderheiten
Fraktur-Schrift
Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt
Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)
Ziel
Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten
7 24 Universitaumltsbibliothek Mannheim
OCR Software
Kommerzielle Software
ABBYY FinereaderBIT Alpha
TesseractOcropusCuneiFormOcrad
Freie Software
8 24 Universitaumltsbibliothek Mannheim
ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux
ABBYY OCR SDK Cloud OCR SDK oder Linux CLI
Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig
Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz
Ausgabeformate TXT ALTO XML PDF u a
Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs
Training mit Windows-Version und OCR unter Linux
httpwwwocr4linuxcom
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
2 24 Universitaumltsbibliothek Mannheim
Uumlbersicht
Aktuelle Projekte mit OCR
OCR-Software
Workflow-Einbindung
Erkennungsgenauigkeit messen und verbessern
Resuumlmee
3 24 Universitaumltsbibliothek Mannheim
Aktuelle Projekte mit OCR
DigitalisierungsprojektldquoAncien Droitrdquo
Projekt ldquoAktienfuumlhrer 2rdquo
Reichs- und Staatsanzeiger
hellip stellen ganz unterschiedlicheAnforderungen an die OCR
4 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert
Besonderheiten
Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a
Hauptsaumlchlich Alt-Franzoumlsisch und Latein
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit
5 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978
Besonderheiten
Antiqua-Schrift
Deutsch aber mit internationalen Firmen- und Personennamen
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere bei Zahlen
Layouterkennung (Tabellen) besonders wichtig
6 24 Universitaumltsbibliothek Mannheim
Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)
Besonderheiten
Fraktur-Schrift
Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt
Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)
Ziel
Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten
7 24 Universitaumltsbibliothek Mannheim
OCR Software
Kommerzielle Software
ABBYY FinereaderBIT Alpha
TesseractOcropusCuneiFormOcrad
Freie Software
8 24 Universitaumltsbibliothek Mannheim
ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux
ABBYY OCR SDK Cloud OCR SDK oder Linux CLI
Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig
Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz
Ausgabeformate TXT ALTO XML PDF u a
Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs
Training mit Windows-Version und OCR unter Linux
httpwwwocr4linuxcom
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
3 24 Universitaumltsbibliothek Mannheim
Aktuelle Projekte mit OCR
DigitalisierungsprojektldquoAncien Droitrdquo
Projekt ldquoAktienfuumlhrer 2rdquo
Reichs- und Staatsanzeiger
hellip stellen ganz unterschiedlicheAnforderungen an die OCR
4 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert
Besonderheiten
Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a
Hauptsaumlchlich Alt-Franzoumlsisch und Latein
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit
5 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978
Besonderheiten
Antiqua-Schrift
Deutsch aber mit internationalen Firmen- und Personennamen
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere bei Zahlen
Layouterkennung (Tabellen) besonders wichtig
6 24 Universitaumltsbibliothek Mannheim
Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)
Besonderheiten
Fraktur-Schrift
Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt
Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)
Ziel
Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten
7 24 Universitaumltsbibliothek Mannheim
OCR Software
Kommerzielle Software
ABBYY FinereaderBIT Alpha
TesseractOcropusCuneiFormOcrad
Freie Software
8 24 Universitaumltsbibliothek Mannheim
ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux
ABBYY OCR SDK Cloud OCR SDK oder Linux CLI
Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig
Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz
Ausgabeformate TXT ALTO XML PDF u a
Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs
Training mit Windows-Version und OCR unter Linux
httpwwwocr4linuxcom
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
4 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAncien Droitrdquo800 rechtshistorische Titel des 16 bis 18 Jhd aus der Sammlung Desbillons werden digitalisiert und mit computerlinguistischen Verfahren analysiert
Besonderheiten
Antiqua-Schriften aber mit speziellen Zeichen wie langes S Ligaturen u a
Hauptsaumlchlich Alt-Franzoumlsisch und Latein
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere Wortgenauigkeit
5 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978
Besonderheiten
Antiqua-Schrift
Deutsch aber mit internationalen Firmen- und Personennamen
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere bei Zahlen
Layouterkennung (Tabellen) besonders wichtig
6 24 Universitaumltsbibliothek Mannheim
Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)
Besonderheiten
Fraktur-Schrift
Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt
Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)
Ziel
Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten
7 24 Universitaumltsbibliothek Mannheim
OCR Software
Kommerzielle Software
ABBYY FinereaderBIT Alpha
TesseractOcropusCuneiFormOcrad
Freie Software
8 24 Universitaumltsbibliothek Mannheim
ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux
ABBYY OCR SDK Cloud OCR SDK oder Linux CLI
Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig
Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz
Ausgabeformate TXT ALTO XML PDF u a
Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs
Training mit Windows-Version und OCR unter Linux
httpwwwocr4linuxcom
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
5 24 Universitaumltsbibliothek Mannheim
Projekt ldquoAktienfuumlhrer 2rdquoSalingrsquos Boumlrsen-Jahrbuch und Hoppenstedt Aktienfuumlhrer von 1880 bis 1978
Besonderheiten
Antiqua-Schrift
Deutsch aber mit internationalen Firmen- und Personennamen
Anforderungen
Hohe Erkennungsgenauigkeit insbesondere bei Zahlen
Layouterkennung (Tabellen) besonders wichtig
6 24 Universitaumltsbibliothek Mannheim
Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)
Besonderheiten
Fraktur-Schrift
Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt
Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)
Ziel
Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten
7 24 Universitaumltsbibliothek Mannheim
OCR Software
Kommerzielle Software
ABBYY FinereaderBIT Alpha
TesseractOcropusCuneiFormOcrad
Freie Software
8 24 Universitaumltsbibliothek Mannheim
ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux
ABBYY OCR SDK Cloud OCR SDK oder Linux CLI
Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig
Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz
Ausgabeformate TXT ALTO XML PDF u a
Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs
Training mit Windows-Version und OCR unter Linux
httpwwwocr4linuxcom
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
6 24 Universitaumltsbibliothek Mannheim
Reichs- und Staatsanzeiger(Fast) alle Ausgaben von 1819 (Allgemeine Preuszligische Staats-Zeitung) bis 1945 (Deutscher Reichsanzeiger und Preuszligischer Staatsanzeiger)
Besonderheiten
Fraktur-Schrift
Scans von Mikrofilmen in teilweise maumlszligiger Qualitaumlt
Menge (127 Jahre uumlber 38000 Ausgaben 25 TB TIFF Scans)
Ziel
Erschlieszligung fuumlr (unscharfe) Suche nach Stichworten
7 24 Universitaumltsbibliothek Mannheim
OCR Software
Kommerzielle Software
ABBYY FinereaderBIT Alpha
TesseractOcropusCuneiFormOcrad
Freie Software
8 24 Universitaumltsbibliothek Mannheim
ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux
ABBYY OCR SDK Cloud OCR SDK oder Linux CLI
Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig
Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz
Ausgabeformate TXT ALTO XML PDF u a
Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs
Training mit Windows-Version und OCR unter Linux
httpwwwocr4linuxcom
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
7 24 Universitaumltsbibliothek Mannheim
OCR Software
Kommerzielle Software
ABBYY FinereaderBIT Alpha
TesseractOcropusCuneiFormOcrad
Freie Software
8 24 Universitaumltsbibliothek Mannheim
ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux
ABBYY OCR SDK Cloud OCR SDK oder Linux CLI
Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig
Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz
Ausgabeformate TXT ALTO XML PDF u a
Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs
Training mit Windows-Version und OCR unter Linux
httpwwwocr4linuxcom
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
8 24 Universitaumltsbibliothek Mannheim
ABBYY Fine Reader Kommerzielle Software fuumlr Windows und Linux
ABBYY OCR SDK Cloud OCR SDK oder Linux CLI
Beispiel FineReader Engine 11 CLI for Linux120000 Seiten Jahr 999 EUR einmalig
Unterstuumltzung fuumlr Fraktur (OldGerman OldFrench usw kein OldLatin) erfordert (teure) Projektlizenz
Ausgabeformate TXT ALTO XML PDF u a
Zeichenerkennung + Woumlrterbuch (beides sprachabhaumlngig) mit sehr starker Gewichtung des Woumlrterbuchs
Training mit Windows-Version und OCR unter Linux
httpwwwocr4linuxcom
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
9 24 Universitaumltsbibliothek Mannheim
Tesseract Grafikdatenformate TIFF PNG JPEG JPEG2000
Layouterkennung mit Leptonica
Zeichenbasierte Erkennung durch Mustervergleich
Geplant fuumlr 2016 neuronales Netzwerk
Mehr als 100 Sprachen auswaumlhlbar
Sprachregeln (Woumlrterbuumlcher Silben ) werden nur als Hinweise verwendet
Ausgabeformate hOCR TXT PDF und Spezialformate
Sehr aktive Entwickler-Community httpsgithubcomtesseract-ocr
Bestandteil aller groszligen Linux-Distributionen
Freie Nutzung z B fuumlr Distributed OCR (Bachelor-Arbeit)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
10 24 Universitaumltsbibliothek Mannheim
OCRopus OCRopy ldquoBaukastenrdquo-Philosophie viele kleine Tools fuumlr Teilaufgaben
Zeichenerkennung durch neuronales Netz
Kein Woumlrterbuch
Training sehr wichtig
Modelle fuumlr Antiquaschriften und Fraktur
Ausgabeformat hOCR
httpsgithubcomtmbdevocropy
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
11 24 Universitaumltsbibliothek Mannheim
OCR Volltext im DFG-Viewer
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
12 24 Universitaumltsbibliothek Mannheim
Workflow-EinbindungBisher wird die OCR erst nach Veroumlffentlichung eines Digitalisats durchgefuumlhrt (auszligerhalb des Goobi-Workflows)
1) ALTO-Datei (XML mit OCR-Ergebnis) erzeugen
$ abbyyocr11 -rl German -if max275308_0089jpg -f PDF -of pdf275308_0089pdf -f ALTO -of alto275308_0089xml -f XML -of abbyy275308_0089xml
$ tesseract max275308_0089jpg hocr275308_0089 -l deu hocr
$ ocr-transform hocr alto20 hocr275308_0089hocr alto275308_0089xml
oder
httpsgithubcomUB-Mannheimocr-transform
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
13 24 Universitaumltsbibliothek Mannheim
Workflow-Einbindung2) Verweise auf Volltext in METSMODS-Datei ergaumlnzen
ltmetsfileGrp USE=FULLTEXTgt ltmetsfile ID=FILE_0089_ALTO MIMETYPE=textxml gt ltmetsFLocat LOCTYPE=URL xlinkhref=httpdigibibuni-mannheimdefileadminvl-aktienfuehrer275308alto275308_0089xmlgt ltmetsfilegt ltmetsfileGrpgt ltmetsdiv TYPE=page LABEL=[Seite] ID=phys274188 ORDER=89gt ltmetsfptr FILEID=FILE_0089_ALTOgt ltmetsfptr FILEID=FILE_0089_THUMBSgt ltmetsfptr FILEID=FILE_0089_MAXgt ltmetsfptr FILEID=FILE_0089_PDFgt ltmetsdivgt
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
14 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen und verbessern
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
15 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit Anwendungsfaumllle Zielvorgaben uumlberpruumlfen
OCR-Qualitaumlt eines Dienstleisters systematisch pruumlfen
Entscheidungsgrundlage fuumlr weitere Optimierungsschritte
OCR-Software optimal auf die Vorlage konfigurieren
Trainingsdaten nebenbei erzeugen
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
16 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Ground Truth Gold Standard
Ein paar ZeilenSeiten durch BearbeiterIn erfassen lassen
ndash Basis ocropus-gtedit + hocr-tools
ndash Webinterface httpsgithubcomUB-Mannheimocr-gt-tools
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
17 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit messen Vergleich mit Ergebnis der OCR
ndash Zeilenweise Vergleich mit Edit-Distanz
ndash ocropus-errs + ocropus-econf
$ ocropus-errs gttxt
errors 14 missing 0 total 2555 err 0548 Errnomiss 0548
$ ocropus-econf gttxt
1 _ -1 W w1 H_ fi1 _1 _____ that 1 H_ fl1 e _1 _
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
18 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
OCR
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
19 24 Universitaumltsbibliothek Mannheim
Erkennungsgenauigkeit verbessern
Scannen
Strukturdatenerfassung
Praumlsentation im Web
Postprocessing
Preprocessing
Zeichenerkennung
Layoutanalyse
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
20 24 Universitaumltsbibliothek Mannheim
Preprocessing Seitenaufteilung
Ausrichten
Seitenraumlnder anpassen
Inhalt waumlhlen Aufteilung TextBild
Entzerren (dewarping)
Artefakte entfernen (despeckling)
Binarisierung
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
21 24 Universitaumltsbibliothek Mannheim
Preprocessing Beispiel ScanTailorhttpsgithubcomscantailorscantailor GPL v2 C++
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
22 24 Universitaumltsbibliothek Mannheim
Postprocessing Fehler korrigieren durch Woumlrterbuchabgleich
Korrektur automatisch oder semi-automatisch
Beispiel PoCoTo - Post Correction Tool (CIS Muumlnchen)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
23 24 Universitaumltsbibliothek Mannheim
Resuumlmee OCR Keine One-Size-Fits-All-Loumlsungen
Freie OCR Software sind konkurenzfaumlhig zu kommerzieller Software beduumlrfen aber mehr KonfigurationAnpassungen
Erkennungsgenauigkeit messen und verbessern
Gute OCR steht und faumlllt mit
ndash Scan-Qualitaumlt
ndash Aufwand beim Pre-Processing
ndash Training der OCR-Software
ndash domaumlnenspezifischem Post-Processing
Links zu OCR httpsgithubcomkbaawesome-ocr
Vielen Dank fuumlr die Aufmerksamkeit Fragen Diskussion
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
24 24 Universitaumltsbibliothek Mannheim
Bildquellen httpspixabaycomdeprogrammieren-computersprache-942487 (Pixabay CC0)
httpspixabaycomdesicher-metall-metallischen-gerC3A4t-298244 (Pixabay CC0)
httpspixabaycomdesuchen-prC3BCfen-suche-erkennen-lupen-148095 (Pixabay CC0)
fa-file-text-o + fa-file-image-o + fa-book Font Awsome (SIL OFL 11)
httpscommonswikimediaorgwikiFileApplications-internetsvg (CC0)
Top Related