OCR en toepassing bij de KB by Marian Hellema
-
Author
impact-centre-of-competence -
Category
Education
-
view
616 -
download
1
Embed Size (px)
description
Transcript of OCR en toepassing bij de KB by Marian Hellema

OCR en toepassing bij de KB IMPACT Demo-dagMarian Hellema, 16 februari 2011

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Origineel

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
DigitaliserenOnder meer:• Image van iedere pagina• OCR: tekstuele versie

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Waarom OCR?• Zoeken en vinden
– fulltext search• Presentatie
– highlighten van zoektermen– alleen-tekst-presentatie

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Zoeken (fulltext search)• Tekst wordt geïndexeerd in zoekmachine

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Presentatie: highlighting

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Presentatie: alleen-tekst

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Layout-informatieStandaard: ALTO• OCR-tekst en coördinaten
– tekstblokken, regels en woorden– coördinaten geven de positie op de pagina aan– gekoppeld aan het image van de pagina
• informatie over de betrouwbaarheid van de tekenherkenning• layout-informatie

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Stukje ALTO
<TextBlock ID="P1_TB00004" HPOS="105" VPOS="145" WIDTH="457" HEIGHT="57“ STYLEREFS="TXT_0 PAR_LEFT">
<TextLine ID="P1_TL00006" HPOS="135" VPOS="155" WIDTH="423" HEIGHT="43"> <String ID="P1_ST00019" HPOS="135" VPOS="163" WIDTH="25" HEIGHT="34“
CONTENT="9" WC="0.51" CC="4"/>...
<String ID="P1_ST00020" HPOS="184" VPOS="157" WIDTH="234" HEIGHT="39" CONTENT="NOVEMBER" WC="0.98" CC="93748026"/>
... <String ID="P1_ST00021" HPOS="446" VPOS="155" WIDTH="111" HEIGHT="38"
CONTENT="1837." WC="0.53" CC="15654"/></TextLine>
</TextBlock>

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Hoe gaat OCR in zijn werk?• bewerken van images
– despeckling, rechtzetten, .....• analyse van de pagina
– herkenning van illustraties, lijnen, tekstblokken, regels, woorden, ....
– herkenning van logische documentstructuur: titels, paginanummers, inhoudsopgave, ...
• tekenherkenning

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Hoe gaat OCR in zijn werk?Extra mogelijkheden:• training van de software• inzetten van woordenboeken

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Waarom is IMPACT nodig?
