OCR en toepassing bij de KB by Marian Hellema

Post on 07-Jun-2015

616 views 1 download

description

Presentation given on the KB IMPACT Demo Day on 16 February 2011 in The Hague.

Transcript of OCR en toepassing bij de KB by Marian Hellema

OCR en toepassing bij de KB IMPACT Demo-dagMarian Hellema, 16 februari 2011

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Origineel

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

DigitaliserenOnder meer:• Image van iedere pagina• OCR: tekstuele versie

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Waarom OCR?• Zoeken en vinden

– fulltext search• Presentatie

– highlighten van zoektermen– alleen-tekst-presentatie

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Zoeken (fulltext search)• Tekst wordt geïndexeerd in zoekmachine

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Presentatie: highlighting

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Presentatie: alleen-tekst

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Layout-informatieStandaard: ALTO• OCR-tekst en coördinaten

– tekstblokken, regels en woorden– coördinaten geven de positie op de pagina aan– gekoppeld aan het image van de pagina

• informatie over de betrouwbaarheid van de tekenherkenning• layout-informatie

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Stukje ALTO

<TextBlock ID="P1_TB00004" HPOS="105" VPOS="145" WIDTH="457" HEIGHT="57“ STYLEREFS="TXT_0 PAR_LEFT">

<TextLine ID="P1_TL00006" HPOS="135" VPOS="155" WIDTH="423" HEIGHT="43"> <String ID="P1_ST00019" HPOS="135" VPOS="163" WIDTH="25" HEIGHT="34“

CONTENT="9" WC="0.51" CC="4"/>...

<String ID="P1_ST00020" HPOS="184" VPOS="157" WIDTH="234" HEIGHT="39" CONTENT="NOVEMBER" WC="0.98" CC="93748026"/>

... <String ID="P1_ST00021" HPOS="446" VPOS="155" WIDTH="111" HEIGHT="38"

CONTENT="1837." WC="0.53" CC="15654"/></TextLine>

</TextBlock>

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Hoe gaat OCR in zijn werk?• bewerken van images

– despeckling, rechtzetten, .....• analyse van de pagina

– herkenning van illustraties, lijnen, tekstblokken, regels, woorden, ....

– herkenning van logische documentstructuur: titels, paginanummers, inhoudsopgave, ...

• tekenherkenning

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Hoe gaat OCR in zijn werk?Extra mogelijkheden:• training van de software• inzetten van woordenboeken

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Waarom is IMPACT nodig?