OCR en toepassing bij de KB by Marian Hellema

13
OCR en toepassing bij de KB IMPACT Demo-dag Marian Hellema, 16 februari 2011

description

Presentation given on the KB IMPACT Demo Day on 16 February 2011 in The Hague.

Transcript of OCR en toepassing bij de KB by Marian Hellema

Page 1: OCR en toepassing bij de KB by Marian Hellema

OCR en toepassing bij de KB IMPACT Demo-dagMarian Hellema, 16 februari 2011

Page 2: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Origineel

Page 3: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

DigitaliserenOnder meer:• Image van iedere pagina• OCR: tekstuele versie

Page 4: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Waarom OCR?• Zoeken en vinden

– fulltext search• Presentatie

– highlighten van zoektermen– alleen-tekst-presentatie

Page 5: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Zoeken (fulltext search)• Tekst wordt geïndexeerd in zoekmachine

Page 6: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Presentatie: highlighting

Page 7: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Presentatie: alleen-tekst

Page 8: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Layout-informatieStandaard: ALTO• OCR-tekst en coördinaten

– tekstblokken, regels en woorden– coördinaten geven de positie op de pagina aan– gekoppeld aan het image van de pagina

• informatie over de betrouwbaarheid van de tekenherkenning• layout-informatie

Page 9: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Stukje ALTO

<TextBlock ID="P1_TB00004" HPOS="105" VPOS="145" WIDTH="457" HEIGHT="57“ STYLEREFS="TXT_0 PAR_LEFT">

<TextLine ID="P1_TL00006" HPOS="135" VPOS="155" WIDTH="423" HEIGHT="43"> <String ID="P1_ST00019" HPOS="135" VPOS="163" WIDTH="25" HEIGHT="34“

CONTENT="9" WC="0.51" CC="4"/>...

<String ID="P1_ST00020" HPOS="184" VPOS="157" WIDTH="234" HEIGHT="39" CONTENT="NOVEMBER" WC="0.98" CC="93748026"/>

... <String ID="P1_ST00021" HPOS="446" VPOS="155" WIDTH="111" HEIGHT="38"

CONTENT="1837." WC="0.53" CC="15654"/></TextLine>

</TextBlock>

Page 10: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Hoe gaat OCR in zijn werk?• bewerken van images

– despeckling, rechtzetten, .....• analyse van de pagina

– herkenning van illustraties, lijnen, tekstblokken, regels, woorden, ....

– herkenning van logische documentstructuur: titels, paginanummers, inhoudsopgave, ...

• tekenherkenning

Page 11: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Hoe gaat OCR in zijn werk?Extra mogelijkheden:• training van de software• inzetten van woordenboeken

Page 12: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Waarom is IMPACT nodig?

Page 13: OCR en toepassing bij de KB by Marian Hellema