Download - OCR en toepassing bij de KB by Marian Hellema

Transcript
Page 1: OCR en toepassing bij de KB by Marian Hellema

OCR en toepassing bij de KB IMPACT Demo-dagMarian Hellema, 16 februari 2011

Page 2: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Origineel

Page 3: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

DigitaliserenOnder meer:• Image van iedere pagina• OCR: tekstuele versie

Page 4: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Waarom OCR?• Zoeken en vinden

– fulltext search• Presentatie

– highlighten van zoektermen– alleen-tekst-presentatie

Page 5: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Zoeken (fulltext search)• Tekst wordt geïndexeerd in zoekmachine

Page 6: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Presentatie: highlighting

Page 7: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Presentatie: alleen-tekst

Page 8: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Layout-informatieStandaard: ALTO• OCR-tekst en coördinaten

– tekstblokken, regels en woorden– coördinaten geven de positie op de pagina aan– gekoppeld aan het image van de pagina

• informatie over de betrouwbaarheid van de tekenherkenning• layout-informatie

Page 9: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Stukje ALTO

<TextBlock ID="P1_TB00004" HPOS="105" VPOS="145" WIDTH="457" HEIGHT="57“ STYLEREFS="TXT_0 PAR_LEFT">

<TextLine ID="P1_TL00006" HPOS="135" VPOS="155" WIDTH="423" HEIGHT="43"> <String ID="P1_ST00019" HPOS="135" VPOS="163" WIDTH="25" HEIGHT="34“

CONTENT="9" WC="0.51" CC="4"/>...

<String ID="P1_ST00020" HPOS="184" VPOS="157" WIDTH="234" HEIGHT="39" CONTENT="NOVEMBER" WC="0.98" CC="93748026"/>

... <String ID="P1_ST00021" HPOS="446" VPOS="155" WIDTH="111" HEIGHT="38"

CONTENT="1837." WC="0.53" CC="15654"/></TextLine>

</TextBlock>

Page 10: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Hoe gaat OCR in zijn werk?• bewerken van images

– despeckling, rechtzetten, .....• analyse van de pagina

– herkenning van illustraties, lijnen, tekstblokken, regels, woorden, ....

– herkenning van logische documentstructuur: titels, paginanummers, inhoudsopgave, ...

• tekenherkenning

Page 11: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Hoe gaat OCR in zijn werk?Extra mogelijkheden:• training van de software• inzetten van woordenboeken

Page 12: OCR en toepassing bij de KB by Marian Hellema

© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland

OCR en toepassing bij de KB

Waarom is IMPACT nodig?

Page 13: OCR en toepassing bij de KB by Marian Hellema