Fep lotte wilms

18
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Functional Extension Parser Lotte Wilms - Koninklijke Bibliotheek

description

 

Transcript of Fep lotte wilms

Page 1: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Functional Extension ParserLotte Wilms - Koninklijke Bibliotheek

Page 2: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2

Functional Extension Parser (FEP)

De FEP zal bibliotheken dienen met de structurele annotatie van documenten

Een generieke regelset is ontwikkeld welke aangepast kan worden aan alle boeken van 1600 tot 2000

Structuur types momenteel ondersteund:– Pagina nummer– Bedrukt tekstgedeelte– Koppen– Inhoudsopgave (gelinked aan koppen)– Kopregel– Voetnoten– Grafische elementen met ondertitels

Ondersteuning voor andere typen documenten zal nog komen

Page 3: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Hoe werkt het? Documenten worden verwerkt met OCR

– Standaard OCR software, zoals ABBYY, Adaptive OCR of Tesseract-OCR

OCR XML Output bestand of ALTO file– Informatie over layout wordt uit dit bestand gehaald en verwerkt

door FEP– Verschillende typen blokken: tekst, afbeelding, tabel– Paragrafen, regels en lettergrootte– Positie van letters

Aanpak– Regels worden handmatig en automatisch geproduceerd

3

Page 4: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Hoe komt het naar bibliotheken? Commerciële service

– Gerund door the Department for Digitisation and Digital Preservation (DEA)

– Momenteel met enkele pilot projecten bezig: Tijdschriften, dissertaties, systeemkaarten

Standaard web-service– Bibliotheken kunnen de web-service direct in hun workflow opnemen,

mits ze de processing pipeline beschikbaar hebben Batch processing

– Grote volumes van documenten kunnen geoutsourced worden en verwerkt bij DEA

Regel aanpassing– Voor grote aantallen documenten kan DEA de regelset aanpassen aan

specifieke document types en elementen

4

Page 5: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Principe Digitale bibliotheek

toepassing: Matchen van afbeelding en pagina nummer

Ondersteunt kwaliteitscontrole in een digitaliseringsworkflow

Doelstelling: Vind pagina nummers en reconstrueer de gehele rij

Huidige kwaliteit herkenning: 98%

Pagina nummer

5

Page 6: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Principe Digitale bibliotheek toepassing:

centreer images Print on Demand: Produceer pre-

press PDFs voor POD bedrijven Verbetert afbeeldingen: micro-

rechtzetten en aanpassing van maat

Helpt bij het maken van perfecte randen, welke bijna identiek zijn aan de originele

Huidige kwaliteit van herkenning: meer dan 90%

Bedrukt tekstgedeelte

6

Page 7: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7

Page 8: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8

Page 9: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Principe Ondersteunt gemakkelijke

navigatie voor digitale bibliotheek gebruikers: klik op de originele inhoudsopgave en ga naar de juiste pagina

Vergemakkelijkt de transformatie naar eBooks

Huidige kwaliteit van herkenning: nog geen precieze cijfers bekend, maar meer dan 80% kan worden verwacht

Gelinkede inhoudsopgave

9

Page 10: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Principe Betere indexering voor full-

text zoeken, bijv. Kunnen koppen belangrijker worden gemaakt dan lopende tekst

Koppen kunnen gebruikt worden voor de hierarchische structuur van boeken

Lezen in eBooks wordt makkelijker

Huidige kwaliteit van herkenning: meer dan 80%

Koppen

10

Page 11: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Principe Koptitel herhaalt meestal de

titel van het boek en/of hoofdstuk

Deze herhaalde informatie kan voor het zoeken worden genegeerd

Ook wordt het lezen van eBooks gemakkelijker zonder koptitel

Huidige kwaliteit van herkenning: 98%

Koptitel

11

Page 12: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Principe Voetnoten zijn meestal

commentaar op de lopende tekst en verwijzen vaak naar andere boeken of artikelen

Automatische detectie van voetnoten maakt de tekst beter leesbaar als eBook en zoeken wordt accurater

Huidige kwaliteit van herkenning: meer dan 90%

Voetnoten

12

Page 13: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Principe Toepassing digitale

bibliotheek: zoeken in de tekst wordt preciezer

eBooks: Negeer pagina nummer, custodes en signaturen

Bereidt de text voor op geavacanceerdere tags

Doelstelling: Reconstrueer het voornaamste lettertype en ‘noteer’ andere elementen

Huidige kwaliteit van herkenning: 99%

Lopende tekst

13

Page 14: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Hoe corrigeer je het? Online Correctie Tool

– Maakt het mogelijk om alle structurele elementen die automatisch zijn herkend te corrigerenllows

– Voordelen: Gestandardiseerde workflow, output, user hoeft geen software te installeren. Kan gebruikt worden in digitale bibliotheek toepassingen voor gezamenlijke

verbetering van structurele elementen

– Nadelen Hangt af van internetverbinding (langzaam)

Lokale Correctie Tool– Voor snelle en automatische correctie

14

Page 15: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Page 16: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Page 17: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Page 18: Fep lotte wilms

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.