Fep lotte wilms
-
Upload
impact-centre-of-competence -
Category
Education
-
view
343 -
download
1
description
Transcript of Fep lotte wilms
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Functional Extension ParserLotte Wilms - Koninklijke Bibliotheek
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2
Functional Extension Parser (FEP)
De FEP zal bibliotheken dienen met de structurele annotatie van documenten
Een generieke regelset is ontwikkeld welke aangepast kan worden aan alle boeken van 1600 tot 2000
Structuur types momenteel ondersteund:– Pagina nummer– Bedrukt tekstgedeelte– Koppen– Inhoudsopgave (gelinked aan koppen)– Kopregel– Voetnoten– Grafische elementen met ondertitels
Ondersteuning voor andere typen documenten zal nog komen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Hoe werkt het? Documenten worden verwerkt met OCR
– Standaard OCR software, zoals ABBYY, Adaptive OCR of Tesseract-OCR
OCR XML Output bestand of ALTO file– Informatie over layout wordt uit dit bestand gehaald en verwerkt
door FEP– Verschillende typen blokken: tekst, afbeelding, tabel– Paragrafen, regels en lettergrootte– Positie van letters
Aanpak– Regels worden handmatig en automatisch geproduceerd
3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Hoe komt het naar bibliotheken? Commerciële service
– Gerund door the Department for Digitisation and Digital Preservation (DEA)
– Momenteel met enkele pilot projecten bezig: Tijdschriften, dissertaties, systeemkaarten
Standaard web-service– Bibliotheken kunnen de web-service direct in hun workflow opnemen,
mits ze de processing pipeline beschikbaar hebben Batch processing
– Grote volumes van documenten kunnen geoutsourced worden en verwerkt bij DEA
Regel aanpassing– Voor grote aantallen documenten kan DEA de regelset aanpassen aan
specifieke document types en elementen
4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Principe Digitale bibliotheek
toepassing: Matchen van afbeelding en pagina nummer
Ondersteunt kwaliteitscontrole in een digitaliseringsworkflow
Doelstelling: Vind pagina nummers en reconstrueer de gehele rij
Huidige kwaliteit herkenning: 98%
Pagina nummer
5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Principe Digitale bibliotheek toepassing:
centreer images Print on Demand: Produceer pre-
press PDFs voor POD bedrijven Verbetert afbeeldingen: micro-
rechtzetten en aanpassing van maat
Helpt bij het maken van perfecte randen, welke bijna identiek zijn aan de originele
Huidige kwaliteit van herkenning: meer dan 90%
Bedrukt tekstgedeelte
6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
7
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
8
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Principe Ondersteunt gemakkelijke
navigatie voor digitale bibliotheek gebruikers: klik op de originele inhoudsopgave en ga naar de juiste pagina
Vergemakkelijkt de transformatie naar eBooks
Huidige kwaliteit van herkenning: nog geen precieze cijfers bekend, maar meer dan 80% kan worden verwacht
Gelinkede inhoudsopgave
9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Principe Betere indexering voor full-
text zoeken, bijv. Kunnen koppen belangrijker worden gemaakt dan lopende tekst
Koppen kunnen gebruikt worden voor de hierarchische structuur van boeken
Lezen in eBooks wordt makkelijker
Huidige kwaliteit van herkenning: meer dan 80%
Koppen
10
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Principe Koptitel herhaalt meestal de
titel van het boek en/of hoofdstuk
Deze herhaalde informatie kan voor het zoeken worden genegeerd
Ook wordt het lezen van eBooks gemakkelijker zonder koptitel
Huidige kwaliteit van herkenning: 98%
Koptitel
11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Principe Voetnoten zijn meestal
commentaar op de lopende tekst en verwijzen vaak naar andere boeken of artikelen
Automatische detectie van voetnoten maakt de tekst beter leesbaar als eBook en zoeken wordt accurater
Huidige kwaliteit van herkenning: meer dan 90%
Voetnoten
12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Principe Toepassing digitale
bibliotheek: zoeken in de tekst wordt preciezer
eBooks: Negeer pagina nummer, custodes en signaturen
Bereidt de text voor op geavacanceerdere tags
Doelstelling: Reconstrueer het voornaamste lettertype en ‘noteer’ andere elementen
Huidige kwaliteit van herkenning: 99%
Lopende tekst
13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Hoe corrigeer je het? Online Correctie Tool
– Maakt het mogelijk om alle structurele elementen die automatisch zijn herkend te corrigerenllows
– Voordelen: Gestandardiseerde workflow, output, user hoeft geen software te installeren. Kan gebruikt worden in digitale bibliotheek toepassingen voor gezamenlijke
verbetering van structurele elementen
– Nadelen Hangt af van internetverbinding (langzaam)
Lokale Correctie Tool– Voor snelle en automatische correctie
14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.