10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

13
Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten Marian Hellema, 24 maart 2015

Transcript of 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten

Marian Hellema, 24 maart 2015

Hoe goed het is …. (1850)

Hoe slecht het is …. (1650)

Hoe is de tekst gemaakt?

• OCR: geautomatiseerd (docWorks/Finereader)

• deels met historische woordenlijst

• krantenkoppen zo nodig handmatig gecorrigeerd tot 99.8% correcte tekens

• overige tekst niet gecorrigeerd

Veelgestelde vraag

“Hoe goed is de tekstkwaliteit?”

Antwoord: dat weten we niet precies.

Meten van tekstkwaliteit

Kwaliteitscijfers

• precieze meting van het aantal fouten op het totaal

• arbeidsintensief

• niet beschikbaar

versus

Confidence levels

• hoe zeker de ocr-software is van correcte tekenherkenning

• beste benadering van kwaliteitscijfers die we hebben (maar het is dus iets anders)

• wel beschikbaar

Veelgestelde vraag

“Waarom zorgen jullie niet voor betere tekstkwaliteit?”

Antwoord 1: er wordt aan gewerkt

Antwoord 2:

• afweging kwaliteit versus kwantiteit

• m.a.w. waar geef je je geld aan uit?

• voor toekomstige digitalisering: differentiatie in kwaliteit

• soms heel hoge tekstkwaliteit (bv. DBNL)

• soms heel hoge beeldkwaliteit

• afhankelijk van doel

Verbetering tekstkwaliteit

Project voor tekstverbetering:

Meertens Instituut

• editor voor overtikken krantenartikelen

• groep vrijwilligers

• 17e eeuwse kranten

KB

• software om verbeterde tekst te verwerken

• en in Delpher beschikbaar te stellen

NIOD

• vrijwilligers voor oorlogskranten

Verbetering tekstkwaliteit

Iets meer detail:

• 160 vrijwilligers, waarvan de helft actief

• 30-40 % van de 17e Nederlandstalige eeuwse kranten gedaan

• ±1.900 kranten (van de ±6200)

• ±18.500 artikelen (van de ±46000)

Verbetering tekstkwaliteit

Iets meer detail:

• woordcoördinaten worden meeverbeterd (highlighting)

• confidence levels worden opgehoogd

• oorspronkelijke versie van de tekst wel bewaard, maar niet direct toegankelijk

• beschikbaarstelling als dataset en in Delpher zal geleidelijk gaan

• uitbreidbaar:

• andere delen van de krantencollectie. (Wie wil?)

• (met aanpassingen) andere collecties

Keuzes

• geautomatiseerde tekstverbetering of overtikken?

• oude versies bewaren?

• hoe gegevens over verbeteringen/verrijkingen publiceren? (verantwoording)

• betekenis van identifiers?

• het object

• of een versie van het object

• gedifferentieerd kwaliteitsbeleid

Vragen?

[email protected]