DDMA / Universiteit Utrecht: Datakwaliteit

32
Dag van de Datakwaliteit - 2009 1 Event: DDMA DQ Dag Thema: Dag van de datakwaliteit Spreker: Gerrit Bloothooft – Universiteit Utrecht Datum: 3 november 2009 – BIM Huis www.ddma.nl

description

Gerrit Bloothooft geeft een presentatie over DQ in de GBA op de Dag van de Datakwaliteit 2009.

Transcript of DDMA / Universiteit Utrecht: Datakwaliteit

Page 1: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 1

Event: DDMA DQ Dag

Thema: Dag van de datakwaliteit

Spreker: Gerrit Bloothooft – Universiteit Utrecht

Datum: 3 november 2009 – BIM Huis

www.ddma.nl

Page 2: DDMA / Universiteit Utrecht: Datakwaliteit

Naamkwaliteit in de

Gemeentelijke Basisadministratie

Gerrit Bloothooft

Taalwetenschap, Universiteit Utrechtemail: [email protected]

Page 3: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 3

Nederland

16 miljoen mensen met een naam >miljoen aardrijkskundige namen >miljoen bedrijfs- en productnamen ..

Page 4: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 4

naamkunde

Wat zijn namen– betekenis– rol in taal en communicatie

Hoe worden namen gebruikt– sociale indicator– verspreiding– mode (voornamen)

Page 5: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 5

voornamen en familienamen

Naamkundig onderzoek baseren op de gehele bevolking– gebruik van de Gemeentelijke

Basisadministratie, sinds 1994 digitaal– hoe goed is de GBA?– wat leren we uit de GBA?

Page 6: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 6

bevolkingsadministratie

Sinds 1811 Burgerlijke Stand– naamwet– eisen aan voornamen en familienamen

Bevolkingsregister > GBA– persoonskaart

• bij overlijden naar Centraal Bureau voor Genealogie

– decentraal per gemeente• vanaf 2008 ook centraal

Page 7: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 7

GBA digitaal in 1994

1988-1994 digitalisatieproces van persoonskaart naar persoonslijst– niet alle gegevens– toekenning a-nummer vanaf eind jaren 60– consistentie persoonsvermeldingen

• als persoon• als ouder• als kind

Page 8: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 8

GBA 2007

15,83 miljoen personen• met NL nationaliteit wonend in NL

2,25 miljoen personen• overleden of geëmigreerd tussen 1994-2007

~3,57 miljoen personen• overleden voor 1994, bekend als ouder of kind

Page 9: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 9

cijfers over namen

Voornamen– 5 miljoen verschillende (compleet)– 500.000 enkele– 300.000 eerste– 7.000 nieuwe per jaar

Familienamen– 314.000 (ca 140.000 in 1947)

Page 10: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 10

naamkwaliteit in GBA

Criteria– zelfde a-nummer: zelfde gegevens?

• persoon, als ouder, als kind

– 1 persoon, 1 vermelding?– opdeling in voornamen, voorvoegsel,

familienaam, titel correct?– juiste tekens gebruikt?– in overeenstemming met naamwet?

Page 11: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 11

zelfde a-nummer, verschillende voornaam

Jenny Francisca Hanna & Jenny Francisca Henna Maud Marie Claire & Maud Marie Neeltje & Nelly Claudia & Cornelia Jan Nicolaas & Gijsberta Maria-Ilona & Maria Ilona Xiayun & Xia Yun

28.981 records

Page 12: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 12

zelfde a-nummer, verschillende geboorteplaats

Zandvliet - Santvliet Łódź - Lodz Hoensbroek - Heerlen Steenbergen en Kruisland - Steenbergen Haarlemmermeer - Groningen Parimaribo - district Suriname Tietjerksteradeel - onbekend

27.633 records

Page 13: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 13

zelfde a-nummer, verschillende geboortedatum

1945-07-25 & 1945-07-02 1963-07-01 & 1963-00-00 1931-04-16 & 1964-04-16

6.041 records

262 geboortedatums van voor 1840 (~ vroegst mogelijke geboortejaar).

Page 14: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 14

zelfde persoon, meerdere a-nummers

zelfde persoon, gelijke:• voornamen• geboortedatum• geboorteplaats• ID_moeder

als persoon, als kind 4.304 records

Page 15: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 15

opdeling familienaamvoorvoegsel familienaam aantal

à Campo 57

A Campo 46

Acampo 44

A'Campo 16

A' Campo 5

a Campo <5

A 'Campo <5

A 'Campo <5

ACampo <5

á Campo <5

Page 16: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 16

een familienaam?

Hare Koninklijke Hoogheid Máxima, Prinses der Nederlanden, Prinses van Oranje-Nassau, Mevrouw van Amsberg– Hare Koninklijke Hoogheid = predikaat– Máxima = voornaam– Prinses = adellijke titel– Mevrouw = aanspreektitel– Van Oranje-Nassau van Amsberg = geslachtsnaam

Page 17: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 17

aliassen

Jacobus (meergenaamd van der Zande) Baron de Vos van Steenwijk, genaamd van

Essen Gmelig, zich noemende en schrijvende

Meyling ten Thije, Ook Genoemd Boonkkamp Vennegoor of Hesselink

Page 18: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 18

tekens (wat mag wel en wat mag

niet?) Simon_Eugène Bastiaan, Seán Celèste Elise Eugenie 26 Avril van 0s Jelle Schelte Pietersz. Angela Maria Cornelia Wilhelmina.... K. Roshani Wouterina Dekkers--Guillou

Page 19: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 19

ik geef mijn kind de naam:

Jan Peter

Jan peter

jan peter

JanPeter

Jan-Peter

Jan’Peter

Jan P’eter

Janpeter

Jan-peter

Jan’peter

Jan-pe-ter

JaN PeTeR

JAN PETER

Jan P@’r

J P

JP

J.P.

j p

J Peter

Jan P

Jan P.

Jan p

Jan Petersz.

Jan Peterszoon

Jan Peter’s

Jan van Peter

Jan d’Peter

Jan Peter van de Heilige Geest

Jan Peter-van-de-Heilige-Geest

Jan Peter J’adore

Jan Peter (Jacob)

jonkheer Jan Peter

Jan Peter IV

Jan Peter C D A

Jan Peter!

Page 20: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 20

GBA zeker niet foutloos

foutherstel is ingewikkeld (en duur) wat kan zoal fout gaan?

– tekenset en spelling– naamverdeling over velden– ouders die onafhankelijk door meerdere

kinderen worden genoemd – buitenlandse registraties– (re)migratie

Page 21: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 21

hoe ouder hoe fouter (moeilijker)

1650 1811 1900 94-09doop/trouw/ oud-burgerlijke stand GBAbegraaf

LINKS project GBA project

Page 22: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 22

interessante naamverschijnselen

Page 23: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 23

Link voornaampopulariteit

Vanaf 1900 tot heden beschikbaar

Eerst: traditionele vernoeming– weinig sociale aspecten zichtbaar

Na 1950: vrijheid– sociale groepen meer zichtbaar– naam wordt leeftijdspecifiek

Page 24: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 24

van Maria > Annie > Yvonne > Kimberley

Page 25: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 25

complexe populariteit

Femke, Sara, Bernhard

Page 26: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 26

Link verspreidingskaarten

Regionale variatie

– Waar zijn mensen met een bepaalde voornaam geboren?

– Waar wonen mensen met een bepaalde familienaam?

Page 27: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 27

relatief en absoluut (Gerrit)

Page 28: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 28

link familienamen op -stra

stra (absoluut) 169.243 stra (relatief)

Page 29: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 29

klankverandering(familienamen relatief)

schult (4.191) scholt (24.303) schout (20.285)

Page 30: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 30

patronymisch suffix(familienamen relatief)

-se (111.866) -sen (508.927) -sens (25.467)

Page 31: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 31

toponymisch element(familienamen relatief)

horst (hoogte met hakhout, 59.595) donk (rivierduin, 21.816)

Page 32: DDMA / Universiteit Utrecht: Datakwaliteit

Dag van de Datakwaliteit - 2009 32

samenvattend

de GBA is natuurlijk niet foutloos maar voor naamkundige analyse

geweldig GBA + LINKS project maakt complete

naambeschrijving vanaf 1811 of eerder mogelijk