Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

13
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014

Transcript of Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

Page 1: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

Record Linkage:Simulatie Resultaten

Adelaide Ariel

Biolink NL 28 maart 2014

Page 2: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

2

Overzicht

Achtergrond informatie

Doel van simulatie

Details simulatie

Simulatie resultaten

Conclusies

Page 3: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

3

Achtergrond informatieDoel:

Een “best practice” ontwikkelen voor het koppelen van privacy gevoelige data, o.b.v. persoonlijke identifiers (naam, geboortedatum, etc).

De beschikbare literatuur over het koppelen van data beschrijft meestal zeer specifieke koppelprojecten.

De gekozene koppelingsmethode is afhankelijk van persoonlijke keuze (bijv. voorkeur voor deterministisch koppelen omdat het makkelijker is).

De gekozene koppelingsvariabelen zijn afhankelijk van alle beschikbare variabelen tussen de te koppelen datasets (hoe meer hoe beter). Het is nooit onderzocht of minder koppelingsvariabelen vergelijkbare resultaten zal opleveren.

Page 4: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

4

Achtergrond informatieWe houden rekening met de volgende factoren:

1. Variaties binnen de registraties Omvang Populatie dekking en kenmerken Kwaliteit van variabelen (afhankelijk van hoe belangrijk een

variabele is voor het onderzoek)

2. Variaties tussen de te koppelen data Omvang van de populatie overlap Beschikbaarheid van koppelingsvariabelen

Page 5: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

5

Doel van simulatieVraag die we willen beantwoorden:

Welke linking methode is geschikt bij bepaalde omvang van data sets en de omvang van fouten?

Page 6: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

6

Simulatie gegevensEr zijn 3 simulatie onderdelen:

1. Genereren van simulatie data sets

2. Ontwikkelen van koppelingsscenario’s

3. Selecteren van koppelingsmethode

Page 7: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

7

Simulatie gegevensGenereren van simulatie data

1. Drie data sets met verschillende omvang en populatie dekking die representatief te zijn voor biobank/registraties:

Grote data set (160.000 records, algemene populatie dekking zoals beschreven in StatLine CBS)

Medium data set (16.000 records, specifieke populatie dekking zoals beschreven op IKNL website over Kanker Statistiek)

Klein data set (1.600 records, zeer specifieke populatie dekking geïmiteerd van OMEGA vrouwen cohort )

2. Elke data set bevat: achternaam, geboortedatum, geslacht, postcode

3. Achternamen zijn gegenereerd met behulp van de meest populaire Nederlandse achternamen volgens het Meertens Instituut

Page 8: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

8

Simulatie gegevens

Ontwikkelen van koppelingsscenario’s

Bepalen omvang van overlap (shared population: 10%, 60%, 90%), omvang van fouten (10%, 20%, 30%)

Toevoegen van fouten aan de koppelingsvariabelen (behalve geslacht)

Typische fouten in Nederlandse registraties (vooral o.b.v. CBS ervaring, zie Arts, Bakker & van Lith, 2000)

Denkbare fouten genoemd in de literatuur (o.a. Oberaigner, 2007 en Christen & Pudjijono, 2009)

Page 9: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

9

Simulatie gegevens

Page 10: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

10

Simulatie gegevens

Koppelingsmethode, bij voorkeur: Simpel maar doeltreffend, en geschikt voor encryptie

Geselecteerde koppelingsmethode voor evaluatie:

1. Probabilistisch met afstand maat (Jaro-Winkler)

2. Probabilistisch met afstand maat, geschikt voor encryptie (Bigram)

3. Basic probabilistisch

4. Basic deterministisch

Page 11: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

11

Simulatie resultaten: Sensitiviteit

Sensitiviteit (aantal correcte links gevonden/totaal links), per error rate

Page 12: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

12

Simulatie resultaten: Precisie

Precisie (aantal correcte links/total links gevonden), per error rate

Page 13: Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

13

Belangrijkste conclusies

Onze conclusies op grond van de simulatie resultaten:

1. Probabilistische methode is meer geschikt dan deterministisch methode

indien: de kwaliteit van de variabelen laag is (in ons geval: 30%

fout) meer variabelen beschikbaar zijn als koppelvariabelen,

en bij voorkeur discriminerende variabelen

2. Deterministische methode is aan te raden voor het koppelen van data van hoge kwaliteit, vooral als de omvang van de overlap gering is (in ons geval 10%).