DDMA / DMS en Infosync: Datakwaliteit

32
Event: DDMA DQ Dag Thema: Datakwaliteit Spreker: Brian Holmes - Infosync en Henk Wassenaar – DMS Consultancy Datum: 12 september 2006, Fortis NV www.ddma.nl

description

Voorzitter van de DDMA sectie datakwaliteit Henk Wassenaar (DMS Consultancy) en Brian Holmes (Infosync Database Services) gaan in op het effectief gebruik van referentietabellenda. Ook hier gaat het om de manier waarop gebruik gemaakt wordt van de beschikbare gegevens. Toepassen van hoogwaardige software is nodig om intelligente beslissingen te kunnen nemen. Ook moet van tevoren duidelijk zijn waar de data voor gebruikt gaan worden. Bovendien moeten beschikbare bestanden zodanig worden voorbereid dat een vergelijking mogelijk is. En zelfs met de beste voorbereiding is het van belang de output te controleren op interpretatieverschillen. Na dit traject kan worden begonnen met het ingewikkelde proces van de-duplicatie en eventueel het samenvoegen van onderliggende data. Als dit zorgvuldig gebeurt, kan men er een groot voordeel uit halen.

Transcript of DDMA / DMS en Infosync: Datakwaliteit

Page 1: DDMA / DMS en Infosync: Datakwaliteit

Event: DDMA DQ Dag

Thema: Datakwaliteit

Spreker: Brian Holmes - Infosync

en Henk Wassenaar – DMS Consultancy

Datum: 12 september 2006, Fortis NV

www.ddma.nl

Page 2: DDMA / DMS en Infosync: Datakwaliteit

DatakwaliteitDatakwaliteit

Effectief gebruik vanEffectief gebruik van

referentietabellenreferentietabellen

Page 3: DDMA / DMS en Infosync: Datakwaliteit

..even voorstellen..even voorstellen

Brian HolmesBrian Holmes

(Infosync Database Services)(Infosync Database Services)

Henk WassenaarHenk Wassenaar

(DMS Consultancy)(DMS Consultancy)

Van 1993 tot 2004 directie van computerservicebureau Van 1993 tot 2004 directie van computerservicebureau RDMS Direct MarketingRDMS Direct Marketing

Page 4: DDMA / DMS en Infosync: Datakwaliteit

..even voorstellen..even voorstellen

RDMS Direct MarketingRDMS Direct Marketing

(opgericht vanuit RAET Database Services)(opgericht vanuit RAET Database Services)

Dienstverlening:Dienstverlening:

DatabasebeheerDatabasebeheer

Bestandsbewerking Bestandsbewerking

Page 5: DDMA / DMS en Infosync: Datakwaliteit

BestandsbewerkingBestandsbewerking

Standaardiseren, uniformerenStandaardiseren, uniformeren

Stuctureren en ontdubbelenStuctureren en ontdubbelen

VerrijkenVerrijken

DataconversieDataconversie

Ook internationale adresdataOok internationale adresdata

… … Brian …Brian …

Page 6: DDMA / DMS en Infosync: Datakwaliteit

Hoe bereik je je doelstellingenHoe bereik je je doelstellingen

Wat wil je bereiken?Wat wil je bereiken?Welk soort gebruiker ben je?Welk soort gebruiker ben je?Wat verwacht je van je leverancier?Wat verwacht je van je leverancier?Hoe kies je een leverancier?Hoe kies je een leverancier?Waar moet je opletten?Waar moet je opletten?Het Proces?Intelligentie……..Het Proces?Intelligentie……..Henk … ReferentiebestandenHenk … ReferentiebestandenDe-duplicatieDe-duplicatieConclusie Conclusie

Page 7: DDMA / DMS en Infosync: Datakwaliteit

Wat wil je bereikenWat wil je bereiken

Heb je een referentiebestand nodig?Heb je een referentiebestand nodig?

Betere ROI on mailingsBetere ROI on mailings Post retourenPost retouren DrukwerkDrukwerk Meervoudige mailings naar 1 persoonMeervoudige mailings naar 1 persoon

Beter uitstraling – type productBeter uitstraling – type product

Durf om regelmatig contact op te nemenDurf om regelmatig contact op te nemen

Meer inzichtMeer inzicht

Page 8: DDMA / DMS en Infosync: Datakwaliteit

Welk soort gebruiker ben je?Welk soort gebruiker ben je?

Heb je er tijd voor?Heb je er tijd voor?

Stabiel bestand, regelmatig contact, weten Stabiel bestand, regelmatig contact, weten klanten/prospects dat ze in je bestand klanten/prospects dat ze in je bestand zitten?zitten?

Veel prospects, weinig contact, laag Veel prospects, weinig contact, laag profiel, veel post retour, verlies van profiel, veel post retour, verlies van contactencontacten

Tussen in…Tussen in…

Page 9: DDMA / DMS en Infosync: Datakwaliteit

Welk soort gebruiker ben je?Welk soort gebruiker ben je?

Heb je een eigen database – of maak je Heb je een eigen database – of maak je steeds gebruik van externe bestanden?steeds gebruik van externe bestanden?

CRM systeem?CRM systeem?

Type productType product

Prijs productPrijs product

Channel gebruik….Channel gebruik….

Page 10: DDMA / DMS en Infosync: Datakwaliteit

Wat verwacht je van je Wat verwacht je van je leverancier?leverancier?

Advies van begin tot eind…Advies van begin tot eind…

Opknappen en stuctureren eigen dataOpknappen en stuctureren eigen data

De-duplicatie..De-duplicatie..

Controle op naamControle op naam

Uitgebreide info in fout situaties..Uitgebreide info in fout situaties..

100% oplossing100% oplossing

Nationaal/InternationaalNationaal/Internationaal

Page 11: DDMA / DMS en Infosync: Datakwaliteit

Hoe kies je een leverancier?Hoe kies je een leverancier?

Reeds goede contacten/reputatieReeds goede contacten/reputatie

Kosten van verwerkingKosten van verwerking

Resultaten – test verwerking…Resultaten – test verwerking…

Type oplossing gewenst,Type oplossing gewenst, Batch … snelle batchBatch … snelle batch Online ….Online …. Nationaal/InternationaalNationaal/Internationaal

Dekking ….Dekking ….

Page 12: DDMA / DMS en Infosync: Datakwaliteit

Waar moet je op letten?Waar moet je op letten?

Hoe compleet is het referentiebestand?Hoe compleet is het referentiebestand? ConsumentenConsumenten B-to-BB-to-B

Hoe vaak wordt het ge-update?Hoe vaak wordt het ge-update?

Wat zijn de gebruikte bronnen?Wat zijn de gebruikte bronnen?

Historie aanwezig …Historie aanwezig …

Hoe intelligent is de software?Hoe intelligent is de software?

Page 13: DDMA / DMS en Infosync: Datakwaliteit

Het proces/intelligentie…Het proces/intelligentie…

Eigen data ..structureren, parsing, Eigen data ..structureren, parsing, personalisering, standaardiseringpersonalisering, standaardisering

Verificatie .. Matchen met referentiedataVerificatie .. Matchen met referentiedata

De-duplicatie/samenvoegen, vervangen De-duplicatie/samenvoegen, vervangen met referentiedatamet referentiedata

Page 14: DDMA / DMS en Infosync: Datakwaliteit

Het proces/IntelligentieHet proces/Intelligentie

Computers zijn in principe niet intelligent..Computers zijn in principe niet intelligent..Wij kunnen snel conclusies trekken uit Wij kunnen snel conclusies trekken uit onze ervaringen – de computer niet of hij onze ervaringen – de computer niet of hij moet getrained worden…moet getrained worden…Dus leverancier moet niet alleen Dus leverancier moet niet alleen referentiedata hebben voor controle enz. referentiedata hebben voor controle enz. maar ook referentiedata en software om maar ook referentiedata en software om de computer intelligente beslissingen te de computer intelligente beslissingen te laten maken…laten maken…

Page 15: DDMA / DMS en Infosync: Datakwaliteit

IntelligentieIntelligentie

Wij kunnen conclusies trekken uit onze Wij kunnen conclusies trekken uit onze ervaringen en redeneringskracht…ervaringen en redeneringskracht…

Aan een naam is veel te zien…….Aan een naam is veel te zien…….

Page 16: DDMA / DMS en Infosync: Datakwaliteit

IntelligentieIntelligentie

B.HolmesB.Holmes

Brian HolmesBrian Holmes

Dhr B. HolmesDhr B. Holmes

Dhr B. Holmes Jr.Dhr B. Holmes Jr.

Aan de gelukkige winnaarAan de gelukkige winnaar

Page 17: DDMA / DMS en Infosync: Datakwaliteit

IntelligentieIntelligentie

Geen magische sleutel..Geen magische sleutel..

Niet alleen een slim programma ..Niet alleen een slim programma ..

Combinatie van ervaring en software – Combinatie van ervaring en software – artificial intelligenceartificial intelligence

Nooit klaar..Nooit klaar..

Samen met klant “rule-set” makenSamen met klant “rule-set” maken

Page 18: DDMA / DMS en Infosync: Datakwaliteit

Namen en adressenNamen en adressen

Verschil zien tussen bedrijfs- en Verschil zien tussen bedrijfs- en persoonsnamen..persoonsnamen..

Herkennen van indicatieve delen Herkennen van indicatieve delen bedrijfsnamenbedrijfsnamen

Opsplistsen van naam onderdelenOpsplistsen van naam onderdelen

Upper Lower caseUpper Lower case

Voornamen ….Voornamen ….

Page 19: DDMA / DMS en Infosync: Datakwaliteit

Namen ….Namen ….

Veronica BladVeronica BladV V D FractieV V D FractieMuseum, Vincent van GoghMuseum, Vincent van GoghPhilip MorrisPhilip MorrisAlbert HeinAlbert HeinJ.Janssen ArtsJ.Janssen ArtsB.V. HolmesB.V. HolmesJanssen AGFJanssen AGF

Page 20: DDMA / DMS en Infosync: Datakwaliteit

Adressen….Adressen….

Land herkenning … St MoritzLand herkenning … St MoritzWoonplaats .. WassenaarWoonplaats .. WassenaarStraat huisnummer toevoegingStraat huisnummer toevoeging 1940-1945, 1914-1918, 1 Feb 19531940-1945, 1914-1918, 1 Feb 1953 Apollo 11 … huisnrApollo 11 … huisnr Floris 4Floris 4 Hendrik 1Hendrik 1 Charta 77Charta 77 Jan 1Jan 1

Page 21: DDMA / DMS en Infosync: Datakwaliteit

Leverancier doet alles goed ..Leverancier doet alles goed ..

Verificatie – dus vergelijken met Verificatie – dus vergelijken met referentiebestandenreferentiebestanden

Gevonden/Niet gevonden/Verhuisd…Gevonden/Niet gevonden/Verhuisd…

Niet gevonden betekent niet dat iets Niet gevonden betekent niet dat iets verkeerd is…verkeerd is…

Gebruik hulp van leverancier om Gebruik hulp van leverancier om conclusies te trekken…conclusies te trekken…

… … Henk …Henk …

Page 22: DDMA / DMS en Infosync: Datakwaliteit

ReferentiebestandenReferentiebestanden

Informatie leveranciersInformatie leveranciers

o.a.:o.a.:

CendrisCendris ExperianExperian Wegener DMWegener DM Kamer van KoophandelKamer van Koophandel Stichting InfofilterStichting Infofilter

Page 23: DDMA / DMS en Infosync: Datakwaliteit

ReferentiebestandenReferentiebestanden

Beschikbare data:Beschikbare data:

KPN data(gidsvermeldingen)KPN data(gidsvermeldingen)

Verhuisgegevens van TPG verhuisberichtVerhuisgegevens van TPG verhuisbericht

(90 % van de verhuizingen)(90 % van de verhuizingen)

PostcodetabelPostcodetabel

Afgiftebestand TPGpostAfgiftebestand TPGpost

Page 24: DDMA / DMS en Infosync: Datakwaliteit

ReferentiebestandenReferentiebestanden

Beschikbare data:Beschikbare data:

Dagbladen abonneesDagbladen abonnees

Weekblad abonneesWeekblad abonnees

KvK data (bedrijven)KvK data (bedrijven)

Infofilter (blokkering)Infofilter (blokkering)

Page 25: DDMA / DMS en Infosync: Datakwaliteit

ReferentiebestandenReferentiebestanden

Meer bronbestanden geeft betere dekkingsgraad en Meer bronbestanden geeft betere dekkingsgraad en hogere betrouwbaarheidhogere betrouwbaarheid

Bestand(en) zodanig voorbereiden, dat datavergelijking Bestand(en) zodanig voorbereiden, dat datavergelijking mogelijk ismogelijk is

Alles draait om het ‘herkennen’ van een record t.o.v. een Alles draait om het ‘herkennen’ van een record t.o.v. een record in het referentiebestandrecord in het referentiebestand

Page 26: DDMA / DMS en Infosync: Datakwaliteit

ReferentiebestandenReferentiebestanden

Bestandsdiagnose / datascanBestandsdiagnose / datascan

Tellingen van..Tellingen van..

- correcte records- correcte records- niet gevonden- niet gevonden- foutief adres- foutief adres- (mogelijk) verhuisd- (mogelijk) verhuisd

..zegt iets over de kwaliteit van het bestand..zegt iets over de kwaliteit van het bestand

Page 27: DDMA / DMS en Infosync: Datakwaliteit

ReferentiebestandenReferentiebestanden

BestandsvergelijkingBestandsvergelijking

F. v. RooijF. v. Rooij A. van RooijA. van Rooij

Hans van LeeuwenHans van Leeuwen J. van LeeuwenJ. van Leeuwen

Gert RothertGert Rothert G. Rothert Sr.G. Rothert Sr.

R.V.S. LevenR.V.S. Leven RVS SchadeverzekeringenRVS Schadeverzekeringen

Page 28: DDMA / DMS en Infosync: Datakwaliteit

ReferentiebestandenReferentiebestanden

Na de datascanNa de datascan

in overleg met de leverancierin overleg met de leverancier::

valideren (of niet)valideren (of niet)

Hoe valide is valideren..Hoe valide is valideren..Let op interpretatieverschillen!Let op interpretatieverschillen!

Hoe hoog is de dekkingsgraadHoe hoog is de dekkingsgraad

Wat is de gewenste kwaliteitWat is de gewenste kwaliteit

Waarvoor wordt de data ingezetWaarvoor wordt de data ingezet

Page 29: DDMA / DMS en Infosync: Datakwaliteit

ReferentiebestandenReferentiebestanden

En hoe nu verder..En hoe nu verder..

Page 30: DDMA / DMS en Infosync: Datakwaliteit

De-duplicatieDe-duplicatie

Ontdubbeling/ Merge-PurgeOntdubbeling/ Merge-Purge

Maak groepen van gegevens met een of Maak groepen van gegevens met een of meerdere kenmerken gelijk, binnen groep meerdere kenmerken gelijk, binnen groep alles tegen alles vergelijken met scorings alles tegen alles vergelijken met scorings algorithme…..algorithme…..

Niet zo makkelijk als het lijkt..Niet zo makkelijk als het lijkt..

Page 31: DDMA / DMS en Infosync: Datakwaliteit

De-duplicatieDe-duplicatie

. Henk heeft al voorbeelden gegeven van . Henk heeft al voorbeelden gegeven van levensverzekering/hypotheken/verzekering levensverzekering/hypotheken/verzekering enzenz

IBM Internationaal Business MachinesIBM Internationaal Business Machines

Samenvoegen onderliggende data…Samenvoegen onderliggende data…

Page 32: DDMA / DMS en Infosync: Datakwaliteit

ConclusieConclusie

Doelstellingen goed bepalenDoelstellingen goed bepalenProbeer zelf je data zo goed en zo Probeer zelf je data zo goed en zo gestructureerd mogelijk bij te houdengestructureerd mogelijk bij te houdenWees critisch met aanbodWees critisch met aanbodVoer een test uitVoer een test uitNeem tijd om de output te controlerenNeem tijd om de output te controlerenWees voorzichtig met samenvoegen……Wees voorzichtig met samenvoegen……Gebruik het voordeel dat daar ligt …Gebruik het voordeel dat daar ligt …