DDMA / DMS en Infosync: Datakwaliteit
description
Transcript of DDMA / DMS en Infosync: Datakwaliteit
Event: DDMA DQ Dag
Thema: Datakwaliteit
Spreker: Brian Holmes - Infosync
en Henk Wassenaar – DMS Consultancy
Datum: 12 september 2006, Fortis NV
www.ddma.nl
DatakwaliteitDatakwaliteit
Effectief gebruik vanEffectief gebruik van
referentietabellenreferentietabellen
..even voorstellen..even voorstellen
Brian HolmesBrian Holmes
(Infosync Database Services)(Infosync Database Services)
Henk WassenaarHenk Wassenaar
(DMS Consultancy)(DMS Consultancy)
Van 1993 tot 2004 directie van computerservicebureau Van 1993 tot 2004 directie van computerservicebureau RDMS Direct MarketingRDMS Direct Marketing
..even voorstellen..even voorstellen
RDMS Direct MarketingRDMS Direct Marketing
(opgericht vanuit RAET Database Services)(opgericht vanuit RAET Database Services)
Dienstverlening:Dienstverlening:
DatabasebeheerDatabasebeheer
Bestandsbewerking Bestandsbewerking
BestandsbewerkingBestandsbewerking
Standaardiseren, uniformerenStandaardiseren, uniformeren
Stuctureren en ontdubbelenStuctureren en ontdubbelen
VerrijkenVerrijken
DataconversieDataconversie
Ook internationale adresdataOok internationale adresdata
… … Brian …Brian …
Hoe bereik je je doelstellingenHoe bereik je je doelstellingen
Wat wil je bereiken?Wat wil je bereiken?Welk soort gebruiker ben je?Welk soort gebruiker ben je?Wat verwacht je van je leverancier?Wat verwacht je van je leverancier?Hoe kies je een leverancier?Hoe kies je een leverancier?Waar moet je opletten?Waar moet je opletten?Het Proces?Intelligentie……..Het Proces?Intelligentie……..Henk … ReferentiebestandenHenk … ReferentiebestandenDe-duplicatieDe-duplicatieConclusie Conclusie
Wat wil je bereikenWat wil je bereiken
Heb je een referentiebestand nodig?Heb je een referentiebestand nodig?
Betere ROI on mailingsBetere ROI on mailings Post retourenPost retouren DrukwerkDrukwerk Meervoudige mailings naar 1 persoonMeervoudige mailings naar 1 persoon
Beter uitstraling – type productBeter uitstraling – type product
Durf om regelmatig contact op te nemenDurf om regelmatig contact op te nemen
Meer inzichtMeer inzicht
Welk soort gebruiker ben je?Welk soort gebruiker ben je?
Heb je er tijd voor?Heb je er tijd voor?
Stabiel bestand, regelmatig contact, weten Stabiel bestand, regelmatig contact, weten klanten/prospects dat ze in je bestand klanten/prospects dat ze in je bestand zitten?zitten?
Veel prospects, weinig contact, laag Veel prospects, weinig contact, laag profiel, veel post retour, verlies van profiel, veel post retour, verlies van contactencontacten
Tussen in…Tussen in…
Welk soort gebruiker ben je?Welk soort gebruiker ben je?
Heb je een eigen database – of maak je Heb je een eigen database – of maak je steeds gebruik van externe bestanden?steeds gebruik van externe bestanden?
CRM systeem?CRM systeem?
Type productType product
Prijs productPrijs product
Channel gebruik….Channel gebruik….
Wat verwacht je van je Wat verwacht je van je leverancier?leverancier?
Advies van begin tot eind…Advies van begin tot eind…
Opknappen en stuctureren eigen dataOpknappen en stuctureren eigen data
De-duplicatie..De-duplicatie..
Controle op naamControle op naam
Uitgebreide info in fout situaties..Uitgebreide info in fout situaties..
100% oplossing100% oplossing
Nationaal/InternationaalNationaal/Internationaal
Hoe kies je een leverancier?Hoe kies je een leverancier?
Reeds goede contacten/reputatieReeds goede contacten/reputatie
Kosten van verwerkingKosten van verwerking
Resultaten – test verwerking…Resultaten – test verwerking…
Type oplossing gewenst,Type oplossing gewenst, Batch … snelle batchBatch … snelle batch Online ….Online …. Nationaal/InternationaalNationaal/Internationaal
Dekking ….Dekking ….
Waar moet je op letten?Waar moet je op letten?
Hoe compleet is het referentiebestand?Hoe compleet is het referentiebestand? ConsumentenConsumenten B-to-BB-to-B
Hoe vaak wordt het ge-update?Hoe vaak wordt het ge-update?
Wat zijn de gebruikte bronnen?Wat zijn de gebruikte bronnen?
Historie aanwezig …Historie aanwezig …
Hoe intelligent is de software?Hoe intelligent is de software?
Het proces/intelligentie…Het proces/intelligentie…
Eigen data ..structureren, parsing, Eigen data ..structureren, parsing, personalisering, standaardiseringpersonalisering, standaardisering
Verificatie .. Matchen met referentiedataVerificatie .. Matchen met referentiedata
De-duplicatie/samenvoegen, vervangen De-duplicatie/samenvoegen, vervangen met referentiedatamet referentiedata
Het proces/IntelligentieHet proces/Intelligentie
Computers zijn in principe niet intelligent..Computers zijn in principe niet intelligent..Wij kunnen snel conclusies trekken uit Wij kunnen snel conclusies trekken uit onze ervaringen – de computer niet of hij onze ervaringen – de computer niet of hij moet getrained worden…moet getrained worden…Dus leverancier moet niet alleen Dus leverancier moet niet alleen referentiedata hebben voor controle enz. referentiedata hebben voor controle enz. maar ook referentiedata en software om maar ook referentiedata en software om de computer intelligente beslissingen te de computer intelligente beslissingen te laten maken…laten maken…
IntelligentieIntelligentie
Wij kunnen conclusies trekken uit onze Wij kunnen conclusies trekken uit onze ervaringen en redeneringskracht…ervaringen en redeneringskracht…
Aan een naam is veel te zien…….Aan een naam is veel te zien…….
IntelligentieIntelligentie
B.HolmesB.Holmes
Brian HolmesBrian Holmes
Dhr B. HolmesDhr B. Holmes
Dhr B. Holmes Jr.Dhr B. Holmes Jr.
Aan de gelukkige winnaarAan de gelukkige winnaar
IntelligentieIntelligentie
Geen magische sleutel..Geen magische sleutel..
Niet alleen een slim programma ..Niet alleen een slim programma ..
Combinatie van ervaring en software – Combinatie van ervaring en software – artificial intelligenceartificial intelligence
Nooit klaar..Nooit klaar..
Samen met klant “rule-set” makenSamen met klant “rule-set” maken
Namen en adressenNamen en adressen
Verschil zien tussen bedrijfs- en Verschil zien tussen bedrijfs- en persoonsnamen..persoonsnamen..
Herkennen van indicatieve delen Herkennen van indicatieve delen bedrijfsnamenbedrijfsnamen
Opsplistsen van naam onderdelenOpsplistsen van naam onderdelen
Upper Lower caseUpper Lower case
Voornamen ….Voornamen ….
Namen ….Namen ….
Veronica BladVeronica BladV V D FractieV V D FractieMuseum, Vincent van GoghMuseum, Vincent van GoghPhilip MorrisPhilip MorrisAlbert HeinAlbert HeinJ.Janssen ArtsJ.Janssen ArtsB.V. HolmesB.V. HolmesJanssen AGFJanssen AGF
Adressen….Adressen….
Land herkenning … St MoritzLand herkenning … St MoritzWoonplaats .. WassenaarWoonplaats .. WassenaarStraat huisnummer toevoegingStraat huisnummer toevoeging 1940-1945, 1914-1918, 1 Feb 19531940-1945, 1914-1918, 1 Feb 1953 Apollo 11 … huisnrApollo 11 … huisnr Floris 4Floris 4 Hendrik 1Hendrik 1 Charta 77Charta 77 Jan 1Jan 1
Leverancier doet alles goed ..Leverancier doet alles goed ..
Verificatie – dus vergelijken met Verificatie – dus vergelijken met referentiebestandenreferentiebestanden
Gevonden/Niet gevonden/Verhuisd…Gevonden/Niet gevonden/Verhuisd…
Niet gevonden betekent niet dat iets Niet gevonden betekent niet dat iets verkeerd is…verkeerd is…
Gebruik hulp van leverancier om Gebruik hulp van leverancier om conclusies te trekken…conclusies te trekken…
… … Henk …Henk …
ReferentiebestandenReferentiebestanden
Informatie leveranciersInformatie leveranciers
o.a.:o.a.:
CendrisCendris ExperianExperian Wegener DMWegener DM Kamer van KoophandelKamer van Koophandel Stichting InfofilterStichting Infofilter
ReferentiebestandenReferentiebestanden
Beschikbare data:Beschikbare data:
KPN data(gidsvermeldingen)KPN data(gidsvermeldingen)
Verhuisgegevens van TPG verhuisberichtVerhuisgegevens van TPG verhuisbericht
(90 % van de verhuizingen)(90 % van de verhuizingen)
PostcodetabelPostcodetabel
Afgiftebestand TPGpostAfgiftebestand TPGpost
ReferentiebestandenReferentiebestanden
Beschikbare data:Beschikbare data:
Dagbladen abonneesDagbladen abonnees
Weekblad abonneesWeekblad abonnees
KvK data (bedrijven)KvK data (bedrijven)
Infofilter (blokkering)Infofilter (blokkering)
ReferentiebestandenReferentiebestanden
Meer bronbestanden geeft betere dekkingsgraad en Meer bronbestanden geeft betere dekkingsgraad en hogere betrouwbaarheidhogere betrouwbaarheid
Bestand(en) zodanig voorbereiden, dat datavergelijking Bestand(en) zodanig voorbereiden, dat datavergelijking mogelijk ismogelijk is
Alles draait om het ‘herkennen’ van een record t.o.v. een Alles draait om het ‘herkennen’ van een record t.o.v. een record in het referentiebestandrecord in het referentiebestand
ReferentiebestandenReferentiebestanden
Bestandsdiagnose / datascanBestandsdiagnose / datascan
Tellingen van..Tellingen van..
- correcte records- correcte records- niet gevonden- niet gevonden- foutief adres- foutief adres- (mogelijk) verhuisd- (mogelijk) verhuisd
..zegt iets over de kwaliteit van het bestand..zegt iets over de kwaliteit van het bestand
ReferentiebestandenReferentiebestanden
BestandsvergelijkingBestandsvergelijking
F. v. RooijF. v. Rooij A. van RooijA. van Rooij
Hans van LeeuwenHans van Leeuwen J. van LeeuwenJ. van Leeuwen
Gert RothertGert Rothert G. Rothert Sr.G. Rothert Sr.
R.V.S. LevenR.V.S. Leven RVS SchadeverzekeringenRVS Schadeverzekeringen
ReferentiebestandenReferentiebestanden
Na de datascanNa de datascan
in overleg met de leverancierin overleg met de leverancier::
valideren (of niet)valideren (of niet)
Hoe valide is valideren..Hoe valide is valideren..Let op interpretatieverschillen!Let op interpretatieverschillen!
Hoe hoog is de dekkingsgraadHoe hoog is de dekkingsgraad
Wat is de gewenste kwaliteitWat is de gewenste kwaliteit
Waarvoor wordt de data ingezetWaarvoor wordt de data ingezet
ReferentiebestandenReferentiebestanden
En hoe nu verder..En hoe nu verder..
De-duplicatieDe-duplicatie
Ontdubbeling/ Merge-PurgeOntdubbeling/ Merge-Purge
Maak groepen van gegevens met een of Maak groepen van gegevens met een of meerdere kenmerken gelijk, binnen groep meerdere kenmerken gelijk, binnen groep alles tegen alles vergelijken met scorings alles tegen alles vergelijken met scorings algorithme…..algorithme…..
Niet zo makkelijk als het lijkt..Niet zo makkelijk als het lijkt..
De-duplicatieDe-duplicatie
. Henk heeft al voorbeelden gegeven van . Henk heeft al voorbeelden gegeven van levensverzekering/hypotheken/verzekering levensverzekering/hypotheken/verzekering enzenz
IBM Internationaal Business MachinesIBM Internationaal Business Machines
Samenvoegen onderliggende data…Samenvoegen onderliggende data…
ConclusieConclusie
Doelstellingen goed bepalenDoelstellingen goed bepalenProbeer zelf je data zo goed en zo Probeer zelf je data zo goed en zo gestructureerd mogelijk bij te houdengestructureerd mogelijk bij te houdenWees critisch met aanbodWees critisch met aanbodVoer een test uitVoer een test uitNeem tijd om de output te controlerenNeem tijd om de output te controlerenWees voorzichtig met samenvoegen……Wees voorzichtig met samenvoegen……Gebruik het voordeel dat daar ligt …Gebruik het voordeel dat daar ligt …