18 Datamining onder de loep I - RCM-advies mining... · opgeslagen, waardoor het ... de tools die...

4

Click here to load reader

Transcript of 18 Datamining onder de loep I - RCM-advies mining... · opgeslagen, waardoor het ... de tools die...

Page 1: 18 Datamining onder de loep I - RCM-advies mining... · opgeslagen, waardoor het ... de tools die voor datamining wor-den gebruikt, en op de algoritmes ... Een techniek die pro-Figuur

18

KM 2000, nummer 2

het begin van de jaren negen-tig zijn veel bedrijven begon-

nen met het ontwikkelen van data-warehouses.Datawarehousing is hetproces van het bij elkaar brengenvan verschillende gegevens uit degehele organisatie voor beslissings-ondersteunende doeleinden [1].Dezegegevens waren voorheen vooral inverschillende operationele databasesopgeslagen, waardoor het overzichten het informatieve aspect ontbrak.Het doel van datawarehousing is ominformatie op de juiste tijd op dejuiste plaats beschikbaar te hebben.Informatie in datawarehouses ismeestal opgeslagen in zogenaamdestar schema’s, een relationele data-base met een grote feitentabel endaaraan gekoppelde dimensies.

Wat is datamining?De door deze ontwikkeling beschik-baar geworden centrale gegevens-bron is echter voor meer doeleindenbruikbaar dan om rapporten mee tegenereren en er vragen mee te be-antwoorden.Datamining maakt het mogelijknieuwe kennis uit de gegevens tehalen.Datamining,ook wel knowled-ge discovery in databases (KDD)genoemd,bestaat uit een aantal stap-pen, maar de meest beschreven enonderzochte stap bestaat uit het toe-passen van een algoritme op degegevens. Het doel hiervan is een

record - een registratie van een per-soon of een transactie in de databa-se - te classificeren of een attribuutvan het record te voorspellen. (Vooreen uitgebreidere beschrijving vanhet proces, zie het kader op pagina21.)

In de definitie ‘Datamining is hetproces van analyses en verkenningvan grote hoeveelheden gegevens,om daar betekenisvolle patronen inte ontdekken’ zullen een aantal con-cepten nog niet duidelijk zijn. Dezekunnen als volgt worden uitgelegd.

Analyse en verkenningDoor de analyse en verkenning vande gegevens kan er kennis beschik-baar komen waarmee een organisa-tie acties kan ondernemen. De ana-lyses kunnen op twee verschillendemanieren worden uitgevoerd, doorverificatie en door ontdekking(knowledge discovery).Zo kan datamining gebruikt wordenom het vermoeden te verifiëren datjongere klanten geneigd zijn debank eerder te verlaten dan oudereklanten, omdat de snelheid van deservice van de bank te wensen over-laat. Doordat gegevens van klantenbeschikbaar zijn en hun gedrag inhet verleden is geregistreerd, kun-nen wachttijden van individueleklanten en hun gedrag wordengeanalyseerd. Zijn er inderdaad veel

klanten van jonger dan dertig weg-gelopen en was de wachttijd inder-daad de reden? Deze kennis geeft debetreffende organisatie een handvatom deze ontwikkeling te bestrijden.Datamining kan op twee manierenontdekkend worden gebruikt:gericht en ongericht. Gericht wilzeggen dat een bepaalde variabele,bijvoorbeeld de kans op afname vaneen product, wordt voorspeld ofgecategoriseerd. Bij ongerichte data-mining wordt vooraf geen te voor-spellen variabele meegegeven. Inplaats hiervan wordt er een algorit-me op de gegevens losgelaten, dieeen bepaalde structuur in de gege-vens tracht te vinden.Bij verzekeringsmaatschappijen kangerichte datamining bijvoorbeeldworden gebruikt om de kans tevoorspellen dat een klant, gegeveneen bepaalde historie - zoals andereverzekeringen die de klant bij dezeverzekeraar heeft - een bepaaldenieuwe verzekering zal nemen. Deklanten met de hoogste waarschijn-lijkheid tot het nemen van dezenieuwe verzekering kunnen danworden benaderd.Dit kan de lift,hetpercentage respondenten van zo’nactie, aanmerkelijk doen toenemen.Ongerichte datamining kan wordentoegepast om groepen klanten in tedelen in segmenten. Een tool kandan de clusters ontdekken van klan-ten die heel interessant kunnen zijn.

In

Door Erik Hoeksema

Datamining onder de loep I

Datamining, of knowledge discovery in databases, maakt het moge-lijk nieuwe kennis uit gegevens te halen. In twee artikelen wordthet hoe, wat en waarom van datamining uitgelegd.

Page 2: 18 Datamining onder de loep I - RCM-advies mining... · opgeslagen, waardoor het ... de tools die voor datamining wor-den gebruikt, en op de algoritmes ... Een techniek die pro-Figuur

19

KM 2000, nummer 2

beert gegevens op het internet te‘minen’ staat bekend als web mi-ning.Web mining probeert uit onge-structureerde en verschillende vor-men van gegevens die op het web tevinden zijn, zoals audio, video, plaat-jes en tekst,kennis te extraheren.Ditbrede gebied staat nog in de kinder-schoenen en vergt nog veel re-search.‘Voor web mining onderzoekmoeten mensen samen komen vanheel veel verschillende disciplines,als spraakherkenning, tekst- en ima-ge retrieval, machine learning, om-dat de diversiteit van de soorten ge-gevens op het web zo groot is’, aldusShivakumar Vaithyanathan van IBM.Hier is men met een project bezigdat de kwaliteit van de zoekmachi-

Een bank paste deze techniek toe enkwam tot een cluster van mensendie zowel een zakelijke rekening alseen persoonlijke rekening hadden.Deze groep mensen bleek een veelgrotere kans te hebben een hypo-theek van de bank af te nemen. Ditleidde tot de uiterst nuttige hypo-these dat deze mensen eerder eenhypotheek nemen om het vrijgeko-men kapitaal te gebruiken voor hetopstarten van een eigen zaak.De verschillende soorten datami-ning worden vaak in combinatiemet elkaar gebruikt. Zo wordt inveel gevallen eerst een ongerichtetechniek op de gegevens losgelaten,om daarna een gevonden clusterverder te onderzoeken met eengericht datamining-algoritme.

ProcesDe definitie benadrukt ook dat data-mining een proces is en niet het toe-passen van een techniek. De nadrukvoor datamining ligt echter vaker opde tools die voor datamining wor-den gebruikt, en op de algoritmesdie in de modelleringsstap wordeningezet. De praktijk wijst uit dat ditniet redelijk is, omdat vaak drie-kwart van het werk in de preparatievan de gegevens zit. Het proces ende mensen die datamining gebrui-ken zijn volgens Randy Kerbor vanNCR dan ook veel belangrijker dande tools:‘Tool-verkopers willen vaakdoen geloven dat datamining nietsmeer is dan het toepassen van eentool, maar de kritische succesfacto-ren van datamining zijn de mensendie het toepassen en de samenstel-ling van het team.’

BetekenisvolEr kunnen bij een dataminingprocesenorm veel patronen ontdekt wor-den, die lang niet allemaal beteke-nisvol zijn. Bij het loslaten van eentool op een grote dataset kunnen eral gauw 2.000 patronen worden ont-dekt,waarvan er maar 20 nuttig zijn.De andere patronen zijn vaak irrele-vant, triviaal of onbruikbaar [2].

Verwante techniekenNet als datamining wordt ook OLAP(On-Line Analytical Processing) vaakonder de paraplu van knowledgediscovery-processen geschaard (fi-guur 1). Knowledge discoveryomvat alle manieren om kennis uit

databases te verkrijgen. OLAP lijktop datamining in die zin dat hetbegrip tracht te verkrijgen uit grotedatabases.Waar OLAP echter in ver-schilt is dat het vooral wordtgebruikt om met behulp van toolsstandaard rapporten te genererenom gegevens op een overzichtelijkemanier in meerdere dimensies tepresenteren, meestal in de vorm vaneen kubus. Met OLAP kan bijvoor-beeld de omzet per regio wordenuitgezet in de tijd. Datamining trachtechter verbanden te ontdekken omvoorspellingen te doen. Dit is eenwezenlijk verschil, omdat het nieu-we informatie is en het proces veelintensiever. De grens tussen beideconcepten is intussen echter aanvervaging onderhevig, enerzijdsdoordat OLAP-verkopers claimenook dataminingfunctionaliteit inhun tools aan te bieden [3], ander-zijds doordat men tracht een deelvan het dataminingproces te auto-matiseren en de tools op dezemanier steeds meer de gebruiks-vriendelijkheid van een OLAP-appli-catie benaderen. De twee kunnenelkaar echter uitstekend aanvullen.Een ontdekking met een OLAP toolkan met datamining verder wordenonderzocht. Waarom zijn de verko-pen van dat artikel in die regiogedaald, is het door het slechteweer? De variabelen die wordengebruikt in een dataminingproces,bijvoorbeeld de meest onderschei-dende variabelen voor een beslis-singsboom, kunnen op hun beurtweer worden gebruikt als dimensiesvoor een OLAP-kubus [1].

De term business intelligence wordtvaak als een overkoepelende termgebruikt voor alle datawarehouse-en analyse-activiteiten, zoals OLAPen datamining. Business intelligenceis ‘the ability to access and analyzedata and use it to make businessdecisions’ [4].Een ander vakgebied dat nauw ver-want is aan datamining is statistiek.Voor een groot deel is datamininghet toepassen van statistische tech-nieken, die in de loop der jaren doorde datamining-hausse zijn veran-derd. Ze zijn geschikt gemaakt voorde steeds groter wordende datasetsen de mogelijkheden die de tegen-woordige computer aan reken-kracht biedt. Een techniek die pro-

F i g u u r 1

a n a l y t i s c h ea p p l i c a t i e s

d a t a m i n i n g

O L A P

r a p p o r t a g e

I n g e w i k k e l d h e i d v o o r d e g e b r u i k e r

An

aly

tis

ch

e k

rac

ht

Knowledge Discovery

processen

nes op het web moet vergroten, zo-dat de gebruiker meer relevante do-cumenten krijgt in verschillende for-maten. Nu is het praktisch alleenmogelijk om naar tekst te zoeken, endat is nog te beperkt.

Een apart onderdeel van web mining,web usage mining, probeert hetgedrag van bezoekers op een websi-te te achterhalen.Web usage mininggebeurt door het analyseren van delog files die de gegevens herbergen

Page 3: 18 Datamining onder de loep I - RCM-advies mining... · opgeslagen, waardoor het ... de tools die voor datamining wor-den gebruikt, en op de algoritmes ... Een techniek die pro-Figuur

20

KM 2000, nummer 2

van gebruikers-interacties op eenwebsite. Het voordeel van dezegegevens is dat ze vaak erg schoonzijn. Het zijn immers gegevens vanobservaties door de computer enzijn niet door mensen ingebracht.Het nadeel is echter dat het aantalwerkelijke aankopen en bezoekennog veel te laag ligt in vergelijkingmet het aantal webpagina’s dat eenbedrijf heeft. Hierdoor is het vaakalleen mogelijk iets zinvols te zeg-gen over de meest bezochte pagi-na’s.

Stand van zakenBij datamining wordt een aantaltechnieken gebruikt (zie het kaderop deze pagina), waarvan de meesteal geruime tijd bekend zijn. Tech-

nieken als regressie-analyse en neur-ale netwerken worden in de statis-tiek al jarenlang gebruikt om gege-vens te analyseren. Door de komstvan snellere computers en databas-etechnologie is er echter een nieu-we dimensie voor deze techniekenbijgekomen. Door de techniekenenigszins te veranderen werd hetmogelijk ze ook op de immer grote-re datasets toe te passen.Datamining heeft echter een nega-tieve connotatie vanuit de statistiek,omdat de resultaten niet altijd vol-gens een zuivere, statistisch correctewijze tot stand komen en de mensendie datamining toepassen ook vaakniet-statistici zijn.De laatste jaren is datamining dooreen groot deel van het bedrijfsleven

opgepakt, alhoewel het erg lijkt opde analyse-activiteiten die al heellang in bedrijven worden uitge-voerd. Vaak werd er zonder een ge-degen onderzoek en de vereiste ken-nis aan een dataminingproject be-gonnen, waardoor men nog al eensop problemen stuitte. Voor datami-ning bleek veel meer nodig dan hettoepassen van een tool.En zonder be-grip van het management en de ana-listen is de kans op succes gering.Da-tamining is dan ook geenszins alomgeaccepteerd en nog steeds te moei-lijk voor de gemiddelde zakelijke ge-bruiker. Dit beaamt ook Robin Wayvan SAS Enterprise:‘Datamining is deearly adopters fase voorbij en moetnu nog door de early majority wor-den opgepakt.Het is dan zaak je pro-

Technieken

Neurale netwerkenNeurale netwerken, een van de populairste dataminingtechnieken,komen tot hun model door het nabootsen van het menselijke brein.Een netwerk wordt getraind door de records door het netwerk tevoeren. Elke input van een (attributen van een record) neuron, dateen bepaalde functie toepast op deze inputs, wordt een bepaaldgewicht gegeven dat aangepast wordt aan de mate waarin de uit-komst beter de werkelijkheid benadert. Deze inputs zijn de onafhan-kelijke variabelen, de uitkomst is de te schatten variabelen. Derecords worden dus keer op keer door het netwerk gevoerd, totdatde uitkomsten goed genoeg zijn en het netwerk is getraind. Neuralenetwerken kunnen bijvoorbeeld worden ingezet voor fraudedetectie.Met neurale netwerken kunnen heel complexe problemen wordenopgelost, omdat de techniek werkt met nonlineaire functies (deberekening in de neuron). Ook kan deze techniek voor veel ver-schillende problemen worden toegepast, gericht en ongericht, voortaken als classificatie en voorspelling en voor categorische en conti-nue variabelen. Het nadeel is echter dat alle input-waarden moetenworden geconverteerd naar een waarde tussen 0 en 1 en dat erweinig inzicht is in hoe het resultaat is behaald.

Decision treesEen techniek die juist wel een verklaring geeft voor de resultaten isdie van de decision trees. Beslissingsbomen zijn makkelijk af telezen, omdat ze regels representeren als: ALS land = Frankrijk EN#cilinders = 2 DAN auto = Citroën 2CV. Vanaf het begin van deboom wordt bij elke splitsing het op dat moment meest onderschei-dende attribuut bepaald, net zolang tot alle attributen zijn gebruikt.Een record is dan te classificeren door het pad in de boom vanboven naar beneden te doorlopen. Net als neurale netwerken kun-nen decision trees continue en categorische variabelen aan. Verderis de techniek geschikt voor classificatie én voorspelling, is debenodigde rekenkracht gering en geven ze een duidelijk inzicht inde manier waarop de resultaten zijn bereikt (ook welke attributenhet belangrijkst zijn).

ClusteringClustering is een vorm van ongerichte datamining. Aan de hand vande overeenkomsten tussen records worden deze ingedeeld in clus-ters. Deze clusters maken het bijvoorbeeld mogelijk groepen vanklanten te onderscheiden in de echte wereld. Het voordeel van dezetechniek is dat deze makkelijk toepasbaar is en met verschillende

vormen van data kan werken. Het kan alleen soms moeilijk zijn omde gevonden resultaten te interpreteren. Ook is de uitkomst ergafhankelijk van de functie die wordt gekozen om de gelijkheid teberekenen. Clustering wordt dan ook vaak gebruikt in combinatiemet andere technieken - zoals beslissingsbomen - om een verkla-ring te vinden voor een cluster of wanneer men een grote complexedataset heeft.Clustering werkt door de afstanden, bepaald door de hoek tussenvectoren, tussen de elementen (records) te meten. Eerst worden eenpaar elementen, zogenaamde zaden die het aantal clusters weerge-ven, in een dimensie afgebeeld. De andere elementen worden ver-volgens ingedeeld bij het cluster dat de kleinste onderlinge afstandheeft. Hierna worden de clusters afgebakend door lijnen te trekkendie haaks staan op de rechte lijn tussen twee zaden. Vervolgensworden de gemiddelden van elk cluster berekend, worden alle ele-menten opnieuw ingedeeld en worden de nieuwe grenzen van declusters bepaald. Als de grenzen niet meer veranderen stopt hetproces.

Market basket analysisEen andere techniek die ook vaak als startpunt wordt gebruikt, ismarket basket analysis. Deze gaat na welke artikelen in combinatiemet elkaar worden gekocht, zodat er inzicht ontstaat in koopgedragen betere aanbiedingen kunnen worden gedaan. Eerst wordt er eenmultidimensionale matrix opgesteld van producten die met elkaargekocht worden. Er worden aan de hand van deze matrix regelsgemaakt, bijvoorbeeld ALS A EN B DAN C. Vervolgens wordt vanelke regel de ondersteuning (percentage van de transacties waarindie producten in combinatie met elkaar voorkomen) en de betrouw-baarheid (als het ene product wordt gekocht, wat is dan de kans dathet andere product wordt gekocht uit de regel) uitgerekend en wor-den de kansen geëvalueerd. Een beroemd voorbeeld van een regeldie hiermee werd ontdekt is dat luiers en bier veel met elkaar wor-den gekocht; blijkbaar door mannen die er door hun vrouw op wor-den uitgestuurd om luiers te halen. De moeilijkheid zit hem in hetbepalen van het niveau van aggregatie van producten en het ver-krijgen van productcodes. Ook is de rekenkracht een serieus pro-bleem.De voordelen van deze techniek zijn dat het met variabele lengtesvan records kan werken, dat het duidelijke resultaten oplevert endat de berekeningen vrij simpel zijn. Market basket analysis wordtvooral gebruikt door grote supermarkten en kan, mede doordattransacties steeds minder anoniem zijn door bonus en credit cards,nuttige informatie opleveren.

Page 4: 18 Datamining onder de loep I - RCM-advies mining... · opgeslagen, waardoor het ... de tools die voor datamining wor-den gebruikt, en op de algoritmes ... Een techniek die pro-Figuur

21

KM 2000, nummer 2

duct te veranderen, zodat het doordeze groep kan worden gebruikt.’Dat datamining nog niet volwassengenoeg lijkt om door iedereen teworden toegepast, komt vooraldoordat:• Tools nog steeds beperkte func-

tionaliteit leveren; een groot deelvan het proces is nog steeds men-senwerk.

• Datamining niet genoeg in oplos-singen is geïntegreerd.

• Er nog geen goede methodologieis om een dataminingproces uit tevoeren.

Hoe deze problemen kunnen wor-den opgelost zal in het volgendenummer van KM uitgebreid aan deorde komen. Volgens Ronny Kohaviligt de oplossing in het integrerenvan datamining in zogenaamde ver-ticale applicaties, dus gericht op eenspecifieke bedrijfsfunctie.‘Om accep-tatie voor datamining in de businesste verkrijgen, moeten verticale toe-passingen voor datamining wordenontwikkeld, die makkelijker te ge-bruiken zijn en meer workflow-ach-tige functionaliteit bieden.’

De komende jaren zullen de datami-ningmarkt en de producten dan ookingrijpend veranderen, ook door de grote invloed van internet. De e-commerce hausse heeft aan tweekanten een stimulerend effect opdatamining.1.Generatie van gegevens.E-commer-

ce winkels genereren enorme data-bases door het opslaan van de trans-acties en van de clickstream-gege-vens.Clickstream-gegevens wordengeregistreerd aan de hand van hetgedrag van de bezoeker aan eenwebsite, bijvoorbeeld op welkelinks wordt geklikt,hoelang een be-paalde pagina wordt bekeken,etc.

2.Nieuw marketingmedium. Het in-ternet is een medium dat één-op-één-contact met de klant mogelijkmaakt, zodat met behulp van data-mining een betere boodschap kanworden overgebracht,bijvoorbeelddoor het realtime aanbieden doormiddel van een op maat gesnedenwebsite-advertentie of e-mail.

Een andere ontwikkeling die deacceptatie van datamining kan ver-groten is het afspreken van stan-daarden, in de vorm van een proces-

ProcesBij een datamining-exercitie kunnen meestaleen aantal stappen worden onderscheiden. Eendataminingproces is echter elke keer verschil-lend, omdat het erg afhangt waarvoor datami-ning wordt toegepast en het een iteratief pro-ces is. Stappen kunnen dus worden herhaald,wat vaak gebeurt door bijvoorbeeld meerderetechnieken op de dataset los te laten, of ermoet worden teruggegaan naar een eerderestap. Gedurende het hele proces is het belang-rijk goed vast te leggen wat er wordt gedaan;dit voorkomt dat bij een itererende stap werkwordt herhaald.Grofweg kunnen we de volgende stappenonderscheiden:1. Opstartfase. Volgens experts werkt data-

mining het beste als er een specifiek pro-bleem is dat moet worden opgelost.Voordat er aan de werkelijke datamining-exercitie begonnen wordt, is het raadzaamom eerst een projectplan op te stellen,waarin een omschrijving van het pro-bleem, een kosten/baten-analyse, de doe-len en de succescriteria zijn opgenomen.

2. Gegevensoriëntatie. Deze fase behelst hetselecteren van de data om het probleemop te kunnen lossen, het verkennen van dedata om er een ‘gevoel’ voor te krijgen enhet beschrijven van de data.

3. Gegevenspreparatie. Nadat de juiste gege-vens zijn geselecteerd, moeten ze wordengeprepareerd voor de werkelijke analyse.De gegevens moet worden opgeschoond,omdat er altijd waarden ontbreken en erfouten in zitten. Hier kunnen dan bijvoor-beeld gemiddelden voor worden ingevuld,of men kan besluiten de waarde niet inbeschouwing te nemen. Ook moeten degegevens in de juiste vorm in één tabel

worden gegoten en moeten er vaak trans-formaties op de tabel plaatsvinden. Dezezijn nodig om extra informatie toe te voe-gen, zoals ratio’s en sommaties (bijvoor-beeld per klant) en om eventueel de distri-butie van de attributen te veranderen.

4. Modelleringsfase. In deze stap wordt hetalgoritme op de gegevensset losgelaten.Vaak wordt in het tool, dat ook van hulpkan zijn in de vorige fase, een techniekgeselecteerd, waarna een aantal parame-ters moet worden ingesteld en de tabel kanworden gemined. Het is aan te raden eerstde set op te delen en te testen op eendeelverzameling, zodat een indicatie kanworden verkregen wat goede modellenzouden kunnen zijn. Deze kunnen dan opde hele database worden losgelaten.Volgens de statistiek moeten de gegevensvervolgens worden verdeeld in een trai-ningset en een testset. Op de trainingsetwordt het model ‘getraind’ en met de test-set kan vervolgens worden gekeken of hetmodel werkt. Classificeert het model bij-voorbeeld een record uit de testset in dejuiste categorie? Zo ja, dan werkt hetwaarschijnlijk ook op een ‘nieuw’ record.

5. Evaluatiefase. Hier moet worden afge-vraagd of het vereiste doel behaald is enof herhalingen nodig zijn. Nuttig is eendocument op te stellen met een beschrij-ving van het verloop van het proces. Watis er waar fout gegaan?

6. Actiefase. Voor de gevonden resultatenmoet een strategie worden bepaald. Ermoet gezorgd worden dat de informatie bijde juiste personen terechtkomt en datacties worden genomen om het probleemop te lossen.

model en door het definiëren vanAPI’s (Application Program Interfa-ce). CRISP-DM, wat staat voor CRossIndustry Standard Process for Data-mining, is een aanzet tot een stan-daard datamining procesmodel omde kans op succes van een project tevergroten door het creëren van eenkader en wederzijds begrip onder departicipanten [5]. Vaak ook hebbenbedrijven hun eigen model, zoalsSAS dat het SEMMA-model gebruikt.(Meer hierover komt ter sprake inhet volgende nummer.)

[1] Data Mining Techniques; For Marketing, Sales and CustomerSupport, Michael J.A. Berry en GordenLinoff. Wiley Computer Publishing, 1997.

[2] Data mining for fool’s gold, Craig

Stedman. Computer World, december1997.

[3] Excavate your data, Cheryl Gerber.Datamation, februari 1997.

[4] Bron: META Group.

[5] Benefits of a standard data miningProcess model, Randy Kerber en JensHejlesen.

Dit artikel is een bewerking van het inTechnieuws 37/9 verschenen artikelDatamining klaar voor de massa? Deauteur is stagiair bij het kantoor vantechnisch-wetenschappelijke attachésbij de Nederlandse amabssade in SanMateo, Californië.