”Maar zij zijn groot en ik ben klein, en dat is niet...

20
”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een vergelijking met betrekking tot data analyse tussen het CBS en het MKB B. Kratz 380857 [email protected] S. Spek 329460 [email protected] Samenvatting In dit paper wordt gekeken naar data analyse bij een specialistische organisatie als het CBS. Uit het onderzoek blijkt dat men hier gebruik maakt van simpele tools, als Microsoft Office, die ook voor het MKB beschikbaar zijn. Deze kleinere spelers kunnen dit dus evenaren. Hier is echter geen behoefte aan. Het MKB kan het prima redden zonder deze analyse. 1

Transcript of ”Maar zij zijn groot en ik ben klein, en dat is niet...

Page 1: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”

Een vergelijking met betrekking tot data analyse tussen het CBS en het MKB

B. Kratz380857

[email protected]

S. Spek329460

[email protected]

Samenvatting

In dit paper wordt gekeken naar data analyse bij een specialistischeorganisatie als het CBS. Uit het onderzoek blijkt dat men hier gebruikmaakt van simpele tools, als Microsoft Office, die ook voor het MKBbeschikbaar zijn. Deze kleinere spelers kunnen dit dus evenaren. Hier isechter geen behoefte aan. Het MKB kan het prima redden zonder dezeanalyse.

1

Page 2: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

1 Voorwoord

Dit paper is tot stand gekomen voor het vak Business Intelligence gegevenin 2001. Wij denken dat dit paper een frisse en kritische blik werpt op hetonderwerp met (voor ons en misschien voor u ook) verrassende uitkomsten.

Dit praktijkgerichte paper zou niet tot stand zijn gekomen zonder de hulp,tijd en inzet van anderen. Graag willen wij de volgende personen bedanken (inno particular order):

• Marton Vucsan &

• Dr. J. Kardaun

Beiden van het CBS in Den Haag. Wij willen hun bedanken voor het interviewdat wij op het CBS kantoor gedurende twee uur mochten houden en de veleinteressante informatie die wij daardoor gewonnen hebben (en natuurlijk derondgang door het rekencentrum van het CBS niet te vergeten).

• Peter van Tommy

Voor de tijd die hij kon vrijmaken om met ons te praten over data analyse bijeen MKB.

• Prof. Dr. Ir. H. Daniels &

• Victor de Bruin

Beiden willen wij danken voor de organisatie van het vak. De heer Daniels inhet bijzonder voor de aanzet tot dit onderwerp en de contacten die hij bezit,waardoor wij met de heer Vucsan van het CBS in contact zijn kunnen komen.Victor willen wij bedanken voor het beoordelen van onze presentatie (wat vol-gens ons eens een afwisseling was ten opzichte van Kennismanagement en Webmining).

Voor dit paper is ook een website opgezet waar dit paper gedownload kanworden. Daarnaast staat onze presentatie zoals gegeven op maandag 26 novem-ber 2001 ook online. Verder is er wat achtergrond informatie te vinden over deauteurs en enkele foto’s van de bezochte panden. Het web-adres is:

http://www.exict.org/projects/data-analyse

Sander Spek & Benedikt Kratz, Tilburg december 2001

2

Page 3: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

2 Inleiding

”Maar zij zijn groot en ik ben klein. En dat is niet eerlijk!”Dat is de wereld-beroemde uitspraak van het tekenfilmkuiken Calimero. De veronderstelling voordit paper is dat voor het MKB een soort zelfde uitspraak geldt met betrekkingtot data analyse. Immers, de grote enterprises hebben geavanceerde gereed-schappen tot hun beschikking terwijl bij het MKB de middelen (geld, tijd, ...)hiervoor ontbreken.

Daarom zal in dit paper zal gekeken worden hoe data analyse in een or-ganisatie wordt gerealiseerd die dit tot haar core-business heeft gemaakt. In ditgeval is voor het Centraal Bureau voor de Statistiek (CBS) gekozen. Vervolgenszal gekeken worden in welke mate het MKB dit kan evenaren met goedkope ensimpele tools. Ook wordt nog even aandacht besteed aan het draagvlak hier-voor.

Kortom, dit paper zal antwoord pogen te geven op de vraag /emph”Hoegaat data analyse in z’n werk bij een organisatie die dit als core-business heeft,en hoe kan het MKB dit evenaren?

Dit werkstuk is enerzijds tot stand gekomen door middel van een literatu-uronderzoek. Verder zijn er ook interviews gehouden met personen werkzaam bijhet CBS en in het MKB. Tot slot is er ook een gedeelte tot stand gekomen doormiddel van de helpfunctie van Microsoft Office 2000 en veel geexperimenteermet dit softwarepakket.

3 Opslag van data

Voor het beschrijven van de analyse methoden zal eerst ingegaan worden op deopslagkwestie. Hierin wordt de vraag beantwoord op welke manier de data hetbeste opgeslagen kan worden. Globaal genomen zijn er drie opslagmethoden:

• operationele database

• data warehouse

• data marts

In de nu volgende paragrafen zullen deze behandeld worden.

3.1 Operationele Database

De traditionele manier om data op te slaan is een database. Dit wordt ookwel een OLTP layer genoemd. Laudon [4] geeft de volgende definitie voor eendatabase:

3

Page 4: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

”Een collectie van data, georganiseerd om meerdere applicatiestegelijkertijd te dienen, door data zo op te slaan en te beheren dathet lijkt alsof de data zich op een locatie bevindt.”

Deze database bevat over het algemeen dynamische, operationele data. Dedata is nodig voor de dagelijkse bedrijfsvoering, en wordt door deze bedrijfsvoer-ing ook constant veranderd. Een database is voor deze functie geoptimaliseerd.Door een normalisatieproces kan het gemakkelijk beheerd worden.

3.2 Data Warehouse

Een data warehouse heeft een andere functie en daarom ook een andere struc-tuur. Een data warehouse wordt niet zozeer ingezet bij operationele alswel bijstrategische beslissingen. De data is dan ook statisch: het wordt niet constantbijgewerkt.

Een data warehouse is als het ware een momentafdruk. Men maakt eenkopie van alle data die over een periode beschikbaar is en stopt dit in een grotedatabase. Deze data is veelal ongenormaliseerd, omdat men redundantie voorlief neemt ten gunste van standaardisatie [9].

Deze standaardisatie is nodig omdat het warehouse haar data onttrekt uitalle operationele databases binnen de organisatie. Deze databases hebben vaakenkele verschillende formaten, en bijzonderheden. Het zo modelleren dat alledata in een warehouse logisch opgeslagen kan worden, gaat enigszins ten kostevan het vermijden van redundantie.

Een andere factor die speelt bij het vullen van een data warehouse is ’clean-ing’. In de operationele database ontbreken en mankeren vaak enkele gegevens.Omdat men een data warehouse compleet en correct wil hebben, zal men dezegegevens aan moeten vullen en op moeten schonen. Men kan bijvoorbeeld wan-neer de leeftijd van een persoon ontbreekt, hier de gemiddelde leeftijd van dedatabase invullen. Ook zijn er enkele intelligente technieken om dit te doen.

3.3 Data Marts

Zo’n data warehouse is vaak erg groot waardoor queries behoorlijk wat tijdin beslag kunnen nemen. Dit terwijl veel van de informatie voor bepaaldedoeleinden helemaal niet relevant zijn. Daarom splitst men data warehousesop in kleinere data marts. Zo zal er bijvoorbeeld een data mart zijn voor demarketingafdeling. Deze bevat dan bijvoorbeeld klantgegevens, ordergegevensen productgegevens. Deze mart heeft geen behoefte aan de salarissen van demedewerkers, wat eerder in de mart van human resources terug zal komen.

4

Page 5: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Zo zijn er dus specifieke data marts voor specifieke doelen. Deze martsbevatten alleen de gegevens die voor dit doel nuttig zijn.

4 Data analyse

4.1 Inleiding

In dit hoofdstuk zal, zoals gezegd, de theoretische achtergrond van data analysegegeven worden. Om dit gestructureerd te doen zal het grote gebied van dataanalyse onderverdeeld worden in drie groepen:

• Statistische analyse

• Data Mining

• OLAP

In de nu volgende paragrafen zullen deze deelgebieden stuk voor stuk behandeldworden.

4.2 Statistische analyse

Statistische analyse is voor informatiekundigen weinig interessant, in zoverre dathet in principe geen informatiesystemen vereist. Het is de oudste vorm van dataanalyse en kan ook met pen en papier gedaan worden. Het feit dat het hiertoch besproken wordt heeft twee redenen. Ten eerste is de doelstelling van ditpaper een compleet beeld te geven van de data analyse, en hier is de statistischevariant zeker een wezenlijk onderdeel van. Anderzijds ligt deze techniek ook tengrondslag voor data mining. Om deze reden gaan we hier wel in op statistischeanalyse.

4.2.1 Correlaties

Iedereen kent wel de formule om een gemiddelde van een reeks getallen (data)uit te rekenen. Een standaardafwijking is voor veel mensen eveneens weinighoogstaand, en ook een normale verdeling mag voor een academisch publiek alsbekend worden verondersteld. Maar willen we echt gaan analyseren, dan zijnwe niet specifiek in een enkele variabele geınteresseerd. Het liefste zouden wedan verbanden tussen allerlei variabelen zien, waar we dan leuke conclusies aanzouden kunnen verbinden. Samenhang tussen gegevens is iets waar veel mensenin geınteresseerd zijn.

5

Page 6: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Zo’n samenhang heet ’correlatie’. Deze kan zowel positief als negatief zijn.Zo zal het verband tussen het aantal verkopen in een bepaalde periode en dewinst in die periode waarschijnlijk positief gecorreleerd zijn. Stijgt de omzet danzal normaal gesproken de winst stijgen, daalt de omzet dan zal de winst dalen.Een voorbeeld van een negatieve correlatie is bijvoorbeeld de relatie tussen dekwaliteit van een systeem en het aantal klachten over dit systeem. Wanneerde ene stijgt zal de andere dalen. De termen ’positief’ en ’negatief’ slaan dusniet op de beleving van het resultaat (ık vind dit leuk, dus is het een positievecorrelatie”), maar op het feit of een stijging van de ene variabele nu een stijgingof een daling van de andere variabele tot gevolg heeft.

Behalve een positieve of negatieve correlatie is er ook een derde uitkomstmogelijk: variabelen kunnen ook onafhankelijk zijn.

McClave e.a. [6] geeft een formule voor de Pearson product moment coef-ficient of correlation, simpelweg de correlatie-coefficient:

r =SSxy√

SSxxSSyy(1)

r := correlatie-coefficientSS := sum of squares, het exponent

Deze coefficient zal ergens tussen -1 (perfecte negatieve correlatie) en 1(perfecte positieve correlatie) liggen. Bij een waarde van 0 zijn de variabelenonafhankelijk.

4.2.2 Regressie

Een andere vorm van statistische analyse is regressie analyse. Bij deze tech-niek gaat het niet alleen om het vinden van verbanden, maar gaat men nogverder. Door middel van de met correlatie gevonden verbanden probeert menvoorspellingen te maken.

In principe komt regressie neer op het op het combineren van meerderecorrelaties. Men doet dit in een functie waarbij de te voorspellen variabele de yis. De andere variabelen zijn x1 tot en met xn. Men krijgt dan een functie alsde volgende:

y = C1 ∗ x1 + ... + Cn ∗ xn + E (2)

y := de te voorspellen variabeleCn := de correlatiecoefficient van y en Cn

xn := de waarde van variabele xn

6

Page 7: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

E := een restwaarde

Natuurlijk kan een variabele ook een negatieve invloed hebben op y: eennegatieve correlatie. Ook E kan negatief zijn.

Natuurlijk zijn er applicaties die het werken met statistische functies (waaron-der correlaties en regressie) ondersteunen. Voorbeelden hiervan zijn MicrosoftExcel, SPSS, Quick Statistica, Systat en Statgraphics.

4.3 Data Mining

Ook bij data mining zoekt men naar correlaties. Het grote verschil met statis-tische analyse is dat men daar vooraf moest kijken welke variabelen wel eenseen correlatie zouden kunnen hebben. Deze ging men dan uitrekenen. Men haddus vooraf een hypothese nodig.

Bij data mining echter, voert men een complete dataset in de computerin. Men laat de computer nu het werk doen en kijken welke variabelen sterkgecorreleerd zijn. Op deze wijze vind men ook correlaties waar men voorafmisschien helemaal niet aan gedacht had.

Hoeksema [3] geeft de volgende definitie van data mining:

”Het proces van de analyse en verkenning van grote hoeveelhe-den gegevens, om daar betekenisvolle patronen in te ontdekken.”

Er zijn verschillende data mining technieken die nu besproken zullen worden.

4.3.1 Neurale netwerken

Veel problemen kunnen gestructureerd worden opgelost met behulp van algo-ritmes. Er zijn echter ook ongestructureerde problemen (zoals pattern-recognition),waar geen algoritme voor aanwezig is. Dit soort problemen kunnen wordenopgelost met behulp van neurale netwerken. Hierbij wordt gebruik gemaakt vanpatronen die over tijd door training zijn verkregen. Door het opmerken en com-bineren van bepaalde patronen kunnen er bepaalde conclusies worden getrokken.Neurale netwerken worden getraind op een set van voorbeelden in de hoop dathet neurale netwerk in de toekomst soortgelijke gevallen kan oplossen. Hierbijwordt dus geen algoritme gevolgd, noch zijn de stappen gedefinieerd.

Neurale netwerken vinden hun oorsprong in het menselijke brein waar mil-jarden neuronen met elkaar op een hele complexe manier parallel samenwerken.De opbouw dient als model voor neurale netwerken.

Neuronen in een neuraal netwerk hebben kunnen op verschillende niveauswerken. Als eerste is er de input layer. De neurons op deze layer komen overeen

7

Page 8: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

met het aantal input variabelen dat het probleem heeft. Daarnaast zijn er nulof meer hidden layers die ook neuronen kunnen bevatten. Deze twee layersbepalen de uitkomst van de output layer (de resultaten). Elke neuron van elkelayer is verbonden met alle neuronen van de vorige en volgende layer. VerbondenNeuronen geven pas informatie door aan andere layers als de som van de inputsvan andere neuronen boven een bepaalde grenswaarde uitkomt. Een simpelmodel van een neuron is volgende formule:

O = H(N∑

l=1

wi + µ) (3)

O := output van de neuronwi := gewicht van de connectiesl := de inputsµ := grenswaardeH := Heavyside functie: H(x) = (1,ifx≥0

0,ifx<0)

De neuron ’vuurt’ als de som van de inputs groter is dan −µ. De gewichtenkomen tot stand tijdens het leerproces van het neurale netwerk.

Het neurale netwerk is dus uitermate geschikt voor ongestructureerde prob-lemen. Het is echter een black box en resultaten kunnen niet getraceerd worden(waarom heeft een gewicht een bepaalde waarde?).

4.3.2 Beslissingsbomen

Bij deze techniek wordt een boom opgesteld waarlangs men aan de hand vanvragen kan afdalen. De eerste verzameling (’root’) bevat alle gevallen waar deboom op gebaseerd is. Aan de hand van de eerste vraag wordt deze verzamelingopgesplitst in twee of meer nieuwe verzamelingen. Wanneer men de hele boomvolgens een bepaald route doorlopen heeft komt men uiteindelijk terecht in een’zuivere verzameling’: een verzameling waarvan de gevallen allemaal dezelfdeeinduitkomst hebben. Aangezien het geval waarvan we de einduitkomst wildenvoorspellen dezelfde kenmerken heeft als de andere in deze verzameling (devragen zijn immers hetzelfde beantwoord) kan voorspeld worden dat dit gevalook deze einduitkomst zal hebben.

4.3.3 Clusteren

Clusteren is een techniek die het totaal aan elementen (bijvoorbeeld gebeurtenis-sen) in deelt in een aantal categorieen. Nu kan men ervan uit gaan dat deelementen in deze categorieen zich min of meer gelijk gedragen.

8

Page 9: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Om elementen te clusteren dient men deze uit te zetten in een assenstelsel.Men kiest nu een aantal willekeurige plaatsen binnen dit stelsel, net zo veel alsmen categorieen wenst te hebben. Nu wordt er van ieder element gekeken bijwelke plaats deze het dichtste in de buurt ligt. Wanneer alle elementen nu zogegroepeerd zijn, gaat men de middelpunten van de groepen berekenen. Menneemt deze middelpunten als nieuwe plaatsen, en herhaalt dit proces. Wanneerde middelpunten niet meer veranderen is het clusteren geslaagd.

4.3.4 Market basket analyse

Market basket analyse is een basis voor cross-selling. Het idee is dat men onder-zoekt welke producten vaak samen verkocht worden. Het bekendste voorbeeldhiervan is Amazon.com, waar de klant voor ieder product zo’n lijst op kan vra-gen (’People who bought this item, also bought these items...’). De bedoelinghiervan is de consument ideeen op maat aan te reiken voor andere aankopen.

Hoe gaat zoiets nu in zijn werk? Welnu, eerst dient er een miltidimensionalematrix opgesteld te worden met daarin de producten die vaak gecombineerdverkocht worden. Uit deze matrix worden regels afgeleid die vaak voor komen.Een voorbeeld hiervan is:

ALSCD van Pink Floyd

ENCD van Marillion

DANCD van Porcupine Tree

Wanneer de verkoper deze regel kent en er komt een klant die CD’s van PinkFloyd en Marillion koopt, dan kan de verkoper hem ook eens een CD van Por-cupine Tree suggereren.

Natuurlijk dient de verkoper ook te weten of deze regel vaak op gaat of niet.Vandaar dat er ook een ondersteuningspercentage en een betrouwbaarheidsper-centage berekend worden:

ondersteuning =transacties met de betreffendeproducten

alle transacties(4)

betrouwbaarheid =transacties aan regel voldaan

transacties aan voorwaarden voldaan(5)

Bij de eerste regel deel je het aantal transacties met de betreffende productendoor het totaal aantal transacties. Zo kan men kijken of de regel wel vaak

9

Page 10: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

genoeg bruikbaar is. Misschien is er bijna niemand meer die uberhaupt nogCD’s van Pink Floyd koopt.

De tweede regel kijkt naar de betrouwbaarheid. Men deelt het aantal trans-acties dat aan de hele regel voldoet door het aantal transacties dat op z’n minstaan de voorwaarden (het gedeelte van de regel voor ’DAN’) voldoet.

Deze analyse is natuurlijk vooral voor winkels interessant. Het probleem isalleen dat er wel een enorme administratie dient te worden bijgehouden over deverkochte producten. Veel supermarkten hebben dit opgelost door middel vaneen gepersonaliseerde kaart, zoals de BonusKaart en de Edah Card.

4.4 OLAP

OLAP, oftewel On-Line Analytical Processing, bekijkt de zaak weer vanuit eenhele andere kant.

”OLAP stelt analisten, managers en uitvoerenden in staat inzichtin data te krijgen, door middel van snelle, consistente en interactievetoegang tot een verscheidenheid aan mogelijke gezichtspunten opdata. OLAP transformeert rauwe data zo dat het de echte dimensievan de organisatie laat zien, zoals de gebruiker dat kent.”- www.olapcouncil.org [12]

Met andere woorden, met OLAP krijgt de gebruiker toegang tot een figuurdie de data representeert. De gebruiker kan deze figuur a la minute aanpassenzodat het een beter beeld geeft.

OLAP gaat uit van een serie dimensies. Een van die dimensies is bijvoor-beeld de klant. Deze klant heeft bijvoorbeeld een adres en een leeftijd. Wanneermen meerdere van deze dimensies heeft kan men ze aan elkaar koppelen doormiddel van een gebeurtenis of een feit. Zo zal een gebeurtenis als een ’verkoop’de dimensies ’klant’, ’verkoper’, ’tijd’ en ’product’ verbinden. Naast dimensi-etabellen heeft men nu dus ook een facts table, met daarin alleen de sleutels(’primary keys’) van de dimensies die bij deze gebeurtenis horen.

Nu kan gesteld worden dat deze facts table uitstekend genormaliseerd is. Dedimensies daarentegen zijn helemaal niet genormaliseerd. Zo staat bijvoorbeeldbij de verkoper-dimensie bij iedere vestiging ook het land in de tabel. Ditzou volgens de normalisatie-regels een nieuwe tabel op moeten leveren metvestigingen en bijbehorende regels. Bij OLAP is dit echter bewust redundantgehouden.

De gebruiker kan nu een figuur krijgen waarin de data is gerepresenteerd. Ditkan een driedimensionale kubus zijn, maar ook bijvoorbeeld een grafiek of een

10

Page 11: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

tabel. Het grote voordeel is dat deze figuren dynamisch zijn. Ziet de gebruikerbijvoorbeeld dat er in het derde kwartaal in Engeland opvallend weinig gekochtis, dan kan deze de figuur uitsplitsen zodat de verkopen in dat kwartaal pervestiging te zien zijn. En daarna kan het per vestiging weer uitgesplitst wordennaar verkoper.

OLAP is dus een zeer krachtig hulpmiddel, maar de analyse wordt wel doorde gebruiker gedaan. En niet zoals bijvoorbeeld bij neurale netwerken door demachine.

4.5 Software pakketten

Natuurlijk bestaan er allerlei applicaties om het werken met data analyse teondersteunen. Voor statistische analyse bestaan er specialistische pakketten alsSPSS, Quick Statistica, Systat en Statgraphics.

Ook de andere technieken hebben natuurlijk hun gereedschappen. Zo zijner voor OLAP twee marktleiders:

• Essbase van het bedrijf Hyperion (voorheen ArborSoft)

• Express Server van Oracle

Essbase heeft op de site geen prijs vermeld staan. Express Server is onderdeel vande Oracle Enterprise Edition, waarvan een licentie voor een gebruiker $800.000kost. Zo’n bedrag is voor een kleine winkel natuurlijk niet betaalbaar.

Vandaar dat in dit paper gekeken zal worden hoe het MKB deze tools kanevenaren. Maar eerst wordt besproken hoe het CBS nu eigenlijk te werk gaat.Gebruiken zij wel deze dure applicaties?

5 Data analyse bij het CBS

Het Centraal Bureau voor de Statistiek, met hoofdkantoren in Den Haag enHeerlen, is een organisatie die data analyse als core-business heeft. Het CBSis daarom een interessante instelling om te bezoeken en om te kijken hoe mendaar omgaat met data analyse op een professionele manier.

Er is op vrijdag 30 november 2001 een interview gevoerd met de heer M.Vucsan en de heer Dr. J. Kardaun beiden van de afdeling TMO (Methoden enontwikkeling) van het CBS over opslag methodes en data-mining technieken bijhet CBS. Beide houden zich bezig met de ontwikkeling van nieuwe methodenen met strategische projecten.

Als eerste zal de data-opslag binnen het CBS aan de orde komen. Het CBSbeheert en verwerkt enkele Tera Bytes aan gegevens. Door de steeds verdere

11

Page 12: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Figuur 1: Kantoor CBS Den Haag

ontwikkelingen op het gebied van data opslag is het tegenwoordig mogelijk allegegevens die het CBS beheert worden in principe op te slaan op gewone harddisks die ook de consument kan kopen. De ontwikkelingen op data-opslag gebiedgaan sneller dan dat de data die het CBS verzamelt groeit.

Als data binnenkomt bij het CBS zal er eerst technische en inhoudelijkecleaning op worden toegepast. Met technische cleaning wordt bedoeld datprogrammatuur de consistentie van data checked. Hierbij controleert de pro-grammatuur of van de ingevoerde data bijvoorbeeld het domein juist is (staanin alle rijen bij de leeftijd integers). Daarnaast is er inhoudelijke cleaning diedoor experts uitgevoerd waarbij bijvoorbeeld lege elementen aangevuld worden(bijvoorbeeld als iemand geen geboortedatum aangeeft, maar alleen een jaar-tal). Data editors moeten kennis hebben van de dataset om de data zo goedmogelijk inhoudelijk te kunnen checken.

Na de cleaning kan de data worden opgeslagen in een data warehouse.Enkele jaren geleden is het CBS gestart, vanuit de TMO afdeling, met hetopzetten van data warehouses (op gewone pc’s, draaiende met Microsoft SQLServer) in pilot-projects, volgens het bovenstaand principe met fact- en dimensietabellen, voor bepaalde statistische publicaties. Deze vervingen de platte files

12

Page 13: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Key Dag Maand Jaar Week Kwartaal00001 01 01 2001 01 100002 02 01 2001 01 1..... .. .. .... .. .

Tabel 1: Datum Tabel

Key Straat Nummer Postcode Stad Provincie00001 Statenlaan 317 5042RW Tilburg Noord-Brabant00002 Statenlaan 275 5042RW Tilburg Noord-Brabant..... .......... ... ...... ....... .............

Tabel 2: Adres Tabel

en standaard Oracle databases die tot dan gebruikt werden. Als voorbeeld vandimensie tabellen binnen het CBS kan gedacht worden aan een datum tabel,een adressen tabel die in principe volkomen niet genormaliseerd zijn (zie Tabel1 en Tabel 2).

Met behulp van deze tabellen is het mogelijk om dan een feit (genormaliseerdweer te geven), bijvoorbeeld het aantal inwoners boven de achttien jaar op eenbepaalde datum op een bepaald adres (zie Tabel 3).

Met deze gegevens kan nu aan statistische analyse of OLAP worden gedaan.Bij het CBS wordt Excel 2000 als OLAP tool gebruikt waarmee het eenvoudig isom statistische analyse en visualisatie op deze grote berg gegevens uit te voeren.Het CBS gebruikt dus geen meerdere miljoen gulden dure speciale analytischeOLAP software maar gewoon Excel om het ’lage’ statistiek werk te verrichtenen standaard rapporten te genereren. Voor verregaande analyse worden nog welspeciale statistische pakketten gebruikt (SPSS), maar in principe zou dit ookmet Excel kunnen.

Door het eenvoudige gebruik van Excel 2000 en de mogelijkheden voor hetCBS was het niet moeilijk om andere afdelingen te overtuigen en zodoendezal het CBS in de komende jaren volledig overgaan op het gebruik van datawarehouses en OLAP tools (Excel 2000) voor de statistische analyse. Een nadeel

Adres Datum Aantal00001 00001 500002 00001 4..... ..... .

Tabel 3: Feiten Tabel

13

Page 14: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

van deze oplossing is dat het moeilijk is om meta data (wat is de context, wieheeft het gecleaned, waar komt het vandaan, etc.) van de gegevens op teslaan in het data warehouse. Het CBS probeert dit op te vangen door aan elketabel een verwijzing te hangen naar een html pagina waar dit soort gegevensgestructureerd op staan.

Data mining bij het CBS is een discutabel punt. Het verschilt totaal vanstatistische analyse zoals eerder is gezien. Bij de statistische analyse wil meneen correlatie tussen variabelen te weten komen, bij data mining vraagt mengewoon aan de computer om met interessante correlaties op de proppen tekomen. Het probleem met data mining binnen het CBS is dan ook dat mentot op heden niet zeker kan zijn of de gevonden resultaten reproduceerbaar zijnin andere gevallen met bijvoorbeeld andere datasets over hetzelfde probleem.Eenmalig iets bepalen is geen statistiek! Het kan wel gebruikt worden ombepaalde suggesties uit de data zelf te halen en deze dan statistisch analyseren.Deze reproduceerbaarheid is echter niet van zo groot belang in het bedrijfsleven,waar men vooral nieuwe informatie wil hebben.

Data mining wordt daarom vaak koud toegepast (door het menselijke brein;koude neurale netwerken). Vooral tijdens de verkennende fase, voor de datacleaning, is het van belang dat de data inhoudelijk voldoet (is het juiste data ineen bepaalde context) en dat kan geen enkele data mining programma tot opheden oplossen (Dit speelt zich immers af op meta niveau). Tijdens het tech-nische cleansing kan echter wel data mining worden toegepast om ontbrekendedata en vuiligheid te minen. Men zou ook interessante verbanden kunnen latenvinden, echter is dit riskant, omdat data mining niet universeel is. Dit hangt afvan de data zelf, de gebruikte algoritmes en de context.

Data mining binnen het CBS vindt op dit moment vooral plaats in de re-search sfeer. Data mining voldoet nog niet aan de eis dat bij elke stap tijdenshet maken van statistiek een antwoord gegeven kan worden op de vraag watmen aan het doen is. Analyses moeten dus reproduceerbaar en uitlegbaar zijn,met data mining kan hieraan nog niet voldaan worden.

6 Data analyse met HTK tools

Aangezien het CBS gebruik maakt van Excel 2000, zou men zich kunnen afvra-gen of het MKB, die veelal deze tool ook bezitten (en soms gebruiken) niet ookop een eenvoudige manier OLAP zouden kunnen toepassen. Wij beschouwendit als HTK (huis, tuin en keuken) tools, omdat deze in vergelijking met pro-fessionele OLAP pakketten veel goedkoper zijn. Hieronder zal dan ook eenpraktijkvoorbeeld getoond worden waarbij met behulp van MS Office 2000 (MS

14

Page 15: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Access 2000, MS Query 2000 en MS Excel 2000) data analyse zal worden uit-gevoerd.

Als database in Access is gekozen voor de voorbeeld database Noorden-wind. Dit is een bedrijf-database met ongeveer in totaal 2000 records. Dezerecords bevatten onder andere verkoop gegevens, producten, medewerkers enleveranciers.

Met behulp van MS Query kan hieruit nu een data kubus gegenereerd wor-den. Eerst dient men daarbij de velden te selecteren die men later wil gebruikenbinnen de kubus. Daarna selecteert men de velden die men wil aggregeren (defacts). Dit kan de som, het gemiddelde, of bijvoorbeeld de standaarddeviatiezijn. Daarna kunnen de dimensies en aggregatie niveaus geselecteerd worden.Als men hiermee klaar is kan men de kubus genereren.

Nu kan men binnen MS Excel een query uitvoeren om de gegevens vande kubus binnen te halen. Nu kunnen deze gegevens in een pivot-tabel (ookwel draaitabel genoemd) interactief bewerkt en bekeken worden. Daarnaastis het mogelijk om statistische analyse toe te passen en grafische overzichtente maken. Dit is dan de OLAP component: interact, analyseer en leer. Eendraaitabel rapport is een interactieve tabel waarmee snel grote hoeveelhedengegevens kunnen worden samengevat. Zo een draaitabel rapport wordt gebruiktals verwante totalen vergeleken moeten worden, met name als er sprake is vaneen lange lijst getallen die moeten worden samengevat en waarin dan voor elkgetal verschillende feiten vergeleken moeten worden. Met draaitabel rapportenwordt het sorteren en het berekenen van subtotalen en totalen uitgevoerd inMicrosoft Excel.

In het hart van de draaitabel komen de geaggregeerde facts en langs deassen is het mogelijk een of meer dimensies naartoe te slepen. Een simpelvoorbeeld is te zien in figuur 2. Hier is een overzicht van de omzet per kantoorper tijdsperiode te zien.

In figuur 3 is een iets uitgebreider voorbeeld te zien. Er is in een oog opslagte zien dat nu zuivel producten voor Franse klanten afkomstig van Europeseleveranciers vooral via de verkoop kantoren in de VS verkocht worden. Devraag hierbij natuurlijk is of dit wel zo zinvol is en of niet de vestiging in Londenmeer van dit soort opdrachten moet overnemen. Daarvoor zou je dan de kostenvan London en de Amerikaanse verkoopkantoren naast elkaar moeten zetten.

De vraag voor de volgende hoofdstuk is dan natuurlijk of het MKB berhauptwel geıteresseerd is in dit soort tools en data mining applicaties.

15

Page 16: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Figuur 2: Omzet per verkoop kantoor

Figuur 3: Uitgebreid voorbeeld OLAP

16

Page 17: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Figuur 4: Tommy winkel in Tilburg

7 Draagvlak voor data analyse bij het MKB

Om het draagvlak van de zojuist beschreven HTK tools voor data analyse bijhet MKB na te gaan is een cd winkel (Tommy) in de binnenstad van Tilburgbezocht. De winkel bestaat ook uit een stripboeken winkel en een 2e handskledingzaak in hetzelfde pand, maar voor dit paper is alleen naar de cd winkelgekeken. Deze winkel is een eenmanszaak en maakt geen deel uit van eenketen. In deze winkel worden vooral ’niet mainstream’ cd’s (rock, jazz, blues)verkocht. Door middel van een interview met de eigenaar, die al jarenlang dezezaak samen met meerdere medewerkers runt, is getracht een antwoord te vindenop de vraag of data analyse iets voor het MKB zou kunnen toevoegen aan denormale bedrijfsvoering.

Er is gekozen voor een cd winkel, omdat een cd winkel tastbare, goed aan tewijzen producten verkoopt die duidelijk te classificeren (muziek-genre) zijn enmeestal per twee of meer verkocht worden (tenminste in deze winkel), waaropdan market basket analyse kan worden toegepast.

Automatisering is er binnen Tommy vooral op administratief niveau met be-

17

Page 18: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

hulp van spreadsheets en boekhoudprogramma’s. Verder is er weinig automatis-ering aanwezig. Verkopen worden niet elektronisch geregistreerd. Verder wordter niets met de data gedaan. Vanwege het grote aantal leveranciers is en hetgrote aantal verschillende producten met kleine hoeveelheden is het volgens deeigenaar te duur om de verkoop helemaal te automatiseren.

Door te kijken naar een cd winkel is het mogelijk om een vergelijk te makentussen bijvoorbeeld Amazon.com en deze MKB winkel. Bij Amazon.com wordtgewerkt met een zogenaamde advieslijst. Bij het bezoeken van de site en hetzoeken naar bepaalde muziek (en boeken) wordt er door Amazon door mid-del van data analyse (market basket analyse) gekeken welke andere productenmisschien interessant zijn en deze worden de gebruiker dan ook getoond (doorgebruik te maken van verkoopcijfers). De vraag hierbij is dan ook of iets soort-gelijks interessant is voor de MKB’er om zo een additionele service aan deklanten te geven.

Volgens de eigenaar komt dit soort adviezen aan de klant redelijk vaak voor,maar wordt dat gedaan door de medewerkers (die ieder speciale vakkennis vaneen bepaalde muziek richting hebben) in plaats van door computers. Het is danook puur subjectief. Daarvoor moet de verkoper de juiste kennis van de klanthebben. Aangezien een groot gedeelte van de klanten regelmatig iets koopt bijTommy kunnen verkopers goed op de wensen van de klant inspelen.

De eigenaar ziet dan ook niet zo veel heil in het toepassen van data analysebinnen zijn cd winkel. Daarbij werd er een lijst van mogelijke interessante anderecd’s bij een zoek-query op Amazon.com getoond aan de eigenaar. Deze lijst gafaan dat personen die ’Pink Floyd’ gekocht hebben vaak ook cd’s van Madonnaen Sting kopen. Volgens de eigenaar, met jarenlange muziek ervaring, was dezelijst op zijn zachts uitgedrukt slecht. Aangezien hij uit de dagelijkse praktijkweet dat deze groepen qua muziek totaal van elkaar verschillen en dat in zijnwinkel deze combinatie van cd’s niet verkocht wordt. Tevens vragen de klantenook niet naar deze combinatie.

Een klantenkaart is volgens de eigenaar ook geen optie. Mensen komenvanwege de sfeer en het persoonlijke contact naar zijn winkel en een klantenkaartis volgens hem te onpersoonlijk.

Samenvattend kan de vraag naar het draagvlak van data analyse bij het MKBnegatief beantwoord worden. Al is er door ons geen empirisch onderzoek gedaan,maar wij denken dat vooral de ’KB’ automatisering zien als iets wat moet, maarverder weinig voordeel oplevert. Voor ’MB’ (startend bij bijvoorbeeld filialen,franchises, etc.) zal het misschien interessant zijn, maar daar is door ons geenonderzoek naar gedaan. Data analyse voor de zaak op de hoek is mogelijk,alleen wil men het nog niet. Verder is het zo dat veel kleine ondernemers veelop gevoel doen en hun ideeen gewoon uitproberen. Het is nu nog te moeizaam

18

Page 19: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

om naast de normale bedrijfsvoering nog allerlei analyses te gaan uitvoeren. Wijdenken echter dat dit een deel van het werk zal worden in de toekomst al is hetnu al vrij eenvoudig om OLAP toe te passen.

8 Conclusie

Vooraf hadden de auteurs de verwachting dat het CBS van zeer dure en gea-vanceerde applicaties gebruik zou maken. Onze vraag was dus in hoeverre hetMKB dit kon evenaren met simpelere tools.

Deze vraag kan simpelweg beantwoord worden met de stelling dat MicrosoftOffice veel biedt met betrekking tot data analyse. Het is een complete oplossing,die de noodzaak voor die dure tools overbodig lijkt te maken.

Er zijn echter ook twee onverwachte resultaten uit dit onderzoek komenrollen. Ten eerste, MS Office blijkt zo compleet dat zelfs het CBS hier gebruikvan maakt. Dit is dus uitstekende bevestiging voor de conclusie. Het MKB zoutotaal geen nadeel hebben en dus naar alle hartelust mee kunnen doen.

Echter, een ander resultaat is het gebrek aan draagvlak. Hoewel het enkeleinterview natuurlijk nooit wetenschappelijk representatief kan zijn, lijkt het weleen logische conclusie. Immers, het MKB heeft nog zicht op haar data; zijverkopen nog steeds op dezelfde manier als ze honderd jaar geleden ook deden.En waarom zouden ze veranderen, als ze zo alles nog prima kunnen bevatten?

Het MKB hoeft zich dus duidelijk geen Calimero te voelen. Zij zoudeneerder kunnen zeggen: ”Zij zijn groot en wij zijn klein. Maar we hebben dezelfde capaciteiten, en bovendien hebben wij die capaciteiten niet eens nodig.”

19

Page 20: ”Maar zij zijn groot en ik ben klein, en dat is niet eerlijk”sanspek.sdf-eu.org/publications/data-analyse.pdfMaar zij zijn groot en ik ben klein, en dat is niet eerlijk” Een

Referenties

[1] A. Buijs, Analyseren van klantgegevens, Mnet, januari 2001

[2] Prof.Dr.Ir. H. Daniels, Introduction to Neural Networks, Dictaat Departe-ment BIK, januari 2000

[3] E. Hoeksema, Datamining klaar voor de massa?, Technieuws, september1999

[4] K. Laudon, J. Laudon, Management Information Systems, Fifth interna-tional edition, Prentice Hall, 1998

[5] T. van Maanen, Datamining - a note from a professional, http://www.van-maanen.com

[6] McClave, Benson, Sincich, Statistics for business and economics, Interna-tional edition, Prentice Hall, 1998

[7] http://www.microsoft.com/office/ Microsoft Office - Microsoft OfficeHome Page

[8] A. de Smits, De macht van het getal: statistiek, PC Magazine, april 1996

[9] M. Vucsan, The application of data warehouse techniques in a statisticalenvironment, Seminar on integrated statistical information systems andrelated matters, Riga 29-31 May 2000

[10] M. Vucsan, Just in time processing as one of the requirements for inputdata in warehouses, Joint ECE/Eurostat Meeting on the Management ofStatistical Information Technology, Geneva, 14-16 February 2001

[11] Witten, Frank, Data mining, Morgan Kaufmann publishers, 2001

[12] The OLAP council, http://www.olapcouncil.org

20