1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige,...

29
1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige , nieuwe , potentieel bruikbare en uiteindelijk verstaanbare patronen in data. kan worden gebruikt voor vele taken: classificatie, associatieregels opstellen, ... en voor het uitvoeren van elke taak kunnen meerdere technieken worden gebruikt: beslissingsbomen, neurale netwerken, a priori algoritmen,...

Transcript of 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige,...

Page 1: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

1

Knowledge Discovery from Data (KDD)

Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare patronen in data.

kan worden gebruikt voor vele taken: classificatie, associatieregels opstellen, ...

en voor het uitvoeren van elke taak kunnen meerdere technieken worden gebruikt: beslissingsbomen, neurale netwerken, a priori algoritmen,...

Page 2: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

2

Data MartsCRM

Legacy

ERP

SourceSystems

ExtractTransformLoad(ETL)

DataWarehouse

Architecture

External

Other Data

Metadata

Client/ Notification

Portal

Scorecards

Query and (Multidimensional)

Analysis(OLAP, Mining)

Reporting

Dashboards

Performance management

Page 3: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

3

Verification driven analysis(Analyst proposes possible patterns, Verification by

the analyst)

Query and basic reporting OLAP Automation of Enterprise Reporting Statistical techniques

Discovery driven data mining(Automated search for patterns,

Verification partly automatic)

Classification Segmentation Associations Sequence analysis

Page 4: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

4

Data mining versus KDD

Knowledge Discovery From Data (KDD): “...the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” (Fayyad, 1996)

Data Mining: stap van het KDD proces waarbij patronen uit data geëxtraheerd worden door het uitvoeren van computationele algoritmes

Computer gestuurde ontdekking van (onverwachte) patronen in plaats van gestuurd door de eindgebruiker (cf. OLAP)

Page 5: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

5

Het KDD traject

Understandingwhat data is

needed for the application

Data Cleaning

Interpretation and

Evaluation

Data Transformation

(Binning, alpha to numeric, etc)

Data Mining

DataSelection

Source Data

KnowledgeApplication

Preprocessed Data

TransformedData

Patterns

Data MiningMart

Dumps of operational dataDumps of operational data

t

Page 6: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

6

Data preprocessing Het nemen van een steekproef

Credit scoring: enkel informatie omtrent goedgekeurde aanvragen, met andere woorden de data is vertekend (reject inference)

Types van data Continu (inkomen) categorisch

Nominaal: huwelijksstatus Ordinaal: credit rating (AAA, AA, A, BBB, BB, …., D) Binair: geslacht

Ontbrekende waarden (missing values) Hoe opvangen? Bijvoorbeeld door vervangen door het

gemiddelde Extreme waarden (outliers)

Bv. Leeftijd=400 jaar (foute observatie) versus inkomen = 10000 Euro per maand (correcte observatie)

Beslissing omtrent doelvariabele Credit scoring: hoe definieer je een wanbetaler? (bv. 90 dagen

betalingsachterstand volgens Basel II richtlijn) Churn management: hoe definieer je klantverloop? (bv. Klant

niet aangekocht gedurende vorige 3 maand)

Page 7: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

7

Data miningEen systeem waarmee het mogelijk is om

op basis van gegevens in het DW onvermoede patronen (verbanden) op te sporen (data mining- tools).

Daarbij worden vooral diverse statistische technieken aangewend (bv. beslissingsbomen voor classificatie, associatieregels opstellen voor associatie-analyse, ...).

Data mining is ontdekking-gebaseerd.

Page 8: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

8

Data mining taken

Predictieve data mining: voorspellen van een doelvariabele op basis van andere variabelen Classificatie Regressie

Descriptieve data mining Associatie analyse Sequentie analyse Clustering ...

Page 9: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

9

Predictieve data mining: classificatie

Voorspellen van een discrete doelvariabele op basis van andere variabelen

Voorbeelden: Credit scoring, bankroetvoorspelling, OCR, fraude-

detectie, churn voorspelling, … Technieken:

Statistisch (Logistieke regressie) Beslissingsbomen Neurale netwerken

Page 10: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

10

Classificatie: beslissingsbomen

inkomen > 50.000 € nee ja

job > 3 jaar hoge schuldja nee ja nee

weinig hoog hoog weinigrisico risico risico

risico

Page 11: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

11

Training set versus Test set

Age Car Type Risk20 Combi High18 Sports High40 Sports High50 Family Low35 Minivan Low30 Combi High32 Family Low40 Combi Low

trainingdata

Classification algorithm

Classifier(model)

if age < 31or Car Type =Sportsthen Risk = High

Page 12: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

12

Training set versus Test set

Age Car Type Risk27 Sports High34 Family Low66 Family High44 Sports High

testdata

Classifier(model)

RiskHighLowLowHigh

Page 13: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

13

Prediction

Age Car Type Risk27 Sports 34 Minivan 55 Family 34 Sports

newdata

Classifier(model)

RiskHighLowLowHigh

Page 14: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

14

Scorecard voor credit scoring

So, a new customer applies for credit ……

AGE 32 120 pointsGENDER Female 180 pointsSALARY £1,150 160 points

Total 460 points

Let cut-off = 500

REFUSE CREDIT

Characteristic

NameAttribute

ScorecardPoints

AGE 1 Up to 26 100

AGE 2 26 - 35 120

AGE 3 35 - 37 185

AGE 4 37+ 225

GENDER 1 Male 90

GENDER 2 Female 180

SALARY 1 Up to 500 120

SALARY 2 501-1000 140

SALARY 3 1001-1500 160

SALARY 4 1501-2000 200

SALARY 5 2001+ 240

Page 15: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

15

Predictieve data mining: regressie

Doelvariabele is continu Voorbeelden:

Voorspellen van aandelenkoersen Voorspellen van verkoopscijfers

Technieken: Lineaire regressie Neurale netwerken

Page 16: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

16

Descriptieve data mining: associatie-analyse

Detecteren van frequent voorkomende patronen tussen items

Voorbeeld: If a customer buys spaghetti, then the customer also

buys red wine in 70% of the cases. Toepassingen

Market basket analysis Web usage mining Recommender systems …

Transaction ID Items

00010002000300040005…00520053

Bread, Milk, AppleBread, Milk, Eggs, PenCold Drink, Chocolate, MilkBread, OrangeFish, Vegetables…Paper, PencilMeat, Oil, Milk

Page 17: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

17

Associatie-regels: voorbeeld

E.g. itemset {Bread,Butter,Milk} has support= 3/7 The rule Bread,Butter ==> Milk has

confidence=3/4

Transaction Items

01020304

Wine Bread MilkWine Beer Butter MilkBread Beer Butter MilkWine Bread Butter Milk

0506

Bread Eggs Butter MilkWine Bread Beer

07 Wine Bread Butter

+

Page 18: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

18

Market basket analyse

Detecteren welke producten vaak samen aangekocht worden

implicaties voor store layout shelve organisation target marketing product bundling

Page 19: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

19

Diapers and Beer example

Some years ago Wal-Mart was using data mining technology to analyse their sales figures. The result of the analysis showed that diapers were often purchased along with beers on Friday nights.

After moving the beers next to the diapers, the beer sales increased by 15% on Fridays.

Possible explanation: Men, on their way home from work, were asked to buy diapers, and since the weekend was just about to start anyway, why not buy some beers?

Page 20: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

20

Descriptieve data mining: sequentie analyse

Detecteren van temporele patronen Voorbeeld

Klant koopt eerst product X, daarna, product Y, daarna product Z

60% of clients who placed an online order in company/products/product1.html, also placed an online order in /company1/products/product4 within 15 days.

Page 21: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

21

Web usage mining

Web usage mining Minen van web logs voor het ontdekken van navigatie-

patronen van een web site Implicaties voor

Verbeteren van web site ontwerp Identificeren van prime advertisement locaties

Voorbeelden: 40% of clients who accessed the Web page with URL

/company/products/product1.html, also accessed /company/products/product2.html

30% of clients who accessed /company/announcements/special-offer.html, placed an online order in /company/products/product1

Page 22: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

22

Descriptieve data mining: clustering

Identificeren van homogene groepen van subjecten

Maximaliseren van intra cluster similariteit en inter cluster dissimilariteit

Voorbeeld: marktsegmentatie

Page 23: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

23

Post processing

Visualiseren van de patronen (bv. met behulp van OLAP)

Interpreteren van de patronen Valideren van de patronen:

constrasteren van de patronen met domeinkennis

Integreren van de patronen in nieuwe systemen

Page 24: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

24

Waarschuwing data mining

Een bepaald verband wijst niet noodzakelijk op causaliteit

(opletten voor transitiviteit!)

Page 25: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

25

Data Mining bloopers

Everyone who ate pickles in the year 1743 is now dead. Therefore, pickles are fatal ( from Ronny Kohavi).

Explanation: Correlation does not imply causality !

A bank discovered that almost 5% of their customers were born on 11 november 1911 (from Ronny Kohavi).

Explanation: The field was mandatory in the entry systems and hitting 111111 was the easiest way to get to the next field !

Page 26: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

26

Nieuwe data mining toepassingen: bestrijden van terrorisme

“Predict terrorist attacks by looking for telltale patterns of activity in passport applications, visas, work permits, driver's licenses, car rentals, airline ticket purchases and arrests, as well as credit transactions and education, medical and housing records” (CBS News, Feb. 2004)

Some US initiatives and systems in development or use: Total Information Awareness (TIA) program: build a centralized

database containing private transactional data on all Americans, including “records on credit-card purchases, plane flights, e-mails websites and housing”

“A new government report reveals that federal agencies have undertaken 199 data-mining efforts, 131 of which are already operational. A surprising number resemble clones of the controversial Total Information Awareness project, which was intended to peruse exabytes of data on Americans assembled from every source possible as a means to snare terrorists” (CNet news, June 2004)

Computer Assisted Passenger Prescreening System (CAPPS II) Multistate Anti-terrorism Information Exchange System (MATRIX) Student and Exchange Visitor Information System (SEVIS) U.S. Visitor and Immigrant Status Indicator Technology (US-VISIT) Secure Collaborative Operational Prototype Environment (SCOPE)

Page 27: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

27

Problemen en uitdagingen

Civil liberties? Privacy?“They that can give up essential liberty to obtain a little temporary safety deserve neither liberty nor safety.” (Benjamin Franklin, 1759)

Technical challenges Integrate data from multiple sources Real-time applications Multimedia data mining Skewed distribution Misclassification costs?

MATRIX system flagged 120,000 people in Florida “who had a statistical likelihood of being terrorists”, but five of the suspected September 11th hijackers were claimed to be among the top 80 people named.

How to create a testbed data set?

Page 28: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

28

Algemeen voorbeeld organisatie van beslissingsprocesSwitch operationeel informatiesysteem voor het beheren

van de logistiek van een luchthaven.

Operationele

DB

DW

DB

gate allocation

air traffic control

billing

airport security

fuel

flight data

bagage handling

catering

Interne informatie

Evoluties aantal vluchten (land, bestemming, periode, ...)

Evoluties aantal passagiers (land, bestemming, maatschappij, transit, ...)

Evolutie bagagevolumes

Evolutie vertragingen

Externe informatie

Analoge gegevens van andere luchthavens

1

Page 29: 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

29

2

DW

DB

DM

DB

OLAP

Data mining

kennis

ter ondersteuning van beslissingen

maatschappij-profiel

OLAP

Data mining

kennis

Bv. Grote delen van noord-Italië hebben geen goede verbinding met vele grootsteden in V.S.

Verona – Brussel met snelle transitBrussel -> V.S.