Business Intelligence: DATA MINING

Post on 13-Jan-2016

83 views 0 download

description

Business Intelligence: DATA MINING. ‘Graven in Criminele Carrières’. Data ‘flood’. Steeds meer gegevens worden gegenereerd! (data). Bank, telecom, andere zakelijke transacties ... Wetenschappelijke data: astronomie, biologie Web, tekst, en E-commerce. Gevolgen en mogelijkheden. - PowerPoint PPT Presentation

Transcript of Business Intelligence: DATA MINING

Business Intelligence:DATA MINING

‘Graven in Criminele Carrières’

Tim Cocx, 2009

04/21/23 Tim Cocx, tcocx@liacs.nl 2

Data ‘flood’

• Steeds meer gegevens worden gegenereerd!(data)

Bank, telecom, andere zakelijke transacties ...Wetenschappelijke data: astronomie, biologieWeb, tekst, en E-commerce.

04/21/23 Tim Cocx, tcocx@liacs.nl 3

Gevolgen en mogelijkheden

• Twee keer zoveel data werd gemaakt in 2002 als in 1999 (~30% gegroeid)

• Gevolg: heel weinig van deze gegevens worden ook daadwerkelijk ooit door een mens bekeken!!– Alleen google heeft al 1/3 van de hele mensheid aan

Word-documenten op geslagen!

• Daarom: Automatische technieken nodig om nog wat nuttigs met de gegevens te doen.

• Maar ook: Opdoen van kennis die ‘we’ nog niet eerder hadden.

Enter: Business Intelligence

21-04-23 Tim Cocx, 2009 4

Die Hele Grote

Database

Business Inelligence

Data Warehouse

Querying

Die Belangrijke Rapportage

Data Mining

OLAPAlarmbellen

BI 2.0

?

Offline herinrichten

OLAP

• Behoefte af te stappen van gedetailleerde vragen.– Geef mij alle koffie opbrengsten USA van 2006– Geef mij alle koffie opbrengsten USA van 2007– Geef mij…..– En nu van Europa– En nu van Nederland– En nu van Snacks– En nu van de 100% Halal kipfrikadel

21-04-23 Tim Cocx, 2009 5

OLAP

• Dit kan dus handiger• Software tools die mbv data warehouse de

gegevens handig presenteren.• Selecteer ‘dimensies’ en ‘data’

– Dimensie: Regio & product-type– Data: verkoopcijfers– Presenteer in (2-dimensionaal) tabelletje

21-04-23 Tim Cocx, 2009 6

OLAP

• Dus: OLAP is heel handig om veel informatie snel overzichtelijk te krijgen.

• Nadelen:– Iemand weten de juiste vragen te stellen.

Kan heel lastig zijn.

– Die iemand moet worden betaald.– Die iemand moet aan het werk zijn.– De rapportages moeten gelezen en

geïnterpreteerd worden.

21-04-23 Tim Cocx, 2009 7

Data Mining

• Oplossing: Data mining– Computergestuurd proces.– Automatische vragen.– Automatische analyses– Automatische response

• Nadeel– Nog steeds interpretatie nodig

• Heel belangrijk

21-04-23 Tim Cocx, 2009 8

04/21/23 Tim Cocx, tcocx@liacs.nl 9

Data mining

• Data mining is 1 van de moderne speerpunten binnen Business Intelligence

04/21/23 Tim Cocx, tcocx@liacs.nl 10

Data mining: definitie

• Data mining is het automatische proces van het vinden van– Valide (= waar),– Nieuwe,– mogelijk bruikbare– En uiteindelijk begrijpelijke patronen in data.

04/21/23 Tim Cocx, tcocx@liacs.nl 11

Data mining en andere wetenschappen

DatabasesComputerStatistiek

VisualisatieMachine Leren

Data Mining

Business Inelligence

Classificatie# poten Vleugels Type mond Staart # kinderen

5 nee mond nee 1

04/21/23 Tim Cocx, tcocx@liacs.nl 12

Voorspellen van klasse van dit dier

Zoogdier

Vis

Insect

Vogel, etc

Antwoord: Zeester Asteroidea

04/21/23 Tim Cocx, tcocx@liacs.nl 13

Clustering

• Grote tabel met alle dieren en hun eigenschappen:

Pokemon

Vogels

Vissen

Zoogdieren

04/21/23 Tim Cocx, tcocx@liacs.nl 14

Associaties

• Alle boodschappenmandjes Albert Heijn in december.

• Uitvinden welke producten vaak samen verkocht worden (handige reclame!)

04/21/23 Tim Cocx, tcocx@liacs.nl 15

Afwijking detectie

• Omgekeerd van hiervoor: geen algemene waarheden vinden, maar afwijkingen daarvan

• Alle banktransacties en hun kenmerken• Het automatisch vinden van zwart geld

(anders dan standaard)• Het automatisch vinden van witwas praktijken

04/21/23 Tim Cocx, tcocx@liacs.nl 16

‘Link’ analyse

• Aan de hand van telefoontjes criminele netwerken vaststellen:

Text mining

• Welke emails gaan over hetzelfde onderwerp?– Wat zijn de belangrijke deelconcepten– Terrorisme– Reclame-matching– Search engine

• Kan ik een betoog automatisch structureren uit een tekst?– Omgekeerde van Rationale

• Welk document is door wie geschreven?

21-04-23 Tim Cocx, 2009 17

Beroemde succesverhalen

• Succes ligt vaak in combinatie van methodieken:

• ENRON– Mega energieconcern USA– Door grootschalige fraude omgevallen– Bewijsvoering tegen directie mbv textmining en

linkanalyse tot stand gekomen.

21-04-23 Tim Cocx, 2009 18

Beroemde succesverhalen

21-04-23 Tim Cocx, 2009 19

@@@ @

@

@@

@

@@

@

@@

@

@ @@

@@

@@

@

@@

@

@ @

@

@

@@@ @

@

@@

@

@@

@

@@

@

@ @@

@@

@@

@

@@

@

@ @

@

@@

@@ @

@

@@

@

@@

@

@@

@

@ @@

@@

@@

@

@@

@

@ @

@

@

@@@ @

@

@@

@

@@

@

@@

@

@ @@

@@

@@

@

@@

@

@ @

@

@

@@@ @

@

@@

@

@@

@

@@

@

@ @@

@@

@@

@

@@

@

@ @

@

@

@@@ @

@

@@

@

@@

@

@@

@

@ @@

@@

@@

@

@@

@

@ @

@

@

@@@ @

@

@@

@

@@

@

@@

@

@ @@

@@

@@

@

@@

@

@ @

@

@@@

@

@

@@

@@@

@

@@

04/21/23 Tim Cocx, tcocx@liacs.nl 20

Mijn onderzoek: DALE

• Data Assistance for Law Enforcement• Project ingediend bij NWO

– Organisatie van de staat om wetenschappelijk onderzoek te financieren.

• Samenwerking met het KLPD (nationale politie)• Data mining toepassen op de data verzameld door

alle Nederlandse korpsen.• Onder andere: relaties tussen misdaden, drugs-

emails vergelijken en criminele carrières.

04/21/23 Tim Cocx, tcocx@liacs.nl 21

Onderzoeksgebied

Criminele CarriereOnderzoek

Sociologie

Psychologie

Criminologie

Rechten

Informatica

04/21/23 Tim Cocx, tcocx@liacs.nl 22

Criminele Carrieres: wat zijn het?

04/21/23 Tim Cocx, tcocx@liacs.nl 23

Doel van analyse

Analyse

04/21/23 Tim Cocx, tcocx@liacs.nl 24

‘Afstanden’ tussen criminelen

• Hoe verder criminelen van elkaar staan: hoe minder hun carrières op elkaar lijken.

• Afstand 0 precies dezelfde carrières• Afstand 1 maximaal verschillende carrières

11 / 20

04/21/23 Tim Cocx, tcocx@liacs.nl 25

De vier factoren

Aard DuurFrequentie Zwaarte

04/21/23 Tim Cocx, tcocx@liacs.nl 26

Landelijke HKS

• Database met de alle strafbladen van Nederland

• Ongeveer 1.000.000 plegers.• Bevat alle overtredingen van personen die na

1995 een misdrijf begaan hebben.• Bevat naast de misdaden ook gegevens over

leeftijden, woonplaats, afkomst ed.• geanonimiseerd!

04/21/23 Tim Cocx, tcocx@liacs.nl 27

Voorspelling

• Het zou fijn zijn als er van een beginnende crimineel een voorspelling gemaakt kon worden over zijn carriere.

Jaar 1

Jaar 2Jaar 3

Jaar 6?

Jaar 6?

Jaar 6?

04/21/23 Tim Cocx, tcocx@liacs.nl 28

Verschillende Manieren

• Verschillende methoden leiden tot verschillende uitkomsten

• Welke is de beste?

04/21/23 Tim Cocx, tcocx@liacs.nl 29

Uitkomsten

• Methode 4 is de beste.• Bij 3 beschikbare jaren kunnen we een carrière met

89% nauwkeurigheid voorspellen!• Alarmbellen bij de politie• Andere aparte uitkomsten in relaties tussen

misdaadkenmerken:– Drugssmokkel en drugsverslaving– Verkeersmisdrijven en buiten de randstad– Joyriden en overtreden arbeidswet

Data mining: waarschuwing• Privacy

– Mogen de gegevens wettelijk / ethisch wel voor dit doel gebruikt worden?

• Interpretatie– Weet de ‘lezer’ wel hoe de gegevens tot stand zijn gekomen?– Begrijpt hij de teksten / plaatjes wel?

• Statistische validiteit– De ‘waarheid’ wordt opgeleverd met zekere

betrouwbaarheid• Mogen individuen op basis daarvan ‘gediscrimineerd’ worden?• Bij 90%? Bij 98%? Bij 99.99%?

21-04-23 Tim Cocx, 2009 30

04/21/23 Tim Cocx, tcocx@liacs.nl 31

Ondervraging