Onzekere databases (Mini-college voor decentrale onderwijsprijs 2015)

12
MINI-COLLEGE ONDERWIJSPRIJS ONZEKERE DATABASES MAURICE VAN KEULEN

Transcript of Onzekere databases (Mini-college voor decentrale onderwijsprijs 2015)

MINI-COLLEGE ONDERWIJSPRIJS

ONZEKERE DATABASESMAURICE VAN KEULEN

Voorschotje nieuw onderdeel (volgend cursusjaar)

Mastervak “Data Science”

Leerdoelen

Wat is een onzekere database?

Waar zijn ze goed voor?

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 2

WAT EN WAAROM?

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 3

DATABASES

Preferred customers …

SELECT SUM(Sales)

FROM CarSales

WHERE Sales>30

111

‘BMW en Mercedez-Benz

zijn ‘preferred customers’

Car brand Sales

BMW 72

Mercedes-Benz 39

Renault 20

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 4

DATA COMBINEREN

Car brand Sales

B.M.W. 25

Mercedes 32

Renault 10

Car brand Sales

BMW 72

Mercedes-Benz 39

Renault 20

Car brand Sales

Bayerische Motoren Werke 8

Mercedes 35

Renault 15

Car brand Sales

B.M.W. 25

Bayerische Motoren Werke 8

BMW 72

Mercedes 67

Mercedes-Benz 39

Renault 45

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 5

HET PROBLEEM VAN SEMANTISCHE DUPLICATEN

Car brand Sales

B.M.W. 25

Bayerische Motoren Werke 8

BMW 72

Mercedes 67

Mercedes-Benz 39

Renault 45

Preferred customers …

SELECT SUM(Sales)

FROM CarSales

WHERE Sales>100

0

‘No preferred customers’

Een voorbeeld van koppelen en integreren van data …Denk ook aan data exchange, conversion, information extraction, data analysis, e-science, data warehousing, business intelligence, migration, etc.

… in een “niet-perfecte wereld”Structural heterogeneity, data conflicts, semantic duplicates, incompleteness, inexactness, outdatedness, ambiguity, errors, etc.

Schone correcte data is een speciaal geval

Behandel problemen met datakwaliteit als een ‘fact of life’ en niet als iets dat je achteraf wel kunt repareren

Databases zouden goed met slechte data moetenkunnen omgaan … Onzekere databases kunnen dat!

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 6

HET WEERBARSTIGE PROBLEEM VAN DATAKWALITEIT

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 7

DE MEESTE PROBLEMEN MET DATAKWALITEIT KUNNEN

WORDEN GEMODELLEERD ALS ONZEKERHEID IN DATA

Car brand Sales

B.M.W. 25

Bayerische Motoren Werke 8

BMW 72

Mercedes 67

Mercedes-Benz 39

Renault 45

Mercedes 106

Mercedes-Benz 106

1

2

3

4

5

6

X=0

X=0

X=1 Y=0

X=1 Y=1

X=0 4 and 5 different 0.2

X=1 4 and 5 the same 0.8

Y=0 “Mercedes”

correct name

0.5

Y=1 “Mercedes-Benz”

correct name

0.5

B.M.W. / BMW / Bayerische Motoren Werke op dezelfde manier

Voorbeeld: semantische duplicaten

7

8

Sales of “preferred customers”

SELECT SUM(sales)

FROM carsales

WHERE sales≥ 100

Antwoord: 106

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs

ONZEKERE ANTWOORDEN ZIJN WAARDEVOL

SUM(sales) P

0 14%

105 6%

106 56%

211 24%

Tweede meest

waarschijnlijke

antwoord met 24% kans

en mogelijk factor 2 fout

(211 vs 106)

Risico op flinke fout

in het antwoord

8

Lijkt heel erg op een normale database

Data in tabellen

Vragen stellen met SQL

Schaalbaarheid in data als ook onzekerheid, etc.

Maar

meerdere mogelijke antwoorden op query’sof benaderingen van antwoorden

Nu niet, maar in Data Science wel:

Slimme algoritmen voor kansberekeningen (intern)

Ervaring opdoen met echte datakwaliteitsproblemen

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 9

ONZEKERE DATABASE

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 10

‘POSSIBLE WORLDS’-THEORIE

Car brand Sales

Mercedes 67

Mercedes-Benz 39

Mercedes 106

Mercedes-Benz 106

Renault 45

1

2

3

4

5

X=0

X=0

X=1 Y=0

X=1 Y=1

X=0 4 and 5 different 0.2

X=1 4 and 5 the same 0.8

Y=0 “Mercedes” correct 0.5

Y=1 “Mercedes-Benz” correct 0.5

Car brand Sales

Mercedes 67

Mercedes-Benz 39

Renault 45

Car brand Sales

Mercedes 67

Mercedes-Benz 39

Renault 45

Car brand Sales

Mercedes 106

Renault 45

Car brand Sales

Mercedes-Benz 106

Renault 45

X=0

Y=0

X=1

Y=0

X=0

Y=1

X=1

Y=1

0.4

0.1

0.4

0.2 * 0.5

= 0.1

‘0’ (0.2)

‘106’ (0.8)

Data afkomstig van natuurlijke taalverwerking

“210 euro for a double in the Paris Hilton”

etc. etc.

Zelfs in zoiets recht-toe-recht-aans als de

ledenadministratie van Inter-Actief

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 11

TOEPASBAARHEID / PROBLEEM VAN DATAKWALITEIT

S/M-nr Naam Adres

: : :

m7653247 Maurice van Keulen Borneostraat 34a

: : :S-nr Naam Adres

: : :

s8807922 Maurice van Keulen Stroom-Eschlaan 35

: : :

Wat is een onzekere database?

Lijkt op normale database, maar slaat ook

alternatieven en waarschijnlijkheden op

+ meerdere mogelijke antwoorden en benaderingen

Waar zijn ze goed voor?

Ze kunnen omgaan met data van slechte kwaliteit

Modelleren van kwaliteitsproblemen als onzekerheid

3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 12

WRAP UP