De levenmarkt in 2020: een onzekere toekomst voor levenverzekeraars en intermediairs
Onzekere databases (Mini-college voor decentrale onderwijsprijs 2015)
-
Upload
university-of-twente -
Category
Data & Analytics
-
view
425 -
download
0
Transcript of Onzekere databases (Mini-college voor decentrale onderwijsprijs 2015)
Voorschotje nieuw onderdeel (volgend cursusjaar)
Mastervak “Data Science”
Leerdoelen
Wat is een onzekere database?
Waar zijn ze goed voor?
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 2
WAT EN WAAROM?
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 3
DATABASES
Preferred customers …
SELECT SUM(Sales)
FROM CarSales
WHERE Sales>30
111
‘BMW en Mercedez-Benz
zijn ‘preferred customers’
Car brand Sales
BMW 72
Mercedes-Benz 39
Renault 20
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 4
DATA COMBINEREN
Car brand Sales
B.M.W. 25
Mercedes 32
Renault 10
Car brand Sales
BMW 72
Mercedes-Benz 39
Renault 20
Car brand Sales
Bayerische Motoren Werke 8
Mercedes 35
Renault 15
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 5
HET PROBLEEM VAN SEMANTISCHE DUPLICATEN
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
Preferred customers …
SELECT SUM(Sales)
FROM CarSales
WHERE Sales>100
0
‘No preferred customers’
Een voorbeeld van koppelen en integreren van data …Denk ook aan data exchange, conversion, information extraction, data analysis, e-science, data warehousing, business intelligence, migration, etc.
… in een “niet-perfecte wereld”Structural heterogeneity, data conflicts, semantic duplicates, incompleteness, inexactness, outdatedness, ambiguity, errors, etc.
Schone correcte data is een speciaal geval
Behandel problemen met datakwaliteit als een ‘fact of life’ en niet als iets dat je achteraf wel kunt repareren
Databases zouden goed met slechte data moetenkunnen omgaan … Onzekere databases kunnen dat!
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 6
HET WEERBARSTIGE PROBLEEM VAN DATAKWALITEIT
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 7
DE MEESTE PROBLEMEN MET DATAKWALITEIT KUNNEN
WORDEN GEMODELLEERD ALS ONZEKERHEID IN DATA
Car brand Sales
B.M.W. 25
Bayerische Motoren Werke 8
BMW 72
Mercedes 67
Mercedes-Benz 39
Renault 45
Mercedes 106
Mercedes-Benz 106
1
2
3
4
5
6
X=0
X=0
X=1 Y=0
X=1 Y=1
X=0 4 and 5 different 0.2
X=1 4 and 5 the same 0.8
Y=0 “Mercedes”
correct name
0.5
Y=1 “Mercedes-Benz”
correct name
0.5
B.M.W. / BMW / Bayerische Motoren Werke op dezelfde manier
Voorbeeld: semantische duplicaten
7
8
Sales of “preferred customers”
SELECT SUM(sales)
FROM carsales
WHERE sales≥ 100
Antwoord: 106
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs
ONZEKERE ANTWOORDEN ZIJN WAARDEVOL
SUM(sales) P
0 14%
105 6%
106 56%
211 24%
Tweede meest
waarschijnlijke
antwoord met 24% kans
en mogelijk factor 2 fout
(211 vs 106)
Risico op flinke fout
in het antwoord
8
Lijkt heel erg op een normale database
Data in tabellen
Vragen stellen met SQL
Schaalbaarheid in data als ook onzekerheid, etc.
Maar
meerdere mogelijke antwoorden op query’sof benaderingen van antwoorden
Nu niet, maar in Data Science wel:
Slimme algoritmen voor kansberekeningen (intern)
Ervaring opdoen met echte datakwaliteitsproblemen
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 9
ONZEKERE DATABASE
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 10
‘POSSIBLE WORLDS’-THEORIE
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Mercedes 106
Mercedes-Benz 106
Renault 45
1
2
3
4
5
X=0
X=0
X=1 Y=0
X=1 Y=1
X=0 4 and 5 different 0.2
X=1 4 and 5 the same 0.8
Y=0 “Mercedes” correct 0.5
Y=1 “Mercedes-Benz” correct 0.5
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Renault 45
Car brand Sales
Mercedes 67
Mercedes-Benz 39
Renault 45
Car brand Sales
Mercedes 106
Renault 45
Car brand Sales
Mercedes-Benz 106
Renault 45
X=0
Y=0
X=1
Y=0
X=0
Y=1
X=1
Y=1
0.4
0.1
0.4
0.2 * 0.5
= 0.1
‘0’ (0.2)
‘106’ (0.8)
Data afkomstig van natuurlijke taalverwerking
“210 euro for a double in the Paris Hilton”
etc. etc.
Zelfs in zoiets recht-toe-recht-aans als de
ledenadministratie van Inter-Actief
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 11
TOEPASBAARHEID / PROBLEEM VAN DATAKWALITEIT
S/M-nr Naam Adres
: : :
m7653247 Maurice van Keulen Borneostraat 34a
: : :S-nr Naam Adres
: : :
s8807922 Maurice van Keulen Stroom-Eschlaan 35
: : :
Wat is een onzekere database?
Lijkt op normale database, maar slaat ook
alternatieven en waarschijnlijkheden op
+ meerdere mogelijke antwoorden en benaderingen
Waar zijn ze goed voor?
Ze kunnen omgaan met data van slechte kwaliteit
Modelleren van kwaliteitsproblemen als onzekerheid
3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 12
WRAP UP