BIG Data - voor al uw vooroordelen
-
Upload
rjveldwijk -
Category
Documents
-
view
220 -
download
0
Transcript of BIG Data - voor al uw vooroordelen
-
7/25/2019 BIG Data - voor al uw vooroordelen
1/234 ZOMER 2016
DATA REVIVAL
Terwijl ik dit stukje schrijf is er
ophef. Een Zwolse politieagenthoudt een donkere jongeman
in een dure witte auto staande,
de succesvolle rapper Typhoon. Voor
de agent geldt dat de combi donker-
man-limo wijst op drugsgeld en hij
geeft dat ook eerlijk toe. Iedereen boos.
Excuses van de politie voor racial
proling, niet voor het staande houden
van wie dan ook op zon wankele basis.
Immers, zelfs als jonge zwarte mannen
in dure autos honderd keer vaker in
drugs doen dan blanke besjes in eenAygo, zullen de meeste van die man-
nen toch niet drugscrimineel zijn.
Wat de rapper overkwam gaat veel
meer burgers overkomen. Bedrijven en
overheden zijn helemaal in de big data.
Het recept? Verzamel data, veelsoortige
data, liefst gedragsdata, crunch die data
en vind marketingtargets, fraudeurs,
jihadisten en liefdespartners!
We doen een gedachtenexperiment: we
stoppen alle data waarover de overheid
beschikt in een databucket en gaan op
zoek naar patronen. Grote kans dat
onze rapper dan ook als een potentile
crimineel naar voren komt. Die agent is
namelijk niet gek. Hoewel. Misschien
zijn agenten toch racisten en vinden ze
vooral jonge, donkere drugscriminelen
omdat witte oude taarten nooit worden
gecontroleerd en daardoor buiten de re-
levante crimi-bestanden blijven. Ook big
data zijn vaak de neerslag van selectieve
waarneming en gegevensvastlegging.
Alleen storen we ons minder aan een
transparante agent dan aan een software-
orakel. Mensen zijn immers racistisch.
Racisme is emotie en software is emotie-
loos. Niet dus.
Er speelt nog iets anders. De software
van vandaag is onredelijk en niet ac-
countable. Wie in big data struint, vindt
redelijke en onredelijke, permanente en
tijdelijke patronen. Een patroonzoekend
programma kan er net zo goed naast
zitten als een agent, maar zal anders dan
die agent meestal geen begrijpelijke regel
formuleren. Tegenover veel meer data en
rekenkracht dan waarover een mens be-
schikt staat vooralsnog het ontbreken van
redelijkheid en judgment van software.
Elvis Albers van 18 met zijn vlasbaardje
uit Oldeholtwolde kan zomaar worden
aangewezen als kandidaat-jihadist, want
heel veel van die lui hebben een naam die
begint met El of Al. Wie zal zeggen wat
de software aan mooie patronen vindt?
Wat ik schrijf wordt al praktijk. Ik sprak
een controleur van een overheidsbe-
drijf die mij vertelde hoe hij fraudeurs
opspoort. Hij stopt data uit verschillende
systemen in een Excelletje en sorteert
die op allerlei ratios. De buitenbeentjes
bekijkt hij vervolgens meer in detail. Dat
controlewerk was altijd gebaseerd op ge-
kwanticeerde afwijkingen in bestanden
met ouderwetse, gestructureerde gege-
vens van administratieve aard oldschool
small data van het Text & Number-type.
Dat verdwijnt binnenkort. Zijn werkgever
Patronen ontdekken inheel veel data. Veel mensenvinden het opwindend, maarslechts weinigen zien dekeerzijde van deze medaille.
TEKST: REN VELDWK BEELD: SHUTTERSTOCK
BIG DATA: VOOR AL UW
-
7/25/2019 BIG Data - voor al uw vooroordelen
2/2 3ZOMER 2016
is bezig met een ict-project om fraudesig-
nalen uit de data te halen met moderne,
briljante patroonzoeksoftware. Een
hele club van briljante academici was
daarvoor ingehuurd. Mensen met do-
meinkennis, zoals mijn gesprekspartner,
moesten vooral ver weg blijven.
Ik voorzie voor de komende jaren big
data ict-projecten bij de vleet. Dergelijke
projecten kunnen namelijk haast niet
mislukken. Immers, als je niet weet wat
je software doet dan wordt eectivi-
teitsmeting ook onmogelijk. We zien dat
al bij de NSA-casus, waar grote twijfel
bestaat aan de eectiviteit van terreurbe-
strijding op basis van big data.
Ondertussen is het niet mijn bedoe-
ling om big data en patroonzoekende
software permanent te debunken. Het
is vooral een kwestie van rijpheid. Er is
geen principile reden om te veronder-
stellen dat software die patronen herkent
deze niet kan formuleren in begrijpelijke,
uitlegbare en toetsbare regels. Alleen is
tot dat moment aanbreekt de interpre-
terende mens een onmisbaar onderdeel
van geautomatiseerde systemen die
speuren naar patronen in onvolledig
gestructureerde data.
Terug naar de agent en de rapper. Als
econoom denk ik dat de vraag moet zijn
hoeveel groter de kans is dat een donkere
jongeman in een dure auto in drugs doet,
vergeleken met pakweg de gemiddelde
Computable-lezer. Laten we aannemen
dat die kans twee keer groter is. Als
jonge, donkere mannen in dure autos
meer dan twee keer vaker dan Compu-
table-lezers staande worden gehouden,
dan is de politie racistisch en inecint.
Is de controlefactor lager dan twee dan is
de politie politiek-hypercorrect en inef-
cint. Het is laat geworden. Ik ga naar
huis. Bovengemiddelde kans dat ik straks
gecontroleerd word op drankgebruik.
Autochtone man van middelbare leeftijd.
Benidorm-sticker op de achterruit van de
auto. The usual suspect.
Is onze politie racistisch, politiek-hy-
percorrect of juist evenwichtig? Ik zou
het graag willen weten. Laat dit nou een
prachtige vraag zijn voor een grondige
analyse op basis van heel veel data, big
data desnoods. n
VOOROORDELEN