BIG Data - voor al uw vooroordelen

download BIG Data - voor al uw vooroordelen

of 2

Transcript of BIG Data - voor al uw vooroordelen

  • 7/25/2019 BIG Data - voor al uw vooroordelen

    1/234 ZOMER 2016

    DATA REVIVAL

    Terwijl ik dit stukje schrijf is er

    ophef. Een Zwolse politieagenthoudt een donkere jongeman

    in een dure witte auto staande,

    de succesvolle rapper Typhoon. Voor

    de agent geldt dat de combi donker-

    man-limo wijst op drugsgeld en hij

    geeft dat ook eerlijk toe. Iedereen boos.

    Excuses van de politie voor racial

    proling, niet voor het staande houden

    van wie dan ook op zon wankele basis.

    Immers, zelfs als jonge zwarte mannen

    in dure autos honderd keer vaker in

    drugs doen dan blanke besjes in eenAygo, zullen de meeste van die man-

    nen toch niet drugscrimineel zijn.

    Wat de rapper overkwam gaat veel

    meer burgers overkomen. Bedrijven en

    overheden zijn helemaal in de big data.

    Het recept? Verzamel data, veelsoortige

    data, liefst gedragsdata, crunch die data

    en vind marketingtargets, fraudeurs,

    jihadisten en liefdespartners!

    We doen een gedachtenexperiment: we

    stoppen alle data waarover de overheid

    beschikt in een databucket en gaan op

    zoek naar patronen. Grote kans dat

    onze rapper dan ook als een potentile

    crimineel naar voren komt. Die agent is

    namelijk niet gek. Hoewel. Misschien

    zijn agenten toch racisten en vinden ze

    vooral jonge, donkere drugscriminelen

    omdat witte oude taarten nooit worden

    gecontroleerd en daardoor buiten de re-

    levante crimi-bestanden blijven. Ook big

    data zijn vaak de neerslag van selectieve

    waarneming en gegevensvastlegging.

    Alleen storen we ons minder aan een

    transparante agent dan aan een software-

    orakel. Mensen zijn immers racistisch.

    Racisme is emotie en software is emotie-

    loos. Niet dus.

    Er speelt nog iets anders. De software

    van vandaag is onredelijk en niet ac-

    countable. Wie in big data struint, vindt

    redelijke en onredelijke, permanente en

    tijdelijke patronen. Een patroonzoekend

    programma kan er net zo goed naast

    zitten als een agent, maar zal anders dan

    die agent meestal geen begrijpelijke regel

    formuleren. Tegenover veel meer data en

    rekenkracht dan waarover een mens be-

    schikt staat vooralsnog het ontbreken van

    redelijkheid en judgment van software.

    Elvis Albers van 18 met zijn vlasbaardje

    uit Oldeholtwolde kan zomaar worden

    aangewezen als kandidaat-jihadist, want

    heel veel van die lui hebben een naam die

    begint met El of Al. Wie zal zeggen wat

    de software aan mooie patronen vindt?

    Wat ik schrijf wordt al praktijk. Ik sprak

    een controleur van een overheidsbe-

    drijf die mij vertelde hoe hij fraudeurs

    opspoort. Hij stopt data uit verschillende

    systemen in een Excelletje en sorteert

    die op allerlei ratios. De buitenbeentjes

    bekijkt hij vervolgens meer in detail. Dat

    controlewerk was altijd gebaseerd op ge-

    kwanticeerde afwijkingen in bestanden

    met ouderwetse, gestructureerde gege-

    vens van administratieve aard oldschool

    small data van het Text & Number-type.

    Dat verdwijnt binnenkort. Zijn werkgever

    Patronen ontdekken inheel veel data. Veel mensenvinden het opwindend, maarslechts weinigen zien dekeerzijde van deze medaille.

    TEKST: REN VELDWK BEELD: SHUTTERSTOCK

    BIG DATA: VOOR AL UW

  • 7/25/2019 BIG Data - voor al uw vooroordelen

    2/2 3ZOMER 2016

    is bezig met een ict-project om fraudesig-

    nalen uit de data te halen met moderne,

    briljante patroonzoeksoftware. Een

    hele club van briljante academici was

    daarvoor ingehuurd. Mensen met do-

    meinkennis, zoals mijn gesprekspartner,

    moesten vooral ver weg blijven.

    Ik voorzie voor de komende jaren big

    data ict-projecten bij de vleet. Dergelijke

    projecten kunnen namelijk haast niet

    mislukken. Immers, als je niet weet wat

    je software doet dan wordt eectivi-

    teitsmeting ook onmogelijk. We zien dat

    al bij de NSA-casus, waar grote twijfel

    bestaat aan de eectiviteit van terreurbe-

    strijding op basis van big data.

    Ondertussen is het niet mijn bedoe-

    ling om big data en patroonzoekende

    software permanent te debunken. Het

    is vooral een kwestie van rijpheid. Er is

    geen principile reden om te veronder-

    stellen dat software die patronen herkent

    deze niet kan formuleren in begrijpelijke,

    uitlegbare en toetsbare regels. Alleen is

    tot dat moment aanbreekt de interpre-

    terende mens een onmisbaar onderdeel

    van geautomatiseerde systemen die

    speuren naar patronen in onvolledig

    gestructureerde data.

    Terug naar de agent en de rapper. Als

    econoom denk ik dat de vraag moet zijn

    hoeveel groter de kans is dat een donkere

    jongeman in een dure auto in drugs doet,

    vergeleken met pakweg de gemiddelde

    Computable-lezer. Laten we aannemen

    dat die kans twee keer groter is. Als

    jonge, donkere mannen in dure autos

    meer dan twee keer vaker dan Compu-

    table-lezers staande worden gehouden,

    dan is de politie racistisch en inecint.

    Is de controlefactor lager dan twee dan is

    de politie politiek-hypercorrect en inef-

    cint. Het is laat geworden. Ik ga naar

    huis. Bovengemiddelde kans dat ik straks

    gecontroleerd word op drankgebruik.

    Autochtone man van middelbare leeftijd.

    Benidorm-sticker op de achterruit van de

    auto. The usual suspect.

    Is onze politie racistisch, politiek-hy-

    percorrect of juist evenwichtig? Ik zou

    het graag willen weten. Laat dit nou een

    prachtige vraag zijn voor een grondige

    analyse op basis van heel veel data, big

    data desnoods. n

    VOOROORDELEN