Zeg het met beelden Statistische valkuilen ... -...

5150

Wim Scheper, Chief Innovation Officer Deloitte

William Edward Deming (1900-1993) verwoordde het vertrouwen in big data het best, vindt Scheper. “Hij zei ‘In God we trust; all others bring data’. Dat zegt het allemaal. Deming was de goeroe van kwaliteitsmanagement. Deze tijd zou een walhalla voor hem zijn geweest.”Dat blijkt volgens Scheper onder meer uit de groeiende verwerkingssnelheid van computerchips. “Die staat bekend als Moore’s Law: de processing power van een geïntegreerd circuit verdubbelt elke 18 tot 24 maanden. Op het moment doet een chip ongeveer 10 tot de 15de flops (floating operation points per second). Het duurt niet lang meer voor we bij 10 tot de 20ste zijn; dat is waarschijnlijk tussen 2035 en 2045. Dan heeft één computerchip meer

verwerkingscapaciteit per seconde dan alle breinen van de hele mensheid bij elkaar. En dat voor 1.000 dollar per chip.”

Van Colossus tot big dataHet is een hele vooruitgang vergeleken met de intelligente apparaten van vroeger. “De machine waarmee de Engelsen in de Tweede Wereldoorlog de Duitse Enigmacode wisten te breken heette heel toepasselijk Colossus. Het was een grote machine met buizenlampen. Als daar een kevertje invloog, klapte de hele handel uit elkaar.”Die periode heeft plaatsgemaakt voor het big-data-tijdperk. “Dat werd mogelijk doordat processing power, software en de opslag en toegang tot data veel goedkoper zijn geworden. En door internet.”

Het nut van patroonherkenningHet big-data-tijdperk betekent dat we in staat zijn enorme hoeveelheden informatie te analyseren. Bij die analyse komt statistiek kijken, en daar zit het probleem. “Mensen zijn heel slecht in statistiek. We zijn wel goed in het vinden van patronen. Daarbij werken we met stereotypen. Dat hebben we overgehouden aan onze verre voorvaderen. Als je op de savanne geritsel in de struiken hoort kun je denken dat het toeval is, maar je kunt ook concluderen dat het een leeuw moet zijn. Denk je het laatste en het is toch de wind, dan is er niets aan de hand. Denk je het eerste en het is toch een leeuw, dan word je opgegeten. Wij stammen af van de overlevers, die zelfs in toevallige gebeurtenissen patronen zagen.Die evolutionaire onderbouwing heb ik niet

op die onderzoeken worden behandelplannen gebaseerd en er worden medicijnen op ontwikkeld.”

Zeg het met beeldenMaar er is hoop, denkt Scheper. “Uit onderzoek uit 1987 door Jill Larkin en Herbert Simon (ook een Nobelprijswinnaar) blijkt dat een plaatje soms meer zegt dan duizend woorden. Een tekst kan moeilijk te verwerken zijn als je tegelijk verbanden moet leggen tussen a en b. Als die verbanden worden gevisualiseerd, dan snappen mensen ze beter. Big data alleen is dus niet genoeg. Maar als je de juiste maatregelen treft – bijvoorbeeld door belangrijke patronen in beeld te brengen – kan dat helpen om betere beslissingen te nemen. Met visualisatietechnieken kunnen we de valkuilen van onze hersenen vermijden.”

Statistische valkuilenMensen redeneren doorgaans op basis van intuïtie en alledaagse ervaringen. De kracht van die aanpak is dat we snel conclusies kunnen trekken die ongeveer juist zijn. Het nadeel is dat we ook patronen zien die er niet zijn en dat de uitkomsten onnauwkeurig zijn. Vooral als resultaten niet stroken met onze intuïtie en veel denkwerk kosten kan het misgaan. In de literatuur zijn tal van voorbeelden te vinden.

Bachelorstudenten van Harvard University kregen een simpel probleem voorgelegd. Een racket en een bal kosten samen $1,10. Het racket kost $1,00 meer dan de bal. Hoe duur is de bal? 60% van de studenten zegt 10 ct. Maar dat intuïtieve antwoord is uiteraard onjuist. Het correcte antwoord is 5 ct.

Een beroemd voorbeeld van het zien van patronen betreft Tom W. Tom is een student. De opdracht is de studie te noemen die hij hoogstwaarschijnlijk volgt. Als er verder niets over Tom wordt gezegd kan dat van alles zijn. Maar zodra er meer informatie over Tom wordt gegeven – hij is intelligent, niet creatief, schrijft saai, gaat nauwelijks met anderen om – concluderen de lezers dat het een nerdy type is en dat hij wel iets met computers zal studeren. Dat is eigenlijk raar, want met die eigenschappen kan Tom ook heel andere studies volgen. De meest waarschijnlijke studie is nog steeds die waar de meeste studenten zitten. Maar het denken in stereotypen verhindert die logische conclusie.

Iets dergelijks zien we ook in het geval van Linda de bankmedewerkster. Linda is 31, single, slim en deed in haar studententijd mee aan demonstraties tegen kernproeven en voor sociale rechtvaardigheid. Wat is het meest waarschijnlijke alternatief: 1. Linda is een bankmedewerkster of 2. Linda is een bankmedewerkster en actief in de feministische beweging? De meeste mensen kiezen 2, maar dat is niet terecht. Het enige dat beide alternatieven gemeen hebben is dat Linda bij een bank werkt. Het toekennen van meer eigenschappen aan Linda vergroot alleen de kans dat je ernaast zit. De groep feministisch actieve bankmedewerkers is altijd kleiner dan de groep bankmedewerkers. Bovendien is de eerste groep altijd een deelverzameling van de tweede. De kans dat Linda in die tweede groep valt is dus per definitie groter.

Big data is het fundament onder datadriven decisionmaking, aldus Scheper. “Het idee daarachter is dat je betere besissingen neemt als je maar veel data verzamelt. Ik moet dat eerst nog maar eens zien. Het is waar dat we veel meer data tot onze beschikking hebben en dat we die in computers kunnen verwerken. Maar wij mensen blijven beperkt in onze cognitieve capaciteit. Het goede nieuws is dat er manieren zijn om onze zwakheden te omzeilen.”

AROUND THE BOARDROOM

zelf verzonnen. Hij komt uit het boek Thinking fast and slow van Nobelprijswinnaar Daniel Kahneman. Kahneman beschrijft twee systemen waarmee we reageren op de wereld om ons heen. Het eerste is ons snelle en onbewuste systeem, dat we 85 tot 90% van de tijd gebruiken en dat berust op stereotypen. ‘Slow’ slaat op ons tweede, meer reflexieve en bewuste systeem dat we gebruiken om ingewikkelde zaken te beredeneren, zoals statistiek. Maar dat tweede systeem is nogal arbeidsintensief, en als het even kan vallen we terug op het eerste. Daarom zijn mensen zo slecht in statistiek.”

Werken met statistische foutenDe gevolgen daarvan kunnen ernstig zijn, zegt Scheper. “In elk geval volgens John Ioannidis, docent op Harvard en een van de meest gevraagde wetenschappers ter wereld. Bayer heeft een groot aantal medische publicaties die wereldwijd zijn verschenen onder de loep genomen. Hij concludeerde dat de meeste onderzoeken statistische fouten bevatten en dat 70% ervan niet reproduceerbaar was. Dat is schokkend, want

Statistiek is al snel te moeilijk

CFO Dinerbijeenkomst

Wim ScheperWim Scheper is partner en Chief Innovation Officer bij Deloitte, gespecialiseerd in Business Model Innovation en Data Analytics. Scheper was van 2001 tot 2011 werkzaam als professor Business IT Alignment bij de Universiteit Utrecht. Voor zijn rol als professor was Scheper al ruim 14 jaar verbonden aan de Universiteit Utrecht als docent aan de faculteit Social Sciences en bij het Center for Policy and Management.

Zeg het met beelden Statistische valkuilen ... -...

Documents

Transcript of Zeg het met beelden Statistische valkuilen ... -...