Wouter Schoon Man Red e 27 Me i 2004

19
Lectorale rede Wouter Schoonman Assessment voor en door iedereen

description

InleidingHoewel niet iedereen het woord assessment kent, zijn we er allemaal dagelijksmee bezig. Assessment is een Angelsaksisch leenwoord met de volgendebetekenissen:AssessmentBelasting (aanslag), Schatting (taxatie),Vaststelling (bepaling), Beoordeling (inschatting).Van Dale Lexicografie, 1996, p. 37In ons geval is de laatste betekenis – beoordeling – van toepassing. In diebetekenis wordt het woord ook gebruikt in de bekende ‘assessment centers’.Hiermee wordt geen plaats – centrum – bedoeld, maar een methode omgeschiktheid van kandidaten voor functies te bepalen (Jansen, 1991; Jansen& De Jongh, 1993; Seegers, 1997). In navolging van het bedrijfsleven waarassessment erg populair is, volgt nu ook het (hoger) onderwijs. De combinatievan acceptatie door kandidaten en managers plus het goede voorspellendevermogen verklaren de populariteit van assessment.

Transcript of Wouter Schoon Man Red e 27 Me i 2004

Page 1: Wouter Schoon Man Red e 27 Me i 2004

Lectorale redeWouter Schoonman

Assessment voor en door iedereen

Page 2: Wouter Schoon Man Red e 27 Me i 2004

2 3

Assessment voor en door iedereen

Inhoud

1 Inleiding .

2 Eigenschappen of gedrag

3 Beoordelen en beslissen

4 Kansrekening en statistiek

5 Alleen of samen

6 Toetsen en gedragsproeven

7 Kenniskring en lectoraat

8 Oriëntatie en selectie

9 Conclusie

10 Dankwoord

11 Referenties

................................................................................................... 3

......................................................................... 4

........................................................................... 6

....................................................................... 9

...................................................................................... 18

................................................................... 21

........................................................................ 24

............................................................................. 26

................................................................................................ 29

............................................................................................. 30

............................................................................................. 32

Inleiding

Hoewel niet iedereen het woord assessment kent, zijn we er allemaal dage-

lijks mee bezig. Assessment is een Angelsaksisch leenwoord met de volgen-

de betekenissen:

AssessmentBelasting (aanslag), Schatting (taxatie), Vaststelling (bepaling), Beoordeling (inschatting).

Van Dale Lexicografie, 1996, p. 37

In ons geval is de laatste betekenis – beoordeling – van toepassing. In die

betekenis wordt het woord ook gebruikt in de bekende ‘assessment centers’.

Hiermee wordt geen plaats – centrum – bedoeld, maar een methode om

geschiktheid van kandidaten voor functies te bepalen (Jansen, 1991; Jansen

& De Jongh, 1993; Seegers, 1997). In navolging van het bedrijfsleven waar

assessment erg populair is, volgt nu ook het (hoger) onderwijs. De combina-

tie van acceptatie door kandidaten en managers plus het goede voorspellen-

de vermogen verklaren de populariteit van assessment.

Page 3: Wouter Schoon Man Red e 27 Me i 2004

4 5

Eigenschappen of gedrag

Er zijn twee benaderingen om de geschiktheid van mensen voor een functieof beroep te beoordelen. Deze staan bekend als de sign en de sample bena-dering (Wernimont & Campbell, 1968; Van der Flier, 1992; zie echter ookHofstee, 1991, p. 151). In het Nederlands spreken we over eigenschappenversus gedrag. Eigenschappen zijn relatief stabiele persoonskenmerken diebepaald gedrag (on)waarschijnlijker maken. De introverte persoon zal waar-schijnlijk niet opeens de gangmaker op een feestje zijn. Door het meten vaneigenschappen wordt het latere gedrag voorspeld. De twee belangrijkstetypen eigenschappen zijn intelligentie en persoonlijkheid. Er zijn duizendeninstrumenten ontwikkeld om cognitieve capaciteiten en persoonlijkheids-kenmerken te meten. Op het gebied van cognitieve capaciteiten (intelligen-tie) gaat het om eigenschappen als verbale intelligentie, abstractievermogen,numerieke aanleg, enzovoort. Bij persoonlijkheidskenmerken zijn diversevragenlijsten in zwang. Elk van deze vragenlijsten is gebaseerd op een(eigen) model. In het model wordt beschreven hoeveel en welke eigenschap-pen er gemeten worden en hoe de onderlinge relaties zijn. Een populairmodel staat bekend als de Big5: vijf onafhankelijk factoren waarmee ver-schillen tussen mensen in kaart gebracht kunnen worden (Hofstee et al.,1992, 1997; De Raad, 2000, 2002), maar er zijn ook modellen met twee,vier, zestien of twee-en-dertig eigenschappen.

Assessment is de tweede methode om de geschiktheid van mensen te bepa-len. Deze benadering berust op de gedachte dat gedrag van nu voorspellendis voor gedrag van morgen (Jansen, 1991; Jeanneret & Silzer, 1998; Seegers,1997). Wanneer iemand in een gesimuleerde beroepssituatie het bedoeldegedrag vertoont, wordt het waarschijnlijker dat hij dit gedrag ook in defunctie zelf zal vertonen (“What you see is what you get”). Bij de beoordelingwordt als het ware een steekproef (sample) getrokken uit het gedragsreper-toire van de persoon. Er wordt gevraagd het bedoelde gedrag tijdens eenassessmentoefening te vertonen en dit gedrag wordt beoordeeld door zoge-noemde assessoren, beoordelaars.

Het voorspellend vermogen – de predictieve validiteit – is een van debelangrijkste kenmerken van elke beoordelingsmethode. Hoe goed is demethode in het voorspellen van – in dit geval - beroepsprestaties? Dit wordtmeestal uitgedrukt in de vorm van een correlatie – een maat voor de samen-hang tussen twee variabelen. De correlatiecoëfficiënt loopt van –1.0 tot+1.0, waarbij +1.0 een perfecte positieve samenhang en –1.0 een perfectenegatieve samenhang betekent. Wanneer we een vijftal instrumenten op een

rij zetten ontstaat het volgende beeld:

Het voorspellend vermogen is het hoogste aan de beide uiteinden van hetcontinuüm. Intelligentie heeft een hoge voorspellende waarde ten aanzienvan arbeidsprestaties. De predictieve validiteit – uitgedrukt als de samen-hang tussen de test en de arbeidsprestaties in de vorm van een correlatie –ligt zo tegen de 0.50 (Schmidt & Hunter, 1998).Persoonlijkheidsvragenlijsten (waarbij op indirecte wijze naar gedraggevraagd wordt) scoren maximaal zo’n 0.20 en een goed uitgevoerd assess-ment center gaat weer naar de 0.50 (Arthur et al, 2003).

Wat betreft de acceptatie door kandidaten ligt dat anders. Veel mensen hou-den niet van intelligentietests (“wat heeft dat met het werk te maken”) maarvinden een realistische arbeidsproef of asssessmentoefening acceptabel alsselectiemethode.

Het verschil tussen beide benaderingen is de manier waarop data wordenverzameld. Bij psychometrische tests (inclusief persoonlijkheidsvragen-lijsten) gebeurt dit zonder tussenkomst van een menselijke beoordelaar.Tests zijn blind. De score komt tot stand door het hele testproces (afname,scoring, normering) te standaardiseren. Alle kandidaten maken hetzelfdeproces door en het maakt niet uit wie de test nakijkt. Ook het vergelijkenmet een normgroep gebeurt volgens vaste regels. Een computer kan het ook.Mogelijke problemen bij het gebruik van zelfbeschrijvende vragenlijstenzijn onder andere de (bewuste) vertekening door kandidaten bij het invul-len, het optreden van antwoordtendenties en het taalgebruik in de vragen.Bij intelligentie- en capaciteitentests kunnen minderheden of bepaalde groe-pen door het soort opgaven worden benadeeld, er kan sprake zijn van faal-angst en ook de keuze en grootte van normgroepen kan er voor zorgen dattestgebruik minder zinvol wordt.

Bij assessment is er per definitie wel sprake van een menselijke beoorde-laar. Hij observeert en beoordeelt het gedrag van de kandidaat. Hoe goed is de beoordelaar? Dit is de Achilleshiel bij assessment.

Intellig

entie

test

Capac

iteite

ntest

Persoonlij

kheid

Arbeid

spro

ef

Asses

smen

t

Eigenschap Gedrag

Page 4: Wouter Schoon Man Red e 27 Me i 2004

76

Beoordelen en beslissen

Het beoordelen van de omgeving, inclusief het gedrag van andere levendewezens, is van levensbelang voor elk dier en ook voor de mens. In denatuur zijn de meeste dieren permanent op hun hoede en beoordelen conti-nu het gedrag van andere wezens. In de mensenwereld doen wij niet anders.Ook daar is beoordelen van levensbelang. In het verkeer beoordelen wij hetgedrag van andere verkeersdeelnemers omdat de eigen veiligheid in hetgeding is. Wanneer we een onbekende tegenkomen is een snel oordeelgewenst: vriend of vijand? Dat gaat ons dan ook gemakkelijk af. In een paarseconden is een compleet oordeel geveld. Het snelle oordeel is niet alleeneen evolutionair voordeel gebleken; ook in het ingewikkelde, dagelijkseleven komt het goed van pas. We hoeven niet over alle situaties na te den-ken, we herkennen een situatie en reageren navenant. In situaties waar rol-len vastliggen, zoals bijvoorbeeld klant – winkelier, verloopt het oordelenmeestal adequaat. Er zijn twee rollen en een bijbehorend script dat voor-schrijft hoe beiden zich hebben te gedragen. We hebben vele van dezescripts paraat en het ontlast het brein van een hoop nadenken (Ross &Nisbett, 1991). Dit is efficiënt, want zelfs met selectie en snelle beoordelin-gen gebruiken de hersenen al 30% van alle energie (Dekkers, 1996). De bekende neuroloog Oliver Sacks (1985) beschrijft patiënten die niet instaat waren tot selectie en dus die alles om zich heen zeer intensief waar-namen en registreren: een volledige information overload is het gevolg.Selectie en “short cuts” behoeden ons dus voor krankzinnigheid. Het wordtnatuurlijk even lastig wanneer je voor een bepaalde situatie geen scriptvoorradig hebt, bijvoorbeeld bij contact met mensen uit een andere cultuur(Trompenaars, 1993). Zo ontving ik eens met een aantal collega’s eenJapanse delegatie. Wij wisten niet dat een begroeting in Japan hiërarchischverloopt (de hoogste in rang van beide partijen eerst) en dat daarbij het aan-bieden van een visitekaartje gepaard gaat met een buiging. We kenden hetscript niet. De consequentie was dat we nooit meer iets van deze Japannersgehoord hebben.

Waar we ook veel gebruik van maken, maar wat aanzienlijk meer beoorde-lingsfouten oplevert dan scripts en rollen, is stereotypering. Een stereotypeis een verzameling van verwachtingen over het gedrag van de ander, samen-gebald in een woord of een paar woorden. Een stereotype kan te maken heb-ben met de functionele relatie die we met de ander hebben, maar vaker gaathet om etiketjes die we door eigen ervaring of van anderen hebben geleerd.

Een stereotype is óók een tijdsbespaarder: op basis van een paar kenmerkenvan de ander, voorspel je heel veel meer andere eigenschappen of gedragin-gen. Een paar maanden geleden stond er een artikel in Businessweek (Barro,2003) waarbij uit de doeken gedaan werd dat werkgevers in Californiëgebruik maken van voornaamfrequenties om blanke van zwarte sollicitantenop basis van brieven voor te selecteren. Kandidaten met een typische zwar-te voornaam als Tyrone of Shanice werden niet uitgenodigd. Ook inNederland is discriminatie op basis van stereotypering meerdere keren aan-getoond. Stereotypering gebeurt op basis van allerlei kenmerken, ook kle-ding:

De president-commissaris Kreiken van Ahold is onder de indruk van dekennis van Van der Hoeven, vindt hem ‘een leuke vent’, maar constateertvol afgrijzen dat hij “kwastjes aan zijn schoenen heeft”.

Smit, 2004, p. 84

In dit voorbeeld gaat het om de benoeming van de hoogste baas van400.000 werknemers in een bedrijf met een beurswaarde van tientallen miljarden. Ook in het dagelijks leven is stereotypering een normaal procesbij het beoordelen van mensen.

In Nederland heeft Kouwer (1963) een leuk experiment gedaan met drievaasjes. Proefpersonen plakten moeiteloos adjectieven als “gezellig” (hetbolle vaasje), “nerveus” (langwerpig) of “vastberaden” (een wijduiteenlopendvaasje) aan deze dode objecten vast. Stereotypen op basis van lichaams-bouw zijn al zo oud als de mensheid, maar missen empirische steun.

De oude Grieken wisten al dat in het menselijk brein minimaal drie delenonderscheiden kunnen worden (vegetatief, dierlijk, verstandelijk of onbe-wust, emotioneel, rationeel). Vroon (1989) heeft de werking van onze herse-nen uitvoerig gedocumenteerd in De tranen van de krokodil. Vooral de evo-lutionair gezien oudere delen spelen ons soms parten wanneer we anderenbeoordelen. Het probleem is dat wij vaak subjectief zijn. Subjectief wil zeg-gen niet gebaseerd op harde feiten of een wijze van oordelen die idiosyncra-tisch – strikt individueel - is. Zo’n subjectieve beslissing is bijvoorbeeld diebij de keuze voor een levenspartner. Deze wordt meestal op romantischegronden genomen. Liefde is blind, zoals we zeggen. Zogenoemde verstands-huwelijken vinden West Europeanen bizar. Het beoordelen van de potentiëlepartner doen we dus ‘met ons hart’, of misschien wel met onze onderbuik.

Page 5: Wouter Schoon Man Red e 27 Me i 2004

98

Het resultaat is dat minimaal een op de drie beslissingen verkeerd blijkt tezijn, afgemeten aan het aantal echtscheidingen. In het Westen van het landligt dit cijfer dichter bij een op twee. Het aantal ongelukkige huwelijken datniet wordt ontbonden niet meegeteld.

Samengevat: de mens is toegerust met een aantal efficiënte hulpmiddelenzoals scripts en stereotypen die het proces van beoordelen en beslissenaanmerkelijk vereenvoudigen en het brein ontlasten van onnodig denk- enrekenwerk. Bij huis-, tuin- en keuken gebruik werkt deze manier over hetalgemeen goed, zij het dat hier ook kolossale blunders gemaakt worden. In een professionele context hebben we daar echter volstrekt onvoldoendeaan. Ons brein op de automatische piloot is onvoldoende toegerust ombeoordelingen met een hoge predictieve validiteit te maken. We hebbendus professioneel instrumentarium nodig.

Kansrekening en statistiek

Kansrekening en statistiek is bij veel mensen (studenten) niet populair.Het is ingewikkeld en we zijn er ‘van nature’ niet zo goed in, omdat we meerschatters dan tellers zijn. Schatten gaat sneller dan tellen en we kunnen hetover het algemeen goed. Denk maar aan de schaapherder uit de Bijbel dieniet verder dan tot drie kan tellen, maar die meteen ziet wanneer er eenschaap ontbreekt in een kudde van 100 schapen. Deze schaapherder hoeftniet te tellen en hij ontloopt meteen een paar statistische problemen.

Aan het gebruik van statistiek kleven een paar wetenschapstheoretische pro-blemen. Er zijn grofweg twee vormen van statistiek: de beschrijvende en detoetsende statistiek. Beschrijvende statistiek opgevat als ‘tellen’ gaat vaakover de frequentie waarin iets voorkomt. Toetsende statistiek gaat meestalover de vraag of waargenomen verschillen toevallig zijn of niet. Dat is hetterrein van het toetsen van hypothesen. Wim Hofstee heeft daar een elegan-te, maar weinig begrepen studie van gemaakt (Hofstee, 1980). Zijn conclusiekomt er op neer dat het “zo maar” toetsen van hypothesen – waarbij de “nul-hypothese” al dan niet verworpen wordt - niet zo’n zinnige bezigheid is. Eensimpel voorbeeld. Een wetenschapper publiceert een artikel waarin hij devraag stelt: Zijn Nederlandse mannen en vrouwen gemiddeld even lang?Vervolgens worden data geproduceerd waaruit blijkt dat mannen gemiddeld10 centimeter langer zijn. Deze data worden statistisch getoetst en danblijkt natuurlijk dat de nulhypothese (M = V) royaal verworpen wordt (p <0.01). Vraag was natuurlijk: zijn er “tegenstanders” te vinden die bereid zou-den zijn de hypothese M = V of zelfs M < V te ondersteunen. Nee natuurlijk.Hofstee pleit daarom voor het weddenschapsmodel: zoek een tegenstanderdie bereid is naam en faam op het spel te zetten door achter een hypothesete staan die diametraal tegenover jouw eigen hypothese staat. Maak vervol-gens afspraken hoe de ‘weddenschap’ (empirisch) beslist wordt. Op dezewijze ontstaat relevante kennis. Helaas wordt deze vorm van kennisverwer-ving niet toegepast. Met name sociale wetenschappers blijven ‘oninteressan-te’ hypothesen toetsen, met als gevolg dat in mijn vak – psychologie – jaar-lijks minstens 30.000 artikelen verschijnen met een beperkte waarde.Toetsende statistiek wordt pas nuttig wanneer er echt iets op het spel staat.

En dan nu de ‘simpele’, beschrijvende statistiek. Het belangrijkste punt bijbeschrijvende statistiek is wat je precies gaat tellen. Deze keuze bepaaltmede de uitkomst en daarmee het antwoord op de vraag. Een bekend voor-

Page 6: Wouter Schoon Man Red e 27 Me i 2004

1110

beeld is de werkloosheid in Nederland. In officiële cijfers worden soms deWAO-ers niet meegeteld. Dat kan een politicus goed uitkomen, bijvoorbeeldwanneer hij ons land wil vergelijken met andere Europese landen. In eenrecente Intermediair (22 april 2004) wordt de vraag gesteld of ons land“Meer of veel meer werklozen” telt:

Meer of veel meer werklozen?Het half miljoen werklozen is bereikt en de werkloosheid stijgt steedssneller. Dat meldde het CBS vorige week. Een half jaar geleden steeg de werkloosheid met achtduizend per maand, inmiddels komen er elkemaand veertienduizend werklozen bij, Vooral de jeugdwerkloosheid (15 tot 24 jaar) neemt rap toe. Dezelfde dag kwam het CWI met aanzien-lijk positiever nieuws: het aantal werklozen is nauwelijks gestegen. En de jeugdwerkloosheid daalt zelfs licht.

Intermediair, 22 april 2004, p. 17

Dit soort problemen – zijn er nu meer of minder werklozen – heeft natuur-lijk te maken met de manier van steekproeftrekking, de manier van tellen,enzovoort. Het geeft echter aan dat zelfs “tellen” niet eenvoudig is.

Een ander mogelijk probleem bij het gebruik van beschrijvende statistiek isdat de telmethode tussentijds wordt veranderd. Bepaalde waarnemingen tel-len op een bepaald moment wel of juist niet meer mee. Wanneer de politiebijvoorbeeld besluit dat fietsendiefstal niet meer tot de criminele feitengerekend moeten worden, dan ziet het er opeens een stuk beter uit met “de criminaliteit in Nederland”.

Weer een ander probleem ontstaat wanneer appels met peren worden verge-leken. Een paar weken geleden (in april 2004) werd een onderzoek bekendnaar de sterftecijfers in streekziekenhuizen vergeleken met academischeziekenhuizen. In academische ziekenhuizen is het sterftecijfer lager, zo zegt‘de’ statistiek. De conclusie lijkt dan al snel getrokken: academische zieken-huizen zijn kennelijk beter. De vergeten vraag is of de populaties in beidetypen ziekenhuizen wel vergelijkbaar zijn. Zijn het dezelfde soort patiën-ten? Hoe worden patiënten uit een streekziekenhuis die een ingewikkeldonderzoek van een dagdeel in een academisch ziekenhuis ondergaan geteld?Heeft de wijze van beloning van de specialisten (loondienst of zelfstandig)er iets mee te maken? Kortom, kun je beide typen ziekenhuizen überhauptwel vergelijken op basis van sterftecijfers? Waarschijnlijk niet.

Een ander voorbeeld uit de medische wereld: overlevingskansen.Ziekenhuizen houden data bij hoeveel patiënten met een bepaalde ziekte(en gevolgde therapieën) overleven. Op internet vind je sites waarbij je zelfde kans op overleven bij borstkanker kunt uitrekenen wanneer je bepaaldetherapieën wel of niet doet. Probleem is natuurlijk dat mensen die de ziektehebben, maar niet meedoen aan een therapie van het ziekenhuis niet meege-teld worden. “Wanneer u chemotherapie doet, heeft u een kans van 58% datu over tien jaar nog leeft.”, is dus gebaseerd op ziekenhuis data, of althansmensen die geregistreerd zijn en waarbij de doodsoorzaak eenvoudig vastte stellen is. Maar hoeveel kans heb ik als kankerpatiënt wanneer ik niets –of iets anders - doe? En trouwens wat betekent “nog leeft” precies? Is daarde kwaliteit van het leven in verdisconteerd? Definiëren en tellen zijn duswezenlijke problemen bij de zogenoemde ‘objectieve statistiek’ (Huff, 1961,1965).

We gaan even terug naar het stereotyperen en combineren dat met kansreke-ning: Judith is drie-en-twintig en vrij assertief. Met summa cum laude heeftze haar doctoraal politicologie behaald en tijdens haar studietijd was zenauw betrokken bij allerlei studentenacties, vooral waar het demonstratiestegen rassendiscriminatie en kernenergie betrof. Welke bewering is waar-schijnlijker?a.) Judith werkt als wetenschapper bij een universiteit.b.) Judith werkt als wetenschapper bij een universiteit en is actief in de

vrouwen-beweging.

De meeste mensen kiezen voor b.) maar dit is natuurlijk onjuist want dekans dat een enkelvoudige bewering waar is, is altijd groter dan de kans dattwee nevengeschikte beweringen waar zijn (zie ook Paulos, 1988).

Veel mensen hebben zin noch tijd om allerlei dagelijkse problemen (zoalsverzekeringen, pensioenen, beleggingen, ziektes, school- en beroepskeuzes)door te rekenen en gebruiken bij statistische problemen snelle oplossingen.Alles uitrekenen kost immers teveel tijd. Stel uw buurman doet u het vol-gende voorstel (ontleend aan Huff, 1965):

Ik heb hier een euro. We gooien hem allebei een keer op, waarbij ik begin.Als het één van de keren munt is, win ik, anders win jij. We spelen om eeneuro per keer. U denkt na en u zegt: nee, dat lijkt me niet eerlijk. Er zijnnamelijk drie uitkomsten: jij gooit munt, ik gooi munt of we gooien

Page 7: Wouter Schoon Man Red e 27 Me i 2004

1312

allebei kruis. In twee van de drie gevallen win jij. Okay, zegt de buurman.Dat klopt. Daarom betaal ik jou twee euro als jij wint en jij mij slechts ééneuro als ik win. Gaat u op deze deal in?Dit probleempje is niet zo moeilijk. Er zijn weliswaar drie mogelijkheden,maar die hebben niet dezelfde waarschijnlijkheid. Het enige wat u moetdoen is de kans op twee keer kruis uitrekenen (dan wint u namelijk), wateen herformulering van het probleem betekent. Die kans is natuurlijk 0.5 x0.5 = 0.25. Uw buurman heeft een drie keer grotere kans om te winnen danu. Als u dus op de deal van uw buurman ingaat, verliest u. Als u honderdkeer met het geldstuk werpt is uw te verwachten verlies vijfentwintig euro(75 x y 1,- voor de buurman minus 25 x y 2,- voor u).

Een volgend statistisch probleem gaat over koektrommels (en over voor-waardelijke kansen).Er zijn twee trommels A en B met koekjes. In A zitten 10 chocolade en 30 vanille koekjes.In B zitten 20 van beide soorten.U kiest willekeurig (blind) een trommel en neemt willekeurig een koekje. Het is een vanille.Hoe groot is de kans dat u uit trommel A genomen heeft?In een plaatje ziet dit probleem er zo uit (het licht gekleurde koekje is‘vanille’):

Veel mensen kiezen in zo’n geval voor een schattende oplossing:De kans op een vanille koekje in het geval van A = 30/40 = 75% De kans op een vanille koekje in het geval van B = 20/40 = 50%Als ik een vanille koekje tref is A dus waarschijnlijker.

Weet je wat?Ik ga er tussenin zitten: 62.5%

De juiste oplossing van dit probleem loopt via het zogenoemde theoremavan Bayes (rond 1750). Dit theorema houdt rekening met voorwaardelijkekansen en heeft als formele schrijfwijze:

p(A|B)=

Hier staat: de kans op A gegeven B is gelijk aan de kans op B gegeven Amaal de kans op A gedeeld door de kans op B.

In het voorbeeld kunnen we dit herschrijven als:

p(A|vanille)=

Hier staat:De kans op trommel A gegeven een vanille koekje is gelijk aan:

de kans op trommel A maal de kans op een vanille koekje gegeven Agedeeld doorde kans op trommel A maal de kans op een vanille koekje gegeven A plusde kans op trommel B maal de kans op een vanille koekje gegeven B

Wanneer we deze formule invullen ontstaat:

=

=

=

De uitkomst hiervan is 0.6 oftewel 60% kans.

10 30

A B

20 20

?

p(B|A)•p(A)p(B)

p(A)•p(vanille|A)p(A)•p(vanille) + p(B)•p(vanille|B)

50%•75%50%•75% + 50%•50%

37.5%37.5% + 25%

37.5%62.5%

Page 8: Wouter Schoon Man Red e 27 Me i 2004

1514

Wanneer we afzien van die mensen die het vraagstuk niet begrijpen, of dieer van uitgaan dat de waarschijnlijkheid bij twee trommels dus 50% is, danblijkt dat het verschil tussen de houtje-touwtje oplossing en de statistischeoplossing niet zo groot is: 62.5% versus 60%.

Ook dit is niet zo’n moeilijk probleem. Iedereen voelt op z’n klompen aandat trommel A waarschijnlijker is dan B, maar dat er ook een gerede kansis dat het vanille koekje toch uit B komt.

Wanneer we een volgende probleem bij de kop pakken raken veel mensenhet spoor bijster (zie Tversky & Kahneman in de referenties).

De medische testEr is een ziekte die bij 1 op de 1000 mensen voorkomt (0.1%). Er is een test voor deze ziekte.Wanneer de test een ‘positieve’ uitslag geeft is de kans dat iemand ookdaadwerkelijk de ziekte heeft 99%.Wanneer de test een ‘negatieve’ uitslag geeft is de kans dat iemand de ziektedaadwerkelijk niet heeft 95%.Er is dus sprake van een erg nauwkeurige test.Stel nu dat iemand de test ondergaat en een ‘positieve’ uitslag krijgt. Hoe groot is dan de kans dat hij de ziekte ook daadwerkelijk heeft.

De meeste mensen schatten deze kans rond of boven de 90%.De werkelijke kans is nog geen 2%!

We zullen het even narekenen via het theorema van Bayes:

= = 0.01943

In de teller staat de kans op de ziekte gegeven een positieve uitslag maal denormale kans op aanwezigheid van de ziekte. In de noemer komt dezelfdeterm voor maal de kans op het wel aanwezig zijn van de ziekte bij een nega-tieve uitslag maal de kans op de normale kans op afwezigheid van de ziekte.

Een tabel is hier wellicht duidelijker dan een formule (met dank aan Wim Hofstee, 2004). Stel er zijn 100.000 mensen met deze test getest. Dan ontstaat het volgende beeld:

99%•0.1%99%•0.1% + 5%•99.9%

Ziekte wel Ziekte niet Totaal

Test positief 99 4.995 5.094Test negatief 1 94.905 94.906

100 99.900 100.000

Hier staat precies hetzelfde. In de onderste regel van de tabel staat de “baserate”: de aanwezigheid van de ziekte in de gehele populatie. Deze was 0.1%oftewel 100 mensen op 100.000. In de linkerkolom staat de nauwkeurigheidvan de test wanneer iemand wel ziek is. Inderdaad worden 99 van de 100zieke mensen correct geclassificeerd. In de middelste kolom gaat het mis.Weliswaar wordt 95% (94.905 / 99.900) correct geclassificeerd als niet ziek,maar ook 4.995 mensen als wel ziek terwijl zij het niet zijn. Om op eenpopulatie van 100.000 mensen – via de test – 99 mensen correct te dia-gnosticeren op de aanwezigheid van de ziekte, worden ongeveer 5000 men-sen incorrect geclassificeerd als ziek. Wanneer we de tabel nog iets vereen-voudigen – door enige afrondingen – ziet het er zo uit:

Ziekte wel Ziekte niet Totaal

Test positief 99 5.000Test negatief 1 95.000

100 100.000 100.100

Hier is nog duidelijker te zien dat een goede test (99% en 95% correcte clas-sificaties) toch een relatief groot aantal zogenoemde false positives (mensendie ten onrechte als ziek worden gediagnosticeerd) oplevert.

Hoe komt het dat mensen bij extreem grote waarschijnlijkheden, gecombi-neerd met extreem kleine waarschijnlijkheden gemakkelijk (grote) foutenmaken?

In de literatuur wordt dit toegeschreven aan het negeren van de base rate,de al aanwezige kans dat iets wel of niet aanwezig is of gebeurt. Wanneereen test in 99% van de werkelijke gevallen het bij het rechte eind heeft,wordt vergeten dat dit hoge getal uitsluitend betrekking heeft op die 1 pro-mille van werkelijke gevallen met de betreffende ziekte. Voordat de test isgedaan, heeft de persoon 99.9% kans dat hij de ziekte niet heeft. Overigensis de kans bij een positieve test dat de persoon de ziekte wel heeft met defactor 20 toegenomen (van 0.1% naar 2%). U kunt dit voorbeeld rustig door-

Page 9: Wouter Schoon Man Red e 27 Me i 2004

1716

trekken naar alcoholcontrole in het verkeer, personeelselectie, het beoorde-len van de kans op recidive bij psychopathische criminelen of de kans oplongkanker door roken (“rokers hebben drie keer zoveel kans om dood tegaan aan longkanker”). U kunt zich wapenen tegen het trekken van een verkeerde conclusie door altijd naar het gehele plaatje te vragen. Dat wilzeggen dat u alle vier kwadranten van de tabel moet zien:

Aanwezig Ja NeeTest

Positief True positive False positiveNegatief False negative True negative

Een ander medisch statistisch experiment is gedaan door Tversky (zieBernstein, 1996). Hij vroeg aan 120 graduate studenten van StanfordUniversity de kans op een bepaalde doodsoorzaak te schatten. Ik geef toe,dit is Amerikaans onderzoek, maar kijkt u naar de verschillen tussen desubjectieve schatting en de statistische gegevens. In onderstaande tabel de resultaten:

Oorzaak Studenten Statistiek

Hartaanval 0.22 0.34Kanker 0.18 0.23Andere natuurlijke oorzaken 0.33 0.35Alle natuurlijke oorzaken 0.73 0.92Ongeluk 0.32 0.05Moord 0.10 0.01Andere onnatuurlijke oorzaken 0.11 0.02Alle onnatuurlijke oorzaken 0.53 0.08

Ik vind de schattingen over de kans op een hartaanval, kanker en anderenatuurlijke oorzaken zo slecht nog niet. Het gaat een beetje mis wanneer jekijkt naar de (totale) kans op een natuurlijke dood (92%) en de schatting vande studenten (73%). De onderschatting bedraagt met 92/73 ongeveer 25%.De kans op een ongeluk of een moord wordt zes respectievelijk tien keer te hoog geschat. De verwachting van de studenten dat je een onnatuurlijkedood sterft is groter dan 50%, terwijl dit in werkelijkheid slechts 8% is. Een laatste constatering is dat de optelling van natuurlijke en onnatuurlijkedoodsoorzaken ver boven de 100% ligt, wat per definitie niet kan. Een van de verklaringen is dat mensen overschattingen maken wanneer een

gebeurtenis aansprekend (“salient”) is. Bijvoorbeeld bij doodsoorzaken is ermeer (media) aandacht voor ongelukken en moorden dan voor de 92% men-sen die aan een natuurlijke oorzaak sterft. Hierdoor wordt de kans op over-schatting van het voorkomen van bijzondere doodsoorzaken groter.

Kahneman is een van de weinige psychologen (misschien wel de enige) dieooit een Nobelprijs heeft gewonnen. Zijn prijs, in 2002, was voor Economie(er bestaat geen Nobelprijs voor psychologie) omdat hij liet zien hoe irratio-neel mensen kunnen handelen wanneer het gaat om economische beslissin-gen. De uit de hand gelopen tulpenhandel in eigen land van een paar eeu-wen terug, de beurskrach van 1929 die de opmaat vormde voor de crisisvan de jaren dertig, en de recente dotcom hype laten zien dat mensen – ookin een zakelijke context – irrationeel kunnen handelen en zich niet doorobjectieve gegevens laten leiden. Het Aholddrama is ontstaan doordat ieder-een geloofde in het agressieve overnamebeleid. Er werden enorme bedragengeleend om bedrijven te kopen en dit werd gerechtvaardigd door de te ver-wachten hogere beurskoers. “We have the licence to print money”, aldus deAholdtop (Smit, 2004).

Een ander voorbeeld van merkwaardig gedrag is ook van Kahneman:Wanneer mensen de keuze krijgen tussen het zeker winnen van y1.000,- of een 50% kans op het winnen van y2.500,- (of niets) kiezen veel mensenvoor de duizend euro, terwijl probabilistisch gesproken de keuze voor y2.500,- een verwachte uitkomst van y1.250,- heeft. Deze keuze valt te ver-klaren. Mensen vermijden risico en gaan voor zekerheid. Bij een vergelijk-bare keuze - je verliest zeker y1.000,-, of je hebt een kans van 50% om nietsof y2.500,- te verliezen - kiezen veel mensen voor het riskantere tweedealternatief (waarbij de verwachte uitkomst min y1.250,- is). Een merk-waardig fenomeen: mensen willen graag zekerheid wanneer er iets te win-nen valt, maar gaan gokken wanneer er iets te verliezen valt. In deNederlandse taal kun je dit herkennen door de uitspraken “binnen isbinnen” en de tegenhanger “niet geschoten is altijd mis”.

Page 10: Wouter Schoon Man Red e 27 Me i 2004

1918

Misschien kent u dit puzzeltje. De vraag is: hoeveel vierkanten ziet u?

Veel voorkomende antwoorden zijn: 16, 17, 21, 22, 26. Het juiste antwoordis echter 30. Dat komt omdat ook het vierkant van 4x4 en de vierkanten van2x2 meegeteld moe-ten worden (9 in totaal), en bovendien de vier vier-kan-ten van 3x3. Veel mensen geven een verkeerd antwoord op deze vraag. Hetprobleem is niet eens dat mensen moeite hebben met dit soort puzzels,hoewel het wel aangeeft dat ook een eenvoudige observatie taak niet zo een-voudig is.

Het werkelijke probleem ontstaat wanneer in een groep de meerderheid hetverkeerde antwoord als het juiste beschouwt, zoals bij het bovenstaandepuzzeltje meestal het geval is. Het geeft de feilbaarheid van beoordelingenweer, zelfs bij een relatief simpele taak en ook wanneer er meerdere beoor-delaars bij betrokken zijn. In dit geval doet het er niet toe of er al dan geensprake is van overleg, dat wil zeggen al dan geen onafhankelijke beoordelin-gen. De meerderheid heeft niet altijd gelijk!

In de praktijk wordt dit probleem meestal omzeild door niet iedereen alsbeoordelaar toe te laten. De curricula binnen de Instituten en Academiesvan Saxion worden ook niet samengesteld door iedereen er over mee telaten praten. Een curriculum komt tot stand door een groep deskundigen.Maar ook het nauwkeurig selecteren van beoordelaars biedt geen garantietot succes.

In Linschoten (1964) wordt een experiment beschreven dat Goldfarb (1959)met vier psychologen deed. Deze vier psychologen werden gekozen op basis

Alleen of samen

Mijn leermeester Wim Hofstee heeft een boek over beoordeling geschrevenonder de titel Principes van beoordeling. Uit het boek leren we dat de over-eenstemming tussen beoordelaars uitgedrukt als correlatie ligt tussen de0.10 en 0.25 (zie ook Eggen & Sanders, 1993). Een schamel resultaat datHofstee dan ook als “onvoldoende” beoordeelt (!). In een schoolcijfer uitge-drukt krijgt ‘de’ beoordelaar van hem een ‘4’ (+ of –1). Een correlatie van0.25 (het maximum van Hofstee) ziet er – in tabelvorm – bijvoorbeeld zo uit:

Student Beoordelaar 1 Beoordelaar 2 Uitslag

A 3 4 gezaktB 4 3 gezaktC 7 5 ?D 7 5 ?E 4 6 ?F 5 8 ?G 5 6 ?H 6 4 ?I 6 8 geslaagdJ 8 6 geslaagd

Wanneer de tien studenten (A t/m J) door twee beoordelaars worden beoor-deeld, is er in dit voorbeeld met een correlatie van 0.25 in ongeveer 40%van de gevallen overeenstemming over ‘slagen / zakken’ (waarbij de cesuurligt op 5.5). De individuele beoordelaar is dus kwetsbaar. Mensen weten dit(meestal) van zichzelf en bij belangrijke beslissingen wordt dan ook vaakeen ander geraadpleegd of er wordt een commissie gevormd. Dit is in hetalgemeen een goede strategie, leren we van Hofstee. Twee weten meer daneen. Door het eigen oordeel te confronteren met het oordeel van de anderkan de beoordelaar zich bewust worden van de eigen beperkingen. Bij eentest geldt meestal hoe meer items, hoe betrouwbaarder. Dat geldt ook voorbeoordelaars. Toevoegen van meer (onafhankelijke) beoordelaars bij eenbeoordeling verhoogt vaak de betrouwbaarheid. Dit verloopt wel asympto-tisch, de winst van het toevoegen van meer beoordelaars wordt steeds kleiner.De oplossing van het probleem van de kwetsbare beoordelaar lijkt dus een-

voudig. Voeg meer beoordelaars toe en het oordeel wordt beter. Toch schuiltook hier nog een forse adder onder het gras.

Page 11: Wouter Schoon Man Red e 27 Me i 2004

2120

van deskundigheid en vergelijkbaarheid. Zij bezaten dezelfde graad, dezelf-de werkervaring en werkten in dezelfde organisatie. Hun psychodiagnosti-sche vaardigheid was ook vergelijkbaar en zij gebruikten allemaal deDiagnostic and Statistical Manual for Mental Disorders, de standaard bij hetdoen van klinische psychodiagnostiek. Deze vier psychologen hadden elk 25diagnostische rapporten gemaakt, in totaal 100 rapporten. De vier psycholo-gen (A t/m D) kregen deze 100 geanonimiseerde rapporten te beoordelen ener werd hen naar een diagnose gevraagd, te kiezen uit vijf categorieën. In de tabel het onthutsende resultaat:

Categorie A B C D Totaal %

Psychofysiologisch 13 2 16 3 34 9Psychoneurotisch 26 30 6 31 93 23Psychotisch 16 15 14 19 64 16Personality 40 47 59 38 184 46Hersenletsel 5 6 5 9 25 6Totaal 100 100 100 100 400 100

Overgenomen uit Linschoten, 1964, p. 124-125

Uit de tabel blijkt bijvoorbeeld dat de psychologen A en C de diagnose‘psychofysiologisch’ aan 13 respectievelijk 16 gevallen toekennen, terwijl Ben D dit voor 2 respectievelijk 3 gevallen doen. Psycholoog C ziet opmerke-lijk weinig ‘psychoneurotici’ (namelijk 6) terwijl de anderen zo rond de 30zitten. Enzovoort. Uiteraard is de tabel statistisch getoetst en de hypothese“de psychologen oordelen gelijk” kon royaal worden verworpen. Het opmer-kelijke is dat dit getrainde beoordelaars zijn waarbij het materiaal ook nogeens deels van henzelf afkomstig is. Bovendien was het te beoordelen mate-riaal op papier vastgelegd. Hinderlijke verstoringen als ‘indrukken’ engevoelens speelden bij deze beoordelingstaak geen noemenswaardige rol.Als dit soort getrainde psychologen al van elkaar afwijken, hoe zou het danzitten met de andere beoordelaars om ons heen? “Het centrale uitgangspuntis dat beoordelaars feilbaar plegen te zijn, en dat dus naar handgrepenmoet worden gezocht om die feilbaarheid te compenseren.” (Hofstee, 1999,p. 57).

Toetsen en gedragsproeven

Het wordt tijd de definitie van ‘assesssment’ aan te scherpen. Een simpelevertaling als ‘beoordeling’ voldoet niet en zet de deur wagenwijd open voorallerlei vormen van ‘assessment’ die net zo goed ‘beoordeling’ kunnen blij-ven heten. Assessment reserveer ik voor die beoordelingsmethode waarbijconcreet gedrag ‘in vivo’ in een beroepsrelevante context wordt beoordeeld.De ‘beroepsrelevante context’ kan zowel ‘echt’ zijn of bestaan uit een simu-latie (zoals bij Assessment Centers). Voor die vorm van assessment hanteerik vanaf nu de term ‘Gedragsproef’.

De terechte vraag is wat wij ons bij Saxion op de hals halen om beroeps-competenties in het hoger onderwijs - via gedragsproeven - te willen gaanbeoordelen. De menselijke beoordelaar is – zo blijkt – nogal feilbaar: beoor-delen op deze wijze vergt veel tijd en moeite en de alternatieven zijnbeschikbaar: het werkstuk, de ondervraging, het portefolio, de kennistoets.

Om met het werkstuk en de ondervraging te beginnen: hiervoor geldt het-zelfde probleem als met alle menselijke oordelen. Beoordelaars zullen vanelkaar afwijken wanneer er geen strikte maatregelen worden genomen(standaardisatie, scoringsvoorschrift, vaste cesuur, meerdere beoordelaars).Dit maakt deze methoden overigens niet onbruikbaar. Ze zijn geschikt wan-neer men een eindresultaat van een leerproces wil beoordelen. In het eind-resultaat komt een deel van de leerstof samen. Bij een werkstuk is dit eenconcreet product, waarbij over het totstandkomingsproces niet veel bekendhoeft te zijn. Bij een ondervraging is het wel mogelijk iets over de maniervan denken en doen te weet te komen. Maar het oordeel blijft in beidegevallen lastig.

Het portfolio wint aan populariteit, onder meer onder invloed van de EldersVerworven Competenties (EVC) gedachte. Kandidaten worden daarbij – netals een kunstschilder of een architect – geacht bewijzen te verzamelen overaanwezige ‘competenties’. De problemen met het beoordelen van zo’n port-folio zijn gigantisch: iedere kandidaat heeft een unieke verzameling‘bewijsstukken’: in welke mate zijn deze terug te voeren op daadwerkelijkeprestaties van de kandidaat en hoe moet de afweging plaatsvinden? Eenportfolio kan bovendien nogal omvangrijk zijn: mag van de beoordelaar(s)verwacht worden dat alles nauwgezet gelezen en gewogen wordt? Bij debeoordeling van een portfolio is elke vorm van standaardisering – zowel inhet materiaal als in de toe te passen regels – zoek. Beoordelaarsfouten zijn

Page 12: Wouter Schoon Man Red e 27 Me i 2004

2322

erg waarschijnlijk, hoewel er pogingen worden ondernomen de beoordelaarte voorzien van ‘scoorbare’ hulpmiddelen (Straetmans, 2004).

Een kennistoets heeft – net als een psychometrische test – het voordeel datde beoordeling van het resultaat gemakkelijker te objectiveren is en dat hetweinig tijd kost. Zeker bij multiple choice toetsen is de kwaliteit van eentoets relatief eenvoudig vast te stellen door toepassing van bekende statisti-sche technieken. Helaas gebeurt dit niet systematisch in het onderwijs.Toetsen worden vaak ad hoc gemaakt en niet in itembanken voor hergebruikbeschikbaar gesteld. Dit is zonde van de energie.

Welke toetsvorm is in welke situatie het meest geëigend? Het antwoord opdeze vraag is wellicht te vinden via het begrip competentie. Al een jaar oftien wordt dit begrip binnen de overheid en het bedrijfsleven gebruikt bijHuman Resource Management (Altink et al, 2004). De term heeft dezelfde‘wazigheid’ als ‘assessment’. Het abstractieniveau kan sterk verschillen(‘luisteren’ en ‘leidinggeven’, bijvoorbeeld) en het aantal competenties isgigantisch. Er zijn tientallen definities van ‘competentie’, maar een van deeenvoudigste is:

Een competentie is een mix van Kennis, Vaardigheden en Attitudes diesuccesvol gedrag in een beroepssituatie mogelijk maakt.

Voor succesvol beroepsgdrag moet je zaken Weten, dingen Kunnen en hetgedrag ook op een bepaalde wijze Willen vertonen. De keuze van de toetsvorm kan afhankelijk gemaakt worden van de samen-stelling van de competentie. Sommige competenties lenen zich meer vooreen gedragsproef, andere minder:

Competentie Voorbeeld

Luisteren o o o o o o Interviewsimulatie jaVergadering leiden o o o o o Projectvergadering jaTest afnemen o o o o Arbeidsproef jaAnalyseren o o o o Balans lezen neeSterkte berekenen o o o o Tentamen neeSchrijven o o o o o Opstel neeEnzovoort...

Ken

nis

Vaa

rdig

hed

en

Att

itu

de

Ged

ragsp

roef

In dit schema wordt van een aantal (willekeurige) competenties weergegevenwelke mix van Kennis, Vaardigheden en Attitudes noodzakelijk is. Hoe datprecies moet is niet bekend, maar waarschijnlijk komt een groep terzakekundige docenten een heel eind. Wanneer elk Instituut of Academie eenschema opstelt van de aan te leren competenties en er de kolommen Kennis,Vaardigheden en Attitude aan toevoegt, dan wordt het gemakkelijker vast testellen of een gedragsproef of een andere toetsvorm het meest geëigend is.In het algemeen zal het zo zijn dat een gedragsproef het meest geëigend isbij die competenties waarbij het gaat om een (sociaal) proces of gedrag enniet om een concreet, tastbaar product. Competenties bovendien waarbij hetgedrag alleen beoordeeld kan worden in interactie met anderen, lenen zichhet meest voor beoordeling via gedragsproeven.

Een willekeurig en niet volledig lijstje met dergelijke ‘sociale’ competentiesis bijvoorbeeld:

Een op een Een versus groep Binnen een groep

Interviewen Leidinggeven SamenwerkenOnderhandelen Presenteren Verantwoordelijkheid nemenCoachen Coördineren OrganiserenBeoordelen Adviseren Netwerkenenz.

Wat opvalt bij bovenstaand voorbeeldlijstje is dat het hier geen beroepsspe-cifieke competenties betreft, het zijn generieke HBO- of zelfs WO-competen-ties. Dat is geen toeval maar heeft te maken met een visie over het lectoraaten de bijbehorende kenniskring.

Page 13: Wouter Schoon Man Red e 27 Me i 2004

2524

Kenniskring en lectoraat

Bij elk lectoraat in het HBO kan een kenniskring worden gevormd. Een ken-niskring kan bestaan uit interne en externe mensen die deskundig zijn (ofwillen worden) op het betreffende gebied. Bij het lectoraat Assessment isondertussen een kenniskring gevormd bestaande uit medewerkers vanSaxion Hogescholen. De namen zijn: Piet Hendriks, Marian Kienhuis, Ard vander Oord, Hans van der Stam, Caroline Timmers (en ikzelf). Deze zomer zaler een grotere kring aan worden toegevoegd, waarbij ook externe mensengevraagd zullen worden deel te nemen.

De Kenniskring Assessment: vlnr: Caroline Timmers, Piet Hendriks,Wouter Schoonman, Ard van der Oord, Hans van der Stam, Marian Kienhuis

De kenniskring heeft tot taak het ontwikkelen en beschikbaar maken vanassessment instrumenten, hier opgevat als ‘gedragsproeven’. Daarnaastwordt van ons onderzoek en het beschikbaar maken van kennis op hetgebied van assessment verwacht.

De totale omvang van de kenniskring plus lectoraat beslaat 1.6 FTE (fulltime equivalent). Met deze capaciteit moeten zo’n 17.000 studenten vanSaxion worden ‘bediend’. Dat is 0.0001 FTE per student. Om deze reden isdoor de Stuurgroep (de opdrachtgevers) besloten om de ontwikkelinspan-ningen te concentreren en de resulterende producten zo breed mogelijkinzetbaar te maken. Concreet betekent dat de kenniskring zich dit kalender-

jaar zal richten op de eerder genoemde ‘generieke’ competenties en bijbeho-rende gedragsproeven. Op deze manier profiteert een zo groot mogelijkegroep binnen (en buiten) Saxion Hogescholen van de inspanningen. Daarkomt nog bij dat de aparte instituten en academies geen eigen inspanningenhoeven te doen, maar de door ons ontwikkelde gedragsproeven zo “uit dekast kunnen trekken”. Wat nog wel locaal – per opleiding of Instituut – moetgebeuren, is de betreffende gedragsproeven aanpassen aan de eigenberoepscontext. Zo zal de inhoud van bijvoorbeeld een presentatie – waarbijde competentie ‘presenteren’ beoordeeld wordt via een al beschikbaregedragsproef – verschillen per opleiding. Een student Verpleegkunde houdteen andere presentatie dan een student Bouwkunde. Dit type producten–gedragsproeven die aangepast kunnen worden aan de beroepscontext – wilde kenniskring Assessment de komende periode gaan ontwikkelen.

Andere producten die vanuit de kenniskring zijn te verwachten, bestaan uiteen ‘Handboek Assessment’, beter gezegd ‘Handboek Gedragsproeven’ eneen bijbehorende DVD waarin uitgelegd wordt hoe een goede gedragsproefontwikkeld en gebruikt moet worden. Een vierde product zal bestaan uit eenassessor-training. Een training waarin mensen binnen en buiten Saxion kun-nen leren hoe je als assessor tot een goede beoordeling van het gedrag(competenties) van studenten / kandidaten kunt komen. Ook ouderejaarsstudenten zullen in aanmerking voor de rol van assessor, bij voorkeur ineen vorm van uitwisseling tussen instituten.

Samengevat: vanuit de kenniskring wordt gewerkt aan een pakketje hulp-middelen (‘tools’) dat het beoordelen van generieke competenties gemakke-lijker maakt. Het pakket omvat in ieder geval:

• Handboek• Video of DVD• Training• Kant-en-klare oefeningen

Dit pakket zal ter beschikking komen voor Saxion, maar ook voor zuster-hogescholen, ROC’s (Regionale Opleidings Centra) en het bedrijfsleven/overheden (met name stage verlenende organisaties).

Page 14: Wouter Schoon Man Red e 27 Me i 2004

2726

Oriëntatie en selectie

Binnen het HBO-onderwijs geldt dat het eerste jaar (de propedeuse) gebruiktdient te worden als oriëntatiemogelijkheid voor de student en als selectie-periode voor de instelling. De student krijgt de mogelijkheid kennis temaken met het beroep(sveld) en de instelling kan beoordelen of de studentover de juiste motivatie, een voldoende intellectueel niveau en de gewenste(studie)houding beschikt. Even afgezien van de beoordelingsproblematiek isdeze dubbele doelstelling van het eerste studiejaar zinnig. Het biedt beidepartijen de mogelijkheid tot selectie en bij een dubbel positief besluit zijnbeide partijen aan elkaar gecommitteerd de eindstreep te halen.

Vanuit de selectie- en beoordelingsliteratuur valt over deze werkwijze hetvolgende op te merken.

Zelfselectie is een zeer efficiënte en transparante methode om de kwaliteitvan het aanbod (gezien vanuit de opleiding) en de satisfactie van de toegela-ten studenten te verhogen. Het belangrijkste wat hiervoor nodig is, is een‘realistic job preview’. Stel de student in staat zich een zo realistisch moge-lijk beeld van zowel de (gehele) studie als het uiteindelijke beroep te vor-men. Zelfselectie is een gegarandeerde manier om het rendement van deopleiding en de tevredenheid van de student te vergroten.

Dan de selectie door de opleiding na het eerste studiejaar. Hier komt veelvan het bovenstaande samen. Allereerst vertalen we de beslissing in een uti-litair selectievraagstuk. De vraag daarbij luidt: is de verwachting dat dezestudent binnen de gestelde periode het einddiploma behaalt? In financiëletermen kan de vraag geherformuleerd worden als: Is het te verwachten datde investering die wij als onderwijsinstelling moeten doen om deze studenthet diploma te laten behalen, kleiner (of minimaal gelijk) aan de vergoedingdie ontvangen wordt voor een gediplomeerde? En opnieuw komt beoorde-ling om de hoek kijken: op welke wijze beoordeel je de waarschijnlijkheidof een student de eindstreep zal halen?

In de selectieliteratuur vinden we dat bij grootschalige selectie het ‘trechter-model’ het best voldoet. In dit trechtermodel (‘getrapte selectie’) geldt datde goedkoopste en meest efficiënte selectiemethoden als eerste worden toe-gepast. Dit zijn niet per se de methoden met de hoogste predictieve vali-diteit.

Wanneer we dit vertalen naar elke opleiding binnen het HBO dan ligt hetvoor de hand om dure onderwijs- en beoordelingsmethoden niet in hetbegin van de opleiding te gebruiken. Een schema dat ontwikkeld is binneneen aantal Instituten en Academies van Saxion laat gedurende de opleidingeen langzame verschuiving zien in het soort zaken dat onderwezen enbeoordeeld wordt:

In de beginperiode is dit vooral Kennis en daarnaast enkele basisvaardig-heden en -attitudes. In het middengedeelte gaat het voornamelijk overVaardigheden en Attitudes en aan het einde komen Kennis, Vaardigheden en Attitude samen in de vorm van de eerder beschreven Competenties.

Deze opzet heeft tal van voordelen voor zowel Onderwijs als Toetsing.Het is redelijk te veronderstellen dat in elk beroep een minimum aan Kennisnoodzakelijk is. Concentratie van het bijbrengen hiervan in de beginperiodelijkt logisch. Dit kost relatief weinig inspanning en de beoordeling (kennis-toets) is eenvoudig. Het beoordelen tijdens deze eerste periode geeft ookindicaties over het intellectuele niveau en de studiemotivatie van de stu-dent. Beide zijn dus valide indicatoren over de te verwachten studiepresta-

Voorlichting over beroep

Kennis

Vaardigheden / Attitudes

Competenties

Vaardighedenen Attitudes

CompetentiesKennis

Verloop in de tijd

Page 15: Wouter Schoon Man Red e 27 Me i 2004

2928

ties in de toekomst. In de praktijk bij Saxion komt dit neer op het stellenvan de eis van een minimum aantal studiepunten in het eerste jaar. Dit lijkteen goede oplossing voor het (goedkoop) beoordelen van grote aantallenstudenten in het eerste jaar. Overigens is dit geen nieuwe oplossing. Binnenhet WO worden in het eerste jaar ‘horden’ opgeworpen met een selectievefunctie: Rechtenstudenten worden geconfronteerd met het vak RomeinsRecht, medicijnenstudenten kennen het beruchte ‘botjes-tentamen’ enpsychologen in spe moeten enig benul hebben van statistiek (!), genetica enfilosofie. Een prima manier om op relatief goedkope wijze het rendementvan een opleiding te vergroten. De relevantie van deze vakken hoeft nieteens de doorslaggevende factor te zijn, bezien vanuit een selectieperspec-tief.

In het plaatje hierboven kan dan ook een pijl worden toegevoegd die vanlinksonder naar rechtsboven loopt. Deze geeft de investering per studentaan gedurende de studie. Dat investeringen dus toenemen naarmate het te verwachten rendement ook toeneemt is het (rationele) basisprincipe bij elk menselijk handelen.

Een laatste opmerking betreft de politieke context waarin beoordeling inhet Hoger Onderwijs zich afspeelt. Al jaren worden HBO- en WO instellingenafgerekend op output (het woordgebruik alleen al!). Deze output bestaat uitafgestudeerden, gepromoveerden en publicaties. Hoe meer output, hoe rij-ker de instelling wordt. De 100 jaar oude wet van de psycholoog Thorndike(“You get what you reward”) voorspelt welke kant het op gaat. Er wordeninderdaad meer hoger opgeleiden geproduceerd! De eenvoudigste methodeom dit te bereiken, is de normen te verlagen en water bij de kwaliteitswijnte doen (Schoonman, 1993). Studeren in het Hoger Onderwijs dreigt dan teverworden tot het bij elkaar harken van studiepunten naast het baantje bijMcDonalds. Student en instelling moeten dan een spel spelen, waarbij hetminimaliseren van inspanning en het maximeren van rendement de kernvormt. Het break-even point voor het onderwijsbedrijf ligt bij 4.35 studie-jaar, daarboven gaat de student geld kosten. Door deze politieke omstandig-heden komt extra druk te liggen op de kwaliteit van beoordelingen. En hoedit zich verhoudt tot de ambities van het huidige kabinet om Nederland toteen leidende kennis-economie om te vormen is onduidelijk. Wel duidelijk isdat investeringen in het (hoger) onderwijs sterk achter blijven bij de restvan de Europese Unie. Het instellen van lectoraten is daarbij misschien eenklein lichtpuntje...

Conclusie

De individuele beoordelaar is kwetsbaar. Hij maakt gemakkelijk allerlei fou-ten die te maken hebben met emoties, het gebruik van stereotypen en eenbeperkt begrip van statistiek en kansrekening. Dit betekent niet dat we debeoordelaar af moeten schrijven en uitsluitend puur objectieve beoorde-lingsmethoden zouden moeten toepassen. We moeten er wel voor zorgendat de beoordelaar zich bewust is van zijn beperkingen en we moeten hemvoorzien van hulpmiddelen die hem het leven makkelijker maken en die dekwaliteit van zijn oordelen verhogen. Training en Tools, dus.

Er zijn diverse beoordelingsmethoden in het (hoger) onderwijs. Leren enbeoordelen horen immers bij elkaar. Moeten alle gangbare beoordelingsme-thoden worden afgeschaft ten faveure van assessment, hier verengd opgevatals gedragsproeven? Natuurlijk niet, de te kiezen beoordelingsmethode isafhankelijk van wat je moet beoordelen. Beroepscompetenties kun je opvat-ten als een mix van Kennis, Vaardigheden en Attitudes. De manier vanbeoordelen hangt af van de samenstelling van de competentie. Bij compe-tenties waarbij de Kenniscomponent hoog is, is uiteraard de kennistoetsaangewezen. Bij competenties met een hoog sociaal gehalte en die pas ‘invivo’ zichtbaar worden, ligt een Gedragsproef voor de hand. Maar dan weleen gedragsproef die voldoet aan minimale methodologische eisen.

Page 16: Wouter Schoon Man Red e 27 Me i 2004

3130

Dankwoord

Mijn benoeming tot lector is het gevolg van ‘assessment’ door twee commis-sies. De eerste commissie vertegenwoordigde het docentenkorps, de tweedehet management. Dat legt een druk op mijn schouders. Deze mensen hebbenhun vertrouwen in mij uitgesproken en ik moet dat vervolgens waarmaken.Naar mijn mening draait het hele leven om ‘vertrouwen’, of is dat wellicht het primitieve krokodillenbrein dat spreekt? Er ligt een leeropdracht. Deze isgeconcretiseerd tot een aantal producten op assessment gebied die de kennis-kring de komende periode wil opleveren. De stuurgroep rond het lectoraatwaarin Joop Cuppen, Jan Auwke Diepenhorst, Lysbeth Haverkamp, Carolinevan de Molen, Wim Slingerland en Bert Velt zitting hebben ondersteunen dezevoorlopige vertaling van de leeropdracht, waarvoor dank.

Dan komen we bij Marjolein Hassink en haar collega’s binnen de DienstOnderwijs & Student. Marjolein, Elja, Ariene en Astrid zorgen ervoor dat ik zo min mogelijk hoef te regelen. Zij beheren mijn agenda en organiseren vanalles en nog wat, zoals bijvoorbeeld deze middag. Een goed team zonder wieik letterlijk en figuurlijk ‘lost’ zou zijn binnen Saxion. Dank dames. Ik hebmeer aan jullie, dan jullie aan mij, denk ik zo.

De Raad van Bestuur – met name Wim Boomkamp – dank ik voor het in mijgestelde vertrouwen. De RvB heeft ingezet op competentiegericht onderwijsen een goede vorm van assessment – waaronder gedragsproeven - hoort daar-bij. Dat we ondertussen ook te maken hebben met verschuivende inzichtenover ‘selectie aan de poort’, toelating van HBO-ers tot Masters’ onderwijs bijUniversiteiten en andere vormen van samenwerking tussen HBO en WOmaken mijn werk alleen maar interessanter, maar ook moeilijker.

De kenniskring - bestaande uit Piet Hendriks, Marian Kienhuis, Ard van derOord, Hans van der Stam en Caroline Timmers – is een pluriform gezelschapdat vanuit diverse achtergronden gaat zorgen voor producten die in de onder-wijspraktijk toepasbaar zijn. Verwacht van ons geen nota’s, rapporten ofvisies. We willen concrete producten opleveren waar onze ‘klanten’ mee aande gang kunnen. In die zin dekt het woord ‘kenniskring’ de lading niet geheel.Dit is een projectteam dat zich tot doel gesteld heeft concrete oplossingen tebieden. In een commerciële omgeving zouden wij ons een Test Publisher noe-men. Het is jammer dat het budget niet toelaat onze mensen ieder voor meerdan 0.2 FTE te laten bijdragen aan de realisering van onze doelstelling. Jekunt het echter ook positief zien: we hebben nu binnen Saxion een club vanassessment ambassadors, het Saxion Assessment Team met in totaal 1.6 for-matie. Dat moet lukken.

Dat brengt mij als vanzelf bij Caroline van de Molen. Zij is de baas van dedienst Onderwijs & Student waar dit lectoraat logischerwijs is ondergebracht.Caroline zorgt er op management niveau voor dat ik mij niet bezig hoef tehouden met allerlei bestuurlijke en financiële vraagstukken. Dat komt goeduit, want zij is daar veel beter in dan ik. Onze samenwerking verloopt doordeze taakverdeling uitstekend.

Een verder bedankje is voor alle medewerkers van Saxion met wie ik hetafgelopen half jaar gesprekken mocht voeren. De lijst omvat meer dan 200namen, maar ik noem er nu niet een. Dan doe je immers anderen weer tekort.Degenen om wie het gaat weten dat ik hen bedoel. Een gemeenschappelijkkenmerk van deze gesprekspartners is het enthousiasme en de betrokkenheiddie ik steeds weer aantref. Saxion is een ingewikkeld conglomeraat van clubsen clubjes, maar een ding hebben ze gemeen: goed hoger beroepsonderwijswillen leveren ondanks beperkingen in geld en tijd. Ik ervaar het als een ver-ademing dat ik het niet steeds hoef te hebben over targets, forecasts, busin-ess cases, shareholder value, accounts en prospects, hoewel de neiging omgewone dingen een engelse naam te geven ook bij Saxion heftig aan de ordeis. Zal wel met ‘internationalisering’ of zelfs ‘mondialisering’ te maken heb-ben.

En dan is er nog een aantal studenten (en hun docenten) die mij het levenvergemakkelijkt hebben. Allereerst de acht studenten van het Saxion HogerHotel Onderwijs die het team vormen die vandaag zorgen voor de gastvrij-heid – hospitality in hun woorden. Na een offerte en een briefing – waarin ikmocht vertellen hoe ik het vandaag wilde – hebben zij dit perfect uitgevoerd.U bent er getuige van. Dank en nogmaals dank.

Een andere groep studenten – opleiding Kunst en Techniek – is bezig met hetvastleggen van vanmiddag. De DVD – het eindproduct – is primair bedoeldvoor mensen die er vandaag niet bij konden zijn. Maar misschien ook voorsommige wel aanwezigen. Misschien stoppen we deze DVD ook wel bij hetpakket dat de kenniskring aan het maken is. Het product van deze studentenis er nog niet, maar ik heb er alle vertrouwen in dat het iets goed wordt.Bedankt hiervoor.Als laatste bedank ik mijn vrienden en familie. Maandenlang heb ik ze lastiggevallen met vragen, verzoeken en zelfs opdrachten. Vandaar: bedankt Jan &Rinke, Kasper, Ivo & Merel, Geke en Eliane. Eliane heeft deze tekst drie keergeredigeerd. Hartelijk dank daarvoor. En ik eindig met Kristi, mijn levenspart-ner door dik en dun.

But love’s a malady without a cure.

Page 17: Wouter Schoon Man Red e 27 Me i 2004

3332

Referenties

Altink, W., Schoonman, W. & Seegers, J. (2004). Menselijk kapitaal. De ontwik-keling van mensen in organisaties. Assen: Van Gorcum

Arthur, W., Day, E.D., McNelly, T.L. & Edens, P.S. (2003). A meta-analysis ofthe criterion-related validity of assessment center dimensions. PersonnelPsychology, 56, 125-154

Barro, R. (2003). What’s in job seekers’ name? Businessweek, November 2003,3, 12

Bartholomew, D.J. & Bassett, E.E. (1971). Cijfers en mensen. De kwantitatievebenadering van de sociale werkelijkheid. Utrecht: Het Spectrum

Bernstein, A.J & Rozen, S.C. (1992). Neanderthals at Work! New York:Ballentine

Bernstein, P. (1996). Against the Gods: The Remarkable Story of Risk. NewYork: John Wiley & Sons

Campbell, D.T. & Fiske, D.W. (1959). Convergent and discriminant validationby the multitrait-multimethod matrix. Psychological Bulletin, 56, 2, 81-105

d’Agostini, G. (2003). Subjective probability. http://www-zeus.roma1.infn.it/~agostini/cern/node18.html

De Raad, B. & Perugini, M. (2002). Big Five Assessment. Göttingen: Hogrefe &Huber Publishers

De Raad, B. (2000). The Big Five Personality Factors. The PsycholexicalApproach to Personality. Göttingen: Hogrefe & Huber Publishers

Dekkers, M. (1996). De beste beesten. Amsterdam: Uitgeverij Contact

Dryden, J. (1700). Palamon and Arcite. Uitgever onbekend

Eggen, T.J.H.M. & Sanders, P.F. (1993) (Eds.) Psychometrie in de praktijk.Arnhem: Cito

Goldfarb, A. (1959). Reliability of diagnostic judgements made by psycholo-gists. Journal of Clinical Psychology, 15, 392-396

Groot, A.D. de. (1966). Vijven en zessen: cijfers en beslissingen: het selectie-proces in ons onderwijs. Groningen: Wolters-Noordhoff

Hamel G. & Prahalad, C.K. (1994). Competing for the future. Boston: HarvardBusiness School Press

Hendriks, A. A. J. (1997). The construction of the Five-Factor PersonalityInventory (FFPI). Groningen, The Netherlands: Rijksuniversiteit Groningen

Hettema, P.J. (2002). Persoonlijkheid van top tot teen. Assen: Van Gorcum enNederlandse Stichting voor Psychotechniek

Heuvelmans, A.P.J.M. & Sanders, P.F. (1993). Beoordelaarsovereenstemming.In: Eggen, T.J.H.M. & Sanders, P.F. (1993) (Eds.) Psychometrie in de praktijk.Arnhem: Cito

Hofstee, W. K. B., de Raad, B., & Goldberg, L. R. (1992). Integration of the Big-Five and circumplex approaches to trait structure. Journal of Personality andSocial Psychology, 63, 146-163

Hofstee, W. K. B., Kiers, H. A. L., de Raad, B., Goldberg, L. R., & Ostendorf, F.(1997). Comparison of Big-Five structures of personality traits in Dutch,English, and German. European Journal of Personality, 11, 15-31

Hofstee, W.K.B. (1980). De empirische discussie. Theorie van het sociaal-wetenschappelijk onderzoek. Amsterdam: Boom

Hofstee, W.K.B. (1999). Principes van beoordeling. Methodiek en ethiek vanselectie, examinering en evaluatie. Lisse: Swets & Zeitlinger

Hofstee, W.K.B. (2004). Persoonlijke email over voorwaardelijke kansen,13 april 2004

Huff, D. (1961). Gebruik en misbruik van de statistiek. Utrecht: Prisma

Huff, D. (1965). Bereken uw kansen. Utrecht: Prisma

Jansen, P.G.W. & Jongh, de, F. (1993). Assessment Centers. Een open boek.Utrecht: Marka

Jansen, P.G.W. (1991). Het beoordelen van managers. Effectiviteit van assessment center methoden bij selectie en ontwikkeling van managers.Baarn: Uitgeverij H. Nelissen

Page 18: Wouter Schoon Man Red e 27 Me i 2004

3534

Jeanneret, R. & Silzer, R. (Eds.), (1998). Individual psychological assessment.Predicting behavior in organizational settings. New York: Jossey Bass &Society for Industrial and Organizational Psychology

Kahneman, D. & Tversky, A. (1973). On the psychology of prediction.Psychological Review, 80, 237-251

Kahneman, D. & Tversky, A. (1982). The simulation heuristic. In D. Kahneman, P. Slovic and A. Tversky (eds.). Judgement under uncertainty:Heuristics and biases. New York: Cambridge University Press

Kahneman, D., & Tversky, A. (1972). Subjective probability: A judgment ofrepresentativeness. Cognitive Psychology, 3, 430-454

Kahneman, D., & Tversky, A. (1979). Intuitive prediction: Biases and correcti-ve procedures. Management Science, 12, 313-327

Kouwer, B. (1963). Het spel van de persoonlijkheid. Theorieën en systemenin de psychologie van de menselijke persoon. Utrecht: Erven Bijleveld

Linschoten, J. (1964). Idolen van de psycholoog. Utrecht: Erven Bijleveld

Mischel, W. (1968). Personality and Assessment. New York: John Wiley & Sons

Nisbett, R.E., & Ross, L.D. (1980). Human Inference: Strategies andShortcomings of Social Judgment. Englewood Cliffs, NJ: Prentice-Hall

Paulos, J.A. (1988). Innumeracy. Mathematical illiteracy and its consequences.New York: Hill and Wang

Ross, L. & Nisbett, R.E. (1991). The person and the situation. New York:McGraw Hill

Sacks, O. (1985). The man who mistook his wife for a hat. New York:Touchstone Books

Schmidt, F.L. & Hunter, J.E. (1998). The validity and utility of selectionmethods in personnel psychology: practical and theoretical implicationsof 85 years of research findings. Psychological Bulletin, 124, 262-274

Schoonman, W. (1993). Macintosh, MS-DOS & Doctorandussen. MacProf, 45,10-11

Seegers, H.J.J.L. (1997). Assessment centers een personeelsinstrument voor demanager. Kluwer NVP: Deventer

Smit, J. (2004). Het drama Ahold. Baarn: Ambo

Sternberg, R.J. (2000). Practical intelligence in everyday life. Cambridge:University Press

Straetmans, G.J.J.M. (2004). Protocol Portfolio Scoring. Een methode voor hetsystematisch scoren en vaststellen van competenties. Arnhem: Citogroep –BVE en HO Brochurereeks Perspectief op Assessment 4

Trompenaars, F. (1993). Riding the waves of culture. London: Brealey

Tversky, A. & Kahneman, D. (1971). Belief in the law of small numbers.Psychological Bulletin, 76, 105-110

Tversky, A. & Kahneman, D. (1973). Availability: A heuristic for judging fre-quency and probability. Cognitive Psychology, 5, 207-232

Tversky, A. & Kahneman, D. (1974). Judgement under uncertainty: Heuristicsand biases. Science, 185, 1124-1131

Tversky, A. & Kahneman, D. (1983). Extension versus intuitive reasoning.The conjunction fallacy in probability judgment. Psychological Review, 90,293-315

Van Dale Lexicografie (1996). Engels – Nederlands. Utrecht: Van DaleLexicografie

Van der Flier, H. (1992). Hebben wij eigenschappen nodig? ‘Signs’ en ‘samp-les’ in het psychologisch selectie-onderzoek. Inaugurale rede, 3 april 1992,Amsterdam: Vrije Universiteit

Vroon, P. (1989). De tranen van de krokodil. Baarn: Ambo

Wernimont, P.F. & Campbell, J.P. (1968). Signs, samples and criteria. Journalof Applied Psychology, 52, 372-376

Page 19: Wouter Schoon Man Red e 27 Me i 2004

Postbus 70.0007500 KB EnschedeInternet www.saxion.nlE-mail [email protected]