Bewezen beleid in het onderwijs

142
Essaybundel Bewezen Beleid in het Onderwijs

Transcript of Bewezen beleid in het onderwijs

Page 1: Bewezen beleid in het onderwijs

Bewezen Beleid in het O

nderwijs

Essaybundel

Bewezen Beleid in het Onderwijs

Colofon

Dit is een publicatie van de directie Kennis van het Ministerie van Onderwijs, Cultuur en Wetenschap.

Publicatie nr. 1: Bewezen Beleid in het Onderwijs

Samenstelling/redactie:Rien RouwDaisy SatijnTim SchokkerMet dank aan Hella Borking, Anneke Boot en Imelda Medina-Arendsz

Vormgeving:Balyon, Zoeterwoude

Druk:Koninklijke De Swart, Thieme GrafiMedia Groep

Uitgave:December, 2009

Publicatienummer: 08BK2009B027 ISBN 978 90 5910 472 3 Prijs: 25,00 euro

Deze brochure is een uitgave van:

RijksoverheidPostbus 00000 | 2500 aa Den Haagt 0800 646 39 51 (ma t/m vrij 9.00 – 21.00 uur) © Rijksoverheid | Juni 2008Publicatie-nr. ac-000198

2010013_OCW_Kennismarkt_OmslRug_def.indd 1 22-01-10 15:41:24

Page 2: Bewezen beleid in het onderwijs

Bewezen Beleid in het O

nderwijs

Essaybundel

Bewezen Beleid in het Onderwijs

Colofon

Dit is een publicatie van de directie Kennis van het Ministerie van Onderwijs, Cultuur en Wetenschap.

Publicatie nr. 1: Bewezen Beleid in het Onderwijs

Samenstelling/redactie:Rien RouwDaisy SatijnTim SchokkerMet dank aan Hella Borking, Anneke Boot en Imelda Medina-Arendsz

Vormgeving:Balyon, Zoeterwoude

Druk:Koninklijke De Swart, Thieme GrafiMedia Groep

Uitgave:December, 2009

Publicatienummer: 08BK2009B027 ISBN 978 90 5910 472 3 Prijs: 25,00 euro

Deze brochure is een uitgave van:

RijksoverheidPostbus 00000 | 2500 aa Den Haagt 0800 646 39 51 (ma t/m vrij 9.00 – 21.00 uur) © Rijksoverheid | Juni 2008Publicatie-nr. ac-000198

2010013_OCW_Kennismarkt_OmslRug_def.indd 1 22-01-10 15:41:24

Page 3: Bewezen beleid in het onderwijs

Bewezen Beleid in het O

nderwijs

Essaybundel

Bewezen Beleid in het Onderwijs

Colofon

Dit is een publicatie van de directie Kennis van het Ministerie van Onderwijs, Cultuur en Wetenschap.

Publicatie nr. 1: Bewezen Beleid in het Onderwijs

Samenstelling/redactie:Rien RouwDaisy SatijnTim SchokkerMet dank aan Hella Borking, Anneke Boot en Imelda Medina-Arendsz

Vormgeving:Balyon, Zoeterwoude

Druk:Koninklijke De Swart, Thieme GrafiMedia Groep

Uitgave:December, 2009

Publicatienummer: 08BK2009B027 ISBN 978 90 5910 472 3 Prijs: 25,00 euro

Deze brochure is een uitgave van:

RijksoverheidPostbus 00000 | 2500 aa Den Haagt 0800 646 39 51 (ma t/m vrij 9.00 – 21.00 uur) © Rijksoverheid | Juni 2008Publicatie-nr. ac-000198

2010013_OCW_Kennismarkt_OmslRug_def.indd 1 22-01-10 15:41:24

Page 4: Bewezen beleid in het onderwijs

Bewezen Beleid in het O

nderwijs

Essaybundel

Bewezen Beleid in het Onderwijs

Colofon

Dit is een publicatie van de directie Kennis van het Ministerie van Onderwijs, Cultuur en Wetenschap.

Publicatie nr. 1: Bewezen Beleid in het Onderwijs

Samenstelling/redactie:Rien RouwDaisy SatijnTim SchokkerMet dank aan Hella Borking, Anneke Boot en Imelda Medina-Arendsz

Vormgeving:Balyon, Zoeterwoude

Druk:Koninklijke De Swart, Thieme GrafiMedia Groep

Uitgave:December, 2009

Publicatienummer: 08BK2009B027 ISBN 978 90 5910 472 3 Prijs: 25,00 euro

Deze brochure is een uitgave van:

RijksoverheidPostbus 00000 | 2500 aa Den Haagt 0800 646 39 51 (ma t/m vrij 9.00 – 21.00 uur) © Rijksoverheid | Juni 2008Publicatie-nr. ac-000198

2010013_OCW_Kennismarkt_OmslRug_def.indd 1 22-01-10 15:41:24

Page 5: Bewezen beleid in het onderwijs

Bewezen Beleid in het Onderwijs

Page 6: Bewezen beleid in het onderwijs
Page 7: Bewezen beleid in het onderwijs

Inhoudsopgave 2

Voorwoord 5 Koos van der Steenhoven

01 Wetenschap en onderwijsbeleid: 8 een liefdevolle LAT? Wim Meijnen en Jo Kloprogge

02 Experimentele designs in 26 onderwijswetenschappen Roel Bosker

03 Kwalitatieve methoden in 40 onderwijsonderzoek Lennart Vriens

04 Leren over leren 50 Lex Borghans

05 Naar een nieuwe opzet van de 64 onderwijswetenschappen? Jacquelien Bulterman-Bos

06 Onderwijs op de ladder: maatwerk 84 in het onderzoek naar effectiviteit Tom van Yperen en Bas Bijl

07 De bijdrage van internationaal onderwijsonderzoek 100 Dirk Van Damme

08 Evidence based policy in ontwikkelingssamenwerking 110 Frans Leeuw en Jos Vaessen

09 Helpen straffen. Evidence based policy 128 op het terrein van Justitie Bouke Wartna

Inhoudsopgave

Page 8: Bewezen beleid in het onderwijs

Ministerie van Onderwijs, Cultuur en Wetenschap4 | Essaybundel Bewezen Beleid in het Onderwijs

Page 9: Bewezen beleid in het onderwijs

VoorwoordKoos van der SteenhovenSecretaris-generaal van het ministerie van OCW

Het ministerie van OCW hecht aan de wetenschappelijke onderbouwing van zowel onderwijsbeleid als de onderwijspraktijk. Vanaf 2005, in het actieprogramma OCW Verandert!, hebben we ingezet op een versterking van die wetenschappelijke onderbouwing. Dat was mede in reactie op de grote kritiek in het onderwijsveld en in de samenleving op vernieuwingen in het onderwijs die eind vorige eeuw waren ingevoerd. Volgens velen zonder dat voldoende bewijs voorhanden was over het effect dat die zouden hebben. Dat werd ook nog eens benadrukt door de commissie-Dijsselbloem die onderzoek deed naar vernieuwingen in het voortgezet onderwijs. Die commissie hield een pleidooi om nieuw beleid niet zomaar in te voeren, maar eerst op kleine schaal uit te proberen of het werkt. Pas als interventies zich hebben bewezen, kunnen die breder worden ingevoerd. Bewezen beleid dus, wetenschappelijke bewijsvoering is een belangrijke voorwaarde voor ieder zorgvuldig beleidsproces.

Maar wanneer is iets bewezen? Daarover woedt een fel debat, zowel in wetenschappelijke kringen en beleidskringen, als in de praktijken van onderwijs en cultuur (en daarbuiten, zoals in deze bundel valt te lezen over onder meer ontwikkelingssamenwerking en jeugdzorg). Met deze bundel willen we dat debat stimuleren, en hopelijk ook verder brengen. In verschillende bijdragen komen de posities aan bod die in het debat over evidence based beleid en praktijk worden ingenomen.

Aan de ene kant staan de aanhangers van streng (‘rigorous’) effectiviteits-onderzoek. Beleid kan pas als evidence based worden beschouwd als op basis van zogenaamd “gouden-standaard”-onderzoek in de praktijk is aangetoond dat de effecten die van de beleidsinterventie verwacht worden zich ook daadwerkelijk voordoen. Kort gezegd kenmerkt “gouden-standaard”-onderzoek zich door een experimenteel opgezette beleidsin-terventie, waarbij sprake is van een interventiegroep en een controle-groep, die op basis van loting zijn samengesteld. Voor het onderwijsbeleid zou dat betekenen dat op basis van loting wordt bepaald welke groep van scholen meedoet aan een bepaald programma, waarbij de uitgelote scholen de controlegroep vormen. Om er achter te komen voor welke groepen van leerlingen de interventie werkt of juist niet werkt, moet ook

Essaybundel Bewezen Beleid in het Onderwijs | 5Ministerie van Onderwijs, Cultuur en Wetenschap

Page 10: Bewezen beleid in het onderwijs

op leerlingniveau de samenstelling van de onderzoeksgroepen op basis van loting worden bepaald.

Dit type onderzoek wordt nog weinig verricht in Nederland. Daarom heeft het ministerie van OCW het initiatief tot oprichting van een nieuw onderzoeksinstituut op dit terrein van harte gesteund. Dit is TIER geworden, het Top Institute for Evidence Based Education Research waarin de universiteiten van Amsterdam, Groningen en Maastricht samenwerken. Dit instituut heeft onder meer tot doel om gerandomiseerde designs toe te passen.

Het uitgangspunt van die “gouden standaard” is echter omstreden. Tegen de “gouden-standaard”- opvatting van evidence based beleid worden grofweg drie typen argumenten gebruikt:

het eerste luidt dat beleid een te politiek gedreven proces is om zich te ■■

laten sturen door wetenschappelijk onderzoek; het tweede argument is epistemologisch, het zegt dat experimenteel ■■

onderzoek niet het type kennis oplevert waardoor de bewijskracht van beleid toeneemt. Experimenteel onderzoek verklaart niet en onder-zoeksresultaten kunnen niet gegeneraliseerd worden voor nieuwe, nog niet onderzochte situaties en contexten; en ten slotte zijn er praktische en ethische argumenten: experimenteel ■■

onderzoek is voor scholen niet te organiseren, de urgentie van beleid laat het niet toe te wachten op de uitkomsten van experimenteel onderzoek en sowieso is het niet ethisch te experimenteren met kinderen.

Deze bezwaren duiden op een diep verankerde weerstand tegen experi-menteel onderzoek. Die weerstand heeft alles te maken met de suggestie dat alleen de “gouden-standaard”-benadering echt harde kennis oplevert. Daarmee introduceert de hardheid van experimenteel onderzoek een hiërarchie in kennisbronnen, andere meer kwalitatieve methoden zouden ‘zacht’ zijn en daarom inferieur. De bezwaren tegen streng effectiviteits-onderzoek leveren al met al een impasse op waarbij voor en tegenstanders met een zekere onverzoenbaarheid tegenover elkaar komen te staan.

De vraag is of dat nodig is. De auteurs wijzen in deze bundel uitwegen uit de impasse. De eerste uitweg is die van het afstemmen van het onder-zoeksdesign op de specifieke context en vraagstelling en op de fase van beleidsontwikkeling. Als problemen nog niet helder zijn of interventies nog niet uitontwikkeld, kan kwalitatief onderzoek nuttiger zijn dan een grootschalig opgezet beleidsexperiment. In die zin hanteert OCW een opvatting van methodisch pluralisme: verschillende situaties vragen om verschillende methoden, die ook verschillende typen kennis opleveren.

6 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 11: Bewezen beleid in het onderwijs

De tweede uitweg is die van het stapelen, dat wil zeggen maak in opvol-gende fasen van de beleidsontwikkeling gebruik van verschillende designs. Ontwerp een zorgvuldige opbouw van onderzoek als je een bepaalde beleidsinterventie wilt plegen als je nog niets of weinig weet over de effecten van die interventie.

De derde uitweg is die van het combineren. Om de effecten van een interventie goed te begrijpen, zijn verschillende typen kennis nodig. Dat betekent dat we het beste verschillende methoden kunnen combineren en dat we zowel kwalitatief als kwantitatief onderzoek nodig hebben.

In deze bundel laten auteurs vanuit diverse invalshoeken hun licht schijnen op deze problematiek. Nadrukkelijk zijn auteurs vanuit verschil-lende disciplines en met verschillende methodologische voorkeuren aan het woord gelaten. Allereerst met het doel om te informeren: wat zijn de sterke en zwakke kanten van de verschillende onderzoeksparadigma’s, wat zijn precies de voorwaarden voor het kunnen verrichten van goed experimenteel onderzoek? En hoe kunnen onderzoek en beleidsvorming productief samen gaan?

Daarnaast willen we met deze bundel ook een bijdrage leveren aan het voortdurende debat over de vraag met welk bewijs beleid en onderwijs sterker kunnen worden. Als OCW zetten we in op een praktijk waarbij experimenteel onderzoek in de beleids- en onderwijspraktijk routine is. Alleen zo wordt lerend beleid mogelijk: eerst maatregelen praktisch testen in experimenten voordat sprake is van een brede invoering.

Een cultuur waarin het uitvoeren van experimenteel onderzoek routine is, beschikt over een breed palet van onderzoeksmethoden. Niet alle vragen kunnen immers door middel van experimenteel onderzoek beantwoord worden. Experimenteel onderzoek moet een essentieel onderdeel zijn van ieder beleidsproces, maar ook andere kennisbronnen horen erbij. Als we onze kennis van het onderwijs rijker, diepgaander en exacter maken omdat we verschillende onderzoeksmethoden benutten, wordt uiteinde-lijk ook het beleid rijker, dat wil zeggen beter doordacht, effectiever en maatschappelijk breed gedragen.

Ik ben de auteurs zeer erkentelijk voor hun bereidheid om aan het bereiken van dit doel, rijker beleid, een bijdrage te leveren.

Essaybundel Bewezen Beleid in het Onderwijs | 7Ministerie van Onderwijs, Cultuur en Wetenschap

Page 12: Bewezen beleid in het onderwijs

01Wetenschap en onderwijsbeleid: een liefdevolle LAT?Wim MeijnenVoorzitter NWO/PROO

&

Jo Kloprogge Adviseur Sardes

Ministerie van Onderwijs, Cultuur en Wetenschap8 | Essaybundel Bewezen Beleid in het Onderwijs

Page 13: Bewezen beleid in het onderwijs

1.1 InleidingIn 1979 bundelde Van Kemenade enkele voordrachten die hij in de voorafgaande jaren had gehouden. Daarbij waren uiteraard zijn ervaringen als minister van Onderwijs (1972-1977) een belangrijke inspiratiebron. Eén van de essays is getiteld: ‘Onderwijsresearch en Onderwijsbeleid’. Hij constateert: ‘Ondanks die toenemende belangstelling van de sociale wetenschappen voor onderwijs en onderwijsbeleid en van de beleidsinstanties op velerlei niveau voor de sociaal-wetenschappelijke deskundigheid, is de relatie tussen onderwijsresearch en onderwijsbeleid in vele opzichten onbevredigend’ (Van Kemenade, 1979, p.211/212). Nu, dertig jaar later heeft deze uitspraak nog weinig aan geldigheid ingeboet. De kern van het probleem ligt volgens hem in het feit dat door beleidsinstanties, onderwijspraktijk en onderzoekers geen gericht wetenschaps- en onderzoeksbeleid wordt gevoerd.

Inmiddels weten we, vele publicaties verder, dat de problemen fundamen-teler van aard zijn. Zo verscheen in 1980 de later veel geciteerde publicatie van Weiss waarin zij de invloed van sociaal wetenschappelijk onderzoek op besluitvorming analyseerde. Zij komt tot de conclusie dat de belangrijkste invloed indirect is en wel door agendasetting en ‘verwetenschappelijking’ van het denken over gedrag en samenleving. Dat zou zich onder meer uiten in de inhoud van beleidsnota’s en in het publieke debat. De globale notie van onderzoeksbevindingen wordt onderdeel van het algemeen referentiekader en beïnvloedt volgens Weiss daarmee de besluitvorming. Over de mogelijkheden van ‘social engineering’ door de sociale weten-schappen, een veel rechtstreekser pad van researchresultaten naar praktijkverbetering, is ze veel sceptischer. Een pad dat in de beta-weten-schappen wel met succes wordt afgelegd. De keten van fundamentele research via toegepast onderzoek en technologieontwikkeling naar bijvoorbeeld gebruiksartikelen of valide geneeswijzen wordt daar dagelijks met succes gedemonstreerd. We stuiten hiermee op oude wetenschapstheoretische vragen binnen de sociale wetenschappen die betrekking hebben op vraagstukken als determinisme en mogelijkheden tot voorspelbaarheid van menselijk gedrag en maatschappelijke ontwik-kelingen. De uiterste polen laten zich omschrijven als: ‘principieel onmogelijk’ en ‘principieel mogelijk, maar we staan pas aan het begin’.

Hoewel er dus fundamentele problemen zijn aan te wijzen die mogelijk verantwoordelijk zijn voor de kloof tussen onderzoeksresultaten in de sociale wetenschappen en sociale technologie en dus ook tussen onder-wijsonderzoek enerzijds en onderwijsbeleid en -praktijk anderzijds, is er toch alle aanleiding te veronderstellen dat de kennisketen in het onderwijs sterk verbeterd kan worden.

Essaybundel Bewezen Beleid in het Onderwijs | 9Ministerie van Onderwijs, Cultuur en Wetenschap

Page 14: Bewezen beleid in het onderwijs

Broekkamp e.a. (2009) benoemen op basis van literatuuronderzoek vier thema’s die in principe dekkend zijn om de kloof te beschrijven tussen onderwijsonderzoek en de praktijk. Thema’s waarbinnen maatregelen te treffen zijn om de kloof te verkleinen. De thema’s zijn:1. De beperkte bewijskracht van onderwijsonderzoek. Een veelvoud aan factoren

zoals te weinig experimentele studies, een te gering budget, te weinig controle over de onderwijsomgeving, onvoldoende competentie van onderzoekers en botsende onderzoeksperspectieven zouden de overtuigingskracht van onderzoeksresultaten schaden.

2. Het potentiële nut van onderwijsonderzoek. De inzetbaarheid van de resulta-ten van onderwijsonderzoek is beperkt. Veel onderzoeksresultaten laten zich niet één op één vertalen naar handelingsvoorschriften voor potentiële gebruikers. De complexiteit en de unieke context die elke onderwijssituatie kenmerkt, conflicteert met het standaardiseren van handelingsvoorschriften voor potentiële gebruikers. Vereist is dus een hoge mate van professionele deskundigheid van de afnemers.

3. Percepties van onderwijsonderzoek. Veel gebruikers hebben (onterecht) een negatief beeld van de bruikbaarheid van onderwijsonderzoek.

4. Het gebruik van onderwijsonderzoek. Werkt de negatieve beeldvorming al niet mee, het ontbreken van scholing in onderzoek waardoor men onderzoeksartikelen niet kan lezen en daardoor niet op waarde kan schatten, werkt als een barrière. Scholing verdient dus hoge prioriteit.

Een niet te onderschatten negatieve factor in de valorisatie van onder-zoeksresultaten in de sector onderwijs die door hen niet is genoemd, is de sterke verwevenheid van mens- en maatschappijbeelden en de (veronder-stelde) werking van pedagogische en onderwijskundige praktijken. Vrijwel alle ouders, maar ook volwassenen zonder kinderen, hebben uitgesproken oordelen over hoe kinderen moeten worden opgevoed of onderwezen. Oordelen die sterk samenhangen met hun mens- en maatschappijbeeld. En er is veel sociale druk nodig om hen van standpunt te doen veranderen.

Illustratief in deze is de heftige discussie die publiekelijk, tot in het parlement toe, over de voor- en nadelen van ‘het nieuwe leren’ zijn gevoerd. Hilhorst (www.vo-raad.nl/assets/2476) beschrijft in een essay hoe achter de argumenten pro en contra, mensbeelden schuilgaan die met verve worden verdedigd. Vaak wordt niet de empirische evidentie van de praktijken van de ‘tegenstander’ bekritiseerd maar het veronderstelde, achterliggende, mensbeeld. Onderzoeksresultaten worden dan niet meer op hun merites beoordeeld. Ze fungeren niet als scheidsrechter maar worden direct ‘ontmaskerd’ als behorend bij een specifiek mensbeeld en zijn dus per definitie niet objectief.

10 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 15: Bewezen beleid in het onderwijs

Een analyse van de relatie tussen onderwijsbeleid en onderwijsresearch dient met deze factoren rekening te houden en het is dus verre van duidelijk hoe deze relatie er op termijn uit zou kunnen zien. Dat laat onverlet dat aan de kennisketen in het onderwijs nog veel verbeterd kan worden.

Het ministerie van Onderwijs kan door tal van bestuurlijke instrumenten invloed uitoefenen op het functioneren van deze kennisketen. In deze bijdrage zal getracht worden in grote lijnen een beeld te schetsen hoe de overheid in de afgelopen vijftig jaar de kennisketen mede heeft vorm gegeven. Voorts zal exemplarisch, middels twee casussen, worden beschreven hoe het ministerie onderzoeksresultaten in zijn beleid verdisconteert en hoe het beleid heeft uitgewerkt. Beide casussen verschaffen inzicht in de lange weg van onderzoeksresultaten, planning en uitvoering van beleid naar de uitvoeringspraktijk in scholen en klassen. Aan het eind van deze bijdrage zullen enkele suggesties worden gedaan om de kloof te verkleinen die zijn terug te voeren op één der bovenge-noemde thema’s. In het bijzonder zal daarbij worden gewezen op de rol die het ministerie van Onderwijs daarbij kan spelen.

1.2 Historie van de kennisketen in het onderwijsDe keten onderzoek-ontwikkeling-verspreiding kent geen waterscheidin-gen, ook in de fase van ontwikkeling is onderzoek nodig evenals in de verspreidingsfase. Institutionele verkaveling van de drie componenten voor de onderwijssector heeft in Nederland in de jaren zestig en zeventig van de vorige eeuw zijn beslag gekregen. Institutionele verkaveling leidt echter vaak tot usurpatie: onderzoeksinstituten die ook aan ontwikkeling en verspreiding doen, ontwikkelingsinstituten die ook een afdeling onderzoek en voorlichting kennen etc. In deze bijdrage zullen we focussen op de institutionele kaders voor onderzoek en slechts in het kort iets opmerken over andere instituties in de keten.

1.2.1 De adviesstructuur in basis- en voorgezet onderwijs

Aan het eind van de jaren veertig van de vorige eeuw nam de belangstel-ling voor vernieuwing van het onderwijs en de daarbij noodzakelijke professionele ondersteuning toe. De initiatieven kwamen voornamelijk voort uit lerarenorganisaties die zich onderscheiden naar schooltype en levensbeschouwelijke richting (Tromp, 1997). Dat resulteerde in de jaren zestig en zeventig in drie landelijke, door de overheid gesubsidieerde centra gericht op het voortgezet onderwijs: een algemeen (APS), een katholiek (KPC) en een christelijk (CPS) pedagogisch studiecentrum. Daarnaast ontstond er een landelijk dekkend netwerk van lokale en regionale adviescentra voor het basisonderwijs. Deze centra werden verondersteld prominente intermediairs te worden tussen wetenschap en

Essaybundel Bewezen Beleid in het Onderwijs | 11Ministerie van Onderwijs, Cultuur en Wetenschap

Page 16: Bewezen beleid in het onderwijs

praktijk. Adviezen aan scholen zouden mede worden gegeven op basis van de meest relevante en recente verworvenheden uit de onderwijsresearch. Rekrutering van medewerkers vond in den beginne vooral plaats onder praktijkmensen met veel ervaring. Later werd een academische voor-opleiding een gangbare eis.

Ten gevolge van een volledige subsidiëring door de rijksoverheid waren met name de adviescentra voor het basisonderwijs vrijwel autonoom in het vaststellen van hun aanbod aan de basisscholen. De landelijke adviescentra voor het voortgezet onderwijs kregen in de loop der tijd tot taak een deel van hun activiteiten te richten op door het beleid bepaalde prioriteiten. Het aanbodgestuurde karakter van de activiteiten van alle adviescentra is door de jaren heen veranderd in vraaggestuurd omdat subsidies voor een belangrijk deel naar de scholen zijn overgeheveld.

De adviescentra voor het basisonderwijs zijn vaak relatief klein van omvang en kennen – op enkele uitzonderingen na - geen eigen onder-zoeksafdelingen. De Landelijke Pedagogische Centra voor het voortgezet onderwijs daarentegen zijn afzonderlijk van een behoorlijke omvang en hebben in het verleden een (gedeeltelijke) taakverdeling afgesproken. Recentelijk hebben ze in een gemeenschappelijk document de Research&Development-functie van de drie instellingen beschreven (VSLPC, 2008). In dit document wordt over de relatie tussen de R&D-functie en de wetenschap onder meer het volgende opgemerkt: ‘De wetenschappelijke methode en resultaten houden altijd een reductie in van de werkelijkheid. Deze werkelijkheid, zeker die van het onderwijs, is veel complexer, rijker en pluriformer dan de wetenschap ooit zal kunnen bevatten. Wetenschap richt zich bovendien altijd op de bestaande werkelijkheid en niet op een mogelijke nieuwe werkelijkheid. Aan een R&D-functie die zich met name richt op het innovatieve kan de wetenschap dus slechts bescheiden bijdragen. Wetenschap is tenslotte geen doel maar middel: het moet leraren en beleidsmakers helpen bij het realiseren van goed onderwijs’ (p. 11).

In de inleiding van het genoemde document (p.3) wordt opgemerkt dat over de kaders van dit gezamenlijke beleid overleg is geweest tussen diverse instellingen en het ministerie van Onderwijs (LPC’s, OCW, VO-Raad, PO-Raad, SLO en CITO). Opmerkelijk is de afwezigheid van universitaire organisaties en NWO, geheel in lijn met de strekking van het voorafgaande citaat. 1.2.2 Curriculum- en toetsontwikkeling

Aanvankelijk waren voor de Stichting voor Onderzoek van het Onderwijs (SVO) die in 1965 was opgericht, ook activiteiten in de sfeer van toets- en curriculumontwikkeling gepland. Al spoedig bleek dat begrenzing

12 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 17: Bewezen beleid in het onderwijs

noodzakelijk was en dat voor op zichzelf staand onderzoek, of met onderzoek samenhangend ontwikkelingswerk ten behoeve van een bepaald onderwijsaspect, gespecialiseerde instituten noodzakelijk waren.

In 1968 kwamen daarom een landelijk centrum voor toetsontwikkeling (CITO) en in 1976 een landelijk expertisecentrum voor leerplanontwikke-ling (SLO) tot stand, gesubsidieerd door het ministerie van Onderwijs. Later komen daar nog tal van expertisecentra bij, soms van tijdelijke, soms van min of meer permanente aard. Met betrekking tot de laatste categorie valt te denken valt aan het Freudenthal Instituut voor het rekenonderwijs en het Expertisecentrum Beroepsonderwijs (CINOP). Onder de eerste categorie valt bijvoorbeeld het Expertisecentrum voor Ontwikkeling, Opvoeding en Onderwijs voor 0- tot 12-jarigen (EC O3) dat in 2008 werd ingericht door de ministeries van OCW, VWS en SZW om de verbinding tussen onderzoek en de sector voor 0- tot 12-jarigen te versterken.

1.2.3 Onderwijsonderzoek

Het tijdperk voorafgaande aan de SVOBegin jaren zestig begon de ‘constructieve’ periode van het onderwijsbe-leid, waarbij de overheid niet meer volstond met het verdelen van financiële middelen (allocatief beleid) maar de ontwikkeling van het onderwijs actief probeerde te beïnvloeden. De vraag naar onderzoek nam hierdoor snel toe. Uit een potje van de afdeling Research en Onderzoek op het ministerie van Onderwijs en Wetenschap konden onderzoeken worden gefinancierd. De regel was dat wie het eerst vroeg, het meest kreeg. Halverwege het jaar was het geld op. Er ontstond behoefte aan een meer gerichte benadering. Mede onder invloed van invloedrijke hoogleraren als A.D. de Groot en Ph. Idenburg werd besloten de behartiging van het onderwijsonderzoek te verzelfstandigen in een stichting (Van Kemenade e.a., 1986). Gelijktijdig werden de geldmiddelen voor onderwijsresearch verruimd. In 1965 werd aldus de Stichting voor Onderzoek van het Onderwijs opgericht, na uitvoerige discussie over de vraag of deze stichting moest worden gezien als een adviesorgaan of als een beleidsor-gaan. De spanning tussen deze beide insteken, met als kernvraag hoe onafhankelijk het door het ministerie gefinancierde onderzoek mocht zijn, heeft SVO gedurende zijn hele bestaan achtervolgd.

Het SVO-tijdperkDe Stichting voor Onderzoek van het Onderwijs had als doelstelling het bevorderen van onderzoek met betrekking tot het onderwijs. Dit hield in het steunen, doen uitvoeren, coördineren en anderszins bevorderen van wetenschappelijk onderzoek met betrekking tot het onderwijs. Later kwam daar bij het publiek maken van onderzoeksresultaten door het verspreiden van persberichten, brochures en (vanaf 1970) het nog steeds

Essaybundel Bewezen Beleid in het Onderwijs | 13Ministerie van Onderwijs, Cultuur en Wetenschap

Page 18: Bewezen beleid in het onderwijs

florerende maandblad Didaktief. SVO mocht dus zelf géén onderzoek uitvoeren. Men hield zich bezig met programmering, financiering en disseminatie van onderzoek. De uitvoering van het onderzoek geschiedde overwegend door de aan SVO gelieerde para –universitaire instituten zoals ITS, SCO- Kohnstamm Instituut, RION (later GION), ISOR, LISBO en door universitaire vakgroepen. De werkwijze van SVO werd in de loop der jaren regelmatig bijgesteld.

Nieuwe statuten traden in werking in 1982, waarbij de oorspronkelijke bestuursstructuur van een college van wetenschappers werd omgebouwd tot een grote representatieve raad met zowel vertegenwoordigers van de onderwijskoepels als van het onderwijsveld en een waarnemer namens het ministerie.

In 1987 werd de Wet op de onderwijsverzorging (WOV) ingevoerd, de eerste wettelijke regeling met betrekking tot de verzorgingsinstellingen. Daarbij werd SVO getransformeerd van een privaatrechtelijke stichting tot een publiekrechtelijk instituut en dus tot een overheidsinstelling. Overheid en veld kregen elk 40% van het onderzoeksbudget toegewezen (zij mochten de vragen stellen voor onderzoek) en de resterende 20% werd gereserveerd voor fundamenteel onderzoek. Bij het SVO-bureau in Den Haag werkten in de jaren tachtig en negentig van de vorige eeuw ongeveer veertig mede-werkers. In het gehele door SVO aangestuurde onderzoekscircuit werkten ongeveer tweehonderdvijftig onderzoekers. De omzet van SVO bedroeg doorgaans rond de twintig miljoen gulden met een piek van dertig miljoen in 1978.

SVO volgde een vaste procedure om onderzoeksprogramma’s te ontwik-kelen of te actualiseren. Jaarlijks werd aan alle belangrijke stakeholders in het onderwijsbeleid en in het onderwijsveld gevraagd om aan te geven welke thema’s zij onderzocht zouden willen hebben. Daarna werd een thema onderworpen aan een probleemverkenning. Een of meer experts beschreven de stand van zaken en de ontwikkelingen binnen het betref-fende thema, inclusief een overzicht van de onderzoeksliteratuur (vooral gericht op Nederlandse en Engelstalige publicaties), en gaven aan wat onderzoek zou kunnen bijdragen een de oplossing van problemen op het betreffende thema. SVO selecteerde vervolgens op basis van de probleem-verkenning thema’s voor onderzoek voor het komende jaar.

In 1983 werden zo probleemverkenningen uitgevoerd op de terreinen;basisonderwijs■■

speciaal onderwijs■■

voorgezet onderwijs eerste fase■■

voortgezet onderwijs tweede fase■■

14 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 19: Bewezen beleid in het onderwijs

hoger onderwijs en lerarenopleidingen■■

volwasseneneducatie/levenslang leren■■

gelijke-kansenonderwijs (incl. emancipatie-onderwijs)■■

etnische minderheden in het onderwijs■■

overgang van school naar werk■■

gebruik van computers in de school■■

In 1984 werden toegevoegd;de onderwijsverzorgingsstructuur■■

onderwijswetgeving en bestuur■■

In 1986 kwam daarbij;economische aspecten van het onderwijs■■

Na vaststelling van het onderzoekprogramma nodigde SVO de aan haar gelieerde onderzoeksinstituten uit om voorstellen in te dienen voor elk specifiek thema uit het onderzoekprogramma. Deze voorstellen werden beoordeeld door beoordelingscommissies. Het SVO-bestuur besliste over de definitieve toekenning aan een der indieners. De meeste projecten werden uitgevoerd in twee tot drie jaar. De onderzoeksrapportages werden onderworpen aan een eindbeoordeling. De disseminatie van de onderzoeksresultaten gebeurde onder meer door aandacht in het tijdschrift Didaktief.

Behalve het reguleren van onderzoeksprojecten zoals hierboven omschre-ven, was SVO actief in het onderhouden van contacten met internationale onderzoeksorganisaties en voerde zij beleid om jonge onderzoekers te rekruteren en de kans te geven zich te ontwikkelen.Hoewel de relaties met het ministerie van Onderwijs, de onderwijsorgani-saties en de onderzoeksinstituten formeel goed waren geregeld, was er weinig steun voor SVO toen de regering in 1996 besloot het bestaan van SVO te beëindigen. Op het departement werd SVO beschouwd als een arrogante bureaucratische moloch die niet in staat was snel en flexibel op vragen te reageren. Men wilde liever zelf greep houden op de vraag-stellingen en uitvoering van onderzoek.

Topambtenaren spraken over SVO als het ‘instituut voor hetelucht-verplaatsing’. Het onderwijsveld stond vrij lauw tegenover SVO en dat had te maken met kritiek uit scholen, die het onderzoek weinig praktisch bruikbaar vonden en klaagden over de belasting die het meewerken aan onderzoek met zich meebracht. Ook de onderzoeksinstituten stonden uiteindelijk niet op de bres voor SVO, mede omdat zij afwilden van de afhankelijkheidsrelatie met deze machtige organisatie die hun eigen

Essaybundel Bewezen Beleid in het Onderwijs | 15Ministerie van Onderwijs, Cultuur en Wetenschap

Page 20: Bewezen beleid in het onderwijs

beleid soms frustreerde. Per 1 december 1996 kwam er daarom een einde aan deze fase in het onderwijsonderzoek

De post-SVO periodeDe beschikbare gelden voor onderzoek werden vanaf 1997 op een nieuwe manier verdeeld. Daarbij werd de bij SVO gehanteerde verdeling over beleidsonderzoek, veldonderzoek en fundamenteel onderzoek aan-gehouden. Het grootste deel van de middelen ging naar NWO, de Nederlandse Organisatie voor Wetenschappelijk Onderzoek. De Programmaraad voor Onderwijsonderzoek (NWO/PROO) werd opgericht om fundamenteel onderwijsonderzoek te programmeren en tot uitvoering te brengen. De keuze van programmalijnen komt tot stand na overleg met wetenschappers, het onderwijsveld en het ministerie. Vervolgens wordt voor elke programmalijn een kader uitgewerkt waarbin-nen universitaire wetenschappers een onderzoeksplan kunnen indienen. Uit een recente evaluatie van de PROO blijkt dat de universitaire vak-groepen onderwijskunde zeer geprofiteerd hebben van de werkwijze van de PROO. Hun productie is voor een groot deel gebaseerd op de onder-zoekssubsidies die zij via de PROO hebben verworven (NWO/PROO, 2009).

Ook het meer beleidsgerichte onderzoek voor het primair onderwijs werd ondergebracht bij NWO onder de titel BOPO (Beleidsgericht Onderwijs-onderzoek Primair Onderwijs). De BOPO programmeert onderzoek op een aantal beleidsterreinen van het primair onderwijs. Men laat hiervoor programma’s schrijven door onderzoekers, die worden aanbesteed bij vooral universitaire onderzoeksinstituten. Voor de periode 2009-2012 heeft de BOPO ook de opdracht om het evaluatieonderzoek naar de hoofdlijnen van het beleid voor het primair onderwijs te programmeren, te doen uitvoeren, te begeleiden en te communiceren.

Bij de opheffing van SVO ging verder een deel van het geld terug naar het ministerie voor beleidsonderzoek en werd een deel beschikbaar gesteld aan de Landelijke Pedagogische Centra. De KPC Groep is belast met de dagelijkse uitvoering. Er worden in dit kader onderzoeksvragen geïnventa-riseerd bij scholen, waarna een kaderplan en onderzoekprogramma wordt geformuleerd. De onderzoeksopdrachten worden, in samenwerking met de betreffende scholen, uitgevoerd door geselecteerde onderzoekinstitu-ten. Jaarlijks kunnen tot 1 september hier aanvragen voor onderzoek worden ingediend.

In een brief aan de Tweede Kamer van 12 juni 2009 maakt de minister het voornemen bekend om naar aanleiding van de evaluatie van de PROO het convenant met NWO per 1 januari 2010 aan te passen en daarnaast de hele sector van het onderwijsonderzoek in kaart te laten brengen. Het gaat er

16 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 21: Bewezen beleid in het onderwijs

daarbij om zowel de wetenschappelijke waarde van de onderwijsweten-schappen als geheel in kaart te brengen als ook de maatschappelijke waarde. Dit moet leiden tot een sectorplan onderwijsonderzoek.

Er is een tendens dat steeds meer onderzoek gericht op cruciale aspecten van het onderwijsbestel niet via de in 1997 geschapen kanalen loopt, maar rechtstreeks door het ministerie wordt gefinancierd. Voorbeelden daarvan zijn onderzoeksprogramma’s als ‘Onderwijsbewijs’ (€ 25 miljoen voor 2007 tot 2010!), onderzoeksinstituten als TIER en onderzoeksgedreven innovatieprogramma’s als ‘Durven, Delen, Doen’. Door het fenomeen internet is de verspreiding van onderzoeksresultaten in een stroomversnelling geraakt. Tal van instellingen hebben op hun website links naar onderzoek dat voor hen van belang is. Onderzoek van zeer ongelijksoortige aard. Dat doet dan weer de vraag rijzen naar ‘portals’ met ordeningscriteria voor aard en kwaliteit van onderzoek.

1.3 Het gebruik van wetenschappelijke kennis door het beleid: twee voorbeelden

Het gebruik van onderzoeksresultaten kan per type gebruiker worden beschreven. In deze bijdrage concentreren we ons op het gebruik door de rijksoverheid. Louter om pragmatische redenen. Een systematische en grondige analyse vergt een meerjarig onderzoek en om deze redenen beperken we ons tot het beschrijven van twee omvangrijke beleidspro-gramma’s waarbij onderzoek een rol is toebedeeld. Te weten het ‘achter-standenbeleid’ en het ‘beleid met betrekking tot de groepsgrootte in het basisonderwijs’.

1.3.1 Achterstandenbeleid

De landelijke evaluatie van het onderwijsvoorrangsbeleid vond plaats van augustus 1986 tot medio 1997. Dit evaluatieprogramma was met een jaarlijks budget van anderhalf miljoen gulden in die periode een van de meest omvangrijke in de sociale sector. Aanleiding tot de inrichting van een zo omvangrijke evaluatie was de politieke discussie over de voortzet-ting van het onderwijsachterstandenbeleid in de jaren 1984 tot 1986. Na ampele overwegingen werd besloten dit beleid in vernieuwde vorm voort te zetten, maar om het daarbij wel te doen vergezellen door een stevige evaluatie. Hoewel de evaluatie in 1997 werd beëindigd, zijn belangrijke onderdelen tot op heden nog operationeel. De cohortstudies die werden opgezet in het evaluatieprogramma als LEO (landelijke evaluatie onderwijsvoorrangsbeleid)-cohorten zijn later in de vorm van de PRIMA- cohorten en nu als ‘Cool 5-18 cohort’ nog steeds terug te vinden. In de oorspronkelijke LEO- cohorten werden jaarlijks 40.000 kinderen in groep vier, zes en acht van de basisschool getoetst op taal en rekenen en gevolgd in hun schoolloopbaan. Een aansluitend cohort was er voor het voortgezet

Essaybundel Bewezen Beleid in het Onderwijs | 17Ministerie van Onderwijs, Cultuur en Wetenschap

Page 22: Bewezen beleid in het onderwijs

onderwijs. De ontwikkeling van kinderen uit de doelgroepen van het beleid, zowel autochtone als allochtone achterstandsleerlingen, kon zo worden gevolgd, vergeleken met die van andere kinderen en gerelateerd aan factoren variërend van de inzet van faciliteiten in de scholen tot de kwaliteit van de leerkracht en het ondersteunend gedrag van ouders in de thuissituatie.

De aansturing van het evaluatieprogramma is gedurende de looptijd vrij constant geweest. Het werd begeleid en aangestuurd door een Projectgroep Evaluatie OVB, onder voorzitterschap van prof. N. Lagerweij, en gecoördineerd door drs. J. Kloprogge, op basis van afspraken tussen het ministerie van Onderwijs en de Stichting voor Onderzoek van het Onderwijs. De uitvoering gebeurde door een aantal onderzoeksinstituten, deels op basis van meerjarige afspraken, deels via aanbesteding met beoordeling door een wetenschappelijke commissie.

Het was de bedoeling dat de evaluatie bruikbare wetenschappelijke kennis en inzichten zou opleveren voor zowel het onderwijsbeleid als het onderwijsveld. Er werd daarom steeds een deel van het budget gereser-veerd om de onderzoeksresultaten te verspreiden richting beleid en onderwijsveld, maar ook richting een breder publiek. Door de landelijke en ook regionale pers werd aan de resultaten van onderzoeken in het kader van de evaluatie regelmatig aandacht besteed. Een aantal publicaties richtte zich verder meer specifiek op de onderzoekswereld, waarbij ook in Engelstalige wetenschappelijke tijdschriften werd gepubliceerd.

De pogingen om de opbrengsten van het evaluatieprogramma indringend onder de aandacht te brengen van beleid en onderwijs- (en welzijns-) veld werden geïnspireerd en ondersteund door een artikel van Eleanor Chelimsky (1987), de toenmalige directeur van de ‘program evaluation and methodology division’ van het General Accounting Office in Washington. In dit artikel gaat zij onder meer in op vraagstukken rond de ontwikkeling van de beleidsvraag, de vertaling van de beleidsvraag in evaluatievragen, de vertaling van de evaluatievraag in de evaluatie, de vertaling van de evaluatieresultaten in antwoorden voor het beleid en het gebruik van evaluatieresultaten en genereren van nieuwe beleidsvragen. De dissemi-natie van de onderzoeksresultaten gebeurde via jaarlijks gepubliceerde korte beleidsrapportages (de ‘blauwe boekjes’) van ongeveer vijfentwintig pagina’s, persberichten en persconferenties, grote conferenties, artikelen in Nederlandse en internationale tijdschriften, spreekbeurten en optredens voor radio en soms tv en kleine specialistische symposia. Het blijft echter moeilijk om te bepalen hoeveel invloed de evaluatie op het beleid heeft gehad. Sommige aanbevelingen, bijvoorbeeld om de scholen te informeren hoeveel extra formatie zij kregen vanuit het onderwijsvoor-

18 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 23: Bewezen beleid in het onderwijs

rangsbeleid of om de vrijblijvendheid bij de inzet van middelen te beperken, werden vrijwel jaarlijks vruchteloos herhaald. Op andere punten volgde het beleid wel de evaluatie.

Belangrijke voorbeelden zijn;Het gebruik van toetsen in het onderwijs. In de periode 1978-1986 waren ■■

toetsen ‘not done’ in de scholen, het evaluatieprogramma realiseerde hier een doorbraak.Hernieuwde aandacht voor taal en rekenen. Onderzoeken van rond 1980 ■■

laten zien dat in deze periode nog slechts tien tot 15% van de leerkrach-ten en directeuren in het basisonderwijs hier belang aan hechtte. Grotendeels ongedaan maken van een grote bezuiniging op het beleid ■■

door het ministerie van WVC (nu VWS) in 1987.De aanpassing van de criteria voor het leerlinggewicht 1,25 waardoor de ■■

faciliteiten effectiever werden toegekend. Het expliciteren en aanscherpen van de doelstellingen van het over-■■

heidsbeleid. Tot 1986 gebeurde dit in nogal vage en niet te operationali-seren termen zoals het verbeteren van ontwikkelingskansen. Later werden basisvaardigheden en schoolloopbaanverbetering als concrete doelen benoemd.

Sommige politiek-verantwoordelijke bewindslieden gaven expliciet te kennen het evaluatieprogramma als een proefballon voor hun beleid te zien. Als de evaluatie bepaalde aanbevelingen deed die goed werden ontvangen, konden zij met hun beleid veilig volgen.Hoewel er dus wel degelijk invloed uitging van de evaluatie op het beleid, was de invloed richting veld sterker. Kloprogge merkte in 1996 op ‘Eigenlijk was het een beleidsonderzoek, maar de scholen hebben er meer consequenties aan verbonden dan het beleid zelf’. Hierbij is op te merken dat de aan het onderzoek deelnemende scholen tweejaarlijks een rapportje kregen waarin ze de toetsresultaten van hun eigen kinderen konden vergelijken met de van andere scholen en met landelijke gemiddelden. Dit had een grote impact op het beleid van veel scholen, al was deze terugrapportage zeker in de beginperiode zeer omstreden.

Aan het eind van de evaluatie zijn twee retrospectieve publicaties uitgebracht, waarin op allerlei aspecten van deze grootschalige evaluatie wordt gereflecteerd. De dringende aanbeveling in de afrondende brochure uit 1997 om ook in de toekomst cohortstudies te blijven uitvoeren, met longitudinale en cross-sectionele vergelijkingsmogelijkheden, is in ieder geval in goede aarde gevallen. Op basis daarvan zijn longitudinale analyses gemaakt over de ontwikkelingen van de prestaties van achterstandsleer-lingen tussen 1988 en 2002. Deze zijn afgezet tegen de ontwikkelingen van de ‘gemiddelde leerling’. Uit de analyses blijkt dat met name de allochtone

Essaybundel Bewezen Beleid in het Onderwijs | 19Ministerie van Onderwijs, Cultuur en Wetenschap

Page 24: Bewezen beleid in het onderwijs

leerlingen hun achterstand enigszins inlopen. Helaas geldt dat niet voor de autochtone leerlingen (Mulder e.a., 2005).

Deze resultaten geven niet het definitieve antwoord op de vraag of de verbeteringen uitsluitend zijn toe te schrijven aan het achterstandenbe-leid. Tal van andere, niet te isoleren factoren kunnen mede van invloed zijn geweest op de geconstateerde ontwikkelingen. Ook niet de ontwikke-lingen die een eventuele achteruitgang hebben veroorzaakt. Een gerando-miseerde experimentele opzet had wellicht daar meer zicht op kunnen bieden. Een experiment waarin bijvoorbeeld in 1987 het vigerende achterstandsbeleid moest worden gestopt om vervolgens gedurende vijf jaar aan honderd aselect gekozen scholen wel weer een budget toe te kennen en de effecten te vergelijken met een controlegroep van honderd aselect gekozen scholen, is waarschijnlijk nooit overwogen.

1.3.2 Beleid met betrekking tot de groepsgrootte in het basisonderwijs

De discussie over de gewenste groepsgrootte in het onderwijs is van alle tijden. De stelling ‘hoe kleiner, hoe beter’ lijkt daarbij opgeld te doen. Hoewel, pleidooien voor groepen kleiner dan twaalf worden zelden gehoord. Als het om investeringen in het onderwijs gaat waarbij algemene maatregelen aan de orde zijn om de kwaliteit te verbeteren, dan zijn er steeds twee onderwerpen die er uitspringen: lerarensalarissen en groepsgrootte. Het is dan ook niet verwonderlijk dat met name economen zich in het verleden veelvuldig met deze twee zaken hebben bezig gehouden. Leiden hogere salarissen tot beter onderwijs en daardoor tot betere leeropbrengsten? Leiden kleinere klassen tot betere leeropbrengsten?

De onderzoeksresultaten met betrekking tot de groepsgrootte waren tot in de tweede helft van de negentiger jaren niet eensluidend (Bosker, Blatchford & Meijnen, 1999). Op geaggregeerd niveau, het onderzoek dat veelal door economen werd uitgevoerd, werd zelden een verband aangetroffen tussen groepsgrootte en leerresultaten. Toegespitste analyses waarbij ook de uitkomsten van experimenten werden betrokken, duidden in die tijd daarentegen soms wel op een positief verband.

Discussies over groepsgrootte steken periodiek de kop op. Zo ook in 1995. De media stortten zich op het onderwerp en ook in het parlement groeide de overtuiging dat een majeure stap moest worden gezet. In het voorjaar van 1966 werd de Commissie Van Eijndhoven geïnstalleerd, die in oktober van dat jaar haar advies uitbracht. Onderdeel van het advies waren analyses die de commissie had laten verrichten op de data van het PRIMA-cohort onderzoek. Een algemeen en duidelijk positief verband

20 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 25: Bewezen beleid in het onderwijs

werd niet gevonden, wel samenhang in leerjaren met jonge leerlingen (Bosker, Blatchford & Meijnen, 1999)1.

Gegeven de vrijheid van scholen om formatie in te zetten naar eigen inzicht zou een algemene verhoging in formatietoekenning heel divers kunnen uitvallen. Groepsgrootteverkleining zou een mogelijke uitkomst kunnen zijn, maar was niet gegarandeerd. Gelet op de uitkomsten van de analyse op de PRIMA-cohort data en uitkomsten van ander onderzoek, komt de commissie tot het advies de extra middelen te oormerken: een groepsgrootte van maximaal vijfentwintig voor de onderbouw en vierendertig voor de bovenbouw. Scholen zouden dit kunnen realiseren als zij bekostigd zouden worden voor één leraar op twintig leerlingen in de onderbouw en één op achtentwintig in de bovenbouw. De commissie stelt voor de eerste maatregelen voor de onderbouw te laten ingaan per 1 augustus 1997. De maximale klassengrootte in zowel de onder- als de bovenbouw kan dan binnen vijf jaar worden gerealiseerd. Dit vergt naar schatting van de commissie een financiële impuls van circa 175 miljoen gulden in 1997 oplopend tot ruim 1.1 miljard gulden in 2001.

In een persbericht van het ministerie van Onderwijs laat staatssecretaris Netelenbos weten ‘verheugd te zijn dat nu de relatie tussen de kwaliteit van het onderwijs en de groepsgrootte is vastgesteld. Dat is een belangrijk gegeven in de verdere plannen die ontwikkeld worden om de kwaliteit van het onderwijs te verbeteren’ (ministerie van OCW, 22-10-1996). Daarop is een beleidstraject gevolgd, getiteld ‘Groepsgrootte en kwaliteit’ eindigend in een wijzigingswet op het primair onderwijs ingediend in het voorjaar van 1999. In de Memorie van Toelichting valt te lezen: ‘In 1996 stelde de commissie Van Eijndhoven in het advies ‘Klassenverkleining’ voor om een wettelijk maximum aan de omvang van de groepen te stellen. De regering kiest niet voor zo’n wettelijk maximum, omdat dit in de praktijk ongewenste effecten kan hebben’ (TK, 12-05-1999, kamerstuk 26513). De extra toe te voegen formatie dient echter wel uitsluitend aan de vier- tot en met zevenjarigen ten goede te komen maar hoeft niet te worden vertaald in de toename van groepsleerkrachten. Meer onderwijsassistenten, extra remedial teaching of extra management voor de onderbouw is ook toegestaan. Groepsgrootteverkleining voor de acht- tot twaalfjarigen wordt om budgettaire redenen voorlopig niet doorgevoerd.

Van het oorspronkelijke advies is derhalve aanzienlijk afgeweken en ook van de randvoorwaarden van de beloftevolle experimenten die door de onderzoekers waren gerapporteerd. Een en ander als gevolg van de steeds sterker wordende beleidsfilosofie dat de scholen meer beleidsruimte

1 Noot: een heranalyse enkele jaren later door andere onderzoekers en middels een andere methodiek, leverde daarentegen nul-resultaten op voor de jongste groep en enigszins positieve voor leerjaren in de middenbouw (idem).

Essaybundel Bewezen Beleid in het Onderwijs | 21Ministerie van Onderwijs, Cultuur en Wetenschap

Page 26: Bewezen beleid in het onderwijs

zouden moeten krijgen. De oormerking van de middelen, zoals door de commissie Van Eijndhoven voorgesteld, zou daarop een te forse inbreuk betekenen. Niet verwonderlijk is daarom vier jaar later ook de oormerking voor de onderbouw geheel losgelaten.

In de loop der tijd zijn er vele voortgangsrapportages over het project verschenen evenals wetenschappelijk onderzoek naar het implementatie-proces. In de tiende voortgangsrapportage uit februari 2003 (ministerie van OCW, 2003) wordt gemeld dat ten opzichte van vóór de start van het project een daling is gerealiseerd van 2.8 leerlingen in de onderbouw. Naast de reguliere groepsleraar wordt de formatie van de onderbouw ook ingezet voor onderwijsassistenten, vakleerkrachten, remedial teachers en coördinatoren onderbouw. De verhouding tussen het aantal leerlingen en het aantal personeelsleden ligt twee leerlingen lager dan de gemiddelde groepsgrootte. De rapportage vermeldt verder dat de daling van het aantal leerlingen een positief effect heeft op de onderwijskwaliteit omdat de leerkrachten het didactisch handelen beter kunnen afstemmen op de individuele behoefte van de leerlingen. Ook zouden zwakke leerlingen en zeer goede leerlingen baat hebben bij kleinere groepen en zou de aantrekkelijkheid van het beroep van leerkracht zijn toegenomen.

Bijna tien jaar na de start van het beleid ‘Groepsgrootte en Kwaliteit’ is onderzocht wat de gevolgen zijn van de verschillende manieren waarop scholen hun formatie inzetten op het onderwijs en op de ontwikkeling van onderbouwleerlingen (Doolaard & Bosker, 2006). De onderzoekers rapporteren in hun samenvatting dat in kleine groepen twee en drie, met minder dan achttien leerlingen, en in groepen met extra hulp het onderwijs adaptiever lijkt te zijn dan in grotere groepen. Er wordt meer in kleinere groepen en individueel gewerkt en er is meer interactie. Vooral drukke leerlingen profiteren van extra hulp; zij krijgen meer aandacht waardoor zij taakgerichter zijn. Maar, er is ook een keerzijde: er zijn ook meer leerlingen die onbegeleid zijn of niet werken, er wordt meer gepraat over dingen die niet met het werk te maken hebben. Het lijkt in deze groepen wat onrustiger. In groep twee zijn leerlingen dan ook minder taakgericht als er extra hulp is. In groep drie is de groepsgrootte doorslag-gevend: hoe kleiner de groep hoe taakgerichter de leerlingen. Dit werkt door op de leerlingprestaties. In een groep drie van ‘medium’ grootte, twintig à eenentwintig leerlingen, zijn de rekenprestaties significant beter dan in grotere groepen. Voor taal geldt dezelfde tendens. De positieve invloed houdt zelfs stand in groep vier. Groepen drie met minder dan twintig leerlingen hebben wel een positief effect op de prestaties, maar dit weegt niet op tegen de extra kosten die dat met zich meebrengt. De negatieve invloed van de extra hulp in groep twee op de taal- en reken-

22 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 27: Bewezen beleid in het onderwijs

prestaties lost in groep drie weer op, maar roept wel de vraag op hoe de extra hulp beter benut zou kunnen worden. Zeer kleine en zeer ‘zwarte’ scholen waren niet in dit onderzoek meegenomen.

Ook dit onderzoek geeft in strikte zin geen antwoord op de effecten van het uitgevoerde beleid als het gaat om het didactisch handelen van de leerkracht en de leeropbrengsten. Een experimentele opzet met variatie in modellen van formatie-inzet had ook hier meer inzicht kunnen opleveren. Bosker en Meijnen hebben in 1997 daartoe een onderzoeksvoorstel bij het ministerie van OCW ingediend. Honorering van het voorstel zou wel inhouden dat de landelijke uitrol van het beleid met minimaal twee jaar zou moeten worden opgeschort. Het voorstel heeft in de besluitvorming nooit een rol gespeeld.

De casus ‘Achterstandsbeleid’ leert dat de onderzoeksresultaten in dit geval vooral in formatieve zin gebruikt worden, te weten bijsturing van het beleid. De resultaten hebben tot nu toe niet geleid tot een discussie over het al of niet beëindigen van het beleid. Integendeel, er wordt in toene-mende mate gezocht naar een efficiëntere inzet van middelen dan wel naar alternatieve impulsen. Te denken valt aan de intensivering van de voor- en vroegschoolse educatie, het inrichten van schakelklassen enzovoorts. Experimenteel onderzoek, met de daarbij behorende beleidsingrepen, dat gegevens zou opleveren over de netto-effecten van het beleid, wordt tot nu toe niet overwogen.

De casus ‘Groepsgrootte en kwaliteit’ laat zien dat een geringe empirische evidentie door de beleidsmakers werd omarmd ter ondersteuning van een forse beleidsimpuls. De wil om iets aan de groepsgrootte te doen domineerde destijds en was van doorslaggevende betekenis. Ook hier laten de onderzoeksresultaten geen finaal oordeel toe over de effecten van de beleidsimpuls. Er zijn echter nog geen signalen waar te nemen die pleiten voor het terugdraaien van de verkleining van de groepsgrootte.

Hoewel de beschreven casussen uiteraard maar een voorlopige conclusie toelaten, illustreren ze dat er geen directe relatie is tussen onderzoek en beleid; beleid en onderzoek zijn eerder te beschouwen als ‘loosely joined’ systemen. Beleid wordt bepaald in een maatschappelijke en politieke dynamiek waarin onderzoeksresultaten vooral gebruikt worden ter bevestiging van het vigerende beleidskader. Dit kan leiden tot aanpassin-gen in het beleid, maar vrijwel nooit is er sprake van een rigoureuze herdefiniëring van de beleidstheorie.

Essaybundel Bewezen Beleid in het Onderwijs | 23Ministerie van Onderwijs, Cultuur en Wetenschap

Page 28: Bewezen beleid in het onderwijs

1.4 SlotHet meest opvallende aan de kennisketen in de onderwijssector is versnippering. Subsidies voor onderzoek worden door de rijksoverheid bij veel instellingen ondergebracht, terwijl de overheid ook in toenemende mate optreedt als directe financier. De onderlinge afstemming qua programmering is miniem en ook de procedures voor het verwerven van subsidies door onderzoeksinstellingen of onderwijsinstellingen variëren zeer evenals de kwalitatieve eisen waaraan onderzoeksvoorstellen moeten voldoen.

Opvallend is ook dat de schakels tussen onderzoek, ontwikkeling, implementatie en evaluatie zeer zwak zijn. In het bijzonder ontbreekt een structurele samenhang tussen onderzoek en innovatie. De rol van de landelijke en regionale adviescentra is in dit perspectief, onder andere door de overheveling van de subsidiestromen naar de scholen, in toene-mende mate onduidelijk geworden. Maar ook het feit dat het onderwijs-veld en het beleid vaak klagen over de geringe bruikbaarheid van door de ‘fundamentele’ wetenschap voortgebrachte resultaten, vraagt om een herziening van de organisatie van de keten. Deze herziening vereist een voortrekkersrol van de rijksoverheid, in het bijzonder van het ministerie van OCW. Uiteraard zijn met een betere organisatie de problemen met betrekking tot de inhoudelijke versterking van de schakels in de kennisketen nog niet opgelost. Maar die verantwoordelijkheid ligt dan voor een belangrijk deel bij actoren in het onderwijsveld waartoe zowel universitaire onderzoekers en adviseurs uit de infrastructuur als sectorraden en schoolbesturen horen.

24 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 29: Bewezen beleid in het onderwijs

Literatuur

Appelhof, P. H. van Gennip, W. de Geus, E. Jacobs, L. Mulder, L. van Tilborg, W. de Wit (1997).

En toen was het OVB er niet meer… Utrecht, Sardes.

De Boer, Y (2009). Onderwijs onderzocht, 12,5 jaar PROO. Den Haag; NWO.

Broekkamp. H, R. Vanderlinde, B.H.A.M. Van Hout-Wolters en J. Van Braak (2009). De relatie

tussen onderwijsonderzoek en onderwijspraktijk verkend in Nederland en Vlaanderen.

Pedagogische Studiën, 86, (4), 313-320.

Chelimsky, E. (1987). What have we learned about the politics of program evaluation, in:

Educational evaluation and policy analysis, 9, (3), 199-213.

Creemers. B. en W. Hoeben (1984). Onderzoek tussen onderwijsontwikkeling en weten-

schapsontwikkeling, Den Haag; SVO.

Kemenade, J.A. van (1979). Onderwijsresearch en onderwijsbeleid. In: J.A. van Kemenade,

Als de smalle weegbree bloeit. Opstellen over onderwijs en onderwijsbeleid. Amsterdam: Bert

Bakker.

Kemenade, J.A. van, N. van Lagerweij, J. Leune, J. Ritzen (1986). Onderwijs bestel en beleid 1.

Groningen: Wolters-Noordhoff.

Ministerie van OCW (1996). Groepsgrootte in onderbouw maximaal 25; bovenbouw 34.

Persbericht 22-1-1996. Directie Communicatie.

Ministerie van OCW (2003). Tiende voortgangsrapportage ‘Groepsgrootte en kwaliteit’. Den

Haag: Ministerie van OCW.

Ministerie van OCW (2009). Brief aan de Tweede Kamer in zake onderwijsonderzoek, ref

128984. Den Haag, SDU.

Mulder, L., J. Roeleveld, I. van der Veen en H. Vierke (2005). Onderwijsachterstanden tussen

1988 en 2002. Ontwikkelingen in basis- en voortgezet onderwijs. Nijmegen: ITS/SCO-

Kohnstamm Instituut.

NWO-PROO (2009). Onderwijs onderzocht. Den Haag: NWO.

Tromp, H. (1997). Opkomst en teloorgang van een instituut, dertig jaar SVO. In: G. Kerkvliet &

F. Vanderwilt, Terugblik op dertig jaar SVO. Den Haag: SVO.

Vanderwilt, F. (1996). Evaluatie onderwijsvoorrangsbeleid, In: G. Kerkvliet & F. Vanderwilt,

Terugblik op dertig jaar SVO. Den Haag: SVO.

Vereniging de Samenwerkende Landelijke Pedagogische Centra (2008). De R&D-functie van

de LPC in het kader van de SLOA. ‘s-Hertogenbosch: KPC.

Weiss, C. (1980). Social Science Research and Decisionmaking. New York: Columbia University

Press.

Essaybundel Bewezen Beleid in het Onderwijs | 25Ministerie van Onderwijs, Cultuur en Wetenschap

Page 30: Bewezen beleid in het onderwijs

02Experimentele designs in onderwijs-onderzoekRoel BoskerHoogleraar onderwijskunde, RUG - TIER

Ministerie van Onderwijs, Cultuur en Wetenschap26 | Essaybundel Bewezen Beleid in het Onderwijs

Page 31: Bewezen beleid in het onderwijs

2.1 Het “echte” experimentIn de Nederlandse onderwijswetgeving komt ook de Experimentenwet onderwijs voor. Het cruciale deel bestaat uit lid 1 van artikel 2 uit die wet en luidt: “Indien het bevoegd gezag bij wijze van experiment onderwijs wenst te geven dat valt buiten de kaders van de afzonderlijke onderwijs-wetten, kan Onze minister beslissen dat dit onderwijs uit de openbare kas wordt bekostigd.” Onze zuiderburen hebben het over proeftuinen in plaats van experimenten, en de discussie over het gebruik van experimenten in het onderwijsonderzoek zou er sterk bij gebaat zijn als we de Experimentenwet zouden omdopen in een Proeftuinenwet. Waarom? Omdat met de wet wordt gedoeld op een “proefneming om nieuwe werkwijzen, inrichtingen, enz. te proberen”, zoals de Van Dale de tweede betekenis van het woord experiment omschrijft, en volwassenen en kinderen die deel uitmaken van zo’n experiment zijn proefkonijnen in een proeftuin.

Bij wetenschappelijk onderzoek gaat het daarentegen om “een volgens plan uitgevoerde proef om tot nieuwe kennis te komen (…), of om een theorie te toetsen.” Hier hebben we het over de eerste, wetenschappelijke betekenis van het woord experiment, waar het gaat om de proef op de som. Als dat plan aan bepaalde wetenschappelijke eisen voldoet, dan kan er sprake zijn van een “echt” experiment. In het vervolg zal ik het woord experiment alleen nog maar in deze betekenis gebruiken. Die wetenschap-pelijke eisen betreffen de aselecte toewijzing van individuen aan verschil-lende experimentele condities en de controle van de onderzoeker over die condities (Shadish, Cook, & Campbell, 2002). In deze bijdrage zal ik eerst uiteen zetten waarom het experiment ook wel de gouden standaard wordt genoemd. Vervolgens ga ik in op de plaats die dit type onderzoek speelt bij de vermeerdering van onze kennis over wat er werkt in het onderwijs. Daarna komt een specifieke versie van het experiment aan de orde, namelijk de Cluster Randomized Controlled Trial, die met name in het onderwijsonderzoek een prominente plaats inneemt. Daarbij ga ik in op de veel gestelde vraag of en hoe zo’n type experiment uitgevoerd kan worden. Tenslotte behandel ik een aantal problemen die met het uitvoeren van experimenten verbonden zijn en geef enkele suggesties hoe daarmee omgegaan kan worden.

2.2 De gedachtegang achter het experimentIn wetenschappelijke theorieën over het onderwijs worden uitspraken gedaan over oorzaak-gevolg relaties: als de leerkracht zus doet heeft dit zo’n effect op de ontwikkeling van leerlingen. In de logica wordt in dit verband gesproken over noodzakelijke en voldoende voorwaarden. Als A een noodzakelijke voorwaarde is voor B, dan geldt dat als B optreedt ook A het geval moet zijn. Bijvoorbeeld: alleen als de leraar in staat is adequaat

Essaybundel Bewezen Beleid in het Onderwijs | 27Ministerie van Onderwijs, Cultuur en Wetenschap

Page 32: Bewezen beleid in het onderwijs

rekenonderwijs te verzorgen zullen de leerlingen in staat zijn een hoog rekenvaardigheidsniveau te bereiken. De leerlingen hebben een hoog rekenvaardigheidsniveau, dan moet de leraar op adequate wijze het rekenen onderwezen hebben. Als A een voldoende voorwaarde is voor B dan geldt dat als A optreedt ook B zal optreden. Maar het is in dit geval niet zo dat als B optreedt ook A het geval moet zijn. Bijvoorbeeld: als een leerling dag in dag uit gepest wordt zal hij zich onzeker voelen. De leerling wordt continu gepest, dan zal hij zich onzeker voelen. Maar niet elke leerling die zich onzeker voelt is continu gepest. Nu was dit een negatief voorbeeld, maar we zijn natuurlijk op zoek naar voldoende voorwaarden voor een positieve ontwikkeling van leerlingen. Om te kunnen vaststellen of A een voldoende voorwaarde voor B is kunnen we te werk gaan via de methode van de counterfactual. We creëren een situatie waar A niet wordt toegepast. Als dan toch B optreedt, weten we dat A niet een voldoende voorwaarde voor B was. Zie hier het idee van het experiment: een controlegroep die niet de interventie ondergaat.

De situatie is echter vaak, om niet te zeggen: altijd, complexer dan één oorzaak en één gevolg. Het gaat meestal om een een samenspel van factoren dat de oorzaak is voor een bepaald gevolg. Mackie (1974) heeft in dit verband voorgesteld om te spreken over een zogenaamde INUS-voorwaarde: “an Insufficient but Nonredundant part of an Unnecessary but Sufficient condition.” Ofwel: een onvoldoende maar niet overbodig deel van een niet noodzakelijke maar wel voldoende voorwaarde. We kunnen deze ingewikkelde zin het best verduidelijken met het volgende voorbeeld. Als er sprake is van een specifiek samenstel van factoren (een niet noodzakelijke maar wel voldoende voorwaarde) waarvan een substantiële taalachterstand een onmisbaar onderdeel vormt (een onvoldoende maar niet overbodig deel), dan zal de leerling een vertraging in zijn schoolloopbaan oplopen. Dit betekent dat als we constateren dat bij een leerling een vertraging in zijn schoolloopbaan optreedt van alles en nog wat daar de oorzaak van kan zijn. Maar als het betreffende complex van factoren optreedt (bijvoor-beeld: substantiële taalachterstand, allochtone Nederlander, jongen, gedemotiveerd) dan zal die vertraging alleen optreden als inderdaad onder meer sprake is van een substantiële taalachterstand.

De logica heeft betrekking op deterministische uitspraken: er is geen enkele uitzondering op de gegeven regel mogelijk. Is dat wel het geval dan geldt de causale redenering niet meer. Echter, in de sociale werkelijkheid, en dus ook in het onderwijs, gaat het niet om deterministische maar om probabilistische uitspraken: als de leraar zus doet neemt de kans toe dat de leerling zich zo zal ontwikkelen. Als het samenspel van factoren, waaron-der die substantiële taalachterstand, zich voordoet, neemt de kans toe dat de leerling een vertraging in zijn schoolloopbaan zal oplopen.

28 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 33: Bewezen beleid in het onderwijs

Om over causaliteit te kunnen spreken is het wezenlijk dat:1. de oorzaak A (de leerkracht doet zus) vooraf gaat aan het gevolg B

(de leerling ontwikkelt zich zo);2. variaties in de oorzaak A samenhangen met variaties in het gevolg B;3. er geen andere oorzaken voor het betreffende gevolg B zijn aan te

wijzen.Het is met name de laatste voorwaarde die het experiment tot de gouden standaard verheft: geen enkel ander type onderzoeksontwerp kan zo goed aan die voorwaarde voldoen. De reden daarvoor is, dat alleen in het experiment de onderzoeker én controle over de toewijzing van proefper-sonen (bijvoorbeeld leerlingen, leraren) aan de condities én over de condities zelf heeft. Hij zorgt ervoor dat de te vergelijken groepen equivalent zijn, zodat alle verschillen na afloop van het experiment alleen nog maar te maken kunnen hebben met verschillen tussen de condities. En omdat de onderzoeker de experimentele en controleconditie zelf in de hand heeft, manipuleert hij zelf de onafhankelijke variabele – de oorzaak – in zijn onderzoek. In onderstaande tabel wordt dit schematisch weergegeven:

Tabel 1 Controle bij drie typen onderzoeksdesignsManipulatie onafhankelijke variabele (interventie)?

Aselecte toewijzing aan condities?

Experiment JA JA

Quasi-experiment JA NEE

Niet experimenteel onderzoek NEE NEE

Een eenvoudig, versimpeld voorbeeld om dit duidelijk te maken is onderzoek naar leren met een interactief computerprogramma (experi-mentele conditie) versus leren met een traditioneel leerboek (controle conditie). Stel dat er 50 leerlingen aan het onderzoek mee kunnen doen, dan betekent aselecte toewijzing dat het lot (door het opgooien van een munt) bepaalt of een leerling in de experimentele of de controle conditie terecht komt. Dat betekent ook dat alle verschillen tussen de experimen-tele en de controlegroep bij aanvang van het experiment toevallig zijn en dus verwaarloosbaar (Rubin, 1974). In dit voorbeeld heeft de onderzoeker de stimulus ook (min of meer) onder controle want het interactieve computerprogramma kan hij zelf selecteren en hij heeft zelf in de hand dat de instructie (hetzij met de computer hetzij via het leerboek) over hetzelfde onderwerp gaat en ook even lang duurt. De implicatie van het voldoen aan beide voorwaarden is dat de verschillen tussen de twee groepen leerlingen na afloop van het experiment niet zijn toe te schrijven aan andere oorzaken dan aan de interventie.

Essaybundel Bewezen Beleid in het Onderwijs | 29Ministerie van Onderwijs, Cultuur en Wetenschap

Page 34: Bewezen beleid in het onderwijs

Er zijn nog drie belangrijke randvoorwaarden: de deelnemende leerlingen mogen niet weten dat ze meedoen aan een experiment (anders gaan ze zich wellicht anders gedragen dan ze normaal zouden doen). Ook de “testleiders” - in dit geval degenen die de leerlingen aan het werk zetten met de computer respectievelijk het leerboek - mogen dit niet weten. Dit wordt het “dubbel-blind” principe genoemd. Voorts geldt dat elke leerling volstrekt individueel en ongestoord bezig is. Dit laatste heeft met de controle over de experimentele conditie te maken. Alleen het aldus opgezette experiment kan uitsluitsel geven over oorzaak-gevolg relaties: dat leerlingen in de experimentele groep zitten (en niet in de controle-groep) is de enige reden dat de leerlingen anders zullen scoren op een testje dat na afloop van het onderzoek wordt afgenomen. In onderstaande figuur wordt schematisch de opzet van het experiment weergegeven.

Figuur 1 De opzet van het experimentR X O

R O

Er zijn twee condities (wel interventie X of niet) waarover personen gerandomiseerd (R) worden. Na afloop vindt er een observatie of meting (O) plaats bij beide groepen.

Waarom het experiment de gouden standaard wordt genoemd heeft te maken met de bedreigers van interne validiteit (d.w.z. ze brengen de oorzaak-gevolg redenering in gevaar) die bij dit onderzoeksdesign (veel) minder een rol spelen dan bij andere. Met name genoemd zijn de volgende:

vertekening door selectie: verschillen tussen de groep die behandeld ■■

wordt en de controlegroep zijn al bij aanvang aanwezig omdat de proefpersonen zichzelf geselecteerd hebben. In dat geval zijn degenen die meedoen aan de experimentele conditie meestal gemotiveerder dan degenen die in de controleconditie zitten. Dit probleem treedt dus niet op een experiment waar de onderzoeker op basis van toeval de proef-personen toewijst aan de condities.de invloed van bijzondere omstandigheden is afwezig omdat de ■■

onderzoeker die controleert. Als er al iets bijzonders gebeurt dan zal het evenzeer de proefpersonen in de controlegroep betreffen als in de interventieconditie. door de randomisatieprocedure weten we dat de interventie- en ■■

controlegroep equivalent zijn. Voortoetsen hoeven niet afgenomen te worden. Het nadeel van voortoetsen, indien afgenomen, zou namelijk kunnen zijn dat het de deelnemers aan het onderzoek gevoelig maakt voor de interventie of door de voortoets zelf treedt al een leereffect op.

30 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 35: Bewezen beleid in het onderwijs

Dan zijn er nog een reeks bedreigers van de interne validiteit die in het experiment evenzo goed als in het quasi-experiment, gecontroleerd worden, zoals rijping (tussen het begin en het eind van het onderzoek ontwikkelen de leerlingen zich sowieso, en dat is op zich geen gevolg van de interventie) of regressie-naar-het-gemiddelde (laagpresteerders gaan gemiddeld genomen vooruit en hoogpresteerders achteruit omdat testen nooit perfect betrouwbaar zijn – dit verschijnsel treedt met name op als men geïnteresseerd is in extreme groepen leerlingen, zoals zorgleerlingen of hoogbegaafden). Deze bedreigers spelen daarom geen rol, omdat ze in dezelfde mate in de interventie- en de controlegroep voorkomen.

2.3 De rol van het experiment bij de gang naar meer evidence based onderwijs

Om te verhelderen wat de rol van het experiment is bij de lange weg naar meer evidence based onderwijs, is het allereerst van belang soorten kennis te onderscheiden, althans onderscheiden naar type onderzoek dat is ingezet om tot die kennis te komen (Onderwijsraad, 2006). Daarbij kan Figuur 2 behulpzaam zijn.

Figuur 2 Naar gedegen kennis over wat er werkt in het onderwijs

praktijkkennis ➜ ➜ kennis uit reviews en meta-analyses

1 2 3 4 5 6 7 8

Essaybundel Bewezen Beleid in het Onderwijs | 31Ministerie van Onderwijs, Cultuur en Wetenschap

Page 36: Bewezen beleid in het onderwijs

In de figuur wordt kennis weergegeven als een proces van stapeling. Links onderaan de berg staat het beginpunt: de praktijkkennis (1), soms vaak impliciete kennis van de leraar, die bijvoorbeeld de groep klein probeert te houden omdat hij daarmee de meest positieve ervaringen heeft. Dan volgt de kennis die we opdoen uit gevalsstudies (2) waarbij één of enkele onderwijspraktijken systematisch worden onderzocht. Zo kan bijvoor-beeld het onderwijs in een wat grotere klas vergeleken worden met een wat kleinere. Men zou kunnen zeggen dat dit onderzoek geen wetenschap-pelijk kennis oplevert, maar in de fase van het doen van ontdekkingen en het opperen van theorieën waarmee een en ander verklaard zou kunnen worden – ook wel de context of discovery genoemd – hoeven minder harde eisen aan het onderzoek te worden gesteld.

Dan komt het correlationele onderzoek (3): door de onderwijspraktijk te observeren en fenomenen te meten, kunnen samenhangen worden geconstateerd: er is een samenhang tussen groepsgrootte en leerpresta-ties. Vervolgens kan iets systematischer worden nagegaan aan de hand van ideaaltypische situaties zoals die zich in de praktijk voordoen wat er aan de hand is: wellicht zijn er een reeks kleine klassen (zeg rond de 18 leerlingen) en een reeks zeer grote klassen (zeg rond de 30 leerlingen). De onderzoe-ker zou dit als een natuurlijk experiment (4) kunnen gebruiken om na te gaan welke verschillen er in de ontwikkeling van leerlingen optreden. Nog een stap verder zou hij leraren kunnen uitnodigen om aan een quasi-expe-riment (5) mee te doen: de leraar mag dan zelf kiezen of hij met zo’n kleine of zo’n grote groep wil werken, en hij mag ook de leerlingen zelf toewijzen aan de grote of de kleine groep. Maar anders dan bij het natuurlijk experiment zorgt de onderzoeker ervoor dat aan die conditie strikt de hand wordt gehouden. Nog een stap verder neemt hij bij de leerlingen in zo’n quasi-experiment een voortoets af (6) om in elk geval achteraf verschillen tussen de groepen op de natoets te kunnen corrigeren voor de verschillen die al bij de voortoets aanwezig waren.

Tot aan dit moment is er kennis opgebouwd over de samenhang tussen de groepsgrootte en de prestaties van leerlingen, maar het echte harde bewijs dat de groepsgrootte de oorzaak van betere prestaties is, is nog niet geleverd. Misschien zijn het immers met name de goed gemotiveerde leraren die wel met een grote groep willen werken, of misschien kiezen de leraren ervoor om met name de leerlingen die extra zorg nodig hebben in een kleine groep te plaatsen. Het harde bewijs komt dan tenslotte met het echte experiment (7): de groepsgroottes worden gefixeerd en de onderzoe-ker wijst zowel leerlingen als leerkrachten aselect aan de grote dan wel kleine groep toe. Dit levert het hardste bewijs over de oorzaak-en-gevolg relatie. Deze laatste reeks onderzoeken zijn meestal gedreven door een uit de theorie afgeleide hypothese die men empirisch wil toetsen – ook wel de

Ministerie van Onderwijs, Cultuur en Wetenschap32 | Essaybundel Bewezen Beleid in het Onderwijs

Page 37: Bewezen beleid in het onderwijs

context of justification genoemd. Hier worden harde eisen gesteld aan transparantie, betrouwbare en valide metingen en repliceerbaarheid. Toch zijn we nog niet op de top van de berg, want daar bevindt zich de review en de meta-analyse (8): de samenvatting van wat al het onderzoek op het betreffende terrein ons leert (zie bijvoorbeeld: Hattie,2009). Daarvoor geldt overigens: de kwaliteit van de onderzoeken die in zo’n meta-analyse worden samengebald, bepalen de kwaliteit van de meta-analyse. Een review van 10 gevalsstudies is natuurlijk minder waard dan een meta-ana-lyse van 10 echte experimenten.

Men zou de weg naar het eerste experiment als een ontwikkelingstraject (research & development) kunnen zien (cf Raudenbush, 2005), waarbij kleinschalig proeftuinen worden ingericht op basis van theoretische en/of praktische inzichten. Dan volgt er kleinschalig kwalitatief of kwantitatief onderzoek naar de effecten van de innovatie, gevolgd door een quasi-experiment. De onderzoeker gaat vervolgens de implementatiecondities nauwkeurig uitwerken (bijvoorbeeld dat leerkrachten extra scholing behoeven om een en ander goed uit te kunnen voeren) en de innovatie wordt opgeschaald. Tenslotte kan een grootschalig experiment plaatsvin-den om te bepalen of de innovatie het gewenste effect bij leerlingen teweeg brengt. Dat het bij innovaties zo hoort te gaan, is ook de zienswijze die door de commissie Dijsselbloem is ontvouwd (Commisie Parlementair Onderzoek Onderwijsvernieuwingen, 2008).

2.4 Het grootschalige experiment in praktijk gebrachtIn het onderwijs kunnen op kleine schaal echte experimenten worden uitgevoerd, zoals in het eerder gegeven voorbeeld waarin het leren met een interactief computerprogramma en het leren met een traditioneel leerboek werden vergeleken. Echter, in de praktijk zullen leraren met een bepaalde aanpak uit de voeten moeten kunnen: zij zullen de interventie moeten implementeren (met mogelijk afwijkingen van de interventie-zoals-bedoeld als gevolg). Zoals aangegeven bij de bespreking van de kennisontwikkeling, betekent dit uiteindelijk dat het experiment plaats gaat vinden bij leraren en/of scholen die gerandomiseerd worden over de condities, zoals ook groepen leerlingen gerandomiseerd worden over de condities. Het onderwijs vindt in de staande praktijk immers in klassen plaats. Een serieuze interventie beslaat op zijn minst een aantal weken zo niet een heel schooljaar. Dit type experiment waarbij hele groepen leerlingen worden gerandomiseerd staat bekend als het Cluster Randomized Controlled Trial (CRCT). Dit is aanmerkelijk ingewikkelder dan het eenvoudige voorbeeld experiment. Zo gaan we nu 25 leraren met hun klassen (zeg 600 leerlingen) in de interventieconditie vergelijken met 25 andere leraren en hun klassen. Het heeft immers geen zin om één klas met één leraar met één andere klas met één andere leraar te vergelijken: de

Essaybundel Bewezen Beleid in het Onderwijs | 33Ministerie van Onderwijs, Cultuur en Wetenschap

Page 38: Bewezen beleid in het onderwijs

Ministerie van Onderwijs, Cultuur en Wetenschap34 | Essaybundel Bewezen Beleid in het Onderwijs

Page 39: Bewezen beleid in het onderwijs

resultaten kunnen dan geheel en al afhankelijk zijn van de eigenschappen van die twee leraren en hun klassen. Verder kan natuurlijk nooit het dubbel-blind principe worden toegepast: in elk geval de leraren, maar ook de leerlingen, zullen weten dat ze deel uitmaken van een experiment. En nu zullen de leerlingen niet meer individueel ongestoord, maar in een groep leren. Voorts zal het wenselijk zijn om toch ook maar een voortoets af te nemen om enerzijds na te kunnen gaan of de groepen echt equivalent zijn en anderzijds om te kunnen onderzoeken of het experiment anders uitpakt voor leerlingen die verschillend scoren op de voortoets (meestal treden de gunstigste effecten op voor initiële laagpresteerders). Bijkomend voordeel is dat als onderweg leerlingen om wat voor reden dan ook uitvallen, we na kunnen gaan of de uitval in de interventiegroep anders is dan in de controlegroep. Tenslotte zullen we de controlegroep niet verstoken kunnen laten van onderwijs: deze leerlingen zal in elk geval de staande praktijk moeten worden aangeboden. In onderstaande figuur wordt de opzet van dit onderzoek weergegeven.

Figuur 3 De opzet van de Cluster Randomized Controlled Trial met voortoetsR O1 XA O2

R O1 XB O2

Er worden 2 x 25 groepen vergeleken en de metingen vinden plaats bij 2 x 600 leerlingen. Ook zal nagegaan moeten worden hoe het onderwijs gegeven wordt: houden de leraren zich aan de afspraken? Deze gehele operatie vereist de nodige logistiek en het zal ook direct duidelijk zijn dat zo’n experiment prijzig is. Reden te meer om er pas mee aan de slag te gaan als én de interventie goed uitontwikkeld is én voldoende beproefd in eerdere fases, én als het te bereiken effect bij leerlingen waardevol wordt geacht én er toch enige onzekerheid is of het in de gewenste omvang op zal treden.

Dergelijke experimenten zijn ook daadwerkelijk uitgevoerd. Baanbrekend was het STAR-experiment waarin aldus kleine klassen vergeleken werden met grote klassen met een onderwijsassistent en met grote klassen zonder onderwijsassistent (Finn & Achilles, 1990). Meer recentelijk vormen de experimenten met het Success for All programma een bekend voorbeeld (Borman et al., 2005, 2007). In deze gevallen werd voldaan aan alle voorwaarden die de Coalition for Evidence Based Policy (2003) heeft geformuleerd om het hardste bewijs over de werking van een interventie te kunnen verkrijgen en de opgedane kennis te kunnen verspreiden:1. De interventie is helder omschreven2. A-selecte (door toeval bepaalde) toewijzing aan condities

Essaybundel Bewezen Beleid in het Onderwijs | 35Ministerie van Onderwijs, Cultuur en Wetenschap

Page 40: Bewezen beleid in het onderwijs

3. Geen systematische verschillen tussen de experimentele en de controlegroep

4. Valide en betrouwbaar gemeten uitkomstmaten5. (Bijna) geen experimentele “sterfte”, dat wil zeggen uitval6. Rapportage van effecten bij afgebroken behandeling7. Rapportage van lange termijn effecten: beklijven effecten?8. Rapportage van de grootte van het effect en significantie-niveaus 9. Rapportage van differentiele effecten10.Rapportage van alle effecten (ook negatieve en non-effecten).

2.5 Problemen met het experiment in onderwijsonderzoek en mogelijke oplossingen

Er wordt, ondanks de hierboven aangegeven noodzaak, toch kritiek geleverd op het gebruik van experimenten (o.a. Gravemeijer & Kirschner, 2007, 2008). Ik noem de voornaamste en geef mijn tegenwerpingen (Bosker, 2008a en b). Men vindt het experiment onethisch. Deze kritiek berust op een misverstand: men ziet dan vaak de opzet van het experiment voor zich zoals weergegeven in Figuur 1, waarbij de leerlingen in de controleconditie iets onthouden wordt. In Figuur 3 heb ik weergegeven en daarbij uitgelegd dat deze leerlingen gewoon onderwijs uit de staande praktijk krijgen. Hun wordt dus niet onthouden wat andere leerlingen die niet betrokken zijn in het experiment wel krijgen. In het STAR-experiment ging men zelfs nog een stapje verder: de grote klassen met 22-25 leerlingen waren aanmerkelijk kleiner dan wat toentertijd gebruikelijk was (28 leerlingen en meer).

In het verlengde van het ethische bezwaar vraagt men zich af hoe je scholen bereid kunt vinden om in de controlegroep plaats te nemen. Ik zie twee oplossingen: het werken met wachtlijsten waarbij scholen pas na een tijd als controleschool te hebben gefunctioneerd de interventie mogen gaan toepassen (bijv. Bosker, Branderhorst, & Visscher, 2007). Of het gebruik van een crossover design: de groep scholen die bijvoorbeeld met de jongste leerlingen in de interventieconditie zit, vormt met oudere leerlingen de controleconditie en voor een andere groep scholen geldt het omgekeerde (bijv. Borman et al, 2005, 2007).

Dan bepleit men het belang van procesgerichte causaliteit (waarom werkt iets?) boven dat van de productgerichte causaliteit (dat het werkt). Daarover kan ik kort zijn: wie is er nu geïnteresseerd in hoe iets werkt als het niet werkt?

Verder wijst men op het probleem van de early adopters: de interventie werkt wellicht alleen bij de eerste groep leraren die er in het kader van het experiment enthousiast mee aan de slag zijn gegaan. Of het ook bij andere

36 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 41: Bewezen beleid in het onderwijs

leraren gaat werken blijft de vraag. Dit probleem verwijst naar het meer algemene probleem waar ook een experiment zonder dubbel-blind procedures niet tegen opgewassen is: het mogelijk optreden van Hawthorne-effecten (enthousiaste leraren in de interventieconditie). Op dit bezwaar heb ik maar één reactie: de hoop dat de beroepseer van de leraren hen ertoe zal brengen om ook met enthousiasme, in het belang van hun leerlingen, met de bewezen effectieve innovatie aan de slag te gaan.

Tenslotte: niet alles laat zich experimenteel onderzoeken, zo luidt de kritiek. Daar kan ik het niet mee oneens zijn. Maar soms kan met inven-tieve technieken (voor een aardig voorbeeld zie: Luyten, 2006) het ideaal van het experiment benaderd worden. En waar zelfs dat niet kan, zoals bij het vergelijken van geïntegreerde versus gedifferentieerde onderwijssyste-men, moet men toch maar proberen zo hard mogelijk bewijs te verkrijgen.

Essaybundel Bewezen Beleid in het Onderwijs | 37Ministerie van Onderwijs, Cultuur en Wetenschap

Page 42: Bewezen beleid in het onderwijs

LiteratuurBorman, G. D., Slavin, R. E., Cheung, A., Chamberlain, A. M., Madden, N. A., & Chambers, B.

(2005). Success for All: First-year results from the national randomized field trial.

Educational Evaluation and Policy Analysis, 27, 1-22.

Borman, G. D., Slavin, R. E., Cheung, A., Chamberlain, A. M., Madden, N. A., & Chambers, B.

(2007). Final reading outcomes of the national randomized field trial of success for all.

American Educational Research Journal, 44, 701-731.

Bosker, R. J. (2008a). Naar meer evidence based onderwijs! Pedagogische Studiën, 85, 49-51.

Bosker, R. J. (2008b). Tripliek: een onnodig gecompliceerde voorstelling van zaken.

Pedagogische Studiën, 85, 305-308.

Bosker, R. J., Branderhorst, E. M., & Visscher, A. J. (2007).Improving the utilisation of

management information systems in secondary schools. School Effectiveness and School

Improvement, 18, 451-467.

Coalition for Evidence Based Policy (2003). Identifying and implementing educational

practices supported by rigorous evidence: A user friendly guide. Washington: United States

Department of Education.

Commisie Parlementair Onderzoek Onderwijsvernieuwingen (2008). Tijd voor onderwijs.

Eindrapport. Den Haag: SDU.

Finn, J. D., & Achilles, C. M. (1990). Answers and questions about class size: A statewide

experiment. American Educational Research Journal, 27, 557–577.

Gravemeijer, K. P. E., & Kirschner, O. A. (2007). Naar meer evidence based onderwijs?

Pedagogische Studiën, 84, 463-471.

Gravemeijer, K. P. E., & Kirschner, O. A. (2008). Dupliek: een te simpele voorstelling van zaken.

Pedagogische Studiën, 85, 195-197.

Hattie, J. (2009). Visible learning. A synthesis of over 800 meta-analyses relating to

achievement. Londen: Routledge.

Luyten, H. (2006). Het effect van een jaar onderwijs op de wiskundeprestaties in groep 5 en 6

en de verschillen tussen scholen. Pedagogische Studiën, 83(6), 432-451.

Mackie, J. L. (1974). The cement of the universe: A study of causation. Oxford: Oxford

University Press.

Onderwijsraad (2006). Naar meer evidence based onderwijs. Den Haag: Onderwijsraad.

Raudenbush, S. W. (2005). Learning from attempts to improve schooling: The contribution of

methodological diversity. Educational Researcher, 34(5), 25-31.

Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomi-

zed studies. Journal of Educational Psychology, 66, 688-701.

Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental

designs for generalized causal inference. Boston / New York: Houghton Mifflin company.

38 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 43: Bewezen beleid in het onderwijs

Essaybundel Bewezen Beleid in het Onderwijs | 39Ministerie van Onderwijs, Cultuur en Wetenschap

Page 44: Bewezen beleid in het onderwijs

03Kwalitatieve methoden in onderwijs-onderzoekLennart VriensEmeritus-hoogleraar vredespedagogiek, UU

Ministerie van Onderwijs, Cultuur en Wetenschap40 | Essaybundel Bewezen Beleid in het Onderwijs

Page 45: Bewezen beleid in het onderwijs

3.1 InleidingIn 1976 publiceerde de Groningse hoogleraar Noordam een kritisch artikel over de nieuwe discipline onderwijskunde. Hij stelde dat deze zich steeds meer ontwikkelde tot een systeem van lege codes waarmee onderwijskun-digen wel met elkaar communiceerden, maar dat nog nauwelijks sloeg op de praktijk waarover het pretendeerde te gaan. Noordams kritiek was wellicht kort door de bocht, maar wel interessant. Ze illustreert een aantal problemen als een wetenschap tegelijkertijd academische aspiraties heeft en de pretentie een bijdrage te leveren aan verbeteringen van een cultureel-maatschappelijke praktijk.

Onderwijskunde is ontstaan uit het concept van een praktische weten-schap zoals dat in de jaren zestig en zeventig is ontwikkeld. Dit concept pretendeert een directe koppeling te realiseren tussen object van onderzoek en de daarin aanwezige mogelijkheden tot verbetering. Wetenschappelijk onderzoek wordt daarbij niet verricht als een geïsoleer-de en verheven activiteit met eventueel in de praktijk toepasbare resulta-ten, maar is direct gekoppeld aan het in gang zetten van gewenste verbeteringen. Deze directe koppeling moet niet alleen leiden tot een praktische wetenschap, maar ook tot een verwetenschappelijkte praktijk.

Het is natuurlijk zeer pretentieus geformuleerd en het is de vraag of zo’n pretentie is waar te maken. Het object van de onderwijskunde betreft niet alleen het onderwijs, maar omvat ook alles wat eromheen zit om het mogelijk te maken en in goede banen te leiden, ofwel alles wat zich tussen wetgeving en de directe werkvloer bevindt. Het gaat om een uitermate complex stelsel van menselijke activiteiten, met vele elkaar versterkende maar ook tegenwerkende dynamieken. Dan rijst niet alleen de vraag of onderwijskundig onderzoek deze complexiteit wel aan kan, maar ook hoe een vervlechting met de praktijk kan samengaan met de voor wetenschap-pelijk onderzoek noodzakelijke distantie. Dat speelt nog sterker als er in die praktijk ook nog tegenstrijdige belangen blijken te zijn en wetenschap neerkomt op onverbloemd partij kiezen.

In de praktijk kiezen wetenschappers dan veelal eerder voor distantie dan voor een te grote betrokkenheid op de praktijk. Maar als distantie gaat betekenen dat alle binding met de praktijk verloren gaat, dan gaat wetenschap nergens meer over.

Het probleem van distantie tegenover betrokkenheid valt ruwweg samen met het onderscheid tussen kwantitatief en kwalitatief onderzoek in de sociale wetenschappen en dus ook in de onderwijskunde. In zijn alge-meenheid kunnen we stellen dat na de methodenstrijd van de jaren zestig en zeventig het kwantitatief onderzoek dominant is in de sociale weten-

Essaybundel Bewezen Beleid in het Onderwijs | 41Ministerie van Onderwijs, Cultuur en Wetenschap

Page 46: Bewezen beleid in het onderwijs

schappen, inclusief de onderwijskunde. Belangrijke argumenten voor deze keuze zijn de gepretendeerde exactheid en geldigheid van resultaten, de universele toepasbaarheid en de methodische helderheid. Op deze punten scoren de kwalitatieve onderzoeksmethoden aanzienlijk minder en dat betekent dat de onderwijskundig onderzoeker die zich van kwalitatieve methoden wil bedienen, deze keuze uitgebreid moet motiveren en merkt dat zijn onderzoek in veler ogen minder status heeft. In de jaren tachtig begon weliswaar een revival van kwalitatieve onder-zoeksmethoden en internationaal lijken deze inmiddels weer volkomen geaccepteerd (Kelchtermans, 2002), maar deze trend lijkt aan de Nederlandse onderwijskunde te zijn voorbijgegaan. Kwantitatief onder-zoek is dominant, kwalitatief onderzoek wordt weliswaar niet categorisch afgewezen, maar bijna altijd speelt de (on)uitgesproken vraag of er toch niet beter een kwantitatief onderzoek had kunnen plaatsvinden. Een korte schets van de ontwikkeling van de onderwijskunde kan duidelijk maken hoe dit gekomen is.

3.2 Interdisciplinariteit van onderwijskundeIn de jaren tachtig werd onderwijskunde in het Academisch Statuut opgenomen, wat een erkenning betekende voor de studie. Tegelijkertijd ontstond ook de eerste politieke tegenwind. De legitimerende functie voor het emanciperende onderwijsbeleid werd minder vanzelfsprekend, vanuit de pedagogische moederdiscipline werd kritiek geleverd op haar technologisch karakter en uit het onderwijs zelf kwamen geluiden dat men te weinig voeling had met de praktijk. De in het onderzoeksbeleid van die jaren gehanteerde kwaliteitseisen bevorderden bovendien het meest gestandaardiseerde onderzoek en daarmee werd onderwijskunde de facto meer en meer gedomineerd door de onderwijspsychologie, die zich op de neo-positivistische wetenschapsopvatting met zijn empirisch-analytische methode oriënteerde. Kwantitatief onderzoek werd de norm, ander onderzoek verdween steeds meer in de marge.

In deze setting verloor onderwijskunde haar interdisciplinaire karakter en kwam de revival van de kwalitatieve methoden, die in die jaren internatio-naal op gang kwam voor de onderwijskunde, te vroeg. Maar dat betekende wel een gemiste kans. In plaats van een creatieve wetenschap met een interessant onderzoeksveld en een behoorlijk kritisch potentieel werd onderwijskunde toch vooral een kunde in plaats van een wetenschap, een ontwikkeling die werd bevorderd door de nieuwe studie Toegepaste Onderwijskunde aan de Technische Universiteit Twente. Bovendien kreeg ze het imago van een weinig met de echte praktijk verbonden technologie en een vooral nuttige dienaar van een overheid die haar eigen onderwijs-politiek voerde. Het is voor de psychologisch georiënteerde onderwijs-kunde een geluk geweest dat de ontwikkelingen van de nieuwe media als

42 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 47: Bewezen beleid in het onderwijs

het ware smeekten om nieuwe leertheorieën en daarvoor benodigd onderzoek. Die kwamen er ook, de cognitivistische psychologie werd verdrongen door het constructivisme en coöperatief leren werd een nieuw speerpunt in het onderzoek. Maar ook veel van deze onderzoeken waren meer gericht op de hoe-vragen van de kunde dan op de wat- en waarom-vragen van de wetenschap. In opzet en uitvoering waren ze vooral geënt op kwantitatief onderzoek met eventueel kwalitatieve elementen, waarbij veelal de methodologische eisen van de kwantitatieve methoden norma-tief bleven.

De vraag die dan rijst is natuurlijk of de geschetste ontwikkeling een noodzakelijke is geweest en of onderwijskunde zich creatiever ontwikkeld had als zij vaker had gekozen voor de ontwikkeling van kwalitatieve methoden. De aard en de complexiteit van het onderzoeksveld suggereren van wel. In deze bijdrage wil ik daarom laten zien, dat kwalitatief onder-zoek onontbeerlijk is als onderwijskunde zich wil manifesteren als een wetenschappelijk verantwoorde en voor de praktijk relevante wetenschap. Want als onderwijskundigen zich alleen bezighouden met kwantitatief onderzoek volgens de daar geldende regels, dan vallen er een heleboel interessante onderzoeksvragen en -velden buiten het blikveld van de onderwijskunde. Voor de studenten die zich in deze wetenschap bekwa-men, zou dat een enorme verarming zijn die ook hun academische vorming zou schaden.

3.3 Waarom wordt onderwijs onderzocht?Onderzoek wordt in deze bijdrage opgevat als het op systematische en verantwoorde wijze iets te weten komen wat we nog niet wisten. Wetenschappelijk onderzoek voegt daar nog aan toe dat er gewerkt wordt met door de betreffende discipline geaccepteerde methodes (Jaeger 1997). Dat wetenschappelijk onderzoek kan gedaan worden vanuit verschillende motieven. De voornaamste zijn wel menselijke weetgierigheid en de noodzaak om problemen op te lossen waarmee men geconfronteerd wordt. Het in de jaren zestig en zeventig van de vorige eeuw gepropageer-de derde motief emancipatie, dat de kritische potentie van wetenschap moest garanderen, speelt in de wetenschappelijke discussie nauwelijks meer een rol.

In het meeste wetenschappelijk onderzoek zijn de twee eerst genoemde motieven wel aanwezig, maar de mate waarin kan enorm verschillen. Theoretische fysica bijvoorbeeld heeft allereerst een theoretische belangstelling waarbij praktische toepassingen eventueel volgen. Waar wetenschap zich echter richt op het intermenselijk domein en de mens zelf onderdeel wordt van het object van wetenschap, gaat het nooit om ‘zuivere’ kennis, maar dient weten het oplossen van of beter omgaan met

Essaybundel Bewezen Beleid in het Onderwijs | 43Ministerie van Onderwijs, Cultuur en Wetenschap

Page 48: Bewezen beleid in het onderwijs

problemen. Onderzoek is dan bedoeld om een bijdrage te leveren aan verbetering van of binnen de praktijk. Uiteraard is deze tweedeling niet absoluut; in de meeste wetenschappen vullen menselijke weetgierigheid en praktische intentie elkaar aan en worden de onderlinge verhoudingen in de praktijk van de betreffende discipline bepaald. Daarmee wordt tevens bepaald wat de in onderzoek opgedane kennis binnen de betreffende discipline waard is, meestal in termen van waarheid en bruikbaarheid. Grofweg kunnen we stellen dat naarmate een wetenschappelijke discipline meer gestuurd wordt vanuit weetgierigheid, men zich meer richt op het criterium waarheid en dat in wetenschappen waar het vooral gaat om oplossing van ‘praktische’ problemen, relevantie en bruikbaarheid een grotere rol spelen.

Het zal duidelijk zijn dat in onderwijskunde als praktische wetenschap de waarde van onderwijskundig onderzoek vooral bepaald wordt vanuit het criterium van de bruikbaarheid om het onderwijs goed vorm te geven en problemen op te lossen. Met andere woorden, onderwijskundig onderzoek heeft vooral zin als het iets bijdraagt aan onze kennis over onderwijs in relatie tot mogelijke verbeteringen en oplossing van problemen. Vanuit deze gedachtegang kunnen we de volgende motieven voor onderwijskundig onderzoek onderscheiden:

Verantwoording van wat bestaat en hoe dit vorm krijgt en is ■■

vormgegeven;Mogelijkheden tot verbetering van bestaande onderwijsstructuren en ■■

daarmee verbonden praktijken, ook in relatie tot onderwijsbeleid;Evaluatie van onderwijspraktijken en experimenten.■■

Er ontstaat zo wel een gigantisch en uitermate complex veld van onder-zoek. Immers, onderwijs is een voortdurend veranderende praktijk met een veelheid aan ondersteunende instanties in een ook steeds verande-rende maatschappelijke en culturele context. En die context laat op allerlei manieren zijn invloed gelden en bepaalt in belangrijke mate mee wat onderzocht gaat worden, welke vragen van belang zijn, wat de criteria zijn om de bruikbaarheid van de antwoorden te bepalen, wat de consequenties zijn van de gevonden antwoorden etc. Het gaat dan bijvoorbeeld om bepaling van de doelen van onderwijs, de richting waarin het onderwijs zich moet gaan ontwikkelen, om de inhouden en de criteria die bepalen wat we beschouwen als kwalitatief goed onderwijs, om de mogelijkheden in te gaan op behoeften in het veld in relatie tot maatschappelijke wensen en voorwaarden etc. Het onderwijs is zelf echter weer deel van die context en bepaalt deze zaken in sterke mate mee.

In deze dynamiek wordt wetenschap geacht inzicht te geven in de problemen en de criteria te leveren voor het beoordelen van wenselijke

44 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 49: Bewezen beleid in het onderwijs

veranderingen. De vraag hoe onderwijskunde als wetenschap zich tot deze complexiteit verhoudt, bepaalt in belangrijke mate de keuze van onder-zoeksvragen en -methodes.

3.4 Gebruik van kwalitatief onderzoekEen belangrijk uitgangspunt binnen de familie van kwalitatieve onder-zoekmethoden is dat de keuze van een methode afhankelijk is van het probleem dat men wil onderzoeken. Afhankelijk van wat men te weten wil komen, moet worden ingegaan op de relevantie en betekenis van de vraag, op de aspecten die onderzocht moeten worden en op de vraag hoe men aan de benodigde informatie kan komen. Als de informatie verzameld is, wordt deze uitgewerkt en geanalyseerd, ofwel geordend en vervolgens in thema’s ondergebracht. Deze thema’s kunnen zich al bij de vraagstelling aangediend hebben, maar vaak worden ze pas uit het materiaal zelf afgeleid. Ze liggen pas vast als ze door de onderzoeker verantwoord zijn en in een geordend verslag gepresenteerd kunnen worden. Daarna komt de belangrijkste fase van het onderzoek, de interpretatie van de resultaten. Hierin wordt nagegaan wat de gevonden resultaten betekenen. Daarbij komen zaken aan de orde als in hoeverre de gevonden gegevens met elkaar overeenstemmen of juist niet, hoe dit te verklaren valt en wat dit in het licht van de theorieën en andere relevante informatie wil zeggen. Daarbij wordt ook gekeken of er achter de gegevens nog verborgen informatie zit en hoe deze geïnterpreteerd kan worden. Interpretatie betekent daarbij overigens niet altijd dat de problemen opgelost worden, beter begrijpen kan ook beschouwd worden als voortschrijdend inzicht in de complexiteit van de problematiek. Tenslotte zal dit geheel aan gevonden en geïnterpre-teerde gegevens teruggekoppeld moeten worden naar de onderzoeks-vragen, zodat er conclusies getrokken kunnen worden over wat het onderzoek precies heeft opgeleverd. In de setting van praktische weten-schappen kunnen dan ook nog aanbevelingen volgen voor de praktijk, zodat deze verbeterd kan worden.

In principe is deze gang van zaken ook bij kwantitatief onderzoek terug te vinden, maar in de familie van kwalitatieve onderzoekstechnieken gaat het niet om het vinden van ‘wetmatigheden’, maar om het zo volledig mogelijk begrijpen van fenomenen in hun context. Daarom is er veel aandacht voor het particuliere, dat dan echter wel in zijn context moet worden begrepen. De aandacht voor interpretatie komt voort uit de wens tot de betekenis van fenomenen door te dringen. Om deze reden wordt ook wel voorgesteld de term kwalitatief onderzoek te vervangen door de term interpretatief onderzoek ( Levering & Smeyers 2003, p. 25), mede omdat ook kwantitatief onderzoek van goede kwaliteit kan zijn. Echter, taal laat zich slechts zelden dwingen door wetenschappelijke normen en dat is zelfs het geval voor wetenschappelijke taal. Ook het voorstel om te

Essaybundel Bewezen Beleid in het Onderwijs | 45Ministerie van Onderwijs, Cultuur en Wetenschap

Page 50: Bewezen beleid in het onderwijs

spreken van ‘fixed designs’ tegenover ‘flexible designs’ (Robson 2002, p. XII) heeft weinig navolging gevonden.

Wat zijn nu precies de redenen om ook kwalitatief onderzoek te gebruiken in het onderwijsveld? Naar mijn mening ligt de voornaamste reden in de complexiteit van het onderzoeksveld dat om meer benaderingen vraagt. Ook Shulman (1997, p. 6) geeft dit aan en constateert daarbij dat er geen ‘Supreme Court’ of andere formele autoriteit is die kan bepalen welke vragen of methoden legitiem zijn en dat het de zo geheten “community of scholars and practitioners” op dit gebied ook continu in ontwikkeling is.

Kwalitatieve methoden zijn in alle sectoren van het onderwijsveld inzetbaar en met name van belang waar kwantitatief onderzoek tekort-schiet of onbruikbaar is. Zo zijn bijvoorbeeld methoden voor filosofisch onderzoek onontbeerlijk op het gebied van theorievorming, vooral bij de legitimering en verheldering van concepten. Helaas komt dit onderzoek in de onderwijskunde nauwelijks aan bod en gaan veel onderzoekers er expliciet of impliciet vanuit dat de gebruikte concepten wel goed zijn doordacht. Feitelijk betekent dit dat deze onderzoekers niet altijd goed weten waar ze het over hebben ( Scriven 1988, p. 134) en dat hun resultaten nauwelijks iets voor de praktijk betekenen (Noordam, 1976). Een tweede gevolg van dit filosofisch tekort is dat de inbreng van de onderwijskunde onder de maat is als het gaat om het publieke debat over het onderwijsbe-leid. Waarom waren onderwijskundigen zo weinig kritisch toen de overheid in de jaren negentig de basisvorming en het studiehuis invoerde en daarbij inhoudelijke doelen gebruikte om een organisatorische omslag naar grootschalige scholen te stimuleren? En waarom waren de onderwijs-kundigen zo weinig weerbaar toen dezelfde politici die dit beleid in de jaren negentig steunden, de vernieuwers op het matje riepen en de eerder gewenste vernieuwingen als een aanslag op de kwaliteit van het onderwijs afschilderden? Als onderwijskunde vanuit haar wetenschappelijke missie haar eigen concepten had bevraagd op hun wetenschappelijke gehalte, op hun grondslagen, op de afwegingen die men maakt om uit rivaliserende opties te kiezen, dan had zij in het publieke debat beter duidelijk kunnen maken dat kwaliteit geen vaststaande norm is, maar altijd invulling krijgt in een culturele context.

Kwaliteit betekent dat afwegingen gemaakt worden tussen verschillende functies van de school. De school is er niet alleen is om kennis over te dragen, maar ook om kinderen te socialiseren en op te voeden tot goede democratische (wereld)burgers die hun eigen bestaan op verantwoorde-lijke wijze kunnen invullen, en tot mensen die niet alleen kennis van zaken hebben, maar ook kunnen nadenken en een bijdrage leveren aan het behoud en de verdere ontwikkeling van onze cultuur. Dan had men,

46 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 51: Bewezen beleid in het onderwijs

met erkenning van de vakkennis als onmisbaar element van de identiteit en bekwaamheden van leraar, kunnen wijzen op het gegeven dat goed leraarschap een combinatie is van zaken als vakkennis, beschikbaarheid als identificatiemodel (ook moreel), pedagogische bekwaamheden om de leerling uit te dagen, ontwikkelingspsychologische kennis van de leeftijdsgroep waaraan men les geeft, en bewaker van de leerprocessen van leerlingen. Dan had men in plaats van alle nadruk op het ‘nieuwe leren’ te leggen op een beargumenteerde wijze een middenweg kunnen bereiken tussen de noodzaak om (basis)kennis te oefenen en ruimte krijgen om tot zelfstandig ontdekkend leren te komen. Want de construc-tivistische opvattingen die men in de onderwijskunde voor dat laatste te hulp roept, stellen de epistemologische theorie van het constructivisme te vaak bijna naadloos gelijk aan de leerpsychologie en de didactiek, wat sympathiek klinkt maar analytisch rammelt (Vriens 2007, p. 63).

Als het gaat om het uitdenken en plannen van grootschalige innovaties, zou een aantal historische analyses van succesvolle en falende onderwijs-processen in het verleden een bijdrage kunnen leveren aan kennis en inzicht over wat al eerder geprobeerd is, waarom dit gelukt of mislukt is en hoe men de beoogde veranderingen verantwoordde. Historisch onderzoek zou ook kunnen bijdragen aan inzicht over de waarde van het opgebouwde stelsel en de vraag wat men bij verandering wint en verliest. Vergelijking met onderwijs in andere culturen zou dit nog meer kunnen uitdiepen.

Kwalitatief onderzoek is echter niet alleen van belang voor een kritische analyse en verantwoording van doelstellingen in relatie tot beleid en cultuur. Het kan bijna niet gemist worden waar de subjectiviteit in het veld tot haar recht moet komen. Dat is bijvoorbeeld het geval bij de pedagogi-sche dimensie van de schoolpraktijk, wanneer men inzicht wil krijgen in de belevingswereld van kinderen en jongeren zonder deze al bij voorbaat vanuit theoretische categorieën te beschrijven. In zo’n geval kan bele-vingsonderzoek vanuit een fenomenologisch-hermeneutische traditie tot belangrijke inzichten leiden, al moet men voorzichtig zijn met generaliseren.

Een eigen voorbeeld is een onderzoek in de jaren tachtig naar hoe kinderen vrede en oorlog zien, wat een gedifferentieerd beeld opleverde van hoe kinderen tegen de internationale politiek en hun toekomst aankijken (Van Kempen, Peek & Vriens, 1986). De kracht van dit type onderzoek is dat het dicht bij de praktijk staat en voor de betreffende professional vaak herkenbare en bruikbare inzichten biedt.

Maar het hoeft niet alleen om kinderen en jongeren te gaan. Van Manen (1990; 1991) gebruikte belevingsonderzoek in de opleiding van leer-

Essaybundel Bewezen Beleid in het Onderwijs | 47Ministerie van Onderwijs, Cultuur en Wetenschap

Page 52: Bewezen beleid in het onderwijs

krachten om ze hun pedagogische invloed en verantwoordelijkheid te laten ontdekken. Ook de biografische of narratieve methoden (Kelchtermans1994; Richardson 1996) en diverse vormen van beschrij-vende en interpreterende casestudies (Barritt, 1996) plaatsen zich bewust in de praktijk die ze willen begrijpen en optimaliseren. Empirie is hierbij geen objectieve informatie die door een buitenstaander geleverd wordt, maar contextueel en met de dynamiek van de eigen situatie en gedeelde belevingswereld verbonden. Ofwel, men onderzoekt om inzicht te verkrijgen in de veranderingsprocessen waar men zelf in zit en waarvan het onderzoek deel uitmaakt. Dat betekent dat men niet kan toetsen, maar wel dat men de ontwikkelingen zo goed mogelijk in kaart brengt en verantwoordt hoe men aan zijn gegevens gekomen is.

Hetzelfde kan gezegd worden van het zogenoemde actie-onderzoek, waarbij de leerkracht zelf als onderzoeker fungeert van de eigen praktijk teneinde deze te verbeteren en zichzelf beschouwt als onderdeel van de gewenste verandering. Hoewel het inmiddels ontdaan is van de politiek-emancipatorische lading van de jaren zeventig, is het in Nederland nooit echt populair geworden.

Een kritische dimensie kan in de huidige multiculturele samenleving ook geleverd worden door het uit de culturele antropologie afkomstige etnografisch onderzoek. Het zou een verrijking zijn voor het Nederlandse onderwijs, niet alleen om leerlingen uit andere culturen beter te begrij-pen, maar ook voor de pedagogische kennis over het functioneren van cultureel bepaalde groepsprocessen, inclusief de ontwikkeling van adequate socialisatietechnieken ten behoeve van de morele opvoeding in een globaliserende wereld.

3.5 SlotOnderwijs is een cultureel-maatschappelijke institutie die bedoeld is om mensen te helpen beter hun weg te vinden in samenleving en cultuur. Onderwijsresearch maakt daar deel van uit, maar probeert op zo goed mogelijke en wetenschappelijk verantwoorde wijze een bijdrage te leveren aan de kennis van dit veld. De veelheid aan vragen die in dit veld leven kan niet alleen met de bekende kwantitatieve methoden gedekt worden, voor een aantal vragen is kwalitatief onderzoek meer geëigend. Binnen de familie van kwalitatieve onderzoeksmethoden liggen de spelregels hiervoor niet volledig vast, maar is de onderzoeker wel gehouden aan intellectuele integriteit en het zo goed mogelijk verantwoorden van de door hem gebruikte procedures. Anders kan de relevantie van onderzoek nooit beoordeeld worden.

48 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 53: Bewezen beleid in het onderwijs

Literatuur

Barritt, L. (1996). An Elementary School in Holland. Utrecht: International Books.

Boog. B. (2002). Handelingsonderzoek. In: B. Levering & P.Smeyers (Eds.) Opvoeding en

onderwijs leren zien. Een inleiding in interpretatief onderzoek (214-232). Amsterdam: Boom.

Jaeger R.M. (Ed.) (1988; 1994). Complementary Methods for Research in Education. Washington:

American Educational Research Association

Keltchtermans, G. (1994). De professionele ontwikkeling van leerkrachten basisonderwijs vanuit het

biografisch perspectief. Leuven: Universitaire Pers.

Kelchtermans, G. (2002). Kwalitatieve methoden in onderzoek: internationale ontwikkelin-

gen en de situatie in Vlaanderen. In: B. Levering & P. Smeyers (Eds.) Opvoeding en onderwijs

leren zien. Een inleiding in interpretatief onderzoek (132-153). Amsterdam: Boom.

Kempen, M. van., Peek, T., & Vriens, L. (1986). Vrede en oorlog als kinderprobleem.

Ongepubliceerd onderzoeksrapport R.U. Utrecht.

Levering, B., & Smeyers, P. (Eds.). (2002). Opvoeding en onderwijs leren zien. Een inleiding in

interpretatief onderzoek. Amsterdam: Boom.

Manen, M. van. (1990). Researching Lived Experience. Human Science for an Action Sensitive

Pedagogy. London [Ont.]: Althouse Press.

Manen, M. van. (1991). The Tact of Teaching. The Meaning of Pedagogical Thoughtfulness. London

[Ont.]: Althouse Press.

Noordam N.F. (1976); Over ‘optimalisering’ van het onderwijs. Pedagogisch Tijdschrift/Forum

voor Opvoedkunde, 1976, 1, 577-582.

Richardson, R. (1996). Fortunes and Fables. Education for Hope in Troubled Times. Stoke on Trent:

Trentham Books.

Robson, C. (1993, 2002). Real World Research. Malden: Blackwell.

Scriven, M. (1988). Philosophical Inquiry Methods in Education. In: R.M. Jaeger (Ed.)

Complementary Methods for Research in Education. Washington: American Educational

Research Association.

Shullman, L.S. (1994). Disciplines of Inquiry in Education. In: R.M. Jaeger (Ed.) Complementary

Methods for Research in Education (3-30). Washington: American Educational Research

Association.

Vriens, L.J.A. (2007). Opvoeden in verwarrende tijden. Op zoek naar visie. Antwerpen:

Garant.

Essaybundel Bewezen Beleid in het Onderwijs | 49Ministerie van Onderwijs, Cultuur en Wetenschap

Page 54: Bewezen beleid in het onderwijs

04Leren over lerenLex BorghansHoogleraar Arbeidsmarkteconomie, UM

Ministerie van Onderwijs, Cultuur en Wetenschap50 | Essaybundel Bewezen Beleid in het Onderwijs

Page 55: Bewezen beleid in het onderwijs

Terwijl van werkenden verwacht wordt dat ze levenslang leren, is het voor scholen en de overheid heel normaal om beleid te voeren zonder daarbij rekening te houden met het belang om te leren over de effectiviteit van de manier van werken. Vanwege het toenemend belang van onderwijs en de dalende kosten van onderzoek, zou ook de maatschappij moeten willen leren van wat ze doet. Dit vraagt erom experimenten een standaard onderdeel van beleid te maken. Net zoals mensen op het werk leren terwijl hun productieve arbeid doorloopt, kan het onderwijs ook leren zonder dat dit het reguliere onderwijspro-ces te veel verstoort. Er zal echter een balans moeten worden gezocht zodat niet alleen zo goed mogelijk onderwijs wordt gegeven op basis van de huidige inzichten, maar de maatschappij ook blijft leren hoe het nog beter kan.

4.1 InleidingHet afgelopen decennium is de aandacht voor het belang van kennis en dus van leren enorm toegenomen. Met als noemer “de kenniseconomie” wordt erop gewezen dat kennis een doorslaggevende factor is voor economisch succes en wordt daarom met extra aandacht gekeken naar de opbrengst van het onderwijs en is ook het thema levenslang leren op de agenda komen te staan. In veel Westerse landen is er een trendmatige groei in de vraag naar hoger opgeleiden die een extra versnelling heeft gekregen door de ICT-golf van de jaren ’80 en ’90. Leren loont daarom steeds meer en dus ligt het voor de hand ook meer in onderwijs te investeren.

Er is echter een keerzijde bij deze ontwikkeling en dat is het feit dat onderwijs zelf zeer duur is. Hierbij gaat het niet alleen om de 25 miljard euro die ieder jaar door het Ministerie van Onderwijs, Cultuur en Wetenschap aan onderwijs worden uitgegeven, maar ook om de enorme gederfde inkomsten omdat leerlingen die op school zitten of studeren, niet werken. Uit tijdbestedingsonderzoek blijkt dat Nederlanders gemid-deld ongeveer evenveel tijd besteden aan onderwijs als aan werken2. Door langer te studeren zal de tijd die beschikbaar is voor werk gereduceerd worden en worden de mogelijkheden om de verworven kennis ook daadwerkelijk te benutten steeds kleiner.

Net zoals in de kenniseconomie slimmer werken meer beloond wordt dan simpelweg harder werken, zo zou ook in het onderwijs gezocht kunnen worden naar mogelijkheden om niet meer tijd aan onderwijs te besteden maar om efficiënter met de beschikbare tijd om te gaan. De grote vraag is

2 Lex Borghans, “Zonde van de Tijd” Leren in Nederland vanuit een economisch perspectief. Oratie Universiteit Maastricht, 2006.

Essaybundel Bewezen Beleid in het Onderwijs | 51Ministerie van Onderwijs, Cultuur en Wetenschap

Page 56: Bewezen beleid in het onderwijs

hoe dat moet. De kern van het antwoord is dat we ook dat moeten leren. Net zoals we van mensen verwachten dat ze zich door te leren ontwikkelen en productiever worden in hun werk, zo zou ook van de maatschappij verwacht moeten worden dat ze leert en zo probeert haar productiviteit te vergroten. Systematische experimenten zijn hierbij cruciaal.

In dit essay kijk ik vanuit dit perspectief naar de mogelijkheden om met onderzoek het onderwijs in Nederland te verbeteren. Ik zal in paragraaf 2 allereerst bespreken hoe mensen al doende leren op het werk. In paragraaf 3 ga ik vanuit dit perspectief in op de vraag hoe ook de maatschappij al doende kan leren. In paragraaf 4 bespreek ik wat nodig is om een dergelijke manier van leren praktijk te maken en wat de kosten en de baten hiervan zijn.

4.2 Leren op het werkLeren bestaat uit drie componenten: (1) Zelfreflectie over wat je kan en nog zou moeten leren, (2) uitproberen en vergelijken van mogelijkheden en (3) automatiseren. Dat gebeurt op school, maar interessanter is dat ook op het werk mensen voortdurend leren. Als een onervaren nieuwkomer begint te werken, gaat hij op zoek naar de beste manier om dit te doen. Hij haalt kennis uit boeken en krijgt tips en aanwijzingen van zijn baas en collega’s. Via deze informatieoverdracht krijgt de beginnende werknemer een beeld van welke manier van werken waarschijnlijk effectief is. De ervaringen van anderen worden hiermee het startpunt van de ontwikke-ling van de nieuwe medewerker. Toch gaat er in de praktijk nog veel mis. Hoe zorgvuldig collega’s ook uitleggen hoe je het werk moet aanpakken, nieuwkomers begrijpen vaak maar deels wat er eigenlijk bedoeld werd. Ook hoeft wat goed werkt voor de ene persoon, niet goed te werken voor iemand anders.

De tweede stap is daarom uitproberen. Rivkin, Hanushek en Kahn3 laten in een interessant onderzoek over de productiviteit van Texaanse leraren zien dat de productiviteit van nieuwkomers aanzienlijk lager ligt dan die van meer ervaren docenten. Een voor-de-hand-liggende verklaring hiervoor is dat deze leraren de slag nog niet te pakken hebben. Tijdens de lerarenop-leiding hebben ze geleerd hoe je les zou moeten geven. Ze krijgen goede adviezen van collega’s. Maar toch is de praktijk lastiger dan de theorie. Wat er dan gebeurt, is een kwestie van uitproberen en ervaring opdoen. Ze kiezen een keer voor de ene aanpak en hebben het gevoel dat het niet echt goed werkt. Dan proberen ze – mogelijk op advies van een collega – iets anders en merken dat de leerlingen veel beter opletten of de stof veel beter begrijpen. De eerste keer denkt de nieuwe leraar nog dat dit misschien

3 Steven Rivkin, Eric Hanushek en John Kahn, Teachers, Schools and Academic Achievement. Econometrica 73-2, pp. 417-458, 2005.

52 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 57: Bewezen beleid in het onderwijs

toeval is, maar na een paar keer wordt het hem duidelijk dat deze andere aanpak echt beter werkt. Voortaan kiest hij deze aanpak zodat het langzamerhand routine wordt.

De jonge leraar is dus aan het experimenteren en dit heeft gevolgen voor zijn productiviteit. In plaats van alleen maar de beste methode te benutten, probeert hij verschillende mogelijkheden uit. Een deel van de tijd krijgen de leerlingen dus les op basis van een aanpak die niet optimaal is. Toch zal niemand zeggen dat deze leraar niet zou mogen experimente-ren. Het alternatief zou zijn dat hij vasthoudt aan de aanpak die hij de eerste dag hanteert, en de kans is groot dat dat niet de beste aanpak is. Een goede instructie tijdens de lerarenopleiding over wat doorgaans werkt en wat niet, kan veel onnodig experimenteren voorkomen, maar uiteindelijk wordt de docent alleen beter als we hem gunnen om te variëren en te experimenteren met hoe hij lesgeeft, ook al gaat het daardoor soms een keer mis. Uit het onderzoek van Rivkin et al. blijkt dat leerlingen veel beter af zijn met een docent met meer ervaring, maar iedereen accepteert dat ook jonge leraren ervaring op moeten doen en dus les zullen moeten geven om uiteindelijk ook een goede docent te worden.

Het belang van al doende ervaring op doen speelt niet alleen in het onderwijs maar in alle beroepen. Uit de Enquête Levenslang Leren4 komt naar voren dat 94% van de tijd die mensen besteden aan leren op het werk, informeel leren betreft. Slechts 6% van de tijd dat mensen leren, gaat het om het volgen van een cursus of opleiding. Toch kan een cursus een belangrijke rol spelen in het leerproces. Stel er wordt een nieuw compu-terprogramma geïntroduceerd. Medewerkers gaan dan een middag naar een cursus om te leren hoe dit programma werkt. Wat er feitelijk gebeurt, is dat men tijdens die middag een overzicht krijgt van de mogelijkheden van het programma en gewezen wordt op de dingen die mis kunnen gaan. Het echte leren begint pas als men weer terug is op het werk. Daar gaat men met het nieuwe programma werken en gaat er dus van alles mis. Opnieuw volgt er een langere periode van uitproberen en experimenteren. Dit gaat ten koste van de productiviteit, maar betekent wel dat de betreffende medewerkers steeds handiger worden in het gebruiken van dit programma en uiteindelijk dus veel productiever zullen worden.

Al doende leren en vernieuwingen doorvoeren in de manier van werken is niet voor iedereen een vanzelfsprekendheid. Afhankelijk van de persoon-lijkheid verschillen mensen in de mate van zelfreflectie en zelfsturing5.

4 Lex Borghans, Bart Golsteyn en Andries de Grip, Meer werken is meer leren; Determinanten van kennisontwikkeling. CINOP, Den Bosch, 2006.

5 Jasper van Loo, Training, Labor Market Outcomes and Self-Management. Proefschrift, Universiteit Utrecht.

Essaybundel Bewezen Beleid in het Onderwijs | 53Ministerie van Onderwijs, Cultuur en Wetenschap

Page 58: Bewezen beleid in het onderwijs

Niet iedereen staat open voor vernieuwing. Werknemers hebben na verloop van tijd een goed werkende aanpak ontwikkeld en deze aanpak is geautomatiseerd, zodat ze niet meer heel nadrukkelijk stil staan bij hoe ze het doen, maar gewoon weten of voelen wat werkt en wat niet. Als de omstandigheden veranderen of de bedrijfsleiding een nieuwe aanpak introduceert omdat elders gebleken is dat deze zeer succesvol is, staan ze niet meer open voor deze verandering en hebben ze het gevoel dat ze zelf beter weten wat goed is en wat niet.

Op het werk gaan werken en leren dus hand in hand. Toch hebben bedrijven hierbij een keuzemogelijkheid. Voor iedere medewerker geldt dat er taken zijn waarin hij heel productief is en dat er taken zijn waar hij veel van leert. Als een medewerker taken krijgt toebedeeld die erop zijn gericht zijn productiviteit zoveel mogelijk te benutten, zal hij ook nog ervaring opdoen en dus leren. Een bedrijf kan ook bij de toewijzing van taken zoveel mogelijk het leereffect optimaliseren. In dat geval kan de medewerker nog steeds productief zijn, maar de productiviteit zal lager zijn dan in het eerste geval. Door het takenpakket aan te passen kan een bedrijf dus gradueel variëren van een hoge productiviteit met een laag leereffect naar een lage productiviteit met een hoog leereffect. Vanuit een bedrijfseconomisch perspectief zijn kleine veranderingen in het takenpak-ket waardoor de productiviteit vrijwel op peil blijft maar de medewerker wel veel meer leert, het interessantst. Ook hier hangt echter een kleine prijs aan vast in de vorm van een lichte productiviteitsdaling en het is bekend uit de literatuur dat de verleiding groot is om deze investering niet te doen. Vooral als het druk is op het werk, is de neiging groot om investeringen in de ontwikkeling van mensen door hen ervaringsrijke taken te geven achterwege te laten.

Leren door te experimenteren is dus een verschijnsel dat voortdurend plaatsvindt, ook zonder dat dit zit ingebed in een wetenschappelijke structuur. Toch zit er een grens aan wat mensen al experimenterende kunnen leren op het werk. In feite is een docent die experimenteert met zijn manier van lesgeven een statisticus6. Hij probeert twee methodes uit en observeert wat de effecten zijn. Als hij een verschil in resultaat constateert, vraagt hij zich af of dit toeval is en of er geen andere omstan-digheden zijn die het verschil kunnen verklaren. Of hij in staat is de effecten van zijn eigen aanpak vast te stellen, hangt ervan af of hij zelf ook waar kan nemen wat er met een leerling gebeurt en of er zich voldoende gevallen voordoen om een effect vast te kunnen stellen.

6 John Anderson, Learning and Memory, John Wiley, New York, 1995 laat zien dat het gedrag van mensen die leren inderdaad vanuit dit perspectief geïnterpreteerd kan worden.

54 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 59: Bewezen beleid in het onderwijs

Er is er een statistische regel die zegt dat de significantie van een waarge-nomen effect - dat is de mate waarin er zekerheid bestaat over de omvang van een effect - afhangt van de wortel van het aantal gevallen en de werkelijke omvang van het effect:

Voor een leraar is het daarom heel goed mogelijk om grote effecten van zijn manier van lesgeven op korte termijn vast te stellen. Veel van wat er in het onderwijs gebeurt, heeft echter effecten op langere termijn of wordt geacht effecten te hebben op langere termijn. Een leraar die zijn leerlingen slechts een jaar in zijn klas heeft, ziet dus mogelijk niet hoe deze leerlin-gen zich naderhand ontwikkelen en kan dan dus ook niet leren van zijn eigen manier van werken. Ook vergt het een ijzeren geheugen om na acht jaar nog precies te weten welke aanpak is gehanteerd bij een specifieke leerling. Daarnaast moet een leraar in staat zijn echte effecten van het toeval te onderscheiden.

De vraag of een manier van lesgeven effect heeft op de aandacht van een leerling voor de les, is dus typisch een vraag die een docent zelf al experimenterende goed kan beantwoorden. Als hij 40 weken lang 30 uur per week lesgeeft, is er sprake van 1200 gevallen, waarbij hij meteen de effecten vast kan stellen en waarbij de effecten in het algemeen ook vrij groot zijn. De vraag welke wiskundemethode beter werkt, wordt al lastiger maar is nog steeds doenlijk. De leraar kan niet van les op les van methode veranderen omdat de effecten ervan het resultaat zijn van langduriger gebruik, maar als de effecten groot genoeg zijn, kan hij door vergelijking van wat de leerlingen in het ene jaar en in het ander jaar opsteken van de les toch een ruwe inschatting van de effectiviteit maken. Er zijn echter talloze relevante vragen over het onderwijs die aan het zicht van de individuele docent ontsnappen. Dat kan zijn omdat hij te weinig gevallen tegenkomt (“Hoe kan je het beste omgaan met leerlingen met een heel specifieke aandoening?”), de effecten te klein zijn om goed waar te kunnen nemen (“Groeit het moreel besef van leerlingen als er in de les af en toe tijd wordt besteed aan een discussie over ethische zaken?”) en vooral omdat de belangrijkste effecten van onderwijs op een veel langere termijn spelen dan een jaar.

4.3 Maatschappelijk lerenWaar een individuele leraar niet meer in staat is om te leren op welke manier het onderwijs het beste kan worden aangepakt, ligt een rol voor de school, een groep van scholen of de maatschappij als geheel om deze taak over te nemen. In essentie kan dit op precies dezelfde manier gebeuren: (1) Zelfreflectie over wat kan en wat we nog zouden moeten leren, (2)

Significantie = √ aantal gevallen x omvang effect

Essaybundel Bewezen Beleid in het Onderwijs | 55Ministerie van Onderwijs, Cultuur en Wetenschap

Page 60: Bewezen beleid in het onderwijs

Ministerie van Onderwijs, Cultuur en Wetenschap56 | Essaybundel Bewezen Beleid in het Onderwijs

Page 61: Bewezen beleid in het onderwijs

uitproberen en vergelijken van mogelijkheden en (3) automatiseren. Bij zelfreflectie gaat het er om goed op een rij te zetten wat er al bekend is over het onderwijs, welke aanwijzingen er zijn over kansrijke verbeterin-gen. Naarmate er meer ervaring wordt opgebouwd, ontstaan er theorieën die gebruikt kunnen worden om de effecten van nieuwe initiatieven al bij voorbaat in te schatten. Deze inschattingen kunnen achteraf onjuist blijken te zijn, maar helpen in ieder geval bij het maken van keuzes voor veranderingen die kunnen worden overwogen.

Op basis van dergelijke inschattingen kan worden besloten om een nieuwe aanpak ook daadwerkelijk uit te proberen. Hiervan kan uiteraard alleen geleerd worden als verschillende aanpakken onder vergelijkbare omstan-digheden met elkaar vergeleken worden. Dit is de kern van experimenteel onderzoek. Alleen door bij sommige leerlingen, klassen, scholen de ene aanpak te hanteren en bij de andere vergelijkbare groep de andere aanpak te hanteren, ontstaat er een duidelijk beeld wat de effecten van de verschillende aanpakken zijn. Doorgaans kan dit alleen door te randomiseren.

Regelmatig worden principiële bezwaren tegen de experimentele aanpak geuit. Het zou niet eerlijk zijn om vergelijkbare mensen verschillend te behandelen. De praktijk is dat er door veranderingen in het beleid voortdurend mensen verschillend worden behandeld. Door het toeval dat twee leerlingen naar twee verschillende scholen gaan, ontstaan er dezelfde soort verschillen zonder dat ooit duidelijk wordt welke school de beste aanpak heeft. Terwijl het volstrekt normaal wordt gevonden dat de individuele leraar experimenteert met zijn manier van werken, wordt dit van scholen of de overheid niet geaccepteerd. Het woord ‘experiment’ is overigens verwarrend. In feite wordt er middels allerlei beleidswijzingen, pilots en de keuzes die scholen maken, voortdurend geëxperimenteerd. Het onderscheidende kenmerk tussen deze verschillen in beleid en een echt experiment is niet dat alleen in een experiment wordt geëxperimen-teerd, maar dat in een experiment systematisch wordt geëxperimenteerd.

Eigenlijk werkt leren voor de maatschappij dus niet anders dan leren voor individuen. Toch is leren voor de maatschappij nog alles behalve vanzelfsprekend.

Ten eerste bestaat er nauwelijks een beeld over wat we zouden willen leren over leren. Er is een groeiend besef van het belang van “evidence based” beleid, maar als er plotseling een groot budget beschikbaar zou komen voor een aantal grote experimenten in het onderwijs, wie geeft dan antwoord op de vraag welke experimenten gekozen zouden moeten worden omdat ze de grootste toegevoegde waarde voor het onderwijs

Essaybundel Bewezen Beleid in het Onderwijs | 57Ministerie van Onderwijs, Cultuur en Wetenschap

Page 62: Bewezen beleid in het onderwijs

hebben? En als deze experimenten zijn uitgevoerd, wat gaan we dan doen met de uitkomsten? Als niet duidelijk is op welke wijze we het onderwijs gaan aanpassen aan de bevindingen van deze experimenten, is het wellicht ook niet zinvol de experimenten uit te voeren. Wat ontbreekt is een goede beschrijving van wat we weten en wat we niet weten over onderwijs en de wijze waarop de verschillende onderdelen van het onderwijs met elkaar samenhangen. Net zoals het Centraal Planbureau de effecten van het beleid door kan rekenen, zou er een model moeten zijn om mogelijke aanpassingen in het onderwijs door te rekenen om zo te kunnen vaststellen waar de meest kansrijke mogelijkheden voor het onderwijs zitten. Heel basale principes over dat meer tijd voor het een, minder tijd voor iets anders betekent en over de vraag hoe mensen reageren op veranderde omstandigheden, worden vaak over het hoofd gezien. Door voorstellen voor veranderingen in een eenvoudig theoretisch perspectief te plaatsen, kunnen vaak mogelijke neveneffecten worden vastgesteld die anders onopgemerkt blijven.

In de tweede plaats is het besef hoe belangrijk gerandomiseerde experi-menten zijn om effecten te meten, nog niet bij iedereen voldoende doorgedrongen. Veel mensen die belangrijke beslissingen over onderwijs moeten nemen, blijken nog steeds te denken dat goede data over de stand van zaken in ons onderwijs voldoende informatie bieden om tot goede beslissingen te kunnen komen. De indruk bestaat dat het alleen voor de statistische fijnproevers interessant is om rekening te houden met “selection bias” en “endogeniteit” en dat men in de praktijk ook zonder deze fijnslijperij uit de voeten kan7. In de discussie wordt verder vaak gewezen op problemen die zich voordoen bij gerandomiseerde experi-menten. Hieruit wordt te snel de conclusie getrokken dat iedere aanpak zo zijn voor- en nadelen heeft en er dus ook goede alternatieven voor experimenten zijn. Bij experimentele methodes doet zich inderdaad een aantal problemen voor8, maar helaas betekent dat niet dat we belangrijke vragen over het onderwijs zonder gerandomiseerde experimenten wel zouden kunnen beantwoorden.

7 Iedereen die wil ervaren hoe belangrijk exogene variatie is om verantwoorde conclusies te trekken kan op www.socialeconomics.nl terecht voor een aantal beleids-sudoku’s.

8 Vaak is er ook sprake van misverstanden. Een veel gehoord argument is dat onderwijs te complex is voor experimenten. Omdat er zoveel factoren een rol spelen bij de ontwikke-ling van leerlingen is het onmogelijk om in een experiment alle andere omstandigheden onder controle te houden is de gedachte. Deze veelheid aan invloeden is echter juist de raison d’être van het experiment. Alleen op basis van exogene variatie kunnen de effecten van een aspect worden onderscheiden van deze andere invloeden. Inspanningen om omstandigheden onder controle te houden worden alleen gedaan om daarmee de benodigde steekproef te beperken.

58 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 63: Bewezen beleid in het onderwijs

Ook leren door te experimenteren kan heel goed al doende gebeuren. Ook hier moet gezocht worden naar een goede mix tussen het belang van de reguliere activiteiten van een school en het belang om te leren over de beste manier van werken. Een experiment kan zo worden opgezet dat het leereffect wordt gemaximaliseerd. Ook dan zullen de leerlingen nog profijt hebben van het onderwijs maar het belang van het experiment staat voorop. Het is logisch dat het onderwijs hier niet op zit te wachten. Omgekeerd is er echter ook bij beleidsmakers en het onderwijsveld soms weinig bereidheid en interesse om vernieuwingen in het onderwijs op een experimentele wijze door te voeren. Men is dan zo overtuigd van de effectiviteit van het nieuwe beleid dat men een analyse niet nodig acht, of zelfs liever heeft dat nooit duidelijk wordt wat de werkelijke effectiviteit is. Ook bestaat er vaak een naïef beeld dat onderzoekers beleid kunnen evalueren zonder dat er bij de opzet van het beleid rekening gehouden hoeft te worden met deze evaluatie. Dit is een illusie. Effectmetingen zijn alleen mogelijk als op een systematische manier verschillen worden gemaakt tussen verschillende individuen of groepen. Econometristen die analyses doen zonder experimentele variatie, gaan op zoek naar het kleine beetje toeval dat toevallig is ontstaan. Doorgaans is deze variatie te klein om betrouwbare uitspraken te kunnen doen. Dit betekent dus dat bij de implementatie van een nieuwe lesmethode of beleid rekening gehouden moet worden met het belang van de effectmeting. Vrijwel altijd is het mogelijk om met kleine aanpassingen in het beleid een adequate effectmeting mogelijk te maken, maar dit vraagt wel om een serieuze afweging van beide belangen en dus ook om tijdig overleg met onderzoekers.

Experimenten hebben vooral een grote toegevoegde waarde als het gaat om effecten die door individuele docenten of afzonderlijke scholen niet goed vastgesteld kunnen worden. Dat zijn relatief kleine effecten die spelen op de lange termijn en een grote steekproef vergen. De experimen-ten die momenteel worden uitgevoerd, zijn echter toch vaak kleinschalig en gericht op grote effecten op de korte termijn. De reden hiervoor is dat ook onderzoekers kosten-baten-afwegingen maken. Onderzoekers worden steeds meer beoordeeld op hun publicaties. Voor hen is het daardoor aantrekkelijker om snel te kunnen publiceren dan om lang bezig te zijn met een duur onderzoek dat wellicht relevanter zou zijn geweest vanuit het perspectief van het onderwijs.

4.4 Wat is nodig om van experimenteel onderzoek een gewoonte te maken?

Als ook onderzoek doen een kwestie is van kosten en baten valt te verwachten dat experimenteel onderzoek steeds meer praktijk gaat worden in het onderwijs. De waarde van onderwijs stijgt waardoor

Essaybundel Bewezen Beleid in het Onderwijs | 59Ministerie van Onderwijs, Cultuur en Wetenschap

Page 64: Bewezen beleid in het onderwijs

efficiëntieverhogingen steeds profijtelijker worden. Aan de andere kant dalen de kosten voor experimenteel onderzoek snel omdat meer en meer informatie over het onderwijs op computers wordt opgeslagen en omdat gegevens over onderwijs gekoppeld kunnen worden aan latere uitkomsten van individuen. Nederland heeft hierbij een uitstekende positie. Het Sociaal Statistisch Bestand van het Centraal Bureau voor de Statistiek biedt een erg goede infrastructuur om leerlingen op lange termijn te kunnen volgen.

Door in Nederland sterk te stimuleren dat niet alleen levenslang leren van individuen maar ook doorlopend leren van scholen en de maatschappij de normaalste zaak van de wereld wordt, kan Nederland een voorsprong opbouwen bij het gericht verhogen van efficiëntie van het onderwijs. Dit zal een kwestie zijn van vallen en opstaan. Experimenteel onderzoek van het onderwijs kent nog talloze haken en ogen. Het is echter onverstandig om te wachten tot voor alle mogelijke complicaties een oplossing is gevonden. Uitproberen en leren van de fouten hoort immers bij een serieus leerproces.

Verstandiger is het daarom om experimenteel onderzoek sterk te stimule-ren om zo dit leerproces op gang te brengen. De overheid kan dit doen door een aantal randvoorwaarden te creëren die zowel het onderwijsveld als het onderzoek stimuleren deze kant op te gaan.

In de eerste plaats zou van scholen verwacht kunnen worden dat ze alleen veranderingen doorvoeren als hiervoor voldoende bewijs van effectiviteit is en zij ook actief meerwerken aan experimenten die onze kennis vergroten over de werking van het onderwijs. Experimenteel onderzoek is in essentie niet duur. Met relatief kleine inspanningen kan de introductie van nieuwe methodes routinematig via een experimenteel design worden doorgevoerd en zouden scholen cruciale aspecten van het onderwijs kunnen randomiseren om zo strategisch belangrijke informatie over het onderwijs te vergaren. Het ligt voor de hand dat de keuzes voor de ontwikkelingen van onderzoek niet alleen door de overheid worden gemaakt, maar dat scholen hierbij ook een belangrijke rol krijgen. Dit maakt het ook mogelijk dat scholen op basis van een doelgerichte ontwikkeling hun eigen profiel creëren. Veel experimenteel onderzoek vraagt echter om een grotere schaal dan een afzonderlijke school. Scholen zouden daarom samenwerkingsverbanden kunnen vormen waarin samen wordt gewerkt aan de verbetering van het onderwijs. Dergelijke samenwer-king hoeft niet regionaal te zijn, maar is juist extra interessant als scholen overeenkomsten hebben in hun visie op onderwijs.

60 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 65: Bewezen beleid in het onderwijs

Uitgebreide metingen van effecten op korte en langere termijn zijn cruciaal voor goede experimentele analyses. Als dergelijke metingen afzonderlijk per onderzoek opgezet moeten worden, werkt dat sterk kostenverhogend. Het is daarom belangrijk om standaard een goed meetinstrumentarium te hebben waarmee de inputs in het onderwijspro-ces in kaart worden gebracht en de vorderingen van leerlingen in het onderwijs worden gevolgd. Hierbij is het van belang dat adequate keuzes worden gemaakt over de gegevens die worden verzameld. Omdat derge-lijke informatie ook van groot belang is om adequaat sturing te geven aan een school, gaan de belangen van experimenteel onderzoek en resultaat-gericht onderwijs hier hand in hand.

Daarnaast zou de overheid waardevolle experimenten in het onderwijs kunnen stimuleren door de beschikbare kennis over het onderwijs bijeen te brengen zodat beleid en onderwijsveld hier gebruik van kunnen maken. Modellen waarmee de effecten van beleidsveranderingen voor de ontwikkeling van kinderen kunnen worden doorgerekend, zouden een belangrijke input kunnen leveren voor de discussie welke experimenten de grootste toegevoegde waarde voor het Nederlandse onderwijs hebben.

Ten slotte is ook openheid van de gegevens voor het onderzoek van groot belang voor het slagen van deze expeditie. Goed onderzoek kan niet worden afgedwongen door alleen methodologische eisen te stellen aan het onderzoeksdesign. Door ook het praktijkgeoriënteerde onderwijson-derzoek bloot te stellen aan de wetenschappelijke discussie blijven de betrokkenen scherp en ontstaan nieuwe inzichten en nieuwe interpreta-ties. Bovendien is het beschikbaar stellen van onderzoeksdata de eenvou-digste manier om het onderzoek van wetenschappers in Nederland en daarbuiten te richten op voor ons land beleidsrelevante kwesties9. En dat is belangrijk want – om een beroemde econoom te citeren – experimenten kunnen heel nuttig zijn voor onderzoek maar mogen nooit een reden zijn om te stoppen met denken.

9 Lex Borghans, Nederlandse data zijn te duur, Economisch Statistische Berichten, 88(4397), 2003, pp. 132-133.

Essaybundel Bewezen Beleid in het Onderwijs | 61Ministerie van Onderwijs, Cultuur en Wetenschap

Page 66: Bewezen beleid in het onderwijs

Literatuur

Anderson, J. Learning and Memory, John Wiley, New York, 1995 laat zien dat het gedrag van

mensen die leren inderdaad vanuit dit perspectief geïnterpreteerd kan worden.

Borghans, L. (2006). “Zonder van de Tijd” Leren in Nederland vanuit een economisch

perspectief. Oratie Universiteit Maastricht.

Borghans, L. Nederlandse data zijn te duur, Economisch Statistische Berichten, 88(4397),

2003, 132-133.

Borghans, L., B. Golsteyn en A. de Grip (2006). Meer werken is meer leren; Determinanten van

kennisontwikkeling. CINOP, Den Bosch.

Rivkin, S., E. Hanushek en J. Kahn. Teachers (2005). Schools and Academic Achievement.

Econometrica, 73-2, 417-458, 2005.

Loo, J. van, Training, Labor Market Outcomes and Self-Management. Proefschrift,

Universiteit Utrecht.

62 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 67: Bewezen beleid in het onderwijs

Essaybundel Bewezen Beleid in het Onderwijs | 63Ministerie van Onderwijs, Cultuur en Wetenschap

Page 68: Bewezen beleid in het onderwijs

05Naar een nieuwe opzet van de onderwijsweten-schappen?Jacquelien Bulterman-BosOprichter van Open Doors Education

Ministerie van Onderwijs, Cultuur en Wetenschap64 | Essaybundel Bewezen Beleid in het Onderwijs

Page 69: Bewezen beleid in het onderwijs

In dit artikel probeer ik een aantal factoren op het spoor te komen die de kloof tussen onderzoek en praktijk in de hand werken. Met opzet begin ik met een evidence based onderzoek, gefinancierd uit het ‘experimenteerbudget’ dat bedoeld is om een bijdrage te leveren aan evidence based beleid. De studie gaat over vroege selectie in het voortgezet onderwijs en is daarmee nauw gelieerd aan discussies rondom de basisvorming, een van de (mislukte) onderwijsvernieuwin-gen. Geeft evidence based onderzoek betrouwbaarder informatie, waardoor onderwijsvernieuwingen niet meer hoeven te mislukken? Ik laat zien dat het gecompliceerder is. Ook het soort kennis dat leraren nodig hebben moet in de analyse meegenomen worden. Iedere succesvolle aanpak komt mede tot stand dankzij de persoonlijke vaardigheden van leraren. Die kennis is onlosmakelijk verbonden met de mensen die bij de aanpak betrokken zijn. Onderzoekers ontwikke-len kennis over onderwijs, dat is iets anders dan kennis hebben van onderwijzen. De medische wetenschap functioneert anders. Medische wetenschappers ontwikkelen geen theorie over genezen, maar ze ontwikkelen praktijken waarin mensen genezen worden. In de medische wetenschap zijn ‘kennen’ en ‘handelen’ met elkaar verbon-den. In deze bijdrage stel ik de vraag of er voor de scheiding tussen kennen en handelen in de onderwijswetenschappen tegenwoordig nog goede argumenten zijn. Ik betoog dat een verbinding tussen kennen en handelen perspectieven biedt op een betere relatie tussen onderzoek en praktijk. Dat betekent een nieuwe opzet van de onder-wijswetenschap, één waarbij de disciplinaire standaarden in de medische wetenschap als voorbeeld dienen.

5.1 InleidingDe teleurstellingen over de onderwijsvernieuwingen van de laatste decennia hebben de kwaliteit van het onderwijsbeleid ter discussie gesteld. Was er wel voldoende ‘evidence’ om de onderwijsvernieuwingen door te voeren? Zou het onderwijsbeleid en onderwijsonderzoek in het vervolg niet meer evidence based moeten worden? Ook in onderzoeks-kringen valt de term evidence based regelmatig. Nieuwe instituten worden geopend en bestaande instituten sieren zich met die naam. Eigenlijk is dit verwonderlijk. Is wetenschappelijk onderzoek dan niet per definitie evidence based?

De discussie over evidence based onderzoek kan niet los gezien worden van de kritiek op de onderwijswetenschappen. Sommigen spreken zelfs van een crisis in de geloofwaardigheid van de onderwijswetenschap (Kelly, 2003; Lageman & Shulman, 1999; Lagemann, 2000).

Essaybundel Bewezen Beleid in het Onderwijs | 65Ministerie van Onderwijs, Cultuur en Wetenschap

Page 70: Bewezen beleid in het onderwijs

De evidence based beweging in de Verenigde Staten kan gezien worden als één van de antwoorden die op deze crisis wordt gegeven (Feuer, Towne & Shavelson, 2002). Door middel van strengere methodologische eisen probeert deze beweging de kwaliteit van het onderwijsonderzoek en -beleid te verbeteren. De beweging heeft een sterke voorkeur voor een experimentele aanpak met grote groepen die het liefst at random zijn samengesteld. De Onderwijsraad (2006) spreekt ook een voorkeur uit voor experimenten met grote groepen, maar wil toch onderzoek dat tot minder harde kennis leidt, in ere houden. Alvorens ik dieper in ga op de kloof tussen onderzoek en praktijk, wil ik de vraag beantwoorden of het waarschijnlijk is dat deze nieuwe aanpak in de toekomst tot succesvoller onderwijsbeleid zal leiden. Daartoe gebruik ik een voorbeeld van een onderzoek over uitstel van selectie. Daarna probeer ik aan de hand van dit onderzoek factoren op het spoor te komen die de kloof tussen onderzoek en praktijk in de hand werken.

5.2 De kloof tussen onderzoek en praktijk: evidence based onderzoek naar gevolgen van vroege selectie

Voorafgaande en tijdens de invoering van de basisvorming is er veel gezegd en geschreven over uitstel van selectie. Ook nu de basisvorming als ‘mislukt’ wordt beschouwd, blijft de discussie hierover aanhouden. De vroege selectie zou met name de zwakkere leerling vastpinnen op een laag niveau en daarmee de doorstroom naar het hoger onderwijs in gevaar brengen. Het Centraal Planbureau (Van Elk, Van der Steeg & Webbink, 2009) wilde een einde maken aan speculaties en zich daarbij baseren op evidence. De onderzoekers gebruikten een harde methode: ze namen een grote groep leerlingen die allemaal ooit een mavoadvies hadden gekregen en verdeelden die in een subgroep die op een categorale mavo terecht was gekomen, en in een subgroep die naar een heterogene brugklas van mavo/havo (mh) of mavo/havo/vwo (mhv) was gegaan.

Bij beide groepen, die bij aanvang even intelligent bleken, ging het CPB na hoeveel leerlingen in het hoger onderwijs terecht waren gekomen. Uit de studie bleek dat de groep die ooit in een heterogene mh(v)-klas terecht was gekomen, beduidend meer kans had op participatie in het hoger onderwijs. Vervolgens onderzocht het CPB of heterogene klassen de kans voor de havisten op participatie in het hoger onderwijs beïnvloedde, maar nee: havisten die met een mavo’er in de brugklas hadden gezeten, hadden even veel kans op participatie in het hoger onderwijs als de anderen. Eindelijk leek er evidence te zijn voor wat zo velen altijd al hadden gedacht: vroege selectie belemmert de participatie in het hoger onderwijs. De effecten van de plaatsing in het eerste jaar van het voortgezet onderwijs waren nog jaren later te merken, constateerde het Planbureau. Het concludeerde dat de deelname aan het hoger onderwijs vergroot kan

66 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 71: Bewezen beleid in het onderwijs

worden door het stimuleren van gecombineerde brugklassen, waarin leerlingen met mavo- of havo-advies één of twee jaar bij elkaar gehouden worden. De kranten stonden er vol van: “mavo’er gebaat bij gemengde brugklas” (Trouw 6-3-09) en “Brugklassers halen hogere diploma’s” (Volkskrant 5-3-09).

5.3 Een andere kijk op de dataDe harde resultaten van het CPB zijn opzienbarend; haast te mooi om waar te zijn. In ander Nederlands onderzoek, waarbij ook homogene en heterogene groepen werden vergeleken, konden nauwelijks effecten van heterogeen groeperen worden gevonden (De Vries, 1992). Dar en Resh (1994, 1986, 1985) vonden in het buitenland wel positieve effecten van heterogene klassen voor zwakke leerlingen, maar negatieve effecten voor goede leerlingen. Voorafgaande aan en tijdens de basisvorming is er veel met heterogene klassen geëxperimenteerd; ze komen nog steeds veel voor. Zou de praktijk het niet gemerkt moeten hebben als de voordelen van heterogene klassen zo evident waren? Hoe is CPB aan haar onverdeeld positieve conclusies gekomen?

In het rapport is een tabel te vinden, waarin bij het eerste cohort uit 1989 per jaar precies staat aangegeven in welk schooltype de leerlingen zich bevinden. In het eerste jaar zit de ene groep op een categorale mavo en de andere groep in een mh(v)-klas. Na dat jaar zie je de opstroom naar de havo in de heterogene klassen, die er (uiteraard) in de homogene klassen niet is. Na 9 jaren zie je dat er 5% meer mh(v)’ers in het hoger onderwijs zitten dan categorale mavoërs. De conclusies van het CPB zijn dus op de ‘feiten’ gebaseerd. Maar de tabel, die alleen voor het eerste cohort in het rapport staat, laat ook nog iets anders zien wat de onderzoekers laten liggen. Direct na het eerste jaar is de stroom van de leerlingen die lager dan de mavo terecht komt 5% groter in de heterogene klassen. Na 9 jaar participeert uit de heterogene klassen 5% meer leerlingen in het hoger onderwijs, maar er heeft ook 5% meer leerlingen het onderwijs verlaten, terwijl die 5% in de homogene klassen nog op school zit. Let het CPB wel op participatie in hoger onderwijs, maar niet op afstroom en uitstroom?

Deze vraag wordt urgenter als ik in een krantenartikel uit 2002 lees dat het CPB heeft vastgesteld dat het aantal scholieren dat moet overstappen naar een lager schooltype, sinds begin jaren negentig bijna is verdubbeld (Volkskrant, 18-4-2002 “Middelbare scholier grijpt vaak te hoog”). Als verklaring stelt het CPB dat de groei van het aantal brede scholengemeen-schappen de afstroom in de hand werkt. Beide onderzoeken bestrijken dezelfde tijdsperiode. Hoe zit dit? Hebben leerlingen in heterogene groepen een grotere kans op participatie in het hoger onderwijs, maar ook een grotere kans om lager dan de mavo terecht te komen?

Essaybundel Bewezen Beleid in het Onderwijs | 67Ministerie van Onderwijs, Cultuur en Wetenschap

Page 72: Bewezen beleid in het onderwijs

Met deze prangende vraag heb ik een van de onderzoeker van het CPB opgebeld: acht hij het mogelijk dat meer kans op participatie in het hoger onderwijs samen gaat met meer kans op participatie in schooltypen lager dan de mavo? Zijn reactie was dat deze vraag geen onderdeel was geweest van het onderzoek. Het CPB had gekeken wat de kansen waren voor leerlingen uit verschillende brugklassen om in het hoger onderwijs terecht te komen, want het CPB wilde nagaan wat er wáár is van de opvatting (geventileerd in de internationale literatuur en o.a. de OECD) dat vroege selectie de participatie in het hoger onderwijs in gevaar brengt.

Ook de conclusie dat havisten niet onder een mh(v)-brugklas lijden roept vragen op: als het voor leerlingen met een mavoadvies goed is om in klassen te zitten met havisten, waarom zou het dan voor havisten niet ook goed zijn om met vwo’ers in de klas te zitten? Uit het rapport blijkt echter dat het CPB een bepaalde definitie van hoger onderwijs hanteert: het hbo en het wo worden als één groep behandeld. Tussen mbo en hbo maakt het CPB dus wel onderscheid, maar tussen hbo en wo niet. Zo wordt uit de onderzoeksresultaten niet duidelijk of een havist in een mh-klas soms minder kans heeft om door te stromen naar het wo. Daarom stelde ik de onderzoeker ook de vraag of de conclusie dat havisten geen schade ondervinden van brugklassen met mavoërs, mede verklaard wordt door de definitie van hoger onderwijs van het CPB. Zijn reactie was dat het CPB dezelfde definitie van hoger onderwijs had gehanteerd als in de Lissabon-doelstellingen; daarin wordt ook geen onderscheid gemaakt tussen hbo en wo, maar wel tussen mbo en hbo.

Het lijkt zeer waarschijnlijk dat de conclusies van het CPB de samenleving op het verkeerde been zetten. Van de evidente voordelen van heterogene brugklassen blijft weinig over als heterogene klassen zowel de kansen op participatie in het hoger onderwijs vergroten als de kansen op uitval of afstroom vergroten. Wat zou er gebeuren als dit evidence based onderzoek zou worden omgezet in evidence based beleid? Zou dit dan weer tot nieuwe teleurstelling leiden, zoals dat bij de basisvorming ook is gebeurd?

5.4 Fragmenten uit een complex geheelAan de hand van dit voorbeeld ga ik factoren opsporen die de kloof tussen onderzoek en praktijk in de hand werken. Ik wil benadrukken dat de onderzoekers van het CPB te werk gaan op een manier die niet ongebrui-kelijk is. Het is niet mijn bedoeling om dit specifieke onderzoek te bekritiseren, maar om inzichtelijk te maken waar de kloof tussen onderzoek en praktijk vandaan komt. Met betrekking tot de vraagstelling over de gevolgen van vroege selectie, brengt het CPB inderdaad een hard feit boven tafel: in heterogene klassen hebben leerlingen meer kans om

68 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 73: Bewezen beleid in het onderwijs

hoger op te komen. Dit feit is echter een fragment uit een complex geheel. Wanneer andere fragmenten aan dit feit worden toegevoegd ontstaat een compleet ander beeld. Het CPB-onderzoek laat zien dat de keuze van de onderzoeksvragen heel duidelijk van invloed is op de resultaten die het onderzoek oplevert. Dit illustreert dat de onderzoeker – ook de harde evidence based onderzoeker – geen objectieve kennis aanlevert, maar aan de hand van empirische gegevens bepaalde inzichten construeert.

Het onderzoek van het CPB is slechts één voorbeeld van een onderzoek dat een fragment uit de werkelijkheid vergroot. In het algemeen geldt echter dat onderzoekers uit een oneindig aantal factoren moeten besluiten wat ze wel en wat ze niet gaan onderzoeken. Ze zijn dus altijd fragmentarisch bezig. Dit geldt - op een andere manier en wellicht (soms) in mindere mate - ook voor kwalitatieve onderzoekers. Vervolgens worden de resultaten niet alleen mede bepaald door de manier waarop zij vragen stellen, maar ook door de manier waarop zij onderzoeksinstrumenten ontwerpen, data interpreteren en conclusies afleiden. Alle onderzoekers construeren dus kennis met behulp van hun eigen vooronderstellingen.

Onderwijs vindt plaats binnen een sociaal-cultureel krachtenveld; wanneer onderzoekers definities hanteren die sterk afwijken van de participanten in dat krachtenveld of vooronderstellingen hanteren waar niemand in de praktijk in gelooft, leidt dit tot (onnodige) misverstanden. Fragmenten van kennis kunnen het beeld danig vertekenen. Wanneer onderzoekers relevante factoren over het hoofd zien, kan onderzoek de samenleving op het verkeerde been zetten. De samenleving ervaart dan een kloof tussen onderzoek en praktijk. Dit geldt ook voor experimenteel onderzoek met grote groepen!

5.5 Theoretische noties als eigen werkelijkheidIk laat het onderzoek van het CPB nog even op mijn bureau liggen, terwijl ik verder op zoek ga naar factoren die de kloof tussen onderzoek en praktijk in de hand werken. We hebben gezien dat onderzoekers kennis construeren. In de manier waarop ze dat doen, speelt echter ook de academische literatuur een belangrijke rol. Als we ons afvragen hoe er een koof tussen onderzoek en praktijk kan ontstaan, is het verstandig om ook te kijken naar de manier waarop theoretische noties in de literatuur tot stand komen.

De constructie van theorie is (meestal) een internationale aangelegen-heid; theoretische opvattingen over onderwijs komen zelden op grond van een enkele studie tot stand. Onderzoeksresultaten over de effecten van homogene en heterogene klassen komen uit heel veel landen, zo ook uit de Verenigde Staten. Een onderzoeker uit de VS die veel onderzoek doet op

Essaybundel Bewezen Beleid in het Onderwijs | 69Ministerie van Onderwijs, Cultuur en Wetenschap

Page 74: Bewezen beleid in het onderwijs

het terrein van vroege selectie, is Jeanie Oakes (1985), die op allerlei manieren aantoont hoe zwakke leerlingen daar de dupe van zijn. Haar publicaties worden overal ter wereld gebruikt.

Om beter te begrijpen hoe de onderzoeksresultaten van Oakes tot stand komen, is het goed om te kijken hoe het Amerikaanse voortgezet onderwijs in elkaar zit. In de VS komt het vaak voor dat afzonderlijke lessen op verschillende niveaus worden aangeboden (ook in het basison-derwijs!), maar anders dan bij ons bestaat er niet de mogelijkheid om na afloop van een periode door te stromen naar een hoger niveau. Na vier jaar stromen alle leerlingen van de high school uit. Ongeacht hun niveau staan ze allemaal voor dezelfde opgave om toegelaten te worden tot colleges of universiteiten. In zo’n context komt vroege selectie harder aan dan in de Nederlandse context, waarin leerlingen kunnen stapelen. Dat Amerikaans onderzoek uitwijst dat deze vroege selectie nadelig is voor zwakke leerlingen, hoeft dus geen verbazing te wekken. Dat geldt in de VS, maar geldt het ook in Nederland?

Echter, wanneer dergelijke onderzoeksresultaten in de internationale literatuur verschijnen, weten niet alle lezers onder welke omstandigheden de resultaten tot stand gekomen zijn; dat staat er niet volledig bij. Volledig de omstandigheden beschrijven, is onbegonnen werk. De omstandighe-den worden uiteraard bepaald door het onderwijssysteem ter plaatse, maar daarnaast zijn er heel veel moeilijk grijpbare factoren die de situatie ter plaatse bepalen, zoals het klimaat in de groep, de klik tussen de betrokkenen enz. In ieder onderzoek zitten ‘super unknowns’, waardoor het maar de vraag is of onderzoeksresultaten überhaupt generaliseerbaar zijn (St. Clair, 2005). Als dezelfde studie nogmaals uitgevoerd wordt, is het helemaal niet bijzonder dat de resultaten niet consistent zijn. Zelfs success for all – het paradepaardje van de evidence based beweging in de VS – bleek moeilijk repliceerbaar (Berliner, 2002). Berliner (2002) noemt de onderwijswetenschap daarom terecht “the hardest science of all”. Toch is het de gewoonste zaak ter wereld dat onderzoekers werk van anderen citeren in de veronderstelling dat de resultaten die elders geconstateerd zijn, ook onder de plaatselijke omstandigheden zullen opgaan.

Hoewel er in de onderwijswetenschap geen inzichten bestaan waar iedereen het over eens is (Burkhart & Schoenfelt, 2003), hanteren onderzoekers toch theoretische noties. Onderzoekers die zich aan-gesproken voelen door elkaars ideeën, zoeken elkaar op, zetten elkaars bril op en citeren elkaars werk. Wanneer het vermoeden rijst dat een bepaald inzicht ‘fout’ is – zoals het geval was bij het inzicht dat hoge verwachtingen van leraren tot hoge leerresultaten leiden, want onderzoe-kers hadden systematisch oorzaak en gevolg met elkaar verward (Dusek,

70 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 75: Bewezen beleid in het onderwijs

1985; Wineburg, 1987) - kan het ontzettend lang duren eer het inzicht in de onderzoeksgemeenschap doordringt. Een onderzoeker moet een kritische publicatie hierover toevallig treffen!

De onderwijskundige discipline is zodanig opgebouwd dat weten-schappers niet betrokken zijn bij het onderwijs aan leerlingen. Er wordt niet voorzien in een gelegenheid die onderzoekers de mogelijkheid biedt om te controleren of theoretische noties uit de literatuur recht doen aan de praktijk ter plaatse.

Zo kom ik op een volgende factor, die de kloof tussen onderzoek en praktijk in de hand werkt. Onderzoekers houden zich louter bezig met (geïsoleerde) data en met theoretische noties uit de literatuur. Ze kunnen niet nagaan wat die theoretische noties in de praktijk voorstellen. De theorie gaat zo een eigen leven leiden. Het ontstaan van een kloof tussen onderzoek en praktijk ligt dan voor de hand.

Het kan gebeuren dat de OECD, die zich ook graag op wetenschap wil baseren, de theorie leest en Nederland kapittelt vanwege de vroege selectie (terwijl Nederland behoort tot de landen met de kleinste spreiding van onderwijsresultaten in wiskunde en leesvaardigheid; juist aan de onderkant van de verdeling doen we het goed (Van der Werfhorst & Mijs, 2007). Vervolgens tonen onderzoekers van het CPB met harde gegevens het gelijk van de theorie aan en de OECD aan. De ene waarheid bevestigt de andere, maar van wat er werkelijk in het onderwijs gebeurt, kan het ver af staan.

5.6 Distantie of relevantie?Het gevaar van het geven van een voorbeeld is dat er tegengeworpen kan worden dat de fouten die het CPB maakt slechts incidenteel zijn. Maar het gaat mij er niet om dit specifieke onderzoek te bekritiseren – op ieder onderzoek is wel iets aan te merken – maar erop te wijzen dat onderzoek altijd fragmentarisch is, terwijl de disciplinaire standaarden onderzoekers niet in aanraking brengen met het grote geheel namelijk de onderwijs-praktijk aan leerlingen met al zijn facetten.

In de onderwijswetenschappen functioneren onderzoekers op afstand van het onderwijsveld. Ooit werd aangenomen dat distantie de objectiviteit zou bevorderen; veel onderzoekers hoopten dat wetenschap tot onbe-twistbare, ware en harde inzichten zou kunnen leiden. Tegenwoordig zijn meer onderzoekers – ook in de exacte wetenschappen (Bronowski, 1978) het met elkaar eens dat objectiviteit voor mensen een onbereikbaar ideaal is (Eisner, 1992). Alle kennis is interpretatie, maar je kunt wel een onder-scheid maken tussen een geloofwaardige en een ongeloofwaardige

Essaybundel Bewezen Beleid in het Onderwijs | 71Ministerie van Onderwijs, Cultuur en Wetenschap

Page 76: Bewezen beleid in het onderwijs

interpretatie, tussen bruikbare en onbruikbare interpretaties. De vraag is dus niet of onderzoekers kennis construeren, maar hoe ze dat doen. Construeren onderzoekers kennis op een manier die relevant is voor de praktijk? Een volgende vraag is of onderzoekers de praktijk voldoende kennen om te kunnen weten wat relevant is voor de praktijk. Als niet de vraag is hoe onderzoekers zo min mogelijk interpreteren (wat het geval is bij het misplaatste ideaal van objectiviteit), maar hoe onderzoekers zo goed mogelijk interpreteren, zouden onderzoekers dan niet veel meer in het onderwijsveld moeten werken in plaats van er naast?

5.7 Kennis zonder vaardighedenAls de conclusies van het evidence based onderzoek van het CPB vertaald zouden worden in evidence based beleid, zouden er meer mavo-havo-(vwo) brugklassen komen. Voor leraren heeft dat nogal wat consequenties. Uit recent onderzoek blijkt dat zelfs zeer goede en talentvolle vo-docenten (die vijf tot zes klassen per dag hebben) het niet gemakkelijk vinden om alle talenten binnen zo’n klas tot hun recht te laten komen (Sligte, Bulterman-Bos & Huizinga, 2009). Omgaan met heterogeniteit plaatst leraren voor de nodige dilemma’s: zwakke leerlingen trekken zich niet automatisch op aan de sterken, maar het komt ook voor dat goede leerlingen gaan onderpresteren (Bulterman-Bos, 2004, 2007). Het CPB-onderzoek is niet bedoeld om leraren een bepaalde aanpak voor te schrijven; toch hebben de conclusies gevolgen voor leraren. Zou het CPB overzien wat het van leraren vraagt?

In de zoektocht naar factoren die de kloof tussen onderzoek en praktijk in de hand werken, stuiten we hier op een tamelijk fundamenteel probleem. Het goed omgaan met dilemma’s (wat nodig is in heterogene klassen) vraagt niet zozeer om kennis, maar om persoonlijke vaardigheden (Lampert, 1985). Tegenwoordig worden leraren wel vergeleken met andere beroepen waar vaardigheden belangrijk zijn: pianisten, artsen etc. (Berliner, 2001). Een beroepspianist kan de kennis om een moeilijke sonate te spelen niet via artikelen overdragen op een leerling. De leerling moet zelf oefenen. Ziekten diagnosticeren kan ook niet uitsluitend uit boeken geleerd worden; artsen moeten hun zintuigen ontwikkelen. Bij lichamelijk onderzoek gebruiken artsen hun eigen lichaam (hun tastzin, hun reukzin, hun visueel waarnemingsvermogen, hun auditief waarne-mingsvermogen) om te onderzoeken wat er met een patiënt aan de hand is. De kennis die artsen ontwikkelen door veel patiënten te zien, leidt niet zozeer tot kennis die in hun hoofd zit en die opgeschreven kan worden in artikelen, maar tot kennis die in hun lichaam – in de ontwikkeling van hun zintuigen – zit. Deze kennis wordt tacit knowledge genoemd. Deze kennis is niet zomaar overdraagbaar op anderen, want hij is onderdeel van iemands manier van zijn (Polanyi, 1958, 1967).

72 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 77: Bewezen beleid in het onderwijs

Essaybundel Bewezen Beleid in het Onderwijs | 73Ministerie van Onderwijs, Cultuur en Wetenschap

Page 78: Bewezen beleid in het onderwijs

Juist op het vlak van dit soort vaardigheden ligt een belangrijke oorzaak van de kloof tussen onderzoek en praktijk. Goede leraren hebben meer kennis nodig dan de kennis die in boeken opgenomen kan worden. Ze moeten weten hoe ze sfeer kunnen scheppen, leerlingen motiveren etc. Deze kennis verwerven zij onder andere door ervaring, door handelen.

In het academische domein is de kennis die voortkomt uit handelen met leerlingen en klassen grotendeels afwezig. Binnen de huidige onder-wijskundige discipline zijn kennen en handelen van elkaar gescheiden: onderzoekers ontwikkelen kennis, maar gebruiken die kennis niet. In de theorie ontstaan allerlei begrippen over aanpakken: adaptief lesgeven, leerlinggericht lesgeven etc. Wanneer je echter uit zou moeten leggen wat het betekent om leerlinggericht les te geven, dan schieten woorden te kort, want dat is in iedere situatie weer anders. Hoe kun je vanaf een afstand aangeven hoe je contact maakt met een onbekende leerling? Een belangrijk deel van de theoretische begrippen in de literatuur doet feitelijk een beroep op factoren die teruggaan op het geheim (namelijk de vaardigheden) van bepaalde personen.

Het gemak waarmee er begrippen over aanpakken vigeren, suggereert dat kennis van die begrippen op zichzelf voldoende is, alsof met kennis van die begrippen de aanpak gerealiseerd kan worden. Geïsoleerd van mensen die de vaardigheden belichamen, zijn die begrippen een lege huls (Bulterman-Bos, 2008a en b). Om een enigszins boude vergelijking te trekken: als je een boekje gelezen hebt over hoe je bij voetbal moet scoren, wil dat nog niet zeggen dat je de wedstrijd wint.

Evidence based onderzoek kan best uitwijzen dat een bepaalde aanpak effectief was. Kennelijk hebben leraren en leerlingen in kwestie dan over de juiste kennis en vaardigheden beschikt en voldaan aan de eisen die de onderzoekers in hun hoofd hadden. Dat gegeven garandeert echter niet dat andere leraren, die een wetenschappelijke beschrijving van die aanpak krijgen, die vaardigheden automatisch ook hebben. Wie denkt dat evidence based beleid aanpakken kan voorschrijven waarvan de effectivi-teit bewezen is, veronderstelt ten onrechte dat leraren al hun kennis rechtsreeks uit de boekenkast kunnen halen. Was het maar wáár dat onderwijzen zo eenvoudig was!

De scheiding tussen kennen en handelen resulteert dus in kennis over aanpakken in plaats van de vaardigheden om die aanpakken te realiseren. Zo ontstaat retoriek over hoe het zou moeten, terwijl de bijbehorende goede praktijk er niet bij geleverd kan worden. Ondertussen kunnen de onderzoekers niet overzien wat zij van leraren vragen. Zo ontstaat een kloof tussen onderzoek en praktijk.

74 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 79: Bewezen beleid in het onderwijs

5.8 Onderzoek leidt niet tot waarheden die op zichzelf kunnen staan

De aanname dat onderwijs evidence based zou kunnen zijn, waarbij gebruik wordt gemaakt van harde kennis en werkzame aanpakken verraadt dat onderwijs geconceptualiseerd wordt alsof het een technische activiteit zou zijn. Met deze begrippen wordt een dynamisch-relationeel object als onderwijs door een statisch-mechanistische bril bekeken – en zo ontstaat een vertekend beeld. Alleen al dit taalgebruik weerspiegelt de kloof tussen onderzoek en praktijk! Zoals Schön (1983) zo overtuigend heeft aan-getoond, voldoet het model van de technische rationaliteit in de (onder-wijs)praktijk niet. Iedere situatie is weer anders. Daarom is het tamelijk grote onzin om te spreken van harde kennis over werkzame aanpakken. Door ervaring kunnen leraren veel leren, maar er blijft gelden dat in het verleden behaalde resultaten geen garantie geven voor de toekomst. De werkzaamheid van bepaalde aanpakken bestaat juist uit de flexibiliteit van de leraar om de aanpak aan de omstandigheden aan te passen. Kwalitatief hoogwaardig onderwijs moeten op de werkvloer iedere keer opnieuw geconstrueerd worden en kan dus niet van bovenaf worden georganiseerd.

Daarmee is echter niet gezegd dat het gebruik van mechanistische onderzoeksdesigns altijd uit den boze is. Onder gegeven omstandigheden kan het heel nuttig zijn om te kijken wat de resultaten van een bepaalde interventie zijn geweest. Het moet dan wel duidelijk zijn dat het slechts een mechanistische manier van kijken is, die zowel aspecten van de werkelijkheid onthult als verhult, maar niettemin het inzicht kan verdiepen. Juist omdat onderwijzen voor een belangrijk deel een persoon-lijke vaardigheid is die in iedere nieuwe situatie anders moet worden ingezet, kunnen de resultaten uit onderzoek – ongeacht de keuze voor het design – wel het inzicht verdiepen, maar niet als op zichzelf staande waarheden worden beschouwd.

5.9 Kunnen onderzoekers zonder tacit knowledge?We zijn een aantal factoren op het spoor gekomen die de kloof tussen onderzoek en praktijk in perspectief plaatsen. Onderzoek leidt slechts tot een fragment van kennis over een uiterst complex en multidimensioneel gegeven dat de onderwijspraktijk is. Op grond van die fragmentarische kennis ontstaan (vaak eendimensionele) theoretische inzichten waarvan niemand kan controleren in hoeverre ze op lokale omstandigheden van toepassing zijn. Die theoretische inzichten betreffen vaak kennis over vaardigheden in plaats van de vaardigheden zelf. Omdat onderzoeksresul-taten mede door de persoonlijke vaardigheden van leraren worden bepaald, kunnen ze niet als op zichzelf staande waarheden worden beschouwd.

Essaybundel Bewezen Beleid in het Onderwijs | 75Ministerie van Onderwijs, Cultuur en Wetenschap

Page 80: Bewezen beleid in het onderwijs

Onderwijzen is niet alleen een kunst, maar ook een kunde – dat ben ik met Bosker (2008) eens. Kennis die wél in boeken weergegeven kan worden, is uiteraard ook belangrijk voor leraren. Iedere praktijkbeoefenaar heeft bovendien behoefte aan een goede theorie – leraren dus ook. We hebben echter gezien dat de uitkomsten van onderzoek een gevolg zijn van een constructieproces, waarbij het onvermijdelijk is dat de vooronder-stellingen van onderzoekers binnen sluipen. Die vooronderstellingen worden gevormd door de literatuur en we hebben gezien dat die nogal eens een eigen leven leidt en ver van de (locale) praktijk af staat. We hebben ook gezien dat onderzoeksresultaten niet als op zichzelf staande waarheden beschouwd kunnen worden. Zijn onderzoekers, die zo ver van de praktijk af staan, geëquipeerd om de kennis te construeren die voor de mensen in de klas relevant is? Wie nooit met groepen kinderen in aanraking komt, heeft een ander referentiekader dan wie de hele dag met leerlingen bezig is. Als onderwijzen zowel een kunst als een kunde is, dan is het de vraag of de kunde ontwikkeld kan worden door mensen die de kunst niet verstaan!

Het begrip tacit knowledge van Polanyi (1958, 1967) wordt vaak geciteerd in de onderwijswetenschappen, maar wordt dan alleen op practici van toepassing geacht. Daarbij wordt vergeten dat Polanyi wetenschaps-filosoof was, die benadrukte dat alle vormen van wetenschappelijke kennis door dagelijkse kennis worden gevoed (Gelwick, 1977). Na een carrière in de exacte wetenschappen wijdde hij zich aan de wetenschapsfi-losofie, omdat hij om zich zorgen maakte over misplaatste opvattingen over wetenschappelijke distantie die hij met name in de sociale weten-schappen signaleerde. Volgens hem was die wetenschappelijke distantie destructief en werkte voornamelijk leegheid van onderzoek in de hand. Hij liet zien dat onderzoekers heel intensief met het object van studie moeten omgaan, iets wat in veel exacte wetenschappen vanzelf spreekt. Intensieve omgang met het object van studie verandert de onderzoeker, waardoor hij of zij nieuwe aspecten van het onderzoeksobject leert zien en vruchtbaar-dere manieren kan ontwikkelen om fragmenten van kennis met elkaar in verband te brengen. Polanyi benadrukte dus niet dat leraren tacit knowledge nodig hebben, maar dat onderzoekers deze nodig hebben!

5.10 De medische discipline: verbinding tussen kennen en handelen

De medische wetenschap is opgezet volgens andere disciplinaire standaar-den dan de onderwijswetenschappen. In klinische wetenschappen overlapt de rol van de onderzoeker met die van de professional. Het doel van de wetenschap is niet het ontwikkelen van theoretische kennis, maar het verbeteren van praktische situaties waarbij theorie uiteraard een

76 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 81: Bewezen beleid in het onderwijs

middel kan zijn, maar niet noodzakelijk het enige middel is (Toulmin, 2001).

Kennen en handelen zijn in de medische discipline met elkaar verbonden: onderzoekers zijn arts. Sommigen specialismen richten zich bij uitstek op de ontwikkeling van vaardigheden (denk bijvoorbeeld aan chirurgie). Ook onderzoekers leren kijken, leren voelen, leren luisteren en ruiken om ziekten te kunnen diagnosticeren. Deze lichamelijke vaardigheden – deze tacit knowlege – zijn ook in het wetenschappelijk onderzoek onontbeer-lijk; onderzoek waar geen diagnostische vaardigheden bij aan te pas komen, is ondenkbaar. De disciplinaire standaarden brengen de onderzoe-ker in aanraking met de praktijk: in het kader van hun opleiding moeten onderzoekers een groot aantal cases gezien hebben. Hun hele loopbaan lang blijven onderzoekers verantwoordelijkheid dragen voor patiënten. Er is dus een structuur geschapen waarin de zoektocht naar expliciete kennis voortdurend door tacit knowledge wordt gevoed.

De kennis die wordt ontwikkeld, wordt ook door de onderzoekers in concrete situaties toegepast. Zo ontstaat een natuurlijke check op de juistheid van inzichten in een specifieke context. Zo wordt voorkomen dat theoretische waarheden een eigen leven gaan leiden. Zo ontstaan nieuwe vragen die het onderzoeken waard zijn. De sturende kracht achter de wetenschappelijke analyse is de vraag wat heilzaam is voor patiënten – een normatieve vraag die heel natuurlijk in de wetenschappelijke analyse wordt meegenomen.

Niet in alle hoeken van de medische sector wordt het object van onderzoek gevormd door patiënten. Er zijn ook wetenschappers die zich richten op cellen, of op bacteriën. Niet alle medische onderzoekers gaan met patiënten om, maar er geldt wel dat iedereen intensief betrokken is bij zijn of haar object van onderzoek.

Binnen een klinische onderzoekspraktijk kunnen allerlei verschillende onderzoeksmethoden gebruikt worden: grootschalig en kleinschalig, kwalitatief en kwantitatief, experimenteel en beschrijvend. Doordat de rol van de onderzoeker de rol van de professional overlapt, wordt een praktijkgerichte cultuur gecreëerd. Er worden praktijkgerichte vragen gesteld. Data worden vanuit praktische wijsheden geïnterpreteerd. Waarheden worden aangevuld door wijsheden. Kennis gaat gepaard met vaardigheden.

5.11 Naar een nieuwe onderwijskunde?De kloof tussen onderzoek en praktijk, die onder de noemer van evidence based onderzoek wordt gecontinueerd, roept de vraag op of we toe zijn

Essaybundel Bewezen Beleid in het Onderwijs | 77Ministerie van Onderwijs, Cultuur en Wetenschap

Page 82: Bewezen beleid in het onderwijs

aan een nieuwe onderwijswetenschap met een klinische opzet. Wanneer onderwijsonderzoekers concrete verantwoordelijkheid in de onderwijs-praktijk dragen, ontwikkelen zij een gevoeligheid die kan helpen om fragmenten van kennis uit onderzoek beter tot een zinvol geheel samen te smeden. Ze leren zien welke factoren in de praktijk relevant zijn en welke niet. Theoretische inzichten worden voortdurend aan lokale praktische omstandigheden getoetst, wat inzichten nuanceert en verdiept. Zo kan worden voorkomen dat theorie een eigen leven gaat leiden. Door naast hun werk als onderzoeker ook praktisch met onderwijs bezig te zijn, ontwikkelen onderzoekers vaardigheden die hen in staat stellen om te weten waar ze over praten als ze anderen iets aanraden. Daarnaast wordt zo voorkomen dat onderwijswetenschap een tamelijk leeg begrippenspel wordt. Onderzoekers hoeven zich dan niet langer te beperken tot het ontwikkelen van theorie over onderwijs, maar kunnen zij mede dankzij hun onderzoek bestaande praktijken verbeteren en inspirerende voor-beeldpraktijken creëren.

Het is bemoedigend dat er momenteel allerlei ontwikkelingen plaats-vinden, die zich bewegen in de richting van een klinische opzet. Allereerst is er een groeiend aantal onderzoekers dat samenwerking met leraren bepleit (Ten Dan, Volman & Wardekker, 2005; Vandenberghe 2005). Hoe ver deze samenwerking gaat, kan variëren; soms betekent het niet meer dan dat leraren onderzoekers toegang geven tot het veld, in andere gevallen betekent het dat de onderzoeker en de leraar samen publiceren in wetenschappelijke tijdschriften. In deze projecten wordt nieuwe ervaring opgedaan. In ieder geval is het belangrijk dat de uitwisseling tussen onderzoek en praktijk tweezijdig is: onderzoekers moeten zich realiseren dat zij iets van practici te leren hebben (Jolles, 2006). Daarnaast zijn er initiatieven waarin de rol van de onderzoeker inderdaad overlapt met die van de leraar. Onder onderzoekers is er veel belangstelling voor design based research (Kelly, 2003), een vorm van onderzoek waarin de onderzoe-ker ook leraar is.

Probleem is wel dat veel onderzoekers vaak geen kennis van een schoolvak hebben en geen ervaring als leraar waardoor er van de overlappende rol niet altijd even veel terecht komt. De overlappende rol van de onderzoeker met de leraar wordt ook gestimuleerd doordat er recent in den lande allerlei initiatieven genomen zijn om de wetenschappelijke studie pedagogiek of onderwijskunde te combineren met een opleiding tot leraar. Last but not least zijn er de initiatieven om (ervaren) leraren op te leiden als onderwijsonderzoeker, waarbij het de bedoeling is dat zij (als onderzoeker) carrière maken, maar tegelijkertijd in de onderwijspraktijk actief blijven. Te denken valt aan de academische school, maar ook aan het initiatief van het Nederlands Instituut voor Masters in Educatie om in

78 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 83: Bewezen beleid in het onderwijs

samenwerking met enkele universiteiten aan ervaren leraren een academische master in education aan te bieden, die de werkgever betaalt en waarvoor leraren gedeeltelijk uitgeroosterd worden. Her en der worden vergelijkbare initiatieven genomen waarin leraren hun werk voor de klas combineren met een taak als onderzoeker.

Een overlappende rol tussen onderzoeker en leraar is binnen een klinische opzet niet het privilege van onderzoekers die zich met kleinschalig onderzoek (of design based research) bezighouden. Voor grootschalig onderzoek is tacit knowledge evenzeer noodzakelijk als voor kleinschalig. Terwijl klinische onderzoekers altijd oog blijven houden voor wat het individuele geval anders maakt, wordt de hoop op algemene waarheden niet opgegeven. Inzichten ontstaan in een klinische discipline niet alleen van bovenop - van het algemene naar het bijzondere - maar ook van onderop - van het bijzondere naar het algemene (Toulmin, 2001).

Een belangrijke reden voor de kloof tussen onderzoek en praktijk is dat de disciplinaire standaarden simpelweg niet van onderzoekers vragen dat hun werk relevant is voor de praktijk. Wanneer onderzoekers voldoende publiceren in internationale tijdschriften, hebben zij hun werk gedaan. Niettemin maken veel onderzoekers zich toch zorgen over de kloof tussen onderzoek en praktijk. De initiatieven hierboven zouden een voorzichtige voorbode kunnen zijn van het ontstaan van een nieuwe onderwijsweten-schap. We zijn er echter nog lang niet. In het kader van bewezen beleid is steun voor deze ontwikkeling vanuit het beleid hard nodig.

5.12 Bewezen beleidDe overheid is verantwoordelijk voor de kwaliteit van onderwijs. Dit maakt een top-down benadering onvermijdelijk. Dat creëert echter wel een dilemma, want kwalitatief hoogwaardig onderwijs is niet van bovenaf te organiseren. Door de kloof tussen onderzoek en praktijk komt het regelmatig voor dat leraren professionele kennis aangeboden krijgen die niet beantwoordt aan hun vragen. Hun professionele taal/instrumen-tarium, waar ze in problematische situaties een beroep op kunnen doen, is beperkt, wat het beroep van leraar tot een kwetsbaar beroep maakt (Kechtermans, 1996). In zo’n situatie is de verleiding groot om toch van bovenaf in te gaan grijpen, terwijl er tegelijkertijd aarzeling is omdat er al zoveel is misgelopen.

Een klinische opzet zou ook daarin de overheid de hand kunnen reiken. Een transformatie naar klinische disciplinaire standaarden zou immers een omkering van de beroepskolom betekenen. Momenteel verkeren we in een situatie waarin de praktische ervaring met leerlingen afneemt naarmate je hoger in de kolom komt (Lanier & Little, 1986; Zeichner, 1999).

Essaybundel Bewezen Beleid in het Onderwijs | 79Ministerie van Onderwijs, Cultuur en Wetenschap

Page 84: Bewezen beleid in het onderwijs

Wanneer de overheid zich door het veld laat adviseren, loopt de overheid onder de huidige omstandigheden grote kans dat de mensen op de werkvloer – die onderaan in de hiërarchie staan – niet aan het woord komen. Als onderwijskunde een klinische wetenschap wordt, zou dat betekenen er tot op het hoogste niveau met leerlingen wordt gewerkt. Onderwijsvernieuwingen worden dan binnen het werkveld zelf bedacht en onderzocht. De overheid hoeft dan pas aan het einde van het traject op te treden, als de vernieuwing volwassen is geworden en de ervaringen in het veld een wijziging van beleid rechtvaardigen. Dat zou pas echt bewezen beleid zijn!

80 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 85: Bewezen beleid in het onderwijs

Literatuur

Berliner, D.C. (2001). Learning about and learning from experts. International journal of

educational research 35(5) 463-482.

Berliner, D.C. (2002). Educational research: the hardest science of all. Educational Researcher

31(8), 18-20.

Boekaerts, M., Pintrich, P.R., & Zeicher, M. (Eds.) Handbook of self-regulation. San Diego:

Academic Press.

Bosker, R.J. (2008). Naar meer evidence-based onderwijs. Pedagogische Studiën 85, 49-51.

Bronowski, J. (1978). The origins of knowledge and imagination. New Haven and London:

Yale University Press.

Bulterman-Bos, J. A. (2004). Teaching Diverse Learners: A Practice Based Perspective.

Amsterdam: academisch proefschrift Vrije Universiteit.

Bulterman-Bos, J.A. (2007). “Bij de groep horen”: hoe de imitatietendens het leraren moeilijk

kan maken om adaptief onderwijs vorm te geven. Pedagogische Studiën, 84(3), 159-175.

Bulterman-Bos, J.A. (2008a). Will a clinical approach make educational research more

relevant for practice? Educational Researcher, 37(7) 412-420.

Bulterman-Bos, J.A. (2008b). Clinical study: A pursuit of responsibility as the basis of

Education Research. Educational Researcher, 37(7) 439-445.

Dam, G. ten, Volman, M. & Wardekker, W.L. (2005). Samen werken aan innovatieve

leerpraktijken: inleiding op het themanummer. Pedagogische Studiën 82(4), 259-261.

Dar, Y. & N. Resh (1994). Separating and mixing students for learning: Concepts and research.

Pedagogisch Tijdschrift 19(2), 109-126.

Dar, Y. & Resh, N. (1985). Homogeneity and heterogeneity in education: The psychological

price argument. Psychology and counselling in education (Yearbook pp. 39-62) (Hebrew).

Dar, Y. & Resh, N. (1986). Classroom intellectual composition and academic achievement.

American Educational Research Journal, 23(3), 357-374.

Dusek, J.B., Hall, V.C. & Meyer, W.J. (Eds.) (1985). Teacher expectancies. Hillsdale, NJ:

Lawrence Erlbaum.

Eisner, E.W. (1992). Objectivity in educational research. Curriculum Inquiry, 22(1), 9-15.

Elk, R. van, Steeg, M. van der, Webbink, D. (2009). The effect of early tracking on participation

in higher education. CPB document 182. Den Haag: CPB.

Feuer, M.J., Towne, L. Shavelson, R.J. (2002). Scientific culture and educational research.

Educational Researcher 31(8), 4-14.

Gelwick, R. (1977). The way of discovery. An introduction to the thought of Michael Polanyi. New

York: Oxford University Press.

Jolles, J. (2006). Waarom de tijd rijp is voor het slaan van bruggen tussen hersen- en

cognitieve wetenschap en de onderwijspraktijk. Over kennis en inzichten over ‘Brein en

Leren’ die relevant kunnen zijn voor onderwijs-innovatie. Webcomment 28 mei

2006Kelchtermans, G. (1996). Teacher vulnerability: Understanding its moral and political

roots, Cambridge Journal of Education 26 (3) (1996), pp. 307–323.

Kelly, A.E. (2003). The role of design in educational research. Theme issue. Educational

Researcher 32(1), 3-37.

Essaybundel Bewezen Beleid in het Onderwijs | 81Ministerie van Onderwijs, Cultuur en Wetenschap

Page 86: Bewezen beleid in het onderwijs

Lagemann, E. Condliffe (2000). An Elusive Science: The Troubling History of Education

Research. Chicago: University of Chicago Press, 2000.

Lagemann, E. C. & Shulman, L.S. (Eds.) (1999). Issues in educational research: Problems and

possibilities. San Francisco: Jossey-Bass.

Lampert, M. (1985). How do teachers manage to teach? Perspectives on problems in

practice. Harvard Educational Review 55 (2), 178-194.

Lanier, J. & Little, J.W. (1986). Research on teacher education. In M. Wittrock (Ed.), Handbook

of research on teaching (3th ed, 527-568. New York: Macmillan.

Oakes, J. (1985). Keeping track: How schools structure inequality. New Haven, CT: Yale

University Press.

Onderwijsraad (2006). Naar meer evidence based onderwijs. Den Haag: Onderwijsraad.

Polanyi, M. (1958). Personal Knowledge: Towards a post-critical philosophy. Chicago:

University of Chicago Press.

Polanyi, M. (1967). The tacit dimension. London: Routledge & Kegan Paul.

Schön, D. A. (1983). The reflective practitioner. How professionals think in action. New York: Basic

Books.

Slavin, R.E. (2002). Evidence-based education policies: transforming educational practice

and research. Educational Researcher, 31(7), 15-21.

Sligte, H., Bulterman-Bos, J., Huizinga, M. (2009). Maatwerk voor latente talenten?

Uitblinken op alle niveaus. Amsterdam: SCO-Kohnstamminstituut.

St. Clair, R. (2005). Similarities and superunknowns: An essay on the challenges of

educational research. Havard Educational Review, 75 (4), 435-453.

Toulmin, S. (2001). Return to reason. Cambridge, MA: Harvard University Press.

Vandenberghe, R. (2005). Samenwerking onderzoek en praktijk: mogelijkheden en grenzen

(Cooperation between research and practice: possibilities and limitations). Pedagogische

Studien, 82(4).

Vries, A.M. de (1992). Hoe breder hoe beter? De effecten van heterogeen groeperen in het

voortgezet onderwijs in Nederland. Dissertatie, Groningen: RION.

Werfhorst, H.G. van der, & Mijs, J.J. (2007). Onderwijsdifferentiatie en ongelijkheid.

Nederland in vergelijkend perspectief. Rapport in opdracht van het Ministerie van

Onderwijs, Cultuur en Wetenschappen. Amsterdam: AIAS, ASSR.

Wineburg, S.S. (1987). The self-fulfillment of the self-fulfilling prophecy. Educational

Researcher, (6), December 1987, 28-37.

Zeichner, K. (1999). The new scholarship in teacher education. Educational Researcher, 28(9),

4-15.

Ministerie van Onderwijs, Cultuur en Wetenschap82 | Essaybundel Bewezen Beleid in het Onderwijs

Page 87: Bewezen beleid in het onderwijs

Essaybundel Bewezen Beleid in het Onderwijs | 83Ministerie van Onderwijs, Cultuur en Wetenschap

Page 88: Bewezen beleid in het onderwijs

06Onderwijs op de ladder: maatwerk in het onderzoek naar effectiviteitTom van YperenBijzonder Hoogleraar Onderzoek en ontwikkeling effectieve jeugdzorg, UU

&

Bas BijlProgrammaleider Onderzoek, PI Research Amsterdam

Ministerie van Onderwijs, Cultuur en Wetenschap84 | Essaybundel Bewezen Beleid in het Onderwijs

Page 89: Bewezen beleid in het onderwijs

6.1 InleidingWerken aan de kwaliteit van het onderwijs en de jeugdzorg is een voorwaarde voor een goed functionerend stelsel. Bestaande onderwijsme-thoden, psychosociale interventies, of beleids maatregelen moeten op hun waarde worden getoetst. Onderzoek naar de effecten van die aanpakken vormt een essentieel onderdeel van de ontwikkeling van het aanbod. Leidt de ene leesmethode tot betere vaardigheden van leerlingen dan de andere? Zorgt een training tegen faalangst van leerlingen dat ze beter gaan presteren bij toetsen en examens? Wat is een goede methode voor klassen management door leerkrachten, dat taakgericht gedrag bevordert en lesverstoringen doet afnemen?

Er is veel discussie over de vraag welk type onderzoek het meest aangewe-zen is om dit soort vragen van een antwoord te voorzien. Er bestaan in de literatuur verschillende classificaties om de kwaliteit van effectonderzoek, en daarmee de ‘hardheid’ van bewijs voor de effectiviteit van een interven-tie, te bepalen. Zo hebben West et al. (2002) meer dan 100 systemen voor het typeren van de kwaliteit van studies bestudeerd. In veel van deze systemen staat het experimentele onderzoek bovenaan, als de ultieme of zelfs enige vorm waarmee de effectvraag afdoende is te beantwoorden. Voorstanders van het experimentele onderzoek noemen dit type design vaak de ‘gouden standaard’ van effectstudies; anderen geven aan dat deze kwalificatie principieel onjuist of onhaalbaar is voor de praktijk.

In deze bijdrage stellen we deze kwestie aan de orde. Eerst gaan we in op de vraag wat experimenteel onderzoek inhoudt, wat de voordelen ervan zijn en welke bezwaren ertegen zijn te opperen. Daarna schetsen we een benadering waarin verschillende onderzoeksopzetten een eigenstandige functie hebben. Het experimenteel onderzoek neemt daar een plek in, maar geldt niet als enige design dat de gouden standaard bepaalt.

6.2 Het experimenteel onderzoek: kenmerken en merites

6.2.1 Kenmerken van het experimenteel design

We bespreken hier de experimentele opzet in een notendop. Voor een uitgebreide verhandeling over dit type onderzoeksdesign verwijzen we naar Shadish, Cook en Campbell (2002). De experimentele onderzoeksop-zet heeft drie kenmerken. Het eerste kenmerk is dat een nieuwe methode, behandeling of een programma wordt getest door een onderscheid te maken in een experimentele conditie, waarbij men bijvoorbeeld een nieuwe faalangsttraining aanbiedt, en een controleconditie, die de gebruikelijke aanpak krijgt (treatment as usual), een nepaanpak (bijvoor-beeld een uur een vriendelijk gesprek in plaats van een faalangsttraining) of helemaal niets. Het tweede kenmerk is dat de toewijzing van personen

Essaybundel Bewezen Beleid in het Onderwijs | 85Ministerie van Onderwijs, Cultuur en Wetenschap

Page 90: Bewezen beleid in het onderwijs

aan de groepen door toeval (at random) wordt gedaan, bijvoorbeeld door loting of op volgorde van binnenkomst. Deze opzet heet voluit de Randomized Controlled Trial (RCT). Hierdoor hoopt men kenmerken van subjecten (zoals leeftijd, geslacht, motivatie voor een bepaalde aanpak, de kans dat iemand heeft op spontaan herstel) willekeurig over de twee condities te verdelen. Het enige waarin de groepen verschillen is – als het goed is – het al dan niet ondergaan van de experimentele aanpak. Hanteert men verschillende groepen, maar worden de subjecten niet via toeval ingedeeld, dan spreekt men van een quasi-experiment. Het derde kenmerk houdt in dat men via voor- en nameting de mate van toename van vaardigheden of afname van problematiek in de verschillende groepen meet. Via statistische toetsing gaan de onderzoekers na of de geconsta-teerde veranderingen in de experimentele groep verschilt van die in de controlegroep. Is er een significant verschil, dan is dit volgens deze opzet met een grote mate van zekerheid toe te schrijven aan het al dan niet ondergaan van de experimentele aanpak. Dit heet de causale bewijskracht van het design: het gevonden verschil wordt veroorzaakt door de experi-mentele conditie.

In de praktijk is de at random toewijzing op verschillende manieren te realiseren. Twee voorbeelden: Elk kind dat voor een dyslexiebehandeling wordt aangemeld, krijgt een nummer. Aan de hand van random tabellen bepaalt een coördinator welke behandeling de leerlingen krijgen: de traditionele aanpak of een nieuwe aanpak die voor een deel werkt met een computertraining. Bij beide groepen meet men de lees- en spellingsvaardigheden bij de start van de behandeling, na de behandeling en nog eens een jaar later. Er is een nieuwe faalangsttraining ontwikkeld. Er is op een bepaald moment echter nog maar beperkte capaciteit om veel scholen in de nieuwe aanpak wegwijs te maken. Men maakt van de nood een deugd: scholen die mee willen doen aan een tweejarig onderzoek naar de kwaliteit van de methode worden willekeurig ingedeeld in twee groepen. In de eerste groep scholen wordt de nieuwe training ingevoerd. De andere groep gaat nog een jaartje door op de oude voet; zij zijn volgend jaar aan de beurt. In beide groepen volgt men de ontwikkeling van de angstreduc-tie tijdens en na afloop van de training nauwkeurig.

De experimentele opzet geldt over het algemeen als een krachtig model waarmee effecten van nieuwe aanpakken te toetsen zijn. De kracht schuilt vooral in het feit dat allerlei alternatieve verklaringen voor het effect ermee zijn uit te sluiten (zie bijvoorbeeld Sha dish e.a., 2002)

86 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 91: Bewezen beleid in het onderwijs

6.2.2 De aanpak onder kritiek

Ondanks de kracht van het model staat, zoals gezegd, de toepassing van dit design vaak ter discussie. Cook (2003) vatte deze discussie voor het onderwijs in een artikel samen en noemde vijf typen argumenten om de experimentele opzet niet toe te willen passen.

Filosofische argumenten Men bekritiseert bijvoorbeeld onderzoekers die met de experimentele opzetten de pretentie hebben dat effecten ermee op een objectieve (unbiased) manier zijn te meten. Volgens deze kritiek bestaat objectief meten niet; er zijn bijvoorbeeld altijd informanten in het spel die op een bepaalde manier het tegen de veranderingen bij de jeugdigen of leerkrach-ten aankijken. De zekerheid die wetenschappers met het design claimen zou volgens deze opvatting dan ook een schijnzekerheid zijn. Daar komt bij dat het design vooral eenvoudige causale relaties test, terwijl in de dagelijkse werkelijkheid de causaliteit door een complex van relaties wordt bepaald. Bestudering van de complexe interacties die zich afspelen wordt door dit design sterk beperkt, terwijl die complexe relaties voor een juist begrip van de werkelijkheid essentieel zijn. Ook komt men ethische argumenten tegen. Bijvoorbeeld, men maakt bezwaar tegen het feit dat aan jeugdigen, ouders of leerkrachten bewust een potentieel krachtige, op zijn minst veelbelovende aanpak wordt onthouden (zie ook Shadish e.a., 2002).

Praktische argumenten De uitvoering van de RCT blijkt in de praktijk vaak moeilijk te realiseren. Zo komt het voor dat ouders of leerlingen van de nieuwe aanpak horen en daarom niet (meer) willen meedoen in een controlegroep. Of een secretaris die verantwoordelijk is voor de random toewijzing houdt zich niet aan de spelregels, en blijkt later ook afstand tussen woonplaats van een leerling en behandellocatie meegewogen te hebben. Ook kan achteraf de randomisatie niet goed blijken te werken, waardoor de experimentele groep bij aanvang faalangstiger bleek te zijn dan de controlegroep etc. Een RCT vereist een nauwkeurige en zorgvuldige voorbereiding, hetgeen een relatief groot beslag legt op tijd en financiën.

Argumenten over de praktische waardeBehandelingen die in RCT’s worden geëvalueerd kunnen van de praktijk verschillen (zie ook Shadish, Matt, Navarro & Phillips, 2000). Zo worden RCT’s vaak door gemotiveerde onderzoekers trainers uitgevoerd, die bovenop de juiste uitvoering van de interventie zitten. De uitvoerder van de interventie is vaak goed getraind en wordt goed begeleid. De doelgroep is bovendien vaak gedegen geselecteerd. In de dagelijkse praktijk (treat-ment as usual) gebeurt dit allemaal veel minder gedegen. De RCT zou

Essaybundel Bewezen Beleid in het Onderwijs | 87Ministerie van Onderwijs, Cultuur en Wetenschap

Page 92: Bewezen beleid in het onderwijs

daarom een te gunstig beeld kunnen geven van de werkelijkheid. Ook kan ze een ongunstiger beeld geven omdat onderzoekers bijvoorbeeld pas van belangrijke verschillen praten als ze statistisch significant zijn. Hierdoor kunnen minder robuuste effecten buiten beeld blijven.

Argumenten over het gebruik van de uitkomsten Hierbij redeneert men dat de resultaten vaak alleen maar interessant zijn voor onderzoekers en beleidsmakers en weinig toevoegt aan de besluitvor-ming in de praktijk. Of men voor training A of B kiest wordt in de praktijk vaak door andere argumenten bepaald dan door de vraag of een RCT aangeeft dat een aanpak wel of niet superieur is boven een andere aanpak. Argumenten die aangeven dat er betere alternatieven zijn. Hierbij verwijst men bijvoorbeeld naar intensieve kwalitatieve studies, goede quasi-experimenten en het bouwen van causale modellen in longitudinale onderzoeken.

Voor deze argumenten is veel te zeggen. Tegen deze argumenten ook. Onze ervaring is dat het niet productief is om hier eindeloos debat over te voeren. Al te vaak stuit men hierbij op een gat tussen praktijk en weten-schap, of tussen onderzoekers uit verschillende scholen. De vraag is hoe dit gat is te overbruggen, anders dan via een standpuntendiscussie. Onze stelling is dat de effectiviteitsvraag te eenzijdig wordt gekoppeld aan experimenteel onderzoek als middel om het antwoord te vinden. De onderwijspraktijk ervaart in dat kader het al dan niet werken aan effectivi-teit als het al dan niet uitvoeren van dat type onderzoek. Volgens ons is het van belang dat de praktijk de kans krijgt om naar dat onderzoek toe te groeien. In de jeugdzorg is hiervoor de laatste jaren een benadering ontwikkeld die veel in beweging heeft gebracht.

6.3 De effectladder: onderzoek matchen aan ontwikkelings stadium interventie

6.3.1 Ontwikkeling van interventies

Veerman en Van Yperen (2007) stellen dat de effectiviteit van een interven-tie geen alles-of-niets-kwestie is. Een interventie ontwikkelt zich door-gaans in stadia, waarin deze groeit van een impliciete gedachte of handeling naar een theoretisch en empirisch onderbouwde werkwijze. Veerman en Van Yperen (2007) stellen in dit verband een zogeheten ‘effectladder’ voor (zie ook figuur 1). Deze ladder schetst de sporten waarlangs men omhoog kan klimmen om een interventie van impliciete kennis naar een op werkzaamheid getoetst niveau kan brengen. Bij het onderste niveau is er sprake van een impliciete interventie: professionals passen het toe zonder dat omschreven is voor wie de interventie is bedoeld, welke doelen ze dient, wat de werkwijze hoort te zijn en waarom

88 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 93: Bewezen beleid in het onderwijs

dit een goede aanpak zou zijn. Op niveau 1 is er sprake van een goed omschreven interventie: de doelgroep is helder, de doelen zijn geëxplici-teerd en de aanpak staat duidelijk op papier. Interventies op niveau 2 zijn goed omschreven en hebben tevens een geloofwaardige theoretische onderbouwing. In deze theorie is aannemelijk gemaakt waarom deze aanpak bij deze doelgroep zou kunnen leiden tot de gestelde doelen. Op niveau 3 is er sprake van enig empirisch materiaal waaruit blijkt dat de doelen van de interventie voldoende worden gehaald, dat cliënten tevreden zijn, of dat problemen (blijkens voor- en nametingen) voldoende afnemen tijdens de toepassing van de interventie. Op niveau 4 is er ook empirisch materiaal dat erop wijst dat de interventie verantwoordelijk is voor de geobserveerde resultaten, i.e. er is causale bewijskracht voor de werkzaamheid van de interventie.

Figuur 1 Effectladder, soorten onderzoek en erkenning van interventies

Niveau Effectladder* Soorten onderzoek* Erkenningscommissie Interventies**

- Kosteneffectiviteitsonderzoek

4. Is de interventie werkzaam?

- Experimenteel onderzoek (RCT)- Quasi-experimenteel onderzoek- Case-studies (N=1-onderzoek)

- Veranderingstheoretisch onderzoek- Normgerelateerd veranderings-

onderzoek (‘Benchmarkstudies’)

- Veranderingsonderzoek zonder benchmark

- Doelrealisatie-onderzoek- Tevredenheidsonderzoek

Erkenning bewezen effectief of waarschijn lijk effectief, afhankelijk vanKwaliteit onderzoek (bewijskracht design, in prak tijk uitgevoerd, follow-up)Aard van het effectGrootte van het effectAantal studies

3. Is de interventie doeltreffend?

2. Is de interventie in theorie effectief?

- Meta-analyses- Literatuurstudies- Studies naar impliciete kennis

Erkenning theoretisch goed onderbouwd

1. Is de interventie goed beschreven?

- Descriptief onderzoek - Observatie-onderzoek- Documentanalyse- Interviews

0. Is de interventie impliciet (black box)?

Voor een uitgebreide toelichting zie *Van Yperen & Veerman, 2008; **Van Yperen & Van Bommel, 2009

6.3.2 Matching ontwikkelingsstadium en onderzoeksopzet

Veerman en Van Yperen hebben bij elk niveau verschillende soorten onderzoek aangegeven die passen bij het ontwikkelingsstadium van de interventie. Deze soorten onderzoek kenmerken zich door de mate van bewijskracht die ze leveren voor de effectiviteit van een interventie: van zeer laag (onderzoek dat past bij niveau 1) tot zeer hoog (onderzoek dat uitsluitsel geeft over de werkzaamheid van een interventie – niveau 4).

Essaybundel Bewezen Beleid in het Onderwijs | 89Ministerie van Onderwijs, Cultuur en Wetenschap

Page 94: Bewezen beleid in het onderwijs

Naast de soorten onderzoek die in figuur 1 aan de vier niveaus van de effectladder zijn gekoppeld, is ‘kosteneffectiviteitsonderzoek’ als vijfde soort te onderscheiden. Dit type heeft niet alleen tot doel de werkzaam-heid van de interventie aan te tonen, maar ook de meerwaarde (t.o.v. alternatieven) in economische zin (Rutten-Van Mölken, Van Busschbach & Rutten, 2000).

Kern van dit model is nu dat niet het onderzoek op de hoogste sport van de effectladder de ‘gouden standaard’ vertegenwoordigt, maar het onderzoek dat het beste past bij het ontwikkelingsstadium van een interventie. Zo heeft het geen enkele zin om al een RCT uit te voeren als de theorie nog onvoldoende specificeert wat de werkzame factoren zijn en als er nog geen voorlopig onderzoeksmateriaal op tafel ligt dat laat zien dat tijdens de uitvoering van de interventie de problemen van de cliënten voldoende afnemen. Verstandiger is het in dat geval eerst verder te werken aan de theorie en de monitoring van resultaten. Daarvoor gebruikt men andere, meer passende onderzoeksmethoden. Elk stadium en daarbij horend onderzoek draagt zo bij aan het beeld van de effectiviteit van de interventie.

6.3.3 Toepassingen van de effectladder

Dit model is in praktijkinstellingen uitgeprobeerd. De ervaring leert dat veel praktijkinstellingen dit ervaren als een begaanbare weg. Het zorgt er voor dat er een veel kritischere houding gaat ontstaan ten aanzien van het bestaande aanbod, dat men oog krijgt voor de theoretische onderbouwing en dat er een cultuur gaat ontstaan waarin het meten van effecten een belangrijke plek krijgt (zie bijvoorbeeld Veerman & Ooms, 2008; Van der Steege, 2009; zie ook www.sejn.nl). Hiermee ontstaat een goede voedings-bodem om – waar relevant – ook met experimenteel onderzoek aan de slag te gaan. De werkprincipes van de effectladder en voorbeelden van het werken met dit concept zijn neergelegd in een handboek (Van Yperen & Veerman, 2008).

De verschillende soorten onderzoek zijn door het Nederlands Jeugdinstituut en het RIVM vertaald naar verschillende niveaus waarop de zogeheten Erkenningscommissie Interventies keurmerken uitdeelt voor interventies in de jeugdzorg, het lokale jeugdbeleid en de gezondheidsbe-vordering. Algemene stelregel daarbij is: hoe hoger een onderzoek op de effectladder staat, hoe sterker de bewijskracht. Speciaal aandachtspunt bij de kwaliteit is de externe validiteit van het onderzoek: is de studie in de praktijk uitgevoerd en zijn daarmee de uitkomsten ook geldig voor de praktijk? Tevens wordt gekeken naar de beschikbaarheid van follow-up gegevens: laten vervolgstudies zien of de bereikte effecten na de afsluiting van de interventie beklijven? Of een interventie effectief is te noemen,

90 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 95: Bewezen beleid in het onderwijs

hangt voorts af van de aard van het effect (is het effect zoals bedoeld?, zijn er ongunstige neveneffecten?), de grootte van het effect (levert het voldoende winst op ten opzichte van de oude situatie?) en het aantal studies (is het effect gerepliceerd? Hoe vaak?). Sommige niveaus van de effectladder hebben geen equivalent in de erkenning van interventies. Studies op niveau 1 (beschrijvend onderzoek) en 3 (met name onderzoek met een zwakke bewijskracht, zoals onderzoek naar cliënttevredenheid, doelrealisatie en veranderingsonderzoek zonder benchmark) worden gezien als belangrijke tussenstappen om tot een erkenning te komen. De kosteneffectiviteit is nog geen onderwerp op de effectladder; de erken-ningscommissie geeft er ook nog geen keurmerk voor af. De verwachting is dat dit in de toekomst wel een belangrijke rol gaat spelen.

6.4 Met onderzoeksopzetten onderweg Zoals gezegd, de kunst is onderzoeksopzetten te hanteren die goed passen bij het ontwikkelingsstadium van de interventie. Het voer te ver om de verschillende mogelijkheden hier uitgebreid te bespreken. Voor een uitgebreide verhandeling verwijzen we naar Van Yperen, Bijl en Veerman (2008 a, b) en Bijl, Van Yperen en Veerman (2008). We lichten er hier de belangrijkste onderwerpen uit om de principes van het werken met de effectladder te verhelderen.

6.4.1 De eerste twee niveaus: een noodzakelijke stap

Het goed beschrijven en theoretisch onderbouwen van interventies is een voorwaarde voor het uitvoeren van verantwoord effectonderzoek. Een beschrijving is nodig om helder te maken voor wie en waarvoor de interventie bedoeld is. Dit bepaalt de context waarbinnen effectgegevens betekenis krijgen. Beschrijvend en observerend onderzoek dat helder maakt wat uitvoerders van een interventie in de praktijk doen, bij wie en waarom, helpt de kenmerken van een interventie bloot te leggen. Zo kunnen ze bijvoorbeeld aangeven bij wie een interventie vooral lijkt te werken en bij wie niet. Het is zinvol om deze doelgroepafbakening zo vroeg mogelijk te maken - en niet pas bij de afronding van een gecontro-leerd experiment te moeten constateren – om te kunnen beslissen of dit de doelgroep is die men wil hebben, of dat men aanpassing wil doorvoeren.

Om de theoretische onderbouwing op orde te krijgen, gebruikt men onder meer meta-analyses, literatuurstudie en onderzoeken die redenaties van experts expliciteren (bijvoorbeeld via de zogeheten ‘Delphi-methode’; zie Garland, Hawlin, Brookman-Frazee & Hurlburt, 2008). Zo leveren deze studies doorgaans een belangrijke bijdrage om hypothesen te stellen over de werkzame mechanismen in een interventie: welke activiteiten lijken over het algemeen effectief om doelen bij een doelgroep te realiseren? De

Essaybundel Bewezen Beleid in het Onderwijs | 91Ministerie van Onderwijs, Cultuur en Wetenschap

Page 96: Bewezen beleid in het onderwijs

Ministerie van Onderwijs, Cultuur en Wetenschap92 | Essaybundel Bewezen Beleid in het Onderwijs

Page 97: Bewezen beleid in het onderwijs

theoretische verantwoording is te beschouwen als het minimale niveau van verantwoording, omdat empirisch onderzoek naar de effectiviteit vaak nog mist. De onderbouwing maakt dan aannemelijk dat de interventie zou kunnen werken. Dat onderscheidt de professional van de leek: van de leek mag men accepteren dat intuïtie het handelen stuurt, de professional moet minstens in theorie kunnen verantwoorden wat hij doet. De onderbouwing is bovendien een voorwaarde voor goed effectonderzoek. Met een theorie is immers te specificeren welke uitkomsten te voorspellen zijn, welke moderatoren en mediatoren er in het spel zijn en welke concepten in dit licht relevant zijn om te meten.

6.4.2 Een stap verder: eerste empirische indicaties van effecten

De beschrijving en onderbouwing van interventies is niets meer en niets minder dan studeerkamerwerk. Hoe belangrijk deze basis ook is, met deze exercitie wordt alleen in woorden aannemelijk gemaakt dat de interventie in theorie effectief zou kunnen zijn. Op het derde niveau van de effectlad-der zetten we een stap verder. In de praktijk worden gegevens verzameld die de eerste aanwijzingen voor effectiviteit opleveren. We spreken daarom van indicatieve bewijsvoering. Hieronder beschrijven we drie soorten onderzoek die deze input van practice based evidence (Barkham & Mellor-Clark, 2003) in maat en getal uitdrukken. De bewijskracht van deze onderzoekstypen is tamelijk bescheiden, maar niettemin belangwekkend. Zo geldt over het algemeen dat positieve uitkomsten bij deze studies een legitimering zijn voor het entameren van intensiever (en ook vaak duurder) onderzoek, terwijl negatieve uitkomsten een belangrijk signaal zijn dat de interventie verbetering behoeft, alvorens veeleisender studies te starten.

TevredenheidsonderzoekTevredenheidsonderzoek is een eenvoudige en vaak aansprekende vorm van effectonderzoek. Het is een vorm van consumentenevaluatie, waarbij individuen die een interventie hebben ontvangen na beëindiging van de verleende dienst (bijv. een lespakket, cursus of begeleiding) worden gevraagd naar hun tevredenheid over het resultaat. De mogelijke effecten van een interventie – zo is de onderliggende gedachte – zijn het meest eenvoudig te meten door de betrokken leerlingen of ouders te vragen of (1) ze die effecten ervaren en (2) ze tevreden zijn over die effecten. Tevredenheidsonderzoek is gemakkelijk uitvoerbaar. Tegelijkertijd is het ook kwetsbaar, omdat vertekeningen in de resultaten kunnen optreden. Door het retrospectieve karakter, bijvoorbeeld, wordt een beroep op het geheugen van respondenten gedaan en dat het menselijk geheugen geen onfeilbaar instrument is, is genoegzaam bekend.

Essaybundel Bewezen Beleid in het Onderwijs | 93Ministerie van Onderwijs, Cultuur en Wetenschap

Page 98: Bewezen beleid in het onderwijs

Onderzoek naar doelrealisatieEen trefzekerder beeld geeft het onderzoek naar doelrealisatie. In zijn meest simpele vorm wordt nagegaan in welke mate de vooraf, in het handelings-, begeleidings- of lesplan gestelde doelen zijn bereikt. Het meten van doelbereiking is een cruciale toetssteen om al dan niet van een geslaagde interventie te spreken. Naarmate we meer kunnen vaststellen dat met de interventie de doelen worden bereikt, wordt de aanwijzing sterker dat de ingreep inderdaad effectief is. Echter, de kwaliteit van de gegevens is zo goed als de kwaliteit van de gestelde doelen. Het stellen van goed geformuleerde doelen is niet zo eenvoudig en vergt enige oefening. Verder betreft het ook hier een evaluatie-achteraf en kent daardoor methodologisch gezien dezelfde beperkingen als het tevredenheidsonderzoek.

VeranderingsonderzoekHoofdkenmerk van veranderingsonderzoek is dat er aan het begin en aan het eind van de interventie wordt gemeten met behulp van gestandaardi-seerde instrumenten (zoals vaardigheidstoetsen of probleemvragenlijs-ten). Verschillen tussen de scores van begin- en eindmeting, worden geïnterpreteerd in termen van, bijvoorbeeld, competentietoename of probleemafname. De geconstateerde veranderingen worden voorzien van kwalificaties die iets zeggen over de statistische hardheid van de verschil-len (zoals de significantie van groepsverschillen of de effect size van een interventie). De beginmeting geeft bovendien zicht op de kenmerken van de doelgroep. Zo kan men nagaan of de interventie plaatsvond bij de beoogde doelgroep. Dit alles maakt de practice based evidence weer wat sterker. Ondanks deze pluspunten willen we ervoor waarschuwen dat men niet te gretig mag zijn bij het toeschrijven van de verandering aan de interventie. We kunnen immers niet uitsluiten dat de gemeten verande-ring is toe te schrijven aan andere factoren.

Sterkere bewijskrachtDe bewijsvoering wordt overtuigender als geconstateerde veranderingen bij leerlingen blijken te stroken met de onderliggende theorie over de werking van de interventie. Met andere woorden, het theoretisch voorspelde effect wordt in de praktijk bevestigd door onderzoeksresulta-ten. Benchmarkstudies en veranderingstheoretisch onderzoek zijn typen van onderzoek waarin de hypothese wordt getoetst dat de interventie het verschil maakt.

BenchmarkstudieBenchmarkstudies liggen in het verlengde van de hiervoor besproken opzetten. Wat ze eraan toevoegen is dat er een expliciete norm is gesteld ten aanzien van wat als een goede uitkomst van het onderzoek te beschou-

94 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 99: Bewezen beleid in het onderwijs

wen is. De zekerheid over de causale relatie tussen de interventie en de gemeten verandering wordt niet alleen ontleend aan de richting van het effect, maar vooral ook aan de hoogte of sterkte ervan. Het theoretisch voorspelde succes – of zo men wil: de hypothese – wordt hiermee nauwkeuriger gespecificeerd: “Als deze interventie werkt, dan moet het resultaat minstens zus of zo zijn.” Een benchmarkstudie is een bijzondere vorm van doelrealisatieonderzoek: op collectief niveau (de doelgroep) wordt getoetst of het beoogde resultaat is gehaald gegeven een kwantita-tieve norm. Deze normen of benchmarks worden vaak ontleend aan eerdere of elders behaalde successen of aan meta-analyses, op grond waarvan minstens te verwachten effecten worden bepaald. De valkuilen in dit soort onderzoek zijn grotendeels dezelfde als die bij het veranderings-onderzoek aan de orde zijn geweest. Daarbij komt dat het in dit specifieke geval van belang is de norm realistisch te stellen. Een te lage norm is te gemakkelijk en werkt niet stimulerend. Een te hoge norm werkt mogelijk demotiverend en diskwalificerend.

Veranderingstheoretisch onderzoekZoals de naam reeds aangeeft worden ook bij dit type onderzoek verande-ringen gemeten. Maar daarnaast is veranderingstheoretisch onderzoek erop gericht de effectiviteit van specifieke ingrediënten van de interventie te exploreren. Een goed uitgewerkte theorie is vereist, waarin precies is beschreven wat de specifiek werkzame factoren van de interventie zijn, hoe deze factoren inwerken op de problemen of vaardigheden van leerlingen en welke uitkomsten als gevolg daarvan te verwachten zijn. De theorie veronderstelt een causale keten van activiteiten en resultaten (bijvoorbeeld: hoe meer een leerling het huiswerk van de faalangsttrai-ning heeft gedaan, hoe beter de resultaten van de training) en het onderzoek heeft tot doel het bestaan van die keten empirisch te onder-bouwen. Naarmate men daar beter in slaagt neemt de bewijskracht toe. Daarbij moeten we ons wel realiseren dat alle waarnemingen worden gedaan bij één groep, te weten de groep leerlingen die de interventie heeft ontvangen. Voorts heeft de exploratie hoofdzakelijk een correlationeel karakter. Hoe krachtig en logisch dwingend de interventietheorie moge zijn, voor de sterkste bewijsvoering zijn onderzoeksopzetten vereist die vergelijkingen maken met condities, waarin geen of een alternatieve interventie wordt geboden.

Meer zekerheid over causale relatiesHier betreden we het terrein waarop onderzoek wordt gedaan naar de werkzaamheid van interventies. Onderzoeksopzetten die op dit niveau 4 zijn te plaatsen kunnen meer zekerheid bieden over de effectiviteit van een interventie: de causale relatie tussen uitgevoerde handelingen en het waargenomen resultaat.

Essaybundel Bewezen Beleid in het Onderwijs | 95Ministerie van Onderwijs, Cultuur en Wetenschap

Page 100: Bewezen beleid in het onderwijs

Quasi-experimenteel onderzoekQuasi-experimenteel onderzoek is wellicht de meest bekende vorm van effectonderzoek. Het belangrijkste verschil met de RCT is dat de onder-zoeksgroepen niet speciaal voor het onderzoek worden samengesteld, maar op een ‘natuurlijke wijze’ tot stand zijn gekomen (bijv. twee bestaande schoolklassen of inspectieregio’s). Als we vinden dat de resultaten van de experimentele groep aantoonbaar beter zijn dan die van de controlegroep, ligt de conclusie voor de hand dat de interventie daarvan de oorzaak is. Echter, dan moeten we tevens kunnen aantonen dat beide groepen niet wezenlijk van elkaar verschillen en dus vergelijkbaar zijn. In de praktijk is het niet altijd eenvoudig om dit hard te maken. Daarmee rest bij quasi-experimenteel onderzoek altijd een bepaalde mate van onzekerheid over de causale relatie tussen interventie en effect.

Experimenteel onderzoekExperimenteel onderzoek in de vorm van RCT’s geldt als de meest krachtige onderzoeksopzet als we uitspraken willen doen over de effectiviteit van interventies. Omdat we in het voorafgaande deze opzet uitgebreid hebben besproken, volstaan we op deze plaats met een verwijzing daarnaar.

Herhaalde casus-studies of ‘meervoudig N=1 onderzoek’ Dit geldt als een speciale variant van het experimenteel onderzoek. Hoofdkenmerk is dat perioden waarin individuen een interventie krijgen, vergeleken worden met perioden waarbij die interventie achterwege blijft. Probleemgedrag of vaardigheden van individuele leerlingen worden zorgvuldig geobserveerd en geregistreerd voorafgaand aan de interventie (periode A). Vanaf het moment dat de interventie start (B) wordt gekeken of er een positieve ontwikkeling is. Eventueel wordt na verloop van tijd de behandeling gestopt (herhaling van periode A), om te zien of er terugval optreedt. Daarna vervolgt men de behandeling (B) zodat is te zien of de eerdere verandering van het patroon opnieuw optreedt. Als eenzelfde soort patroon bij de toepassing van de interventie bij verschillende leerlingen optreedt, dan geldt dit als een sterke indicator dat de interven-tie daadwerkelijk verantwoordelijk is voor het resultaat.

6.5 Hoeveel zekerheid heeft men nodig?Een belangrijke vraag die men bij elke interventie moet beantwoorden is hoe ver men moet en kan gaan bij het beklimmen van de effectladder. Dit is niet alleen een technische, maar ook een praktische en ethische kwestie. In de argumentatie weegt men de bewijskracht van de gegevens die men in handen heeft af tegen de voordelen en de nadelen van het entameren van nieuw onderzoek dat hoger op de ladder staat. Als in tien benchmarkstudies op verschillende locaties is gebleken dat de nieuwe

96 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 101: Bewezen beleid in het onderwijs

faalangsttraining veel betere resultaten oplevert dan andere methoden waarover in de literatuur is gerapporteerd, of als uit drie grootschalige correlationele studies blijkt dat er een sterke positieve relatie is tussen de mate waarin leerkrachten zich de principes van goed klassenmanagement eigen maken – en deze toepassen – en de mate waarin regelovertredend gedrag in de klas afneemt, wat wil men daar dan aan onderzoek nog aan toevoegen? Wij als onderzoekers willen graag voor alle zekerheid een studie met de sterkste bewijskracht uitvoeren. Scholen en beleidsmakers zullen ondertussen echter moeten beslissen of ze op de uitkomsten daarvan wachten, of dat ze de leerlingen en leerkrachten al laten profiteren van de nieuwe aanpakken. Het is te vergelijken met het besluit van een onderzoe-ker om zich wel of niet aan een RCT te wagen. In dit krachtenveld hanteert een ieder zijn standaarden: soms staat men al hoog genoeg op de ladder om de risico’s van een besluit te kunnen overzien.

6.6 SlotHoewel het experimenteel onderzoek de sterkste bewijskracht heeft, laat de effectvraag zich niet alleen met dit type studie beantwoorden. Sterker nog, het kan voorbarig en bijzonder inefficiënt zijn om experimenteel onderzoek uit te voeren bij interventies die niet eerst aan studies met een andere opzet zijn onderworpen. Voor een goede ontwikkeling van een interventie zijn verschillende typen onderzoek nodig die elk passen bij het stadium waarin de ontwikkeling verkeert: 1 Beschrijvend onderzoek moet antwoord geven op de vragen als: welk

effect beoogt men, bij welke doelgroep en met welke activiteiten?2 Literatuurstudie en onderzoek dat de inzichten van experts verheldert,

moet licht werpen op de vraag waarom men denkt dat deze interventie zou kunnen werken, wat daarbij relevante factoren zijn en welke in dat licht van belang zijn om in empirisch onderzoek te meten.

3 Onderzoek naar de doeltreffendheid moet de eerste indicaties geven dat tijdens de uitvoering van de interventies de doelen worden bereikt, problemen voldoende afnemen en de betrokkenen voldoende tevreden zijn. Deze indicaties moeten ook aangeven of geavanceerder onderzoek naar de werkzaamheid de moeite waard is.

4 Voor het beantwoorden van de vraag of de interventie de gevonden resultaten ‘veroorzaakt’ is onderzoek nodig in de vorm van een RCT, een herhaalde case study, of andere opzetten die licht werpen op de causaliteit.

Kern bij dit alles is dat de ‘gouden standaard’ van het effectonderzoek niet per definitie het laatstgenoemde type studie betreft. ‘Goud’ is het type effectonderzoek dat past bij het ontwikkelingsstadium waarin een interven-tie verkeert - passend onderzoek, zo men wil. De hoogste sport op de effectladder levert de sterkste bewijskracht op, en daarmee veel zekerheids-

Essaybundel Bewezen Beleid in het Onderwijs | 97Ministerie van Onderwijs, Cultuur en Wetenschap

Page 102: Bewezen beleid in het onderwijs

graden bij het nemen van de beslissing om wel of niet met een bepaalde aanpak te werken. Dat neemt echter niet weg dat men bij andere vormen van onderzoek dan het experimentele design soms al hoog genoeg op de ladder staat om de risico’s van besluiten te overzien. Hogerop klimmen kan altijd, maar is uit oogpunt van de benodigde bewijsvoering niet altijd een absolute ‘must’.

98 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 103: Bewezen beleid in het onderwijs

Literatuur

Barkham, M. & Mellor-Clark, J. (2003). Bridging evidence-based practice and practice-based

evidence. De veloping a rigorous and relevant knowledge for the psychological therapies.

Clinical Psychology and Psy chotherapy, 10, 319-327.

Bijl, B., Yperen, T.A. & Veerman, J.W. (2008). Een kwestie van bewijzen … . In: T.A. van Yperen

& J.W. Veerman (Red.). Zicht op effectiviteit. Handboek voor praktijkgestuurd effectonderzoek in

de jeugdzorg (57-76). Delft: Eburon.

Cook, T.D. (2003). Why have educational evaluators chosen not to do randomized

experiments? Annals of American Academy of Political and Social Science, Vol. 589, p. 114-149.

Garland, A.F., Hawlin, K.M., Brookman-Frazee, L. & Hurlburt, M.S. (2008). Identifying

common elements of evidence-based psychosocial treatments for children’s disruptive

behavior problems. Journal of the American Academy of Child and Adolescent Psychiatry, 47 (5),

505-514.

Rutten-Van Mölken, M.P.M.H., Busschbach, J.J. van & Rutten, F.F.H. (2000). Van kosten tot

effecten. Een handleiding voor evaluatiestudies in de gezondheidszorg. Maarssen: Elsevier

Gezondheidszorg.

Shadish, W.R., Cook, T.D. & Campbell, D.T. (2002). Experimental and quasi-experimental designs

for general ized causal inference. Boston / New York: Houghton Mifflin Co.

Shadish, W.R., Matt, G.E., Navarro, A.M. & Phillips, G. (2000). The effects of psychological

therapies under clinically representative conditions: a meta-analysis. Psychological Bulletin,

126, 512-529.

Steege, M. van der (2009). Jeugdzorgaanbod beschrijven en onderbouwen in de provincie Utrecht.

Eindrapport met opbrengsten en aanbevelingen. Utrecht: Nederlands Jeugdinstituut

Veerman, J.W. & Ooms, H. (2008). Zicht op effectiviteit. Een kijkje in de keuken van zeven

instellingen voor jeugdzorg. Nijmegen: Praktikon.

Veerman, J.W. & Yperen, T.A. van (2007). Degrees of freedom and degrees of certainty. A

developmental model for the establishment of evidence-based youth care. Evaluation and

Program Planning, 30 (2), 212-221.

West S, King V, Carey TS, et al. (2002). Systems to Rate the Strength of Scientific Evidence. Evidence

Report/Technology Assessment No. 47 (Prepared by the Research Triangle Institute-

University of North Carolina Evidence-based Practice Center under Contract No.

290-97-0011). AHRQ Publication No. 02-E016. Rockville, MD: Agency for Healthcare

Research and Quality. April 2002.

Yperen, T.A. & Bommel, M. van (2009). Erkenning (jeugd)interventies: Criteria 2009-2010.

Erkenningscommissie Jeugdinterventies. Utrecht/Bilthoven: Nederlands Jeugdinstituut/RIVM.

Yperen, T.A. van, Bijl, B. & Veerman, J.W. (2008a). Op weg naar veelbelovend. In: T.A. van

Yperen & J.W. Veerman (Red.). Zicht op effectiviteit. Handboek voor praktijkgestuurd

effectonderzoek in de jeugdzorg (35-56). Delft: Eburon.

Yperen, T.A. van, Bijl, B. & Veerman, J.W. (2008b). Opzet van praktijkgestuurd onderzoek. In:

T.A. van Yperen & J.W. Veerman (Red.). Zicht op effectiviteit. Handboek voor praktijkgestuurd

effectonderzoek in de jeugdzorg (209-244). Delft: Eburon.

Yperen, T.A. van & Veerman, J.W. (2008; Red.). Zicht op effectiviteit. Handboek voor praktijkge-

stuurd effectonderzoek in de jeugdzorg. Delft: Eburon.

Essaybundel Bewezen Beleid in het Onderwijs | 99Ministerie van Onderwijs, Cultuur en Wetenschap

Page 104: Bewezen beleid in het onderwijs

07De bijdrage van internationaal onderwijs-onderzoekDirk van DammeHoofd van het Centre for Educational Research and Innovation (CERI), OESO (Parijs)

Ministerie van Onderwijs, Cultuur en Wetenschap100 | Essaybundel Bewezen Beleid in het Onderwijs

Page 105: Bewezen beleid in het onderwijs

7.1 InleidingHet is een hardnekkig en door sommigen sterk gekoesterd idee dat onderwijs zozeer met nationale traditie, cultuur, taal en geschiedenis is verbonden dat het niet anders dan vanuit een nationaal perspectief bestudeerd kan worden. In de politieke besluitvorming wordt elke stap naar supra-nationale beleidsvoering met zeer veel tegenstand geconfron-teerd. Denk maar aan de eensgezinde weigering van nationale staten om de Europese Unie een heldere bevoegdheid over onderwijsaangelegenhe-den te geven. Er is veel voor te zeggen om de Europese integratie ook door middel van een Europees onderwijsbeleid vorm te geven, zeker wanneer het sociaaleconomische en arbeidsmarktbeleid steeds meer op Europees niveau worden aangestuurd. De Europese Commissie heeft via haar mobiliteitsprogramma’s en andere instrumenten uiteraard de facto wel een Europees onderwijsbeleid gevoerd, en met de ontwikkeling naar beleids-instrumenten zoals de ‘open method of coordination’ en de Lissabon-agenda zijn er ook op het vlak van onderwijs Europese beleidsdoelstellin-gen legitiem geworden. Maar toch moet men vaststellen dat bij elke herziening van de Europese verdragen het niet mogelijk blijft om ook wettelijk te erkennen dat onderwijs niet langer meer exclusief door de nationale context maar steeds meer door de internationale omgeving wordt beïnvloed en aangestuurd.

Die politieke, of beter gezegd, psychologische weerstand laat zich ook in het onderwijsonderzoek voelen. Bij het analyseren van onderwijspraktijk en -beleid grijpen onderzoekers haast automatisch terug naar factoren en processen die in de nationale context gelegen zijn. Zelfs in de subdisci-pline van de onderwijskunde die met de internationale dimensie bezig is, de comparatieve pedagogiek, bestaat het overgrote deel van de onder-zoeksliteratuur uit nationale studies die in het beste geval tegenover elkaar worden vergeleken. Overigens zijn aan de meeste Vlaamse en Nederlandse universiteiten afzonderlijke leerstoelen of onderwijsonder-delen in de vergelijkende pedagogiek nagenoeg verdwenen. Maar met de opkomst en doorbraak van internationaal kwantitatief onderzoek naar onderwijsindicatoren en, voornamelijk, leerresultaten, komt de interna-tionale dimensie in het onderwijsonderzoek sterk in de belangstelling te staan en dat is een goede zaak.

7.2 Onderwijs, onderwijsonderzoek en de internationale dimensie

Zelfs de meest fervente voorstander van nationale soevereiniteit over onderwijsbeleid zal inderdaad moeten erkennen dat de internationale dimensie de laatste decennia steeds belangrijker is geworden. De ontwikkeling van onderwijssystemen is uiteraard nauw verbonden met processen van natie- en staatsvorming, maar die ontwikkeling gebeurde

Essaybundel Bewezen Beleid in het Onderwijs | 101Ministerie van Onderwijs, Cultuur en Wetenschap

Page 106: Bewezen beleid in het onderwijs

helemaal niet geïsoleerd van de internationale context. Eigenlijk is er van internationale interactie en zelfs convergentie in de ontwikkeling van onderwijssystemen al erg vroeg sprake. Staatsvorming was in het vroegmoderne Europa immers een erg complex gegeven en de consolida-tie van de nationale staten heeft in Europa slechts in de negentiende en eerste helft van de twintigste eeuw plaats gegrepen, dit wil zeggen nadat de onderwijssystemen zich in hun basiskarakteristieken al tot ontplooiing waren gekomen. Dat impliceert dat er al vroeg een vrij sterke gelijkvormig-heid was in die basiskenmerken van het onderwijsbestel. Een twintigtal jaar geleden heb ik dit proces in mijn proefschrift bestudeerd voor wat de armenzorg en de pedagogische problematisering van de armoede betreft (Van Damme, 1990). Soortgelijke vaststellingen kunnen worden gedaan voor veel aspecten van moderne onderwijssystemen.

De eerste min of meer wetenschappelijke belangstelling voor die interna-tionale dimensie moet in die context van interactie en convergentie gesitueerd worden. De meeste handboeken situeren het begin van de comparatieve pedagogiek bij internationale reizigers die ervaringen met bepaalde pedagogische vraagstukken in andere landen gingen bestude-ren. Zo wordt Marc-Antoine Jullien, een telg van de Franse Revolutie, als de grondlegger van de comparatieve pedagogiek genoemd, omdat hij in 1817 een uitgebreid verslag publiceerde van zijn omzwervingen in Europa en de grondslagen legde van een wetenschappelijke benadering van de vergelij-king van onderwijssystemen (van Daele, 1993). Hij pleitte daarbij zelfs voor het verzamelen van statistische gegevens over verschillende aspecten van onderwijssystemen, zoals financiering van scholen, studentenaantallen op de verschillende onderwijsniveaus, aantallen leraren, enz. Pas in de loop van de twintigste eeuw kreeg die wetenschappelijke ambitie min of meer vorm en dat dankzij de rol en impact van internationale organisaties die zich met onderwijs gingen bezighouden, zoals het International Bureau of Education in Genève (1925) en na de Tweede Wereldoorlog vooral de UNESCO, de World Bank en de OESO. Inmiddels is de comparatieve pedagogiek uitgegroeid tot een heuse discipline met eigen tijdschriften zoals Comparative Education en Comparative Education Review, eigen weten-schappelijke verenigingen en internationale conferenties. Cowen & Kazamias (2009) hebben in een recent verzamelwerk de stand van zaken in deze discipline opgemaakt.

De toenemende – maar eerlijk gezegd eigenlijk nog steeds erg bescheiden en eerder marginale – rol van internationaal georiënteerd onderwijson-derzoek vindt zijn verklaring in de interactie tussen endogene en exogene factoren in de hedendaagse ontwikkeling van nationale onderwijssyste-men. Met endogene factoren doel ik vooral op de toenemende kennisin-tensiviteit van sturing en beleid van onderwijs. De toenemende complexi-

102 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 107: Bewezen beleid in het onderwijs

teit van moderne onderwijssystemen, ook zelf het gevolg van processen van decentralisering en deregulering waardoor steeds meer actoren betrokken worden bij sturingsprocessen, vraagt om steeds meer gesofisti-ceerde informatie. In vergelijking met bijvoorbeeld de gezondheidszorg is in onderwijs de kennisintensiviteit van sturingsprocessen nog steeds eerder gering, maar ze is gedurende de voorbije decennia wel sterk toegenomen. Wetenschappelijke ontwikkelingen maken de methoden mogelijk om complexe onderwijs- en leerprocessen meetbaar te maken en beleidsvoerders komen onder steeds grotere druk te staan van stakehol-ders en de bredere samenleving om beleidskeuzes te legitimeren met empirische ‘evidence’ (OECD/CERI, 2007).

Voor de exogene factoren moeten we verwijzen naar de steeds sterkere impact van allerlei fenomenen en processen die met toenemende globalisering te maken hebben. Globalisering betekent in essentie de toenemende mobiliteit en interdependentie van economische maar ook van sociale en culturele grootheden, in het bijzonder van kennis en informatie. Uiteraard speelt de enorme ontwikkeling van informatie- en communicatietechnologieën hierbij een bijzonder belangrijke rol. Globalisering heeft een sterke – veel sterker dan de meeste onderwijspro-fessionals beseffen – impact op het onderwijsgebeuren zelf (Spring, 2008), maar maakt ook de informatie en kennis over het onderwijs zelf veel toegankelijker en mobieler. Het Bologna-proces in het hoger onderwijs is daarvan een goed voorbeeld, maar er zijn vele andere voorbeelden. De druk van het globaliseringsproces, voornamelijk via de integratie van nationale arbeidsmarkten en economische omgevingen, op het hoger onderwijs deed het besef groeien dat de nationale idiosyncrasieën zoals nationale diplomastelsels, curricula, kwaliteitszorgsystemen, enz. niet meer in overeenstemming waren met de toenemende internationale werkelijkheid. Met een merkwaardig krachtig proces van internationale convergentie paste het hogeronderwijsbeleid zich in het Bologna-proces aan die internationale druk aan (Van Damme, 2009). Er zijn vele dergelijke voorbeelden van convergentie van onderwijsbeleid en -praktijk te vinden. Heinze & Knill (2008) maken daarbij het onderscheid tussen delta-conver-gentie, waarbij landen het voorbeeld volgen van een krachtige voorloper of ‘good practice’, en sigma-convergentie, dat het resultaat is van vele kleine stappen naar steeds geringere variatie. Feit is dat het onderwijs helemaal niet ontsnapt aan die internationale druk.

Het interessante is dat die endogene en exogene factoren elkaar hebben ontmoet en op hun beurt hebben versterkt. De toenemende nood aan wetenschappelijke kennis groeide sterk in de periode dat de informatie- en communicatietechnologieën die kennis vanuit andere omgevingen ook beschikbaar maakte en dat de globalisering een steeds grotere convergen-

Essaybundel Bewezen Beleid in het Onderwijs | 103Ministerie van Onderwijs, Cultuur en Wetenschap

Page 108: Bewezen beleid in het onderwijs

tiedruk ging uitoefenen. Tegelijk veranderden ook de sturingsopvattingen over onderwijs: er kwam steeds meer nadruk te liggen op outputfactoren dan op input; het hernieuwde inzicht dat onderwijs een investeringsgoed is deed beleidsvoerders de vraag stellen naar interne en externe efficiëntie van onderwijsprocessen; het besef groeide dat onderpresterende scholen een bedreiging vormden voor de effectiviteit van het gehele onderwijsbe-stel, enz. De vragen die aan de wetenschappelijke onderwijskennis werden gesteld veranderden, de steeds meer toegankelijke internationale voorbeelden toonden aan dat die kennis ook kon aangeleverd worden, en de druk nam toe om zich aan die internationale standaarden te meten (Crossley & Watson, 2003).

7.3 Internationale onderwijsindicatoren over leerresultatenDe stelling van dit essay is niet zozeer dat globalisering en de convergentie van onderwijssystemen op zich tot de ontwikkeling van internationaal onderwijsonderzoek hebben geleid, maar veeleer dat de interactie en synchroniciteit van globalisering, de toegankelijkheid van data en kennis door ICT, de nood van onderwijsbeleid en -praktijk aan ‘evidence’ en de methodologische mogelijkheden om precies die kennis te ontwikkelen die aan al deze noden tegemoet kwam, daarvoor verantwoordelijk moeten worden geacht. Deze processen grepen op elkaar in en versterkten elkaar. De ontwikkeling van internationale onderwijsindicatoren is hiervan een erg verhelderend voorbeeld.

Het verzamelen en publiceren van allerlei basisgegevens over het onder-wijs op internationaal vlak gebeurt al relatief lang. Het IBE, de UNESCO en de OESO verzamelen en publiceren al lang nationale data over participatie aan onderwijs, over financiële en menselijke resources voor het onderwijs en over scholingsgraad van de bevolking. Op dit moment vormt de jaarlijks gepubliceerde Education at a Glance van de OESO een onschatbare bron van dergelijke data. Dergelijke inputgegevens zijn interessant en noodzakelijk, maar beïnvloeden op zich niet drastisch het onderwijsbeleid in landen zelf. Hoe moeilijk ze ook op een methodologisch verantwoorde wijze te verzamelen zijn – denken we alleen maar aan de internationaal vergelij-kende definities van onderwijsniveaus, waarvoor de UNESCO de ISCED-classificatie heeft moeten ontwikkelen –, op zich zijn het vrij eenvoudige gegevens.

Bij gebrek aan andere en betere indicatoren werden ze soms gebruikt om de kwaliteit van onderwijssystemen bij benadering te meten, maar het begrip ‘proxy’ werd daarbij vaak zodanig ver uitgetrokken dat de grens van het wetenschappelijk toelaatbare ver werd overschreden. Zo is het vandaag nog steeds zo dat de UNESCO data publiceert over de graad van analfabe-tisme in een land, terwijl er in de meeste ontwikkelingslanden uiteraard

104 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 109: Bewezen beleid in het onderwijs

geen enkele wetenschappelijk aanvaardbare meting van de geletterdheid van de bevolking is uitgevoerd. Men hanteert gewoon het aantal mensen dat minimaal vier jaar formele scholing heeft gelopen als maat voor het aantal geletterden in de bevolking.

De transitie naar het meten van reële leeruitkomsten (‘learning outco-mes’) op een internationaal vergelijkende manier is in dit verband meer dan een gewone stap in een ontwikkeling, het is een echte kwalitatieve sprong voorwaarts. De verschillende projecten van de International Association for the Evaluation of Educational Achievement (IEA), waaron-der vooral de Trends in International Mathematics and Science Study (TIMSS) en de Progress in International Reading Literacy Study (PIRLS), zijn daarbij baanbrekend geweest. Maar het is toch vooral de OESO, die met de International Adult Literacy Survey (IALS) en uiteraard vooral het Programme for International Student Assessment (PISA) zowel weten-schappelijk als maatschappelijk het meeste impact heeft. Dankzij baanbrekend wetenschappelijke en methodologische ontwikkelingen is het nu mogelijk om op een internationaal vergelijkende manier reële leerresultaten te meten en dus niet alleen meer de input, maar ook en vooral de reële output in termen van reële competenties van lerenden (en niet alleen kwalificaties) van onderwijssystemen zichtbaar te maken.

De impact hiervan kan moeilijk overschat worden. De publicatie van de resultaten van de eerste PISA-survey bracht een enorm schokeffect teweeg in vele van de deelnemende landen. Er zijn vele andere voorbeelden te geven, maar de PISA-schok in Duitsland bijvoorbeeld was enorm en doet zich telkens opnieuw voor bij elke nieuwe publicatie (Ertl, 2006). Vooral het feit dat deze data zich lenen (of laten verleiden) tot het rangschikken van landen in termen van onderwijskwaliteit is daarbij cruciaal. Landen die zich minder goed geclassificeerd zien dan hun ‘pedagogisch zelfbeeld’ hen laat vermoeden, ervaren een zware schok wanneer de reële onderwijs-leerresultaten op een vergelijkende manier worden gemeten. Zonder enige twijfel is de impact van PISA het grootst, maar ook andere dergelijke onderzoeksprojecten hebben een erg grote impact. Zo heeft de International Adult Literacy Survey (IALS), die de geletterdheid en gecijferdheid van de volwassen bevolking in beeld bracht, al in de jaren negentig een erg grote impact gehad (Van Damme, 1998).

Het weinig bekende voorbeeld van Frankrijk is illustratief, waar tot op het niveau van de president de discussie over de al dan niet publicatie van de slechte Franse resultaten werd gevoerd en inderdaad tot de niet-publicatie en de terugtrekking van Frankrijk uit het consortium werd besloten. De publieke en politieke discussie over dergelijke data is natuurlijk het meest zichtbaar, maar de reële impact van het meten en publiceren van vergelijk-

Essaybundel Bewezen Beleid in het Onderwijs | 105Ministerie van Onderwijs, Cultuur en Wetenschap

Page 110: Bewezen beleid in het onderwijs

bare leerresultaten strekt veel verder: er zijn voorbeelden bekend van belangrijke investeringsbeslissingen van multinationale ondernemingen waarbij de beschikbaarheid van dergelijke gegevens een rol hebben gespeeld. Sinds Finland in de PISA-rankings als het land met de beste leerresultaten staat geboekstaafd, is er een constante stroom van onderwijsprofessionals en -wetenschappers richting Finland op gang gekomen, die allen het geheim van het Finse PISA-succes willen te weten komen.

De impact van PISA en andere dergelijke internationale onderwijsonder-zoeken naar leerresultaten gaat natuurlijk verder dan het politieke en publieke schokeffect. Het interessante van PISA is dat het leidt tot erg relevante en interessante vragen over de reële bijdragen van onderwijs aan economische en sociale vooruitgang. Zo hebben de Duitse PISA-resultaten geleid tot een erg heftige maar noodzakelijke discussie over de mate waarin het selectieve Duitse onderwijsbestel de kwaliteit van enkelen heeft gecompenseerd met een zeer ongelijke onderwijskwaliteit voor vele anderen. In Vlaanderen bijvoorbeeld, met een zeer goede gemiddelde PISA-score, hebben de PISA-resultaten de erg zwakke leerresultaten van migrantenkinderen laten zien, hetgeen geleid heeft tot een politiek debat en verschillende beleidsmaatregelen van de regering. De beleidsverklaring van de Vlaamse minister van onderwijs in 2004, ‘Vandaag kampioen in wiskunde, morgen ook in gelijke kansen’, was een rechtstreekse verwij-zing naar en een politieke problematisering van de Vlaamse PISA-resultaten van 2003: gemiddeld uitstekend, maar met een erg grote spreiding. De PISA-data hebben overigens in het algemeen de problema-tiek van sociale ongelijkheid in onderwijskansen en -uitkomsten hoog op de onderzoeks- en beleidsagenda geplaatst (Doyle, 2008).

De ontwikkeling van dergelijke internationale data zal in de komende jaren nog verder gaan. PISA heeft tot dusver betrekking gehad op taal, wiskunde en wetenschappelijke geletterdheid, maar vandaag wordt conceptueel en methodologisch werk verricht om ook andere competen-ties op eenzelfde wijze meetbaar te maken. Aandacht gaat daarbij vooral naar de zogenaamde ‘21st century skills’ zoals creativiteit, probleemoplos-send vermogen, communicatievaardigheden, enzovoort. Op het terrein van het meten van competenties van volwassenen zal het Programme on International Assessment of Adult Competencies (PIAAC) – de eerste dataverzameling is gepland voor 2012-13 – wellicht eveneens een zeer grote impact hebben.

7.4 Voor en tegenEr is de laatste jaren bij onderwijsonderzoekers en onderwijsprofessionals een toenemende kritiek te merken op PISA en soortgelijke internationale

106 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 111: Bewezen beleid in het onderwijs

surveys van leerresultaten. Bij een aantal onder hen is die kritiek vaak erg ideologisch getint en beschouwt men PISA en bij uitbreiding het interna-tionale onderzoekswerk van de OESO als een exponent van een neolibe-raal en marktgericht offensief in het onderwijs. Sotiria Grek (2009), Martin Lawn en anderen in het Europees onderzoeksproject ‘Governing by numbers’ bijvoorbeeld bekritiseren de drang van nationale onderwijsover-heden om zich te ranken en te vergelijken met andere landen als een vorm van vermarkten van het onderwijsbeleid. Spring (2008) vertolkt de wijd verbreide mening dat PISA tot een algemene standaardisering van curricula en onderwijsdoelen in functie van de globaliserende markteco-nomie leidt. Nog anderen hebben PISA vooral op methodologische gronden bekritiseerd, maar de meeste pogingen om dit te doen zijn van een kale kermis teruggekomen: onafhankelijke methodologische reviews hebben keer op keer de wetenschappelijke deugdelijkheid van de gehan-teerde methodologie bevestigd.

Uiteraard zijn er kritische kanttekeningen te maken bij de impact van internationale surveys van leerresultaten en vooral de politieke hantering van de uitkomsten van dergelijk internationaal onderwijsonderzoek. De gevaren van over-interpretatie van de data, van de-contextualisering ervan en zelfs van politieke manipulatie ervan zijn niet denkbeeldig. Maar internationaal onderwijsonderzoek is daarbij niet intrinsiek verschillend van ander soort onderzoek. Rangschikken en ordenen op een lineaire schaal is een valabele en legitieme manier om inzicht te krijgen in complexe realiteiten, maar kan uiteraard ook een erg reductionistische manier zijn om die complexiteit weer te geven. Het valt moeilijk te ontkennen dat de vrij sterke cohesie van de Finse samenleving, de sterke historische waardering voor leren en educatie en zelfs de geografische structuur van het land een positieve rol spelen bij de uitstekende Finse PISA-resultaten, net als onderwijsinterne factoren zoals het uitstekende niveau van en de selectieve toegang tot de lerarenopleiding. Er is geen ‘magic formula’ die met een aantal eenvoudige ingrepen een land ertoe kan brengen zich in een aantal jaren op hetzelfde niveau als Finland te positioneren.

Misschien is de belangrijkste ontstaansgrond van internationaal onder-zoek naar leerresultaten zoals PISA, namelijk de internationale convergen-tie van onderwijssystemen, ook de meest kritische kant ervan. Internationale interactie heeft tot dusver vooral aanleiding gegeven tot convergentie, tot gelijkvormigheid. De impact van internationaal onderwijsonderzoek heeft deze convergentietendens nog versterkt omdat landen leentjebuur zijn gaan spelen bij andere landen die het in deze onderzoeken blijkbaar beter doen. Theoretisch is het eigenlijk perfect mogelijk dat eenzelfde onderwijsmaatregel in een andere context eerder

Essaybundel Bewezen Beleid in het Onderwijs | 107Ministerie van Onderwijs, Cultuur en Wetenschap

Page 112: Bewezen beleid in het onderwijs

tot negatievere resultaten zou kunnen leiden in plaats van tot de gewenste verbetering. Internationale statistieken hebben ook de impliciete neiging dat het gemiddelde of een ander punt op de schaal als een soort van normatieve benchmark gaat opereren. Beleidsaanbevelingen maken op grond van het afwijken van een bepaalde statistische norm is een reductionistische en dus potentieel risicovolle onderneming. PISA-data en andere vormen van internationaal onderwijsonderzoek moeten, mis-schien meer nog dan uitkomsten van ander soort onderzoek, als een uitnodiging worden gezien om dieper in de werkelijkheid af te dalen, en niet als een soort eenvoudige statistische werkelijkheid die als norm fungeert.

108 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 113: Bewezen beleid in het onderwijs

Literatuur

Cowen, R. & A.M. Kazamias (eds.) (2009). International Handbook of Comparative Education

(Dordrecht: Springer).

Crossley, M. & K. Watson (2003). Comparative and international research in education.

Globalization, context and difference (London: Routledge).

Daele, H. van (1993). L’Education comparée (Paris: PUF).

Damme, D. van (1990). Armenzorg en de staat. Comparatief-historische studie van de origines van

de moderne verzorgingsstaat in West-Europa (Gent: MIOS).

Damme, D. van (1998). ‘Wat leert ons de International Adult Literacy Survey?

Beleidsaanbevelingen op basis van de internationale en Vlaamse IALS-resultaten’,

Tijdschrift voor Onderwijsrecht en Onderwijsbeleid, 3-4, 248-261.

Damme, D. van(2009). ‘The search for transparency: convergence and diversity in the

Bologna process’, in: F. Van Vught (ed.), Mapping the higher education landscape. Towards

a European classification of higher education (Dordrecht: Springer), 39-56.

Doyle, A. (2008). ‘Educational performance or educational inequality: what can we learn

from PISA about France and England?’, Compare: A Journal of Comparative and International

Education, 38(2), 205-217.

Ertl, H. (2006). ‘Educational standards and the changing discourse on education: the

reception and consequences of the PISA study in Germany’, Oxford Review of Education,

32(5), 619-634.

Grek, S. (2009), ‘Governing by numbers: the PISA ‘effect’ in Europe’, Journal of Education Policy,

24(1), 23-37.

Grek, S. e.a. (2009). ‘National policy brokering and the construction of the European

Education Space in England, Sweden, Finland and Scotland’, Comparative Education, 45(1),

5-21.

Heinze, T. & Chr. Knill (2008). ‘Analysing the differential impact of the Bologna Process:

Theoretical considerations on national conditions for international policy convergence’,

Higher Education. 56, 493-510.

OECD/CERI (2007). Evidence in education. Linking research and policy (Paris: OECD).

Spring, J. (2008). ‘Research on globalization and education’, Review of Educational Research,

78(2), 330-363.

Essaybundel Bewezen Beleid in het Onderwijs | 109Ministerie van Onderwijs, Cultuur en Wetenschap

Page 114: Bewezen beleid in het onderwijs

08Evidence based policy in ontwikkelings-samenwerking10

Frans Leeuw Directeur WODC

& Jos VaessenUniversitair docent, UM

10 Dank aan Rien Rouw, (OCW), voor suggesties met betrekking tot de redactie en de bereidheid de samenvatting van het Nonie Guidance document (Leeuw & Vaessen, 2009) te laten vertalen. Het belangrijkste deel van dit hoofdstuk is hierop gebaseerd.

Ministerie van Onderwijs, Cultuur en Wetenschap110 | Essaybundel Bewezen Beleid in het Onderwijs

Page 115: Bewezen beleid in het onderwijs

8.1 Inleiding Discussies over het belang van evidence based beleid en de rol van evaluaties daarbij spelen niet alleen op het terrein van het onderwijs. In de strijd tegen criminaliteit werd al in de jaren tachtig onder de titel ‘what works’ intensief over een soortgelijk vraagstuk gesproken. Een hoogte-punt werd midden jaren negentig bereikt toen de Amerikaanse Minister van Justitie hoogleraar Lawrence Sherman verzocht de stand van zaken op te maken van de vele honderden interventies én van de daarbij passende evaluaties. Zijn vraag was wat er nu eigenlijk bekend was over de effectivi-teit van interventies en hoe serieus (dat wil zeggen wetenschappelijk) dat was vastgesteld. Het leidde tot een kloek rapport dat drie consequenties had.

De eerste was dat vastgesteld werd dat veel interventies en programma’s niet werken of twijfelachtig zijn. De tweede consequentie was dat de door Sherman e.a. gebruikte ‘schaal’, waarop designs van evaluatieonderzoek gewaardeerd werden, een brede verspreiding kreeg in de criminologie en aanverwante disciplines (vgl. Wartna, 2009; Kleemans et al, 2007). Kernpunt van deze schaal is een ordening in vijf niveaus van ‘evaluatiede-signs’. Het laagste niveau is het correlationele design waarbij in feite alleen wordt gekeken naar de uitkomstvariabele (bijvoorbeeld de mate van jeugdcriminaliteit) op een bepaald punt in de tijd, zonder een vergelijking te maken met de periode vóór invoering van een beleidsinterventie, of met situaties waarin deze niet is toegepast. Het hoogste niveau is het experimentele evaluatieonderzoek (randomized controlled trial - RCT).

Een derde consequentie is dat evaluatoren kritischer zijn geworden ten aanzien van het gebruik van procesevaluaties en andere evaluatietypen (dan de experimentele en quasi-experimentele) bij het beantwoorden van vragen naar resultaten en ‘effecten’. Overigens niet zonder (vaak) inten-sieve debatten. Deels gaan die over de vraag of dit type evaluaties ethisch wel kan, of ze niet inhoudelijk of theoretisch ‘te leeg’ zijn en of ze niet eenzijdig gericht zijn op enkelvoudige interventies, waardoor complexe interventies buiten beschouwing blijven (vgl. van der Knaap et al, 2008; Nelen, 2008; van Laar & van Ooyen, 2009).

Ondanks deze debatten hebben experimenteel criminologische studies en krachtige effectevaluaties redelijk vaste voet aan de grond gekregen. Wartna’s bijdrage aan deze publicatie geeft meer informatie over achter-gronden, aanpakken en resultaten.

Het tweede aanpalende ‘perceel’ is dat van de ontwikkelingssamenwer-king. Daar deed zich tot op zekere hoogte een soortgelijke ontwikkeling voor. Vele jaren van vele evaluaties konden niet voorkomen dat in een

Essaybundel Bewezen Beleid in het Onderwijs | 111Ministerie van Onderwijs, Cultuur en Wetenschap

Page 116: Bewezen beleid in het onderwijs

rapport van het Center for Global Development (2006) geconstateerd werd dat er eigenlijk weinig bekend was over de ‘impact’ van de diverse vormen van ontwikkelingssamenwerking. In belangrijke mate had dat te maken met de aard van de evaluatieonderzoeken die bij honderden, zoniet duizenden, jaarlijks verricht worden door de ‘evaluatie-industrie’ in dit veld (vgl. Leeuw & Cooksey, 2005).

Net zoals dat door Sherman e.a. (1997) gebeurde, zette het rapport ‘When will we ever learn’ van het Center for Global Development een beweging in gang om meer werk te maken van ‘robuuste impactevaluaties’. Ook hier niet zonder hevige discussies. Zo is beweerd dat de wereld van de ontwik-kelingssamenwerking zich niet ‘zou lenen’ (om politieke en ethische redenen) voor experimentele en quasi-experimentele effectstudies, dat de studies data gebruiken die invalide en onbetrouwbaar zijn en dat alleen korte-termijn-effecten op deze manier getraceerd worden. Voor evaluato-ren die vooral experimenteel willen werken bestaat al een soort van scheldwoord, de ‘randomistas’ (Leeuw & Vaessen, 2009; Ravallion, 2009). Echter, ook hier is de ontwikkeling naar meer robuuste evaluaties evident. Recente initiatieven zoals de “poverty action lab” en “poverty in action” financieren en implementeren vooral studies gebaseerd op experimentele ontwerpen. Andere organisaties zijn ook voorstander van dergelijke benaderingen maar stimuleren een bredere waaier van robuuste metho-den voor impact evaluatie. Voorbeelden zijn de Wereldbank en een semi-private organisatie ‘International Initiative for Impact Evaluation’ (3ie). Ook bestaat er het NONIE, het ‘Network of Networks Impact Evaluation Initiative’ (www.worldbank.org/ieg/nonie), dat zich ten doel stelt kwalitatief sterke effectevaluaties te laten verrichten.

8.2 Impactevaluaties in ontwikkelingssamenwerking

8.2.1 Waarom ‘evidence based denken’ in de ontwikkelingssamenwerking?

Waarom zou men in een boekje over evidence based onderwijs aandacht besteden aan ontwikkelingssamenwerking? Is dat niet een ver van mijn bed show? Volgens ons niet. De eerste reden daarvoor is dat de hierboven beschreven debatten over de waarde van experimenteel onderzoek vergelijkbaar zijn met debatten die in de onderwijswereld worden gevoerd. De tweede reden is dat op het terrein van ontwikkelingssamenwerking een poging is gedaan om het debat over evaluatie te ontdoen van ideolo-gie, zodat professionaliteit de boventoon kan voeren.

Een belangrijk initiatief dat voortkwam uit de gemeenschap van donoren en hun partners uit het Zuiden is het hierboven beschreven NONIE. In 2006 is NONIE opgericht met het oog op de uitvoering van meer en betere impactevaluaties door zijn leden. De leden van NONIE bestaan uit de

112 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 117: Bewezen beleid in het onderwijs

evaluatienetwerken van bilaterale en multilaterale ontwikkelingsorgani-saties en netwerken van evaluatoren van ontwikkelingslanden. Deze aangesloten netwerken voeren een breed pakket evaluaties uit, die zich richten op zaken als de prestaties van projecten en strategieën, institutio-nele ontwikkeling of de effectiviteit van hulp. De focus van NONIE is echter meer toegespitst. Door het verspreiden van methodologische benaderingen en het stimuleren van ‘learning by doing’ op het gebied van impactevaluaties wil NONIE bevorderen dat de leden deze meer specifieke aanpak gaan gebruiken in hun bredere evaluatieportefeuille.

Waarom moeten impactevaluaties worden bevorderd? In de ontwikke-lingspraktijk spelen impactevaluaties een sleutelrol in het streven naar meer duidelijkheid over de resultaten en de effectiviteit van ontwikke-lingshulp. Impactevaluaties zijn uitermate geschikt om antwoord te geven op belangrijke vragen, bijvoorbeeld of ontwikkelingsinterventies een succes zijn, of ze een verschil maken en hoe kosteneffectief ze zijn. Op die manier kunnen ze helpen om schaarse middelen daar in te zetten waar ze de meeste ontwikkelingsimpact hebben.

Hoewel er onder vakgenoten een discussie gaande is over de precieze definitie van impactevaluatie, gaat NONIE bij het hanteren van de term uit van de definitie van ‘impact’ die is vastgesteld door de Commissie voor Ontwikkelingsbijstand (Development Assistance Committee – DAC) van de OESO, namelijk: “de positieve en negatieve, primaire en secundaire effecten op lange termijn die voortvloeien uit een ontwikkelingsinterven-tie, direct of indirect, bedoeld of onbedoeld.”

Als we de DAC-definitie van impact overnemen, zijn daaraan twee onderliggende vooronderstellingen verbonden: 1 Attributie: De woorden ‘effecten die voortvloeien uit’ in de definitie van

de DAC impliceren dat het bij impactevaluatie gaat om het attribueren van effecten aan interventies, en niet alleen om het beoordelen van wat er is gebeurd.

2 De ‘counterfactual’: Dat betekent dat men, om inzicht te krijgen in de effecten die voortvloeien uit een interventie, in de meeste situaties moet proberen te weten te komen wat er zou zijn gebeurd als de interventie er niet was geweest. Vervolgens moet dit vergeleken worden met hetgeen er is gebeurd nu de interventie er wel is geweest.

Overigens worden evaluaties die zich richten op korte-termijn-effecten (‘outcomes’) en dus officieel buiten de DAC-definitie vallen, maar wel zijn gebaseerd op expliciete analyse van counterfactuals, meestal ook genoemd onder de noemer van impact-evaluatie.

Essaybundel Bewezen Beleid in het Onderwijs | 113Ministerie van Onderwijs, Cultuur en Wetenschap

Page 118: Bewezen beleid in het onderwijs

Deze twee vooronderstellingen betekenen echter niet dat er een aantal methoden en designs kan worden vastgesteld die in alle situaties te verkiezen zijn boven alle andere. In dit stuk benadrukken we daarom dat:

Er niet één beste methode is om in te gaan op de vele verschillende ■■

vragen en aspecten die onderdeel kunnen uitmaken van impactevaluaties. Afhankelijk van de specifieke vragen of doelstellingen van een bepaalde ■■

impactevaluatie, sommige methoden een comparatief voordeel hebben ten opzichte van andere. Bepaalde methoden en designs elkaar aanvullen en een vollediger ■■

‘beeld’ opleveren van de impact van een beleidsmaatregel of praktijk.

8.2.2 De NONIE-leidraad voor impactevaluaties: ’key issues’

Deze bijdrage is gebaseerd op een leidraad die de auteurs hebben geschre-ven voor de wereld van de ontwikkelingssamenwerking en effectevalua-ties. Die leidraad is bedoeld om de kwaliteit van impactevaluaties op het terrein van ontwikkelingssamenwerking te verhogen.

Zes methodologische ‘key issues’ zijn te onderscheiden: Stel de aard en de reikwijdte van de interventie vast.■■

Is het bijvoorbeeld een enkelvoudige interventie of is sprake van een omvattend programma? Heeft de interventie invloed op meerdere niveaus (burgers, groepen, organisaties, instituties)?Stel vast waaraan belang wordt gehecht.■■

Voor wie is de interventie van belang, wie zijn de stakeholders? Welke waarden en belangen hebben die stakeholders?Verwoord zorgvuldig de theorie die aan de interventies ten grondslag ■■

ligt en op grond waarvan verwacht wordt dat de interventie/beleid effectief zal zijn.

Welke verwachtingen bestaan over de werkzaamheid van de interventie? Hoe is de theorie achter een interventie op te sporen?Pak het attributieprobleem aan.■■

Hoe kun je vaststellen dat een interventie onlosmakelijk is verbonden met waargeno-men effecten?Hanteer een mix van methoden (oftewel: werk in lijn van de logica van ■■

de comparatieve voordelen van methoden). Alle onderzoeksmethoden en designs hebben voor- en nadelen. Stel een optimale mix

van designs en methoden samen om de onderzoeksvraag te beantwoorden. Maak gebruik van bestaande kennis over de impact van interventies.■■

Gebruik reviews om de kennis over interventies te bundelen.

114 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 119: Bewezen beleid in het onderwijs

Daarnaast hebben we drie richtlijnen voor het managen van impactevalua-ties onderscheiden:

Bepaal of een impactevaluatie haalbaar is en het geld waard is.■■

Omdat een impactevaluatie duur is, is het belangrijk om zich vooraf te verzekeren dat de resultaten gebruikt gaan worden. Begin tijdig met het verzamelen van gegevens.■■

Zet de gegevensverzameling zo vroeg mogelijk in het beleidsproces op. ‘Front-end planning’ is belangrijk.■■

Schenk vanaf het begin van de evaluatie aandacht aan het latere gebruik ervan.

In de praktijk van het evalueren van beleid zijn vooral de punten 3 tot en met 6 relevant. In de volgende paragrafen worden deze punten dan ook verder toegelicht.

8.2.3 Verwoord zorgvuldig de theorie die interventies met resultaten

verbindt

Ontwikkelingsbeleid en ontwikkelingsinterventies zijn doorgaans bedoeld om het gedrag of de kennis van huishoudens, individuen en organisaties te beïnvloeden. Aan het ontwerp van de interventie ligt (expliciet of impliciet) een ‘theorie’ ten grondslag, met sociale, gedragsge-richte en institutionele veronderstellingen, die aangeven waarom een bepaalde beleidsinterventie geschikt is om een bepaald ontwikkelingspro-bleem aan te pakken.

Inzicht in deze theorie is essentieel om de aard en de richting van een impact te kunnen evalueren. Vaak zijn deze theorieën echter gedeeltelijk ‘verborgen’ en moeten ze eerst worden gereconstrueerd en onder woorden worden gebracht. Hiervoor kunnen een of meerdere bronnen worden gebruikt — denk aan het bestaande ‘ logical framework’ van de interven-tie (zij het dat dat doorgaans oppervlakkig is) tot aan theoretisch en empirisch onderzoek naar veranderingsprocessen of eerdere ervaringen met soortgelijke interventies.

Nadat de veronderstellingen ten aanzien van het effect van een interventie op resultaten en impacts zijn verwoord, moeten deze veronderstellingen worden getoetst. Dit kan op twee manieren worden gedaan: door zorgvuldig het causale ‘verhaal’ te construeren dat weergeeft hoe de interventie tot resultaten heeft geleid (bijvoorbeeld met behulp van ‘causal contribution analysis’), of door de causale veronderstellingen formeel te toetsen aan de hand van geschikte methoden.

8.2.4 Pak het attributieprobleem aan

Bovenstaande stappen zijn van belang om het ‘feitelijke’ (wat er heeft plaatsgevonden) vast te stellen. Maar omdat er allerlei factoren zijn die

Essaybundel Bewezen Beleid in het Onderwijs | 115Ministerie van Onderwijs, Cultuur en Wetenschap

Page 120: Bewezen beleid in het onderwijs

Valu

e ta

rget

var

iabl

e

b

a

c

TimeA�erBefore

invloed kunnen hebben op ‘wat heeft plaatsgevonden’, is het bij een impactevaluatie juist wezenlijk om verder te kijken, om inzicht te krijgen in de toegevoegde waarde van de betreffende beleidsinterventie, los van die andere factoren.

Waargenomen veranderingen zullen over het algemeen slechts voor een deel door de betreffende interventie zijn veroorzaakt. Er zal vaak een wisselwerking zijn met andere interventies binnen of buiten het kernge-bied, waardoor de effecten van de te evalueren interventie worden versterkt of afgezwakt. Dit heet het attributieprobleem. Het aanpakken daarvan betekent dan ook dat de specifieke rol van een interventie moet worden geïsoleerd en nauwkeurig moet worden gemeten, en dat het vaststellen van de causaliteit tussen de interventie en de uitkomst wezenlijk is.

Om inzicht te krijgen in het attributieprobleem, wordt de situatie ‘met interventie’ vergeleken met wat er zou zijn gebeurd ‘zonder interventie’ (de counterfactual), zie onderstaand figuur. De impact wordt niet gemeten aan de hand van de waarde van een doelvariabele (punt a), noch aan de hand van het verschil tussen de situatie ervoor en erna (a–b, gemeten op de verticale as). De netto-impact is het verschil tussen de waarde van de doelvariabele na de interventie en de waarde die de variabele zou hebben gehad als de interventie niet had plaatsgevonden (a–c).

Eenvoudige grafiek van de netto-impact van een interventie

Ministerie van Onderwijs, Cultuur en Wetenschap116 | Essaybundel Bewezen Beleid in het Onderwijs

Page 121: Bewezen beleid in het onderwijs

Bij het uitvoeren van impactevaluaties is er geen ‘gouden standaard’ (in de zin van één methode of design die in alle gevallen het beste is). Afhankelijk van factoren zoals de reikwijdte, de doelstellingen en het ontwerp van de interventie, en de beschikbaarheid van gegevens, kunnen in specifieke gevallen bepaalde methoden/designs beter zijn dan andere.

Kwantitatieve technieken kunnen globaal worden ingedeeld in experi-mentele, quasi-experimentele en regressiegebaseerde technieken. Als deze goed worden toegepast, hebben ze een comparatief voordeel bij het aanpakken van het attributieprobleem. In het geval van (quasi-)experi-mentele methoden wordt de counterfactual gesimuleerd door te kijken naar de situatie van een groep deelnemers (die profiteert of effect ondervindt van een interventie, de ‘behandelingsgroep’) ten opzichte van de situatie van een equivalente vergelijkingsgroep of ‘controlegroep’ (die geen effect ondervindt van de interventie). Deze technieken proberen een oplossing te vinden voor het probleem van ‘selectiebias’, wat inhoudt dat de behandelingsgroep op de een of andere manier afwijkt van de controlegroep.

Experimentele technieken vermijden selectie-effecten doordat de behandelings- en de controlegroep hierbij willekeurig uit dezelfde populatie worden geselecteerd voordat de interventie van start gaat.

In een ‘randomized controlled trial’ (RCT) worden beide groepen geacht dezelfde gemiddelde kenmerken te hebben, met als enige uitzondering dat de behandelingsgroep met de interventie is geconfronteerd ( ‘aangebo-den’ is). Door een vergelijking van de gemiddelde uitkomsten in beide groepen wordt het attributieprobleem opgelost en verkrijgt men boven-dien een nauwkeurige schatting van de impact van de interventie. Ondanks de heldere opzet moeten RCT’s echter zorgvuldig worden uitgevoerd om te zorgen dat de twee groepen geen verschillende uitval-percentages hebben en dat er zo weinig mogelijk ‘contaminatie’ is – waar-bij de controlegroep toch met de interventie te maken krijgt (ofwel vanwege geografische nabijheid en de ‘spillover’, ofwel vanwege de aanwezigheid van vergelijkbare, gelijktijdige interventies die invloed hebben op de controlegroep). Door middel van quasi-experimentele technieken kunnen vergelijkbare interventie- en vergelijkingsgroepen worden gesimuleerd.

Pijplijnbenaderingen zijn geschikt voor projecten die gefaseerd worden ingevoerd. Hierbij worden de uitkomsten voor huishoudens en gemeen-schappen, die de interventie reeds hebben meegemaakt (de behandelings-groep), vergeleken met huishoudens en gemeenschappen die zijn geselecteerd maar nog niet hebben deelgenomen (de controlegroep).

Essaybundel Bewezen Beleid in het Onderwijs | 117Ministerie van Onderwijs, Cultuur en Wetenschap

Page 122: Bewezen beleid in het onderwijs

118 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 123: Bewezen beleid in het onderwijs

Pijplijnbenaderingen zijn echter alleen betrouwbaar als de behandelings- en de controlegroep dezelfde kenmerken hebben. Er kan een selectiebias ontstaan door zelfselectie (wie het liefst wil deelnemen, komt het eerst aan de beurt) of door geografische vertekeningen (zoals een verschuiving van landelijke naar stedelijke gebieden).

Bij ‘propensity score matching’ wordt achteraf een controlegroep samengesteld waarvan de leden worden geselecteerd op basis van waargenomen en relevante kenmerken, die overeenkomen met de kenmerken van de leden van de behandelingsgroep. De paren worden niet gevormd door alle kenmerken exact te matchen, maar door groepen te selecteren die - op basis van waarneembare kenmerken - dezelfde kans hebben om in de steekproef te worden opgenomen als de behandelings-groep. Deze techniek voorkomt echter niet dat er een bias kan optreden, aangezien niet-waargenomen verschillen tussen de groepen niet worden meegenomen. Bovendien kan er een grote steekproef nodig zijn voor de selectie van de vergelijkingsgroep. Dit wordt gewoonlijk opgelost door deze techniek te combineren met ‘double difference’ of ‘difference-in-difference’, waarbij verschillen tussen de twee groepen voor en na de interventie worden gemeten, zodat voor de niet-waarneembare verschil-len wordt gecorrigeerd (zolang ze in de loop van de tijd constant blijven).

‘Judgmental matching’ is een aanzienlijk minder nauwkeurige methode, die gebruikmaakt van beschrijvende informatie om vergelijkingsgroepen samen te stellen. In overleg met opdrachtgevers van de evaluatie, respectievelijk beleidsmakers en andere goed geïnformeerde personen worden eerst relevante matching-kenmerken vastgesteld, waarna geografische informatie, secundaire gegevens (zoals onderzoek onder huishoudens), interviews en belangrijke informatiebronnen worden gecombineerd om vergelijkingsgebieden of individuen/huishoudens te selecteren die de beste match van kenmerken vertonen. Het subjectieve element hierbij kan echter vertekeningen opleveren, zodat nader kwalita-tief onderzoek nodig is om niet-waargenomen verschillen toch in de analyse te kunnen betrekken.

Regressiegebaseerde technieken zijn meer flexibele instrumenten voor impactevaluatie achteraf, die soepel omgaan met allerlei verschillende aspecten: heterogeniteit in behandelingen, meerdere interventies, heterogene kenmerken van deelnemers, wisselwerkingen tussen interventies, en wisselwerkingen tussen interventies en specifieke kenmerken. Een regressiebenadering maakt het mogelijk te schatten welk aandeel een afzonderlijke interventie heeft gehad in het totale effect, of wat het effect is van de wisselwerking tussen twee interventies.

Essaybundel Bewezen Beleid in het Onderwijs | 119Ministerie van Onderwijs, Cultuur en Wetenschap

Page 124: Bewezen beleid in het onderwijs

Omgaan met niet-waarneembare variabelen en endogeniteit: bij ‘differen-ce-in-difference’-benaderingen in een regressiemodel, die onderzoeken hoe groepen in de loop van de tijd veranderen, kunnen niet-waargenomen (tijdsinvariante) variabelen wegvallen uit de vergelijking. De benadering is vergelijkbaar met een regressiemodel met vaste effecten. ‘Instrumentele variabelen’ kunnen behulpzaam zijn bij endogeniteit, omdat een goed instrument correleert met de originele endogene variabele in de vergelij-king, maar niet met de ‘error term’. De ‘difference-in-difference’-methode is echter gevoeliger voor meetfouten in de gegevens dan andere methoden en afhankelijk van de beschikbare gegevens is het niet altijd mogelijk om goede instrumenten te vinden.

Regression-discontinuity-designs zijn geschikt voor programma’s die een bepaalde grens(waarde) hanteren om de doelgroep af te bakenen (zoals inkomensdrempels). Deze methode vergelijkt de behandelingsgroep die nog net binnen de grens ligt met een controlegroep die er net buiten ligt. Het is onwaarschijnlijk dat er juist op dat punt niet-waargenomen verschillen zijn tussen de twee groepen. De impact kan daarom worden geschat door het gemiddelde verschil tussen de regressielijn van de behandelingsuitkomsten vóór de interventie te vergelijken met de regressielijn erna. Deze methode beoordeelt echter alleen de marginale impact van het programma rond de grenswaarde voor deelname, en niet over het gehele spectrum van mensen die invloed van de interventie ondervinden. Bovendien moet erop worden gelet dat individuen het selectieproces of de drempelwaarde niet kunnen beïnvloeden.

Kwantitatieve technieken zijn niet waterdicht en kunnen beperkingen hebben die verder reiken dan de hierboven genoemde technische beperkingen. Schatting van de counterfactual is niet mogelijk bij alge-mene interventies, zoals prijsbeleid of ruimtelijke regelgeving, waar iedereen mee te maken krijgt (zij het in verschillende mate ). In zo’n geval is er behoefte aan regressiegebaseerde technieken die zich richten op de verschillen in blootstelling/deelname. Er zijn ook nog bepaalde pragmati-sche beperkingen, zoals ethische bezwaren tegen randomisatie, of gebrek aan gegevens over de uitgangssituatie van de doelgroepen van de interventie. Verder zijn eenvoudige kwantitatieve benaderingen soms ongeschikt in ‘complexe’ contexten, alhoewel de methodologische problemen van het evalueren van gecompliceerde interventies tot op zekere hoogte kunnen worden ‘geneutraliseerd’ door ze te ontleden in hun ‘werkzame bestanddelen’.

Niet-kwantitatieve technieken zijn vaak minder doeltreffend om het attributieprobleem aan te pakken, hoewel ze een comparatief voordeel kunnen hebben als het gaat om interventies die opereren in complexe

120 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 125: Bewezen beleid in het onderwijs

settings. Toch kunnen ze bij impactevaluaties wel nuttig zijn om informa-tie te verkrijgen over de reikwijdte, de doelstellingen en de onderliggende interventietheorie, en ook om gegevens en bewijsmateriaal te genereren of aan te vullen.

Participatieve benaderingen zijn van een geheel andere signatuur. Het zijn niet-kwantitatieve instrumenten, die uitgaan van het principe dat stakeholders moeten worden betrokken bij bepaalde of alle fasen van de evaluatie. In het geval van impactevaluatie gaat het daarbij onder meer om aspecten zoals het vaststellen van de doelstellingen, de in aanmerking te nemen indicatoren en deelname van stakeholders aan het verzamelen en analyseren van gegevens. De diverse methoden in deze categorie berusten op verschillende maten van participatie, uiteenlopend van raadpleging tot samenwerking tot gezamenlijke besluitvorming. Participatieve benaderin-gen kunnen handig zijn om te komen tot een meer volledige en/of meer geschikte reeks gewaardeerde impacts, meer betrokkenheid en meer begrip tussen stakeholders onderling, en beter inzicht in veranderingspro-cessen en de manieren waarop mensen door interventies worden beïnvloed. Maar hoe hoger de mate van participatie, des te kostbaarder en lastiger het is om een impactevaluatie op te zetten. Participatieve benadering is dan ook ongeschikt voor grootschalige, uitgebreide interventies zoals sectorprogramma’s. Bovendien kleven er serieuze nadelen aan de validiteit van informatie die uitsluitend is gebaseerd op de beleving en ervaringen van stakeholders. Tot slot kan de validiteit van de gegevensverzameling en -analyse ook nog worden beïnvloed doordat stakeholders strategische antwoorden geven, gegevens manipuleren of bepaalde belangen op de voorgrond plaatsen.

In het algemeen geldt voor impactevaluaties dat, met het oog op het attributieprobleem, goed ontworpen kwantitatieve methoden doorgaans de voorkeur hebben. Kwalitatieve technieken kunnen de veranderingen die aan interventies zijn toe te schrijven, niet kwantificeren, maar moeten wel worden gebruikt om belangrijke aspecten te evalueren waarvoor kwantificering niet mogelijk of niet praktisch is en om aanvullende en diepgaande perspectieven op veranderingsprocessen ten gevolge van interventies te ontwikkelen.

8.2.5 Hanteer een mix van methoden

Elke afzonderlijke methode/design zoals hierboven genoemd, heeft comparatieve voordelen ten aanzien van specifieke wensen en behoeften in het kader van een impactevaluatie. Inzicht in deze comparatieve voordelen kan worden verkregen aan de hand van vier verschillende soorten validiteit (Cook en Campbell, 1979; Shadish et al., 2002).

Essaybundel Bewezen Beleid in het Onderwijs | 121Ministerie van Onderwijs, Cultuur en Wetenschap

Page 126: Bewezen beleid in het onderwijs

Deze vier soorten zijn:Interne validiteit: vaststellen dat er een causaal verband is tussen de ■■

resultaten van een interventie en de veranderingsprocessen die tot uitkomsten en impacts leiden.Constructvaliditeit: ervoor zorgen dat de gemeten variabelen een ■■

adequate weergave vormen van de onderliggende realiteit van ontwikkelingsinterventies.Externe validiteit: vaststellen dat bevindingen generaliseerbaar zijn naar ■■

andere settings.Statistische conclusievaliditeit: bij kwantitatieve technieken, waarbor-■■

gen van de zekerheid of een verband tussen interventie en impactvaria-bele daadwerkelijk (i.e. op niveau van de referentiepopulatie) bestaat en de sterkte daarvan.

Qua interne validiteit zijn RCT’s aantoonbaar beter dan de meeste andere methoden. Als ze goed zijn ontworpen, kan de counterfactual worden vastgesteld; de gerandomiseerde projectvoordelen (binnen een relatief homogene populatie) zorgen ervoor dat er geen systematische verschillen zijn tussen de ontvangers en de niet-ontvangers van de voordelen. Echter RCT’s controleren op verschillen tussen groepen binnen de specifieke setting waarop de evaluatie betrekking heeft. Andere settings hebben andere kenmerken die niet worden gecontroleerd, zodat de externe validiteit van dergelijke RCT’s beperkt kan zijn, tenzij er een systematische en grote reeks RCT’s is uitgevoerd, die de interventie evalueren over het gehele spectrum van daadwerkelijk voorkomende settings en beleidsop-ties. Dit is in de meeste gevallen niet haalbaar of onrealistisch.

Verder kunnen diepgaande kwalitatieve methoden die de complexiteit en diversiteit van institutionele en sociale verandering in aanmerking proberen te nemen, qua constructvaliditeit een comparatief voordeel hebben bij het beoordelen van de bijdrage van complexe en multidimensi-onele interventies of impacts. Impacts op armoede of de kwaliteit van de ‘governance’, bijvoorbeeld, zijn moeilijk volledig te vangen in duidelijke, kwantificeerbare indicatoren die gewoonlijk in RCT’s en sommige quasi-experimentele methoden worden gebruikt. Daarnaast kunnen deze impacts misschien beter worden gemeten met behulp van kwalitatieve technieken. Echter, deze methoden kunnen tegelijkertijd ook onvoldoen-de scoren op het criterium van de externe validiteit. Comparatieve voordelen zijn dan te vinden in kwantitatieve benaderingen met een grote steekproef die een aanzienlijke diversiteit aan contexten en mensen bestrijken.

Ook kan er een mix van methoden worden gebruikt, ‘triangulatie’ van informatie van verschillende benaderingen, om verschillende facetten van

122 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 127: Bewezen beleid in het onderwijs

complexe uitkomsten of impacts te beoordelen, wat een grotere validiteit oplevert dan één enkele methode. Als het bijvoorbeeld gaat om de impact van stimuleringsmaatregelen op de benutting van het arbeidspotentieel en de middelen van bestaan van boeren, kan de effectiviteit van verschil-lende afzonderlijke maatregelen voor arbeid en inkomenseffecten worden getoetst met een gerandomiseerd experiment (toetsing van de interne validiteit). Deze analyse kan worden verdiept aan de hand van onderzoeks-gegevens en casestudy’s door te kijken naar de verdeling van deze effecten over verschillende soorten boerenhuishoudens (triangulatie met de RCT-informatie over de interne validiteit en vergroting van de externe validiteit). Daarnaast kunnen semi-gestructureerde interviews en focusgroepgesprekken meer algemene informatie opleveren over de aard van de effecten in termen van productie, consumptie, armoede enz. (vaststelling van de constructvaliditeit).

Een laatste punt is dat een analyse van de verdeling van kosten en baten als gevolg van een interventie, waarbij onderscheid wordt gemaakt tussen bereik, effecten voor direct betrokkenen en indirecte effecten, niet met één bepaalde methode kan worden uitgevoerd. Wie in al deze aspecten is geïnteresseerd, zal onvermijdelijk een combinatie van meerdere metho-den en bronnen moeten gebruiken.

8.2.6 Maak gebruik van bestaande kennis over de impact van interventies

Review- en synthesemethoden kunnen een centrale rol spelen bij het bundelen van bestaande kennis om de kracht en de validiteit van een impactevaluatie te vergroten, om bij te dragen tot toekomstige kennisop-bouw en om in de informatiebehoefte van stakeholders te voorzien.

Concreet dienen deze methoden twee doelen. Ten eerste versterken ze de externe validiteit, doordat ze vergelijkbare interventies in verschillende landen en regio’s beoordelen. Dit betekent dat de relatieve effectiviteit van alternatieve interventieontwerpen in andere contexten wordt beoordeeld. Daarnaast dragen ze bij aan kennis over wat werkt, wat niet, voor wie en voor hoe lang, doordat veel interventies ‘gebruik maken’ van vergelijkbare gedragsmechanismen die de ‘triggers’ van de beoogde veranderingen zijn.In deze categorie vallen diverse methoden:

Systematische reviews zijn syntheses van primaire studies die – op basis ■■

van expliciet uiteengezette doelstellingen en volgens een transparante, systematische en repliceerbare protocollen en methodieken – litera-tuuronderzoek doen, duidelijke criteria hanteren om studies al dan niet op te nemen en informatie uit de beschikbare kennis extraheren en samenvoegen.Meta-analyses, een veel gebruikt type systematische review, houden in ■■

dat er een kwantitatieve synthese wordt gemaakt van de ‘scores’ voor de

Essaybundel Bewezen Beleid in het Onderwijs | 123Ministerie van Onderwijs, Cultuur en Wetenschap

Page 128: Bewezen beleid in het onderwijs

impact van een vergelijkbare reeks interventies uit een aantal afzonder-lijke studies uit verschillende omgevingen. Hierbij wordt een vaste procedure gevolgd om geschikte kennis te zoeken en te selecteren, gewoonlijk aan de hand van een hiërarchie van methoden, waarbij robuuste kwantitatieve (experimentele) studies hoger scoren in de hiërarchie van informatiebronnen.‘Narrative reviews’ zijn verslagen van interventieprocessen en/of ■■

resultaten van een reeks interventies, waarbij wordt uitgegaan van een gezamenlijk analytisch kader en sjabloon om gegevens uit de afzonder-lijke studies te extraheren en de voornaamste bevindingen samen te vatten in een narratief verslag en/of tabellen en matrices waarin belangrijke aspecten van de interventies worden weergegeven.‘Realist’ syntheses zijn ‘theory-driven’ en maken expliciet niet gebruik ■■

van een hiërarchie aan methoden en designs van evaluaties. Hierbij worden eerdere onderzoeksresultaten verzameld door de te evalueren beleidsinstrumenten of interventies te plaatsen in de context van andere, vergelijkbare instrumenten en worden de interventies beschre-ven in termen van de context, sociale en gedragsmechanismen (wat zorgt ervoor dat de interventie werkt) en uitkomsten (de ‘deliverables’). Beter bekend als het CMO-model.

Tot zover de kern van het NONIE Guidance Document on Impact Evaluation and Development (Leeuw & Vaessen, 2009).

Tot slot stellen we de vraag wat de kans op een succesvol gebruik van dit ‘handboek’ van NONIE is. In hoeverre draagt het bij aan betere evaluaties en meer evidence-based ontwikkelingssamenwerking?

8.3 Kansen op succes voor robuuste impactevaluatiesOndanks het feit dat er ‘gedoe’ is rondom methodische aspecten van impactevaluaties op het terrein van de ontwikkelingssamenwerking, gedoe dat niet zelden ideologisch ‘ruikt’, eindigen we optimistisch.

Ten eerste is er, in lijn met de titel van het rapport van het Center for Global Development (‘When will we ever learn’), in brede zin een behoefte om echt te weten wat wel, wat niet of minder en wat anders werkt. Ten tweede staan in de wereld van ontwikkelingssamenwerking veel zaken in het teken van ‘leren’ van ervaringen uit het verleden. Dit zien we ook in Nederland. Debatten in de Tweede Kamer over de effectiviteit van beleid op het terrein van ontwikkelingssamenwerking, de positie en deskundig-heid van de Inspectie Ontwikkelingssamenwerking en Beleidsevaluatie (IOB) van het Ministerie van Buitenlandse Zaken en specifieke IOB evaluatierapporten laten dat goed zien (Van Gils & Leeuw, in voorbereiding).

124 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 129: Bewezen beleid in het onderwijs

Ten derde stimuleert de Minister van Ontwikkelingssamenwerking, Koenders, wat hij zelf noemt, slim effectiviteitonderzoek. Theoriegestuurd impact onderzoek, zoals hierboven toegelicht, maakt daar een essentieel onderdeel van uit. Ten vierde maakt de Inspectie Ontwikkelings-samenwerking en Beleidsevaluatie sinds enkele jaren een duidelijke beweging juist naar het doen en uitbesteden van meer robuuste impacte-valuaties, waarbij experimentele en quasi-experimentele designs niet uitgesloten worden, maar juist opgezocht worden.

Tenslotte: internationaal is ook veel aan de gang. Zo heeft het International Initiative for Impact Evaluation (3ie) de oprichting van een nieuw wetenschappelijk tijdschrift (Journal of Development Effectiveness - “that aims to support evidence-based policy making to enhance development effectiveness”) gestimuleerd en krijgen robuuste impactevaluaties meer en meer aandacht van multilaterale en bilaterale donoren, zoals de Wereldbank en look-a-likes, als ook van andere institutionele spelers. Dat mag ook wel. Immers, impactevaluaties zijn de oudste en, naar ons oordeel, meest belangrijke vorm van evaluaties. Ze gaan terug tot een fraai beschreven ‘experiment’ van scheepsarts Lind hoe scheurbuik in de 18e eeuw effectief te bestrijden. Lind combineerde een voorloper van de systematic research review-aanpak met een experiment. Methodologisch deugde daar veel niet aan (geen informatie over randomisatie ja of neen, zeer kleine groepen (n=2) enz.), maar hoe dan ook: een van de circa vijf interventies werkte (dagelijks een beetje citroen- en sinaasappel drinken). De theorie achter deze interventie (de werking van vitamine C) werd pas decennia later ontdekt. Maar Lind legde wel een belangrijk fundament voor beleidsrelevante impactevaluaties. Een beetje ‘back to the future’ dus, maar dan wel met volle vaart.

Essaybundel Bewezen Beleid in het Onderwijs | 125Ministerie van Onderwijs, Cultuur en Wetenschap

Page 130: Bewezen beleid in het onderwijs

Literatuur

Center for Global Development, (2006) When Will We Ever Learn? Improving Lives through

Impact Evaluation, Report of the Evaluation Gap Working Group, Center for Global

Development, Washington, DC.

Gils, G.H.C. van & Frans L. Leeuw (in druk), Leren van evalueren (op de Apenrots) (werktitel);

een onderzoek naar de benutting van evaluatieonderzoek bij het Ministerie van

Buitenlandse Zaken.

Kleemans, Edward, Carolien Klein Haarhuis, Frans Leeuw en Marianne van Ooyen-Houben,

Law enforcement interventions in the Netherlands: mapping interventions and ‘browsing’

for evidence, in: Evidence & Policy, (4), 2007: 487-504.

Knaap, L.M. van der, F.L. Leeuw, S. Bogaerts en L.T.J. Nijssen (2008) “Combining Campbell

standards and the realist evaluation approach—the best of two worlds?” American Journal

of Evaluation 29(1), 48–57.

Laar, M. van & M. van Ooyen-Houben (red) (2009), Evaluatie van het Nederlandse

drugsbeleid, Trimbos Instituut & WOdC, Den Haag/Utrecht.

Leeuw,Frans & Jos Vaessen (2009), Impact Evaluations and Development, Nonie Guidance

on Impact Evaluation, Worldbank, Washington.

Leeuw, Frans L. and Leslie Cooksy, Evaluating the performance of development agencies: the

role of meta-evaluations, in: G. Keith Pitman et al (eds), Evaluating development effectiveness,

World Bank Series on Evaluation and Development, Vol 7, Transaction Publishers, Rutgers,

2004: 85-108.

Nelen, Hans. ‘Evidence maze; het doolhof van het evaluatieonderzoek’, Oratie Universiteit

Maastricht, 2008.

Ravallion (2009), Should the randomistas rule? The Berkeley Electronic Press, Economists’ Voice,

www.bepress.com/ev February, 1-5.

Sherman, L.W., D.C. Gottfredson, D.L. MacKenzie, J.E. Eck, P. Reuter, & S.D. Bushway (1997).

Preventing crime: What works, what doesn’t, what’s promising, Washington, National

Institute of Justice, US Department of Justice.

Wartna, B. (2009), In de oude fout, Dissertatie Universiteit Leiden, Leiden, Boom Juridische

Uitgeverij/WODC, Den Haag.

126 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 131: Bewezen beleid in het onderwijs

Essaybundel Bewezen Beleid in het Onderwijs | 127Ministerie van Onderwijs, Cultuur en Wetenschap

Page 132: Bewezen beleid in het onderwijs

09Helpen straffen. Evidence based policy op het terrein van JustitieBouke WartnaSenior onderzoeker, WODC

128 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 133: Bewezen beleid in het onderwijs

Stel dat de rechters in ons land zouden beschikken over een sanctie die elke delinquent ervan weerhoudt ooit nog een delict te plegen. Zouden we deze sanctie dan altijd toegepast willen zien? Natuurlijk – zou men op het eerste gezicht zeggen, maar bij nader inzien is deze kwestie toch wat ingewikkelder. Strafrechtelijke interventies moeten aan tal van eisen voldoen. Op de eerste plaats moet de straf ethisch aanvaardbaar zijn. Ze moet passen in onze eigen sociaal-culturele en juridische kaders en overeenstemmen met de internationale verdragen die op dit terrein geldig zijn. We willen in Nederland geen draconische maatrege-len zoals lijfstraffen, doodstraf of levenslange opsluiting. Aan de andere kant willen we wel dat het straffen van de dader genoegdoening oplevert voor het slachtoffer en voor samenleving in het geheel. En er moet een element van leedtoevoeging aankleven, al was het maar om anderen, potentiële daders, af te schrikken. De uitvoerbaarheid van de sancties en de kosten ervan vormen tot slot uiteraard ook nog een overweging.

Een aanvaardbare sanctie die elke delinquent weerhoudt ooit nog een delict te plegen bestaat niet. Dat maken de cijfers van figuur 1 snel duidelijk. De figuur geeft de ontwikkeling te zien in de prevalentie van de strafrechtelijke recidive van personen die tussen 1997 en 2004 in Nederland in aanraking zijn gekomen met justitie. De cijfers zijn afkomstig uit de Recidivemonitor, een doorlopend onderzoeksproject van het weten-schappelijk onderzoek- en documentatiecentrum (WODC) van het Ministerie van Justitie. Het onderzoek brengt de terugval in kaart van praktisch iedereen die wegens het plegen van een misdrijf werd vervolgd en bestraft. De grafiek onderscheidt vier daderpopulaties: volwassen daders, jeugdige daders, en twee groepen die daarvan een selectie vormen, de ex-gedetineerden en de jongeren die uitstroomden uit een justitiële jeugdinrichting. In de laatste twee groepen is de strafrechtelijke recidive het hoogst. Daarnaast wordt duidelijk dat jongeren over het algemeen vaker recidiveren dan volwassenen. Dat wil zeggen: personen die op jonge leeftijd in contact komen met justitie vertonen een hoger risico om in het systeem terug te keren dan personen die op latere leeftijd worden vervolgd.11

De cijfers van de Recidivemonitor vormen onderdeel van de evidence base van justitie. We weten nu, zelfs tot op decimalen achter de komma, hoe hoog de recidive is. De cijfers zijn het kabinet al jaren een doorn in het oog. Ze moeten omlaag, temeer omdat meer dan de helft van de geregi-

11 De figuur geeft de netto-ontwikkeling van de recidive weer. De cijfers zijn gecorrigeerd voor verschuivingen op achtergrondkenmerken binnen de vier populaties en er is rekening gehouden met het voorkomen van registratie-effecten.

Essaybundel Bewezen Beleid in het Onderwijs | 129Ministerie van Onderwijs, Cultuur en Wetenschap

Page 134: Bewezen beleid in het onderwijs

streerde criminaliteit in Nederland wordt gepleegd door een recidivist. In het beleidsprogramma Veiligheid begint bij Voorkomen (2007), uitgebracht door het vierde kabinet Balkenende, worden de aspiraties op dit punt geconcretiseerd. Het kabinet wil in de periode 2002-2010 de recidive onder ex-gedetineerden en jeugdige daders met tien procentpunten verlagen.12 Een zeer ambitieuze doelstelling die een optimistisch mensbeeld verraadt en laat zien dat men een zeker vertrouwen heeft in de elasticiteit van het strafrechtelijke apparaat.

12 Deze doelstelling geldt voor de recidive gemeten bij een observatieperiode met een lengte van 7 jaar. De prevalentie van de 2-jarige recidive moet met respectievelijk 7,7 en 5,8 procentpunten omlaag.

0

10

20

30

40

50

60

70

jaar van oplegging/uitstroom

perc

enta

ge re

cidi

vist

en

ex-JJI-pupillen 60,2 57,6 58,4 57,4 57,5 53,5 56,1 54,3

ex-gedetineerden 55,1 55,7 57,3 58,9 60,1 60,6 60,4 58,6

jeugdige daders 36,1 37,2 36,5 37,1 37,5 39,4 41,1 41,6

volwassen daders 26,1 27,2 26,6 27,3 28,0 29,0 29,2 29,1

1997 1998 1999 2000 2001 2002 2003 2004

Figuur 1 Gecorrigeerde percentages algemene recidive twee jaar na oplegging van de straf c.q. vertrek uit de inrichting; naar jaar van oplegging/uitstroom

130 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 135: Bewezen beleid in het onderwijs

Een deel van dat vertrouwen berust op denkbeelden uit de criminologie. In de jaren negentig van de vorige eeuw deed zich een omslag voor in het denken over interventiestrategieën voor justitiabelen. Jarenlang heerste er een zeker pessimisme over de mogelijkheden van het strafrecht om delinquenten te verbeteren. Het motto gold: ‘nothing works’. Maar op een goed moment drongen vanuit Canada en de Verenigde Staten nieuwe geluiden door over de ‘rehabilitation of offenders’. Auteurs als Palmer (1975), Gendreau & Ross (1979, 1987) en Andrews & Bonta (1995, 2003) toonden met empirisch onderzoek aan dat interventies in een justitiële setting wel degelijk succesvol kunnen zijn, mits zij zijn afgestemd op het recidiverisico, de leerstijl en de specifieke criminogene factoren van de betreffende dadergroep. Deze drie aspecten zijn nog steeds de basisprinci-pes van wat wordt gezien als ‘effectieve interventies’ op het terrein van criminal justice. Het zijn de hoekstenen van wat in de criminologie bekend is komen te staan onder de ‘what works’-benadering, een sterk op de uitvoeringspraktijk gerichte beweging waarin men met empirisch onderzoek tracht na te gaan onder welke condities strafrechtelijke interventies uitzicht bieden op preventie.

9.1 Evidence based werken in justitielandIn Nederland hebben de inzichten uit de what works-literatuur iets later ingang gevonden, maar de laatste jaren is de what works-benadering een belangrijk element in het beleid op het gebied van de sanctietoepassing. Vanaf 2002 wordt, min of meer tegen de verdrukking in en met betrekke-lijk succes, gewerkt aan de randvoorwaarden voor het uitvoeren van ‘effectieve gedragsinterventies’. Een deel van de gewenste recidivereductie die het kabinet momenteel nastreeft, zal moeten komen van behandelpro-gramma’s voor justitiabelen. In het kader van de operatie Terugdringen Recidive wordt achter de schermen gewerkt aan deskundigheidsbevordering en aan samenwerking tussen de organisaties op het justitiële speelveld. Er zijn diagnose-instrumenten ontwikkeld bestemd voor individuele screening en indicatiestelling. De instrumenten brengen op eenduidige wijze het recidiverisico in kaart en maken een inventarisatie van de te behandelen criminogene factoren. De bestaande interventies in de penitentiaire inrichtingen en bij reclasseringsinstellingen werden door een ambtelijke werkgroep geïnventariseerd en langs de meetlat van de what works-principes gehouden. Geen van de interventies bleek te voldoen aan de criteria voor effectieve programma’s. Er werden nieuwe interventies ontworpen en er is een ‘erkenningscommissie’ in het leven geroepen. Deze groep van onafhankelijke experts beoordeelt de plannen die uitvoeringsorganisaties hebben om interventieprogramma’s uit te voeren die zijn bedoeld om de recidive in de doelgroep te verlagen. Na advies van de commissie besluit de minister van Justitie of de interventies worden gefinancierd.

Essaybundel Bewezen Beleid in het Onderwijs | 131Ministerie van Onderwijs, Cultuur en Wetenschap

Page 136: Bewezen beleid in het onderwijs

Box: 1 Kwaliteitscriteria voor interventies gericht recidivereductie

1 Theoretische onderbouwing: de gedragsinterventie is gebaseerd op een analyse van het delictgedrag en een expliciet veranderingsmodel waarvan de werking wetenschappelijk is aangetoond.

2 Selectie van justitiabelen: het type justitiabele waarop de gedragsinterventie zich richt wordt duidelijk gespecificeerd en geselecteerd.

3 Dynamische criminogene en protectieve factoren: de gedragsinterventie is gericht op het beïnvloeden van veranderbare risicofactoren en op protectieve factoren die samenhangen met het criminele gedrag.

4 Effectieve (behandel)methoden: er worden (behandel)methoden toegepast die aantoonbaar effectief of veelbelovend zijn.

5 Vaardigheden: de aanpak is mede gericht op het leren van praktische, sociale en probleemoplossende vaardigheden.6 Fasering, intensiteit en duur: de intensiteit en duur van de gedragsinterventie sluit aan bij de problematiek van de

deelnemer.7 Betrokkenheid en motivatie: betrokkenheid van de deelnemer bij de gedragsinterventie en motivatie voor deelname

moeten worden bevorderd en gestimuleerd.8 Continuïteit: er moeten duidelijke verbindingen zijn tussen de gedragsinterventie en de totale begeleiding van de

justitiabele.9 Interventie-integriteit: de gedragsinterventie wordt uitgevoerd zoals het bedoeld is.10 Evaluatie: een doorlopende evaluatie geeft inzicht in de effectiviteit van de gedragsinterventie.

Bron: Erkenningscommissie Gedragsinterventies Justitie (2008)

De ‘Erkenningscommissie Gedragsinterventies Justitie’, zoals het forum van deskundigen voluit heet, is de poortwachter van justitie als het gaat om de invoering van evidence based interventies. Ze hanteert tien kwaliteitseisen bij de beoordeling van de aanvragen. Deze zijn ontleend aan de interventiepraktijk in Canada en Engeland waar dit soort accredita-tiesystemen al langer bestaat. In box 1 staan ze opgesomd.

In de eisen zien we de basisprincipes van de what works-benadering terug. Opvallend is het gebruik van de term ‘gedragsinterventies’ en de eis dat een programma gericht moet zijn op het aanleren van vaardigheden. De what works-beweging komt voort uit een onderzoekstraditie waarin men uitgaat van sociaal-psychologische theorieën van crimineel gedrag. Crimineel gedrag is aangeleerd en kan via dezelfde mechanismen worden afgeleerd. Er zijn natuurlijk andere theorieën over het ontstaan en de ontwikkeling van criminaliteit. De vraag is wat de commissie zal doen als zich een aanvraag voor een ander type interventie aandient. Het kan zijn dat vaardigheidstrainingen een bewezen werking hebben, maar dat wil nog niet zeggen dat elke andere methode om de recidive te verlagen ineffectief zou zijn. Om geen enkele theoretische benadering uit te sluiten, zou het volgens mijn beter zijn om uit te gaan van ‘daderprogram-ma’ dan van ‘gedragsinterventie’.

132 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 137: Bewezen beleid in het onderwijs

9.2 De eis tot evaluatieIn november 2009 vond in Utrecht een conferentie plaats over de positie van de erkenningscommissie. Beleidsmedewerkers, veldorganisaties, methodiekontwikkelaars en onderzoekers wisselden van gedachten en spraken over hun ervaringen met de procedures die het werk van de commissie omgeven. De erkenningscommissie riep die dag –bedoeld of onbedoeld - het beeld op van een strenge, soms wat onbegrepen maar altijd gerespecteerde schoolmeester die niet van plan is zijn normen bij het nakijken van het huiswerk te verlichten. De uitvoeringsorganisaties - men moet hier denken aan de reclasseringsinstellingen, penitentiaire inrichtingen of de Raad voor de Kinderbescherming - onderschrijven de koers die het beleid heeft ingezet, maar kreunen onder het vele werk dat vastzit aan ‘het ontwikkelen, beschrijven, beoordelen, implementeren en evalueren van gedragsinterventies’. Zij zoeken –en niet geheel onterecht – hulp bij beleid, onderzoek en wetenschap.

Vooral de eis van doorlopende evaluatie, het laatste criterium op de lijst, is een zware last voor de uitvoeringsorganisaties en levert veel stof tot discussie op. De commissie gaat er in haar toelichting op dit punt van uit dat de effecten van de interventie zullen worden gemeten in een onder-zoek waarin de recidive in de experimentele groep wordt afgezet tegen de recidive in een vergelijkbare controlegroep. Een redelijk standpunt, zo lijkt het op het eerste gezicht, omdat de interventie bewust bedoeld is om de recidivekans in de onderzoekspopulatie te verlagen. We willen dus weten of de interventie daarin een causale rol heeft gespeeld.

In de praktijk levert deze eis echter problemen op. Meewerken aan onderzoek vormt in het algemeen een extra belasting voor de projectme-dewerkers, zij krijgen te maken met een administratieplicht waar zij niet altijd onmiddellijk het nut van inzien. Het houden van een experiment met willekeurige toewijzing van kandidaten aan de behandel- en de controleconditie stuit bij rechters, gevangenisdirecteuren en behandelaars vaak op onoverkomelijke bezwaren. En nog afgezien daarvan zijn de aantallen die nodig zijn voor een randomized controlled trial (RCT) of een quasi-experiment13 in een klein land als Nederland niet altijd even gemakkelijk te halen.

Bij algemene programma’s bestemd voor grote groepen justitiabelen gaat het nog wel, maar bij gerichte interventies op een specifieke doelgroep is het aanbod aan geschikte kandidaten soms zo gering dat men jarenlang moet wachten voordat men een effect kan optekenen dat aan alle statistische eisen voldoet. Bedenk daarbij dat ook het doen van recidiveon-

13 Zie de bijdrage van Frans Leeuw en Jos Vaessen in deze bundel voor een overzicht van verschillende methoden voor effectevaluatie.

Essaybundel Bewezen Beleid in het Onderwijs | 133Ministerie van Onderwijs, Cultuur en Wetenschap

Page 138: Bewezen beleid in het onderwijs

derzoek tijd vergt. Om de eventuele terugval betrouwbaar te meten, geldt een observatieperiode van een zekere minimale duur, meestal is dat twee jaar. Bovendien kan het recidiveonderzoek pas beginnen als de interventie vaste grond onder de voeten heeft gekregen. Bij de implementatie van daderprogramma’s doen zich hoe dan ook kinderziekten en aanlooppro-blemen voor. Zolang de opzet van het programma nog belangrijke bijstellingen ondergaat, heeft het geen zin een recidivemeting te starten. Tegen de tijd dat de meting is afgerond, is het programma immers gewijzigd en heeft men uitkomsten in handen van iets dat niet meer bestaat.

De eis om via (quasi-)experimentele studies de effecten van de dader-programma’s bloot te leggen is begrijpelijk, maar de praktijk van het onderzoek ziet er toch vaak heel anders uit. Wartna en Alberda (in voorbereiding) inventariseerden de Nederlandse en Vlaamse evaluaties waarin gebruik wordt gemaakt van recidivegegevens om het succes van een strafrechtelijke interventie uit te drukken. Bij het beoordelen van het design van de effectstudies gebruikten zij de bekende criteria van de Maryland scientific method scale (SMS) van Sherman (1997) en later Farrington e.a. (2002). Tabel 1 toont de resultaten.

Sinds de jaren zeventig van de vorige eeuw zijn tot in 2008 meer dan honderd van dergelijke recidivestudies verschenen. Geen enkele evaluatie maakte gebruik van random toewijzing (score 5). In Nederland en België zijn, als het gaat om de evaluatie van strafrechtelijke interventies met behulp van recidivecijfers, geen voorbeelden van RCT s bekend. In meer dan 40% van de gevallen ontbrak het helemaal aan een vergelijkingsgroep, alleen de recidive in de behandelde groep werd berekend (score 2). De scores 3 en 4 horen bij het quasi-experimentele onderzoek. Dit is onder-zoek waarbij geen sprake is van random toewijzing maar waarbij wel wordt gewerkt met controlegroepen. Ongeveer een kwart van de studies heeft een SMS-score van 4. Bij studies van niveau 4 wordt een vorm van statistische controle gebruikt om rekening te houden met instroomver-schillen tussen deelnemers en leden van de controlegroep. In slechts twaalf van de 102 gevallen waren de aantallen in de behandel- en de controlegroep groot genoeg voor een ‘power’ van 70% of meer. De power is de zekerheid waarmee een bestaand verschil in de hoogte van de recidive kan worden gevonden. Deze moet uiteraard zo hoog mogelijk zijn, anders loopt men het gevaar dat men op basis van het onderzoek een onjuiste conclusie trekt.

134 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 139: Bewezen beleid in het onderwijs

Tabel 1 Onderzoeksdesign van Nederlandse en Vlaamse evaluaties van strafrechtelijke interventies waarbij gebruik is gemaakt van recidivecijfers; naar jaar van publicatie

Score

Jaar SMS 2 SMS 3 SMS 4 SMS 5 Totaal

≤ 1979 5 3 6 0 14

1980-1989 3 4 2 0 9

1990-1999 23 12 11 0 46

≥ 2000 13 13 8 0 33

Totaal 44 32 27 0 102

Bron: Wartna (2009)

9.3 Slim onderzoekHet is duidelijk is dat het evaluatieonderzoek in de lage landen wel een kwaliteitsimpuls kan gebruiken. De Erkenningscommissie Gedragsinterventies Justitie kan daarvoor zorgen maar dat houdt in dat ze meer moet doen dan aandringen dat er niveau 4 en 5-studies moeten komen. Gelet op de situatie in het land is het praktischer om ook andere opties na te gaan bij het opstellen van een onderzoeksagenda. Onderzoek naar de effecten van strafrechtelijke interventies bestaat uit meer dan een recidivemeting met een goede vergelijkingsgroep en voldoende aantallen. We willen niet alleen vaststellen òf een interventie werkt. We willen ook weten waarom een strafrechtelijke interventie erin slaagt de recidive te beperken en hoe dat in zijn werk gaat. Aan de fase waarin de uiteindelijke outcome wordt gemeten, gaan daarom een plan- en een procesevaluatie vooraf. De recidivemeting brengt de uiteindelijke uitkomsten in kaart, maar om die te kunnen interpreteren is meer kennis nodig: over de opzet van het programma, over de context waarin het wordt uitgevoerd, over de realisatie van de tussenliggende behandeldoelen en over de processen en mechanismen die met de interventie in gang worden gezet om deze doelen te bereiken.

Het denken in termen van een ‘evaluatieketen’, een aaneenschakeling van samenhangende onderzoeksactiviteiten, biedt de gelegenheid om een kwalitatieve methodiek te combineren met een kwantitatieve aanpak. Elk type onderzoek in elke fase van de evaluatie levert aanwijzingen op over de effecten van de interventie. We hoeven niet te wachten op de uitkomsten van een RCT om uitspraken te kunnen doen over effectiviteit. Het doorlopen van de evaluatieketen – of zo men wil: het beklimmen van

Essaybundel Bewezen Beleid in het Onderwijs | 135Ministerie van Onderwijs, Cultuur en Wetenschap

Page 140: Bewezen beleid in het onderwijs

de ‘effectiviteitsladder’14- levert ‘voortschrijdend bewijs’ op. Naarmate het onderzoek vordert worden de aanwijzingen van de werking van de interventie steeds sterker als het goed is. Indien een planevaluatie uitwijst dat een interventie goed is onderbouwd, als een procesevaluatie duidelijk maakt dat de interventie volgens plan wordt uitgevoerd en als uit tussen-tijdse metingen blijkt dat de gestelde behandeldoelen op overtuigende wijze worden gehaald, dan mogen we met toenemend vertrouwen aannemen dat het daderprogramma in zijn opzet slaagt en de recidive onder haar deelnemers verlaagt. Mocht in de mogelijk laatste stap van de evaluatie, de recidivemeting, alsnog blijken dat we ons daarin hebben vergist, dan stellen we onze theorieën over effectieve interventiestrate-gieën bij en zoeken we verder.

De Erkenningscommissie zou er goed aan doen om in haar eis van doorlopende evaluatie rekening te houden met verschillen in het tempo waarin de te onderzoeken interventies zich ontwikkelen. Sommige interventies hebben langer nodig om in het stadium van de productevalu-atie te geraken. De erkenning van een interventie zou niet afhankelijk

14 Veerman (2006) onderscheidt vier treden waarop duidelijk wordt gemaakt of interventies effectief (kunnen) zijn.

College EUR 2 december 2004

De evaluatieketen van daderprogramma’s

UitvoeringOntwerp Implementatie Consolidatie

Evaluatie

Plan evaluatie

tpiti t0 tn trm

Vaststellen programma

Vertrek n-stedeelnemer

Vertrek n-stedeeln. + 2 jaar

Start project

Indienen plan

RapportRapport Rapport RapportVoortgangsrapportages

Veldstudie

KBA ex ante

Reconstructie progr.theorie

Meting crim . factoren

Inventarisatie diensten

output&impact

KBA ex post

Recidivemeting

outcome

Proces evaluatie Product evaluatie

136 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap

Page 141: Bewezen beleid in het onderwijs

moeten zijn van het antwoord op de vraag of men binnen vijf jaar de resultaten van een state of the art-recidiveonderzoek kan overleggen. Veel meer moet het gaan om de vraag hoe de evidence base die de interventie onderstut, kan worden verstevigd met eigen onderzoek.

Met de komst van de Recidivemonitor is het niet moeilijk meer om de terugval van de deelnemers te meten. Bovendien ligt het vergelijkingsma-teriaal op dit punt inmiddels voor het opscheppen. De aandacht bij de evaluatie van daderprogramma’s zou moeten uitgaan naar de tussenlig-gende fasen van het onderzoek. Bereiken we de behandeldoelen die we hebben gesteld? Mikken we op de juiste doelen? Bereiken we de dader-groep die we voor ogen hebben? En: waarom denken we dat we succesvol kunnen zijn? Als er nog veel onzekerheid bestaat rond dit type vragen, wat hebben we dan aan de uitkomst van een vergelijkend recidiveonderzoek?

9.4 Tot slot: het bouwen van een evidence baseGedreven door de hoge recidivecijfers is het Ministerie van Justitie een goede weg ingeslagen. Als er een kans is om de terugval van justitiabelen te beteugelen, moet je eerst werken aan de organisatorische randvoor-waarden die je in de gelegenheid stellen je ambities te verwezenlijken. Geduld is nu nodig om de what works-benadering in Nederland verder gestalte te geven. Daarbij moeten we niet te snel denken dat wij het vraagstuk van de effectiviteit volledig kunnen oplossen door recidiveon-derzoek te doen. Er is behoefte aan onderzoek dat past bij de ontwikke-lingsfase waarin de interventies zich bevinden. En verder moeten we slim gebruik maken van de aanwijzingen die er al zijn. Accumulatie van kennis is daarbij van wezenlijk belang. Wat wij weten van de interventies en wat er bekend is van hun voorgangers, ‘look-a-likes’ en tegenpolen in binnen- en buitenland, moet worden vastgelegd en toegankelijk worden gemaakt voor iedereen die op dit veld werkzaam is.

Op verzoek van een aantal partijen, waaronder de Erkenningscommissie, zal het WODC zich de komende tijd richten op het bijeenplaatsen van het beschikbare bewijs. Er zal dus letterlijk een evidence base worden gebouwd. De kennis over maatregelen ter reductie van de criminaliteit en over straffen en maatregelen opgelegd in een justitieel kader neemt toe, maar is verspreid en niet voor iedereen even gemakkelijk te gebruiken. In internationaal verband houdt de Campbell Collaboration zich bezig met ‘kennistransfer’ op dit terrein. Vergelijkbare instellingen zijn de Cochrane Library, de CRD en EPPI. In Nederland hebben het RIVM en het Nederlands Jeugdinstituut (NJi) beide een databank over effectieve interventies in beheer. Een platform toegespitst op justitiële interventies ontbreekt echter. Het wordt tijd dat ook justitie over een dergelijke voorziening beschikt. Dat kan voorkomen dat het wiel opnieuw wordt uitgevonden.

Essaybundel Bewezen Beleid in het Onderwijs | 137Ministerie van Onderwijs, Cultuur en Wetenschap

Page 142: Bewezen beleid in het onderwijs

Literatuur

Andrews, D.A., & Bonta, J. (2003). The psychology of criminal conduct (3e ed.). Cincinnati, OH:

Anderson Publishing.

Andrews, D.A. (1995). The psychology of criminal conduct and effective treatment. In J.

McGuire (red.), What works. Reducing reoffending. Guidelines from research and practice (35-62).

New York: John Wiley and sons.

Erkenningscommissie (2005). Erkenningscommissie gedragsinterventies Justitie. Den Haag:

Farrington, D.P., Gottfredson, D.C., Sherman, L.W., & Welsh, B.C. (2002). The Maryland

Scientific Methods Scale. In L.W. Sherman, D.P. Farrington, B.C. Welsh & D.L. MacKenzie (red.),

Evidence-based crime prevention (13-21). Londen: Routledge.

Gendreau, P., & Ross, R.R. (1979). Effective correctional treatment. Bibliotherapy for cynics. Crime

and Delinquency, 25, 463-489.

Gendreau, P., & Ross, R.R. (1987). Revivification of rehabilitation: Evidence from the 1980s.

Justice Quarterly, 4, 349-407.

Ministerie van Justitie. VbbV (2007). Veiligheid begint bij Voorkomen: Voortbouwen aan een

veiliger samenleving. Den Haag: Ministerie van Justitie/Ministerie van Binnenlandse Zaken en

Koninkrijksrelaties.

Palmer, T. (1975). Martinson revisited. Journal of Research in Crime and Delinquency, 12(2),

133-152.

Sherman, L.W. (1997) Thinking about crime. In L.W. Sherman, D.C. Gottfredson, D.L. MacKenzie,

J. Eck, P. Reuter & S.D. Bushway (red.), Preventing crime: What works, what doesn´t, what´s

promising. Washington, DC: National Institute of Justice, US Department of Justice.

Veerman, J.W. (2006). Meer zicht op effectieve jeugdzorginterventies via praktijkgestuurd

effectonderzoek. Kind en Adolescent, 27(4), 245-248.

Wartna, B.S.J. (2009) In de oude fout. Over het meten van recidive en het vaststellen van het succes van

strafrechtelijke interventies. Den Haag, Boom Juridische uitgevers.

138 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap