Impact meten: zoektocht naar de Graal? · Impact meten: zoektocht naar de Graal? Ex-post...

Impact m

ete

n, o

p zo

ek n

aar h

et H

eilige

Gra

al? - E

x-po

st impacte

valu

atie

van

vier p

roje

cten

van

de go

uve

rnem

ente

le sa

men

werk

ing - S

ynth

ese

rappo

rt

Impact meten:zoektocht naar de Graal?

Ex-post impactevaluatie van vier projecten van de gouvernementele samenwerking

Syntheserapport

KONINKRIJK BELGIË

Federale Overheidsdienst

Buitenlandse Zaken,Buitenlandse Handel enOntwikkelingssamenwerking

Wettelijk depotnr: 0218/2014/001

KONINKRIJK BELGIË

Federale Overheidsdienst

Buitenlandse Zaken,Buitenlandse Handel en Ontwikkelingssamenwerking

Egmont • Karmelietenstraat 15, B-1000 Brussel • + 32 2 501 38 34 • www.diplomatie.belgium.be • www.dg-d.be • [email protected]

Dienst Bijzondere Evaluatie van de Internationale Samenwerking

Dienst Bijzondere Evaluatie van de Ontwikkelingssamenwerking

Federale Overheidsdienst Buitenlandse Zaken, Buitenlandse Handel en Ontwikkelingssamenwerking

Dienst Bijzondere Evaluatie van de Internationale Samenwerking

Impact meten: zoektocht naar de

Graal?

Ex-post impactevaluatie van vier projecten

van de gouvernementele samenwerking

Syntheseverslag

Oktober 2013

Deze evaluatie werd uitgevoerd door ADE en het CRED, daarbij ondersteund door een begeleidingscomité. De Dienst Bijzondere Evaluatie verzekert de conformiteit van dit evaluatieverslag met het bestek.

De meningen in dit document weerspiegelen de standpunten van de auteurs en niet

noodzakelijk die van de FOD Buitenlandse Zaken, Buitenlandse Handel en Ontwikkelingssamenwerking.

© FOD Buitenlandse Zaken, Buitenlandse Handel en Ontwikkelingssamenwerking

Januari 2014

Dit rapport moet als volgt geciteerd worden:

Dienst Bijzondere Evaluatie (2013), Impact meten: zoektocht naar de Graal? – Ex post impactevaluatie van vier projecten van de gouvernementele samenwerking, FOD Buitenlandse Zaken, Buitenlandse Handel en Ontwikkelingssamenwerking, Brussel.

Grafische vormgeving: Dienst Communicatie FOD

Drukwerk: Drukkerij FOD

Evaluatie nr. S4/2011/04

Wettelijk depot: 0218/2014/001

Dit document is als pdf beschikbaar ook in het Frans en in het Engels op de CD-ROM in

bijlage van de evaluatiesynthese, en is verder verkrijgbaar bij de Dienst Bijzondere Evaluatie of via de website www.diplomatie.belgium.be/nl/Beleid/Ontwikkelingssamenwerking/Evaluatie

http://www.diplomatie.belgium.be/nl/Beleid/Ontwikkelingssamenwerking/Evaluatie

We willen allereerst oprecht alle personen en organisaties bedanken die hebben meegewerkt aan deze studie. Bijzondere woorden van dank gaan naar de leden van het begeleidingscomité en naar de personen die bevraagd werden in het kader van de 4 uitgevoerde ex-post impactevaluaties.

EX-POST IMPACTEVALUATIE – SYNTHESEVERSLAG 5

Inhoudstafel

INHOUDSTAFEL ....................................................................................................... 5

LIJST VAN FIGUREN EN TABELLEN ............................................................................... 7

ACRONIEMEN EN AFKORTINGEN .................................................................................. 9

SAMENVATTING .................................................................................................... 11

1. INLEIDING .................................................................................................. 19

2. METHODOLOGIE ............................................................................................ 21

2.1 Impact, een begrip dat om verduidelijking vraagt ...................................... 21

2.2 Eén evaluatieproces, twee methodes ....................................................... 23

2.3 Kwantitatieve methodes: doelstellingen en uitdagingen .............................. 25

2.4 De praktische organisatie van de evaluatie ............................................... 38

3. VOORNAAMSTE CONCLUSIES OVER HET BEREIKEN VAN DE OUTCOMES EN IMPACT VAN DE DRIE PROJECTEN ....................................................................................... 41

3.1 Evaluatie van een project ter ondersteuning van het technisch en beroepsonderwijs in de DRC (AETP2) ....................................................... 41

3.2 Evaluatie van een project ter verbetering en versterking van de watervoorziening in Senegal (PARPEBA) ................................................... 42

3.3 Evaluatie van de impact voor een project voor kleine en middelgrote waterbouw in Marokko (PMH).................................................................. 43

4. LESSEN UIT HET GEBRUIK VAN GEMENGDE METHODES VOOR DE EVALUATIE VAN OUTCOMES EN IMPACT .................................................................................... 49

4.1 Lessen over het evaluatieproces .............................................................. 49

4.1.1 Een kwantitatief evaluatiekader verrijkt de kwalitatieve analyse ........ 51

4.1.2 Een goede kwalitatieve analyse is onontbeerlijk voor de nauwgezettetoepassing van kwantitatieve methodes ........................ 53

4.1.3 De kwalitatieve analyse, onmisbaar om de resultaten van een project te begrijpen (outcomes/impact) en de impact te beoordelen ............. 56

4.1.4 Een systeem dat alle actoren in acht neemt .................................... 57

4.1.5 Haalbaarheid en relevantie van een ex-post kwantitatieve evaluatie .. 57

4.2 Lessen over het ontwerp, de uitvoering en de monitoring-evaluatie van de projecten .............................................................................................. 65

Inhoudstafel

6 EX-POST IMPACTEVALUATIE - SYNTHESEVERSLAG

4.2.1 Tekortkomingen in het ontwerp/de formulering van de interventies die hun potentiële impact beperken ............................................... 66

4.2.2 Een uitvoering die focust op uitgaven en fysieke realisaties .............. 68

4.2.3 Een ontoereikend monitoring en evaluatiesysteem ........................... 68

5. AANBEVELINGEN ........................................................................................... 71

5.1 Ontwikkel een globale evaluatie strategie met een plaats voor impactevaluatie ..................................................................................... 71

5.1.1 Duidelijke definities van impact, ‘outcome’ en impactevaluatie .......... 73

5.1.2 Impactevaluatie bekend maken ..................................................... 73

5.1.3 Jaarlijks impactevaluaties plannen, rekening houdend met de haalbaarheid en de toegevoegde waarde ervan. .............................. 74

5.1.4 De kwaliteit van de evaluaties waarborgen ..................................... 75

5.2 Naar nauwgezetteen kwaliteitsvolle impactevaluaties ................................. 76

5.2.1 De evaluatie vorm geven tijdens de projectformulering ...................... 76

5.2.2 Opeenvolgende stappen en belangrijke elementen voor een rigoureuze ex-post impactevaluatie................................................ 77

5.3 “Management towards outcomes and impact” voor realistische projecten die streven naar tastbare resultaten ........................................................ 81

5.3.1 Impactevaluatie integreren vanaf het projectontwerp en de procedure voor projectvalidatie versterken om onrealistische projecten te vermijden ................................................................................... 82

5.3.2 Een echt resultaatgericht beheer opzetten (‘outputs’ maar ook outcomes en impact) ................................................................... 82

6. BIBLIOGRAFIE .............................................................................................. 85

BIJLAGEN ............................................................................................................ 87

BIJLAGE 1: RAPPORT VAN DE EX-POST IMPACTEVALUATIE VAN HET PROJECT AETP2 IN DE DRC

BIJLAGE 2: RAPPORT VAN DE EX-POST IMPACTEVALUATIE VAN HET PROJECT PARPEBA IN SENEGAL

BIJLAGE 3: RAPPORT VAN DE EX-POST IMPACTEVALUATIE VAN HET PROJECT PMH IN MAROKKO


Lijst van figuren en tabellen

LIJST VAN FIGUREN

FIGUUR 1: TWEE BENADERINGEN VAN DE IMPACTEVALUATIE .................................................. 22

FIGUUR 2: VERSCHILLENDE DEFINITIES VAN DE CONCEPTEN UIT HET LOGISCH KADER .................... 22

FIGUUR 3: SCHEMATISCHE WEERGAVE VAN DE TECHNIEK VAN HET DUBBELE VERSCHIL ................... 35

FIGUUR 4: SLEUTELFASES IN HET EVALUATIEPROCES MET GEMENGDE METHODES .......................... 38

LIJST VAN TABELLEN

TABEL 1: BEKNOPTE WEERGAVE VAN DE 3 EVALUATIERAPPORTEN .......................................... 45

TABEL 2: VOORWAARDEN VOOR HET GEBRUIK VAN KWANTITATIEVE EVALUATIES MET EEN QUASI-EXPERIMENTEEL ONTWERP, UITGEWERKT VOOR OF NA DE INTERVENTIE. ............... 63


Acroniemen en afkortingen

3ie International initiative for impact evaluation

ADE Aide à la décision économique

AETP2 Project ter ondersteuning van het technisch en beroepsonderwijs in de DRC

AfD Frans ontwikkelingsagentschap

ASUFOR Vereniging van waterputgebruikers

AUEA Vereniging van gebruikers van irrigatiewater

BTC Belgische Technische Coöperatie

CRED Onderzoekscentrum voor ontwikkelingseconomie

DAC Directie voor ontwikkelingssamenwerking (van de OESO)

DBE Dienst Bijzondere Evaluatie

DGD Directie-Generaal Ontwikkelingssamenwerking en Humanitaire Hulp

DRC Democratische Republiek Congo

EUDN European Development Network

IEG Independent Evaluation Group (World Bank)

IGA Inkomstengenererende activiteit

J-Pal Abdoul Latif Jamel Poverty action lab

LK Logisch kader

LRSP Referentielaboratorium voor openbare gezondheidszorg

MDG Millennium-ontwikkelingsdoelstelling

ME Monitoring en evaluatie

MIT Massachusetts Institute of Technology

MM Mixed Methods (gemengde methodes)

OESO Organisatie voor Economische Samenwerking en Ontwikkeling

PARPEBA Project ter verbetering en versterking van de watervoorziening van het aardnotenbekken in Senegal

PMH Project voor kleine en middelgrote waterbouw in de Marokkaanse provincie Tiznit

RCT Randomized Control Trial

TBO Technisch en Beroepsonderwijs


Samenvatting

Inleiding

De ex-post impactevaluatie van vier projecten van de gouvernementele samenwerking is een opdracht van de Dienst Bijzondere Evaluatie (DBE) van de Federale Overheidsdienst Buitenlandse Zaken, Buitenlandse Handel en Ontwikkelingssamenwerking. Ze werd uitgevoerd door deskundigen van het studiebureau ADE, gespecialiseerd in evaluatie, en door onderzoekers van het onderzoekscentrum voor onderzoek naar ontwikkelingseconomie (CRED) van de universiteit van Namen, gespecialiseerd in de toepassing van kwantitatieve evaluatiemethodes. De evaluatie betrof vier projecten in vier landen en uit verschillende sectoren.

Het gaat om de eerste impactevaluaties in de strikte zin van het woord aangevraagd door DBE, waarbij het evaluatieproces kwalitatieve en kwantitatieve methodes combineert om de outcomes en impact van projecten te beoordelen.

Deze evaluatie is tegelijk summatief en formatief. Enerzijds vat dit rapport de lessen

samen over de gerealiseerde outcomes en impact van de geëvalueerde projecten. Anderzijds trekt het lessen uit de doeltreffendheid van de aangewende evaluatiemethodes. Het zet ook aan tot een denkoefening over de plaats die impactevaluatie moet krijgen in de Belgische bilaterale samenwerking en stelt een aantal methodologische pistes voor om dergelijke evaluaties rigoureuzer uit te voeren.

De noodzaak om de concepten te verduidelijken

Een van de eerste uitdagingen van de evaluatie was om het begrip ‘impact’ te herinterpreteren. De OESO stelt dat elke impact een tijdsdimensie heeft en definieert het begrip dan ook als “de positieve of negatieve effecten op lange termijn die geproduceerd zijn door een ontwikkelingsinterventie, direct of indirect, bedoeld of onbedoeld”. In de aanpak gebaseerd op de interventielogica wordt de impact gedefinieerd als het laatste element van een oorzakelijke keten, die start bij de activiteiten en uitmondt in de impact. Binnen de gemeenschap die aan “impact evaluation” doet, zoals de Wereldbank en 3ie (International Initiative for Impact Evaluation), wordt het begrip impact gedefinieerd als “de effecten op de begunstigden, toe te schrijven aan de gevoerde interventie”. Deze laatste definitie van impact refereert dus aan de outcomes zoals die worden uiteengezet in het logisch kader van een project.

Deze evaluatie stelt voor om impact te definiëren als alle effecten die het project op

een globaal niveau met zich meebrengt (zonder te verwijzen naar het tijdsaspect), en outcomes als de effecten op de directe begunstigden.

Dat onderscheid tussen impact en outcomes is belangrijk, zeker wanneer een evaluatie uitgaat van zowel kwalitatieve als kwantitatieve analysemethodes. Kwantitatieve methodes meten in feite de effecten (outcomes) op de begunstigden, met het doel om oorzakelijke verbanden te leggen tussen de interventie en de gemeten resultaten. Om de resultaten die toegeschreven kunnen worden aan het project (attributie) te meten en aan te tonen, vereisen kwantitatieve methodes betrouwbare en voldoende gegevens voor relevante outcome-indicatoren die de situatie voor (de ‘baseline’) en na de interventie weerspiegelen.

Samenvatting


Voorts is het onontbeerlijk die gegevens te verzamelen bij enerzijds een steekproef van de projectpopulatie (de behandelde groep of doelgroep) en anderzijds bij een steekproef van een populatie die in verschillende opzichten gelijk is aan de doelgroep vóór de interventie, maar die geen begunstigde is van de interventie (ook wel de ‘counterfactual’ of controlegroep genoemd).1 Kwantitatieve methodes spreken zich doorgaans niet uit over de impact, gedefinieerd als de resultaten die een project voortbrengt op globaal niveau. Ze beperken zich eerder tot de beoordeling van outcomes, waarvan de vaststellingen soms veralgemeend of geëxtrapoleerd kunnen worden om er een impactmeting uit af te leiden.

Kwalitatieve methodes daarentegen trachten een onderbouwd oordeel te vormen over het bereiken van outcomes en impact van de projecten. Op basis van een documentstudie, gesprekken op verschillende niveaus en observaties op het terrein onderzoeken ze of in de verschillende stadia van de interventielogica is voldaan aan de voorwaarden uit het logisch kader om de outcomes en impact te bereiken.

Een leerproces

Deze studie onderscheidt zich door haar pilootrol en iteratieve aspect.

Piloot, omdat de vier uitgevoerde evaluaties geen klassieke projectevaluaties zijn: ze hebben als hoofddoel om de outcomes en de ex-post impact van de projecten te beoordelen op basis van een gemengde methodologie. De deskundigen van het studiebureau en die van het academisch onderzoekscentrum, met andere woorden experts uit verschillende werelden en gewend aan analysetechnieken die eigen zijn aan hun vak, hebben aanzienlijke inspanningen geleverd om hun vaststellingen te bundelen en op elkaar af te stemmen. Die uitwisseling tussen de deskundigen onderling en met DBE en het begeleidingscomité hebben het wederzijds leerproces bevorderd. Dat leidde tot een kwaliteitsvol evaluatieverslag per project en tot dit syntheseverslag. Iteratief, omdat de vier projecten volgens die methodologische benadering geëvalueerd zijn in verschillende landen en sectoren om er zo veel mogelijk lessen uit te trekken, zowel op summatief als op formatief vlak. Daar voegen we nog aan toe dat ook de beschikbaarheid en de flexibiliteit van de opdrachtgever DBE heeft bijgedragen tot de goede afloop van het proces, dat nog onvolmaakt is en moet worden vervolgd gezien de inhoudelijke discussie die dit soort evaluaties aanwakkert.

Een belangrijk kenmerk is het ex-post karakter van deze evaluaties die uitgevoerd zijn

op projecten die al langer dan vier jaar zijn afgerond. Dat maakt het mogelijk om de effecten van de projecten op de begunstigden en het behalen van de impact met een zekere afstand te benaderen. De beperkte aandacht voor outcomes en impact in het monitoring en evaluatiesysteem van de projecten, én de moeilijkheden om sommige gegevens te verzamelen of om bepaalde personen te spreken jaren na de interventie, stelden het team voor een aantal hindernissen die de strikte toepassing van kwantitatieve methodes hebben belemmerd.

Ondanks die obstakels zijn de evaluatoren er toch in geslaagd om bepaalde kwantitatieve instrumenten te gebruiken. In twee van de vier projecten kon een quasi-experimentele benadering van het evaluatieproces ook worden uitgevoerd. Zo was het mogelijk om achteraf een geloofwaardige controlegroep samen te stellen en ‘baseline’-gegevens te verzamelen bij een steekproef van begunstigden en bij een controlegroep, via secundaire gegevens en/of gegevens die een beroep deden op het geheugen van de respondenten. Gelet op de beperkingen van de verzamelde gegevens en de soms twijfelachtige geloofwaardigheid van de controlegroep, konden met de econometrische instrumenten slechts een minderheid van de outcomes aan een bepaald project

1 Kwantitatieve methodes van experimentele aard wijzen personen willekeurig toe aan een groep van

begunstigden (de doelgroep) en aan een groep van niet-begunstigden (de controlegroep) via willekeurige

steekproeven, een methode die ook wel bekend is onder haar Engelse benaming: Randomized Control Trial

(RCT).

Samenvatting


toegeschreven worden. Voor alle geëvalueerde projecten is er daarentegen een onderbouwd oordeel over het bereiken van de outcomes die niet kwantitatief behandeld konden worden, alsook over het bereiken van de impact.

We merken ook op dat de context gewijzigd is sinds de uitvoering van de vier projecten. Tegenwoordig worden er inspanningen gedaan (in het bijzonder door de BTC) om meer te focussen op monitoring en evaluatie van outcomes en impact. Die inspanningen moeten weliswaar nog naar de praktijk worden vertaald en leiden tot concrete maatregelen en veranderingen op het terrein. Het is niet zeker dat het nu eenvoudiger is om kwantitatieve methodes toe te passen op basis van de gegevens vergaard via het bestaand monitoring en evaluatiesysteem.

De evaluaties van drie van de vier projecten staan in een afzonderlijk rapport bijgevoegd als bijlage. Het rapport over de evaluatie van het laboratorium voor publieke gezondheidszorg in Rwanda is niet beschikbaar, omdat die evaluatie niet kon worden voltooid. Het team verkreeg immers niet alle vereiste toelatingen van de Minister van Volksgezondheid om de gewenste gegevens te verzamelen en te analyseren. Bijgevolg presenteert dit rapport de voornaamste conclusies in termen van het behalen van outcomes en impact van de overige drie projecten. De ‘lessons learned’ met betrekking tot de haalbaarheid en de toegevoegde waarde van een evaluatie gefocust op outcomes en impact zijn daarentegen geïnspireerd op de vierevaluatietrajecten.

Lessen over het bereiken van de outcomes en impact van de 4 geëvalueerde

projecten

Project ter ondersteuning van het technisch en beroepsonderwijs in de Democratische Republiek Congo (AETP2).

De gekozen methodologie voor deze evaluatie is een casestudy met controlegroep in de stad Kisangani. Deze studie is gebaseerd op een strikte kwalitatieve analyse van de vaststellingen op het terrein, de informatie uit gesprekken met individuen en groepen in begunstigde scholen en controlescholen en de gegevens verzameld bij sleutelpersonen verbonden aan de sector en/of aan het project in België en in de DRC. Er werden ook diepteinterviews gevoerd met de schooldirecties, leraars, leerlingen en afgestudeerde oud-leerlingen. Op basis van de vaststellingen van de verkennende opdracht bleek het verzamelen van primaire gegevens weinig relevant, en gezien het gebrek aan bruikbare kwantitatieve gegevens voor dit project moest het gebruik van kwantitatieve methodes worden opgegeven.

De oefening in de scholen in Kisangini toont aan dat het project geen enkele

significante invloed heeft gehad op de kwaliteit van het onderwijs, de toename van de bezettingsgraad en het zelffinancieringsvermogen van de scholen, noch op de inzetbaarheid van jonggediplomeerden. Die mislukking is deels te verklaren door het beperkt gebruik van de outputs, maar vooral door de hachelijke situatie waarin het technisch en beroepsonderwijs in het land zich bevindt. Sinds tientallen jaren verkeert de infrastructuur in een lamentabele staat, die nog verergerd is door de gewelddadige conflicten die het land verscheurd hebben. Bovendien is er op nationaal vlak geen beleid en ook geen toewijzing van financiële middelen (de scholen worden vooral gefinancierd door de ouders en hun kinderen). Het gebrek aan incentivesystemen binnen de instellingen en het bestaan van averechtse stimuli beperken de doelmatigheid van elke actie gericht op het verbeteren van de kwaliteit van het onderwijs in de DRC.

Gegeven de omstandigheden die bekend waren bij de formulering van het project en die voor het merendeel nog steeds actueel zijn, zou dit project niet hebben mogen plaatsvinden of anders moeten zijn opgevat.

Project ter verbetering en versterking van de watervoorziening van het aardnotenbekken in Senegal (PARPEBA).

Bij gebrek aan een bruikbare ‘baseline’ werd er gekozen voor een quasi-experimenteel

ontwerp om primaire gegevens te verzamelen bij begunstigden die toegang hebben tot boorputtenen bij huishoudens die gelijkenissen vertonen met de begunstigden maar die

Samenvatting


niet over een boorput beschikken in hun dorp. Zo was het mogelijk om bepaalde outcome-indicatoren te vergelijken tussen twee groepen (de doelgroep en de controlegroep) en tussen twee periodes (voor en na het project), aangezien de reconstructie van de referentiesituatie op basis van de gegevens verzameld bij de gezinnen als geloofwaardig mocht worden beschouwd.

De evaluatie concludeert dat de bevoorrading met kraantjeswater uit boorputten voor een aanzienlijke tijden energiebesparing heeft gezorgd, in het bijzonder voor de begunstigden met een privékraan. De gewonnen tijd en energie hadden blijkbaar geen effect op de verbruikte hoeveelheid water per dag en per persoon. Die tijdsbesparing blijkt wel de aanzet te zijn geweest tot kleine handelsactiviteiten, in het bijzonder tijdens het droge seizoen, en tot participatie in lokale organisaties en verenigingen. Bovendien blijken de gebruikers bereid te zijn te betalen voor het water uit boorputten.

Andere resultaten van de nieuwe waterputten zijn het verbeterde welzijn en de sterkere sociale cohesie (minder conflicten tussen vrouwen, die een groot deel van de waterbevoorrading verzorgen). Er moet ook dieper worden ingegaan op het effect van het project op de opvoeding, want tal van factoren die losstaan van het project kunnen de vastgestelde evolutie verklaren.

Niettemin blijft de waterkwaliteit zowel op bacteriologisch als op chemisch

niveau een actueel probleem. Meer dan twee derde van de sites die werden (her)aangelegd tijdens PARPEBA hebben te kampen met schadelijke fluor- en zoutconcentraties. Bovendien kan het water tussen de waterput en het uiteindelijke gebruik op tal van manieren besmet raken. De plaatselijke bevolking wordt echter niet gesensibiliseerd rond de kwaliteit van het water. Die vaststelling noopt tot dringende bijsturingsmaatregelen, om te vermijden dat vervuild water op korte termijn ernstige gezondheidsproblemen veroorzaakt onder de plattelandsbevolking.

Project voor kleine en middelgrote waterbouw in de Marokkaanse provincie Tiznit (PMH).

Quasi-experimenteel onderzoek heeft het mogelijk gemaakt om een doelgroep (landbouwers die profiteren van de heraanleg van het traditionele irrigatiesysteem) te vergelijken met een controlegroep (landbouwers die niet van een dergelijke heraanleg konden profiteren) op twee momenten (voor en na het project) voor bepaalde outcome-indicatoren, dankzij informatie verzameld uit enquêtes bij huishoudens.

Uit de evaluatie blijkt dat door het herstel van het vloedirrigatiesysteem het project

een positieve invloed had op de verbouwde oppervlakte in perioden van waterschaarste, terwijl er geen enkele verbetering werd vastgesteld bij hoogwater. Vergeleken met de niet-begunstigde landbouwers halen de projectbegunstigden nu een groter deel van hun inkomsten uit de landbouw, niet enkel in tijden van droogte, maar ook op momenten dat er water in overvloed is. Die laatste conclusie moet met de nodige voorzichtigheid worden benaderd, omdat ze gebaseerd is op een inkomensbeoordeling door de respondenten zelf. Voorts heeft het project bijgedragen tot de spontane uitbreiding van het irrigatienet, vooral in stroomopwaartse gebieden. Het heeft er bovendien voor gezorgd dat de grondwaterlagen weer konden worden aangevuld.

En toch lijkt het project noch een diversificatie van de gewassen, noch veranderingen in de landbouwpraktijken te hebben teweeggebracht. Het is er tegen de verwachtingen in dus niet in geslaagd om de plattelandsvlucht een halt toe te roepen. Gezien de willekeurige aard van het hoog water moet dit project gedurende een aantal opeenvolgende jaren meer in detail worden opgevolgd en geëvalueerd op het vlak van de gewasopbrengsten van een groep begunstigden en van een controlegroep die nog geloofwaardiger is. Want ondanks zijn zwakke punten is dit project van groot belang voor de regio.

Samenvatting


Lessen over de methodologische aanpak

Deze studie bevestigt de recente literatuur rond impactevaluatie: de combinatie van kwalitatieve en kwantitatieve methodes binnen hetzelfde evaluatieproces is de beste manier om tot kwaliteitsvolle impactevaluaties te komen. In het specifieke geval van deze evaluatie werd het evaluatieproces gebaseerd op de interventielogica van het project. Ze bekrachtigt dus de “theory based evaluation”. Die aanpak gebruikt enerzijds kwantitatieve methodes om te trachten, binnen hun toepassingsgrenzen, de outcomes te meten en hun bijdrage tot het project aan te tonen, en anderzijds kwalitatieve methodes om een onderbouwd oordeel te vormen over het bereiken van niet enkel de impact, maar ook van de outcomes, waarvoor het gebruik van kwantitatieve methodes technisch gezien niet mogelijk is. Een strikte kwalitatieve analyse van de bredere context maakt het ook mogelijk om een inzicht te krijgen in de mechanismen en factoren die de resultaten van een project hebben bevorderd of belemmerd. Een evaluatieproces dat kwantitatieve en kwalitatieve instrumenten combineert, maakt het dus mogelijk om tegelijk te bepalen “wat gewerkt heeft” en “wat niet gewerkt heeft” en om te begrijpen waarom en hoe de resultaten al dan niet bereikt zijn.

Hoewel het nuttig is om de methodes te koppelen, voldeden niet alle vier de projecten aan de vereiste voorwaarden om een optimaal gebruik van kwantitatieve methodes te garanderen. Daardoor hebben de evaluatoren zich dus moeten voegen naar de limieten opgelegd door het gebrek aan ‘baseline’, aan bruikbare monitoringgegevens en aan een welafgelijnde controlegroep. Niettemin, zelfs al werd slechts een beperkt gebruik gemaakt van kwantitatieve methodes, uit de oefening is toch gebleken dat die methodes elkaar onderling verrijken.

Allereerst, en ondanks de beperkingen, konden kwantitatieve analyse-instrumenten

gebruikt worden om bepaalde outcomes te kwantificeren en hun attributie aan te tonen. Vervolgens leverde het kader opgezet om gegevens te verzamelen voor de toepassing van kwantitatieve methodes een groter aantal kwalitatieve gegevens op, dankzij de informatie vergaard tijdens verkennende missies, de primaire gegevens die via rondvragingen bij de gezinnen verzameld werden en de relatief lange aanwezigheid op het terrein. Die gegevens zijn bruikbaar om het bereiken van de projectresultaten (outcomes en impact) te onderbouwen, wat de kwaliteitsanalyse nauwkeuriger maakt. Een goede kwalitatieve analyse blijkt trouwens onontbeerlijk voor de strikte toepassing van kwantitatieve methodes. Ze helpt om de methodologische keuzes te onderbouwen en om de resultaten uit statistische en econometrische instrumenten te interpreteren. Daarnaast spreekt ze zich uit over het behalen van de impact, terwijl een kwantitatieve analyse zich beperkt tot het bereiken van de outcomes.

Door gemengde methodes te gebruiken kunnen ook alle projectactoren mee betrokken worden: het kwantitatieve kader zorgt voor diepteinterviews met zowel begunstigden als niet-begunstigden. Het kwalitatieve luik maakt het mogelijk om de rol van alle actoren betrokken bij een interventie nog preciezer te beoordelen.

Er bestaan evenwel een aantal minimale vereisten om de relevantie van het gebruik van kwantitatieve methodes te garanderen. Idealiter vergaart het project via zijn monitoring en evaluatiesysteem voldoende betrouwbare gegevens bij de doel- en de controlegroep, zowel voor als na de interventie. In alle andere gevallen zal de haalbaarheid van een kwantitatieve analyse afhangen van het afbakenen van een geloofwaardige controlegroep, de mogelijkheid om gegevens van voor het project betrouwbaar te reconstrueren, de steun van de partner en de beschikbare middelen. We mogen immers het politieke aspect van een mogelijk negatieve weergave van de projectresultaten niet uit het oog verliezen. Het kan gebeuren dat lokale overheden door de striktheid van de kwantitatieve analyses weigeren om de evaluatie te steunen. De toestemming van de partner is dus onontbeerlijk om een kwantitatief evaluatiekader op te zetten.

Dan is er nog de kwestie van de ‘value for money’ in de uitvoering van een dergelijk

proces van verzameling en kwantitatieve analyse van gegevens. Als uit een strikte kwalitatieve analyse blijkt dat het weinig waarschijnlijk is om projectresultaten bloot te

Samenvatting


leggen, dan moet ook het kwantitatieve aspect ter discussie worden gesteld, aangezien een kwantitatieve analyse dan hoogstwaarschijnlijk niets extra zal opleveren. Is daarentegen de kans dat er wel resultaten worden ontdekt groter, dan kan een dergelijk kader helpen om de effecten op de begunstigden te kwantificeren en oorzakelijke verbanden met de interventie aan te tonen, iets waar een kwalitatieve analyse niet toe in staat is. In elk geval kan de kosten-batenanalyse van een impactevaluatie op basis van kwantitatieve instrumenten enkel positief zijn indien de Belgische autoriteiten bevoegd voor ontwikkelingssamenwerking de toegevoegde waarde van een kwantitatieve analyse van de outcomes erkennen.

Trouwens, om het kostenplaatje van een kwantitatieve analyse te drukken, zijn er een aantal pistes mogelijk afhankelijk van de evaluatiedoelstellingen: slechts één bepaald aspect bestuderen, zich richten op een bepaald geografisch gebied en/of uitgaan van betrouwbare secundaire gegevens. Maar het is een zeer gewaagde strategie om geen kwantitatieve evaluatie van de outcomes uit te voeren onder het voorwendsel dat de uitgevoerde projecten kopieën zijn van projecten waarvan het succes reeds werd geëvalueerd en aangetoond in andere studies. De externe geldigheid van de evaluaties wordt immers vaak in vraag gesteld. Bovendien vormen de invloed van de context en van het interventiemechanisme twee sleutelelementen in het succes van een project.

Lessen op het vlak van ontwerp/formulering, uitvoering en monitoring-evaluatie van de projecten

De evaluaties identificeerden een aantal tekortkomingen op het vlak van ontwerp,

uitvoering en monitoring en evaluatie van de projecten. De interventielogica van de geëvalueerde projecten is zwak. De doelstellingen sluiten niet aan op de activiteiten en de aangewende middelen. Ze zijn weinig precies en slecht afgelijnd. De algemene doelstelling is vaak onrealistisch gezien de lokale context van de interventie. De vastgestelde zwaktes zijn in die mate verontrustend dat ze erop wijzen dat het bereiken van de outcomes en van de impact geen prioriteit is in de geëvalueerde projecten. Dergelijke onvolkomenheden in het projectontwerp tonen ook aan dat het logisch kader wordt gereduceerd tot niet meer dan een formaliteit. Een diepgaande analyse van de interventielogica zou dan ook zonder twijfel leiden tot een herziening van de vier geëvalueerde projecten. Dan rijst de vraag naar de relevantie in de projectkeuze.

En ook de vraag of de projecten wel afgestemd zijn op het nationale beleid is pertinent wanneer dat beleid op bepaalde vlakken niet echt gunstig lijkt voor de verwachte outcomes en impact. Meer fundamenteel wordt de onderhandelingscapaciteit met de partner ter discussie gesteld, samen met het vermogen van DGD en BTC om een weinig realistisch project te herzien.

Tijdens de uitvoering wordt vaak gefocust op uitgaven en fysieke realisaties (outputs). Een outputgericht beheer gaat ten koste van een beheer dat zich toespitst op outcomes en impact. Die beheermethode wijst zonder twijfel op een gebrek aan incentives om de zaken anders aan te pakken binnen het Belgische systeem van bilaterale hulp.

Het monitoring en evaluatiesysteem van de vier projecten is onvoldoende en niet

aangepast. Zelfs al zijn ze bij het projectontwerp doordacht, toch slagen de instrumenten voor monitoring en evaluatie van de vier projecten er in de praktijk niet in om outcomes en impact te monitoren of te evalueren. Al worden er indicatoren voor de outcomes bepaald in de formulering van het monitoring en evaluatiesysteem, ze worden meestal niet getoetst en als er toch gegevens voorhanden zijn, dan zijn ze kwantitatief niet bruikbaar.

Aanbevelingen

Er wordt aanbevolen om evaluaties van outcomes en impact te stimuleren, omdat ze op gepaste wijze kunnen inspelen op de volgende doelstellingen: het afleggen van verantwoording, het ondersteunen van de besluitvorming en het verzamelen en het verspreiden van kennis (de getrokken lessen delen). Daarenboven kunnen de vaststellingen van een rigoureuze evaluatie van nut zijn voor verschillende actoren: de

Samenvatting


donoren, de partner, de projectuitvoerders en finaal ook voor de begunstigden. De beslissing om impactevaluaties te voeren moet kaderen in de bredere context van de hulpcyclus, rekening houdend met de toekomstige uitdagingen van de Belgische ontwikkelingssamenwerking. Een evaluatiestrategie moet ook rekening houden met de kosten-batenverhouding, die laag zal blijven als evaluatie geen belangrijkere plaats krijgt binnen de Belgische ontwikkelingssamenwerking.

De evaluatie van outcomes en impact en de integratie ervan in een globale evaluatiestrategie moet gebeuren in functie van verschillende elementen. Allereerst moeten de begrippen ‘outcome’ en impact duidelijk worden gedefinieerd, toch op zijn minst op het niveau van de verschillende actoren van de Belgische ontwikkelingssamenwerking. Vervolgens moet dat evaluatietype ook ingeburgerd raken bij de partners, de verantwoordelijken belast met het ontwerp en de formulering en de projectuitvoerders, zodat het geïntegreerd kan worden in het beheer van de verschillende projecten. Het is zeker nuttig om jaarlijks evaluaties te plannenvan de outcomes en de impact van interventies van de Belgische ontwikkelingssamenwerking, weliswaar pas na een inschatting van de relevantie en de toegevoegde waarde ervan en na een haalbaarheidsstudie voor elke evaluatie.

Het is raadzaam om evaluaties uit te voeren die kwantitatieve en kwalitatieve methodes combineren binnen eenzelfde evaluatieproces. Daarvoor is tijd nodig en moeten voldoende middelen worden vrijgemaakt om een team uit te bouwen dat zowel de kwalitatieve als de kwantitatieve analysetools beheerst, zodat de kwaliteit van de evaluaties gewaarborgd kan worden. Er zijn dus middelen nodig om ze met de nodige nauwgezetheid uit te voeren en ze goed af te stemmen op de realiteit van het terrein.

Daarnaast wordt ook aanbevolen om het evaluatiekader van outcomes en impact

uit te werken tijdens de ontwerpfase van elk project. Dat houdt in dat het ontwerp, de uitvoering en de monitoring en evaluatie van de projecten bijgestuurd moet wordenom aan outcomes en impact evenveel prioriteit te geven als aan de ‘outputs’.

Door de evaluatie vorm te geven zodra de eerste krijtlijnen van een project worden getrokken, kan het logisch kader gebruikt worden als een volwaardig hulpmiddel voor formulering, resultaatgericht beheer en evaluatie. Op die manier kan er meer rekening gehouden worden met de oorzakelijke verbanden tussen de activiteiten, de aangewende middelen en de vastgelegde doelstellingen en sluiten risicoanalyses beter aan bij de werkelijkheid. Dat zou onder andere tot gevolg moeten hebben dat onrealistische projecten niet meer door de selectie geraken. Om een gedetailleerd evaluatiekader uit te werken bij de opstart van een interventie moeten er eerst relevante indicatoren worden gedefinieerd;daarna moet beschreven worden waar en hoe de gegevens voor de meting kunnen verzameld worden, zowel voor, tijdens als na de interventie en tenslotte welke soort analyse op de interventie zaal toegepast worden.Als dat werk naar behoren gebeurt binnen het project, dan zorgt het bij de evaluatie van outcomes en impact voor heel wat tijden geldwinst, waardoor ook de kwaliteit van de evaluaties er met rasse schreden op vooruit zal gaan.

En om de outcomes en de impact van een project te kunnen evalueren aan de hand van een gemengde methodologie is het nuttig om de uitvoering van het project af te stemmen op het evaluatiekader. Een sequentiële uitvoering (‘pipeline process’) valt dan ook te overwegen om het gebruik van een controlegroep en bijgevolg de toepassing van kwantitatieve methodes zo betaalbaar en ethisch mogelijk te houden.

Deze aanbevelingen zijn enkel uitvoerbaar indien alle actoren betrokken bij de uitvoering

van een ontwikkelingsproject de juiste incentives krijgen, zowel in het donorland als in het ontvangende land.


1. Inleiding

Dit rapport geeft een overzicht van de geleerde lessen van de ex-post impactevaluatie van vier projecten van de gouvernementele samenwerking. Die evaluaties werden aangevraagd door de Dienst Bijzondere Evaluatie (DBE) van de FOD Buitenlandse Zaken, Buitenlandse Handel en Ontwikkelingssamenwerking.

Deze evaluatie werd uitgevoerd in vier verschillende landen en sectoren door deskundigen van het studiebureau ADE, gespecialiseerd in evaluatie, en door onderzoekers van de universiteit van Namen (Onderzoekscentrum voor ontwikkelingseconomie - CRED). Uit die samenwerking tussen enerzijds een consultancybureau en anderzijds een academisch onderzoekscentrum vloeide een originele methodologische aanpak voort die gebaseerd was op de interventielogica en zowel kwalitatieve als kwantitatieve methodes gebruikte. De geleerde lessen hebben betrekking op het bereiken van outcomes en impact van de bestudeerde projecten, de gebruikte evaluatiemethodes en de haalbaarheid en toegevoegde waarde van een ‘outcome’- en impactevaluatie. Dit rapport geeft ook de aanzet tot een denkoefening rond de plaats die impactevaluatie zou kunnen innemen in de sector van de Belgische bilaterale hulp en stelt daarnaast een reeks methodologische pistes voor om dergelijke evaluaties uit te voeren.

De lessen worden geïllustreerd aan de hand van voorbeelden uit de evaluatie van vier interventies van de Belgische gouvernementele samenwerking: een project rond de toegang tot drinkwater in Senegal (PARPEBA, 2003-2008), een project voor kleine en middelgrote waterbouw in Marokko (PMH, 2004-2007), een project ter ondersteuning van het technisch en beroepsonderwijs in de DRC (AETP2, 2005-2008) en tot slot een project om de uitbouw te ondersteunen van een referentielaboratorium voor volksgezondheid in Rwanda (LRSP, 2003-2008).

Daar moeten we meteen aan toevoegen dat de evaluatie van het project in Rwanda niet

kon worden voltooid, omdat geen toestemming verkregen werd om bepaalde onmisbare analysegegevens te verzamelen. De vereiste toelatingen van het Ministerie van Volksgezondheid om die gegevens te verzamelen en te gebruiken bleven uit, net als de antwoorden op de toelatingsaanvragen. DBE heeft, in overleg met de consultants, dan ook besloten om het rapport niet te publiceren.

Dit zijn de eerste impactevaluaties (‘impact evaluation’) in de strikte zin van het woord die door DBE zijn gevoerd. Het gaat bovendien om ex-post impactevaluaties. Het doel van die evaluaties is om na te gaan of de projecten in kwestie, die al een aantal jaar zijn afgerond, hun doelstellingen hebben bereikt (in termen van outcomes en impact) en om een inzicht te krijgen in de mechanismen die tot successen of mislukkingen hebben geleid. Ondanks de onvermijdelijke veranderingen in de werking van de Belgische bilaterale hulp sinds het ontwerp en de uitvoering van de projecten - die al sinds 2007 of 2008 zijn afgerond -, blijven de conclusies voor het overgrote deel toch relevant. Ze worden niettemin genuanceerd waar nodig.

Dit rapport is als volgt opgebouwd: Deel 2 geeft eerst de discussie weer betreffende de definitie van de term ‘impact’ en geeft uitleg bij de kwalitatieve en kwantitatieve methodes binnen de huidige context van impactevaluatie. Vervolgens komen de doelstellingen en de uitdagingen van de kwantitatieve methodes aan bod. Tot slot vat dit deel de algemene methodologische aanpak samen die voor de vier evaluaties werd toegepast. Deel 3 bundelt de geleerde lessen over het bereiken van outcomes en impact


voor drie van de vier geëvalueerde projecten (zoals reeds gezegd kon de evaluatie in Rwanda niet worden voltooid); de evaluatierapporten zijn bijgevoegd als aparte bijlagen. Deel 4 trekt lessen uit het evaluatieproces, gebaseerd op een combinatie van kwalitatieve en kwantitatieve methodes om outcomes en impact van projecten te beoordelen. Uit dat proces kunnen ook de nodige lessen worden getrokken met betrekking tot het ontwerp, uitvoering en monitoring van de projecten. Deel 5 presenteert de aanbevelingen.


2. Methodologie

2.1 Impact, een begrip dat om verduidelijking vraagt

Het gebrek aan een eenduidige definitie van het begrip impact zorgt voor misverstand en verwarring, wat een serene discussie rond impactevaluatie en de uitvoering ervan niet ten goede komt.

Binnen het specifieke kader van de ontwikkelingssamenwerking en de impactevaluatie

bestaan drie definities naast elkaar:

(1) De OESO-definitie van ‘impact’ verwijst naar het tijdsaspect van de resultaten van

een interventie. In de verklarende woordenlijst van het DAC wordt impact gedefinieerd als “de positieve of negatieve primaire en secundaire effecten resultaten op lange termijn die geproduceerd zijn door een ontwikkelingsinterventie, direct of indirect, bedoeld of onbedoeld”2. Die tijdsdimensie zorgt voor verwarring als het gaat over de resultaten die geëvalueerd moeten worden, aangezien de tijd die nodig is vooraleer eventuele resultaten merkbaar worden aanzienlijk kan variëren naargelang het soort interventie

(2) De tweede definitie vloeit voort uit de interventielogica samengevat in het logisch kader, waarbij een ontwikkelingsactie wordt onderverdeeld in ‘inputs’ (middelen/activiteiten), ‘outputs’ (tussentijdse resultaten), specifieke doelstellingen en globale doelstelling. Volgens de benadering gebaseerd op de interventielogica komt impact overeen met de globale doelstelling, anders gezegd de mate waarin de interventie bijdraagt tot veranderingen op een globaal niveau. De impactevaluatie beoordeelt hier met andere woorden het bereiken van de globale doelstelling. Daarbij merken we op dat volgens deze aanpak outcomes staan voor de specifieke doelstellingen.

(3) De gebruikers van kwantitatieve methodes gebruiken de term impact om de outcomes aan te duiden, die ze definiëren als de effecten van een project op de begunstigden, zonder rekening te houden met het tijdsaspect. Ze omschrijven impactevaluatie met andere woorden als “the evaluation of causal effects of an intervention on outcomes irrespective of time dimension” (World Bank). Het begrip attributie verwijst naar het gebruik van een counterfactual (zie infra), wat de onafhankelijke evaluatiegroep van de Wereldbank (IEG) ertoe aanzet om impactevaluatie anders te definiëren: “the impact evaluation is the counterfactual analysis of the impact of an intervention on final welfare outcomes”. De term impact wordt dus gebruikt terwijl hij duidelijk verwijst naar de evaluatie van de outcomes van een interventie. Tot slot is volgens H. White ‘impact evaluation’ synoniem met ‘attribution analysis’ of ook ‘with versus without analysis’ (“what happened with the program -factual record- compared to what would have happened in the absence of the program -which requires a counterfactual-”, 3ie, 2013).

Zoals geïllustreerd in Figuur 1 streven kwalitatieve en kwantitatieve methodes niet

dezelfde evaluatiedoelstellingen na. Kwalitatieve methodes richten zich op het hele proces dat tot impact leidt, omschreven als het ultieme en globale effect van een interventie. Kwantitatieve methodes op hun beurt meten de outcomes van een project, gedefinieerd als de effecten op de directe begunstigden, en tonen de attributie aan.

2 “Glossary of key terms in evaluation and results based management”, OESO – DAC (2010).

2. Methodologie


Dergelijke methodes spreken zich niet uit over het effect van een interventie op een globale schaal (impact).

Figuur 1: twee benaderingen van impactevaluatie

Figuur 2 toont de concepten gebruikt in het logisch kader met de verschillende bestaande definities. De eerste lijn met definities komt overeen met de definities gebruikt in het kader van de evaluaties waar het hier over gaat. De twee andere lijnen tonen respectievelijk de definities van het DAC en die van de interventielogica.

Figuur 2: Verschillende definities van de concepten uit het logisch kader

2. Methodologie


In het kader van de vier uitgevoerde impactevaluaties werd gekozen voor een

benadering op basis van de interventielogica. Dat betekent (i) dat de definities van outcomes en impact niet verwijzen naar de tijdsdimensie van de resultaten en (ii) dat de impactevaluatie van de projecten is opgebouwd rond het logisch kader en twee methodes combineert: een kwantitatieve, om de attributie van de effecten op de directe begunstigden3 (outcomes) aan te tonen en te meten waar dat technisch mogelijk is, en een kwalitatieve, om het effect op globale schaal te beoordelen (impact) en ook om de outcomes te beoordelen wanneer de toepassing van kwantitatieve methodes problemen oplevert. Dat is eigenlijk hetzelfde als verwijzen naar de ‘theory based evaluation’, die zowel kwantitatieve als kwalitatieve methodes gebruikt.4

Naast de verschillen in definiëring van de term ‘impact’ toont figuur 2 ook dat er verschillende Nederlandse vertalingen bestaan van eenzelfde concept uit het logisch kader. Daarom gebruikt dit rapport, net als de drie evaluatierapporten in bijlage trouwens, de Engelse terminologie om bijkomende verwarring te vermijden.

Figuur 2 geeft verder aan dat de term ‘resultaten’ verwijst naar alles wat resulteert uit de inputs, kortom de ‘outputs’, outcomes en impact. Die vaststelling is des te belangrijker als het gaat over ‘results based management’ of ‘resultaatgericht beheer’. Het monitoring en evaluatiesysteem moet immers in staat zijn om zowel de ‘outputs’, de outcomes als de impact van een project te beoordelen.

2.2 Eén evaluatieproces, twee methodes

Zoals eerder al aangehaald werd voor de evaluatie van de outcomes en impact gekozen voor een combinatie van kwalitatieve en kwantitatieve methodes, opgebouwd rond de interventielogica. De methodes worden hieronder kort beschreven.

Kwalitatieve methodes vormen een onderbouwd oordeel over het bereiken van de impact van een interventie, beschouwd als het globale effect van een project (zie Figuur 1 hierboven). Ze gaan na of de voorwaarden om de gewenste impact te bereiken zijn vervuld in de verschillende interventiestadia, op grond van het logisch kader: ontwerp/formulering, input, uitvoering, realisatie en gebruik van de ‘outputs’, bereiken van de outcomes en bereiken van de impact.

Kwalitatieve analyses zijn gebaseerd op informatie uit documentanalyses, interviews of

groepsdiscussies en observaties op het terrein. Een goede kwalitatieve analyse geeft een gedetailleerd inzicht in de context op het moment van de interventie. Die aanpak plaatst het project niet enkel in een historisch perspectief (eerdere projecten, geplande projecten enz.), hij is er ook op gericht om alle sociaaleconomische, politieke en culturele aspecten te begrijpen en te identificeren, samen met de belangen die op de verschillende niveaus heersen en die een invloed kunnen hebben op het project en/of op het goede verloop van de evaluatie.

Kwantitatieve methodes meten en bewijzen de attributie van de outcomes van een interventie, anders gezegd de effecten die de directe begunstigden ondervinden en die toegeschreven kunnen worden aan het project. Het doel is om een oorzakelijk verband te leggen door empirisch aan te tonen in hoeverre een project - en enkel dat project - heeft bijgedragen tot de vastgestelde effecten op de

3 Indien dat relevant blijkt kan een kwantitatieve of kwalitatieve analyse ook beoordelen welke effecten een

interventie op indirecte begunstigden heeft.

4 De ‘theory based evaluation’ wordt vaak gelijkgesteld met de kwalitatieve methodes omdat ze berust op de

analyse van het logisch kader, iets wat weinig gebruikt wordt door beoefenaars van kwantitatieve methodes

(zij belichten vaak één aspect van een project in hun onderzoek, zonder het project in zijn geheel te

evalueren). De ‘theory based evaluation’ staat weliswaar niet lijnrecht tegenover het gebruik van

kwantitatieve methodes, ze maakt er gewoon niet altijd systematisch gebruik van.

2. Methodologie


begunstigden (outcomes). Daarbij worden statistische en econometrische technieken toegepast op betrouwbare én voldoende gegevens, verzameld bij een groep begunstigden en bij een controlegroep, zowel voor als na de interventie (zie infra). Die gegevens kunnen rechtstreeks op het terrein worden verzameld via enquêtes bij huishoudens en/of via secundaire gegevens, anders gezegd bestaande gegevens uit diverse bronnen (beschikbaar via het monitoring en evaluatiesysteem van de projecten, nationale statistieken enz.).

We merken op dat het gebruik van kwantitatieve methodes in projectevaluaties doorgaans kadert in een onderzoeksperspectief waarbij het project en het evaluatiesysteem gelijktijdig worden uitgewerkt, zodat de evaluatie in optimale technische omstandigheden kan worden uitgevoerd.5 De haalbaarheid van kwantitatieve methodes hangt in feite sterk af van de kwantiteit en van de kwaliteit van de gegevens die voor en na een interventie beschikbaar zijn, alsook van de mogelijkheid om een geloofwaardige controlegroep samen te stellen. Aan de toepassing van dergelijke methodes zijn tal van uitdagingen en beperkingen verbonden, in het bijzonder bij ex-post evaluaties (zie infra).

Hoewel een kwalitatieve analyse in staat is om een onderbouwd oordeel te vormen over het bereiken van de outcomes van een project, wordt toch de voorkeur gegeven aan kwantitatieve methodes waar technisch mogelijk. Onder ideale omstandigheden maakt de strikte toepassing van kwantitatieve methodes het immers mogelijk om de outcomes te kwantificeren en wetenschappelijk hun oorzakelijk verband met het project (de attributie ervan) met een zekere nauwkeurigheid aan te tonen. Als echter niet alle voorwaarden zijn vervuld om de economische instrumenten naar behoren toe te passen, dan zal een kwantitatieve analyse niet de attributie kunnen aantonen, maar enkel een zekere samenhang tussen de vastgestelde resultaten en het project. De oorzakelijke verbanden moeten dan worden onderbouwd met een kwalitatieve analyse. Wanneer trouwens blijkt dat er geen kwantitatieve methodes toegepast kunnen worden bij gebrek aan gegevens of omwille van te sterke beïnvloeding, dan is een rigoureuze kwalitatieve analyse over het bereiken van de outcomes wenselijk.

Om het effect van een interventie op een globale schaal (impact) te beoordelen zijn

kwantitatieve methodes weinig doeltreffend. In dat geval leveren kwalitatieve analysemethodes meer resultaat op. De vaststellingen die een kwalitatieve analyse doet over de outcomes kunnen daarentegen wel gebruikt worden als sterke argumenten om de impact en de reikwijdte ervan te beoordelen. Soms kunnen ze veralgemeend of geëxtrapoleerd worden, op voorwaarde dat ze geënt zijn op een overtuigende toelichting.

Die methodes mogen dan wel heel verschillend zijn, toch hebben ze elkaar nodig om de outcomes en impact op een kwaliteitsvolle manier te evalueren. Zelfs een perfect beheerste quantitatieve techniek kan nooit een rigoureuze analyse van de oorzakelijke keten van een interventie vervangen, noch een onderbouwde argumentatie door deskundigen die het terrein perfect kennen (Deaton, 2012). Omgekeerd kan een overtuigend verhaal dat de resultaten van een interventie verklaart niet de plaats innemen van een meting en van het wetenschappelijke bewijs om, op basis van kwantitatieve methodes, aan te tonen dat die resultaten voortvloeien uit een project.

Tot slot beperkt een analyse van de outcomes en impact zich niet tot een omschrijving van wat wel en wat niet heeft gewerkt, maar moet ze ook verklaren hoe en waarom de

5 Deze methodes zijn ontstaan en op grote schaal verspreid door J-Pal (Abdoul Latif Jamel Poverty Action lab); sindsdien hebben heel wat universitaire onderzoekers ze aangewend om impactevaluaties te maken

van projecten gefinancierd door diverse donoren (Wereldbank, AfD, Nederlandse Coöperatie, Noorse

Coöperatie enz.), maar elke keer werden de te evalueren projecten geformuleerd en uitgevoerd volgens

een evaluatiesysteem dat een optimaal toepassingskader voor kwantitatieve technieken garandeerde. Deze

oefening is anders: het gaat hier immers om ex-post impactevaluaties van projecten waarvoor er geen

enkel evaluatiesysteem bestond en waardoor de toepassing van kwantitatieve methodes dus beperkt blijft.

2. Methodologie


resultaten al dan niet werden geboekt. Een rigoureuze kwalitatieve analyse van de context en van de belangen op verschillende niveaus én een goede kennis van de realiteit op het terrein zijn dus onontbeerlijk om de behaalde resultaten te verklaren aan de hand van statistische en/of econometrische technieken.

Samengevat kunnen we stellen dat de combinatie van kwalitatieve en kwantitatieve methodes het mogelijk maakt om de outcomes nauwkeurig te evalueren via een geloofwaardige controlegroep en om de impact te evalueren aan de hand van een rigoureuze feitelijke analyse. Anders gezegd, dankzij een gemengde methodologie kunnen de effecten op de begunstigden gemeten worden en kan de attributie van die resultaten of hun samenhang met het project worden aangetoond (afhankelijk van de beschikbare hoeveelheid betrouwbare gegevens en van het mogelijke gebruik van een controlegroep om de kwantitatieve methodes correct toe te passen). Een dergelijke methodologie maakt het ook mogelijk om een onderbouwd oordeel te vormen over het bereiken van de impact van een project, gebaseerd op een aantal wetenschappelijk bewezen vaststellingen uit de kwantitatieve analyse van de outcomes. En ten slotte kan ze ook het proces toelichten dat de resultaten van een project heeft voortgebracht of belemmerd.

2.3 Kwantitatieve methodes: doelstellingen en uitdagingen

De doelstellingen van de kwantitatieve methodes zijn (1) om de veranderingen vastgesteld binnen de doelgroep sinds de uitvoering van het project te bepalen en te meten; en (2) om zo nauwkeurig mogelijk een oorzakelijk verband aan te tonen tussen de vastgestelde (verwachte of onvoorziene) veranderingen en het project.

1) De eerste doelstelling van kwantitatieve methodes is om de resultaten van een project op de begunstigden te meten (outcomes).

Eens de outcomes van de interventie zijn geïdentificeerd in de analyse van het

logisch kader, zijn een reeks vragen aan de orde: a. Wat zijn de meetbare outcomes? b. Hoe kunnen we ze meten? c. Beschikken we over de nodige gegevens om ze te meten? d. Hoe verzamelen we de gegevens indien ze niet beschikbaar zijn?

We benadrukken dat wanneer er geen gegevens bestaan en ze ook niet verzameld kunnen worden of wanneer een ‘outcome’ niet meetbaar is, het onmogelijk is om kwantitatieve methodes te gebruiken. In Marokko bijvoorbeeld bleek een productiviteitsmeting van de landbouwgrond relevant, maar jammer genoeg te complex gezien de beschikbare middelen en tijd. Van die indicator werd dan ook afgezien. In de drie evaluaties werden de ‘outcome’-indicatoren geformuleerd op basis van gegevens verzameld op het terrein. Ze konden wel niet allemaal aan kwantitatieve analyses worden onderworpen, hetzij omdat ze weinig betrouwbaar bleken, hetzij omdat er onvoldoende observaties gebeurd waren. De kwaliteit en de kwantiteit van de gegevens zijn twee sleutelelementen om kwantitatieve methodes te kunnen gebruiken (zie infra). Daarbij merken we op dat een kwalitatieve variabele verwerkt kan worden op basis van kwantitatieve methodes, zolang hij maar systematisch vergaard is aan de hand van voldoende observaties om hem statistisch te kunnen verwerken of om hem te kunnen gebruiken in een econometrische regressie6.

6 Voorbeelden van kwalitatieve vragen die statistisch verwerkt kunnen worden: “Vindt u dat uw

levensomstandigheden zijn verbeterd sinds u in uw dorp over een waterput beschikt?” JA/NEEN; “Hoe is, op

een schaal van 1 tot 5, het welzijn van u en uw familie erop vooruitgegaan sinds er een waterput in uw

dorp is? (1: geen verbetering; 5: maximale verbetering)” 1-2-3-4-5.

2. Methodologie


2) De tweede doelstelling van kwantitatieve methodes is om aan te tonen

dat de resultaten toe te schrijven zijn aan de interventie (attributie).

Om een oorzakelijk verband te kunnen leggen moet kunnen worden aangetoond dat de vastgestelde veranderingen voor de begunstigden voortkomen uit de interventie.7 Anders gezegd, er moet kunnen worden nagegaan hoe de doelgroep van het project eraan toe zou zijn zonder de interventie. Idealiter zouden dezelfde individuen dus vergeleken moeten kunnen worden met en zonder interventie, wat per definitie onmogelijk is. Een mogelijke denkpiste is om de projectpopulatie (de ‘behandelde groep’ of doelgroep) te vergelijken met een groep mensen die op tal van vlakken gelijkaardig is vóór de interventie. Die groep noemen we de controlegroep, de getuigengroep of ook de counterfactual.

Om die twee doelstellingen te bereiken, moeten kwantitatieve methodes het hoofd bieden aan een reeks uitdagingen.

1. De keuze van een goede controlegroep

De behandelde groep of doelgroep stemt overeen met de begunstigden uitgekozen voor de ontwikkelingsinterventie. De controlegroep is een groep van niet-begunstigden die voor de interventie niet echt verschilt van de doelgroep. Beide groepen zijn met andere woorden op heel wat vlakken gelijkaardig, met idealiter als enige verschil het feit dat voor de ene groep een interventie wordt gedaan en voor de andere groep niet.

Er bestaan twee verschillende evaluatiebenaderingen (‘design’) om de controlegroep te bepalen: een experimentele en een quasi-experimentele benadering.

- Omdat ze beschouwd wordt als de meest solide evaluatiemethode, is ‘the

experimental design’ of ook wel ‘the randomized control trial’ (RCT) de manier bij uitstek om een controlegroep samen te stellen. Bij deze methode wordt het project willekeurig toegewezen aan een aantal begunstigden uit eenzelfde populatie, om zo een doelgroep en een controlegroep aan te leggen die voor de interventie statistisch gezien gelijk zijn. Die selectie gebeurt vaak op een bepaald niveau afhankelijk van het soort interventie, zoals bijvoorbeeld op het niveau van dorpen of scholen. Als een dergelijke selectie volgens individu gebeurt, dan zou dat ethische vragen kunnen doen rijzen.8 Met genoeg observaties maakt dat proces van willekeurige aanduiding het mogelijk om twee groepen samen te stellen waarvan de gemiddelde eigenschappen statistisch gezien gelijkaardig zijn voor het project wordt aangevat. De willekeurige aanduiding waarborgt dus, in theorie, dat beide groepen equivalent zijn. Door basisgegevens te verzamelen kan die assumptie empirisch worden gestaafd. Indien de beide groepen vóór het project daadwerkelijk statistisch equivalent zijn, dan volstaat een eenvoudig ex-post verschil tussen het gemiddelde resultaat voor de behandelde groep en het gemiddelde resultaat voor de controlegroep.

De voordelen van deze benadering zijn: (i) door de begunstigden vrijwillig uit te kiezen wordt selectiebias vermeden (zie infra); (ii) het wordt eenvoudiger om de

7 Soms vertonen de econometrische specificaties die mogelijk zijn met de beschikbare gegevens

endogeniteitsproblemen, wat een oorzakelijkheidsanalyse complex of zelfs onmogelijk maakt. In dergelijke

gevallen zijn de resultaten behaald in de regressies correlaties tussen de geanalyseerde ‘outcome’ en het

project. Technisch gezien kan er niets bevestigen dat die effecten toegeschreven kunnen worden aan de

interventie, maar ze zouden op zijn minst deels verklaard kunnen worden door niet-waarneembare exogene

factoren.

8 Zie White (2013) “An introduction to the use of randomized control trials to evaluate development

interventions” voor meer details over het gebruik van RCT in impactevaluaties. Zie ook Getler et al. (2011)

“L’évaluation d’impact en pratique” voor een eenvoudige toelichting bij de willekeurige bepaling van de

groepen.

2. Methodologie


meting te interpreteren van de resultaten toegeschreven aan het project (via de methode van het dubbele verschil - zie infra voor een toelichting bij die methode).

De voornaamste nadelen van deze benadering zijn: (i) het kan ethisch of politiek moeilijk aanvaardbaar zijn om de ene groep wel en de andere niet van een interventie te laten profiteren; (ii) het kan zijn dat de reikwijdte van een project het niet toelaat om twee groepen samen te stellen (bij een project op nationale schaal bijvoorbeeld); (iii) het kan moeilijk zijn om de willekeurige aard te respecteren, of de twee groepen zouden zich in de loop van de interventie kunnen verplaatsen (het zogeheten overloop- of ‘spillover-effect’, zie infra); en (iv) het is een dure methode waar heel wat tijd in kruipt, zowel om het grote aantal gegevens te verzamelen als om ze te verwerken.

- Een quasi-experimentele benadering wil zeggen dat de groep met begunstigden en de controlegroep niet op willekeurige wijze worden aangeduid. Hier gaat het erom een controlegroep te bepalen met waarneembare kenmerken die statistisch gezien gelijkaardig zijn aan die van de doelgroep van de interventie. Dat kan voor of na de uitvoering van het project gebeuren.

De voordelen van een dergelijk ‘design’ zijn (i) dat het vaak goedkoper en sneller

is dan een experimenteel ‘design’ en (ii) dat zo een ex-post evaluatie mogelijk wordt. Het grote nadeel is dat de statistische en econometrische methodes om de resultaten toe te schrijven aan het project (attributie) vaak complex zijn, omdat men er zeker van moet zijn dat er geen selectiebias is (zie infra). De betrouwbaarheid van de resultaten wordt dus soms ter discussie gesteld. De projectresultaten kunnen over- of onderschat worden.

Er moeten twee frequente obstakels overwonnen worden om aan te tonen dat de controlegroep kwalitatief is: het overloop- of ‘spillover’ effect genoemd, en het probleem van de selectiebias bij de keuze van de begunstigden.

- Het overloop- of spillover effect kan worden opgesplitst in de twee onderstaande resultaten. Dit probleem kan worden verholpen met een grondige kennis van de context, zowel op het vlak van de lokale dynamieken als van de aanwezigheid van andere donoren op het terrein.

(a) Een indirect effect van de interventie op de controlegroep. Om een

zekere gelijkaardigheid tussen beide groepen te garanderen, zou men geneigd kunnen zijn om groepen uit te kiezen die, letterlijk, vrij dicht bij elkaar liggen. Welnu, als de controlegroep geografisch gezien grenst aan de behandelde groep, dan is de kans groot dat die controlegroep indirect in aanraking komt met het project. Hoewel beide groepen vóór de interventie gelijkaardig zijn, zullen in dat geval de gegevens die na de interventie bij de controlegroep verzameld worden beïnvloed zijn door het project. Dat vertekent de interpretatie van de analyses. Een overloopeffect is trouwens een indirect effect van het project. Bij de impactevaluatie rond de toegang tot boorputwater in Senegal werd een dergelijk effect opgemerkt: de huishoudens van naburige, niet-begunstigde dorpen halen nu ook water aan de kranen van de projectdorpen.

(b) Resultaten van andere projecten op de controlegroep. Het is best mogelijk dat andere donoren een zelfde soort interventie organiseren voor de controlegroep. Het is ook denkbaar dat uiteenlopende interventies tot dezelfde outcomes leiden. In beide gevallen zal een vergelijking van de outcomes tussen doel- en controlegroep onvermijdelijk systematische fouten vertonen.

- Een selectiebias treedt op wanneer de redenen waarom een persoon deelneemt aan een project correleren met de resultaten. Dat concept verwijst dus naar de wijze waarop de individuen worden aangeduid als begunstigden van een project.

2. Methodologie


Als de deelname aan het project bepaald is op basis van waarneembare kenmerken van de begunstigden (geslacht, leeftijd, ongeletterdheid enz.), dan bestaan er vrij eenvoudige econometrische technieken om een eventuele selectiebias te omzeilen. Er wordt echter vaak aangehaald dat niet (of moeilijk) waarneembare kenmerken de deelname van de begunstigden aan een project beïnvloeden (‘self-selection problem’). Indien die kenmerken verband houden met de outcomes van het project, dan zijn de analyses beïnvloed (endogeniteitsvertekening). Verschillen tussen de doel- en de controlegroep zouden dan immers verklaard kunnen worden aan de hand van niet-waarneembare kenmerken en niet uitsluitend door het feit of de groepen al dan niet voordeel halen uit het project.9

Eén manier om dat vertekende beeld te vermijden is door de begunstigde populatie willekeurig aan te duiden (‘randomized control trial’, zie supra). Maar ook de ‘pipeline’-techniek kan dan van pas komen. Daarbij wordt een project gefaseerd uitgevoerd en wordt de groep begunstigden uit een later stadium gebruikt als controlegroep. De volgorde van uitvoering van het project in de verschillende interventiezones kan echter niet gebaseerd worden op kenmerken die door het project beïnvloed zijn of die de outcomes van het project beïnvloeden; het geniet de voorkeur om, in de mate van het mogelijke, te opteren voor een willekeurige volgorde van uitvoering.

Om de kwaliteit van de gekozen controlegroep aan te tonen is overtuigend bewijsmateriaal nodig, dat elk vermoeden van selectiebias wegneemt. Het is nuttig om te bewijzen dat de doel- en controlegroep statistisch gezien niet verschillen voor het project, vandaar het belang om voor beide groepen over ‘baseline’-gegevens te beschikken. Is dat technisch niet haalbaar (bij gebrek aan gegevens), dan is het niettemin raadzaam om, op basis van een grondige terreinkennis, te argumenteren dat er geen selectiebias bestaat of om op zijn minst te bepalen in welke richting hij gaat: een over- of een onderschatting van de resultaten.

De ex-post evaluaties van de projecten in Marokko en Senegal werden quasi-

experimenteel opgevat, in die zin dat er enerzijds vooraf geen controlegroep werd bepaald en anderzijds dat er geen ‘baseline’-gegevens beschikbaar waren. De vastgestelde controlegroepen zijn niet helemaal bevredigend, maar de analyse geeft dat toe en houdt er rekening mee. In Marokko verschilden de controledorpen voor het project op een aantal vlakken van de begunstigde dorpen. Die verschillen waren waarschijnlijk wel waar te nemen (zoals het soort landbouw), maar werden jammer genoeg niet onder de loep genomen bij gebrek aan een goede kennis van de context. Daardoor worden de resultaten terughoudend geïnterpreteerd, waarbij zo veel mogelijk rekening wordt gehouden met die vertekening. Van niet-interpreteerbare resultaten werd afgezien. Ook in Senegal waren er voor de interventie verschillen tussen de controle- en de projectdorpen. Dankzij voorafgaande participatieve diagnoses van de stand van zaken in de dorpen konden bepaalde waarneembare verschillen alsnog worden geïdentificeerd en verwerkt in de analyse, om zo de richting van de vertekening te bepalen (voorbeelden van waarneembare kenmerken op dorpsniveau: bevolkingsdichtheid, aantal gebruikers per kraan, insluiting...). Er bestaat trouwens een probleem van zelfselectie voor de gebruikers van privékranen. De toegang tot een eigen kraan is een indirect effect van het project. Het aantal begunstigden met een privékraan blijft weliswaar deels onbekend, enerzijds omdat er

9 Het volgende voorbeeld illustreert dat. In een project rond microkredieten zou men geneigd kunnen zijn om

een vergelijking te maken in termen van opbrengsten (‘outcome’) voor individuen met en zonder

microkrediet. Het is echter aannemelijk dat vooral de meest dynamische individuen een aanvraag voor een

microkrediet indienen. Dat moeilijk waarneembare kenmerk bepaalt met andere woorden de toegang tot

het project en de manier waarop iemand zijn geld laat renderen. Bij een vergelijking tussen individuen met

en zonder microkrediet zal het effect dat de toegang tot een microkrediet genereert dan

hoogstwaarschijnlijk overschat worden.

2. Methodologie


geen waarneembare variabelen werden verzameld en anderzijds omwille van de grote invloed die niet-waarneembare variabelen kunnen uitoefenen.

2. Het gebruik van voldoende kwaliteitsvolle gegevens

De statistische en econometrische methodes om de outcomes van een interventie in te schatten vereisen voldoende betrouwbare gegevens. Over voldoende gegevens beschikken betekent dat er genoeg observaties moeten gebeuren om statistische en econometrische technieken te kunnen toepassen (hoe meer observaties, hoe nauwkeuriger de tests), maar ook om de resultaten aan het licht te kunnen brengen, indien het geval. Over kwaliteitsvolle gegevens beschikken houdt in dat de gegevens relevant moeten zijn, dat ze duidelijk en nauwkeurig werden bepaald, en dat ze zorgvuldig zijn verzameld. We kunnen niet genoeg wijzen op het belang van een indicator en op de vele vertekeningen in de meting en de rapportage op het moment dat de gegevens verzameld worden. Aan die twee voorwaarden voldoen, met name kwaliteit en kwantiteit, blijft een uitdaging in de meeste evaluaties, zeker wanneer men kwantitatieve methodes wil gebruiken.

Compromis (‘trade-off’) tussen kwantiteit en kwaliteit van de gegevens. Hoe

hoger het aantal willekeurige observaties, hoe beter de statistische analyse. In theorie bestaat er een formule om te bepalen wat de optimale grootte van een steekproef is om met een zekere nauwkeurigheid (‘power calculation’) te kunnen nagaan of er al dan niet een impact bestaat10. In de praktijk11 blijft die formule echter op het achterplan. De grootte van een steekproef wordt immers vooral berekend in functie van de beoogde statistisch-econometrische methode en in functie van tijden budgetbeperkingen. Het is daarentegen nutteloos om een hele reeks observaties te doen wanneer de verzamelde gegevens ontoereikend of onbruikbaar zijn. Het is van uiterst belang om de kwaliteit van de gegevens niet te verwaarlozen.

Er zijn twee soorten gegevens: secundaire gegevens (uit tweede hand) en primaire gegevens (uit eerste hand).

Er bestaan verschillende bronnen met secundaire gegevens: - projectgegevens (via het monitoring en evaluatiesysteem), - gegevens uit nationale statistieken, - gegevens verzameld door andere projecten, - gegevens beschikbaar bij bepaalde openbare of private instellingen

(gezondheidsregisters, registers voor schoolbezoek, gegevens van bedrijven enz.).

Betrouwbare secundaire gegevens vinden is in heel wat landen een heuse uitdaging. In

Senegal werd er aanvankelijk voor geopteerd om secundaire gegevens te verzamelen bij scholen en gezondheidscentra (om de toename van het schoolbezoek en de afname van het aantal diarreegevallen te schatten), maar die aanpak werd snel afgeblazen gezien de zeer uiteenlopende kwaliteit van de bestaande gegevens. Omdat het vooral afhangt van de welwillendheid van de bevoegde personen of gezondheids- en schoolregisters worden ingevuld, vormen die registers geen betrouwbare bron van informatie. In de DRC werden de slaagpercentages voor de staatsexamens verzameld via de schooldirecteurs, net als het aantal inschrijvingen in de verschillende richtingen. Rwanda is een beetje een geval apart: om een bepaalde ‘outcome’ te bestuderen bleken er kwaliteitsvolle secundaire gegevens beschikbaar (de verbetering van de

10 Deze formule hangt af van de grootte van de steekproef (hoe groter, hoe nauwkeuriger de analyses), van

de samenhang binnen de cluster, van het minimale effect (hoe beperkter het verwachte effect, hoe groter

de steekproef moet zijn), van het beoogde betrouwbaarheidsinterval (95% of 90% of 99%) en van het

kostenplaatje van de enquête. Zie White (2013), “An introduction to the use of randomized control trials to

evaluate development interventions”.

11 Anders gezegd, wanneer academisch onderzoek niet prioritair is.

2. Methodologie


diagnoses op basis van de dikke-druppeltest), maar het Rwandees Ministerie van Volksgezondheid weigerde zijn toelating te geven om die te gebruiken.

Wanneer er geen bruikbare databank met secundaire gegevens bestaat of wanneer blijkt dat de gegevens onvolledig of weinig betrouwbaar zijn, dan is het raadzaam om primaire gegevens te verzamelen.

Primaire gegevens zijn gegevens die rechtstreeks door het evaluatieteam worden verzameld, via gedetailleerde enquêtes bij respondenten die relevant zijn voor het soort studie. Enkele voorbeelden: huishoudens, een individu uit een bepaald huishouden, dorpshoofden, burgemeesters, bedrijfsleiders, ziekenhuis- of schooldirecteurs enz. Die enquêtes kunnen op verschillende niveaus gevoerd worden voor eenzelfde studie. In Senegal bijvoorbeeld werd er een enquête georganiseerd onder de huishoudens (daarbij werden 217 huishoudens bevraagd) en daarnaast een enquête op het niveau van de dorpen en van de groepen die de boorputten gebruiken. Hoewel het in die twee laatste gevallen eerder om groepsdiscussies ging (‘focus groups’, zie infra), werden de gegevens toch ingevoerd in de databank met huishoudens om verschillen tussen dorpen of tussen gebruikersgroepen bloot te leggen. Ook in Marokko werd een huishoudenquête gehouden. In de DRC werden primaire gegevens verzameld aan de hand van groepsdiscussies (‘focus group’) op verschillende niveaus: directeurs, leraars, leerlingen en gediplomeerde oud-leerlingen. Gelet op het kleine aantal geselecteerde scholen (twee begunstigde scholen en twee controlescholen), gebeurde er geen grondige statistische verwerking.

Om primaire gegevens te verzamelen zijn deugdelijke instrumenten nodig, en om die te

creëren is een grondige kennis van de context en van de belangen onontbeerlijk. Het is raadzaam om relevante vragen te stellen rond de bestudeerde thema’s op lokaal vlak, maar het is evenzeer gepast om die vragen helder te formuleren aan de hand van een woordenschat die is afgestemd op de gewenste gesprekpartners. Een systeem om primaire gegevens te verzamelen vraagt om een sterke mobilisering van middelen op het terrein en vereist de betrokkenheid van de evaluatoren bij elke stap, om zo de betrouwbaarheid van de gegevens te waarborgen. Die betrokkenheid gaat van het opstellen van de vragenlijsten, over het dagelijks toezicht, tot het verzamelen van gegevens op het terrein.

- ‘Focus group’-enquêtes zijn gestructureerde/semigestructureerde discussies met kleine of grote groepen individuen van hetzelfde type (bijvoorbeeld dorpsautoriteiten, beheerders van een boorput, een groep leraars of een groep leerlingen). Het gebruik van een dergelijk instrument vergt de nodige aandacht ten einde incoherenties op te sporen of om na te gaan of deelnemers informatie achterhouden. Hoewel deze techniek behoort tot de kwalitatieve methodes wordt hij hier vermeld, aangezien de gegevens die op deze manier systematisch verzameld worden bij verschillende groepen kunnen worden ingevoerd in een databank en vervolgens geanalyseerd kunnen worden aan de hand van statistische instrumenten (voor het project in Senegal bijvoorbeeld werden de gegevens verzameld via de ‘focus groups’ met de dorpsautoriteiten digitaal verwerkt).

We benadrukken dat om de relevantie van de verzamelde gegevens te waarborgen, de groepen willekeurig geselecteerd moeten worden. Hetzelfde geldt wanneer er bepaalde individuen uit een groep moeten worden uitgekozen. Anders gezegd, wil een evaluator onafhankelijk blijven, dan is het van cruciaal belang dat “hij naar de plaatsen gaat waar hij zelf heen wil gaan en niet naar de plekken die men hem suggereert”. Bovendien moet er op worden toegezien dat er geen observatoren aanwezig zijn die de deelnemers beïnvloeden. In de DRC bijvoorbeeld waren de prefecten niet aanwezig tijdens de gesprekken met leerlingen en leraars; in Senegal was er geen enkele beheerder van het waterdistributienet aanwezig tijdens de enquêtes onder de begunstigde en niet-begunstigde huishoudens.

2. Methodologie


- Huishoudenquêtes (‘household surveys’) zijn interviews gebaseerd op een

gedetailleerde vragenlijst die een enquêteur afneemt bij één of meerdere individuen van een huishouden, een bedrijf, een school enz. Bij een evaluatie worden die individuen willekeurig uitgepikt uit enerzijds een groep begunstigden en anderzijds een groep niet-begunstigden (controlegroep). Die aanpak biedt als voordeel dat de respondenten zich meer op hun gemak voelen dan wanneer ze in groep moeten spreken. De verzamelde gegevens hebben betrekking op kwantitatieve informatie (bv. uit hoeveel mensen bestaat het huishouden, hoe oud is het gezinshoofd) maar ook op kwalitatieve informatie (bv. hoe tevreden ben je van de openbare waterkranen, hoe nuttig is een diploma secundair onderwijs om in de DRC aan een job te geraken...) De lijst bevat ook een reeks vragen die vervolgens gesystematiseerd moeten worden om de antwoorden statistisch bruikbaar te maken.

De uitvoering van een huishoudenquête vereist de nodige logistieke organisatie. Er moet een team worden samengesteld van oprechte en ijverige enquêteurs. Het is raadzaam om de vragenlijst vooraf uit te testen om te verzekeren dat de vragen relevant zijn en begrijpelijk voor zowel de respondenten als de enquêteurs. Vervolgens moeten de enquêteurs tijdens de enquêteperiode van nabij worden opgevolgd om de kwaliteit van de verzamelde gegevens te verzekeren, maar ook om te garanderen dat de gegevens wel degelijk verzameld werden bij de vooraf (willekeurig) geselecteerde huishoudens. Ook bij de invoer van dat soort gegevens is toezicht onontbeerlijk, om eens te meer te verzekeren dat de ingevoerde gegevens betrouwbaar zijn en bruikbaar voor analyse.12 Tot slot moeten de databanken nog ‘uitgezuiverd’ worden. Daarbij worden een reeks tests gedaan om te verzekeren dat de gegevens correct werden ingevoerd en dat de antwoorden coherent zijn. Zo is er geen incoherentie tussen de antwoorden op de verschillende vragen van eenzelfde vragenlijst en zijn de antwoorden in lijn met de vaststellingen op het terrein. Voor de databank van Senegal bijvoorbeeld merkte de supervisor een afwijking in het digitaal patroon niet op: daardoor zijn alle antwoorden in een sectie een of twee vakken versprongen en moest alles opnieuw worden ingegeven. De consultants merkten de fout op toen ze vaststelden dat bepaalde antwoorden niet in de lijn lagen met de vaststellingen op het terrein. Daarop werden de ingevoerde gegevens getoetst aan die van de originele vragenlijsten om de bron van de fout op te sporen. Zonder hun oplettendheid zouden alle antwoorden op een bepaalde vraag zijn toegekend aan een volgende vraag enzovoort.

Die logistiek houdt aanzienlijk werk in. Samenwerking met een lokale partner die de technieken voor kwantitatieve evaluatie beheerst en die voor dit soort oefening over een netwerk en over de nodige ervaring beschikt, maakt het werk op het terrein er heel wat makkelijker op.

Het verzamelen van primaire gegevens brengt een aantal vaste kosten met zich

mee (los van het aantal vereiste enquêtes of gesprekken). Zo moet er, ongeacht het aantal enquêtes dat moet worden afgenomen, een vragenlijst worden opgesteld, moeten enquêteurs en/of een tolk worden opgeleid, moeten de tools voor gegevensverwerving worden uitgetest op het terrein, moeten er waar nodig correcties worden doorgevoerd, is een interface nodig om de gegevens in te voeren enz. Door te besparen tijdens die cruciale stappen in het evaluatieproces zal de kwaliteit van de te analyseren gegevens er onvermijdelijk op achteruit gaan. Zo zouden we ons ook kunnen afvragen of het wel relevant is om primaire gegevens te verzamelen (zie supra: compromis kwantiteit/kwaliteit).

12 Hierbij merken we op dat de enquêtes steeds vaker worden afgenomen met tabletcomputers. Op die manier stromen de gegevens onmiddellijk door. Aan een dergelijke drager zijn wel wat nadelen verbonden:

er moet elektriciteit zijn, de enquêteurs moeten vertrouwd zijn met informatica, het is niet altijd evident om

terug te keren als er fouten worden gemaakt tijdens de enquête enz.

2. Methodologie


Ongeacht de manier waarop de gegevens verzameld worden is het niet ondenkbaar dat

de geobserveerde actoren zich anders gaan gedragen net omdat ze geobserveerd worden. Dat noemen we het ‘Hawthorne-effect’. Het is een kenmerkend probleem van interne geldigheid van impactevaluaties. De respondenten die meegaan in dat ‘psychologische’ effect zullen sterker geneigd zijn om de werkelijkheid te verhullen (over- of onderschatting van bepaalde feiten en gegevens). Het is dan ook belangrijk om waakzaam te blijven voor de verschillende belangen en strategieën die de respondenten tijdens de evaluaties toepassen en om te trachten de onder- of overschatte antwoorden op te pikken. De kwaliteit van de vragenlijst, de eerlijkheid van de enquêteurs en de tijd nodig om het vertrouwen te winnen van de lokale overheden en van elke respondent, zijn stuk voor stuk elementen die dat effect kunnen temperen. In Marokko lijkt het erop dat de lokale overheden de respondenten nu eens in de ene en dan weer in de andere richting hebben beïnvloed. Maar dankzij de lange aanwezigheid op het terrein, die ervoor zorgde dat het vertrouwen van de meeste respondenten werd gewonnen, kon dat verschijnsel op zijn minst deels worden vastgesteld.

Om de attributie aan te tonen zijn die gegevens, verzameld bij de doel- en bij de controlegroep, noodzakelijk voor een aantal sleutelperiodes tijdens de interventie. In het ideale geval gaat het om gegevens uit de periode voor (‘baseline’), tijdens (‘monitoring’) en na (‘ex-post’) de interventie.

- Het gebrek aan een basisenquête kan leiden tot vertekening in de inschatting van de outcomes: (i) het kan zijn dat de verschillen vastgesteld bij een ex-post enquête tussen een doel- en een controlegroep al voor het project bestonden; en omgekeerd (ii) wanneer er geen verschil is tussen beide groepen kan dat er eenvoudigweg op wijzen dat er voor het project wel een verschil was, maar dat de interventie bij de doelgroep dat heeft kunnen wegwerken. Een ex-post vergelijking tussen deelnemers en niet-deelnemers aan een project legt ook het probleem van de selectiebias bloot (zie supra: de redenen waarom een persoon deelneemt aan een programma hangen samen met de resultaten).

Zonder ‘baseline’ is het mogelijk om kwantitatieve methodes toe te passen op ex-

post gegevens om doel- en controlegroep met elkaar te vergelijken. De techniek van de ‘propensity score matching’ wordt in dat geval het vaakst gebruikt (zie infra voor toelichting). Doch, zonder ‘baseline’ moet de geloofwaardigheid van de controlegroep worden aangetoond aan de hand van een rigoureuze kwalitatieve argumentatie en zijn de risico’s op vertekening in de interpretatie groter (risico om onvergelijkbare groepen toch met elkaar te vergelijken of om niet te controleren op niet-waarneembare variabelen die het resultaat en de hele groepdimensie beïnvloeden).13 “Als het, eens het programma in uitvoering is, onmogelijk blijkt om nauwkeurig te bepalen hoe het is toegewezen aan de begunstigden en er bovendien geen basisgegevens voor bestaan, dan is het nauwelijks nog of zelfs niet mogelijk om een betrouwbare kwantitatieve evaluatie te doen” (in Getler et al., 2011 : p. 115 - vertaling).

Als er geen ‘baseline’ bestaat is het met andere woorden raadzaam, voor zover dat mogelijk is, om basisgegevens te reconstrueren aan de hand van informatie uit het geheugen van de respondenten (‘recall’-gegevens, zie infra) of via betrouwbare secundaire gegevens.

- Het gebrek aan een controlegroep. Zonder controlegroep worden de resultaten van een project bepaald door te onderzoeken hoe de resultaten met de tijd zijn geëvolueerd voor de projectdeelnemers. Daarbij wordt een ‘voor-na’-vergelijking gedaan van de begunstigden, vanuit de assumptie dat zonder het project de kenmerken van de groep met begunstigden niet zouden zijn geëvolueerd. In de meeste gevallen gaat die assumptie jammer genoeg niet op. Zonder ge

Impact meten: zoektocht naar de Graal? · Impact meten: zoektocht naar de Graal? Ex-post...

Documents

Transcript of Impact meten: zoektocht naar de Graal? · Impact meten: zoektocht naar de Graal? Ex-post...