Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain...

83
Faculteit Wetenschappen Vakgroep Toegepaste Wiskunde en Informatica Monte Carlo Markov Chain methoden Bregt Savat Promotor: Prof. Dr. Stijn Vansteelandt Masterproef ingediend tot het behalen van de graad van Master in de wiskunde, afstudeerrichting toegepaste wiskunde. Academiejaar 2009-2010

Transcript of Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain...

Page 1: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Faculteit Wetenschappen

Vakgroep Toegepaste Wiskunde en Informatica

Monte Carlo Markov Chain

methoden

Bregt Savat

Promotor: Prof. Dr. Stijn Vansteelandt

Masterproef ingediend tot het behalen van de graad van Master in de wiskunde,

afstudeerrichting toegepaste wiskunde.

Academiejaar 2009-2010

Page 2: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master
Page 3: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Faculteit Wetenschappen

Vakgroep Toegepaste Wiskunde en Informatica

Monte Carlo Markov Chain

methoden

Bregt Savat

Promotor: Prof. Dr. Stijn Vansteelandt

Masterproef ingediend tot het behalen van de graad van Master in de wiskunde,

afstudeerrichting toegepaste wiskunde.

Academiejaar 2009-2010

Page 4: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Monte Carlo Markov Chain methoden

Bregt Savat

Masterproef ingediend tot het behalen van de graad van Master in de wiskunde,afstudeerrichting toegepaste wiskunde.

Academiejaar 2009-2010

Universiteit GentFaculteit Wetenschappen

Promotor: Prof. Dr. S. Vansteelandt

Toelating tot bruikleen.

De auteur geeft de toelating dit afstudeerwerk voor consultatie beschikbaar testellen en delen van het afstudeerwerk te kopieren voor persoonlijk gebruik. Elkander gebruik valt onder de beperkingen van het auteursrecht, in het bijzonder metbetrekking tot de verplichting de bron uitdrukkelijk te vermelden bij het aanhalenvan resultaten uit dit afstudeerwerk.

Bregt Savat, 26 mei 2010.

Page 5: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Inhoudsopgave

Voorwoord 4

Inleiding 5

1 De Bayesiaanse statistiek 71.1 Tegenstellingen tussen de klassieke en de Bayesiaanse statistiek. . . 7

1.1.1 Definitie van kans. . . . . . . . . . . . . . . . . . . . . . . . 71.1.2 Is de waarheid een zekerheid? . . . . . . . . . . . . . . . . . 81.1.3 Confidence interval versus credible interval. . . . . . . . . . . 101.1.4 P-waarde. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.2 De Bayesiaanse statistiek. . . . . . . . . . . . . . . . . . . . . . . . 121.2.1 Een stukje geschiedenis. . . . . . . . . . . . . . . . . . . . . 121.2.2 De regel van Bayes. . . . . . . . . . . . . . . . . . . . . . . . 131.2.3 Bayesiaanse methodiek. . . . . . . . . . . . . . . . . . . . . 151.2.4 Hypothesetesten. . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Introductie tot Markovketens 272.1 Definities en voorbeelden. . . . . . . . . . . . . . . . . . . . . . . . 282.2 De invariante distributie. . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2.1 Voorwaarden voor een invariante distributie. . . . . . . . . . 382.2.2 Ergodisch theorema. . . . . . . . . . . . . . . . . . . . . . . 42

2.3 Markovketens met algemene toestandsruimte. . . . . . . . . . . . . 46

3 Het principe van Monte Carlo 483.1 Wat is Monte Carlo Integratie? . . . . . . . . . . . . . . . . . . . . 483.2 Wat is Markov Chain Monte Carlo? . . . . . . . . . . . . . . . . . . 513.3 Metropolis-Hastings Algoritme. . . . . . . . . . . . . . . . . . . . . 52

3.3.1 Waarom de posteriorverdeling steeds de invariante limietdis-tributie van de Markovketen is. . . . . . . . . . . . . . . . . 59

3.4 De Gibbs sampler. . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.5 Toepassing: Gewicht van ratten. . . . . . . . . . . . . . . . . . . . . 62

2

Page 6: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Inhoudsopgave 3

3.6 Besluit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Referenties 72

Appendix 76

3

Page 7: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Voorwoord

Statistiek is een tak van de wiskunde die zich een weg tracht te banen door de com-plexiteit van het universum. Het probeert vragen te beantwoorden die versmoltenzijn met onzekerheid. Langzaam drong tijdens mijn opleiding de gigantische om-vang van dit domein door, maar ik heb pas nu, bij het maken van deze masterproef,een verbijsterend besef van de mogelijke toepassingen in allerhande studiegebieden.Hoe meer men te weten komt en hoe meer hindernissen men overwint, hoe meeruitdagingen er tevoorschijn komen.

De motivatie om een kanstheoretisch kader te ontwikkelen ontstond in de 17deeeuw toen vooral Pascal en Fermat de traditionele kansspelen trachtten te door-gronden. Het spectrum van de oplosbare probabilistische problemen groeide van-wege de inbreng van concepten als toevalsveranderlijken, stochastische processenen schattingstheorieen. We kunnen stellen dat tegenwoordig bijna iedereen in con-tact komt met deze toegepaste wiskunde, zij het in de media, op het werk, in eenpraatcafe of in een (universitaire) opleiding.

De keuze voor het onderwerp van deze masterproef is tot stand gekomen in Mar-seille, waar ik mijn eerste Masterjaar voltooide in het kader van een Erasmuspro-ject. Daar hoorde ik, zij het in het Frans, voor het eerst over Markovketens. Nawat opzoekwerk bleek dat ik dit kon combineren met een totaal andere stromingin de statistiek. Mijn interesse was meteen gewekt.

Ik bedank graag enkele mensen die me de kans gaven om dit werk te vervolledigen.Allereerst kan ik niet om mijn promotor Prof. Dr. Stijn Vansteelandt heen. Ikapprecieer enorm zijn kalmte en bereidwilligheid om me keer op keer een duw inde rug te geven. Een klaagmuur was hij uiteraard niet, daarvoor dank ik HanneBroux, die deze rol fantastisch op zich nam. Ik vergeet zeker mijn ouders niet,want zonder hen was ik nooit tot hier geraakt!

Gent, 26 mei 2010.

4

Page 8: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Inleiding

“A Bayesian is one who,vaguely expecting a horse, and catching a glimpse of a donkey,

strongly believes he has seen a mule1.”

Er zijn twee grote stromingen in de statistiek, de klassieke en de Bayesiaansestroming, genoemd naar de Engelse dominee Thomas Bayes. Het grote verschilis dat de Bayesianen2 subjectivisme toelaten in hun wetenschappelijk onderzoek.Bovenstaande quote illustreert op een ludieke manier hoe Bayesianen vaak het on-derwerp van spot geweest zijn doorheen de geschiedenis van de statistiek. Sommigeaanhangers van de klassieke benadering, frequentisten genoemd, bekritiseerden deBayesianen omdat hun subjectiviteit de weg naar een zo objectief mogelijke ge-volgtrekking zou versperren. Ze beschuldigen hen er van hun subjectieve kennis zoin te passen dat het soms toch wel overdonderende rekenwerk minder ingewikkeldzou worden, eerder dan op basis van wetenschappelijke overtuiging. De Bayesia-nen werden veelal genegeerd, maar in de twintigste eeuw zorgde vooral de tech-nologische vooruitgang voor het doorbreken van deze tendens. De Bayesiaansebenadering wint heden ten dage nog steeds aan populariteit en de roep om eencursus Bayesiaanse statistiek in universitaire opleidingen in te voegen wordt steedsluider ([6], [36], [2]).

Dankzij de oktoberrevolutie van 1917 bracht de Russische school3 de statistiekhalverwege de 19de eeuw in een serieuze stroomversnelling. Deze machtige stootvan ontwikkeling kwam er ook via A.A. Markov 4.

1Uit Statistical Issues in Drug Development, 2nd edition (2007) p.46, Stephen J. Senn.2We gebruiken de benamingen ‘Bayesianen’ en ‘frequentisten’ enkel om het verschil in visie

duidelijk te maken. Tegenwoordig is de zwart-wit visie wat versoepeld en kan men geen duidelijketiket meer plakken op de meeste statistici, omdat ze, naargelang de situatie, elementen uit beidestromingen toepassen.

3Hiertoe behoorden onder andere Chebychev, Markov en Lyapunov.4Een meer uitgebreide biografie is in hoofdstuk twee te vinden.

5

Page 9: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Uit pure wiskundige motivatie bewees Markov dat de onafhankelijkheid van toe-valsveranderlijken geen noodzakelijke voorwaarde was voor de geldigheid van dezwakke wet van de grote aantallen. Hij onderzocht een rij die gevormd wordtdoor een afhankelijke variabele en werd zo de grondlegger van zijn theorie overMarkovketens. Vele wetenschappers pikten zijn ideeen op, waardoor zijn theorievandaag de dag een krachtig middel is om vele fenomenen op aarde te beschrijven([31]).

De Markovketens zijn onder andere zo krachtig omdat ze ingezet worden in MarkovChain Monte Carlo methoden (MCMC). Dit houdt in dat men immens moeilijkte berekenen integralen benadert door een Markovketen op te bouwen. Beginjaren ’90 betekende dit een ‘giant leap’ voor de statistiek. Nu is de “explosie”over, maar de horizon wordt verruimd richting nog moeilijkere problemen als kli-matologie. Hoewel het concept reeds in de jaren ’50 bestond, vond MCMC pasbegin jaren ’90 de weg naar het grote publiek. Logische redenen waren de te tragecomputers en het wantrouwen tegenover de implementatie ([26]).

Mijn doelstelling in deze masterproef is uitleggen hoe bovenstaande begrippen enconcepten verband houden met elkaar. Ik veronderstel dat de lezer een basiskennisstatistiek kan voorleggen zodanig dat hij bekend is met onder andere het toetsenvan hypothesen. De opmaak van dit document werd verzorgd door de tekstver-werker LATEX. Algoritmes werden geımplementeerd in het softwarepakket R en demeeste figuren werden gegenereerd via Maple.

Deze masterproef bestaat uit drie delen. We geven een beknopte samenvatting:

• Hoofdstuk 1 beslaat een inleiding in een andere statistische stroming, namelijkde Bayesiaanse stroming. We bespreken de voornaamste tegenstellingen metde klassieke visie, waarna we de werkwijze van de Bayesianen naar voorbrengen.

• In hoofdstuk 2 gooien we het over een compleet andere boeg, want opzich heeft hoofdstuk twee niets te maken met Bayesiaanse statistiek. Weverdiepen ons in de theorie van Markovketens en gaan in het bijzonder kij-ken naar het asymptotisch gedrag van Markovketens.

• Hoofdstuk 3 combineert de eerste twee hoofdstukken, in die zin dat we enkelebaanbrekende algoritmes uitleggen die werken op basis van Markovketens en(vooral) uitgaan van een Bayesiaanse visie. We behandelen tot slot eentoepassing van zo’n algoritme.

6

Page 10: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Hoofdstuk 1

De Bayesiaanse statistiek

Het statistisch schisma tussen de frequentisten en de Bayesianen zorgde in de jaren’50 en ’60 voor hevige discussies op professionele meetings, waar men argumentenop tafel probeerde te leggen die de ene visie boven de andere plaatst. Een centralevraag was in hoeverre men subjectieve meningen mag vermengen met objectiefwetenschappelijk onderzoek ([19]).Het is niet onze bedoeling om partij te kiezen. Wij geven enkel een korte, objectieveintroductie over de Bayesiaanse statistiek en de mate waarin ze verschilt van defrequentistische statistiek, omdat deze theorie doorlopend aan bod komt in dezemasterproef. Hoewel de kanstheorie achter beide dezelfde is, zetten we de grootsteverschillen op een rijtje, gekruid met kritiek en geıllustreerd met een voorbeeldje.

1.1 Tegenstellingen tussen de klassieke en de Bayes-

iaanse statistiek.

1.1.1 Definitie van kans.

We kunnen het begrip kans op twee manieren beschouwen.

Enerzijds hebben we de klassieke statistiek, waar men voor het objectivistischekansbegrip opteert. Daarbij ziet men een kans als een frequentiequotient, die derelatieve frequentie van een bepaalde gebeurtenis bij onafhankelijke herhalingenvan een experiment weergeeft ten opzichte van het aantal uitgevoerde experimen-ten. Hoe meer experimenten worden uitgevoerd, hoe dichter deze kans komt bijde theoretische kans. De overeenkomstige asymptotische benadering, corresponde-rend met een oneindig aantal experimenten, wordt de frequentistische benaderinggenoemd. De kansverdeling is een functie van de uitkomstenverzameling Ω naarhet interval [0, 1], waarbij we aan elke uitkomst een kans hechten, via de limiet van

7

Page 11: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.1. Tegenstellingen tussen de klassieke en de Bayesiaanse statistiek. 8

het frequentiequotient.

Anderzijds is er de Bayesiaanse statistiek, waarin het subjectivistische kansbe-grip gehanteerd wordt. Het kansbegrip wordt er beschouwd als een persoonlijkeopvatting over de onzekerheid dat een bepaalde gebeurtenis zal optreden. Menhecht een subjectieve graad van geloof aan deze gebeurtenis. Nadeel is dat verschil-lende personen, naargelang hun ervaring, verschillende inschattingen van kansenkunnen toekennen. Een voordeel van de Bayesiaanse benadering is dan weer dathij bijvoorbeeld van toepassing is op niet herhaalbare experimenten, zoals experi-menten met betrekking tot het weer, waarbij men bijvoorbeeld de kans wil te wetenkomen dat het de volgende dag zal regenen. Een subjectivistische benadering leidttot kansverdelingen met onzekere parameters (dus niet meer deterministisch) dieop hun beurt ook een bepaalde verdeling volgen, dewelke de graad van geloof in eenbepaalde parameterwaarde weergeeft. Bijgevolg hebben we in dit geval te makenmet zowel parameter - als steekproefonzekerheid([13]):

• Parameteronzekerheid: a priori onzekerheid omtrent de verdelingsparame-ters.

• Steekproefonzekerheid: onzekerheid die uiteraard ook voorkomt in de fre-quentistische benadering. Ze duidt op het feit dat verschillende herhalingenvan het experiment verschillende data zullen opleveren.

Opmerking 1.1. Het is niet zo dat de Bayesianen meer onzekerheid in rekeningbrengen. Ook bij de frequentisten is er parameteronzekerheid, maar zij gaan ergewoon van uit dat men op voorhand geen uitspraken kan doen over de verdelings-parameters.

1.1.2 Is de waarheid een zekerheid?

Met de waarheid bedoelen we het model onderliggend aan de data. Om dit modelte achterhalen kiezen de frequentisten en de Bayesianen een andere weg. De fre-quentisten redeneren dat ze dit deterministische, onbekende model kunnen bepalendoor te onderzoeken hoe goed de data bij een opgesteld model passen:

P (data|model).

De Bayesianen daarentegen maken enkel gebruik van wat werkelijk geobserveerdwordt (plus de subjectieve graad van geloof)([11]):

P (model|data).

8

Page 12: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.1. Tegenstellingen tussen de klassieke en de Bayesiaanse statistiek. 9

Ter verduidelijking bekijken we volgend bekend experiment ([18]).

Voorbeeld 1.1. (Opgooien van een muntstuk.)Veronderstel dat men in 12 onafhankelijke worpen met een muntstuk 9 keer ‘kop’en 3 keer ‘munt’ observeert. We willen de nulhypothese H0 : θ = 1

2testen tegenover

het alternatief Ha : θ > 12, met θ de echte waarschijnlijkheid op het gooien van

kop. Met enkel deze gegevens hebben we twee keuzes bij het opstellen van delikelihoodfunctie:

1. Binomiaal: stel X het aantal keer dat men ‘kop’ vaststelt in 12 worpen. Danis X ∼ B(12, θ) en de likelihood wordt dan gegeven door

L1(θ) =

(129

)θ9(1− θ)3.

2. Negatieve Binomiaal: we kunnen het experiment beschouwen als het op-gooien van een muntstuk tot men 3 keer ‘munt’ geworpen heeft. Dus, alsX het aantal keer ‘kop’ voorstelt, hebben we 9 successen nodig nog voor delaatste worp gegooid is (want dat is zeker munt, om het experiment af tesluiten). We krijgen

L2(θ) =

(119

)θ9(1− θ)3.

Op basis van de p-waarde kunnen de frequentisten nu H0 : θ = 12

al dan nietverwerpen. Voor de binomiale likelihood krijgen we

Pθ= 12(X ≥ 9) =

12∑j=9

(12j

)θj(1− θ)12−j = 0.075,

terwijl de likelihood voor de negatieve binomiaal ons het volgende geeft:

Pθ= 12(X ≥ 9) =

∞∑j=9

(2 + jj

)θj(1− θ)3 = 0.0325.

We zouden H0 bijgevolg verwerpen op het 5% significantieniveau mocht X negatiefbinomiaal verdeeld zijn, maar niet als X binomiaal verdeeld zou zijn. Aangeziener in de opgave geen extra informatie gegeven werd, weten we niet welke richtingwe uit moeten gaan (i.e. welke verdeling we moeten kiezen).

Bayesianen nemen een heel andere houding aan aangaande dit voorbeeld, vermitszij streng vasthouden aan het vrij controversiele het likelihood principe([9]). Dit

9

Page 13: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.1. Tegenstellingen tussen de klassieke en de Bayesiaanse statistiek. 10

principe zegt dat het totaal aan informatie over θ, voorzien door de dataD, vollediggegeven wordt door de likelihoodfunctie. Uit evenredige likelihoodfuncties moetenwe volgens het principe dezelfde gevolgen kunnen trekken. In dit voorbeeld zijn debeschouwde likelihoodfuncties op een veelvoud na gelijk (ze verschillen enkel doorhet experimental design). Ze zijn dus evenredig, hoewel ze niet dezelfde resultatengeven.De Bayesianen wijten deze hindernissen aan het gebruik van data die er niet zijn.Alle relevante informatie over θ die door de data gegeven wordt, zit reeds in delikelihood. Men heeft slechts negen maal kop geteld (= D), dus waarom zoudenwe dan de kans berekenen dat er meer dan 9 keer kop gegooid wordt en dezeinformatie gebruiken in onze besluitvorming?([12])

1.1.3 Confidence interval versus credible interval.

Om bepaalde modelparameters te schatten via steekproefgegevens, maakt men inde klassieke statistiek gebruik van een 95% (of 68% enz.) betrouwbaarheidsin-terval of confidence interval. Een puntschatting is zelden correct, zodat men watonzekerheidsmarge inbouwt rond de steekproefuitkomst. De interpretatie van zo’ninterval is dat de echte parameterwaarde1 op 100 experimenten 95 keer effectieftussen de betrouwbaarheidsgrenzen ligt.

In de Bayesiaanse wereld stelt men ook een interval op: een geloofwaardigheidsin-terval of credible interval. Zoals we weten ligt de parameterwaarde bij de Bayesia-nen niet vast, waardoor de interpretatie van zo’n interval sterk afwijkt van hetklassieke geval. Een geloofwaardigheidsinterval geeft namelijk de waarschijnlijk-heid weer dat de parameter in het interval ligt. Met een 95% interval heb jedan 95% kans dat de parameter binnen de grenzen van het interval bevat is. Inhet klassieke geval ligt de parameterwaarde vast, waardoor de parameter voor defrequentisten wel of niet in het interval ligt. Na het zien van de betrouwbaarheids-intervallen kunnen de frequentisten concluderen dat een smal interval aangeeft datde gevolgde procedure kwaliteitsvol is. De Bayesianen hebben een (hoog) kansper-centage dat de populatieparameter in het interval ligt ([11]).

1.1.4 P-waarde.

In de klassieke interpretatie geeft de p-waarde aan hoe extreem de gevonden waardevoor de toetsingsgrootheid is in zijn verdeling onder de nulhypothese. De p-waardeberekent de kans dat je een extremere waarde vindt, gegeven de nulhypothese. Hoe

1Met echte parameterwaarde wordt de populatieparameterwaarde bedoeld. Dit is de waardevoor de te schatten parameter mocht men over een volledige populatie beschikken, en niet enkelover een steekproef.

10

Page 14: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.1. Tegenstellingen tussen de klassieke en de Bayesiaanse statistiek. 11

kleiner deze kans, hoe meer bewijs er is tegen de nulhypothese. Wanneer de p-waarde onder het significantieniveau α duikt, verwerpen we de nulhypothese tenvoordele van het alternatief. Dit zorgt niettemin voor enige verwarring, omdateen grote p-waarde eigenlijk aangeeft dat we te weinig bewijs hebben tegen denulhypothese, maar veel wetenschappers zeggen niettemin verkeerdelijk dat we denulhypothese aanvaarden.

De Bayesiaanse methodes geven als resultaat een uitkomst dat een bepaalde hy-pothese waarschijnlijker is dan de andere. Ze verwerpen helemaal niets op basisvan een p-waarde. De p-waarde speelt een minder cruciale rol bij de Bayesia-nen, temeer omdat bij het gebruik van de p-waarden de waarschijnlijkheden vanongeobserveerde data berekend worden, wat ingaat tegen het likelihood principe,zoals we in voorbeeld (1.1) gezien hebben ([7],[12]).

Voorbeeld 1.2. (De nieuwe bioscoop.)Men doet een marktonderzoek om na te gaan of in een bepaalde stad waar reedstwee bioscopen zijn een derde bioscoop voldoende rendabel zou zijn. De investeringdie nodig is, lijkt zinvol als een standaardgezin (een gezin met twee volwassenenen twee kinderen) per jaar gemiddeld meer dan 14 uur naar de film gaat. Eenlukrake steekproef van 80 standaardgezinnen levert een steekproefgemiddelde van14.5 uur per jaar met 1.4 als standaarddeviatie. Men veronderstelt dat de datanormaal verdeeld zijn. We zullen

(a) de p-waarde van de teststatistiek berekenen om ons op basis daarvan te ver-antwoorden voor de bouw van een nieuwe bioscoop. We houden er rekeningmee dat men slechts 1% risico wil lopen de nieuwe bioscoop te bouwen alshet gemiddelde aantal uren die een standaardgezin per jaar naar de film gaattoch niet meer dan 14 uur bedraagt.

(b) een 95% betrouwbaarheidsinterval opstellen voor de gemiddelde tijd die eenstandaardgezin per jaar aan de bioscoop besteedt ([35]).

In de wetenschap dat de kans om een type I fout te begaan, dus om de nulhypotheseverkeerdelijk te verwerpen, 0.01 bedraagt, formuleren we de hypothesen

H0 : µ = 14,Ha : µ > 14.

Aangezien de populatievariantie niet gekend is, is onze teststatistiek

T =14.5− 14

1.4/√

80= 3.19.

11

Page 15: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 12

De p-waarde is nu de kans dat we nog iets extremers vinden onder de nulhy-pothese, P (t79 > 3.19). De tabel voor de t-verdeling geeft ons een p-waarde van0.001020511. Dit is veel kleiner dan het vooropgestelde significantieniveau, waar-door we de nulhypothese verwerpen. De p-waarde is zelfs heel klein, waardoor webeschikken over een sterk bewijs tegen H0.Een 95% betrouwbaarheidsinterval wordt gegeven door

[14.5− t79,0.0251.4√

80, 14.5 + t79,0.025

1.4√80

] = [14.2, 14.8],

met andere woorden, in 95 op de 100 gevallen zal µ in dit interval liggen. 14behoort in 95 op de 100 gevallen niet tot dit interval, waaruit we terug besluitendat µ significant verschilt van 14 op het 5% significantieniveau.

1.2 De Bayesiaanse statistiek.

In deze sectie gaan we dieper in op de Bayesiaanse statistiek.

1.2.1 Een stukje geschiedenis.

De Bayesiaanse statistiek is gebaseerd op een - in 1764 postuum verschenen - essayvan de Engelse dominee Thomas Bayes ( 1702 - † 7 april 1761)2. Bayes wasde oudste zoon van dominee Joshua Bayes en Anne Carpenter. Het is niet geheelduidelijk hoe Bayes’ wiskundekennis tot stand is gekomen. Hacking beweert datBayes als zoon van een non-conformist prive-onderwijs volgde, terwijl Barnardop de mogelijkheid wijst dat de jonge Bayes onder de vleugels van De Moivreterechtkwam. Andere historici vermoeden dat hij gewoon een opleiding volgde voorhet priesterschap. Ook aan de universiteit van Edinburgh3 in Schotland, waar hijin 1719 de studies logica en theologie aanvatte, zijn er nooit bewijzen gevondendat Thomas Bayes wiskunde studeerde.Na zijn studies werd hij 22 jaar lang, van 1730 tot 1752, priester in Tunbridge Wells,zo’n 35 mijl ten zuid-oosten van Londen. Vermoedelijk werkte hij terzelfdertijdaan zijn baanbrekende probabiliteitstheorie. De theorie werd gepresenteerd in het‘Essay towards solving a problem in the Doctrine of Chances’ en werd in 1764

2Bayes’ posterior is beter gekend dan zijn prior. De geboortedatum van Bayes blijft, evenalszijn portret, wegens het ontbreken van een bron, voer voor discussie. Er werd zelfs een wedstrijdgeorganiseerd in ‘The IMS Bulletin, Vol. 17, No. 1, January/February 1988’ om de correctegeboortedag van Bayes te achterhalen.

3Om op het vasteland te kunnen studeren, was Bayes verplicht om naar Schotland te trekken,aangezien non-conformisten niet werden toegelaten in Oxford of Cambridge.

12

Page 16: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 13

gepubliceerd in de ‘Philosophical Transactions of the Royal Society4 of London’.De conclusies werden in 1781 aanvaard door Laplace, maar werden door Boole invraag gesteld en veroorzaken sindsdien veel controverse ([5]).

Figuur 1.1: Dominee Thomas Bayes ([20]).

Aangezien de Bayesiaanse benadering in de statistiek veel ouder is dan de frequen-tistische filosofie, is het verbazingwekkend dat deze stroming niet meer responsgevonden heeft in wetenschappelijk onderzoek. Dit komt onder meer omdat deBayesiaanse theorie negeerd werd of gelimiteerd was door de vele complexe inte-gralen in een doorgaans simpel concept. Ironisch genoeg vormt dit oorspronkelijkzwakke punt nu net het sterke punt van de Bayesianen, want sinds de jaren ’50 isde ontwikkeling van software in volle opmars, waardoor de Bayesiaanse benaderingaan populariteit wint, dankzij de steeds sterker geworden computers.

1.2.2 De regel van Bayes.

De regel van Bayes is een krachtig middel om verschillende bronnen van informatiete combineren. Ze vormt de steunpilaar in Bayes’ probabiliteitstheorie en in feiteis de hele Bayesiaanse methodiek gebaseerd op deze beroemde stelling die kwan-tificeert wat de nieuwe a posteriori onzekerheden zijn, gegeven een verzamelingvan a priori onzekerheden. Alvorens enige data geobserveerd is, accumuleren weal de kennis die we hebben in een priorverdeling voor de onbekende parameter.Na het observeren van de data passen we onze verdeling aan tot een posterior-verdeling.Het Theorema van Bayes wordt ook wel de ‘omkeerformule’ genoemd, omdat heteen voorwaardelijke kans berekent uit de omgekeerde voorwaardelijke kans.

4Hij was sinds 1742 lid van de Royal Society, hoewel hij op dat moment nog geen publicatieshad uitgewerkt onder zijn eigen naam.

13

Page 17: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 14

Opmerking 1.2. Hoe kiest men nu de priorverdeling? Subjectieve kennis integre-ren in een analyse lijkt inderdaad eerder tegenstrijdig met een zo objectief moge-lijke wetenschappelijke gevolgtrekking. Op zich kan men een volledige masterproefschrijven rond deze vraag, maar onze focus ligt elders, waardoor het voldoende is teweten dat deze kennis wordt gevormd door reeds afgerond onderzoek of expertise.Wanneer er weinig a priori informatie voor handen is, maakt men gebruik van nietinformatieve ‘flat’ (= vlakke) priorverdelingen. Toch vinden sommige frequentistendat het sowieso gevaarlijk is om afhankelijk te zijn van een priorverdeling.

Definitie 1.1. (Voorwaardelijke kans) Stel dat A en B twee gebeurtenissenzijn in een uitkomstenruimte Ω. Is P (B) > 0, dan is de voorwaardelijke kans vanA gegeven B gelijk aan5

P (A|B) =P (A ∩B)

P (B).

Stelling 1.1. (De regel van Bayes) Stel A1, . . . , Ak een partitie van de uitkom-stenruimte Ω zodat P (Ai) > 0, ∀i. Als P (B) > 0, dan geldt voor elke i = 1 . . . , k,

P (Ai|B) =P (B|Ai)P (Ai)∑kj=1 P (B|Aj)P (Aj)

. (1.1)

We noemen P (Ai) de a priori verdeling van Ai, P (B|Ai) de likelihood en P (Ai|B)de a posteriori verdeling van Ai.

Bewijs. We passen de definitie van voorwaardelijke kans tweemaal toe, gevolgddoor de wet van de totale kans6.

P (Ai|B) =P (Ai ∩B)

P (B)=P (B|Ai)P (Ai)

P (B)=

P (B|Ai)P (Ai)∑kj=1 P (B|Aj)P (Aj)

.

Voorbeeld 1.3. (Een eenvoudig medisch-diagnostisch voorbeeld ([28]).)Zij de kans op een niersteen a priori gegeven (P (N) = 1

100). De uitkomstenruimte

bestaat hier uit twee elementen: ofwel heb je een niersteen, ofwel niet. De dataworden weergegeven via de beschikbare informatie over urinetesten. De kans dat jeurinetest positief is (U) als je een niersteen hebt is 80%. De kans dat je urinetestvals alarm slaat is 0.10. Wat is de kans dat je een niersteen hebt, gegeven je

5Analoog geldt voor de voorwaardelijke kans van B gegeven A dat P (B|A) = P (B∩A)P (A) .

6De wet van de totale kans zegt dat men de kans op een gebeurtenis B kan opsplitsenin de voorwaarde dat een gebeurtenis A wel of niet is opgetreden: P (B) = P (B|A)P (A) +P (B|Ac)P (Ac). Een veralgemening volgt wanneer er meer dan twee disjuncte mogelijkhedenvoor A voorkomen, die ook een partitie vormen in de uitkomstenruimte.

14

Page 18: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 15

urinetest?

We weten

P (N |U) =P (N)P (U |N)

P (N)P (U |N) + P (¬N)P (U |¬N).

De getallen invullend, krijgen we

P (N |U) =0.01× 0.80

0.01× 0.80 + 0.99× 0.10= 0.075.

De kans dat je nierstenen hebt, wanneer je een positieve plas aflevert, is dus slechts7.5%.

Opmerking 1.3. Bestaat de uitkomstenverzameling voor een variabele θ bijvoor-beeld uit θ1, . . . , θk en zij B = (X1, . . . , Xn) de verzameling geobserveerde gegevensvoor n subjecten, dan krijgen we voor uitdrukking (1.1)

P (θi|B) =P (B|θi)P (θi)∑kj=1 P (B|θj)P (θj)

.

In het geval dat θ continu is, wordt de waarschijnlijkheid op θ = k beschrevendoor

f(θ = k|B) =f(B|θ = k)f(θ = k)∫

f(B|θ)f(θ)dθ. (1.2)

We integreren in de noemer over alle mogelijke waarden voor θ.

1.2.3 Bayesiaanse methodiek.

In de klassieke statistiek start men een onderzoek in de wetenschap dat de verde-lingsfunctie van de te schatten grootheden ‘gekend’ is. In de visie van de Bayesia-nen probeert men een mechanisme van updaten van waarschijnlijkheden te ont-wikkelen.

Zoals gezegd zijn in de Bayesiaanse statistiek zowel de data (D) als de parameters(Θ) stochastisch. Om aan gevolgtrekking te kunnen doen hebben we een geza-melijke verdelingsfunctie nodig voor de geoberveerde data en de parameters. Dezewordt ons gegeven door het product van de a priori verdeling P (Θ) en de likelihoodP (D|Θ):

P (D,Θ) = P (D|Θ)P (Θ).

De structuur van de gezamelijke verdeling van data en variabelen wordt bij eenniet-informatieve priorverdeling vooral bepaald door de likelihoodfunctie.

15

Page 19: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 16

Via de stelling van Bayes komen we tot de a posterioriverdeling

P (Θ|D) =P (D|Θ)P (Θ)∫P (D|Θ)P (Θ)dΘ

. (1.3)

De regel van Bayes vormt dus eigenlijk de link tussen de a priori verdeling, de dataen de a posteriori verdeling. Eventueel, als er nieuwe data opduiken, doorlooptmen het hele proces vervolgens opnieuw, met dit verschil dat men de verkregena posteriori verdeling nu als a priori verdeling inzet. Uiteindelijk leest men deinformatie over de parameters af uit de laatste update van de a posteriori verdeling.

Opmerking 1.4. De term a priori slaat op het feit dat men op voorhand, nogvoor men de data onderzocht heeft, informatie over de parameters vastlegt in eenverdeling. We spreken dikwijls ook gewoon van de priorverdeling. De a posterioriverdeling geeft dan de verdeling van de parameters mee na het analyseren van dedata. We spreken dikwijls ook van een posteriorverdeling.

Opmerking 1.5. De parameter- en de steekproefonzekerheid, waarvan sprake insectie 1.1.1 kunnen we nu vertalen via de net ingevoerde notaties. De onzekerheidvan de parameters wordt vertolkt door f(Θ). De steekproefonzekerheid vinden weterug in f(D|Θ).

De gezamelijke verdeling van de data en de parameters berekenen is in de meestegevallen geen onoverkomelijk probleem. Het voornaamste knelpunt is de integraalin de noemer van (1.3). Wanneer we met hoogdimensionale parameters te makenhebben, blijkt het dikwijls onmogelijk om deze integraal uit te rekenen. We kunnendeze integraal zien als een normaliseringconstante die er voor zorgt dat P (Θ|D)een verdelingsfunctie is. Dit wil zeggen, integreren we P (Θ|D) over alle mogelijkewaarden voor Θ, dan vinden we 1, omwille van die noemer:∫

P (Θ|D)dΘ =

∫P (D|Θ)P (Θ)∫P (D|Θ)P (Θ)dΘ

dΘ =

∫P (D|Θ)P (Θ)dΘ∫P (D|Θ)P (Θ)dΘ

= 1.

Voorbeeld 1.4. ([37])In dit voorbeeld illustreren we de werkwijze zoals ze hierboven beschreven staat.We vermeldden dat een posteriorverdeling heel vaak moeilijk te berekenen is, maarmits enkele vereenvoudigingen blijft het rekenwerk soms binnen de perken. Wekunnen bijvoorbeeld als priorverdeling toegankelijke verdelingen als de normaleverdeling gebruiken, waarvan de parameters gekend zijn. Als θ slechts uit eendimensie bestaat, dan bestaat ook de integraal in de noemer van (1.3) slechts uiteen integraal.

16

Page 20: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 17

Stel dus dat we vooraf geloven dat θ een normale verdeling volgt, net als de on-afhankelijk veronderstelde data Xn = (X1, X2, . . . , Xn):

Xi ∼ N(θ, σ2) ∀i,θ ∼ N(a, b2).

We veronderstellen dat a, b en σ gekend zijn.

Bij de frequentisten schat men θ bijvoorbeeld via de maximum likelihoodschatter.

Men bekomt x =∑ni=1 xin

als de MLE van θ, met standaarddeviatie se. Overigens,als alle n observaties normaal verdeeld zijn met gemiddelde θ en variantie σ2, danis het gemiddelde van die observaties ook normaal verdeeld met gemiddelde θ envariantie σ2

n. Bijgevolg is se = σ√

n.

Bij de Bayesianen wil men een posteriorverdeling voor θ opstellen. Allereerst wordteen gezamelijke verdeling opgesteld door het vermenigvuldigen van de gegevenpriorverdeling met de likelihoodfunctie van de observaties Xn:

f(θ,Xn) =1√

2πb2e−

12b2

(θ−a)2n∏i=1

1√2πσ2

e−1

2σ2(xi−θ)2 .

Bijgevolg is

f(θ|Xn) =f(θ,Xn)∫f(θ,Xn)dθ

=

1√2πb2

e−1

2b2(θ−a)2∏n

i=11√2πσ2

e−1

2σ2(xi−θ)2∫

1√2πb2

e−1

2b2(θ−a)2∏n

i=11√2πσ2

e−1

2σ2(xi−θ)2dθ

.

Aangezien de integraal in de noemer een functie van Xn zal zijn, kunnen we ditals een constante in θ beschouwen, want we berekenen de verdeling van θ, gegevenXn. We kunnen deze term dus weglaten, op voorwaarde dat we nu in termen vanevenredigheid spreken. In feite kunnen we dus elke term waar geen θ in voorkomt,beschouwen als een evenredigheidsfactor. Bovendien weten we dat we te makenhebben met een normale verdeling, want uit het feit datXn|θ en θ normaal verdeeldzijn, volgt een gezamelijke normale verdeling en dus is ook θ|Xn normaal verdeeld.

17

Page 21: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 18

We bekomen

f(θ|Xn) ∝ e−1

2b2(θ−a)2

n∏i=1

e−1

2σ2(xi−θ)2

∝ e−1

2b2(θ−a)2e−

12σ2

∑ni=1(xi−θ)2

∝ e−12[ θ

2

b2+a2

b2− 2aθb2

+∑ni=1(x

2i )

σ2+nθ2

σ2− 2

∑ni=1(xi)θ

σ2]

∝ e−12[θ2( 1

b2+ nσ2

)− 2aθb2− 2nxθ

σ2]

∝ e− 1

2

θ√( 1b2

+ nσ2

)−1−

xse2

1b2

+ nσ2−

ab2

1b2

+ nσ2

2

∝ e

− 12

θ−( xse2

+ ab2

)

( 1se2

+ 1b2

)√( 1se2

+ 1b2

)−1

2

We zien dus datθ|Xn ∼ N(θ, τ 2),

met

θ =xse2

+ ab2

1se2

+ 1b2

, τ 2 = (1

se2+

1

b2)−1. (1.4)

Stellen we w =1se2

1se2

+ 1b2

, dan is 1− w =1b2

1se2

+ 1b2

, zodat

θ = wx+ (1− w)a.

Het gemiddelde van de posteriorverdeling is dus de som van de (gewogen) gemid-delden van de priorverdeling en van de data. De gewichten zijn omgekeerd evenredigmet de respectievelijke varianties.

Het geval b2 = σ2.

Ten slotte kunnen we bij wijze van interpretatie het meer eenvoudige geval b2 = σ2

beschouwen, met σ nog steeds gekend. De priorverdeling is dan N(a, σ2). Wan-neer we deze informatie vermengen met de data bekomen we de posteriorverdelingN(θ, τ 2) met posteriorgemiddelde

θ =xse2

+ ab2

1se2

+ 1σ2

=nxσ2 + a

σ2

nσ2 + 1

σ2

=(∑n

i=1 xi) + a

n+ 1.

18

Page 22: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 19

We zien dus dat we de informatie, gegeven door de priorverdeling, kunnen inter-preteren als een extra waarde a in de steekproef. In plaats van te delen door n,delen we nu door n + 1. Dit wil echter ook zeggen dat de priorverdeling weiniginvloed zal uitoefenen wanneer n groot is.Wat de variantie betreft, is nu

τ 2 =(

1se2

+ 1σ2

)−1=(

nσ2 + 1

σ2

)−1=

σ2

n+ 1.

Waar de variantie van de priorverdeling nog σ2 was, is de variantie van de poste-riorverdeling, dus na het analyseren van de data, reeds kleiner. We kunnen duseen preciezer beeld vormen van de parameter θ door het incorporeren van a prioriinformatie.

Verband met de frequentistische benadering.

Stel dat de Bayesianen geen a priori informatie over θ op de kop kunnen tikken.Dit kunnen we weerspiegelen in de priorverdeling door b→∞ te nemen, waardoorwe een hele platte, niet informatieve priorverdeling krijgen. De steekproef blijftvaste grootte n behouden. Substitueren we dit in de uitdrukkingen voor θ en τ 2,dan bekomen we

θ = x,

τ 2 = se2,

waardoorθ|Xn ∼ N(x, se2).

We vinden met andere woorden resultaten die essentieel overeenstemmen met diein de frequentistische benadering!

In voorbeeld 1.2 hebben we reeds op frequentistische wijze een betrouwbaarheids-interval opgebouwd. Nu we weten hoe we een posteriorverdeling bepalen in deBayesiaanse statistiek hernemen we dit voorbeeld om een geloofwaardigheidsinter-val te vinden, zodat we het verschil tussen de frequentistische betrouwbaarheids-en de Bayesiaanse geloofwaardigheidsintervallen in de verf kunnen zetten.Een 95% geloofwaardigheidsinterval voor een parameter µ wordt bij de Bayesianenafgeleid uit de posteriorverdeling voor de parameter in kwestie. Men vormt eendeelverzameling C van M , met name de verzameling van alle mogelijke µ’s zodat

0.95 ≤ P (C|D) =

∫C

P (µ|D)dµ. (1.5)

19

Page 23: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 20

Indien µ discreet is, wordt de integraal vervangen door een sommatie. Dit verklaartmeteen ook het “≤” teken, omdat men in het discrete geval niet altijd exact 0.95uitkomt. Er zijn uiteraard veel deelverzamelingen C die voldoen aan ongelijkheid(1.5). Vult men C op met de parameterwaarden met de grootste waarschijnlijkheid,dan wordt men beloond met relatief smalle geloofwaardigheidsintervallen.

Figuur 1.2: Illustratie bij de werkwijze om een geloofwaardigheidsinterval op tebouwen ([12]).

Voor symmetrische posteriorverdelingen vinden we zo’n geloofwaardigheidsinter-val vrij gemakkelijk, door ‘af te kappen’ aan het α

2en (1− α

2) quantiel.

In het geval van een asymmetrische posteriorverdeling is de opgave iets moeili-jker. Om de verzameling C te vinden met de kleinste oppervlakte, dat is tevensde optimale C, omdat ze gevuld is met parameterwaarden met de grootste waar-schijnlijkheid, zoekt men de grootste constante k(α), zodat voor elke µ uit eenbepaalde deelverzameling C geldt dat P (µ|D) ≥ k(α).Concreet gebeurt het volgende: men kiest een waarde k(α) en steekt alle parame-terwaarden µ die voldoen aan P (µ|D) ≥ k(α) in een deelverzameling C. Als geldtdat P (C|D) ≥ (resp. ≤) 1−α wil dit zeggen dat ons geloofwaardigheidsinterval opdat moment te groot (resp. te klein) is. Bijgevolg ‘duwen’ we onze constante k(α)naar boven (resp. naar beneden), omdat een kleinere (resp. grotere) deelverza-meling C te bekomen. Herhalen we dit procede, dan vinden we ons geloofwaar-digheidsinterval. In figuur 1.2 hebben we deze werkwijze grafisch voorgesteld vooreen posteriorverdeling Gamma(2,2) en een k(α) van 0.2.

20

Page 24: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 21

Dit zorgt soms voor vervelend rekenwerk, waardoor men zelfs voor asymmetrischeposteriorverdelingen de symmetrische werkwijze toepast, waarbij men toelaat voorminder waarschijnlijke waarden voor µ en meer waarschijnlijke waarden voor µ nietopneemt in het credible interval ([12]).

Tot zover de theoretische uiteenzetting. Laten we dit toepassen op ons voorbeeldover de nieuwe bioscoop.

Voorbeeld 1.5. (vervolg van ‘de nieuwe bioscoop’.)Allereerst kiezen we een priorverdeling voor µ. We willen bewijzen dat een lukraakgezin jaarlijks gemiddeld meer dan 14 uur in de cinema doorbrengt. Dit hebbenwe ondergebracht in de alternatieve hypothese. We willen zeker geen type I foutmaken, want dit zou betekenen dat er een duur cinemacomplex gebouwd wordtterwijl dit eigenlijk niet nodig is. Het is dan ook niet verwonderlijk dat we bijhet kiezen van de priorverdeling de nulhypothese volgen, omdat we de alternatievehypothese geen duwtje in de rug willen geven. Daarom kiezen we N(10, 2) alspriorverdeling7.Uit de opgave blijkt dat X1, . . . , X80 normaal verdeeld zijn volgens N(14.5, 1.4).Met andere woorden, we kunnen de resultaten uit voorbeeld (1.4) toepassen, omdatwe met twee normale verdelingen werken. Hier is

se2 = 1.42

80,

θ = 14.5,a = 10,b2 = 2.

Volgens de formules (1.4) is dan

P (µ|D) ∼ N(14.44, 0.0242).

Deze posteriorverdeling is symmetrisch, waardoor we de eenvoudige ‘afkap’ me-thode kunnen toepassen. Het geloofwaardigheidsinterval is bijgevolg

[14.44− 1.96×√

0.0242, 14.44 + 1.96×√

0.0242] = [14.14, 14.75]

We kunnen met 95% zekerheid stellen dat de echte parameterwaarde in dit ge-loofwaardigheidsinterval ligt. We zien dat dit interval zeer goed gelijkt op hetbetrouwbaarheidsinterval in het frequentistische geval in voorbeeld 1.2, maar wan-neer we de twee intervallen naast elkaar leggen, merken we toch de invloed van de

7Als priorverdeling voor µ nemen we normaal gezien een lognormale verdeling omdat we wetendat alle waarden positief zijn. We stellen echter een normale verdeling voor, omdat de kans datµ kleiner dan 0 is in deze priorverdeling toch onwaarschijnlijk klein is. Bovendien kunnen wedan eerder gevonden resultaten gebruiken, waardoor het rekenwerk beperkt blijft.

21

Page 25: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 22

priorverdeling. Die zorgt er namelijk voor dat de grenzen van het geloofwaardig-heidsinterval lager liggen dan de grenzen van het betrouwbaarheidsinterval. De-salniettemin komen we tot dezelfde conclusies, namelijk dat we de nulhypotheseverwerpen.Uit de a posteriori verdeling berekenden we de kans dat µ groter is dan 14. Dezekans bedraagt 97.6% en wijst duidelijk in de richting van M2. Figuur 1.3 beeldtzowel de priorverdeling als de posteriorverdeling af. Na het analyseren van de datakunnen we een veel preciezer beeld vormen van de parameter µ.

Figuur 1.3: A priori verdeling P (µ) en a posteriori verdeling P (µ|D).

1.2.4 Hypothesetesten.

Dit onderwerp werd in sectie (1.1.2) reeds aangeraakt, maar wordt nu iets meeruitgediept. Zoals gezegd werken Bayesianen niet op basis van een p-waarde omhypothesen te testen. In plaats daarvan worden (mogelijk meer dan twee) model-len opgesteld, waarvan de waarschijnlijkheid gecontroleerd wordt aan de hand vande berekende posteriorverdeling8. Op basis van die waarschijnlijkheid wordt eenmodel al dan niet aanvaard.

Stel bijvoorbeeld dat we twee kandidaat modellen (M1 en M2) hebben. De ver-

8Indien meerdere modellen worden getest, worden de posteriorverdelingen paarsgewijsvergeleken.

22

Page 26: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 23

houding van beide posteriorverdelingen wordt gegeven door

f(M1|D)

f(M2|D)=

f(M1)f(D|M1)f(D|M1)f(M1)+f(D|M2)f(M2)

f(M2)f(D|M2)f(D|M2)f(M2)+f(D|M1)f(M1)

=f(M1)

f(M2)× f(D|M1)

f(D|M2). (1.6)

We zien dat deze verhouding beınvloed wordt door twee quotienten. We startenmet een a priori waarschijnlijkheid voor beide modellen (dit is het eerste quotientin het rechterlid van (1.6)), maar een fundamenteel aspect van het testen van hy-pothesen bij de Bayesianen is de ‘Bayes factor’ B. Deze factor is het tweedequotient in het rechterlid van uitdrukking (1.6) en toont aan hoe de waarschijn-lijkheden van de modellen veranderen na het analyseren van de beschikbare data.Ze meet de sterkte van nieuw bewijsmateriaal uit de data:

B =

∫f(D|M1)f(M1)∫f(D|M2)f(M2)

=f(D|M1)

f(D|M2). (1.7)

Interpretatie van de Bayes factor.

Is B < 0.05, dan weten we dat de data meer dan 20 keer waarschijnlijker zijnonder M2, dan onder M1. Indien de priorverhouding geen voorkeur voor een modeluitdraagt, dit wil zeggen dat

f(M1)

f(M2)≈ 1,

dan is het duidelijk dat M2 de bovenhand nemen op M1.

Wanneer we de a posteriori ‘odds’9 kennen, kunnen we dit omrekenen naar dewaarschijnlijkheid dat een model aanvaard wordt via

odds =p

1− p⇐⇒ p =

odds

1 + odds,

met p de kans dat M1 aanvaard wordt als model. In het geval waar B < 0.05 enf(M1)/f(M2) ≈ 1 is

p <0.05

1.05= 0.0478.

Het is bijzonder onwaarschijnlijk dat M1 aanvaard wordt. Enkel wanneer de prior-informatie in het voordeel vanM1 pleit, zou deze kans nog vergroot kunnen worden.

9We kunnen hiervan gebruik maken omdat we bij het kiezen van een model het andere modeluitsluiten.

23

Page 27: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 24

Stel bijvoorbeeld dat op basis van de priorverdeling M1 twee keer zo waarschijnlijkis als M2. Dan is

f(M1)

f(M2)= 2.

Veronderstel dat uit de data blijkt dat B = 0.01, met andere woorden er is sterkbewijs tegen M1 aanwezig in de data. Bijgevolg is

f(M1|D)

f(M2|D)= 0.02,

of nog, het is 50 keer waarschijnlijker dat M1 als vals bestempeld wordt. Men hadeen sterk subjectief geloof in M1, waardoor dit model in ‘pole position’ startte,maar na het analyseren van de data bleek dit toch ten onrechte.

We moeten dus uitkijken bij het interpreteren van de Bayes factor, omdat de inter-actie met de priorinformatie doorslaggevend is voor het verwerpen of aanvaardenvan een model. Als een model duizend maal waarschijnlijker is nog voor de datageanalyseerd zijn, moet in de data extreem veel bewijsmateriaal verscholen zittenom dit model alsnog van de troon te stoten ([24]).

Voorbeeld 1.6. (vervolg van ‘de nieuwe bioscoop’.)We wisten al dat de data verdeeld waren volgens N(14.5, 1.4). We zullen vandeze gegevens gebruik maken om de Bayesfactor te berekenen. Net als in hetfrequentistische geval stellen we

M1 : µ = 14,M2 : µ > 14.

Wanneer we uitdrukking (1.7) uitschrijven in dit specifieke geval krijgen we

f(D|M1)

f(D|M2)=

f(D|µ,M1)∫∞14f(D|µ)f(µ|µ > 14)dµ

=f(D|µ,M1)∫∞

14f(D|µ) f(µ)

f(µ>14)dµ

=f(D|µ = 14)

E(f(D|µ)|µ > 14).

(1.8)De likelihoodfunctie van de data is

f(D|µ) =80∏i=1

1√2π1.4

e−12(xi−µ1.4

)2 .

Dit is evenredig10 met N(14.5, 1.42

80), waardoor we een ietwat andere werkwijze

kunnen volgen. We delen de waarschijnlijkheid op µ = 14 in deze verdeling door

10Dit volgt uit voorbeeld 1.4.

24

Page 28: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 25

de gemiddelde kans van een aantal waarden voor µ > 14 in deze verdeling. Dit doenwe door willekeurig een honderdtal waarden uit N(14.5, 1.4

2

80) te trekken, waarna we

de waarden groter dan 14 selecteren en het gemiddelde van hun waarschijnlijkhedenberekenen. We vinden dat

f(D|µ = 14)

f(D|µ > 14)= 1.471972e− 92,

hetgeen absoluut in het voordeel van M2 pleit.

25

Page 29: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

1.2. De Bayesiaanse statistiek. 26

Voorbeeld 1.7. (vervolg van ‘Opgooien van een muntstuk’).We hebben in dit voorbeeld ook reeds de frequentistische wijze van hypothesetestenuitgelegd, maar we willen dit nu ook doen op Bayesiaanse wijze, zij het op een ietsandere manier. We zullen namelijk een tweezijdige toets uitvoeren:

M1 : θ = 12,

M2 : θ 6= 12,

met θ de echte waarschijnlijkheid op het gooien van kop. Laten we veronderstellende priorinformatie zegt dat er dat 50% kans is dat θ = 1

2en 50% kans dat θ 6= 1

2.

Verder nemen we aan dat elke waarde voor θ 6= 12

even waarschijnlijk is, zodanig datde uniforme verdeling over het interval [0, 1] geselecteerd wordt als priorverdelingvoor θ 6= 1

2:

θ ∼ U [0, 1].

Zoals in voorbeeld (1.1) zouden we kunnen twijfelen over de verdeling van dedata, maar bij de Bayesianen maakt dit geen verschil, omdat de factoren waarinde likelihoodfuncties verschillen geen rol spelen in de Bayes factor. Ze wordennamelijk uit teller en noemer geschrapt. Laten we dus gewoon veronderstellen datde data binomiaal verdeeld zijn:

D|θ ∼ Bin(12, θ).

Via uitdrukking (1.7) krijgen we voor de Bayes factor

B =

(129

)(12)9(1− 1

2)3(

129

)[ ∫ 1

0θ9(1− θ)3dθ

] . (1.9)

In de teller vinden we de likelihoodfunctie terug voor M1. Voor M2 moeten weintegreren over elke waarde die θ in dit model kan aannemen. De integratiegrenzenzijn bijgevolg 0 en 1. We moeten normaal gezien corrigeren voor θ = 1/2, maar ditspeelt geen rol aangezien θ absoluut continu is op θ 6= 1

2en 1

2 een verzameling

van maat 0 is. P (M1) en P (M2) is voor elke θ gelijk aan 1.De verhouding van de posteriorverdelingen wordt dus enkel bepaald door de Bayesfactor in uitdrukking (1.9). Na berekening vinden we B = 0.698, waaruit webesluiten dat de kans op aanvaarding van M1

p =0.698

1.698= 0.41107

bedraagt, oftewel 41%.

26

Page 30: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Hoofdstuk 2

Introductie tot Markovketens

In dit hoofdstuk bespreken we de Markovketens. We doen dit op beknopte wijzedoor enkel de begrippen uit te leggen die we nodig hebben in het vervolg van dezemasterproef. In het bijzonder zijn we geınteresseerd wanneer een Markovketenzich zal settelen in een evenwichtstoestand. In het volgende hoofdstuk verklarenwe waarom we daar zoveel interesse voor tonen.

Figuur 2.1: Andrej Andrejevitsj Markov in 1886 ([39]).

Andrej Andrejevitsj Markov ( Rjazan, 14 juni 1856 - † Petrograd, 20 juli1922) was een Russisch wiskundige1, vooral bekend van zijn Markov Chain Theory.Verder was hij actief op het gebied van getaltheorie, analyse en probabiliteitstheo-rie. Op z’n vierde verhuisden de Markovs naar Sint-Petersburg, de toenmaligehoofdstad van Rusland, waar Markov toetrad tot een klassiek gymnasium. Naz’n middelbaar studeerde hij er aan de universiteit, meer bepaald aan de faculteitvoor mechanica en wiskunde, waar ook P.L. Chebychev actief was. Dit speelde

1Hij stond ook bekend als een politiek activist en een van de beste schakers van zijn tijd.

27

Page 31: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.1. Definities en voorbeelden. 28

een belangrijke rol in zijn carriere, omdat Markov reeds voordat hij zijn toekom-stige mentor ontmoette, beınvloed was door diens werk. Nadien werd hij uni-versitair medewerker, wat inhield dat hij de colleges ‘Inleiding in de analyse’ en‘Differentiaal- en integraalrekening’ gaf. Op dertigjarige leeftijd werd hij gehuldigdals bijzonder hoogleraar. Hij werd ook lid van de Academie voor wetenschappenvan Sint-Petersburg, op voorstel van Tsjebychev. Hij zou meer dan 120 artikelspubliceren, waarin hij met baanbrekende bijdragen voor een nieuw onderzoeksge-bied ijverde, de Markovketens ([4]).

2.1 Definities en voorbeelden.

Om een Markovketen te definieren, moeten we eerst twee begrippen uitleggen.

Veronderstel dat Xt een toevalsveranderlijke op tijdstip t voorstelt. t behoorttot een indexverzameling T 2, een deelverzameling van de natuurlijke getallen.De toestandsruimte S = s1, s2, . . . verwijst naar de mogelijke waarden dieXt kan aannemen. We gebruiken per afkorting vaak de subscripts van de toe-standen om aan te duiden in welke staat de toevalsveranderlijke zich bevindt:S = 1, . . . , i, . . . j, . . ..

Een Markovproces is een verzameling toevalsveranderlijken (Xt)t∈T , die voldoenaan volgende eigenschap:

P (Xt+1 = j|X0 = k, . . . , Xt = i) = P (Xt+1 = j|Xt = i) ∀t ∈ T,∀j, i, . . . , k ∈ S.

Deze Markoveigenschap betekent in woorden dat de waarschijnlijkheid dat de va-riabele X zich op tijdstip t + 1 in toestand j bevindt, in de wetenschap dat menalle vroegere toestanden kent, enkel afhangt van de huidige toestand.Om de toekomst van de keten te voorspellen hoeft men dus geen rekening te houdenmet het gegeven verleden, maar enkel met de huidige toestand waar de keten halthoudt. Met andere woorden, de overgangswaarschijnlijkheden P (.|.) van de ver-schillende waarden van de toestandsruimte hangen enkel af van de huidige staatvan de toevalsveranderlijke.

Gevolg 2.1. De Markoveigenschap is equivalent met

P (Xt+1 = j|X0 = k, . . . , Xt−s = i) = P (Xt+1 = j|Xt−s = i),

met s > 0. In woorden betekent dit dat de toekomst, gegeven het meest recenteverleden, onafhankelijk is van het nog verdere verleden ([33]).

2T kan zowel eindig als oneindig zijn.

28

Page 32: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.1. Definities en voorbeelden. 29

(Xt)t∈T is een Markovketen wanneer we een rij van toevalsveranderlijken X0, X1,X2, . . . beschouwen, gegenereerd door een Markovproces.Is S aftelbaar, dan hebben we te maken met een discrete Markovketen. Is Seen interval van reele getallen spreken we over een continue Markovketen. In dithoofdstuk beschouwen we enkel discrete ketens, omdat deze zich makkelijker lenentot het uitleggen van de in te voeren begrippen.

Definitie 2.1. (Homogene Markovketen)We spreken van een homogene Markovketen als de overgangswaarschijnlijkhedenniet veranderen met de tijd. Met andere woorden als voor elke t in T en voor elkei en j in S geldt dat

P (Xt+1 = j|Xt = i) = P (X1 = j|X0 = i).

In het vervolg beschouwen we enkel homogene Markovketens.

Een keten wordt gekarakteriseerd door zijn transitiematrix P . Een element vanP , dat we een transitie- of overgangswaarschijnlijkheid noemen, wordt gedefinieerdals

P (i, j) := P (Xt+1 = j|Xt = i) = P (X1 = j|X0 = i).

Hierbij verwijst i naar de rij en j naar de kolom waarin het element zich bevindt.In een discrete toestandsruimte voldoen de transitiewaarschijnlijkheden aan:

• P (i, j) ≥ 0,∀i, j ∈ S.

•∑

j P (i, j) = 1,∀i ∈ S.3

Dit zorgt ervoor dat P een stochastische matrix is. Dit wil zeggen, P telt enkelniet-negatieve reele getallen en voor iedere rij geldt dat de som van de elementenaltijd 1 is.

Definitie 2.2. Startend in toestand i noteren we de kans dat de keten zich optijdstip t in toestand j bevindt als4

P (t)(i, j) := P (Xt = j|X0 = i).

Definitie 2.3. (i→ j) Men zegt dat toestand j bereikbaar is vanuit i als

P (t)(i, j) > 0,

voor een tijdstip t.

3Dit moet 1 zijn, want de keten moet zich ergens bevinden op een volgend tijdstip.4Als t = 1, dan schrijven we gewoon P (i, j) in plaats van P (t)(i, j).

29

Page 33: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.1. Definities en voorbeelden. 30

Stelling 2.1. (Chapman Kolmogorov vergelijkingen5)Beschouw een Markovketen (Xt)t∈T . Dan geldt ∀i, j ∈ S,∀r, s ∈ T\0 dat

P (r+s)(i, j) =∑k∈S

P (r)(i, k)P (s)(k, j) (2.1)

en

P (Xr+s = j) =∑k∈S

P (Xr = k)P (s)(k, j). (2.2)

Vergelijkingen (2.1) en (2.2) noemt men de ‘Chapman Kolmogorov vergelijkingen’([33]).

Bewijs.

P (r+s)(i, j) = P (Xr+s = j|X0 = i)

=∑k∈S

P (Xr+s = j,Xr = k|X0 = i)

=∑k∈S

P (Xr+s = j|Xr = k,X0 = i)P (Xr = k|X0 = i) (2.3)

=∑k∈S

P (Xr+s = j|Xr = k)P (Xr = k|X0 = i) (2.4)

=∑k∈S

P (r)(i, k)P (s)(k, j).

Bij de overgang van (2.3) naar (2.4) hebben we gebruik gemaakt van gevolg 2.1van de Markoveigenschap.

P (Xr+s = j) =∑k∈S

P (Xr+s = j,Xr = k)

=∑k∈S

P (Xr+s = j|Xr = k)P (Xr = k)

=∑k∈S

P (s)(k, j)P (Xr = k).

Bij de laatste overgangen in beide afleidingen hebben we gebruik gemaakt van dehomogeniteit van de keten. Het verschil tussen uitdrukking (2.1) en uitdrukking(2.2) is dat in deze laatste geen begintoestand gekend is.

5De Brit Sydney Chapman en de Rus Andrej Kolmogorov kwamen onafhankelijk van elkaartot deze resultaten.

30

Page 34: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.1. Definities en voorbeelden. 31

Laatπj(t) = P (Xt = j)

de kans voorstellen dat de keten zich op tijdstip t in toestand j bevindt. Weveronderstellen in het vervolg dat de toestandsruimte van grootte n is. We sprekenvan de toestandwaarschijnlijkheden π(t) op tijdstip t wanneer we de kansen voorelke toestand op tijdstip t samenvoegen in een rijvector

π(t) = (π1(t), . . . , πn(t)).

π(t) stelt dus de verdeling van de keten voor op een tijdstip t. Uit de eigenschappenvan kansverdelingen volgt bijgevolg∑

i

πi(t) = 1.

π(0) geeft dus vectorieel de waarschijnlijkheden weer dat de variabele op het be-gintijdstip die bepaalde begintoestand aanneemt. Meestal stelt men alle waardenin π(0) gelijk aan nul, behalve een, die dan de (soms bewust gekozen) startwaardevan de keten weergeeft.

Gegeven de transitiewaarschijnlijkheden kunnen we dankzij de Chapman-Kolmogorovvergelijkingen gemakkelijk bepalen wat de kans is dat de keten zich op een volgendtijdstip in een bepaalde staat j bevindt. Wanneer we r = t en s = 1 stellen in(2.2) vinden we dat

P (Xt+1 = j) =∑k

P (Xt = k)P (k, j).

Dit is equivalent met

πj(t+ 1) =∑k

πk(t)P (k, j). (2.5)

Men overloopt al de toestanden en vermenigvuldigt de kans dat de keten zich inzo’n toestand bevindt op tijdstip t met de overgang van die toestand naar toestandj.In matrixvorm krijgen we voor (2.5)

(π1(t+1), . . . , πn(t+1)) = (π1(t), . . . , πn(t))

P (1, 1) . . . P (1, j) . . . P (1, n)

......

...P (k, 1) . . . P (k, j) . . . P (k, n)

......

...P (n, 1) . . . P (n, j) . . . P (n, n)

,

31

Page 35: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.1. Definities en voorbeelden. 32

of kortwegπ(t+ 1) = π(t)P.

Via iteratie bekomen we

π(t) = π(t− 1)P = π(t− 2)P 2 = . . . = π(0)P t. (2.6)

Met behulp van bovenstaande formule kunnen we de toestand van het Markovpro-ces op een willekeurig tijdstip t bepalen.

Opmerking 2.1. Een Markovketen ligt vast wanneer we beschikken over de be-gintoestand en de transitiewaarschijnlijkheden. Aan de hand daarvan kan menimmers de toestandswaarschijnlijkheden op elk tijdstip achterhalen.

In de volgende propositie gaan we een stapje verder en nemen meerdere stappenin beschouwing.

Propositie 2.1. Is (Xt)t≥0 een Markovketen, dan geldt voor elke toestand j ∈ S

P (Xk = j) =∑s1,...,sk

πs1(0)P (s1, s2)P (s2, s3) . . . P (sk, j), (2.7)

waarbij elke si, i ∈ 1, . . . k, gesommeerd wordt over de ganse toestandsruimteS6.

Bewijs. Uit (2.5) halen we dat

P (Xk = j) = πj(k) =∑sk−1

P (sk−1, j)πsk−1(k − 1), (2.8)

maar op zijn beurt is

πsk−1(k − 1) = P (Xk−1 = sk−1) =

∑sk−2

P (sk−2, sk−1)πsk−2(k − 2),

zodat (2.8) gelijk is aan

P (Xk = j) = πj(k) =∑

sk−1,sk−2

P (sk−1, j)P (sk−2, sk−1)πsk−2(k − 2).

Wanneer we onze redenering verderzetten, krijgen we uiteindelijk de gevraagdevorm.

6In principe komen alle toestanden in aanmerking om als volgende halte van de keten tedienen. Het hangt van experiment tot experiment af welke transitiekansen 0 zijn. In dat gevalvalt het desbetreffende pad uit de som, zodat enkel de mogelijke paden overblijven.

32

Page 36: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.1. Definities en voorbeelden. 33

Gevolg 2.2. Ligt de beginpositie van de keten vast op i, dan krijgen we

P (Xk = j|X0 = i) =∑s1,...,sk

P (i, s1)P (s1, s2) . . . P (sk, j). (2.9)

Bewijs. We kunnen uitdrukking (2.7) ook zien als het in beschouwing nemen vanalle mogelijke paden tot de keten in j arriveert. We sommeerden in het bewijs vanpropositie 2.1 ook over de begintoestand, omdat de beginsituatie niet vastlag. Nuis ze onbetwistbaar, we weten met zekerheid dat s0 = i, oftewel

πi(0) = 1.

Als we dus sommeren over s0, blijft enkel de term over waarbij s0 = i, want

πl(0) = 0,∀l ∈ S\i.

We kunnen met andere woorden de sommatie over s0 weglaten. Dit geeft ons hetgevraagde.

Gevolg 2.3. Noteren we met (P k)(i, j) het element op de rij i en kolom j van dekde macht van P , dan is

P (k)(i, j) = (P k)(i, j). (2.10)

Bewijs. We weten dat P (k)(i, j) = P (Xk = j|X0 = i). Het uitschrijven van hetlinkerlid van (2.10) is bijgevolg gelijk aan uitdrukking (2.9). Het uitgeschrevenrechterlid geeft ons eveneens deze uitdrukking, hetgeen ons meteen het gevraagdeoplevert.

Voorbeeld 2.1. (Het weer ([3]).)Veronderstel dat het weer zich als een Markovproces gedraagt. Dit wil zeggendat men zich bij de weersvoorspelling van morgen enkel zou baseren op het weervan vandaag. Om de eenvoud te bewaren stellen we dat het weer slechts drievormen kan aannemen: zonnig (Z), bewolkt (zonder regen) (B) of stormachtig(S) (waarmee we bedoelen dat het regent en hagelt). We geven de fictieve over-gangswaarschijnlijkheden in de transitiematrix P :

P =

12

12

012

14

14

0 13

23

,

met andere woorden,

P (Z|Z) = 12, P (Z|B) = 1

2, P (Z|S) = 0.

P (B|Z) = 12, P (B|B) = 1

4, P (B|S) = 1

3.

P (S|Z) = 0, P (S|B) = 14, P (S|S) = 2

3.

33

Page 37: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.1. Definities en voorbeelden. 34

Via (2.6) kunnen we dus de verdeling te weten komen op een bepaald tijdstipt. Stel dat het vandaag zonnig is (π(0) = (1 0 0)), dan is de verdeling voorovermorgen π(2) = π(1)P = π(0)PP . Met andere woorden

π(2) = (1 0 0).

12

12

012

14

14

0 13

23

12

12

012

14

14

0 13

23

= (

1

2

1

20)

12

12

012

14

14

0 13

23

= (

1

2

3

8

1

8).

We lezen af dat we 50% kans hebben dat het overmorgen ook zonnig is als hetvandaag zonnig is.

We kunnen deze waarden dankzij gevolg 2.3 ook gewoon terugvinden door P 2 teberekenen. Zo is

P 2 =

12

38

18

38

1948

1148

16

1136

1936

.

Het element op de eerste rij en in de eerste kolom geeft ons de kans dat het tweedagen na een zonnige dag opnieuw zonnig zal zijn.

Op die manier kunnen we ook de kansen voor de volgende dagen berekenen. Dekans dat het na negen dagen zonnig, bewolkt of stormachtig is, vinden we terugin P 9:

P 9 =

0.37 0.36 0.270.36 0.36 0.270.36 0.36 0.28

.

We hebben de waarden voor de volgende negen dagen uitgezet in figuur 2.2. Dehorizontale as geeft het tijdstip weer, de verticale as toont de waarschijnlijkheid.De waarden voor dag k met startpositie ‘zonnig’ (resp. ‘bewolkt’, ‘stormachtig’)lezen we af op de eerste (resp. tweede, derde) rij van P k. Het valt meteen opdat er na verloop van tijd een soort constante in de waarschijnheden tevoorschijnkomt. We bespreken dit in de volgende sectie.

34

Page 38: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 35

Figuur 2.2: Evolutie van het weer.

2.2 De invariante distributie.

Een belangrijk aspect van Markovketens is hun asymptotisch gedrag. Naar waarevolueert een Markovketen? We vragen ons in de eerste plaats af wanneer detransitiewaarschijnlijkheden naar een evenwicht evolueren. Met evenwicht bedoe-len we dat de waarschijnlijkheden waarin een keten zich kan bevinden niet meerveranderen. We gaan dus op zoek naar een invariante distributie.

Definitie 2.4. (Invariante ditributie)Een invariante7 distributie van een Markovketen is een verdeling π die niet afhangtvan de initiele toestand van de keten en invariant blijft met betrekking tot detransitiematrix P :

π = πP.

Met andere woorden, in onze zoektocht naar een invariante verdeling, moeten wehet stelsel ∑

i

πiP (i, j) = πj,∀j ∈ S (2.11)

7Een invariante verdeling wordt ook wel een stationaire distributie of evenwichtsverdelinggenoemd.

35

Page 39: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 36

oplossen. We gaan over naar een volgend tijdstip door te vermenigvuldigen metP , maar we willen dat de kansverdeling eigenlijk dezelfde blijft.

Voorbeeld 2.2. (De regeringscrisis.)Stel dat Yves Leterme, Guy Verhofstadt en Herman Van Rompuy een hete aard-appel doorgeven. Leterme geeft hem met zekerheid aan Verhofstadt, die hem opzijn beurt in elke geval aan Van Rompuy doorspeelt. Van Rompuy is vast vanplan om aan te kloppen bij Leterme om hem met de problemen op te zadelen. Xt

stelt dus het premierschap van Belgie voor, met

S = Leterme (toestand 1), Verhofstadt (toestand 2), Van Rompuy (toestand 3).

De transitiematrix P wordt gegeven door

P =

0 1 00 0 11 0 0

.

We kunnen met zekerheid stellen dat de keten van stand 1 naar stand 2 verhuist,van stand 2 naar stand 3 en van stand 3 terug naar stand 1. We hebben hier temaken met een periodieke keten. Laten we de invariante verdeling π = (π1, π2, π3)zoeken via volgend eenvoudig stelsel:

(π1 π2 π3) = (π1 π2 π3)

0 1 00 0 11 0 0

.

We bekomen π1 = π3,π2 = π1,π3 = π2.

We lossen dit op samen met de voorwaarde∑3

i=1 πi = 1, anders is π geen verdeling.Via

3∑i=1

πi = 1,

⇔ π1 + π2 + π3 = 1,

⇔ 3π1 = 1,

vinden we dat π = (13, 13, 13). Er is dus wel degelijk een invariante distributie, maar

zoals op figuur 2.3 te zien is, is het niet zo dat de keten naar een evenwichtstoestandevolueert. De keten vertoont immers periodiek gedrag. De evoluties vanuit deandere startposities bekomen we door cyclische permutatie ([33]).

36

Page 40: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 37

Figuur 2.3: Evolutie van het premierschap.

Voorbeeld (2.2) toont aan dat, ondanks het bestaan van een invariante verdeling,de keten toch niet convergeert naar die invariante distributie. Het is, met het oogop volgend hoofdstuk, niet voldoende dat er simpelweg een invariante verdelingbestaat. Daarom stellen we een tweede eis, waarvoor we eerst een definitie moeteninvoeren.

Definitie 2.5. (Limietverdeling)We zeggen dat ω de limietverdeling is van een Markovketen als

P k k→∞−→

ωω...ω

. (2.12)

Ter verduidelijking, uit gevolg (2.3) weten we dat

P k =

P (k)(1, 1) . . . P (k)(1, n)... P (k)(i, j) . . .

P (k)(n, 1) . . . P (k)(n, n)

.

Via (2.12) is dan P (k)(1, 1) . . . P (k)(1, n)... P (k)(i, j) . . .

P (k)(n, 1) . . . P (k)(n, n)

k→∞−→

ω1 . . . ωj . . . ωk...

ω1 . . . ωj . . . ωk

,

37

Page 41: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 38

of nog,limk→∞

P (k)(i, j) = limk→∞

P (Xk = j|X0 = i) = ωj,∀i, j ∈ S.

Merk op dat de limietverdeling onafhankelijk is van de beginposities.

De tweede eis bestaat er uit dat we willen dat de invariante distributie gelijk isaan de limietverdeling.

2.2.1 Voorwaarden voor een invariante distributie.

Vooraleer we verder kunnen, hebben we enkele definities nodig.

Definitie 2.6. (Irreducibel)We noemen een Markovketen irreducibel als alle toestanden met elkaar com-municeren. Met andere woorden, de mogelijkheid moet bestaan om van de enetoestand over te gaan naar gelijk welke andere toestand (het hoeft niet in eenstap).In voorbeeld (2.2) kunnen we spreken over een irreducibele keten, omdat de ketenvan gelijk welke toestand naar elke andere toestand kan overgaan (in meerdereetappes).

Definitie 2.7. (Aperiodiek)Een toestand si noemt men aperiodiek als de grootste gemene deler van de striktpositieve getallen t die voldoen aan

P (t)(i, i) = P (Xt = i|X0 = i) > 0,

gelijk is aan 1. Een keten is aperiodiek als deze voorwaarde voor elke toestandgeldt.Deze definitie betekent eigenlijk dat de keten niet mag oscilleren tussen verschil-lende toestanden.

De toestanden die bereikbaar zijn vanuit een aperiodieke toestand zijn ook ape-riodiek.

Definitie 2.8. (Tijd van de eerste passage)We definieren de tijd van de eerste passage in i, notatie τii, als het minimaleaantal overgangen dat de Markovketen maakt, vertrekkende8 van i tot de eerstvol-gende doortocht in i:

τii = mint > 0 : Xt = i|X0 = i.8Indien men niet van toestand i vertrekt, maar van een willekeurige andere toestand k, noteert

men de tijd van de eerste passage in i als τki = mint > 0 : Xt = i|X0 = k.

38

Page 42: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 39

Definitie 2.9. (Recurrent) Een toestand i wordt recurrent of wederkeriggenoemd als

P (τii <∞) = 1.

Met andere woorden, de toevalsveranderlijke passeert met zekerheid nogmaalslangs zijn starttoestand i. Een toestand die niet recurrent is, wordt voorbijgaand9

genoemd.

Definitie 2.10. (Positief recurrent) Een toestand i wordt positief recurrentof positief wederkerig genoemd als i recurrent is en

E[τii] <∞.

Als de toestand recurrent is, weten we al dat de keten zeker opnieuw langs deze toe-stand langskomt en door de Markoveigenschap gebeurt dit steeds opnieuw. Posi-tieve wederkerigheid zegt dat de verwachtingwaarde van de tijd die de keten nodigheeft om terug te keren eindig is. Een positief wederkerige toestand is zeker wed-erkerig, maar een wederkerige toestand is niet altijd positief wederkerig.We vervolgen met een voorbeeldje, om de ingevoerde definities onder de knie tekrijgen.

Voorbeeld 2.3. (Success run ([21]).)We bevinden ons in het casino. Xn stelt het budget voor van een gokker. Op elktijdstip krijgt hij de kans om een euro aan zijn budget toe te voegen. Daarvoormoet hij met een (niet noodzakelijk normale) dobbelsteen gooien. Smijt hij meerdan 1, dan wordt hem een euro aangereikt, die hij kan toevoegen aan zijn budget.De waarschijnlijkheid dat men 1 gooit, is 1− p (> 0). Echter, wanneer de gokker1 gooit, verliest hij alles en mag hij opnieuw beginnen. De toestandsruimte is indit geval Z+. We stellen de situatie grafisch voor in figuur 2.4.

Figuur 2.4: Grafische voorstelling van de success run.

We krijgen dus

Xt+1 =

0 met waarschijnlijkheid 1− p (> 0),Xt + 1 met waarschijnlijkheid p (> 0).

9In het Engels wordt dit ‘transient’ genoemd.

39

Page 43: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 40

De transitiematrix P neemt bijgevolg volgende vorm aan

P =

1− p p 0 01− p 0 p 0 . . .1− p 0 0 p

.... . .

.

• De keten is duidelijk irreducibel. We kunnen immers alle toestanden be-zoeken.

• Het is dus voldoende om voor slechts een toestand de aperiodiciteit te on-derzoeken. Laten we toestand 0 nemen. Via de Chapman-Kolomogorovvergelijkingen vinden we10

P (2)(0, 0) =∑k=0,1

P (0, k)P (k, 0),

= P (0, 0)P (0, 0) + P (0, 1)P (1, 0),

= (1− p)2︸ ︷︷ ︸>0

+ p(1− p)︸ ︷︷ ︸>0

.

We sommeren voor k = 0 en k = 1, omdat we vanuit platzaktoestand enkelnaar toestand 1 kunnen gaan of ter plaatse kunnen blijven. Dit wil zeggen,ofwel blijven we blut, ofwel winnen we een euro.In woorden betekent bovenstaande uitdrukking dat we in twee stappen kun-nen terugkeren naar begintoestand 0 door ofwel in de eerste stap in toestand1 uit te blazen om daarna terug te keren, ofwel door tweemaal 1 te gooienmet de dobbelsteen en dus in de begintoestand te blijven plakken.

We kunnen dergelijke berekening ook voor t = 3 uitvoeren. De grootstegemene deler van 2 en 3 is 1, zodat we, als P (3)(0, 0) groter is dan 0, kunnenbesluiten dat de keten aperiodiek is.

10In P (2)(0, 0) is r+s = 2. Dan moet r = s = 1, want r > 0 en s > 0. In P (3)(0, 0) is r+s = 3en hebben we wel een keuze, namelijk r = 1 en s = 2 of r = 2 en s = 1. Beiden geven dezelfderesultaten. Hier opteerden we voor het r = 1 en s = 2.

40

Page 44: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 41

P (3)(0, 0) =∑

k=0,1,2

P (2)(0, k)P (1)(k, 0), (2.13)

= P (2)(0, 0)P (0, 0) + P (2)(0, 1)P (1, 0) + P (2)(0, 2)P (2, 0),

= [∑u

P (0, u)P (u, 0)]P (0, 0) + [∑l

P (0, l)P (l, 1)]P (1, 0) (2.14)

+ [∑v

P (0, k)P (k, 2)]P (2, 0),

= [P (0, 0)P (0, 0) + P (0, 1)P (1, 0)]P (0, 0) + [P (0, 0)P (0, 1)]P (1, 0)(2.15)

+ [P (0, 1)P (1, 2)]P (2, 0),

= (1− p)3︸ ︷︷ ︸>0

+ 2p(1− p)2︸ ︷︷ ︸>0

+ p2(1− p)︸ ︷︷ ︸>0

.

De reden waarom we in (2.13) sommeren over k = 0, 1, 2 is dat de keten deandere toestanden niet kan bereiken in twee stappen wanneer 0 de begintoe-stand is.In (2.14) telt l enkel mee voor de waarde 0, omdat de keten eerst in toestand0 moet blijven om in de tweede stap toestand 1 te bereiken. We kunnenimmers niet eerst naar 1 overgaan om daar dan te blijven, want P (1, 1) = 0.Om dezelfde reden neemt v ook maar een waarde aan. Om in twee stappenvan toestand 0 naar toestand 2 te gaan, moeten we in de eerste stap ver-plicht een tussenstap maken in toestand 1, anders is dit niet mogelijk. Ditverklaart de overgang naar (2.15).

• De wederkerigheid volgt uit

P (τ00 <∞) =∑n

P (τ00 = n) (2.16)

=∑n

pn−1(1− p) (2.17)

= (1− p)∑n

pn−1

= (1− p) 1

1− p= 1.

τ00 = n wil zeggen dat de speler pas na n keer gooien voor de eerste keer terugblut is. Om dit scenario te verkrijgen mag de speler n− 1 keer niet 1 gooien

41

Page 45: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 42

(met waarschijnlijkheid p), om dan tenslotte in een keer alles te verliezendoor 1 te werpen met de dobbelsteen (met waarschijnlijkheid 1 − p). Ditverklaart de overgang van (2.16) naar (2.17).

• We kunnen nu gemakkelijk E[τ00] berekenen:

E[τ00] =∑n

pn−1(1− p)n

= (1− p)∑n

npn−1

= (1− p)[∑n

pn]′

= (1− p) 1

(1− p)2

=1

1− p<∞.

Bijgevolg is de keten positief wederkerig.

Men kan aantonen dat irreducibiliteit, aperiodiciteit en positive recurrentie eengarantie vormen op het bestaan van een unieke invariante distributie π die boven-dien gelijk is aan de limietverdeling van de Markovketen. Dit bewijzen we in hetzogenaamde ergodisch theorema.

2.2.2 Ergodisch theorema.

Lemma 2.1. ([29]) Zij f1, f2, . . . een stel nietnegatieve getallen met∑∞

i=1 fi = 1en met de grootste gemene deler van de indices j waarvoor fj > 0 is gelijk aan 1.Als u0 = 1, un =

∑nk=1 fkun−k voor n = 1, 2, 3, . . ., en µ =

∑nfn, dan geldt

unn→∞−→ 1

µ.

Lemma 2.2. (Fatou,([17])) Is f1, f2, . . . een rij van meetbare functies fi : D →[0,∞], dan geldt ∫

D

( limi→∞

fi) ≤ limi→∞

∫D

fi.

42

Page 46: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 43

Stelling 2.2. Een irreducibele, aperiodieke, positief wederkerige Markovketen heefteen unieke invariante distributie π, die gelijk is aan de limietdistributie [29].

Bewijs. We delen dit bewijs11 op in twee delen. Het eerste deel bewijst dat eenirreducibele, aperiodieke, positief wederkerige Markovketen voor een bestaande li-mietdistributie zorgt, die gelijk is aan een invariante verdeling. Deel twee houdtzich bezig met de uniciteit.

Deel 1De toestandsruimte bestaat uit een klasse van positief wederkerige, aperiodieketoestanden. Passen we lemma 2.1 toe met unj = P (n)(j, j), fkj de kans dat we optijdstip k voor de eerste maal terug in j komen (= P (τjj = k)), dan krijgen we

P (n)(j, j) −→ 1

µj,

met µj =∑nfnj .

We moeten ook het geval onderzoeken waarin we niet vanuit toestand j vertrekken.De kans dat we op tijdstip n in j zijn, als we uit een willekeurige toestand istarten, kunnen we ook zien als de kans dat we na k tijdstippen voor de eerstemaal terugkeren naar j, vermenigvuldigd met de kans dat we n − k momentenverder weer in j zijn. We sommeren uiteraard over alle k:

P (n)(i, j) =n∑k=1

P (τij = k)P (Xn−k = j|Xk = j).

Stellen we P (s)(j, j) = 0 voor alle s < 0, dan is

P (n)(i, j) =∞∑k=1

P (τij = k)P (Xn−k = j|Xk = j).

De distributie

ωj = limn→∞

P (n)(i, j) = limn→∞

∞∑k=1

P (τij = k)P (n−k)(j, j)

=∞∑k=1

P (τij = k) limn→∞

P (n−k)(j, j)

=∞∑k=1

P (τij = k)1

µj.

11n stelt in dit bewijs niet de lengte van een Markovketen voor, maar wel een tijdstip.

43

Page 47: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 44

hangt enkel in de term∑∞

k=1 P (τij = k) af van de begintoestand. Men kan echterbewijzen dat dit 1 is12. Intuıtief is dit logisch wanneer alle (positief wederkerige)toestanden met elkaar communiceren. De verwachtingstijd van de eerste passagetijd is dan immers eindig.Met andere woorden, ωj is onafhankelijk van i en ωj > 0, ∀j. We hebben een sterkvermoeden dat ω de limietverdeling zou kunnen zijn.

Via het Lemma van Fatou is∑i

ωiP (i, j) =∑i

limnP (n)(s, i)P (i, j)

≤ limn

∑i

P (n)(s, i)P (i, j)

= limnP(n+1)(s, j)

= ωj

of dus, ∀j ∑i

ωiP (i, j) ≤ ωj.

Veronderstel dat∑

i ωiP (i, j0) < ωj0 voor een j0, dan is∑j

ωj >∑j

[∑i

ωiP (i, j)] =∑i

ωi∑j

P (i, j) =∑i

ωi.

Deze contradictie (tenzij alle ωi 0 zijn) toont dat∑i

ωiP (i, j) = ωj,

∀j. In matrixvorm wordt dit ΩP = Ω en bijgevolg is ΩP 2 = ΩPP = ΩP = Ω,zodat ook ΩP n = Ω. Voluit geeft dit∑

i

ωiP(n)(i, j) = ωj,

waaruit volgt, na het nemen van de limiet in beide leden, dat

ωj = limn

∑i

ωiP(n)(i, j) =

∑i

ωi limnP (n)(i, j) = [

∑i

ωi]ωj,

12Om het bewijs niet te langdradig te maken, hebben we geopteerd om dit stuk weg te latenen aan te nemen dat de desbetreffende uitdrukking effectief gelijk is aan 1.

44

Page 48: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.2. De invariante distributie. 45

Bijgevolg is, ∀j,ωj[1−

∑i

ωi] = 0,

waaruit∑

i ωi = 1, een noodzakelijke voorwaarde opdat Ω een distributie zou zijn.We hebben reeds aangetoond dat de limietdistributie ω invariant is. We moetennog aantonen dat ze uniek is.

Deel 2Stel datQ = (q1, q2, . . .) een andere stationaire distributie is. Dan is

∑i qiP

(n)(i, j) =qj en dus is, via ωj = limn P

(n)(i, j),∑

i qiωj = qj. Met andere woorden, ωj = qjvoor alle j en Q moet dus samenvallen met Ω = (ω1, . . . , ).Als elke ωj = 0, dan is er geen stationaire distributie. Als echter

∑j ωj = 1, dan

is Ω = (ω1, . . .) de unieke stationaire distributie.

Gevolg 2.4. (Ergodisch theorema.) Voor een willekeurige begrensde functie f geldtdat

P[

limN→∞1N

∑Nn=1 f(Xn) −→ Eπ(f) =

∑j f(j)πj

]= 1. (2.18)

We noemen 1N

∑Nn=1 f(Xn) het ergodisch gemiddelde van de keten ([29]).

Er is echter nog een handig criterium om de invariantie van een distributie teonderzoeken. De keten moet echter wel nog steeds aan de voorwaarden uit hetergodisch theorema voldoen opdat de evenwichtstoestand ook gelijk zou zijn aande limietdistributie.

Definitie 2.11. (Reversibiliteit)We zeggen dat een distributie ζ = (ζ1, . . . , ζi, . . .) reversibel is als voldaan is aande ‘detailed balance’ vergelijking

ζiP (i, j) = ζjP (j, i).

Met andere woorden, de keten ziet er hetzelfde uit, of we hem nu voorwaarts ofachterwaarts doorlopen.

Stelling 2.3. Een reversibele verdeling ζ is ook een stationaire verdeling.

Bewijs. We willen aantonen dat ζP = ζ. Uit vergelijking (2.11) weten we datelement j van ζP gegeven wordt door

∑i ζiP (i, j). Door de ‘detailed balance’

vergelijking krijgen we∑i

ζiP (i, j) =∑i

ζjP (j, i) = ζj∑i

P (j, i) = ζj

De laatste gelijkheid volgt uit de eigenschappen van een stochastische matrix.

45

Page 49: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.3. Markovketens met algemene toestandsruimte. 46

2.3 Markovketens met algemene toestandsruimte.

Vaak put een Markovketen niet uit een discrete toestandsruimte S, maar uit eenverzameling E. De enige restrictie is dat de verzameling ε van alle deelverzamelin-gen van E een aftelbare σ-algebra vormt. Daarbij worden alle deelverzamelingenen op E gedefinieerde functies worden ε-meetbaar verondersteld. In het vervolggaan we hiervan uit.

We kunnen geen transitiematrix P meer opstellen, omdat we te maken hebbenmet een continue toestandsruimte. In plaats daarvan spreekt men over een tran-sitiekern. De transitiekern is een functie P : E × ε −→ [0, 1] zodat voor elke t ≥ 0geldt dat

P (Xt+1 ∈ A|Xt = x) = P (x,A),

voor alle x ∈ E en A ∈ E13. P (x, .) stelt dus de verdeling van de keten voor eentijdstip na halte x.Zij π de kansverdeling van E. Naar analogie met uitdrukking (2.5) noteren we dekans dat de Markovketen zich in A bevindt als

π(A) =

∫P (x,A)π(x)14.

Het product PQ van twee transitiekernen wordt gedefinieerd als

PQ(x,A) =

∫P (x, dy)Q(y, A).

Op die manier kunnen we betekenis geven aan

P k(x,A) = P (Xk ∈ A|X0 = x),

voor alle t ≥ 0.

De belangrijke begrippen irreducibiliteit, wederkerigheid en convergentie krijgenin het continue geval ook een iets andere invulling.

Definitie 2.12. Een Markovketen wordt φ-irreducibel genoemd voor een kansver-deling φ op E als φ(A) > 0 voor een verzameling A ⊂ E impliceert dat

Px(τA <∞) > 0,

13Algemeen noteert men een transitiekern Q(x, dy) = q(x, y)ε(dy). We kunnen dankzij destelling van Radon-Nikodym overgaan naar de Lebesguemaat en zullen dy in plaats van ε(dy)schrijven.

14Eigenlijk noteren we∫P (x,A)π(dx) =

∫P (x,A)π(x)ε(dx), maar ook hier opteren we om

dx te schrijven in plaats van ε(dx).

46

Page 50: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

2.3. Markovketens met algemene toestandsruimte. 47

voor alle x ∈ E. Hierbij is τA =infn ≥ 1 : Xt ∈ A. Een keten is irreducibel alshij φ-irreducibel is voor een φ.Als een keten irreducibel is, dan heeft het veel irreducibiliteitsverdelingen. Menkan echter aantonen dat een keten een maximale irreducibiliteitsverdeling ψ heeftin de zin dat alle andere absoluut continu zijn met respect tot ψ.

Definitie 2.13. Een irreducibele Markovketen met maximale irreducibiliteitsver-deling ψ is recurrent als voor elke set A ∈ E, met ψ(A) > 0, de condities

i. PxXn ∈ A oneindig veel > 0 voor alle x,

ii. PxXn ∈ A oneindig veel = 1 voor alle ψ bijna alle x,

beiden voldaan zijn. Bezit de Markovketen een invariante distributie, dan kan menaantonen dat de keten positief recurrent is.

Definitie 2.14. Een Markovketen is aperiodiek als er geen d (≥ 2) disjunctedeelverzamelingen E1, . . . , Ed ⊂ E zo dat P (x,Ei+1) voor alle x ∈ Ei, (1 ≤ i ≤d− 1) en P (x,E1) = 1 voor alle x ∈ Ed ([16]).

47

Page 51: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Hoofdstuk 3

Het principe van Monte Carlo

In dit hoofdstuk beschouwen we enkel a posteriori verdelingen die we niet opanalytische wijze kunnen berekenen. We zullen oplossingen aanreiken om zo’nprobleem te omzeilen. We onderscheiden twee gevallen. Enerzijds beschouwenwe posteriorverdelingen waaruit we lukrake waarden kunnen trekken. Dit wordtMonte Carlo Integratie genoemd.We zullen ons echter vooral focussen op het geval dat zelfs het trekken van lukrakewaarden onbegonnen werk blijkt te zijn. Net om die reden maken we gebruik vanMarkovketens. Dit leidt tot Markov Chain Monte Carlo (MCMC).

3.1 Wat is Monte Carlo Integratie?

Monte Carlo Integratie is een techniek om een integraal te benaderen, net alsnumerieke integratiemethoden zoals de kwadratuur van Gauss en Newton-Cotes,waarbij we de integraal proberen zien als een gemiddelde van de integratieveran-derlijke onder een bepaalde verdeling, bepaald door toevoeging van goed gekozentermen. Nadien trekken we waarden uit die verdeling om via de zwakke wet vangrote aantallen een goede benadering af te dwingen voor dit gemiddelde.Een belangrijk verschil is echter dat men de punten die men gebruikt om de inte-graal te benaderen niet op vaste afstand neemt1, maar wel lukraak trekt2.

Stel dat we de integraal

I =

∫ b

a

h(x)dx

1Bij de Gausskwadratuur mag men deze punten evenwel zelf vastleggen.2Vandaar de naam Monte Carlo, genoemd naar het bekende casino in de gelijknamige wijk in

Monaco.

48

Page 52: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.1. Wat is Monte Carlo Integratie? 49

willen evalueren. Soms is h(x) een eenvoudige functie, maar dikwijls is zo’n in-tegraal moeilijk op te lossen. We moeten dus een andere aanpak hanteren. Wekunnen I bijvoorbeeld schrijven als

I =

∫ b

a

w(x)f(x)dx,

met w(x) = h(x)(b − a) en f(x) = 1(b−a) , de kansdichtheid van een uniforme

toevalsveranderlijke in het interval [a, b]. Vandaar is

I = Ef (w(X)),

met X ∼ U(a, b). We hebben de integraal dus kunnen omvormen tot een gemid-delde. We kunnen nu X1, . . . , XN ∼ U(a, b) simuleren. De zwakke wet van groteaantallen garandeert ons dat

I =1

N

N∑i=1

w(Xi)P−→ E(w(X)) = I.

Voorbeeld 3.1. ([37])Stel dat X ∼ Bin(n, p1) en Y ∼ Bin(m, p2). Het doel is om δ = p1 − p2 teschatten. Vooraf weten we enkel dat p1 en p2 onafhankelijk zijn van elkaar en datze uniform verdeeld zijn: f(p1, p2) = f(p1)f(p2) = 1.De Bayesianen berekenen uiteraard eerst de posteriorverdeling:

f(Θ|D) = f(p1, p2|X, Y ) =pX1 (1− p1)(n−X)pY2 (1− p2)(m−Y )∫ 1

0

∫ 1

0pX1 (1− p1)(n−X)pY2 (1− p2)(m−Y )dp1dp2.

. (3.1)

Dit impliceert dat p1 en p2 ook a posteriori onafhankelijk zijn, want

f(p1, p2|X, Y ) = f(p1|X)f(p2|Y ),

met

f(p1|X) =pX1 (1− p1)(n−X)∫ 1

0pX1 (1− p1)(n−X)dp1

en f(p2|Y ) =pY2 (1− p2)(m−Y )∫ 1

0pY2 (1− p2)(m−Y )dp2

.

Wanneer we dit nader bekijken, merken we op dat p1|X ∼ Beta(X + 1, n−X + 1)en p2|Y ∼ Beta(Y + 1,m− Y + 1).De posteriorverdeling (3.1) is niet gemakkelijk te berekenen. De integraal als eengemiddelde zien is ook al niet evident. Een manier om toch een gedaante tebekomen voor de posteriorverdeling is de posterior mean δ te bepalen via simu-latiepunten, waarna de volledige posteriorverdeling in beeld kan gebracht worden

49

Page 53: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.1. Wat is Monte Carlo Integratie? 50

door interpolatie tussen deze gerangschikte punten of door simpelweg deze puntenals fundament van een histogram gebruiken. De posterior mean van δ is

δ =

∫ 1

0

∫ 1

0

δ(p1, p2)f(p1, p2|X, Y )dp1dp2

=

∫ 1

0

∫ 1

0

(p2 − p1)f(p1, p2|X, Y )dp1dp2

=

∫ 1

0

∫ 1

0

p2f(p1, p2|X, Y )dp1dp2 −∫ 1

0

∫ 1

0

p1f(p1, p2|X, Y )dp1dp2

=

∫ 1

0

f(p1|X)dp1︸ ︷︷ ︸=1

∫ 1

0

p2f(p2|Y )dp2 −∫ 1

0

p1f(p1|X)dp1

∫ 1

0

f(p2|Y )dp2︸ ︷︷ ︸=1

=

∫ 1

0

p2f(p2|Y )dp2 −∫ 1

0

p1f(p1|X)dp1

= E(p2|Y )− E(p1|X).

In plaats van deze integralen uit te rekenen, passen we de hierboven uitgelegdetheorie toe. We simuleren de onafhankelijke koppels (p

(1)1 , p

(1)2 ), . . . , (p

(N)1 , p

(N)2 ) via

p(i)1 ∼ Beta(X + 1, n−X + 1),

p(i)2 ∼ Beta(Y + 1, n− Y + 1),

voor i = 1 . . . N . We bekomen voor k = 1, 2

E(pk) ≈1

N

N∑i=1

p(i)k ,

zodat, wanneer we δ(i) = p(i)2 − p

(i)1 stellen,

δ ≈ 1

N

N∑i=1

δ(i).

50

Page 54: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.2. Wat is Markov Chain Monte Carlo? 51

3.2 Wat is Markov Chain Monte Carlo?

Uit vorig hoofdstuk hoeven we voorlopig alleen maar te onthouden dat we, welis-waar onder bepaalde voorwaarden (positief recurrent, irreducibel en aperiodiek),een Markovketen X1, X2, . . . kunnen opbouwen met π als invariante limietdistri-butie, die men berekent aan de hand van zijn transitiematrix P .

In dit hoofdstuk beschouwen we echter ketens die geen discrete toestandsruimtehebben. We kunnen dan eigenlijk geen transitiematrix opstellen omdat de toe-standsruimte continu is. Bijgevolg kunnen we van een gegeven keten geen limiet-distributie meer opstellen via de resultaten uit vorig hoofdstuk. We zullen in dithoofdstuk omgekeerd te werk gaan. We houden een ‘target’ distributie voor ogenwaarvan we zullen aannemen dat dit de limietdistributie is.

De vraag is dan enkel nog hoe de Markovketen die naar die limietverdeling con-vergeert er zal uitzien. Dit is belangrijk omdat we, als we het algoritme dat deketen genereert lang genoeg laten lopen, via de opgebouwde keten een beeld kun-nen vormen van onze ‘target‘ distributie. Of misschien willen we gewoon enkelekarakteristieken van de posteriorverdeling achterhalen.

Zoals aangegeven is het in de praktijk vaak niet mogelijk om een a posteriorimultidimensionele verdeling op analytische wijze te vinden. Mogelijk schikt eenbekomen verdeling er zich niet naar om gemakkelijk waarden uit te trekken. Wemoeten dit probleem dus omzeilen. Het klinkt logisch om deze ‘moeilijke’ poste-riorverdeling dus tot ‘target’ distributie te bombarderen.

Een manier om dit te doen is via Markov Chain Monte Carlo. Het idee is datwe een Markovketen opstellen die als invariante limietverdeling net die posterior-verdeling heeft. Na een voldoende aantal iteraties weten we dan dat de bekomenwaarden lukrake trekkingen voorstellen uit de posteriorverdeling. We kunnen dezetrekkingen dan uitzetten of via het ergodisch theorema een mooi beeld krijgen vande posterior. We zijn dus omgekeerd te werk gegaan, want in plaats van te zoekennaar de invariante limietverdeling, kennen we ze al!

De vraag is nu hoe men de Markovketen opbouwt. We bespreken de belangrijkstealgoritmes die instaan voor dit gebeuren ([16]).

51

Page 55: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 52

3.3 Metropolis-Hastings Algoritme.

Nicolas Constantine Metropolis3 ( Chicago, 11 juni 1915 - † Los Alamos, 17oktober 1999) was een Grieks-Amerikaanse fysicus, geboren en getogen in Chicago,Illinois, waar hij in 1941 ook zijn doctoraat behaalde in de experimentele fysica.De universiteit was zijn alma mater, maar hij maakte vooral furore aan het ‘LosAlamos National Laboratory’ in New Mexico. Daar werd hij, na rekrutering inapril 1943 door J. Robert Oppenheimer, een van de eerste wetenschappers diedeelnamen aan het zogenaamde ‘Manhattan Project’, met als doel het bouwen vande eerste atoombom. Samen met Edward Teller en Enrico Fermi bouwde hij ereen nucleaire reactor.Zijn carriere schommelde heen en weer tussen Los Alamos en Chicago, waar hijna de oorlog assistent-professor werd. In 1948 keerde hij echter al terug om eenvan de pioniers te worden in het computertijdperk. Hij hielp er immers een vande eerste elektronische digitale computers te ontwikkelen, de ‘MANIAC I’ 4. Vijfjaar later volgde ‘MANIAC II’. Nadien keerde hij opnieuw terug naar zijn ‘roots’en werd hij professor fysica aan de universiteit van zijn geboortestad. Hij richttetevens het ‘Institute for Computer Research’ op, waarvan hij directeur werd.

Figuur 3.1: Nicolas Constantine Metropolis ([38]).

Statistici kennen Metropolis vooral van zijn bijdragen aan de Monte Carlo me-

3Hij was lid van de ‘American Academy of Arts and Sciences’, de ‘Society for Industrial andApplied Mathematics’ en zowel de ‘American Mathematical Society’ als de ‘American PhysicalSociety’, die jaarlijks de ‘Nicholas Metropolis Award for Outstanding Doctoral Thesis Work inComputational Physics’ uitreikt. Hij kreeg ook de ‘Pioneer Medal’ van de ‘Institute for electricaland electronics engineers’.

4De M athematical And Numerical Integrator And Computer werd operationeel op 15 maart1952.

52

Page 56: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 53

thode, die hij in 1953 samen met A. Rosenbluth, M. Rosenbluth5, A. Teller en E.Teller neerschreef. Dit algoritme werd in het tijdschrift ‘Computing in Science andEngineering’ verkozen tot het beste algoritme van de twintigste eeuw ([38]).

Oorspronkelijk paste Metropolis dit MCMC mechanisme toe in het specifieke gevalvan de Boltzmannverdeling. Hastings zorgde voor een veralgemening in 1970. Hetgaat als volgt.

Stel dat we in een onderzoek te maken krijgen met meerdere stochastische pa-rameters, die we verenigen in X. X stelt nu dus geen toevalsveranderlijke meervoor. Uiteraard zijn we geınteresseerd in de verdeling van X, op basis van degeobserveerde data. Ondertussen weten we reeds dat de berekening van die poste-riorverdeling, laten we hem f noemen, niet noodzakelijk van een leien dakje loopt.

Het idee is dat we een Markovketen Xt opbouwen door waarden te trekken uiteen relatief eenvoudige distributie, waaruit makkelijk te trekken valt. Dit wordtde proposaldistributie genoemd. Daarbij eisen we dat de Markovketen convergeertnaar f voor gelijk welke startwaarde van de keten. Dit lijkt veel gevraagd, maarin de volgende sectie zullen we aantonen dat een proposaldistributie die zorgtvoor een aperiodieke, positief recurrente en irreducibele Markovketen onder hetMetropolis-Hastings algoritme inderdaad verzekert dat de limietverdeling van dieMarkovketen de posteriordistributie van X zal zijn. Uiteindelijk zal het lijken alsofde elementen van de Markovketen Xt trekkingen zijn uit de posteriorverdeling f ,waardoor we in staat zullen zijn om een beeld te vormen van f in termen vanonder andere het gemiddelde en geloofwaardigheidsintervallen.

Concreet kiezen we een startwaarde X0. Op tijdstip t verkrijgen we een volgendestaat Xt+1 door een kandidaat (= een proposal) Y te trekken uit een rond Xt

gelegen proposaldistributie q(.|Xt).Y wordt echter niet meteen tot Xt+1 gebombardeerd. Daar wordt een bepaaldekans mee geassocieerd. De kans dat Y effectief als Xt+1 gekozen wordt, wordtgegeven door

α(Xt, Y ) = min(1,f(Y |D)q(Xt|Y )

q(Y |Xt)f(Xt|D)). (3.2)

We leggen Y dus vast als Xt+1 met waarschijnlijkheid α, terwijl we Xt = Xt+1

stellen met waarschijnlijkheid 1− α.

5Hoewel Metropolis met de meeste eer ging lopen, was Marshall Rosenbluth eigenlijk hetbrein achter de theoretische ontwikkeling van deze mijlpaal.

53

Page 57: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 54

Het quotient in (3.2) moeten we als volgt interpreteren: we meten de waarschijn-lijkheid van Y, getrokken uit de posterior f en we delen dit door de waarschijnlijk-heid dat Y getrokken wordt uit de proposaldistributie q(.|Xt). Dit verklaart hetquotient

f(Y |D)

q(Y |Xt).

Dit klinkt contradictorisch, want we maken gebruik van de posteriorverdeling f ,terwijl de hele opzet net was om deze verdeling te achterhalen. We herinneren onsechter dat het vooral de integraal in de noemer van de posteriorverdeling is dievoor problemen zorgt bij de berekening. Net om die reden speelt de andere factorin het quotient,

q(Xt|Y )

f(Xt|D),

een heel belangrijke rol. Ze dient namelijk om de bewuste integraal te neutralise-ren. Op die manier wordt het rekenwerk vereenvoudigd, omdat deze integraal, dietoch maar een functie is van de grootheid D, geschrapt kan worden uit teller ennoemer ([16]).

Voorbeeld 3.2. In dit voorbeeldje bekijken we een proposaldistributie van nader-bij. Stel dat de exponentiele verdeling

exp(λ) =

λe−λx als x ≥ 0,

0 als x < 0,

gekozen wordt als proposaldistributie6 q. Het quotient

q(Xt|Y )

q(Y |Xt)

speelt een belangrijk rol bij de acceptatie van een proposal Y , daar ze voorkomt inuitdrukking (3.2). We zullen kijken wat er gebeurt bij het kiezen van een bepaaldeproposal Y , om daaruit conclusies te trekken over de eventuele acceptatiekansvan Y . Daarbij is dus q(Y |Xt) = λe−λY , waarbij we Xt het gemiddelde van dezeexponentiele functie kunnen stellen, omdat we willen dat Y net rond de voorgaandewaarde blijft hangen om grote wilde sprongen van de Markovketen te vermijden.Bijgevolg is

Xt =1

λ.

6Veelal wordt de normale verdeling gekozen als normale verdeling, maar bij wijze van voor-beeld wordt hier de exponentiele verdeling onderzocht.

54

Page 58: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 55

De kans dat Y dus gekozen wordt als volgende toestand van de Markovketenbedraagt

1

Xt

e− YXt .

We kunnen een onderscheid maken wat λ betreft:

λ is groot.

Stel bijvoorbeeld λ = 10. Dan is dus Xt = 0.1. Deze situatie is afgebeeld opfiguur 3.2. We merken meteen op dat bij een grote λ de waarden dicht bij Xt meerkans maken om geselecteerd te worden. De vergelijking van de proposaldistributiewordt

q(.|Xt) = 10e−10x.

We behandelen vier soorten proposals:

1) Y neemt een veel grotere waarde aan dan Xt.

Deze situatie is te zien in figuur 3.2(a). Stel dat Y = 2, dan is

q(Y |Xt) = 10e−20.

Echter, als we q(.|Y ) willen opstellen, waarbij Y nu het gemiddelde voorstelt, danis

q(Xt|Y ) =1

2e−

120 .

Bijgevolg is

q(Xt|Y )

q(Y |Xt)=

12e−

120

10e−20

enorm groot, waardoor we kunnen besluiten dat als Y geselecteerd wordt, maardie kans is bijna nihil, dan wordt hij toch bijna zeker geaccepteerd.

2) Y is net iets groter dan Xt.

Deze situatie vinden we terug in figuur 3.2(b)(de stippelijnen zorgen voor eenuitvergroting.). Stel Y = 0.2, dan is q(Y |Xt) = 10e−2. q(.|Y ) heeft λ = 5 alsparameter, zodat

q(Xt|Y )

q(Y |Xt)=

1

2e

32 = 2.24.

We besluiten dat de acceptatiekans α groter wordt bij dit soort proposals.

55

Page 59: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 56

Figuur 3.2: Exponentiele verdeling met een grote parameter als proposaldistribu-tie.

3) Y neemt een veel kleinere waarde aan dan Xt.

Stel Y = 0.01, dan vinden we op analoge manier als hierboven dat

q(Xt|Y )

q(Y |Xt)≈ 0.0005.

Met andere woorden, er is een heel hoge selectiekans, maar een minstens even hogedrempel om geaccepteerd te worden als Xt+1.

4) Y neemt een iets kleinere waarde aan dan Xt.

Stel Y = 0.09, dan isq(Xt|Y )

q(Y |Xt)≈ 0.13,

waardoor de acceptatiekans toch een knauw gekregen heeft, ondanks de vrij hogeacceptatiekans.We besluiten dat bij een grote waarde voor λ de proposals dicht bij Xt ten eersteveel vlugger geselecteerd en ten tweede veel sneller geaccepteerd zullen worden

56

Page 60: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 57

dan proposals die niet in de buurt van Xt liggen. De Markovketen zal dus metkleine sprongetjes vooruit gaan, waardoor de keten traag zal convergeren richtingposteriorverdeling.

λ is klein.

Stel bijvoorbeeld λ = 0.1. Dan weten we dat Xt = 10. Op figuur 3.3 valt meteenop dat, in tegenstelling tot een grote λ, de elementen die niet dicht bij Xt gelegenzijn meer kans maken om geselecteerd te worden. De proposaldistributie wordt nu

q(.|Xt) =1

10e−

x10 .

1) Y neemt een veel grotere waarde aan dan Xt.

Stel Y = 18, dan is q(x|Y ) = 118e−

x18 , zodat

q(Xt|Y )

q(Y |Xt)=

118e−

1018

110e−

1810

≈ 1.92,

hetgeen zorgt voor een verhoogde acceptatiekans.

2) Y neemt een iets grotere waarde aan dan Xt.

Stel bijvoorbeeld Y = 11, dan krijgen we

q(Xt|Y )

q(Y |Xt)≈ 1.1,

hetgeen de acceptatiekans bijna niet beınvloed.

3) Y neemt een veel kleinere waarde aan dan Xt.

Deze situatie is te zien op figuur 3.3(a). Stel bijvoorbeeld Y = 4, dan vinden we

q(Xt|Y )

q(Y |Xt)=

10

4e−

104+0.4 ≈ 0.306,

wat de acceptatiekans naar beneden haalt.

57

Page 61: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 58

4) Y neemt een iets kleinere waarde aan dan Xt.

Deze situatie vinden we terug in figuur 3.37. We krijgen

q(Xt|Y )

q(Y |Xt)=

10

9e−

109+0.9 ≈ 0.899,

wat ervoor zorgt dat het accepteren van Y = 9 toch iets moeilijker maakt.We besluiten dat Y -waarden kleiner dan Xt gemakkelijker geselecteerd worden,maar de Y -waarden groter dan Xt zullen gemakkelijker geaccepteerd worden. DeMarkovketen zal in dit geval veel meer ter plaatse blijven en/of grotere sprongenmaken, wat ook zorgt voor een trage convergentie.

Figuur 3.3: Exponentiele verdeling met een kleine parameter als proposaldistribu-tie.

Opmerking 3.1. In het oorspronkelijke Metropolis algoritme beschouwde menenkel symmetrische proposals q(.|X) = N(X, b2) waarvoor q(Xt|Y ) = q(Y |Xt).

Zoals te zien is op figuur 3.4, vereenvoudigt het quotient in (3.2) dan tot f(Y |D)f(Xt|D)

.

7Ook hier stelt de verticale as de waarschijnlijkheid en de horizontale as de toestandsruimtevoor.

58

Page 62: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 59

Figuur 3.4: Illustratie bij symmetrische proposals.

3.3.1 Waarom de posteriorverdeling steeds de invariantelimietdistributie van de Markovketen is.

Het blijft toch wat bizar dat voor gelijk welke proposaldistributie q de opgebouwde,irreducibele, aperiodieke en positief recurrent Markovketen na verloop van tijdtrekkingen levert afkomstig van de invariante distributie f . In deze sectie antwoor-den we op de vraag hoe het kan dat de verdeling van de Markovketen, opgebouwdvia een willekeurige proposaldistributie, steeds maar weer evolueert richting f .

Uit het ergodisch theorema blijkt dat, als de Markovketen irreducibel, aperiodieken positief recurrent is, er een limietdistributie bestaat die net de unieke invariantedistributie is. We moeten met andere woorden enkel aantonen dat de posterior feen invariante distributie is.Nu blijkt uit stelling (2.3) dat we enkel moeten aantonen dat de posteriorverdelingf aan de ‘detailed balance’ vergelijking voldoet. Dan weten we dat dit net delimietdistributie zal voorstellen, onder de gegeven voorwaarden.

De overgangswaarschijnlijkheden waarvan sprake worden in ons geval bepaald doortwee zaken: proposaldistributie q genereert eerst Y , waarna deze aanvaard wordtmet waarschijnlijkheid α.

59

Page 63: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.3. Metropolis-Hastings Algoritme. 60

Beschouw vervolgens twee waarden Xt en Y . We onderscheiden drie gevallen:

1) f(Xt|D)q(Y |Xt) > f(Y |D)q(Xt|Y )

Dankzij (3.2) is onder deze conditie

α(Xt, Y ) =f(Y |D)q(Xt|Y )

f(Xt|D)q(Y |Xt),

en α(Y,Xt) = 1.

Bijgevolg is

P (Xt, Y ) = q(Y |Xt)α(Xt, Y ) = q(Y |Xt)f(Y |D)q(Xt|Y )

f(Xt|D)q(Y |Xt)=

f(Y |D)

f(Xt|D)q(Xt|Y ),

zodatf(Xt|D)P (Xt, Y ) = f(Y |D)q(Xt|Y ). (3.3)

We passen dezelfde redenering toe op P (Y,Xt) en vinden

P (Y,Xt) = q(Xt|Y )α(Y,Xt) = q(Xt|Y ),

zodat we (3.3) kunnen schrijven als

f(Xt|D)P (Xt, Y ) = f(Y |D)P (Y,Xt).

We vinden dus de ‘detailed balance’ eigenschap, wat ons in dit geval de invariantievan f garandeert.

2) f(Xt|D)q(Y |Xt) < f(Y |D)q(Xt|Y )

Dan is α(Xt, Y ) = 1 en

α(Y,Xt) =f(Xt|D)q(Y |Xt)

f(Y |D)q(Xt|Y ).

Bijgevolg is P (Xt, Y ) = q(Y |Xt)α(Xt, Y ) = q(Y |Xt). Anderzijds is

P (Y,Xt) = q(Xt|Y )α(Y |Xt) =f(Xt|D)

f(Y |D)q(Y |Xt),

waardoorf(Y |D)P (Y,Xt) = f(Xt|D)P (Xt, Y ).

60

Page 64: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.4. De Gibbs sampler. 61

De ‘detailed balance’ vergelijking wordt opnieuw zichtbaar.

3) f(Xt|D)q(Y |Xt) = f(Y |D)q(Xt|Y )

In dit geval is α(Xt, Y ) = 1 = α(Y,Xt), waardoor

P (Xt, Y ) = q(Y |Xt)α(Xt, Y ) = q(Y |Xt),

P (Y,Xt) = q(Xt|Y )α(Y,Xt) = q(Xt|Y ).

Substitueren we dit in bovenstaand kader vinden we opnieuw de ‘detailed balance’vergelijking, waardoor we met zekerheid kunnen stellen dat f de unieke invariantelimietdistributie is ([14]).

3.4 De Gibbs sampler.

WanneerX hoogdimensionaal is, kunnen weX opsplitsen in componentenX1, . . . Xl,niet noodzakelijk van dezelfde dimensie. In plaats van de volledige X te updaten,passen we het algoritme toe op de afzonderlijke componenten8. Dit noemt menSingle Component Metropolis-Hastings.

Een iteratie van dit algoritme bestaat uit l updatestappen. We stellen Xt.i detoestand van component i aan het eind van iteratie t en zeggen dat X.−i allesbevat van X, behalve Xi:

X.−i = X.1, . . . , X.i−1, X.i+1, . . . , X.l.

In stap i van iteratie t + 1 wordt voor X.i een kandidaat Y.i getrokken uit eenproposaldistributie qi(Y.i|Xt.i, Xt.−i), waarbij Xt.−i voor de waarde van X.−i staat,na het vervolledigen van stap i− 1 van iteratie t+ 1:

Xt.−i = Xt+1.1, . . . , Xt+1.i−1, Xt.i+1, . . . , Xt.l.

We vinden Xt.−i terug in de rechthoekige kaders in figuur 3.5.De verdeling qi kiestdus enkel een kandidaat voor compoment i en kan afhangen van de componentendie al geupdate werden in de huidige iteratie.De kans dat de kandidaat geaccepteerd wordt, wordt gegeven door

α(Xt.−i, Xt.i, Y.i) = min(1,f(Y.i|Xt.−i)qi(Xt.i|Y.i, Xt.−i)

f(Xt.i|Xt.−i)qi(Y.i|Xt.i, Xt.−i)).

8Men mag de volgorde van de componenten bij het updaten veranderen, maar er wordt meestalvastgehouden aan de volgorde. Het is zelfs mogelijk om niet alle componenten te updaten in elkeiteratie.

61

Page 65: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 62

Figuur 3.5: Iteratieschema

Hierbij is f(X.i|X.−i) de full conditional distributie voor X.i onder f :

f(X.i|X.−i) =f(X)∫f(X)dXi

.

We stellen Xt+1.i = Yi als Yi geaccepteerd wordt, zoniet blijven we ter plaatse:Xt+1.i = Xt.i.

De Gibbs sampler is een speciaal geval van het single component Metropolis-Hastings algoritme. Elke kandidaat Yi voor component i wordt geaccepteerd,omdat men als proposaldistributie steeds de full conditional distributie neemt,

qi(Y.i|X.i, X.−i) = f(Y.i|X.−i),

waardoor de aanvaardingskans α steeds 1 wordt.

Uiteindelijk bekomen we een l Markovketens voor X1 t.e.m Xl. Algemeen kunnenwe nu ∀i = 1 . . . l een beeld vormen van

f(X.i|X.−i) =f(X)∫f(X)dX.i

.

Tot slot van deze masterproef geven we nog een toepassing waarin we zowel deGibbs sampler als het Metropolis-Hastings algoritme combineren ([16]).

3.5 Toepassing: Gewicht van ratten.

Om bovenstaande theorie in de praktijk te brengen, beschouwen we een voorbeeldover het gewicht van ratten ([10]). 30 ratten worden eenmaal in de week, gedurendevijf weken gewogen. De data kunnen terug gevonden worden in de tabel 3.1. x = 22en τ staat voor de precisie (= 1

variantie) van een normale verdeling.

62

Page 66: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 63

xj = 8 15 22 29 36

Rat 1 151 199 246 283 320Rat 2 145 199 249 293 354Rat 3 147 214 263 312 328Rat 4 155 200 237 272 297Rat 5 135 188 230 280 323Rat 6 159 210 252 298 331Rat 7 141 189 231 275 305Rat 8 159 201 248 297 338Rat 9 177 236 285 350 376Rat 10 134 182 220 260 296Rat 11 160 208 261 313 352Rat 12 143 188 220 273 314Rat 13 154 200 244 289 325Rat 14 171 221 270 326 358Rat 15 163 216 242 281 312Rat 16 160 207 248 288 324Rat 17 142 187 234 280 316Rat 18 156 203 243 283 317Rat 19 157 212 259 307 336Rat 20 152 203 246 286 321Rat 21 154 205 253 298 334Rat 22 139 190 225 267 302Rat 23 146 191 229 272 302Rat 24 157 211 250 285 323Rat 25 132 185 237 286 331Rat 26 160 207 257 303 345Rat 27 169 216 261 295 333Rat 28 157 205 248 289 316Rat 29 137 180 219 258 291Rat 30 153 200 244 286 324

Tabel 3.1: Gewicht Yij van rat i op dag xj.

Onderstel dat de data gemodelleerd zijn volgens

Yij = αi + βi(xj − x) + εij,

waarbij αi ∼ N(αc,1τα

) en βi ∼ N(βc,1τβ

). Hierbij worden de onderling onafhanke-

lijke fouttermen εij onafhankelijk van αi en van βi verondersteld voor elke i en j.αi en βi worden ook onafhankelijk ondersteld voor elke i en j. Zo’n model wordt

63

Page 67: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 64

een ‘linear mixed model’ genoemd, waarbij de term ‘mixed’ slaat op het feit dater zowel fixed (αc, βc) als random (αi, βi) coefficienten zijn. De random effectenworden opgenomen om de correlatie in de data (tussen opeenvolgende metingenvan een rat) te modelleren. τα en τβ zeggen iets over die correlatie want

cov(Yij, Yij′|xj, x′j) = cov(αi, αi) + cov(βi, βi) =1

τα+

1

τβ.

Mochten τα en τβ oneindig groot zijn en dus 1τα

= 0 = 1τβ

, dan zouden er geen sys-

tematische verschillen zijn tussen de ratten in de intercepten en gewichtstoenames,waardoor er ook geen correlatie op de metingen zou zitten.

De variantie van de fouttermen noteren we als τc. Net als τα, τβ, αc en βc wordt zevoorzien van een heel platte, niet informatieve priorverdeling:

αc ∼ N(0, 106),βc ∼ N(0, 106),

τc ∼ Ga(0.001, 0.001),τα ∼ Ga(0.001, 0.001),τβ ∼ Ga(0.001, 0.001).

(3.4)

Figuur 3.6: Grafische voorstelling van de variabelen ([10]).

We hebben in deze toepassing te maken met zeven variabelen:

Θ = (αc, βc, τα, τβ, τc, αi, βi).

Het is duidelijk dat, in tegenstelling tot in voorbeeld 1.4, men niet zo gemakkelijk

64

Page 68: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 65

de posterior P (Θ|D) uitrekent. Immers, in dit geval is

P (Θ|D) = P (αi, αc, τα, βi, βc, τβ, τc|Yij)

=P (Yij, αi, αc, τα, βi, βc, τβ, τc)∫ ∫ ∫ ∫ ∫ ∫ ∫P (Yij, αi, αc, τα, βi, βc, τβ, τc)dαiαcταβiβcτβτc

.

We zullen bijgevolg een simulatie moeten uitvoeren. We hanteren een mix vanhet Metropolis-Hastings algoritme en de Gibbs sampler, in die zin dat we gebruikmaken van de componentenstructuur omdat Θ zeven dimensies telt (elke variabelezal een component voorstellen), maar elke nieuw gegenereerde waarde wordt nietautomatisch aanvaard als de volgende waarde in onze Markovketen. Het doel iszoals gezegd voor elk van die variabelen een Markovketen op te bouwen, om daarnade posteriorverdelingen te achterhalen.

Startwaarden voor de variabelen.

αc en βc

αc is het gemiddelde intercept en βc is de gemiddelde helling wanneer we Yijonderwerpen aan een lineaire regressie:

E[Yij|Xij] = E[αi] + E[βi](xij − xi) = αc + βc(xij − xi).

We vinden de waarden αc(0) = 242.653 en βc(0) = 6.186.

τc, τα en τβ

Deze waarden moeten positief gekozen worden. We opteren voor τc(0) = τα(0) =τβ(0) = 1.

αi en βi

Voor αi starten we voor elke i met 250. Voor βi opteren we voor 6.2.

Update in iteratie 1 van component 1: αc.

We bevinden ons op het begintijdstip (t = 0) en beginnen aan iteratie 1. Elkeiteratie zal uit zeven updateprocessen bestaan, voor elke component een. Weconcentreren ons nu op het vinden van αc(1).Zoals de theorie het voorschrijft, moeten we een proposaldistributie kiezen waaruitαnewc getrokken zal worden.Bij onze speurtocht naar de proposal voor component 1 (= q1(.|αc(0))) valt ons oog

65

Page 69: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 66

op N(αc(0), 10), een vrij platte proposal, waardoor elke waarde ongeveer evenveelkans heeft om getrokken te worden.Vervolgens beslist een Metropolis-Hastingsratio over het wel of niet slagen vanαnewc . Ter herinnering, die ratio wordt in het theoretisch kader gegeven door

f(Y.i|D,Xt.−i)qi(Xt.i|D, Y.i, Xt.−i)

f(Xt.i|D,Xt.−i)qi(Y.i|D,Xt.i, Xt.−i),

met X.−i = (αi, τα, βi, βc, τβ, τc). Xt.−i bevat reeds de componenten die geupdatezijn in de huidige iteratie.Laten we beginnen met

f(Y.i|D,Xt.−i)

f(Xt.i|D,Xt.−i).

In het huidige voorbeeld krijgen we dan voor de eerste component∏i,j f(αnewc |Yij, αi(0), τα(0), βi(0), βc(0), τβ(0), τc(0))∏i,j f(αc(0)|Yij, αi(0), τα(0), βi(0), βc(0), τβ(0), τc(0))

. (3.5)

Er zijn tot nog toe geen componenten geupdate, waardoor we in bovenstaandeuitdrukking enkel werken met de begintoestanden.Via de definitie van conditionele kans en met enige vereenvoudiging is (3.5) tenslotte gelijk aan∏

i,j f(αnewc , Yij, αi(0), τα(0), βi(0), βc(0), τβ(0), τc(0))∏i,j f(αc(0), Yij, αi(0), τα(0), βi(0), βc(0), τβ(0), τc(0))

×∏

i,j f(Yij, αi(0), τα(0), βi(0), βc(0), τβ(0), τc(0))∏i,j f(Yij, αi(0), τα(0), βi(0), βc(0), τβ(0), τc(0))

=f(αnewc )f(βc(0))f(τc(0))f(τα(0))f(τβ(0))

f(αc(0))f(βc(0))f(τc(0))f(τα(0))f(τβ(0))

×∏

i,j f(Yij|αi(0), βi(0), τc(0))f(αi(0)|αnewc , τα(0))f(βi(0)|βc(0), τbeta(0))∏i,j f(Yij|αi(0), βi(0), τc(0))f(αi(0)|αc(0), τα(0))f(βi(0)|βc(0), τbeta(0))

=f(αnewc )

∏i f(αi(0)|αnewc , τα(0))

f(αc(0))∏

i f(αi(0)|αc(0), τα(0)).

In het tweede deel van de ratio houden we ons bezig met de gekozen proposal voorde eerste component q1:

q1(X0.i|D, Y.i, X0.−i)

q1(Y.i|D,X0.i, X0.−i)=q1(X0.i|Y.i)q1(Y.i|X0.i)

=q1(αc(0)|αnewc )

q1(αnewc |αc(0)).

66

Page 70: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 67

Update in iteratie 1 van component 2: βc.

We willen βc(1) vinden, gegeven βc(0)(= 6.186). We zien er geen graten in omdezelfde proposal te nemen als bij αnewc . We trekken βnewc dus ook uit N(βc(0), 10).Uitdrukking (3.5) geeft nu∏

i,j f(βnewc |Yij, αi(0), τα(0), βi(0), αc(1), τβ(0), τc(0))∏i,j f(βc(0)|Yij, αi(0), τα(0), βi(0), αc(1), τβ(0), τc(0))

=f(βnewc )

∏i f(βi(0)|βnewc , τβ(0))

f(βc(0))∏

i f(βi(0)|βc(0), τβ(0)).

Dit vermenigvuldigen we met het quotient van de proposal q2:

q2(βc(0)|βnewc )

q2(βnewc |βc(0)).

Update in iteratie 1 van componenten 3 tot en met 7.

• Voor τnewα leiden we, opnieuw uit (3.5), af dat∏i,j f(τnewα |Yij, αi(0), αc(1), βi(0), βc(1), τβ(0), τc(0))∏i,j f(τα(0)|Yij, αi(0), αc(1), βi(0), βc(1), τβ(0), τc(0))

=f(τnewα )

∏i f(αi(0)|αc(1), τnewα )

f(τα(0))∏

i f(αi(0)|αc(1), τα(0)).

Ook voor de proposal wordt hier gekozen voor q3 = N(τα(0), 0.1). We zorgenervoor dat de gekozen waarde steeds positief is en blijven ook hier in de buurtvan de startwaarde. We krijgen voor de ratio

f(τnewα )∏

i f(αi(0)|αc(1), τnewα )

f(τα(0))∏

i f(αi(0)|αc(1), τα(0))

q3(τα(0)|τnewα )

q3(τnewα |τα(0))

• Voor τnewβ volgen we dezelfde redenering als voor τnewα . We krijgen dus mu-tatis mutandis

f(τnewβ )∏

i f(βi(0)|βc(1), τnewβ )

f(τβ(0))∏

i f(βi(0)|βc(1), τβ(0))

q4(τβ(0)|τnewβ )

q4(τnewβ |τβ(0)).

• Ook voor τc veranderen we niet van proposal. Zodoende is q5 = N(τc(0), 0.1)en krijgen we als ratio

f(τnewc )∏

i,j f(Yij|αi(0), βi(0), τnewc )

f(τc(0))∏

i,j f(Yij|αi(0), βi(0), τc(0))

q5(τc(0)|τnewc )

q5(τnewc |τc(0)).

67

Page 71: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 68

• Wat αnewi betreft, veranderen we niets aan de proposal, zodat q6 = N(αi(0), 0.1).De ratio wordt bijgevolg∏

i f(αnewi |αc(1), τα(1))∏

i,j f(Yij|αnewi , βi(0), τc(1))∏i f(αi(0)|αc(1), τα(1))

∏i,j f(Yij|αi(0), βi(0), τc(1))

∏i q6(αi(0)|αnewi )∏i q6(α

newi |αi(0))

.

• βnewi gaat analoog aan αnewi . Bijgevolg krijgen we∏i f(βnewi |βc(1), τβ(1))

∏i,j f(Yij|αi(1), βnewi , τc(1))∏

i f(βi(0)|βc(1), τβ(1))∏

i,j f(Yij|αi(1), βi(0), τc(1))

∏i q7(βi(0)|βnewi )∏i q7(β

newi |βi(0))

.

Dit proces moeten we in principe een voldoende aantal keer herhalen, zodanig datde waarden op den duur eigenlijk uit de gezamelijke zeven dimensionale posteriorkomen. Deze werkwijze9 is nuttig om de principes van het algoritme onder de kniete krijgen, maar de implementatie ervan is enorm veel werk.

Om die reden hebben we voor het genereren van de resultaten gebruik gemaaktvan het softwarepakket WinBUGS. Via de package R2WinBUGS konden we debroncode10 uitwerken in het softwarepakket R. Het is, in vergelijking met onsoorspronkelijk idee, enorm werkbesparend, omdat we enkel ons model11, de start-waarden en uiteraard de data moeten ingeven. WinBUGS doet voor ons de im-plementatie en geeft ons een samenvatting van de variabelen, dichtheidsfunctiesen ‘traceplots’ (dit is een weergave van de getrokken waarden voor een variabelevolgens de iteraties.)

Resultaten.

De output bestaat voornamelijk uit ‘traceplots’, posteriorverdelingen en volgendesamenvatting van de variabelen:

In figuur 3.712 werd het gemiddelde θi voor een variabele θi berekend aan dehand van het ergodisch theorema. De standaarddeviatie werd gevonden via deposteriorvariantie

V ar(θi|D) =1

n− 1

n∑t=1

(θti − θi).

We zullen beroep doen op de waarden uit figuur 3.7 om de uiteindelijke poste-riorverdelingen van de variabelen in ons model te analyseren. Via de traceplots

9De lezer vindt de broncode terug in Appendix C.10Ook deze code is met beknopte uitleg terug te vinden in Appendix B.11Zie Appendix A.12De gegevens in de figuur zijn in gram uitgedrukt.

68

Page 72: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 69

Figuur 3.7: Samenvatting van de variabelen.

kunnen we de afgelegde weg van de Markovketen bekijken en begrippen als conver-gentie bespreken. We behandelen hier enkel de belangrijkste variabelen, namelijkαc, τα, βc en τβ. De output van τc en sigma is terug te vinden in Appendix D.We vermelden ook dat de ‘burn in’ (deze bedraagt 100000) reeds weggeknipt isuit de traceplots en we oorspronkelijk 200000 iteraties doorlopen hebben. We-gens het uitdunnen van de bekomen waarden (slechts 1 op de 100 waarden wordtopgenomen in de traceplot) bevat de traceplot slechts een duizendtal iteraties.

αc staat voor het gemiddeld intercept van de ratten. Op de traceplot is te zienhoe de keten convergeert omdat de waarden ongeveer stabiel blijven evoluerennaarmate de keten langer wordt. Op basis van deze waarden verkrijgen we dedichtheid van αc. Uit figuur 3.7 weten we dat het gemiddeld gewicht van de rattenbij aanvang van het onderzoek αc = 242.6 gram bedraagt. Via de standaarddevi-atie (2.73) kunnen we een geloofwaardigheidsinterval opstellen en concluderen dater 95% kans is dat αc in het interval [237.5, 248.1] ligt.

De spreiding in de intercepten van de ratten in ons onderzoek wordt weergegevendoor 1

τα= 1

0.004908= 203.7. Een 95% geloofwaardigheidsinterval van de intercepten

van de ratten wordt gegeven door [242.6 ± 1.96 ×√

203.7] = [214.6, 270.6]. Webesluiten dat de intercepten van de ratten vrij ver uit elkaar kunnen liggen.τα is vrij groot. Dit betekent dat de metingen van een rat, die in het begin van hetonderzoek reeds een hoge (respectievelijk lage) meting liet noteren, systematisch

69

Page 73: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 70

Figuur 3.8: Traceplot en posteriorverdeling van αc.

hoog (respectievelijk laag) zullen zijn.

Figuur 3.9: Traceplot en posteriorverdeling van τα.

70

Page 74: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.5. Toepassing: Gewicht van ratten. 71

De belangrijkste parameter in dit onderzoek is βc. Die verklaart immers hoeveelgram een rat per dag gemiddeld verdikt (of vermagert). Uit figuur 3.7 halen wedat een rat per dag gemiddeld 6.184 gram verzwaart.

Figuur 3.10: Traceplot en posteriorverdeling van βc.

De spreiding in gewichtstoename per dag van de ratten in ons onderzoek wordtweergegeven door τβ en bedraagt 4.11. Dit zien we op figuur 3.11. Er is 95% kansdat de dagelijkse gewichtstoename van een rat in het geloofwaardigheidsinterval[6.184± 1.96×

√4.11] = [2.21, 10.16] ligt.

71

Page 75: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

3.6. Besluit. 72

Figuur 3.11: Traceplot en posteriorverdeling van τβ.

3.6 Besluit.

We begonnen deze masterproef met een introductie in de Bayesiaanse statistiek.We ondervonden dat de resultaten intuıtiever geınterpreteerd konden worden danin de frequentistische benadering, hoewel ze meestal moeilijk te berekenen zijn.In dit opzicht namen we in hoofdstuk twee via de Markovketens een aanloop omdeze moeilijkheden te omzeilen en beschreven in het laatste hoofstuk de MCMCmethodes. We gebruikten software zoals WinBUGS, speciaal ontworpen voor dezedoeleinden, en constateerden dat we ons hoofd nauwelijks hoeven te breken overwelke priorverdelingen we moeten kiezen of welke proposalverdelingen we moetenhanteren. Dankzij de flexibiliteit en de ontzettend gemakkelijke manier van imple-menteren van dit programma kunnen we besluiten dat men allerhande hedendaagseproblemen ook op Bayesiaanse wijze kan aanpakken en uitwerken.

72

Page 76: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Referenties

[1] Albert J.H., Teaching Bayesian Statistics Using Sampling Methods andMINITAB, The American Statistician, Vol. 47, No. 3, p.182 (augustus 1993).

[2] Albert J.H., Teaching introductory statistics from a Bayesian perspec-tive(2002).

[3] Amenta N., Lecture notes van Design and Analysis of Algorithms (Universityof California):http://www.cs.ucdavis.edu/ amenta/w04/dis6.pdf

[4] Basharin G.P., Langville A.N en Naumov V.A., The Life and Work of A.AMarkov, Linear Algebra and its Applications, Vol. 386:3-26 (2004).

[5] Bellhouse D.R., The reverend Thomas Bayes FRS: A Biographical Sketch,Statististical Science, Vol. 19, No. 1, 3-43 (2004).

[6] Berger J.O., Bayesian Analysis: A Look at Today and Thoughts of Tomorrow,Journal of the American Statistical Association, Vol. 95, No. 452, p.1269-1270(december 2000).

[7] Berger J.O., Boukai B. en Wang Y., Unified Frequentist and Bayesian Testingof a Precise Hypothesis, Statistical Science, Vol. 12, No. 3, p.133-135 (1997).

[8] Bharucha-Reid A.T., Elements of the theory of Markov Processes and their ap-plications, published in Canada by Generel Publishing Company Ltd (1988).

[9] Birnbaum A., On the Foundations of Statistical Inference, The AmericanStatistician, Vol. 57, No. 298, p.269-273 (juni 1962).

[10] The BUGSproject: http://www.mrc-bsu.cam.ac.uk/bugs/.

[11] Bullard F., A Brief Introduction to Bayesian Statistics, The North CarolinaSchool of Science and Mathematics (2001).

73

Page 77: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Referenties 74

[12] Carlin B.P. en Louis T.A., Bayes and Empirical Bayes Methods for DataAnalysis, Chapman & Hall (London), p.3-5;42-47 (1996).

[13] Chbab E.H. en Van Noortwijk J.M., Bayesiaanse Statistiek voor de analysevan extreme waarden, RIZA rapport 2002.006, p.6-7 en p.17-18 (2002).

[14] Francois O., Markov Chain Monte Carlo and Gibbs Sampling, Lecture Notesfor EEB 581 (april 2004).

[15] Gelfand A.E., Hills S.E., Racine-poon A. en Smith A.F.M., Illustration ofBayesian Inference in Normal Data Models Using Gibbs Sampling, Journalof the American Statistical Association, published by: American StatisticalAssociation, Vol. 85, No. 412, p.972-985 (december 1990).

[16] Gilks W.R., Richardson S. en Spiegelharter D.J., Markov Chain Monte Carloin Practice, Chapman & Hall (London), p.1-19;58-66 (1996).

[17] Impens C., Wiskundige Analyse III, cursusnota’s voor 2de bachelor, Univer-siteit Gent (2005).

[18] Lindley D.V. en Philips L.D., Inference for a Bernoulli Process (A Bayesianview), The American Statistician, Vol. 30, No. 3, p.112-114 (augustus 1976).

[19] Little R. J., Calibrated Bayes: A Bayes/Frequentist Roadmap, The AmericanStatistician, published by: American Statistical Association, vol. 60, p.213-214 (augustus 2006).

[20] The MacTutor History of Mathematics archive: School of Mathematics andStatistics, University of St Andrews (n.d): http://www.gap-system.org/ his-tory/Biographies/Bayes.html.

[21] Mailliard G., Processus Stochastiques, cursusnota’s voor eerste Master aanUniversite de la Mediterranee, Marseille (2009).

[22] Norris J.R., Markov Chains, Cambridge University Press, p.1-60 (1998).

[23] Nualart D., Stochastic Processes, Lecture notes aan Universitat de Barcelona(n.d).

[24] O’Hagan T., Bayes Factors, Significance, Vol 3 Issue 4, p.184-186 (2006).

[25] Plummer M., Best N., Cowles K. en Vines K., Package ‘Coda’: Output anal-ysis and diagnostics for MCMC (2010).

[26] Robert C.P. en Casella G., A history of Monte Carlo - Subjective Recollectionsfrom Incomplete Data - (2008).

74

Page 78: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Referenties 75

[27] Samaniego F.J. en Reneau D.M., Toward a Reconciliation of the Bayesianand Frequentist Approaches to Point Estimation, Journal of the AmericanStatistical Association, Vol. 89, No. 427, p.947-948 (september 1994).

[28] Schomaker J., Kansrekenen: Beliefs & Bayes (juni 2001).

[29] Shiryaev A.N., Probability, Springer-Verlag New York Inc. (second edition),p.576-587 (1996).

[30] Sirl D., Markov Chains: An introduction/Review (MASCOS Workshop onMarkov Chains) (The university of Queensland (Australia)) (april 2005).

[31] Struik D.J., Geschiedenis van de wiskunde, Uitgeverij Het spectrum (vierdedruk), Utrecht (2001).

[32] Sturtz S., Ligges U. en Gelman A., R2WinBUGS: A Package for RunningWinBUGS from R (n.d):http://cran.r-project.org/web/packages/R2WinBUGS/vignettes/R2WinBUGS.pdf.

[33] Takahara G., Lecture notes van Applied Stochastic Processes(Queen’s university, Kingston), gebaseerd op Introduction toProbability Models van Ross M., Academic Press (2007):http://www.mast.queensu.ca/ stat455/lecturenotes/lecturenotes.shtml.

[34] Tierney L., Markov Chains for Exploring Posterior Distributions, The Annalsof Statistics, Vol. 22 No. 4, p.1701-1702 (december 1994).

[35] Vansteelandt S., Kansrekening en Wiskundige Statistiek I, cursusnota’s voor2de bachelor, Universiteit Gent (2004).

[36] Vallverdu J., The False Dilemma: Bayesian vs. Frequentist, Electronic Jour-nal for philosophy ISSN 1211-0442 (2008).

[37] Wasserman L., All of Statistics, a Concise Course in Statistical Inference,Springer-Verlag New York Inc. (2004).

[38] Weisstein E., World of Science website (ook met biografie):http://scienceworld.wolfram.com/biography/Metropolis.html.

[39] Wikipedia: http://en.wikipedia.org.

75

Page 79: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Appendix

Appendix A.

Het gebruikte model voor de toepassing over het rattengewicht (voor in Win-BUGS):

76

Page 80: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Appendix B.

Hieronder staat de broncode voor Winbugs dat bovenstaand model gebruikt.

77

Page 81: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Appendix C.

Ter vergelijking staat hieronder een deel (de update van een component in eeniteratie) van de broncode in R.

78

Page 82: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master

Appendix D.

Hieronder vindt de lezer de overige output van de toepassing over het rattengewicht.

Figuur 3.12: Traceplot en posteriorverdeling van sigma en τc.

79

Page 83: Monte Carlo Markov Chain methoden - Ghent University · 2011. 2. 19. · Monte Carlo Markov Chain methoden Bregt Savat Masterproef ingediend tot het behalen van de graad van Master