Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij...

33
Convergentie in de Bayesiaanse Statistiek Daan Lensink 11 juli 2013 Bachelorproject jaar 3 Begeleiding: dr. Bas Kleijn Korteweg-De Vries Instituut voor Wiskunde Faculteit der Natuurwetenschappen, Wiskunde en Informatica Universiteit van Amsterdam

Transcript of Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij...

Page 1: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Convergentie in de Bayesiaanse Statistiek

Daan Lensink

11 juli 2013

Bachelorproject jaar 3

Begeleiding: dr. Bas Kleijn

Korteweg-De Vries Instituut voor Wiskunde

Faculteit der Natuurwetenschappen, Wiskunde en Informatica

Universiteit van Amsterdam

Page 2: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Samenvatting

In dit project onderzoeken we of de methodes van de Bayesiaanse statistiek voldoen aande frequentistische eisen van consistentie en snelheid van convergentie.

In het eerste hoofdstuk geven we een overzicht van de definities in frequentistische enBayesiaanse statistiek.

In het tweede hoofdstuk bewijzen we twee stellingen over de Bayesiaanse statistiek.De stelling van Schwartz over consistentie en de stelling van Ghosal, Gosh en Van deVaart over snelheid van convergentie.

In het derde hoofdstuk geven we een meer intuıtievere benadering van een specifiekeeis van beide stellingen: het bestaan van zogenaamde testfuncties.

De appendix bespreekt de motivatie voor dit project.

Titel: Convergentie in de Bayesiaanse StatistiekAuteur: Daan Lensink, [email protected], 10000686/6279511Begeleiding: dr. Bas KleijnTweede beoordelaar: prof. dr. Harry van ZantenEinddatum: 11 juli 2013

Korteweg-De Vries Instituut voor WiskundeUniversiteit van AmsterdamScience Park 904, 1098 XH Amsterdamhttp://www.science.uva.nl/math

2

Page 3: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Inhoudsopgave

Inhoudsopgave 3

1. Asymptotiek, consistentie en Bayesiaanse statistiek 41.1. Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2. Basisdefinities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3. Asymptotiek en consistentie . . . . . . . . . . . . . . . . . . . . . . . . . 51.4. Bayesiaanse statistiek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Convergentiestellingen 102.1. Optreden van convergentie . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2. Snelheid van convergentie . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3. Testfuncties 183.1. Afstanden en de minimax-stelling . . . . . . . . . . . . . . . . . . . . . . 183.2. Bestaan van testfuncties . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3. Convexe verzamelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4. Overdekkingsgetallen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Populaire Samenvatting 26

Bibliografie 28

A. Notatie en conventies 29A.1. Definities van stochastische convergentie . . . . . . . . . . . . . . . . . . 29A.2. Stellingen omtrent stochastische convergentie . . . . . . . . . . . . . . . . 30

B. Motivatie 32

3

Page 4: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

1. Asymptotiek, consistentie enBayesiaanse statistiek

1.1. Inleiding

Het algemene doel dat wordt omarmd in dit project is het begrijpen en beschrijvenvan stochastische data: een verzameling van punten, waarvan we aannemen dat dezegegenereerd wordt uit een verdeling. Een voorbeeld hiervan is het meten van je snelheidbij het rennen van een rondje, of de lengte van een Nederlander. Omdat er bij het procesof de meting daarvan variatie kan optreden, zijn datapunten stochastische variabelen. Eris bijvoorbeeld variatie in de lengte van bewoners van Nederland en je rent niet elke dagmet dezelfde snelheid je rondje. Voor statistici is het zaak om de verdeling van de dataof eigenschappen van deze verdelingen te beschrijven aan de hand van de datapuntendie gevonden worden.

Het mag dan ook duidelijk zijn dat we met een enkel datapunt geen statistiek kunnenbedrijven. Niet alleen omdat variatie dan een grote invloed kan hebben op onze meting,maar ook omdat we geen idee hebben hoe groot deze invloed zou zijn. Een tweededatapunt geeft al meer zekerheid over het gedrag van de variantie, maar een derdebevestiging is zeer wenselijk om nauwkeuriger vast te kunnen stellen wat de verdelingvan het proces is. Met deze denkwijze nemen we onbewust al het filosofische standpuntin van de Frequentist, die stelt dat elk datapunt, vaak onafhankelijk, uit een enkele endezelfde verdeling komt.

Een Bayesiaan kiest ervoor deze aanname niet te maken. Daardoor heeft elk datapuntmogelijk een ander proces, met zijn eigen verdeling. Het realiseren van een datapunt kanabstract worden gezien als het trekken van een verdeling uit alle mogelijke verdelingen,waarna het datapunt uit deze verdeling getrokken wordt. In de geschiedenis heeft defilosofie van de Frequentisten de meeste voorkeur gekregen, mede omdat de Bayesiaansemethode wiskundige analyse bemoeilijkt. Hiermee is echter niet direct een einde geko-men aan het tijdperk van de Bayesianen. Met de opkomst van computers groeide devraag naar methodes waarbij brute rekenkracht vereist was in plaats van slimme hersen-kronkels. Juist de Bayesiaanse methodes bleken deze praktische handvatten te bieden.Dit is waar het doel van dit project zijn intrede doet.

Nu de Bayesiaanse methodes veel gebruikt worden, en mogelijk nog altijd in popu-lariteit zullen winnen, is het van belang om de resultaten van Bayesiaanse statistischemethodes op Frequentistiche wijze te analyseren. We maken dus wel de aanname dathet proces een vaste, ware verdeling heeft, en analyseren of de Bayesiaanse methode (deeigenschappen van) deze ware verdeling juist kan identificeren.

4

Page 5: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

1.2. Basisdefinities

In de vorige sectie spraken we al over de data die verdeeld was volgens een zekere,onbekende verdeling. Hoewel we deze verdeling onbekend veronderstellen, moeten weons beseffen dat we vaak geen algehele vrijheid geven aan wat de ware verdeling kan zijn.Bij de lengte van een Nederlander beperken we ons bijvoorbeeld tot normale verdelingen.Deze beperking noemen we het model. We beginnen met het formeel introduceren vandeze begrippen.

Definitie 1.1 (data, (gedomineerd) model). De waarden die de data Y kan aannamenna meting, bevinden zich in een meetbare ruimte (Y ,B). Een model P bestaat uit eenverzameling kansverdelingen P : B → [0, 1] op de ruimte (Y ,B). Als er een σ-eindigemaat µ : B → [0,∞] bestaat zodat voor alle P ∈ P geldt dat P µ noemen we Pgedomineerd door µ.

Opmerking. De laatste definitie maakt het, door gebruik van de stelling van Radon-Nikodym, mogelijk om kansverdelingen P te schrijven als dichtheden p = dP

dµ: Y → R.

De keuze van µ is hier geenszins uniek en deze dichtheden hangen dan ook af van degekozen maat µ.

Als we denken aan het model zoals van normale verdelingen voor de lengte van eenNederlander, dan ligt de verdeling vast zodra we het gemiddelde en de standaardafwij-king vastleggen. Eigenlijk identificeren we hier het model P met een ruimte (µ, σ2) ∈R× R+. Deze identificatie noemen we een parametrisatie.

Definitie 1.2 (Parametrisatie, identificeerbaar, parametrisch). Een model P is gepa-rametriseerd met parameterruimte Θ als de parametrisatie, een surjectieve afbeeldingΘ→ P : θ → Pθ bestaat. Als deze afbeelding ook injectief is heet P identificeerbaar.Tenslotte noemen we een model parametrisch als Θ ⊂ Rk.

In het algemeen geldt, als we schrijven dat een model geparametriseerd is, ook dat dezeidentificeerbaar is. In dit geval is het gebruikelijk de elementen P ∈ P te representerenmet hun identificatie Pθ en de ware verdeling P0 met zijn parametrisatie Pθ0 .

Voorbeeld 1.3 (Normale verdelingen). Het model P = N (µ, σ2) | µ ∈ R, σ2 ∈R+ wordt geparametriseerd door de ruimte Θ = R × R+ met de bijective afbeeldingφ(µ, σ2) = N (µ, σ2) en is dus identificeerbaar. Voor de verdeling N (µ, σ2) schrijven weook wel Pµ,σ2 .

1.3. Asymptotiek en consistentie

Zodra we ons model gekozen hebben, willen we de ware verdeling zo dicht mogelijkbenaderen. Het is bijvoorbeeld mogelijk om op dit moment al de datapunten te bekijkendoor ze bijvoorbeeld in een grafiek te plotten, en met het oog te bepalen wat de meestwaarschijnlijke verdeling is. Statistici gaan echter nog een stap verder voor ze de dataonder ogen nemen en leggen de methode geheel vast, onafhankelijk van de data. De

5

Page 6: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

methode om vanuit de data de ware verdeling te vinden, noemen we een schatter enwordt geformaliseerd in de volgende definitie.

Definitie 1.4 (Schatter). Een schatter P : Y → P is een functie die de datapuntenY afbeeldt op een verdeling P (Y ) ∈ P . In het geval dat het model geparametriseerd isnoemen we een functie θ : Y → Θ ook een schatter.

Opmerking. We kunnen een schatter uitrekenen zodra de data Y gerealiseerd is metY = y ∈ Y .

In de inleiding spraken we al over het intuıtieve gegeven dat we met meer zekerheiduitspraken kunnen doen over de (eigenschappen van) de verdeling naarmate we meerdatapunten tot onze beschikking hebben. Het gedrag van de statistische methodes in delimiet dat data onbeperkt voorhanden is, heet asymptotiek. In dit project bestuderenwe Bayesiaanse methodes in hun asymptotiek, en vergelijken we deze met de asymptotiekvan Frequentistische methodes. Uiteraard verwachten we van onze methodes dat zeconvergeren naar het juiste limiet, afhankelijk van de ware verdeling P0 en de topologieop P . Als dit gebeurt noemen we de methode consistent.

Definitie 1.5 ((Frequentistische) Consistentie). In een model Pd onder metriek d is eenrij van schatters Pn ∈ Pd (asymptotisch) consistent als, voor elke P0 ∈ P ,

d(Pn, P0)→ 0 P0 − bijna zeker.

Opmerking. Als het model parametrisch is en de afbeelding θ → Pθ continu, dan is eenrij van schatter θn ∈ Rk consistent als

|θn − θ0| → 0 Pθ0 − bijna zeker,

wat overeenkomt met θn convergeert Pθ0−bijna zeker naar θ0.

Opmerking. Bovenstaande definitie moet voor alle P0 ∈ P gelden, omdat we P0 onbekendveronderstellen.

Zodra consistentie van een methode gegeven is, en de methode in zekere zin dus altijdconvergeert naar de ware verdeling, wordt het ook interessant hoe snel dit gebeurt. Webepalen dit door het verschil tussen de schatter en de ware verdeling te vermenigvuldigenmet een factor en gaan na bij welke factoren de convergentie blijft optreden.

Definitie 1.6 (Convergentiesnelheid, Limietverdeling). Gegeven een rij (rn) ↓ 0, heefteen consistente rij schatters Pn convergentiesnelheid rn als

r−1n d(Pn, P0) = OP0(1).

Als een model parametrisch is spreken we over een consistente rij schatters θn metlimietverdeling Lθ0 wanneer

r−1n ||θn − θ0|| Lθ0 ,

dat wil zeggen P(r−1n ||θn − θ0|| ≤ x

)→ Lθ0(x) voor iedere x ∈ R. We verwijzen naar

de appendix voor resultaten in deze context en verduidelijking over de notatie.

6

Page 7: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Opmerking. Als we de factoren rn te groot kiezen, zal de uitdrukking r−1n d(Pn, P0) con-

vergeren naar een gedegenereerde verdeling, zij het langzamer dan de oorspronkelijkeuitdrukking d(Pn, P0). Kiezen we echter de factoren rn te klein, dan blazen we de uit-drukking r−1

n d(Pn, P0) op, zodat de limietverdeling Lθ0 niet begrensd is.

Voorbeeld 1.7 (Normale verdelingen). Stel dat P = N (θ, 1) : θ ∈ R, geparametri-seerd door de ruimte Θ = R, ware verdeling Pθ0 bevat en metriek d(Pθ1 , Pθ2) = |θ1 − θ2|heeft. De (maximum likelihood-)schatter θn voor θ0 vinden we door de uitdrukking

supθ∈R

log(n∏i=1

Xi) = supθ∈R

(− log(

√2π) +

n∑i=1

1

2(Xi − θ)2

)te maximaliseren. Als we afleiden naar θ en gelijk te stellen aan 0, vinden we

θn =1

n

n∑i=1

Xi.

Dan volgt uit de wet van de grote aantallen dat de rij schatters θn Pθ0-bijna zekerconvergeren naar de verwachting θ0 en dus (asymptotisch) consistent zijn. Uit de centralelimietstelling volgt bovendien dat

Pθ0

(∑ni=1(Xi − θ0)√

n≤ z

)→ Φ(z),

waarbij Φ de verdelingsfunctie van de standaardnormale verdeling is. De schatters θnhebben dus convergentiesnelheid n−1/2 en limietverdeling Lθ0 = N (0, 1).

1.4. Bayesiaanse statistiek

Zoals in de inleiding al gezegd, stelt de Bayesiaanse filosofie niet dat er een vaste ver-deling bestaat die de data genereert. Toch houden ook zij zich bezig met een methodevan schatting aan de hand van de data. Het Bayesiaanse equivalent van een schatternoemen we een posterior. Een posterior is geen enkele verdeling die aangewezen wordtals waarschijnlijke kandidaat, maar de posterior is op zichzelf een verdeling op het modelP .

Om de Bayesiaanse methode te hanteren moet een statisticus eerst een prior definieren,een a priori1 kansverdeling op het model. Een Bayesiaan gebruikt dit om zijn geloofomtrent de verdeling van de data om te zetten in een kwalitief oordeel over het model.Een prior op het model van de normale verdelingen voor de lengte van Nederlanders zoubijvoorbeeld veel massa kunnen leggen bij verdelingen met een gemiddelde dicht bij 170cm. Als Frequentist gebruiken we de mogelijkheid om de prior te definieren liever alsgraad van vrijheid voor het vinden van de ware verdeling, of maken we specifieke keuzesom berekeningen te vereenvoudigen.

1De termen a priori en a posteriori verwijzen naar, respectievelijk, ideeen of handelingen vooraf enachteraf het experiment.

7

Page 8: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Definitie 1.8 (Prior). De prior Π : A → [0, 1] is een kansverdeling op het model (P ,A).

Als een Bayesiaan de prior gedefinieerd heeft, gebruikt hij de regel van Bayes om zijn apriori geloof met behulp van de data te verbeteren. Omdat wij de Bayesiaanse statistiekvanuit een frequentistisch oogpunt benaderen, zullen we deze regel niet afleiden, maardefinieren.

Definitie 1.9 (Posterior). Stel dat het model P met continue kansverdelingen gedo-mineerd wordt door maat µ. Gegeven een prior Π en data Y , alsmede een meetbareverzameling U ⊂ P dan wordt onze overtuiging van de waarheid aangepast volgens

Π(U | Y ) =

∫Up(Y )dΠ(p)∫

P p(Y )dΠ(p). (1.1)

We noemen Π(U | Y ) de posterior.

Zoals eerder genoemd, zullen we in dit project de Bayesiaanse asymptotiek vanuiteen frequentistisch oogpunt analyseren. Hierbij worden we bij de analyse gedwongen deon-Bayesiaanse aanname te maken dat de ware verdeling P0 bestaat (en in dit geval,P0 ∈ P). Het doel van het volgende voorbeeld is om te laten zien dat frequentistischeen Bayesiaanse statstiek mogelijk tot eenzelfde oordeel komen over de verdeling van eendata, zij het op een andere wijze.

Definitie 1.10 ((Parametrisch) Posterior gemiddelde). Het posterior gemiddelde Pngegeven door

Pn(Y ) =

∫PP (Y )dΠ(P | Y )

is een schatter in de frequentistische zin. Als een model P met P0 ∈ P geparametriseerdwordt door een convexe verzameling Θ noemen we

θn(Y ) =

∫Pθ(Y )dΠ(θ | Y ),

ook wel het parametrisch posterior gemiddelde.

Opmerking. De eis dat Θ convex is, is noodzakelijk. Indien de verzameling Θ niet convexis hoeft het posterior gemiddelde θn niet te bestaan als verdeling Pθn . Neem bijvoorbeeldeen model P = Px,y | x2 + y2 = 1, geparametriseerd door Θ = (x, y) ∈ R2 | x2 + y2 =1, en kies een prior zodanig dat de posterior uniform is op deze ruimte. Dan zalθn = (0, 0), maar P(0,0) 6∈ P . We zien ook direct dat in het algemeen Pn(Y ) 6= θn(Y ).

Voorbeeld 1.11 (Normale verdelingen). Laat opnieuw P = N (θ, 1) | θ ∈ R gepara-metriseerd door Θ = R en stel dat P0 ∈ P . Definieer een prior door Π ∼ N (0, 1). Ookhier weer leggen we een metriek op de ruimte met d(Pθ1 , Pθ2) = |θ1 − θ2|. Dan wordende posteriordichtheden, volgens (1.1), gegeven door

Π(· | X1, . . . , Xn) = N(

n

n+ 1Xn,

1

n+ 1

). (1.2)

8

Page 9: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Dit is het makkelijkst in te zien wanneer we beseffen dat∫P p(Y )dΠ(p) een normalise-

rende factor is en dus enkel te berekenen dat (we negeren constantes ten opzichte vanθ)

pθ(Y )Π(θ) ∝ e−θ2

n∏i=1

e−(θ−Xi)2

= e−θ2−

∑ni=1(θ−Xi)2

= e−(n+1)θ2+2nθXn−∑ni=1X

2i

∝ e

−θ2+ 2nθXnn+1

1n+1 ∝ e

−( nn+1 Xn−θ)

2

1n+1

Uit (1.2) volgt dat het posterior gemiddelde gegeven wordt door θn = nn+1

Xn, welkeopnieuw volgens de wet van de grote aantallen een (frequentistisch) consistente schatteris. Uit de vergelijking met de (MLE-)schatter uit (1.7) zien we dat beide methodes eenconsistente schatter geven en slechts verschillen met een factor (1− 1/n) die bijna zekerconvergeert naar 1.

In het bovenstaande voorbeeld wordt een (frequentistische) schatter geconstrueerdom te laten zien dat de Bayesiaanse methode een consistente schatter oplevert. Dit isomslachtig en garandeert bovendien geenszins dat ons a posteriori geloof ’convergeert’naar een enkele verdeling. We zullen dan ook definitie 1.12 gebruiken voor consistentieals we praten over de posterior.

Definitie 1.12 (Posterior consistentie). Een posterior Π(· | X1, . . . , Xn) heet consis-tent in P0 als voor elke omgeving U van P0 geldt dat

limn→∞

Π(U | X1, . . . , Xn)→ 1 P0 − bijna zeker.

Opmerking. Uit de definitie volgt ook dat een posterior Π(· | X1, . . . , Xn) consistent inP0 is als

Π(· | X1, . . . Xn) δP0 .

Opnieuw, omdat de ware verdeling P0 niet bekend is, is de definitie alleen bruikbaar alshij bewezen wordt voor alle P ∈ P .

We merken bovendien op dat deze eis van consistentie sterker is dan de eis op consis-tentie van het posterior gemiddelde.

Stelling 1.13 (Posterior gemiddelde [6]). Als de posterior Π(· | X1, . . . , Xn) consistentis dan convergeert het posterior gemiddelde Pn P0-bijna zeker naar P0 in totale variatie.

Bewijs. Met de driehoeksongelijkheid zien we in dat P → ||P − P0||TV convex is. Dangeeft Jensens ongelijkheid dat

||Pn−P0||TV = ||∫PPdΠ(P | X1, . . . , Xn)−P0||TV ≤

∫P||P−P0||TV dΠ(P | X1, . . . , Xn).

Omdat de afbeelding P → ||P − P0||TV begrensd en continu is in de norm-topologieen P P0 onder de rij van posteriors Πn = Π(· | X1, . . . , Xn) concluderen we dat delaatste uitdrukking de verwachting van ||P −P0||TV is onder het limiet δP0 van Πn, welkegelijk is aan nul, waarmee de stelling bewezen is.

9

Page 10: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

2. Convergentiestellingen

2.1. Optreden van convergentie

Het eerste deel van dit project zal gaan over de consistentie van posterior-verdelingen.De stelling van Doob (1949) [2] is het eerste resultaat, welke enkel als motivatie gebruiktzal worden voor dit hoofdstuk.

Stelling 2.1 (Doobs consistentiestelling). Stel dat zowel het model P als de parame-trisatie Θ separabele en volledige metrische ruimtes zijn en dat P geıdentificeerd wordtdoor Θ, dan is de posterior Π-bijna zeker consistent.

Opmerking. Er is echter geen reden om aan te nemen dat de ware verdeling P0 niet inde Π-nullset zit die inconsistent is. Een eenvoudig voorbeeld van het optreden van inco-sistentie is bij zogenaamde misspecificatie: als P0 6∈ P zal de posterior nooit convergerennaar deze verdeling. Zelfs sterker, laat P ∈ P de beste bandering van P0 6∈ P , dan is ergeen reden om aan te nemen dat de posterior convergeert naar P , zie Grunwald (2006)[5].

Ook op andere manieren kan de ware verdeling P0 in een nullset van Π belanden. Neembijvoorbeeld als model alle verdelingen op de reeele lijn R met als prior de Dirichlet-verdeling1, dan geeft de prior massa 0 aan alle continue verdelingen. Toch is dit eenverzameling die we in principe niet willen negeren. Een ander voorbeeld wordt gegevendoor Freedman (1963) [3].

De stelling biedt helaas geen mogelijkheden om na te gaan welke keuze van een priorgarandeert dat consistentie optreedt voor gegeven verdelingen P0. Toch kunnen wetevreden zijn als we werken in een parametrische ruimte en de prior de lebesque-maatdomineert, zodat nullsets onder Π ook werkelijk klein zijn zoals gewenst.

Ons doel zal zijn een stelling te formuleren over de consistentie van posteriorverdelin-gen, zodat bovenstaande uitzondering niet kan optreden of in ieder geval te controlerenis. Deze stelling, de stelling van Schwartz, stelt twee eisen waarin de ware verdeling P0

expliciet voorkomt. Hierbij kunnen we in het bijzonder dus wel nagaan of de posteriorconsistent zal zijn gegeven een ware verdeling P0. De eerste eis van de stelling is dan ookeen eis op de prior Π. De tweede eis vereist het bestaan van zogenaamde testfuncties,die we in het hoofdstuk na de stelling van Schwartz zullen bespreken en waarvan we hetbestaan, onder bepaalde voorwaarden, zullen aantonen in hoofdstuk 3.

De volgende definitie geeft een eigenschap die te testen is voor elke ware verdeling P0

en welke gebruikt zal gaan worden in de stelling van Schwartz.

1De Dirichletverdeling is een gegeneraliseere Beta-verdeling op niet-parametrische ruimtes. [7]

10

Page 11: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Definitie 2.2 (Kullback-Leibler). De Kullback-Leibler divergentie tussen twee dicht-heden p en p0 is gedefinieerd als

K(p, p0) =

∫p0 log(

p0

p)dµ,

mits de uitdrukking integreerbaar is,∫p0 log(p0

p)dµ < ∞. Een verdeling p0 heeft de

Kullback-Leibler eigenschap onder de prior Π als voor elke ε > 0 geldt dat

Π(p : K(p, p0) < ε) > 0.

We schrijven wel p0 ∈ KL(Π).

Een voorbeeld uit het vorige hoofdstuk waarbij consistentie niet kon optreden, wasonder misspecificatie. De Kullback-Leibler eigenschap verzekert dat Kullback-Leibner-omgevingen van de ware verdeling P0 een positieve kansmassa krijgt onder de prior enverhindert op deze manier misspecificatie.

Een andere aanname die de stelling van Schwartz doet, gaat over zogenaamde test-functies. We stellen het bestaan van deze testfuncties φn uit en richten ons eerst op hetbewijzen van de stelling van Schwartz, maar zullen wel aangeven hoe deze testfunctiesgeınterpreteerd moeten worden.

Definitie 2.3 (Testfuncties). Elke meetbare functie φ : X → [0, 1] heet een testfunctie.

Voor iedere open omgeving U van P0 gaan deze testfuncties gaan onderscheid makentussen de gebieden P0 ∈ U en het complement U c. Als dit onderscheid gemaakt kanworden, is intuıtief duidelijk dat er een statistische manier is om aan te geven waar deware verdeling P0 ligt. We behandelen het bewijs van de stelling van Schwartz uitgebreid.We splitsen de posterior-uitdrukking (1.1) met behulp van de testfuncties en gebruikende eerste eis voor de noemer en de tweede voor de teller om te bewijzen dat de posteriorasymptotisch alleen geen massa toekent aan complementen van omgevingen van de wareverdeling P0.

Stelling 2.4 (Consistentiestelling van Schwartz [8]). Gegeven dat P0 ∈ P µ onder eenmetriek d. Laat p0 ∈ KL(Π) en stel dat er voor elke omgeving U van de ware verdelingP0 en voor elke n tests φn bestaan zodat

P n0 φn → 0 en sup

P∈UcP n(1− φn)→ 0,

dan is de posterior Πn(· | X1, . . . Xn) consistent in P0.

Bewijs. Met behulp van stelling 3.7 volgt dat voor een zekere constante C geldt dat

P n0 φn ≤ e−Cn en sup

P∈UcP n(1− φn) ≤ e−Cn.

11

Page 12: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

We moeten bewijzen dat het posteriorgewicht van het complement van een omgeving Uvan p0 bijna zeker naar 0 gaat. We gebruiken de testfuncties φn om de uitdrukking voorde posterior in (1.1) in twee delen te splitsen en vinden

lim supn→∞

Π(U c | X1, . . . , Xn) = lim supn→∞

∫Uc

∏ni=1

pp0

(Xi)dΠ(p)∫P∏n

i=1pp0

(Xi)dΠ(p)

≤lim supn→∞ e

nα(φn + (1− φn))∫Uc

∏ni=1

pp0

(Xi)dΠ(p)

lim infn→∞ enα∫P∏n

i=1pp0

(Xi)dΠ(p).

(2.1)

De keuze van α in de term enα zal later duidelijk worden. We bekijken elk van de tweetermen in de teller afzonderlijk onder het supremum in de limiet, maar bekijken eerstde deler onder het infimum. We zullen bewijzen dat de termen in de teller naar nulconvergeren en de term in noemer groter dan nul is, zodat het geheel altijd naar nul zalconvergeren.

De wet van de grote aantallen geeft dat voor alle p ∈ KL(Π)∣∣∣∣Pn [log

(p

p0

)]− P0

[log

(p

p0

)]∣∣∣∣→ 0 P0-bijna zeker.

Dan geldt dat we voor alle δ > 0 een N kunnen vinden zodat voor alle n > N geldt dat

−Pn log

(p

p0

)≤ −P0 log

(p

p0

)+ δ ≤ ε+ δ P n

0 -bijna zeker.

Als we nu schrijven α = δ + ε vinden we dat

n∏i=1

p

p0

(Xi) ≥ e−nα P n0 -bijna zeker.

Met dit gegeven vinden we

eαn∫P

n∏i=1

p

p0

(Xi)dΠ(p) ≥ eαn∫p:K(p,p0)<ε

n∏i=1

p

p0

(Xi)dΠ(p)

≥∫p:K(p,p0)<ε

eαnn∏i=1

p

p0

(Xi)dΠ(p)

≥ Π(p : K(p, p0) < ε) > 0,

waarbij we gebruik maken van Fatou’s lemma en het feit de dichtheden groter zijn dannul.

Bekijk nu de tweede term in de teller van (2.1). Merk op dat we ε onafhankelijk van nmogen kiezen, zodat ε < C voor zekere C en δ afhankelijk van n, zodat voor alle n groter

12

Page 13: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

dan zekere N geldt dat 0 < δ < 12(C − ε). De ongelijkheid −nC + n(ε+ δ) < −n

2(C − ε)

geeft nu aanleiding tot het gebruik van Markovs ongelijkheid met

P n0 (An) = P n

0

(enα(1− φn)

∫Uc

n∏i=1

p

p0

(Xi)dΠ(p) > e−n2

(C−ε)

)

≤P n

0

[enα∫Uc

∏ni=1

pp0

(Xi)(1− φn)dΠ(p)]

e−n2

(C−ε)

≤enα∫UcP n(1− φn)dΠ(p)

e−n2

(C−ε) ≤ e−n(C−α)

e−n2

(C−ε)

= en(α− 12

(C+ε)). (2.2)

We hebben δ gekozen zodat 0 < δ < 12(C − ε), en daarmee vinden we ε < δ + ε = α <

12(C + ε). Dus de laatste term van (2.2) is een e-macht met een negatieve exponent.

Daarmee is de som∞∑n=1

P∞0 (An) =∞∑n=1

P n0 (An) <∞

en dus kunnen we met Borel-Cantelli concluderen dat

P∞0 (lim supn→∞

An) = 0.

We schrijven dan, voor D = 12(C − ε), dat

lim supn→∞

An =∞⋂n=1

∞⋃k=n

(Bk > e−nD

)=∞⋂n=1

∞⋃k=n

ω : Bk(ω) > e−nD

=∞⋂n=1

ω : ∃k ≥ nBk(ω) > e−nD

=∞⋂n=1

ω : supk≥n

Bk(ω) > e−nD.

Merk op dat deze laatste stap niet zou kunnen als Bk(ω) ≥ e−nD (neem immers Bk(ω) ↑e−nD). We vervolgen de vergelijking met

lim supn→∞

An = ω : ∀n supk≥n

Bk(ω) > e−nD

⊃ ω : lim supk→∞

Bk(ω) > e−nD.

Daarmee vinden we P∞0 (ω : lim supk→∞Bk(ω) > e−nD) = 0 en tenslotte merken weop dat elke term

Bn = enα(1− φn)

∫Uc

n∏i=1

p

p0

(Xi)dΠ(p)

13

Page 14: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

positief is, en, omdat e−nD naar 0 convergeert, dat daarmee ook de rij Bn zelf bijna zekernaar 0 convergeert. Daarmee convergeert de tweede term in de teller van (2.1) (P0-bijnazeker) naar 0.

Op dezelfde manier geldt ook voor de eerste term van (2.1) dat

lim supn→∞

P n0 e

∫Ucd

n∏i=1

p

p0

(Xi)dΠ(p) ≤ enα−nC

voor zekere C. Met hezelfde argument als hierboven, gebruik makend van Markovsstelling en Borel-Cantelli, volgt ook dat de eerste term in de teller (P0-bijna zeker) naar0 convergeert. We concluderen dat (2.1) gelijk is aan nul, en daarmee is de stellingbewezen.

Om na te gaan of de posterior consistent is in P0, hoeven we, naast het bestaan vantestfuncties, alleen na te gaan of p0 ∈ KL(Π). Merk op dat dit voor zowel parametrischeals niet-parametrische modellen mogelijk is.

De vraag resteert wanneer testfuncties van deze vorm bestaan en we de stelling vanSchwartz dus kunnen toepassen. Deze vraag zal in het volgende hoofdstuk wordenbehandeld.

Hoewel de aannames van de stelling van Schwartz niet heel sterk lijken, zijn ze nietoptimaal. Bij het gebruik van de stelling is men gebonden aan de specifieke vorm vanKL-omgevingen. De stelling zou algemener bruikbaar zijn als van deze vorm afstandkan worden gedaan, ook omdat de integreerbaarheid van de uitdrukking in definitie 2.2niet in alle modellen verzekerd is. Deze tekst zal hier verder niet op in gaan.

2.2. Snelheid van convergentie

Zodra bekend is dat consistentie optreedt, is de eerstvolgende vraag een vraag van snel-heid. In de praktijk is data over het algemeen niet onbeperkt voorhanden, en zelfs als ditwel het geval is, zal het vergaren van data een zekere hoeveelheid tijd of materiaal kos-ten. Met dit in het achterhoofd willen we uitspraken kunnen doen over de snelheid vanconvergentie naar de ware verdeling P0. Specifieker gesteld zijn we dus geınteresseerd inde factor r−1

n uit definitie 1.6.De stelling in deze paragraaf zal indirect een uitspraak doen over deze factor r−1

n .Deze stelling zal, zoals ook Schwartz dat deed, een aanname maken op de priorverdelingen een aanname over het bestaan van testfuncties. Opnieuw zullen we het bestaan vandeze testfuncties uitstellen tot het volgende hoofdstuk.

We beginnen opnieuw met het definieren van een omgeving van de ware verdeling.

Definitie 2.5. We definieren omgevingen B(ε) van de ware verdeling P0 als

B(ε) =

P ∈ P : −P0 log

p

p0

≤ ε2, P0

(log

p

p0

)2

≤ ε2

.

14

Page 15: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

De opmerkzame lezer zal gezien hebben dat de voorwaarden van het vorige lemma eensterkere versie zijn van de KL-omgevingen uit de stelling van Schwartz. Bij het bewijsvan de stelling zal gebruik gemaakt worden van de volgende variant op deze omgevingen.Het volgende lemma is cruciaal voor het bewijs van de hoofdstelling van deze paragraaf.

Lemma 2.6. Laat ε > 0. Stel dat Π(B(ε)) > 0, dan geldt voor elke C > 0

P n0

(∫ n∏i=1

p

p0

(Xi)dΠ(P ) ≤ e−(1+C)nε2

)≤ 1

C2nε2. (2.3)

Bewijs. Met Jensens ongelijkheid volgt dat

log

∫ n∏i=1

p

p0

(Xi)dΠ(P ) ≥n∑i=1

∫log

p

p0

dΠ(P ).

We kunnen daarom de kans in (2.3) afschatten, met Gn =√n(Pn − P0), door

P n0

(Gn∫

logp

p0

dΠ(P ) ≤ −√n(1 + C)ε2 −

√nP0

∫log

p

p0

dΠ(P )

).

Met Fubini en de aanname, zien we dat de uitdrukking rechts af te schatten is met−√nε2C en een toepassing van Chebyshev’s ongelijkheid geeft een bovengrens voor

deze uitdrukking gegeven door

var∫

log(p/p0)(X1)dΠ(P )

C2nε4≤P0

∫(log(p/p0))2dΠ(P )

C2nε4,

waarbij we nogmaals Jensen hebben gebruikt. Per aanname is de laatste uitdrukking afte schatten door (C2nε2)−1.

Stelling 2.7 (Ghosal, Gosh en Van der Vaart [4]). Laat εn > 0 een rij zijn met εn → 0en nε2n →∞. Stel dat er een constante C > 0 bestaat zodat

Π(B(εn)) ≥ e−nCε2n , (2.4)

en stel dat er een rij van testfuncties φn en een constante L > 0 bestaan zodat

P n0 φn → 0 en sup

P :d(P,P0)≥εnP n(1− φn) ≤ e−nLε

2n . (2.5)

Dan geldt voor M > 0 groot genoeg dat

P n0 Πn(d(P, P0) ≥Mεn | X1, . . . , Xn)→ 0.

Bewijs. We schrijven A(η) = P ∈ P : d(P, P0) ≥ η. Opnieuw splitsen we de uitdruk-king voor de posterior en behandelen we de twee termen apart. We vinden dus

P n0 Πn(A(Mεn) | X1, . . . X1) ≤ P n

0 φn(X) + P n0 (1− φn)(X)Πn(A(Mεn) | X1, . . . X1),

15

Page 16: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

waarbij we onmiddelijk opmerken dat de eerste term naar nul convergeert vanwege (2.5).De tweede term schrijven we uit en we vinden

P n0 (1− φn)(X)Πn(A(Mεn) | X1, . . . X1)

= P n0

[∫A(Mεn)

∏ni=1

pp0

(Xi)dΠ(P )(1− φn)(X)∫P∏n

i=1pp0

(Xi)dΠ(P )

]. (2.6)

Volgens lemma 2.6 kunnen we de noemer onmiddelijk afschatten, waarbij we de aannamegebruiken dat Π(B(εn)) > 0.

Bekijk de ongelijkheid∫P

n∏i=1

p

p0

(Xi)dΠ(P ) ≥∫B(εn)

n∏i=1

p

p0

(Xi)dΠ(P ) ≥ e−(1+K)nε2nΠ(B(εn)),

met K > 0 een constante die we voor het moment vrijhouden. Laat Ωn de deelverza-meling van X n zijn waarop deze ongelijkheid geldt. We splitsen (2.6) in twee integralenover Ωn en X n/Ωn, zodat

P n0 Πn(A(Mεn) | X1, . . . , Xn)(1− φn)

≤ P n0 Πn(A(Mεn | X1, . . . , Xn)(1− φn)1Ωn + P n

0 (X n/Ωn).

We merken daarbij op dat de laatste term P n0 (X n/Ωn) = o(1) als n→∞ volgens lemma

2.6. Voor de eerste term schrijven we

P n0 Πn(A(MεN) | X1, . . . , Xn)(1− φn)1Ωn ≤

e(1+K)nε2n

Π(B(εn))P n

0

((1− φn)

∫A(Mεn)

n∏i=1

p

p0

(Xi)dΠ(P )

)

=e(1+K)nε2n

Π(B(εn))

∫A(Mεn)

P n(1− φn)dΠ(P )

≤ e(1+K)nε2nΠ(A(Mεn))

Π(B(εn))sup

P∈A(Mεn)

P n(1− φn),

waar we de definitie van het gebied Ωn gebruiken, en Fubini met de positiviteit van deintegrand. Door de aanname (2.5) in te vullen vinden we tenslotte

P n0 Πn(A(Mεn) | X1, . . . , Xn)(1− φn) ≤ e(1+K+C−M2L)nε2n + o(1).

Dus voor alle K > 0 bestaat er een M > 0 zodat bovenstaande uitdrukking naar nulconvergeert als n→∞. Hiermee vinden we het gestelde.

De volgende stelling laat zien dat we, wat betreft snelheid van convergentie, in deBayesiaanse statistiek geen verbetering vinden ten opzichte van de Frequentistische sta-tistiek. Dit resultaat komt ook uit Ghosal, Gosh en Van de Vaart, 2001 [4] en maaktgebruik van de zogenaamde small ball-schatter [7].

16

Page 17: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Stelling 2.8 (Posterior impliceert puntschatter). Laat Πn een reeks van posteriors dieconvergeert met snelheid εn. Dan bestaat er een frequentistische puntschatter met de-zelfde convergentiesnelheid.

Bewijs. Gegeven is dat

Πn(P : d(P, P0) ≥ εn | X1, . . . , Xn)P0−b.z.−−−−→ 0.

Laat nu Pn de maximalisator van de afbeelding

Q 7→ Πn(P : d(P,Q) < εn | X1, . . . , Xn),

dan geldt voor n groot genoeg d(Pn, P0) ≤ 2εn Pn0 -bijna zeker.

Daarmee zien we dat de Bayesiaanse snelheid van convergentie ook gebonden is aan defrequentistische optimale snelheid. Het is onduidelijk of de omkering ook geldt: bestaaner modellen waarin de beste poserior niet de optimale snelheid van convergentie haalt?De tekst zal hier verder niet op in gaan.

17

Page 18: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

3. Testfuncties

3.1. Afstanden en de minimax-stelling

In dit hoofdstuk behandelen we het bestaan van testfuncties, die gebruikt worden bijhet bewijs van de stellingen in het vorige hoofdstuk. Hierbij geven we meer intuıtiefeen idee wanneer deze functies bestaan en de stellingen gelden. Het idee is dat dezetestfuncties een onderscheid kunnen maken tussen P0 en U c, waarbij U een willekeurigeopen omgeving van P0 is. We hebben daarbij nodig dat we een afstand tussen kansmatenP en Q kunnen aangeven en we gebruiken hiervoor de Hellinger-afstand.

Definitie 3.1 (Hellinger-afstand, affiniteit). De Hellinger-afstand H(P,Q) tussentwee kansmaten P en Q, gedomineerd door een maat µ, wordt gedefinieerd aan dehand van de uitdrukking

H2(P,Q) =1

2

∫(√p−√q)2dµ.

Merk op dat

H2(P,Q) =1

2

(∫pdµ+

∫qdµ

)−∫√pqdµ = 1−

∫√pqdµ

en we schrijven de affiniteit als

ρ1/2(P,Q) =

∫√pqdµ.

Opmerking. Om in te zien dat de Hellinger-afstand altijd gedefinieerd is kunnen weµ = P +Q nemen.

Opmerking. De Hellinger-afstand is gerelateerd aan de totale variatie en de Kullbeck-Leibler-divergentie (2.2) via de ongelijkheden

H2(P,Q) ≤ ||P −Q||TV ≤ H(P,Q) ≤ p

∫log

p

qdµ.

We verwijzen hierbij naar Wong en Shen (1995) [11].

Ons doel is met behulp van een testfunctie (definitie 2.3) het verschil aan te geventussen een gebied C van kansmaten en een vaste kansmaat P . Dit definieren we als hetminimax risico.

18

Page 19: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Definitie 3.2 (Minimax risico). Het minimax risico voor het testen van een kansmaatP tegen een verzameling C is gegeven door

π(P,C) = infφ

(Pφ+ sup

Q∈CQ(1− φ)

),

waarbij φ : X → [0, 1] meetbare testfuncties zijn.

Het minimax risico is te interpreteren als het onderscheidingsvermogen voor P tegende verzameling C. Als de uitdrukking π(P,C) willekeurig klein gemaakt kan worden, iser een testfunctie goed in staat aan te geven wat het onderschijd is tussen P en C.

OM het bestaan van dergelijke testfuncties aan te tonen, zullen we gebruik maken vande minimax stelling.

Stelling 3.3 (Minimax stelling). Laat T en Y convexe ruimten zijn en stel dat T compactis. Laat f een functie zijn zodat t → f(t, y) continu en concaaf is voor elke y ∈ Y eny → f(t, y) convex voor elke t ∈ T . Dan geldt dat

infy

suptf(t, y) = sup

tinfyf(t, y)

en er een t0 ∈ T bestaat zodat

infy

suptf(t, y) = inf

yf(t0, y).

Bewijs. Zie Strasser, 1985 [10, Hoofdstuk 45, 46]

Met het bovenstaande idee kunnen we bewijzen dat het minimax risico π(P,C) in hetbijzonder kleiner gemaakt kan worden dan een bepaalde uitdrukking die door aannameop de afstanden later kleiner zal worden dan 1. Merk op dat we deze redenaties gaanbewijzen voor elke Xi. Nadat dit bewezen is, is het mogelijk om alle n stappen samente nemen en zo π(P n, Cn) willekeurig klein te maken, door n groot te kiezen.

Lemma 3.4 (Minimax voor testfuncties). Laat P en Q ∈ C kansmaten zijn gedomineerddoor een maat µ. Neem aan dat C een convexe verzameling is. Dan geldt dat

π(P,C) ≤ supQ∈C

ρ1/2(P,Q).

Bewijs. Om aan te tonen dat de functie f : (φ,Q) 7→ Pφ + Q(1 − φ) voldoet aan deeisen van de minimax-stelling, hebben we nodig dat de ruimte van de testfuncties φcompact is. De functies φ ∈ S1 zijn niet-negatieve functies in de gesloten eenheidsbalS1 ⊂ L∞ en L∗∞ = L1. De eenheidsbal S1 is gesloten in L∞ omdat voor elke f , limietvan een rij (fi) met supx∈X |fi(x)| ≤ 1, ook weer moet gelden dat supx∈X |f(x)| ≤ 1.Uit de stelling van Banach-Alaoglu volgt dan dat de verzameling S1 compact is in dezwak-ster-topologie. Omdat P en Q kansmaten zijn is de functie f een continue functiein zijn eerste argument. Bovendien is de functie convex in zijn tweede argument omdat

19

Page 20: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

f(φ, tQ+ (1− t)Q′) = tf(φ,Q) + (1− t)f(φ,Q′) en concaaf in zijn eerste argument omdezelfde reden. Met de minimax-stelling volgt dan

infφ∈S

supQ∈C

Pφ+Q(1− φ) = supQ∈C

Pφ∗ +Q(1− φ∗)

voor een zekere φ∗ ∈ S1.Voor gekozen kansmaten P en Q geldt dat de uitdrukking

Pφ+Q(1− φ) =

∫ (dP

dµ+dQ

dµ(1− φ)

)dµ =

(∫(p− q)φ+ q

)dµ = 1 +

∫(p− q)φdµ

geminimaliseerd wordt door φ = 0 te stellen als p−q > 0 en φ = 1 te stellen als p−q < 0.Oftewel, met φ∗ = 1p < q krijgen we

Pφ∗ +Q(1− φ∗) = 1−∫

(p− q)−dµ.

Daarmee vinden we dat

Pφ∗ +Q(1− φ∗) =

∫pφ∗ + q(1− φ∗)dµ

=

∫p<q

pdµ+

∫p>q

qdµ

≤∫pαq1−α,

voor alle α ∈ [0, 1]. Het resultaat in het lemma wordt nu gevonden door α = 12

te kiezen.

Opmerking. Het onmiddelijk kiezen van α in het vorige bewijs is niet noodzakelijk enkan wellicht gebruikt worden om een extra vrije parameter in te zetten in het volgendebewijs, waardoor er lichtere eisen gesteld worden op andere parameters.

We verwachten dat ons resultaat met elke stap in n, het aantal datapunten, zal ver-beteren. Het is daarom het doel om n als vrije parameter in onze berekeningen op tenemen. Als de uitdrukking π(P n, Cn) kleiner of gelijk is aan de uitdrukking π(P,C)n

zal dit mogelijk zijn. Het volgende lemma geeft dit resultaat.

Lemma 3.5. Voor kansmaten Pi en Qi ∈ C, waarbij C een convexe verzameling is,geldt

supQ∈conv(Cn)

ρ1/2(⊗iPi, Q) ≤∏i

supQi∈C

ρ1/2(Pi, Qi).

Bewijs. We bewijzen de stelling voor n = 2. We kunnen elke kansmaat Q ∈ conv(C2)schrijven als een dichtheid q =

∑i aiq1i(x)q2i(y) voor constantes ai die sommeren tot 1

en qij dichtheden van C. Merk dan op dat ρ1/2(p1 × p2, q) voor alle maten P1, P2 en Qgeschreven kan worden als∫ √

p1(x)∑i

aiq1i(x)

∫ √p2(y)

∑i aiq1i(x)q2i(y)∑

i aiq1i(x)dµ2(y)dµ1(x),

20

Page 21: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

waarbij we de binnenste integraal interpreteren als 0 als∑

i aiq1i(x) = 0. De binnensteintegraal kunnen we voor vaste x afschatten met de term supQ2∈C ρ1/2(P2, Q2), omdatC convex is en de functie van y dan een combinatie van dichtheden q2i met gewichtenaiq1i(x). Hierna kunnen we ook de buitenste integraal afschatten met supQ1∈C ρ1/2(P1, Q1).

Merk op dat we de verzameling C hierbij convex kiezen. We zullen de resultaten latergeneraliseren tot niet-convexe verzamelingen. Hiermee beeindigen we het voorbereindewerk en zijn we toe aan het bewijzen van het bestaan van testfuncties.

3.2. Bestaan van testfuncties

Samen met lemma 3.4 van dit hoofdstuk vinden we nu dat π(P n, Cn) ≤ ρ1/2(P,Q)n.Met dit resultaat zijn we in staat om te bewijzen dat testfuncties die het onderscheidkunnen maken tussen een kansmaat P en een convex gebied C bestaan.

Stelling 3.6 (Bestaan van testfuncties). Laat P een kansmaat zijn en laat H(P,Q) > εvoor elke Q ∈ C, een convexe verzameling. Dan bestaat er een test φ zodat voor elken ∈ N geldt dat

P nφ ≤ e−nε2

2 en supQ∈C

Qn(1− φ) ≤ e−nε2

2 .

Bewijs. Met lemma 3.4 vinden we π(P,Q) ≤ supQ∈C (1−H2(P,Q)) en per aanname

is dit van boven begrensd door 1− ε2

2. Met lemma 3.5 vinden we dan dat

π(P n, Qn) ≤ (1− ε2

2)n ≤ e−nε

2/2,

waarbij we gebruiken dat 1− x ≤ e−x voor alle x. Merk op dat

π(P n, Qn) = infφ

(P nφ+ sup

Q∈CQn(1− φ)

)zodat er een testfunctie φ bestaat die voldoet aan het gestelde.

Om de stelling van Schwartz in het vorige hoofdstuk iets algemener te kunnen stellengeven we ook nog de volgende stelling.

Stelling 3.7. Laat P een kansmaat zijn en H(P,Q) > ε voor elke Q ∈ C, een complexeverzameling. Laat voor elke n een functie φn bestaan zodat

P nφ→ 0 en supQ∈C

Qn(1− φ)→ 0,

dan bestaat er een constante D > 0 zodat

P nφ ≤ e−Dn en supQ∈C

Qn(1− φ) ≤ e−Dn.

21

Page 22: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Bewijs. Er bestaat een n0 zodat P n00 φn0 < 1/4 < 3/4 < Qn0φn0 voor elke Q ∈ C.

Scheid de n observaties X1, . . . Xn in l = bn/n0c groepen van grootte n0 (en een rest-groep). De variabelen Y1, . . . , Yl zijn, na toepassen van de test φn0 , identitiek verdeeld enonafhankelijk met gemiddelde kleiner dan 1

4onder P en groter dan 3

4onder elke Q ∈ C.

Bekijk nu de test ψ = 1Yn0≤12. Nu volgt met stelling 3.8, Hoeffdings ongelijkheid, dat

P n

(Yn0 − P0Yn0 ≥

1

4

)≤ e−

18n0 en P

(Yn0 −QYn0 ≤ −

1

4

)≤ e−

18n0

voor elke Q ∈ C, waarmee de stelling bewezen is.

Stelling 3.8 (Hoeffdings ongelijkheid). Laat X1, . . . , Xn onafhankelijke stochasten zijnzodat a ≤ Xi ≤ b voor elke i, dan geldt voor elke t > 0

P n(Xn − PXn ≥ t) ≤ e−2nt2

(b−a)2 .

3.3. Convexe verzamelingen

Zoals eerder opgemerkt hebben we nu alleen het bestaan van testfuncties aangetoond diede ware verdeling P0 afwegen tegen een convexe verzameling C. We sluiten dit hoofdstukaf met een bruikbare generalisering voor het bestaan van testfuncties, wanneer we P = P0

willen testen tegen het alternatief P ∈ U c, waarbij U een omgeving is van P0. We gevenhiervoor meerdere alternatieven.

Lemma 3.9. Laat P µ een ruimte van kansmaten zijn onder een metriek d met wareverdeling P0 ∈ P zodat p0 ∈ KL(Π). Stel dat er voor elke eindige omgeving U van P0

een overdekking van U c met convexe verzamelingen V1, . . . , VN bestaat zodat voor elkeQ ∈ Vi geldt dat d(P0, Q) > ε. Dan is de posterior consistent in P0.

Bewijs. Laat φi,n de testfunctie op Vi zijn die resulteert uit stelling 3.6. De functie ψngedefinieerd door

ψn = max1≤i≤N

φi,n

is een testfunctie zodat

P n0 ψn = max

1≤i≤NP n

0 φi,n ≤ enε2

2 en supP∈Uc

P n(1− ψn) = supP∈Uc

min1≤i≤N

P n(1− φi,n) ≤ enε2

2

en voldoet dus aan de eisen van stelling 2.4.

Opmerking. Omdat de Hellinger-ballen Q | H2(P,Q) < ε convexe verzamelingen zijn,is dit een mogelijkheid tot overdekken van de ruimte.

Alternatief is ook het volgende bewijs mogelijk.

22

Page 23: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Bewijs. Met stelling 3.6 vinden we dat er voor elke Vi en elke n een test φi,n bestaatzodat aan de voorwaarden van stelling2.4 voldaan is en omdat geldt dat V ⊂ ∪Ni=1Vi,vinden we

0 ≤ Π(V | Xn) ≤ Π(∪Ni=1 | Xn) ≤N∑i=1

Π(Vi | Xn)→ 0 P0-bijna zeker.

Lemma 3.10. Laat P µ een ruimte van kansmaten onder een metriek d. Gege-ven is dat de ware verdeling P0 zo is dat p0 ∈ KL(Π). Stel dat voor elke ε > 0 eenoverdekking van ringen U0 ∪ (Ui)i∈N van de ruimte P bestaat waarbij Ui = P |

√iε <

H(P0, P ) <√

(i+ 1)ε. Stel ook dat elk van deze ringen te overdekken is met eindigveel Hellingerballen. Dan is de posterior Π(· | X1, . . . , Xn) consistent in P0.

Bewijs. Overdek elke ring Ui met Hellingerballen V1, . . . , Vm en construeer ψi,n zoals inlemma 3.9, zodat voor ψi,n geldt dat

P n0 ψi,n ≤ e

n(iε)2

8 en supP∈Uc

P n(1− ψi,n) ≤ en(iε)2

8 .

Merk nu op dat ψi,n alleen gedefinieerd is op de ring Ui en daarmee de functie

φn =∞∑i=1

ψi,n

opnieuw een testfunctie is. Bovendien geldt voor deze φn dat

P n0 φn = P n

0

(∑i

ψi,n

)≤ e−nε

2/8en supP∈Uc0

P n(1−φn) = supP∈Uc0

P n

(1−

∑i

ψi,n

)≤ e−nε

2/8.

Deze rij functies voldoet aan de eisen van stelling 2.4.

Met dit gegeven kunnen we de eis van het bestaan van testfuncties in de stelling vanSchwartz, stelling 2.4, vervangen door een eis over de mogelijkheden tot overdekking vande ruimte. Deze testfuncties bestaan dus onder de voorwaarde dat de ruimte P niet alte groot wordt.

3.4. Overdekkingsgetallen

Het doel van deze paragraaf is een intuıtieve verklaring van de eis van testfuncties φnin stelling (2.7). Zoals zal blijken, kan deze eis vervangen worden door een eis op deoverdekkingsgetallen van de ruimte P . In wezen zegt dit dat de ruimte P niet al te grootmag zijn, zoals ook de vorige paragrafen lieten zien.

Definitie 3.11 (Overdekkingsgetal, Vullingsgetal). Laat D(ε,P , d) het maximale aantalpunten in P zodat de afstand tussen elk punt onder metriek d minstens ε is. We noemenD(ε,P , d) het ε-vullingsgetal van P . Laat N(ε,P , d) het minimale aantal bollen vanstraal ε onder metriek d zijn die nodig zijn om P te overdekken. We noemen N(ε,P , d)het ε-overdekkingsgetal van P .

23

Page 24: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Lemma 3.12. De twee getallen zijn met elkaar verbonden via de ongelijkheden

N(ε,P , d) ≤ D(ε,P , d) ≤ N(ε/2,P , d).

Bewijs. Laat B∗ een minimale verzameling van ε-bollen die P overdekken. Per definitieis het aantal elementen in de verzameling B gelijk aan N(ε). Laat nu A = p ∈ P |p is een middelpunt van een bol B ∈ B. Ook A heeft dan N(ε) elementen en bovendiengeldt voor p, q ∈ A dat d(p, q) > ε, omdat B een minimale overdekking was. Dus ookD(ε) is minimaal gelijk aan N(ε).

Laat nu A∗ de grootste verzameling van punten met afstand ε tot elkaar. Laat nuB = B(p, ε/2) | p ∈ A de verzameling van ε-bollen met middelpunten in A en straalε/2. Dan geldt voor twee bollen B1, B2 ∈ B dat B1 ∩ B2 = ∅ en dus is #B ≤ #B∗,een minimale verzameling van ε/2-bollen die P overdekken. Daarmee vinden we datD(ε) ≤ N(ε/2).

Opmerking. Eisen op het vullingsgetal zijn dus equivalent aan eisen op het overdekkings-getal. In de stelling zullen wij het overdekkingsgetal gebruiken.

De volgende stelling geeft het verband tussen het bestaan van testfuncties en de groottevan een ruimte.

Stelling 3.13 (Bestaan van testfuncties). Stel dat er een niet-stijgende functie N(ε)bestaat zodat er een εn ≥ 0 en elke ε > εn geldt dat

N( ε

2, P : ε ≤ H(P, P0) ≤ 2ε, H

)≤ N(ε).

Dan geldt voor elke ε > εn dat er testfuncties φn bestaan, zodat voor elke j ∈ N,

P n0 φn ≤ N(ε)e−

nε2

21

1− e−nε2

2

,

supH(P,P0)>jε

P n(1− φn) ≤ e−nε2j2

2 .

Bewijs. We gebruiken stelling 3.6. Laat j ∈ N gegeven en kies een grootste verzamelingvan punten uit Sj = P : jε < d(P, P0) ≤ (j + 1)ε, waarbij elk punt minstens afstandjε/2 tot een ander punt heeft. We noemen deze nieuwe verzameling S ′j. Het aantalpunten in S ′j is hoogstensD(jε) ≤ N(jε/2). Voor elk punt Pi ∈ S ′j bestaat een testfunctieψi,n,j zoals in stelling 3.6, met de eisen

P nψi,n,j ≤ e−nj2ε2/2 en supH(Q,Pi)≤H(P0,Pi)/2Q

n(1− ψi,n,j) ≤ e−nj2ε2/2.

Merk op dat we hierbij een specifieke convexe verzameling C kiezen. Laat φn = supj∈N maxPi∈S′j ψi,n,j,dan geldt voor deze φn dat

P n0 φn ≤

∑j∈N

∑P∈S′j

e−nj2ε2

2 ≤∑j∈N

N(jε)e−nj2ε2

2

supP∈∪i≥jSi

P n(1− φn) ≤ supi≥j

e−ni2ε2

2 .

24

Page 25: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

De tweede uitdrukking is al in de gewenste vorm. Voor de eerste uitdrukking merkenwe op dat N(jε) ≤ N(ε). Deze ongelijkheid en toepassing van de meetkundige reeks opde uitdrukking

∑j e−njε2 , die groter is dan de term in de eerste uitdrukking, geven het

gevraagde.

Opmerking. In het oneindig-dimensionele geval kunnen we het ε/4-overdekkingsgetalN(ε/4,P , H) kiezen voor de functie N(ε).

Met deze stelling kunnen we het bestaan van testfuncties φn in stelling 2.7 vervangendoor het bestaan van een functie N(ε) zoals hierboven. De opmerking hierboven verteltwat te doen als we in een oneindig dimensionale ruimte werken. We sluiten af meteen generiek voorbeeld in een eindig-dimensionale ruimte. Dit voorbeeld wordt ookbeschreven in Ghoshal, Gosh en Van de Vaart,2000 [4].

Voorbeeld 3.14. Laat P = Pθ : θ ∈ Θ ⊂ Rm waarbij de deelverzameling Θ begrensdis. Dan geldt dat, voor || · || de Euclidische norm,

H(Pθ, Pθ0) ≥ A||θ − θ0||,H(Pθ1 , Pθ2) ≤ B||θ1 − θ2||,

voor zekere A,B > 0, omdat de Hellinger-afstand begrensd is. De m-dimensionaleeenheidscirkel heeft een ε-vullingsgetal dat van boven begrensd is door (6/ε)m. Daarmeegeldt

D (kε, θ ∈ Rm : ||θ − θ0|| ≤ lε, || · ||) ≤(

6l

k

)m,

want de ε valt weg. Het volgt nu onmiddelijk dat

D(ε, Pθ : H(Pθ, Pθ0) ≤ 2ε, H) ≤ D

B,

θ : ||θ − θ0|| ≤

A

, || · ||

)≤(

12B

A

)m.

Kies de functie N in stelling (3.13) dus constant.

25

Page 26: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Populaire Samenvatting

Merk op dat de volgende drie regels elk dezelfde groep mensen beschrijft:

1. De groep die zwarte haren en blauwe ogen heeft.

2. De groep die zwarte haren heeft, en blauwe ogen als je zwart haar hebt.

3. De groep die blauwe ogen heeft, en zwarte haren als je blauwe ogen hebt.

De gelijkenis tussen de tweede en derde regel wordt vastgelegd door de regel van Bayes:

P(A | B)P(B) = P(B | A)P(A). (3.1)

Hiermee hebben we het bewijs van de regel van Bayes in woorden gegeven. De regel vanBayes wordt gebruikt voor het updaten van onze kennis over kansverdelingen.

A B

A ∩B

Figuur 3.1.: De kans op A en B is op twee manieren te schrijven volgens de regel vanBayes

Stel we spelen een spelletje van kop of munt van een van onze vrienden, maar we blijvenmaar verliezen. We weten dat er een manier is om de munt te verzwaren, waardoor dekans dat je kop gooit in werkelijkheid maar een kwart is. We gaan een aantal keer gooienmet deze munt om te kijken of dit een verzwaarde munt is. We schrijven daarvoor formule(3.1) om tot

P(E | X = k) =P(X = k | E)P(E)

P(X = k | E)P(E) + P(X = k | O)P(O),

waarbij E een eerlijke munt is en O een oneerlijke munt, en X = k het aantal keren kopk na tien keer gooien. Na tien keer gooien hebben we vier keer kop gegooid. De kansdat we met een eerlijke munt te maken hebben, op basis van die gegevens, is ongeveer58%.

26

Page 27: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

0 1 2 3 4 5 6 7 8 9 10

0.2

0.4

0.6

0.8

1.0

Figuur 3.2.: De kans dat de munt eerlijk is na 10 keer gooien, uitgezet naar het aantalkeer kop.

Vraag Wat gebeurt er als we de kans op kop beschrijven met een getal in [0,1] en eeneerlijke munt beschrijven als een munt waarvoor de kans op kop tussen de 40% en 60%ligt? Kunnen we dezelfde formule (3.1) gebruiken en welke vorm krijgt deze?

Het mag duidelijk zijn dat tien keer met de munt gooien niet genoeg is. Toch is hetzo dat als we maar vaak genoeg met de munt mogen gooien, we altijd zullen uitvindenof de munt eerlijk is of niet. Dit gegeven noemen we consistentie en dit is een wenselijkeeigenschap van onze methode. In dit verslag pogen we de consistentie van Bayesiaansemethodes aan te tonen onder eisen die zo licht mogelijk zijn.

0 10 20 30

0.2

0.4

0.6

0.8

1.0

Figuur 3.3.: De kans dat de munt eerlijk is, uitgezet naar het aantal keer gooien met eeneerlijke munt. (data op eerste 10 stappen is kunstmatig)

27

Page 28: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Bibliografie

[1] M. Bayarri and J. Berger. The interplay of Bayesian and frequentist analysis.Statistical Science, 19(1):58–80, 2004.

[2] J. Doob. Application of the theory of martingales. Le calcul des probabilites et sesapplications, pages 23–27, 1949.

[3] D. Freedman. On the asymptotic behavior of Bayes’ estimates in the discrete case.Annals of Mathematical Statistics, 34(4):1386–1403, 1963.

[4] S. Ghosal, J. Gosh, and A. van der Vaart. Convergence rates of posterior distribu-tions. Annals of Statistics, 28(2):500–531, 2000.

[5] D. Grunwald. Bayesian consistency under misspecification. Citeseer, 2006.

[6] B. Kleijn. Bayesian Asymptotics Under Misspecification. PhD thesis, Vrije Univer-siteit Amsterdam, 2004.

[7] B. Kleijn. A frequentist view on Bayesian statistics - lecture notes, 2013.

[8] B. Kleijn, A. van der Vaart, and H. van Zanten. Lectures on nonparametric Bayesianstatistics, 2012.

[9] D. Mossman and J. Berger. Intervals for posttest probabilities: a comparison of 5methods. Medical Decision Making, 21(6):498–507, 2001.

[10] H. Strasser. Mathematical theory of statistics: statistical experiments and asympto-tic decision theory, volume 7. de Gruyter, 1985.

[11] Wong and Shen. Probability inequalities for likelihood ratios and convergence ratesof sieve MLEs. Annals of Statistics, 23(2):339–362, 1995.

28

Page 29: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

A. Notatie en conventies

A.1. Definities van stochastische convergentie

Bijna zeker is het stochastische equivalent van het maattheoretische bijna overal.

Definitie A.1 (Bijna zeker). We zeggen dat een gebeurtenis A P -bijna zeker optreedtwanneer

P (A treedt op) = 1.

Merk op dat de definitie afhangt van de maat P .

Definitie A.2 (Bijna zekere convergentie). We zeggen dat een rij Xn P -bijna zekerconvergeert naar X als

P ( limn→∞

Xn = X) = 1.

We schrijven ook wel

XnP−b.z.−−−−→ X

ofXn → X,P − bijna zeker.

Merk op dat ook deze definitie afhangt van de maat P .

Opmerking. In beide bovenstaande definities kan de maat P worden weggelaten alsduidelijk is onder welke maat de gebeurtenissen optreden.

Voor de behandeling van limietverdelingen gebruiken we de o-notatie.

Definitie A.3 (Stochastische grote O-notatie). Voor een rij Xn, een rij constantes anen een maat P schrijven we

Xn = OP (an),

wanneer de verzameling van waarden Xn/an begrensd blijft in kans. Dit betekent datvoor elke ε > 0 er een M > 0 bestaat zodat voor alle n

P

(∣∣∣∣Xn

an

∣∣∣∣ > M

)< ε.

Definitie A.4 (Stochastische kleine o-notatie). Voor een rij Xn, een rij constantes anen een maat P schrijven we

Xn = oP (an)

wanneer de verzameling van waarden Xn/an naar 0 convergeert in kans. Dit betekentdat er voor elke ε > 0 en alle δ > 0 bestaat zodat voor een zekere N geldt dat voor allen > N

P

(|Xn

an| > ε

)< δ.

29

Page 30: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

A.2. Stellingen omtrent stochastische convergentie

Definitie A.5 (Convergentie in kans). We zeggen dat een rij Xn in kans convergeertnaar X als voor alle ε > 0 en δ > 0 er een N bestaat zodat voor alle n > N

P(|Xn −X| > ε) < δ.

We schrijven dan ook wel

XnP−→ X.

Definitie A.6 (Convergentie in verdeling). We zeggen dat een rij Xn convergeert inverdeling als

limn→∞

Fn(x) = F (x)

voor alle x ∈ R waar F continu is, waarbij Fn en F de cumulatieve verdelingsfunctiesvan respectievelijk Xn en X zijn. We schrijven dan ook wel

Xnd−→ X.

In dit hoofdstuk leggen we het resultaat vast dat

Xnb.z.−−→ X ⇒ Xn

P−→ X ⇒ Xnd−→ X.

We zullen hierbij gebruik maken van het Portmanteaulemma.

Stelling A.7. Als Xn bijna zeker naar X convergeert, dan convergeert Xn in kans naarX.

Bewijs. Definieer de verzameling O = ω | limn→∞Xn(ω) 6= X(ω). Per aannameheeft deze verzameling maat 0 onder P. Laat ε > 0 en bekijk vervolgens de dalende rijverzamelingen

An = ∪m≥n|Xm −X| > ε

die convergeert naar A∞ = ∩n≥1An. Merk op dat voor ω ∈ Oc geldt dat limn→∞Xn(ω) =X(ω), wat impliceert dat |Xn(ω) −X(ω)| < ε voor alle n groot genoeg. Deze ω zittendus niet in An voor n groot genoeg en daarmee niet in A∞. Daarmee vinden we A∞ ⊂ O,zodat ook P(A∞) = 0. Daarmee zien we dat

P(|Xn −X| > ε) ≤ P(An)→ 0,

waarmee we het gevraagde gevonden hebben.

Lemma A.8. Als |Yn−Xn| in kans naar 0 convergeert en Xn in verdeling naar X, danconvergeert Yn in verdeling naar X.

30

Page 31: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

Bewijs. Laat f een willekeurige, door M begrensde en Lipschwitz continue functie zijn,zodat ∃K > 0,∀x, y : |f(x)− f(y)| ≤ K|x− y|. Laat ε > 0 en schrijf

|E[f(Yn)]− E[f(Xn)]| ≤ E[|f(Y − n)− f(Xn)|]≤ E[K|Yn −Xn|1|Yn−Xn|<ε] + E[2M1|Yn−XN |≥ε]

≤ Kε+ 2MP(|Yn −Xn| ≥ ε).

Schrijf nu

|E[f(Yn)]− E[f(X)]| ≤ |E[f(Yn)]− E[f(Xn]|+ |E[f(Xn)]− E[f(X)]|

en vervang de eerste term zoals hierboven. Dan gaat dit naar nul omdat Yn naar Xn inkans convergeert en met lemma (A.10) gaat ook de tweede term naar 0 omdat Xn naarX convergeert in verdeling.

Stelling A.9. Als Xn is kans naar X convergeert, dan convergeert Xn in verdeling naarX.

Bewijs. De uitdrukking Xn −X convergeert in kans naar 0 en X convergeert naar Xin verdeling, dus we kunnen lemma (A.8) toepassen.

Lemma A.10 (Portmanteaulemma). De volgende vier resultaten zijn equivalent:

1. Een rij Xn convergeert in verdeling naar X.

2. E[f(Xn)]→ E[f(X)] voor alle begrensde en continue functies f .

3. E[f(Xn)]→ E[f(X)] voor alle begrensde, Lipschitz continue functies f .

4. lim supn→∞P(Xn ∈ C) ≤ P(X ∈ C) voor alle gesloten verzamelingen C.

31

Page 32: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

B. Motivatie

In de inleiding is reeds genoemd dat Frequentistische methodes in het verleden soms devoorkeur hebben gekregen boven de Bayesiaanse methodes. Terecht kann me nu de vraagstellen waarom het nodig is om gebruik te gaan maken van de Bayesiaanse methodes.In deze appendix hoop ik een antwoord te geven op deze vraag.

In het verleden werd de discussie tussen Bayesiaanse en Frequentistische statistiekvooral gevoerd op filosofische gronden, maar dit is niet een discussie die we hier zullenvoeren. Dit project houdt zich immers alleen bezig met de methode die voortvloeit uit deBayesiaanse ideeen. Noch wensen we te beargumenten welk systeem pedagogisch beteris om te onderwijzen. We zullen de twee deelgebieden in de statistiek enkel vergelijkenop hun methodes en geven argumenten op praktische gronden.

De praktische reden dat Bayesiaanse statistiek een zekere populairiteit geniet is van-wege het bestaan van computationale methodes zoals de Markov Chain Monte Carlo-algoritmes die het mogelijk maken om kansverdelingen te benaderen zonder dat de exactevorm bekend is. Door middel van veel brute rekenkracht kan men op deze manier ho-gerdimensionale integralen, vaak aanwezig in de posterior uitdrukking (1.1), zonder alte veel moeite redelijk nauwkeurig uitrekenen.

Het volgende geleende voorbeeld uit een artikel van Bayarri en Berger, 2004 [1] toontgeen berekeningen, maar geeft enkel een voorbeeld waarin de regel van Bayes zich beterleent voor het opstellen van betrouwbaarheidsintervallen dan diverse frequentistischemethodes. Merk op dat het algoritme wat hier gegeven wordt eenvoudig is, maar veelrekenkracht vereist.

Voorbeeld B.1 (Medische diagnose [1]). We bekijken een populatie waarin een ziekte Zoptreedt en een diagnostische test bestaat die resultaat + (patient is ziek) of − (patient isgezond) teruggeeft. We bekijken de resultaten van een patient Y . Laat p0 = P(Y ∈ Z),p1 = P(+ | Y ∈ Z) en p2 = P(+ | Y 6∈ Z) onbekend zijn, maar, voor i = 0, 1, 2 bestaaner onafhankelijke (gerealiseerde) datapunten xi met Binomiaal(ni,pi) verdeling. Met deformule van Bayes vinden we dat

θ = P(Y ∈ Z | +) =p0p1

p0p1 + (1− p0)p2

.

We willen een 100(1−α)%-betrouwbaarheidsinterval vinden voor θ met de juiste eigen-schappen.

We bekijken de Jeffreys prior1 voor pi gegeven door Π(pi) ∼ Beta(1/2, 1/2) en passenhet volgende algoritme toe:

1 Jeffreys prior is een invariant onder de keuze van de parametrisatie en wordt gegeven door deuitdrukking Π(dθ) =

√det(Iθ)dθ, waarbij Iθ de Fischer-informatie is [7].

32

Page 33: Convergentie in de Bayesiaanse Statistiek · Een voorbeeld hiervan is het meten van je snelheid bij het rennen van een rondje, of de lengte van een Nederlander. ... Uit de centrale

1. Trek pi uit de posterior Beta(xi + 1/2, ni − xi + 1/2) voor i = 0, 1, 2.

2. Laat θ = p0p1

p0p1+(1−p0)p2.

3. Herhaal dit proces N keer.

4. Order alle gevonden θ. Kies het betrouwbaarheidsinterval door van deze geordenderij het (Nα/2)-de punt als linkerrandpunt en het (N(1 − α/2))-de punt als hetrechterrandpunt te nemen.

Voor de illustratie van de resultaten van deze methode laten we ni = 20 en construerenhet 95%-betrouwbaarheidsinterval. Merk op dat we het betrouwbaarheidsinterval niet tegroot willen maken, maar ook niet te klein, dus in het ideale geval vinden we P(θ < L)en P(θ > R) ongeveer geljk aan 0.025, waarbij L en R respectievelijk de linker- ende rechtergrens van het interval zijn. In tabel (B) zijn deze waardes uitgezet tegenverschillende waardes van het triplet (p0, p1, p2). Ter vergelijking voegen we de resultatenvan een aantal frequentistische methodes toe.

(p0, p1, p2) Bayes LO GN Delta(1

4, 3

4, 1

4) .0286,.0271 .0153,.0155 .0277,.0257 .0268,.0245

( 110, 9

10, 1

10) .0223,.0247 0017,.0003 .0158,.0214 .0083,.0041

(12, 9

10, 1

10) .0218,.0240 .0004,.0440 .0240,.0212 .0125,.0191

Tabel B.1.: De kans dat de waarde van θ links of rechts van het 95%-betrouwbaarheidsinterval valt voor verschillende methodes.

Uitleg van de methodes Log-Odds, Gart-Nam en Delta zijn te vinden in Mossman enBerger, 2001 [9], maar dienen hier enkel ter illustratie.

33