Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en...

88
Statistische analyse van inserties in het genoom van muizen Anne de Haan 30 juni 2008 Bachelorscriptie Begeleiding: Prof. Dr. M.R.H. Mandjes KdV Instituut voor wiskunde Faculteit der Natuurwetenschappen, Wiskunde en Informatica Universiteit van Amsterdam

Transcript of Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en...

Page 1: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Statistische analyse van insertiesin het genoom van muizen

Anne de Haan

30 juni 2008

Bachelorscriptie

Begeleiding: Prof. Dr. M.R.H. Mandjes

KdV Instituut voor wiskunde

Faculteit der Natuurwetenschappen, Wiskunde en Informatica

Universiteit van Amsterdam

Page 2: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

SamenvattingHet onderzoek naar inserties in het genoom van muizen maakt deel uit vanhet kankeronderzoek. We hebben het vermoeden dat, wanneer virussen dezeinserties veroorzaken, die virussen een voorkeur hebben om specifieke genenaan te tasten. In deze scriptie nemen we aan dat de inserties uniform verdeeldzijn. Aan de hand hiervan construeren we voor elk basepaar in het genoomeen stochast Di, waarvan we de verdeling bestuderen en benaderen. Metbehulp van het programma Matlab kunnen we nu voor elke positie in hetgenoom toetsen of het aantal inserties, dat daar heeft plaats gevonden heeft,al dan niet onwaarschijnlijk klein is.

GegevensTitel: Statistische analyse van inserties in het genoom van muizenAuteur: Anne de Haan, [email protected], 0525944Begeleider: Prof. Dr. M.R.H. MandjesTweede beoordelaar: Prof. Dr. C.A.J. KlaassenEinddatum: 30 juni 2008

Korteweg de Vries Instituut voor WiskundeUniversiteit van AmsterdamPlantage Muidergracht 24, 1018 TV Amsterdamhttp://www.science.uva.nl/math

Page 3: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Inhoudsopgave

Inleiding 3

1 De stochast D = (D1, ..., DG) en zijn karakterisaties 5

2 Benaderingen van de karakterisaties 92.1 De Taylorbenadering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2 De Taylorbenadering toegepast op het interval [b,a] . . . . . . . . . . . . . 112.3 Afschattingen met methode 1 van

∑Gj=1 K|i−j|,∑G

j=1 K2|i−j| en

∑Gk=1 K|i−k|K|j−k| . . . . . . . . . . . . . . . . . . . . . . . 11

2.4 Afschattingen met methode 2 van∑G

j=1 K|i−j|,∑Gj=1 K2

|i−j| en∑G

k=1 K|i−k|K|j−k| . . . . . . . . . . . . . . . . . . . . . . . 142.5 Afschattingen van de karakterisaties . . . . . . . . . . . . . . . . . . . . . . 20

3 Het bepalen van een bovengrens voor P(Di > z) 243.1 De Markov-ongelijkheid en de Chernoff-grens . . . . . . . . . . . . . . . . . 243.2 Een eerste bovengrens van P(Di > z) . . . . . . . . . . . . . . . . . . . . . 263.3 Een tweede bovengrens van P(Di > z) . . . . . . . . . . . . . . . . . . . . 27

4 Hypothesetoets 31

Populaire samenvatting 37De nulhypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37De stochast Di . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38Karakterisaties van de stochast D = (D1, ..., DG) . . . . . . . . . . . . . . . . . 39Benaderingen van de karakterisaties . . . . . . . . . . . . . . . . . . . . . . . . . 39Het bepalen van een bovengrens voor P(Di > z) . . . . . . . . . . . . . . . . . . 40Hypothesetoets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Bibliografie 41

Appendix A 42Bewijzen uit Hoofdstuk 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43Bewijzen uit Hoofdstuk 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

1

Page 4: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Bewijzen uit Sectie 2.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45Bewijzen uit Sectie 2.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Bewijzen uit Hoofdstuk 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70Bewijzen uit Sectie 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Appendix B 73Programma om de grenzen uit Hoofdstuk 2 te berekenen . . . . . . . . . . . . . 73De nauwkeurigheid van de benaderingen uit Hoofdstuk 2 en de rekentijd voor de

computer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77Programma om de bovengrens van P(Di > z) uit Hoofdstuk 3 te berekenen . . . 79De nauwkeurigheid van de benaderingen uit Hoofdstuk 3 en de rekentijd voor de

computer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83Programma om te toetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

2

Page 5: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Inleiding

Deze bachelorscriptie is een vervolg op een onderzoek naar een mogelijke oorzaak vankanker: kanker die ontstaat in genen die door virussen gemuteerd zijn1. Voor dit onderzoekzijn er muizen geınjecteerd met virussen. Hierdoor hebben zich tumoren ontwikkeld in demuizen, waarnaar verder onderzoek is gedaan. Ook in deze bachelorscriptie gaat het omde vraag, of het virus een voorkeur heeft om specifieke genen aan te tasten.Het genoom bevat precies een complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een groot aantal basenparen en elk basenpaar bevat twee nucleotiden.Wij noemen het aantal basenparen G en eisen dat G in de orde van een miljard is. Daar-naast is er een deel van het genoom aangetast door de virussen. Een toevoeging, door eenvirus, van een of meer nucleotiden aan een DNA- of RNA-reeks, noemen we een insertie.In de onderstaande afbeelding is dit te zien.

Het aantal inserties dat heeft plaats gevonden noemen we n en is aanzienlijk kleiner dan G.Wanneer het virus een voorkeur heeft voor specifieke genen, verwachten we clusters vaninserties te zien. Wanneer dit niet het geval is, verwachten we een uniforme spreiding tezien. Om aan te kunnen tonen dat het virus inderdaad de voorkeur heeft om het genoomop bepaalde posities aan te tasten, nemen we als nulhypothese: “de posities van de insertieskomen voort uit een uniforme verdeling”.

In de komende hoofdstukken zullen we aannemen dat G = 3 · 109 en n = 104. Bovendiennummeren we de basenparen van 1 tot 3 · 109. Nu laten we Di het aantal inserties zijn

1Zie voor dit onderzoek het artikel [3]

3

Page 6: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

op positie i, met 1 ≤ i ≤ G. Wanneer de inserties uniform verdeeld zijn, heeft de vector(D1, ..., DG) een multinomiale verdeling met

G∑i=1

ni = n en P(D1 = n1, ..., DG = nG) =

(n

n1, ..., nG

)(1

G)n.

Omdat we clusters van inserties willen onderzoeken, zullen we “kernel smoothing”gebruiken.Hiermee geven we, gegeven een bepaalde positie i, alle posities j = 1, ..., G een gewicht. Depositie i zelf krijgt het zwaarste gewicht, namelijk 1. Bovendien zal gelden dat hoe verderde positie van i afligt, hoe lager het gewicht zal zijn. Wij zullen in deze scriptie dit gewichtK|i−j| = e−(i−j)2/h laten zijn. Hierin is h een te kiezen constante, die relatief klein is tenopzichte van G.Op deze manier krijgen we een nieuwe stochast Di. Om te kunnen bepalen of de insertiesinderdaad voortkomen uit een uniforme verdeling, moeten we de verdeling beschrijvenvan Di. Het berekenen van de kans P(Di ≤ z), in het programma Matlab, kost de computerechter zeer veel tijd. Daarom zullen we de verdeling eerst gaan karakteriseren. Dit is telezen in Hoofdstuk 1. Daarna zullen we deze karakterisaties benaderen, zoals we zullenzien in Hoofdstuk 2. Om tot slot de nulhypothese te kunnen toetsen, wat we zullen doenin Hoofdstuk 4, schatten we in Hoofdstuk 3 de kans P(Di > z) van boven af met eenbovengrens die de computer, in Matlab, snel uit kan rekenen.

4

Page 7: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Hoofdstuk 1

De stochast D = (D1, ..., DG) en zijnkarakterisaties

In Hoofdstuk 4 willen we de nulhypothese “de posities van de inserties komen voort uiteen uniforme verdeling” gaan toetsen. Voor we deze hypothese kunnen toetsen, moetenwe echter eerst meer weten over de verdeling van Di. In dit hoofdstuk zullen we dezeverdeling gaan karakteriseren, door gebruik te maken van het feit dat Di afgeleid is van demultinomiale verdeling, waar we wel al veel over weten.Wanneer de inserties uniform verdeeld zijn, heeft de vector D = (D1, ..., DG) (waarin Di

het aantal inserties op positie i is) een multinomiale verdeling. In de inleiding lazen weal dat we clusters van inserties willen onderzoeken. We bekijken clusters van inserties inplaats van de exacte posities van de inserties omdat er onnauwkeurigheid optreedt bij hetmeten van de plaats van de insertie. Het kan dus gebeuren dat in de data te zien is dateen insertie op positie i is gemeten, terwijl deze insertie in werkelijkheid op positie i + kheeft plaatsgevonden, waarbij k een positief of negatief geheel getal is, in de orde van

√h.

Om clusters te onderzoeken, zullen we gebruik maken van “Gaussische Kernels”. Gegeveneen bepaalde positie i, geven we daarvoor alle posities j = 1, ..., G een gewicht K|i−j|. Depositie i zelf krijgt het zwaarste gewicht, namelijk 1. Bovendien zal gelden dat hoe verderde positie van i afligt, hoe lager het gewicht zal zijn.Om de nulhypothese te kunnen toetsen, willen we eigenschappen van de stochasten D1, ..., DG

weten. Daarom zullen we in dit hoofdstuk karakterisaties van deze stochasten gevendoor uitdrukkingen te geven voor de verwachting EDi, de variantie VarDi, de covariantieCov(Di, Dj) en de moment genererende functie Ee

PGi=1 θiDi .

Voor we dit doen, moeten we eerst enkele begrippen definieren.

Definitie 1.1. Laat (D1, ..., DG) een vector zijn waarin Di het aantal inserties op positie iis. Laat deze vector een multinomiale verdeling hebben met

G∑i=1

ni = n en P(D1 = n1, ..., DG = nG) =

(n

n1, ..., nG

)(1

G)n.

5

Page 8: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Laat bovendien Di :=∑G

j=1 DjK|i−j|, waarbij Ki := exp(−i2/h), voor een zekere relatiefkleine h (ten opzichte van G).

Nu zullen we uitdrukkingen geven voor EDi, VarDi, Cov(Di, Dj) en EePG

i=1 θiDi .

Lemma 1.2. De verwachting van elke Di is:

EDi =n

G

G∑j=1

K|i−j|.

Bewijs. Uit de definitie van Di volgt dat EDi = E∑G

j=1 DjK|i−j|. Bovendien weten we dat

E∑G

j=1 DjK|i−j| =∑G

j=1 K|i−j|EDj, omdat de som eindig is en K|i−j| een getal is voor alle

i, j. We weten ook dat Dj bin(n, 1G) verdeeld is en dus volgt dat EDj = n 1

G. Hiermee volgt

dat EDi =∑G

j=1 K|i−j|n1G

= nG

∑Gj=1 K|i−j|.

Nu zullen we eerst een uitdrukking voor de covariantie geven, waarvan de variantie vervol-gens een speciaal geval is.

Lemma 1.3. De covariantie van elk tweetal Di, Dj is:

Cov(Di, Dj) =n

G

G∑k=1

K|i−k|K|j−k| −n

G2(

G∑k=1

K|i−k|)(G∑

l=1

K|j−l|).

Bewijs. De definitie van de covariantie (en de inmiddels bekende uitdrukkingen invullen)geeft ons dat

Cov(Di, Dj) = EDiDj − EDiEDj = EDiDj − (n

G

G∑k=1

K|i−k|)(n

G

G∑l=1

K|j−l|).

Voordat we EDiDj kunnen bepalen, moeten we eerst weten wat EDjDk is. Als j = k, dan

weten we dat EDjDk = EDjDj = VarDj +(EDj)2 = n

G(1− 1

G)+ n2

G2 = nG+n2−nG2 . Als j 6= k,

geldt dat EDjDk = n2−nG2 . Het bewijs hiervan is te lezen op pagina 43.

Nu kunnen we EDiDj bepalen:

6

Page 9: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

EDiDj = E(G∑

k=1

DkK|i−k|)(G∑

l=1

DlK|j−l|)

= EG∑

k=1

G∑l=1

DkDlK|i−k|K|j−l|

=G∑

k=1

G∑l=1,l 6=k

K|i−k|K|j−l|EDkDl +G∑

k=1

K|i−k|K|j−k|ED2k

=G∑

k=1

G∑l=1,l 6=k

K|i−k|K|j−l|n2 − n

G2+

G∑k=1

K|i−k|K|j−k|nG + n2 − n

G2

=n2 − n

G2(

G∑k=1

K|i−k|)(G∑

l=1

K|j−l|) +n

G

G∑k=1

K|i−k|K|j−k|.

Door dit in te vullen zien we dat

Cov(Di, Dj) =n

G

G∑k=1

K|i−k|K|j−k| −n

G2(

G∑k=1

K|i−k|)(G∑

l=1

K|j−l|).

Hiermee is bovenstaand lemma bewezen.

Omdat we ook weten dat VarDi = Cov(Di, Di), volgt hieruit direct het volgende lemmaover de variantie van Di:

Lemma 1.4. De variantie van elke Di is:

VarDi =n

G

G∑j=1

K2|i−j| −

n

G2(

G∑j=1

K|i−j|)2.

Opmerking. We kunnen deze uitdrukking ook anders schrijven:

VarDi =n

G

G∑j=1

K2|i−j| −

n

G2(

G∑j=1

K|i−j|)2

=n

G

G∑j=1

K|i−j|(K|i−j| −1

G

G∑k=1

K|i−k|)

=n

G

G∑j=1

K|i−j|(1

G

G∑k=1

(K|i−j| −K|i−k|).

Bovendien volgt uit de definitie van de variantie dat altijd VarDi = nG

∑Gj=1 K2

|i−j| −n

G2 (∑G

j=1 K|i−j|)2 ≥ 0, ook al is dat niet meer direct zichtbaar uit deze uitdrukking.

7

Page 10: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Tot slot willen we ook de simultane moment genererende functie van de vector D =(D1, ..., DG) bepalen.

Lemma 1.5. De moment genererende functie van D = (D1, ..., DG) is:

EePG

i=1 θiDi =1

Gn(

G∑j=1

ePG

i=1 θiK|i−j|)n.

Bewijs. De definitie van de moment genererende functie van D = (D1, ..., DG) is EePG

i=1 θiDi .Bovendien zien we dat:

EePG

i=1 θiDi = EePG

i=1 θiPG

j=1 DjK|i−j|

= EePG

j=1

PGi=1 θiDjK|i−j|

= EePG

j=1 DjPG

i=1 θiK|i−j|

=1

Gn(

G∑j=1

ePG

i=1 θiK|i−j|)n.

Bij de laatste gelijkheid hebben we gebruikt dat

E[ePG

j=1 Djµj ] =∑

n1,...,nG,n1+...+nG=n

ePG

j=1 njµjP(D1 = n1, D2 = n2, ..., DG = nG)

=∑

n1,...,nG,n1+...+nG=n

ePG

j=1 njµj

(n

n1...nG

)(1

G)n

=∑

n1,...,nG,n1+...+nG=n

(n

n1...nG

)(1

Geµ1)n1(

1

Geµ2)n2 ...(

1

GeµG)nG

= (1

Geµ1 +

1

Geµ2 + ... +

1

GeµG)n

=1

Gn(

G∑j=1

eµj)n.

Hiermee is bovenstaand lemma bewezen.

Nu hebben we uitdrukkingen gevonden voor de verwachting EDi, de variantie VarDi, decovariantie Cov(Di, Dj) en de moment genererende functie Ee

PGi=1 θiDi . Wanneer we echter

deze uitdrukkingen uit willen rekenen, is dat zeer veel werk, omdat de uitdrukkingen zeergrote sommaties bevatten. In het volgende hoofdstuk zullen we daarom benaderingengeven voor de uitdrukkingen, die wel snel uit te rekenen zijn.

8

Page 11: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Hoofdstuk 2

Benaderingen van de karakterisaties

In het vorige hoofdstuk hebben we karakterisaties gegeven van de verdeling van D1, ..., DG.

Deze uitdrukkingen hangen echter nog af van de functie Ki. We weten dat Ki = e−i2

h voorzekere h ∈ N, die klein is vergeleken met G. Het uitrekenen van de sommatie

∑Gj=1 K|i−j|

is echter zelfs voor een computer veel werk. Een gemiddelde computer heeft ruim tweeminuten nodig om deze sommatie uit te rekenen. Daarom willen we benaderingen bepalenvoor deze karakterisaties, die niet meer afhangen van Ki en die de computer veel snelleruit kan rekenen. Dat zullen we in dit hoofdstuk doen.We zullen bij het benaderen gebruik maken van de Taylorbenadering van Ki. Omdat deTaylorbenadering slechts nauwkeurig is in de buurt van een vast punt, in dit geval 0, willenwe de Taylorbenadering toepassen op een relatief (ten opzichte van G) klein interval enbuiten dat interval een andere benadering toepassen.Om K|i−j|(met i vast en j nog vrij) af te schatten, zullen we een interval van lengte 2αhnemen, rondom het punt i. Hierbij kiezen we α zo dat αh ∈ N.Eerst bekijken we de benadering waar we K|i−j| buiten het interval [i−αh, i+αh] afschattenmet een constante. Dit zullen we methode 1 noemen. Op de afbeelding hieronder is hetidee hiervan te zien.

1. De boven- en ondergrens van K|i−j|, aan de hand van de Taylorbenadering op het interval [i − αh, i + αh] en eenconstante buiten dit interval (methode 1).

9

Page 12: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Voor de bovengrens gebruiken we e−α2h. Voor de ondergrens zullen we 0 als constan-te gebruiken. Met deze methode bepalen we in Sectie 2.3 boven- en ondergrenzen voor∑G

j=1 K|i−j|,∑G

j=1 K2|i−j| en

∑Gk=1 K|i−k|K|j−k|. Wanneer we deze grenzen immers kennen,

kunnen we boven- en ondergrenzen vinden voor de verwachting EDi, de variantie VarDi,de covariantie Cov(Di, Dj) en de moment genererende functie Ee

PGi=1 θiDi .

Om de grenzen nog dichter bij elkaar te krijgen, schatten we K|i−j| vervolgens niet met eenconstante af, maar delen we zowel het interval [1, i−αh− 1] als het interval [i+αh+1, G]op in intervallen met lengte αh. Op elk van deze intervallen schatten we K|i−j| dan af methet minimum, dat K|i−j| aanneemt op dit interval, als ondergrens en het maximum, datK|i−j| op dit interval aanneemt, als bovengrens. Op de afbeelding hieronder is dit idee tezien.

2. De boven- en ondergrens van K|i−j|, aan de hand van de Taylorbenadering op het interval [i − αh, i + αh] en constantenop elk van de intervallen van lengte αh buiten [i − αh, i + αh].

In Sectie 2.4 zullen we deze methode combineren met de eerste methode om de grenzen uitSectie 2.3 te verbeteren. Dit zullen we methode 2 noemen. Tot slot zullen we deze grenzengebruiken om in Sectie 2.5 grenzen te bepalen voor de verwachting EDi, de variantieVarDi, de covariantie Cov(Di, Dj) en de moment genererende functie Ee

PGi=1 θiDi . Maar

eerst bepalen we nu de Taylorbenadering van Ki.

2.1 De Taylorbenadering

Merk op dat Ki = e−i2

h van de vorm ex is. Daarom bekijken we eerst de Taylorbenaderingvan ex. We weten dat de eerste orde Taylorbenadering van ex = 1 + x is en de restterm isdan R1(x) = eξ

2x2, met ξ tussen 0 en x. In Ki geldt dat x = − i2

hen daarmee zien we dat:

Ki = e−i2

h = 1 − i2

h+ R1(− i2

h) met R1(− i2

h) = eξ

2i4

h2 , voor een zekere ξ met − i2

h≤ ξ ≤ 0.

We weten dat ex een stijgende functie is, dus e−i2

h ≤ eξ ≤ e0 = 1 en daarom weten we dat

i4Ki

2h2 = i4e−i2

h

2h2 ≤ R1(− i2

h) ≤ i4

2h2 . Dit geeft ons een boven- en een ondergrens van Ki:

Ki ≤ 1− i2

h+

i4

2h2en Ki ≥ 1− i2

h+

i4e−i2

h

2h2.

10

Page 13: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

2.2 De Taylorbenadering toegepast op het interval

[b,a]

Nu willen we weten wat∑a

j=b K|i−j| wordt met deze benadering. Wanneer we |i−j| invullenvoor i in bovenstaande grenzen, zien we dat:

a∑j=b

K|i−j| ≤a∑

j=b

(1− (i− j)2

h+

(i− j)4

2h2) (2.1)

ena∑

j=b

K|i−j| ≥a∑

j=b

(1− (i− j)2

h+

(i− j)4K|i−j|

2h2).

De ondergrens hangt echter nog steeds af van K|i−j|. Daarom maken we deze ondergrensiets minder scherp. We weten immers dat K|i−j|, (i− j)4, h2 ≥ 0, dus mogen we de laatsteterm ook weg laten. Dan geldt nog steeds:

a∑j=b

K|i−j| ≥a∑

j=b

1− (i− j)2

h. (2.2)

2.3 Afschattingen met methode 1 van∑G

j=1 K|i−j|,∑Gj=1 K2

|i−j| en∑G

k=1 K|i−k|K|j−k|

Nu gaan we K|i−j| op het interval [i − αh, i + αh] afschatten met bovenstaande grenzen( (2.1) en (2.2) ) en buiten dit interval met een constante.

1. De boven- en ondergrens van K|i−j|, aan de hand van de Taylorbenadering op het interval [i − αh, i + αh] en eenconstante buiten dit interval.

Voor de bovengrens gebruiken we e−α2h. Immers, als j 6∈ [i−αh, i+αh], dan weten we dat

|i − j| > αh en daarom |i−j|2h

> α2h. Omdat ex een monotoon stijgende functie is, weten

we dat als x < y, dan ex < ey, oftewel e−|i−j|2

h < e−α2h voor alle j 6∈ [i− αh, i + αh].

11

Page 14: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Voor de ondergrens zullen we 0 als constante gebruiken, omdat ∀x ∈ R : ex > 0 en alsx � 0, dan ex ≈ 0.Hiermee zullen we boven- en ondergrenzen voor

∑Gj=1 K|i−j|,

∑Gj=1 K2

|i−j| en∑G

k=1 K|i−k|K|j−k|bepalen. De bewijzen van de lemmas zullen we hier overslaan, ze zijn terug te vinden inde Appendix vanaf pagina 45

Lemma 2.1. Een bovengrens van∑G

j=1 K|i−j| is

α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h+ (G− 2αh− 1)e−α2h.

Een ondergrens is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

Amin1a = 1− 1

3α + (2α− α2)h− 2

3α3h2,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

Amin1b(i) = i + αh−

α(αh + 1)(αh + 12)

3−

(i− 1)i(i− 12)

3h,

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

Amin1c(i) = G− i + αh + 1−α(αh + 1)(αh + 1

2)

3−

(G− i)(G− i + 1)(G− i + 12)

3h.

Merk op dat we in het tweede en derde geval ook een iets grovere afschatting haddenkunnen doen, door slechts de waarden van K|i−j| met j ∈ [i + 1, ..., i + αh], respectievelijkmet j ∈ [i− αh, ..., i− 1] mee te tellen (en de overige waarden met 0 af te schatten). Dan

zien we dat Amin1b(i) ≥ Amin1a

2en Amin1c(i) ≥

Amin1a

2.

Lemma 2.2. Een bovengrens van∑G

j=1 K2|i−j| is

(G− 2αh− 1)e−2α2h +2α5

5h3 + (α4 − 4α3

3)h2 + (

2α3

3− 2α2 + 2α)h + (1− 2α

3)− α

15h.

Een ondergrens is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

1− 2

3α + (2α− 2α2)h− 4

3α3h2,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

i + αh−2α(αh + 1)(αh + 1

2)

3−

2(i− 1)i(i− 12)

3h,

12

Page 15: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

G− i + αh + 1−2α(αh + 1)(αh + 1

2)

3−

2(G− i)(G− i + 1)(G− i + 12)

3h.

Om de boven- en ondergrens van∑G

k=1 K|i−k|K|j−k| te bepalen, nemen we aan dat i ≤ j.Wanneer dit niet het geval is, vervangen we K|i−k|K|j−k| door K|j−k|K|i−k|, wat natuurlijkexact hetzelfde is. Bovendien zullen we onderscheid maken of i + αh ≤ j−αh of j−αh <i + αh.

Lemma 2.3. Een bovengrens van∑G

k=1 K|i−k|K|j−k| is

• als i + αh ≤ j − αh:

(G−4αh−2)e−2α2h+2e−α2h(α5

5h3+(

α4

2− 2α3

3)h2+(

α3

3−α2+2α)h+(1− α

3)− α

30h),

• als j − αh < i + αh:

(G− 2αh + i− j − 1)e−2α2h + 2e−α2h(α5

10h3 + (

α4

4− α3

3)h2

+(α3

6− α2

2+ α)h + (1− α

6)− α

60h+ j − i− αh

−(j − i− αh)3

3h− (j − i− αh)2

2h− j − i− αh

6h

+(j − i− αh)5

10h2+

(j − i− αh)4

4h2+

(j − i− αh)3

6h2− j − i− αh

60h2)

+i+αh−1∑

k=j−αh+1

K|i−k|K|j−k|.

Een ondergrens is

• als i + αh ≤ j − αh: 0,

• als j − αh < i + αh:∑min{i+αh,G}

k=max{j−αh,1} K|i−k|K|j−k|.

In het bovenstaande lemma kunnen we ook∑i+αh−1

k=j−αh+1 K|i−k|K|j−k| en∑min{i+αh,G}k=max{j−αh,1} K|i−k|K|j−k| nog verder afschatten met Lemma 8 en Lemma 9. We wil-

len echter de computer de grenzen uit laten rekenen. Wanneer i en j relatief klein zijn,ten opzichte van G (dit wil zeggen i, j ≤ 104) kan de computer deze grenzen nauwkeurigberekenen. Wanneer i en j echter groter worden, is de computer niet in staat deze grenzennauwkeurig uit te rekenen. Wanneer bijvoorbeeld i = 3 ·109−15, j = 3 ·109−11, h = 5000en α = 1/1000, is het verschil tussen de exacte waarde van bovengrens en de waarde diede computer berekent 1.4692 · 1023. Vanwege deze grote onnauwkeurigheid en het feit dat∑i+αh−1

k=j−αh+1 K|i−k|K|j−k| en∑min{i+αh,G}

k=max{j−αh,1} K|i−k|K|j−k| minder dan 2αh elementen bevatten

(en dus snel uit te rekenen zijn door de computer), zullen we deze sommaties in de grenzenlaten staan.

13

Page 16: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

2.4 Afschattingen met methode 2 van∑G

j=1 K|i−j|,∑Gj=1 K2

|i−j| en∑G

k=1 K|i−k|K|j−k|

Hierboven bekeken we de benadering waar we K|i−j| buiten het interval [i− αh, i + αh] afhadden geschat met een constante. Om de grenzen nog dichter bij elkaar te krijgen, delenwe zowel het interval [1, i−αh−1] als het interval [i+αh+1, G] op in intervallen met lengteαh. Wanneer i−αh−1 niet deelbaar is door αh, geven we het eerste intervalletje de kleinstelengte zodat de rest van het interval op te delen is in een geheel aantal intervallen van lengteαh. Evenzo als αh geen deler is van G−(i+αh), geven we het laatste intervalletje de kleinstelengte zodat de rest van het interval op te delen is in een geheel aantal intervallen van lengteαh. Vervolgens schatten we K|i−j| op elk van deze intervallen af met het minimum, datK|i−j| aanneemt op dit interval, als ondergrens en het maximum, dat K|i−j| op dit intervalaanneemt, als bovengrens.

2. De boven- en ondergrens van K|i−j|, aan de hand van de Taylorbenadering op het interval [i − αh, i + αh] en constantenop elk van de intervallen van lengte αh buiten [i − αh, i + αh].

We kunnen echter ook een combinatie maken van deze methode en de methode uit Sec-tie 2.3: We kiezen een natuurlijk getal β, dat staat voor het aantal intervallen(gelegennaast het interval waarop we de Taylorbenadering toepassen), waarop we de nieuwe me-thode toepassen. De overige intervallen zullen we met een constante afschatten voor debovengrens en een constante voor de ondergrens. Deze methode werkt goed, omdat dewaarden van K|i−j| voor |i− j| groot allen zeer dicht bij 0 liggen en dus ook zeer dicht bijelkaar en met een en dezelfde constante nauwkeurig afgeschat kunnen worden.Wanneer we dit toepassen krijgen we de volgende boven- en ondergrenzen voor

∑Gj=1 K|i−j|:

14

Page 17: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Lemma 2.4. Een bovengrens van∑G

j=1 K|i−j| is

Amax2 = max{0, d i− 1

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h + αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h

+α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h

+ max{0, dG− i

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h + αh

min{β,dG−iαh

−1e}∑k=1

e−(kαh+1)2

h .

Een ondergrens is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

Amin2a = αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h + 1− 1

3α + (2α− α2)h− 2

3α3h2

+αh

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h ,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

Amin2b(i) = αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h + i + αh−α(αh + 1)(αh + 1

2)

3

−(i− 1)i(i− 1

2)

3h+ αh

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h ,

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

Amin2c(i) = αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h + G− i + αh + 1−α(αh + 1)(αh + 1

2)

3

−(G− i)(G− i + 1)(G− i + 1

2)

3h+ αh

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h .

De grenzen voor∑G

j=1 K2|i−j| lijken hier heel erg op:

15

Page 18: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Lemma 2.5. Een bovengrens van∑G

j=1 K2|i−j| is

Bmax2 = max{0, d i− 1

αh− (β + 1)e}αhe−

2((β+1)αh+1)2

h + αh

min{β,d i−1αh

−1e}∑k=1

e−2(kαh+1)2

h

+2α5

5h3 + (α4 − 4α3

3)h2 + (

2α3

3− 2α2 + 2α)h + (1− 2α

3)− α

15h

+ max{0, dG− i

αh− (β + 1)e}αhe−

2((β+1)αh+1)2

h + αh

min{β,dG−iαh

−1e}∑k=1

e−2(kαh+1)2

h .

Een ondergrens is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

Bmin2a = αh

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h + 1− 2

3α + (2α− 2α2)h− 4

3α3h2

+αh

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h ,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

Bmin2b(i) = αh

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h + i + αh−2α(αh + 1)(αh + 1

2)

3

−2(i− 1)i(i− 1

2)

3h+ αh

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h ,

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

Bmin2c(i) = αh

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h + G− i + αh + 1−2α(αh + 1)(αh + 1

2)

3

−2(G− i)(G− i + 1)(G− i + 1

2)

3h+ αh

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h .

16

Page 19: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Ook voor de grenzen van∑G

k=1 K|i−k|K|j−k| kunnen we iets soortgelijks doen:

Lemma 2.6. Een bovengrens van∑G

j=1 K|i−k|K|j−k| is

• als i + αh ≤ j − αh:

Cmax2a =(max{0, d i− 1

αh− (β + 1)e}+ max{0, dG− j

αh− (β + 1)e})·

αhe−((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+ αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h

+ 2(α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h)e−

(j−i−αh)2

h

+ 2 max{0, dj − i− 2

2αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(i−j+(β+2)αh+1)2

h

+ 2αh

min{β,d j−i−22αh

−1e}∑k=1

e−(kαh+1)2

h e−(i−j+(k+1)αh+1)2

h

+ αh

min{β,dG−jαh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h ,

• als j − αh < i + αh:

Cmax2b= max{0, d i− 1

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+ αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h +i+αh−1∑

k=j−αh+1

K|i−k|K|j−k|

+ 2(α5

10h3 + (

α4

4− α3

3)h2 + (

α3

6− α2

2+ α)h + (1− α

6)− α

60h

+ j − i− αh− (j − i− αh)3

3h− (j − i− αh)2

2h− j − i− αh

6h

+(j − i− αh)5

10h2+

(j − i− αh)4

4h2+

(j − i− αh)3

6h2− j − i− αh

60h2)e−

(j−i−αh)2

h

+ max{0, dG− j

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+ αh

min{β,dG−jαh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h .

17

Page 20: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Een ondergrens is

• als i + αh ≤ j − αh:

Cmin2a =αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h

+ λ1e− (j−i+αh)2

h

+ 2αh

min{β,b j−i−22αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(i−j+kαh+1)2

h

+ αh

min{β,bG−jαh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h .

Hierin is λ1 gelijk aan:

1. als min{G, j + αh} = j + αh en max{1, i− αh} = i− αh:

2(1− 1

3α + (2α− α2)h− 2

3α3h2),

2. als min{G, j + αh} = j + αh en max{1, i− αh} = 1:

1− 1

3α + (2α− α2)h− 2

3α3h2 + i + αh−

α(αh + 1)(αh + 12)

3−

(i− 1)i(i− 12)

3h,

3. als min{G, j + αh} = G en max{1, i− αh} = i− αh:

G− j + αh + 1−α(αh + 1)(αh + 1

2)

3−

(G− j)(G− j + 1)(G− j + 12)

3h

+ 1− 1

3α + (2α− α2)h− 2

3α3h2,

4. als min{G, j + αh} = G en max{1, i− αh} = 1:

G− j + αh + 1−α(αh + 1)(αh + 1

2)

3−

(G− j)(G− j + 1)(G− i + 12)

3h

+ i + αh−α(αh + 1)(αh + 1

2)

3−

(i− 1)i(i− 12)

3h,

18

Page 21: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

• als j − αh < i + αh:

Cmin2b= + αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h +

min{G,i+αh−1}∑k=max{1,j−αh+1}

K|i−k|K|j−k|

+ (λ2 + λ3)e− (j−i+αh)2

h

+ αh

min{β,bG−jαh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h .

Hierin is λ2 gelijk aan:

1. als max{1, i− αh} = i− αh (en dus max{0, j − αh} = j − αh):

(j − i + 1)

h(h− (j − i− αh + 1)2 + (j − i− αh + 1)(j − i + 2)

−(j − i + 2)(j − i + 3

2)

3),

2. als max{1, i− αh} = 1 en max{0, j − αh} = j − αh:

(j − αh)

h(h− i2 + i(j − αh + 1)−

(j − αh + 1)(j − αh + 12)

3),

3. als max{1, i− αh} = 1 en max{0, j − αh} = 0: 0.

En is λ3 gelijk aan:

1. als min{G, j + αh} = j + αh (en dus min{G + 1, i + αh} = i + αh):

(j − i + 1)

h(h− (j − i− αh + 1)2 + (j − i− αh + 1)(j − i + 2)

−(j − i + 2)(j − i + 3

2)

3),

2. als min{G, j + αh} = G en min{G + 1, i + αh} = i + αh:

(G− i− αh + 1)

h(h− (j − i− αh + 1)2+

(j − i− αh + 1)(G− i− αh + 2)−(G− i− αh + 2)(G− i− αh + 3

2)

3),

3. als min{G, j + αh} = G en min{G + 1, i + αh} = G + 1: 0.

19

Page 22: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

2.5 Afschattingen van de karakterisaties

Nu we dit weten kunnen we EDi, VarDi en Cov(Di, Dj) afschatten. Dit zullen we in devolgende lemma’s doen.Eerst geven we grenzen voor de verwachting EDi.

Lemma 2.7. Voor de verwachting EDi geldt

n

GAmax2 ≤ EDi ≤

n

GAmin2(i),

waarbij Amax2 en Amin2(i) gedefinieerd zijn in Lemma 2.4.

Bewijs. We weten dat: EDi =∑G

j=1 K|i−j|n1G

= nG

∑Gj=1 K|i−j| (Lemma 1.2).

Dus volgen met Lemma 2.4 de ongelijkheden, zoals gegeven in bovenstaand lemma.

Ook voor de variantie VarDi kunnen we nu grenzen geven.

Lemma 2.8. Voor de variantie VarDi geldt

n

GBmax2 −

n

G2(Amin2(i))

2 ≤ VarDi ≤n

GBmin2 −

n

G2(Amax2)

2,

waarbij Bmax2 , Amin2(i), Bmin2 en Amax2 gedefinieerd zijn in Lemma 2.4 en Lemma 2.5.

Bewijs. Ook weten we dat VarDi = nG

∑Gj=1 K2

|i−j| −n

G2 (∑G

j=1 K|i−j|)2 (Lemma 1.4). Dus

volgen met Lemma 2.4 en Lemma 2.5 de ongelijkheden, zoals gegeven in bovenstaandlemma.

Tot slot geven we ook de covariantie Cov(Di, Dj).

Lemma 2.9. Voor de covariantie Cov(Di, Dj) geldt

n

GCmax2 −

n

G2(Amin2(i))(Amin2(j)) ≤ Cov(Di, Dj) ≤

n

GCmin2 −

n

G2(Amax2(i))

2,

waarbij Cmax2, Amin2(i), Amin2(j), Cmin2 en Amax2(i) gedefinieerd zijn in Lemma 2.4 enLemma 2.6.

Bewijs. We weten dat

Cov(Di, Dj) =n

G

G∑k=1

K|i−k|K|j−k| −n

G2(

G∑k=1

K|i−k|)(G∑

l=1

K|j−l|)

(Lemma 1.3) en dus volgen met Lemma 2.6 en Lemma 2.4 de ongelijkheden, zoals gegevenin bovenstaand lemma.

We willen ook de simultane moment genererende functie van D afschatten. Dit doen wein het laatste lemma.

20

Page 23: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Lemma 2.10. Een bovengrens van EePG

i=1 θiDi is

1

Gn(Gemax{θi|i∈{1,...,G}}Amax1 )n = enAmax1 max{θi|i∈{1,...,G}}.

Een ondergrens van EePG

i=1 θiDi is

1

Gn((G− 2αh)emin{θi|i∈{1,...,G}}Amin1a + (2αh)e

min{θi|i∈{1,...,G}}Amin1a2 )n

Hierbij zijn Amax1 en Amin1a gedefinieerd in Lemma 3 en Lemma 4.

Bewijs. We weten dat EePG

i=1 θiDi = 1Gn (

∑Gj=1 e

PGi=1 θiK|i−j|)n(Lemma 1.5). Bovendien weten

we dat

G∑i=1

θiK|i−j| ≤ max{θi|i ∈ {1, ..., G}}G∑

i=1

K|i−j| ≤ max{θi|i ∈ {1, ..., G}}Amax1 .

Waarbij we Amax1 gedefinieerd hebben in Lemma 3.Evenzo zien we voor de ondergrens dat

G∑i=1

θiK|i−j| ≥ min{θi|i ∈ {1, ..., G}}G∑

i=1

K|i−j| ≥ min{θi|i ∈ {1, ..., G}}Amin1 .

Waarbij Amin1 ,afhankelijk van de waarde van i, gelijk is aan Amin1a , Amin1b(i) of Amin1c(i)(zie

Lemma 4).Omdat ex een stijgende functie is, weten we nu ook dat:

EePG

i=1 θiDi ≤ 1

Gn(Gemax{θi|i∈{1,...,G}}Amax1 )n = enAmax1 max{θi|i∈{1,...,G}}.

Voor de ondergrens zouden we hetzelfde willen doen. Helaas hangen ook Amin1b(i) en

Amin1c(i) zelf nog af van i. In de sommatie zijn er echter relatief zeer veel waarden waarbij

Amin1 = Amin1a . Bovendien weten we ook dat Amin1b(i) ≥ Amin1a

2en Amin1c(i) ≥

Amin1a

2(zie

pagina 47). Wanneer we dit toepassen krijgen we:

EePG

i=1 θiDi ≥ 1

Gn((G− 2αh)emin{θi|i∈{1,...,G}}Amin1a + (2αh)e

min{θi|i∈{1,...,G}}Amin1a2 )n.

Hiermee hebben we bovenstaand lemma bewezen.

Aan het begin van dit hoofdstuk gaven we aan dat we benaderingen voor de karakterisatieswilden hebben, die de computer veel sneller uit kan rekenen, dan de karakterisaties zelf.Voor bovenstaande benaderingen is dat inderdaad het geval. Om de verwachting EDi, devariantie VarDi en de covariantie Cov(Di, Dj), zoals gegeven in Hoofdstuk 1, een keer uit te

21

Page 24: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

rekenen, heeft een gemiddelde computer ruim een kwartier nodig. Deze tijd is onafhankelijkvan i, j en h, omdat de computer evenveel berekeningen uit moet voeren, welke i, j en hwe ook kiezen. Natuurlijk is de tijd ook onafhankelijk van α en β, die niet voorkomen inde karakterisaties.De tijd die de computer nodig heeft om de benaderingen van de hierboven gegeven ver-wachting, variantie en covariantie uit te rekenen, is natuurlijk wel afhankelijk van α en β.Ook hangt het van i en j af welke berekening we precies doen om de benaderingen uit terekenen. De tijd zal dus ook afhankelijk zijn van i en j.We hebben echter slechts een beperkt aantal waarden dat i, j, h, α en β aan kunnen nemen.Ten eerste zijn het allemaal natuurlijke getallen. Daarnaast moet 1 ≤ i, j ≤ 3 · 109. Wezullen daarom de benaderingen bekijken voor i ∈ {5; 5 · 105; 3 · 109 − 15}, j ∈ {9; 5 ·105 + 4; 3 · 109 − 11}. Bovendien moet h klein zijn ten opzichte van G. Ook willen wedat de Taylorbenadering nauwkeurig is. Als |x| ≥ 1, wordt de ondergrens die volgt uitde Taylorbenadering van ex negatief en gaat de bovengrens zeer snel stijgen. Daarom

willen we de Taylorbenadering slechts toepassen op de waarden waar |i−j|2h

< 1. Oftewel,

waar |i − j| <√

h. Dit is het geval wanneer we α en h zo kiezen dat αh <√

h, oftewelwanneer α < 1√

h. Daarnaast hebben we ook aangenomen dat αh ∈ N, opdat we niet

eerst af hoeven te ronden voordat we de sommaties uit kunnen rekenen. Om deze redenenhebben we gekozen om de benaderingen te bekijken voor h = 100 en α ∈ { 1

10, 1

20, 1

50, 1

100},

h = 900 en α ∈ { 130

, 1150

, 1450

, 1900}, h = 2500 en α ∈ { 1

50, 1

500, 1

1250, 1

2500}, h = 4900 en

α ∈ { 170

, 1700

, 12450

, 14900

}, h = 10000 en α ∈ { 1100

, 11000

, 15000

, 110000

} en h = 16900 en α ∈{ 1

130, 1

1300, 1

8450, 1

16900}. Nu moeten we alleen nog kiezen welke waarden van β we invullen in

de benaderingen. Wanneer we de benaderingen van de verwachting, variantie en covariantieop 5 decimalen nauwkeurig willen hebben, zullen we de sommaties minstens in tientallennauwkeurig moeten hebben (omdat we de sommaties nog vermenigvuldigen met n

G= 1

3·10−5

of nG2 = 1

9· 10−14). Nu blijken de sommaties op het interval [i− (β + 1)αh, i + (β + 1)αh]

al hooguit een nauwkeurigheid in tientallen te kunnen bereiken. Buiten dit interval is het

dus voldoende wanneer de constante e−((β+1)αh+1)2

h vermenigvuldigd met de lengte van hetinterval kleiner is dan 10. Dit is, voor h < 5000, het geval wanneer we β = 300 kiezen.Voor h ≥ 5000 hebben we een grotere β nodig. Wanneer h = 10000 is β = 500 grootgenoeg, wanneer h = 16900, voldoet β = 600.In Tabel 1 in Appendix B op pagina 77 zijn, voor deze waarden van h, α en β, de verschillentussen de grenzen en de werkelijke verwachting, variantie en covariantie te zien. Hierhebben we i = 50000 en j = 50000 + 4 gekozen en zoals we in de inleiding al steldenn = 104 en G = 3 · 109. Ook is de tijd die het kostte om deze grenzen uit te rekenen inde tabel te zien. We hebben hiermee inderdaad grenzen gevonden waarmee we, met goedgekozen h, α en β, op 5 decimalen nauwkeurig de verwachting, variantie en covariantiekunnen bepalen.Dit weten we nu echter alleen voor i = 50000 en j = 50000 + 4. Daarom bekijken weook de benaderingen wanneer we h, α en β vast nemen, bijvoorbeeld h = 2500, α = 1

500en

β = 60, en i en j varieren. Dit is te zien in Tabel 2 in Appendix B op pagina 77. Hier zienwe dat wanneer i en j beiden heel dicht bij 1 of G liggen, worden alle benaderingen nog

22

Page 25: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

nauwkeuriger en wanneer i en j ver uit elkaar liggen, wordt de covariantie vele decimalennauwkeuriger. Het varieren van i en j verslechtert de nauwkeurigheid van de grenzen dusniet.Bovendien zien we in beide tabellen, dat we α en β zo kunnen kiezen dat de tijd, die decomputer nodig heeft om de benaderingen uit te rekenen, korter is dan 75·10−5 seconden (of20 · 10−5 seconden, wanneer we iets minder nauwkeurigheid eisen). Om de karakterisatiesuit te rekenen, had de computer 853 seconden nodig. De benaderingen zijn dus minstenseen miljoen keer zo snel.Tot slot zullen we nog twee voorbeelden van de benaderingen geven. Eerst kiezen weh = 100, α = 1

50, β = 150, i = 5, j = 9. Als tweede voorbeeld kiezen we h = 2500, α =

1500

, β = 150, i = 5, j = 5 · 105 + 4.In de tabel hieronder zijn deze benaderingen te zien:

Tabel 2.1: Twee voorbeeldbenaderingenVoorbeeld 1 2

De bovengrens van EDi 4.5372e-005 1.7257e-004

De ondergrens van EDi 3.8373e-005 1.5284e-004

De bovengrens van VarDi 3.5934e-005 1.2917e-004

De ondergrens van VarDi 2.8829e-005 1.0971e-004

De bovengrens van Cov(Di, Dj) 4.3239e-005 4.2146e-012

De ondergrens van Cov(Di, Dj) 2.9478e-005 2.9780e-012

Voorbeeld 1: h = 100, α = 150

, β = 150, i = 5, j = 9Voorbeeld 2: h = 2500, α = 1

500, β = 150, i = 5, j = 5 · 105 + 4

In dit hoofdstuk hebben we benaderingen gevonden van de uitdrukkingen uit het vorigehoofdstuk. Deze benaderingen zijn zowel nauwkeurig als snel. In het volgende hoofdstukzullen we deze benaderingen gebruiken om de kans P(Di > z) af te schatten met een grensdie eveneens snel en nauwkeurig is. Met behulp van deze benadering kunnen we vervolgensonze nulhypothese toetsen.

23

Page 26: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Hoofdstuk 3

Het bepalen van een bovengrens voorP(Di > z)

In de voorgaande hoofdstukken hebben we nauwkeurige en snelle benaderingen gevondenvoor de karakterisaties van de verdeling van D1, ..., DG. Deze benaderingen zullen we indit hoofdstuk gebruiken om een snelle en nauwkeurige bovengrens voor de kans P(Di > z)te vinden.In het volgende hoofdstuk willen we gaan toetsen voor welke waarden van i het aantalinserties in de data onwaarschijnlijk hoog is onder de nulhypothese (“de posities van de in-serties komen voort uit een uniforme verdeling”). We zullen daarvoor het aantal insersitiesvolgens de data di noemen. Het “gewogen aantal inserties”zullen we di noemen. Wanneerdit aantal voor een zekere i onwaarschijnlijk hoog is, zal de kans P(Di > di) heel klein zijn.Daarom zullen we in dit hoofdstuk eerst de kans P(Di > z) nader bekijken. De computerheeft echter weer zeer veel tijd nodig om deze kans te berekenen. Daarom zullen we dezekans van boven af gaan schatten. Hiervoor gebruiken we eerst de “Markov-ongelijkheid” ende daarvan afgeleide “Chernoff-grens”. Om deze grens uit te rekenen, moet de computerechter nog steeds een sommatie van 1 tot G berekenen, waar de computer zeer lang overdoet (naar schatting zelfs enkele maanden). Daarom zullen we ook de Chernoff-grens nogafschatten. Dit doen we met behulp van de methoden die we in Hoofdstuk 2 beschrevenhebben.

3.1 De Markov-ongelijkheid en de Chernoff-grens

Eerst zullen we de Markov-ongelijkheid en de Chernoff-grens formuleren en bewijzen.

Lemma 3.1 (Markov-ongelijkheid). Voor een niet-negatieve stochastische variabele Ygeldt dat P(Y > z) ≤ EY

zvoor alle z > 0.

24

Page 27: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Bewijs. De Markov-ongelijkheid kunnen we als volgt bewijzen: we weten dat

P(Y > z) = E(1{Y >z}).

Omdat z ∈ R een constante is, weten we hiermee ook dat

zP(Y > z) = E(z1{Y >z}).

Bovendien weten we dat als Y ≤ z, dan is z1{Y >z} = 0 ≤ Y en als Y > z, dan isz1{Y >z} = z ≤ Y . Dit geeft ons dat

z1{Y >z} ≤ Y.

Hiermee volgt datE(z1{Y >z}) ≤ E(Y ).

Wat, na delen door z, gelijk is aan de Markov-ongelijkheid:

P(Y > z) ≤ EY

z= E

Y

z.

Met dit lemma kunnen we de Chernoff-grens te bewijzen, die we zullen gebruiken om eenbovengrens te geven voor de kans P(Di > z).

Lemma 3.2 (Chernoff-grens). Voor een stochastische variabele Y geldt, dat

P(Y > z) ≤ infθ>0

(EeθY · e−θz).

Bewijs. De Chernoff-grens bewijzen we met behulp van de Markov-ongelijkheid. OmdateθY een niet-negatieve stochastische variabele is en eθx > 0, zegt de Markov-ongelijkheiddat

P(eθY > eθx) ≤ EeθY

eθz.

We weten bovendien dat als θ > 0, dan

P(Y > z) = P(θY > θz) = P(eθY > eθz).

Dit geeft samen dat voor alle θ > 0:

P(Y > z) ≤ EeθY e−θz.

In het bijzonder geldt dan ook dat:

P(Y > z) ≤ infθ>0

(EeθY e−θz).

Hiermee is de Chernoff-grens bewezen.

25

Page 28: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

3.2 Een eerste bovengrens van P(Di > z)

De Chernoff-grens uit de vorige sectie kunnen we nu toepassen op onze stochastische vari-abele Di. Dit geeft ons dat

P(Di > z) ≤ infθ>0

(EeθDi · e−θz). (3.1)

De rechterkant van deze ongelijkheid kunnen we ook anders schrijven. Dit is te zien in hetvolgende lemma:

Lemma 3.3. Een bovengrens van de kans P(Di > z) is

1

Gn(infθ>0

G∑j=1

eθ(K|i−j|− zn

))n.

Bewijs. We weten dat EeθDi = EeθPG

j=1 DjK|i−j| = EePG

j=1 Dj(θK|i−j|). Met behulp van

EePG

j=1 Djµj = 1Gn (

∑Gj=1 eµj)n (zie pagina 8) kunnen we dit omschrijven, dan weten we

dat:

EeθDi =1

Gn(

G∑j=1

eθK|i−j|)n.

Wanneer we dit invullen in vergelijking (3.1), zien we dat

P(Di > z) ≤ infθ>0

(1

Gn(

G∑j=1

eθK|i−j|)n · e−θz)

= infθ>0

1

Gn(

G∑j=1

eθ(K|i−j|− zn

))n

=1

Gn(infθ>0

G∑j=1

eθ(K|i−j|− zn

))n.

Waarbij de laatste gelijkheid volgt uit het feit dat 1Gn > 0 en dat als a, b > 0 en a > b, dan

ook an > bn.

Nu willen we echter dit infimum bepalen. Voor enkele waarden van z is dit eenvoudig,

maar wanneer n · e−G2

h < z < n is het niet direct duidelijk welke waarde van θ het infimumgeeft. We zullen dit eerst nader toelichten:

• Wanneer z > n, weten we dat K|i−j| − zn

< 0 ∀1 ≤ j ≤ G. Daarom weten we dan

ook dat infθ>0

∑Gj=1 eθ(K|i−j|− z

n) = 0 (het infimum ligt bij θ = ∞). In dit geval volgt

dus dat infθ>0(EeθDi · e−θz) = 0.

26

Page 29: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

• Wanneer z = n, weten we dat K|i−j|− zn

< 0 ∀1 ≤ j ≤ G met i 6= j en K|i−j|− zn

= 0

voor i = j Daarom weten we dan ook dat infθ>0

∑Gj=1 eθ(K|i−j|− z

n) = 1 (het infimum

ligt ook nu bij θ = ∞). In dit geval volgt dus dat infθ>0(EeθDi · e−θz) = 1Gn .

• Wanneer z ≤ n · e−G2

h1, weten we dat K|i−j|− z

n> 0 ∀1 ≤ j ≤ G. Dan weten we ook

dat infθ>0

∑Gj=1 eθ(K|i−j|− z

n) = G (het infimum ligt bij θ = 0). In dit geval volgt dus

dat infθ>0(EeθDi · e−θz) = Gn

Gn = 1.

• Lastig wordt het wanneer n · e−G2

h < z < n. In dit geval is:

– K|i−j| − zn

< 0 als 1 ≤ j < i −√−h ln z

nof i +

√−h ln z

n< j ≤ G. In deze

situatie willen we θ = ∞ kiezen.

– K|i−j| − zn

> 0 als i−√−h ln z

n< j < i +

√−h ln z

n< j ≤ G. In deze situatie

willen we θ = 0 kiezen.

– K|i−j| − zn

= 0 als j = i ±√−h ln z

n. In deze situatie maakt het niet uit welke

θ we kiezen.

De waarden van z die wij willen beschouwen zullen groter dan 1 zijn, omdat het het“gewogen aantal inserties” op het ide basenpaar is. Bovendien zullen ze zeker kleiner danof gelijk aan n zijn, omdat er in totaal n inserties zijn. Dit is echter de situatie, waarinhet niet direct duidelijk is welke waarde van θ het infimum geeft. Daarom willen we decomputer dit infimum laten bepalen. Helaas is de computer niet in staat dit infimum tebepalen, omdat de sommatie van 1 tot G te groot is. Daarom zullen we de bovengrens uitLemma 3.3 opnieuw afschatten. Dit is het doel van de volgende sectie.

3.3 Een tweede bovengrens van P(Di > z)

In deze sectie zullen we de bovengrens uit Lemma 3.3 opnieuw afschatten. Hierbij gebruikenwe eerst dat

∑Gj=1 eθ(K|i−j|− z

n) = e−θ z

n

∑Gj=1 eθK|i−j| . Nu zullen we de som

∑Gj=1 eθK|i−j| af

gaan schatten. Waar K|i−j| dicht bij 0 ligt, zullen we deze som afschatten met behulpvan de Taylorbenadering van (eθ)x (met x de variabele), omdat deze benadering daarnauwkeurig is. Waar K|i−j| niet dicht bij 0 ligt, gebruiken we K|i−j| zelf. Vervolgens zullenwe de benadering die we hiermee krijgen, afschatten met de grenzen die we al kennen uitHoofdstuk 2. Het infimum in deze grens kan de computer wel snel bepalen.Eerst zullen we met behulp van de Taylorbenadering een bovengrens van de som

∑Gj=1 eθK|i−j|

geven. De bewijzen van onderstaande lemma’s zijn te vinden in Appendix A op pagina 70.

1In dit geval geldt dat zn ≤ e−

G2h en omdat voor alle 1 ≤ j ≤ G geldt dat K|i−j| = e−

(i−j)2

h > e−G2h ,

volgt in dit geval dat K|i−j| − zn > 0 ∀1 ≤ j ≤ G

27

Page 30: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Lemma 3.4. Een bovengrens van∑G

j=1 eθK|i−j| is

max{0, i− γ − 1}+ max{0, G− (i + γ)}+ θ(

i−γ−1∑j=1

K|i−j| +G∑

j=i+γ+1

K|i−j|)

+θ2 eθe−γ2

h

2(

i−γ−1∑j=1

K2|i−j| +

G∑j=i+γ+1

K2|i−j|) +

min{i+αh,G}∑j=max{1,i−αh}

eθK|i−j| .

Deze grens kunnen we nog verder afschatten, zodat we de sommatie van 1 tot G kwijtraken. Hiervoor gebruiken we de afschattingen die we al kennen uit Hoofdstuk 2.

Lemma 3.5. Een bovengrens van∑G

j=1 eθK|i−j| is

max{0, i− αh− 1}+ max{0, G− (i + αh)}+

min{i+αh,G}∑j=max{1,i−αh}

eθK|i−j|

+θαh(max{0, d i− 1

αh− (β + 1)e}e−

((β+1)αh+1)2

h +

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h

+ max{0, dG− i

αh− (β + 1)e}e−

((β+1)αh+1)2

h +

min{β,dG−iαh

−1e}∑k=1

e−(kαh+1)2

h )

+θ2 eθe−αh

2αh(max{0, d i− 1

αh− (β + 1)e}e−

2((β+1)αh+1)2

h +

min{β,d i−1αh

−1e}∑k=1

e−2(kαh+1)2

h

+ max{0, dG− i

αh− (β + 1)e}e−

2((β+1)αh+1)2

h +

min{β,dG−iαh

−1e}∑k=1

e−2(kαh+1)2

h ).

Met behulp van Lemma 3.3 kunnen we nu ook een tweede bovengrens van P(Di > z)opstellen:

28

Page 31: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Lemma 3.6. Een bovengrens voor P(Di > z) is

1

Gn(infθ>0

e−θ zn · (max{0, i− αh− 1}+ max{0, G− (i + αh)}+

min{i+αh,G}∑j=max{1,i−αh}

eθK|i−j|

+θαh(max{0, d i− 1

αh− (β + 1)e}e−

((β+1)αh+1)2

h +

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h

+ max{0, dG− i

αh− (β + 1)e}e−

((β+1)αh+1)2

h +

min{β,dG−iαh

−1e}∑k=1

e−(kαh+1)2

h )

+θ2 eθe−αh

2αh(max{0, d i− 1

αh− (β + 1)e}e−

2((β+1)αh+1)2

h +

min{β,d i−1αh

−1e}∑k=1

e−2(kαh+1)2

h

+ max{0, dG− i

αh− (β + 1)e}e−

2((β+1)αh+1)2

h +

min{β,dG−iαh

−1e}∑k=1

e−2(kαh+1)2

h )))n.

Nu kunnen we de computer gebruiken om van deze grens, die we vanaf nu 1Gn (infθ>0 f(θ))n

zullen noemen, het minimum te bepalen. Eerst laten we de computer f(θ) differentierennaar θ. De functie f ′(θ) die we dan krijgen, noemen we g(θ). Vervolgens geven we decomputer opdracht om te bepalen voor welke waarde van θ de functie g(θ) gelijk is aan 0.Met deze waarde berekenen we vervolgens de bovengrens voor P(Di > z).Het programma dat we hiervoor gebruiken is te zien in Appendix B op pagina 79.In dit programma dienen we zelf waarden voor h, α en β te kiezen. Daarnaast moeten weook de waarden van i en z invullen. We weten natuurlijk dat 1 ≤ i ≤ 3 · 109. daarombekijken we, evenals we deden in Sectie 2.5, voor i de waarden 5, 5 · 105 en 3 · 109 −15. In Sectie 3.2 lazen we al dat we voor z het “gewogen aantal inserties” op het ide

basenpaar in willen vullen. Daarom stellen we dat z een positief getal is, kleiner dan ofgelijk aan n = 104. Wij zullen als voorbeeld de kansen P(Di > 1), P(Di > 5) en P(Di >300) uitrekenen. In Sectie 2.5 kozen we voor h de waarden 100, 900, 2500, 4900, 10000 en16900. De waarden 10000 en 16900 bleken echter tamelijk groot (ten opzichte van G engaven minder nauwkeurige uitkomsten). Voor deze bovengrens berekenen we alleen devoorbeelden waar h = 900 en h = 2500. Tot slot kunnen we ook met β bepalen hoenauwkeurig we de benadering willen maken. Wij zullen in onze benaderingen kiezen voorβ = 100. In Appendix B zijn op pagina 83 deze benaderingen te zien in Tabel 3,4 en 5.We zien hier dat deze benadering nauwkeurig is ten opzichte van de Chernoff-grens, wanneerwe α = 1

9kiezen als h = 900 en α = 1

25als h = 2500 en in beide gevallen β = 100.

Bovendien is de berekening zeer snel voor z = 1 en z = 5 (enkele duizendste seconden).Voor z = 300 heeft de computer ruim 1000 keer zoveel tijd nodig om de grens te berekenen.Dit verschil komt voort uit het feit dat we twee methoden in het programma toepassen.Voor waarden van z < 250 gebruiken we een methode die zeer snel blijkt te zijn. Voorwaarden van z ≥ 250 gebruiken we een andere methode om te bepalen waar de afgeleidefunctie g(θ) = 0. Voor deze methode heeft de computer meer tijd nodig.

29

Page 32: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

In onderstaande afbeelding is de bovengrens van de kans P(Di < z) te zien, waarbij h ∈{100, 900, 2500, 4900, 10000, 16900, 100000} respectievelijk α ∈ {1, 1/9, 1/25, 1/70, 1/100,1/130, 1/150} en in alle gevallen β = 100.

We hebben in dit hoofdstuk een snelle en nauwkeurige bovengrens van de kans P(Di < z)gevonden. Deze bovengrens kunnen we in het volgende en laatste hoofdstuk gebruiken omte bepalen voor welke waarden i in {1, 2, ..., G} de kans dat P(Di > di) onwaarschijnlijkklein is onder aanname van de nulhypothese.

30

Page 33: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Hoofdstuk 4

Hypothesetoets

In het vorige hoofdstuk hebben we de kans P(Di > z) van boven afgeschat. In dit hoofdstukzullen we met behulp van deze bovengrens onze nulhypothese (“de posities van de insertieskomen voort uit een uniforme verdeling”) toetsen.We gaan gebruik maken van een database. Deze database bevat de plaats van 20053inserties, die verdeeld zijn over de basenparen 1 tot en met 2.654.911.517 (op de site [4] isvan elk van de 22 chromosomen die een muis heeft, samen het genoom, te lezen hoeveelbasenparen dit chromosoom heeft.)Eerst maken we van deze database een vector, waarin bij elk basenpaar i waar een insertieplaats heeft gevonden staat hoeveel inserties daar hebben plaatsgevonden. Deze waardennoemen we di. Vervolgens berekenen we voor al deze basenparen het gewogen aantalinserties di =

∑Gj=1 diK|i−j|.

Hierbij is het van belang welke waarde we kiezen voor h. Hoe kleiner we h kiezen, hoemeer invloed de waarde di heeft op di. Hoe groter we h kiezen, hoe meer waarden dj dewaarde di beınvloeden. Voor een kleine waarde van h vinden we dus de hoogste piekenwaar inserties plaats hebben gevonden. Voor grote waarden van h vinden we de grootsteclusters.In onderstaande afbeeldingen zijn de waarden di te zien voor h = 2500, α = 25, β = 100en h = 100000, α = 10, β = 100:

5. De waarden van di voor 1 ≤ i ≤ 2.654.911.517, als h = 2500, α = 25 en β = 100

31

Page 34: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

6. De waarden van di voor 1 ≤ i ≤ 2.654.911.517, als h = 100000, α = 10 en β = 100

We kunnen nu voor elk basenpaar waar di > 0 berekenen hoe groot de kans P (Di > di)maximaal is. Dit doen we met behulp van het programma uit Appendix B pagina 85.Voor h = 2500, α = 25, β = 100 en h = 100000, α = 10, β = 100 zijn de waarden van dezekansen te zien in onderstaande grafieken:

7. De kans P(Di > di) voor 1 ≤ i ≤ 2.654.911.517, als h = 2500, α = 25 en β = 100

8. De kans P(Di > di) voor 1 ≤ i ≤ 2.654.911.517, als h = 100000, α = 10 en β = 100

Zoals we in bovenstaande afbeeldingen kunnen zien is ook de kans P (Di > di) afhan-kelijk van onze keuze voor h. Om te kunnen bepalen voor welke basenparen deze kansonwaarschijnlijk klein is, moeten we eerst een onbetrouwbaarheidsniveau α0 kiezen. In het

32

Page 35: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

volgende voorbeeld zullen we α0 = 5 · 10−12 kiezen en bepalen voor welke clusters basen-paren de kans P (Di > di) < α0, oftewel waar we de nulhypothese verwerpen. We zullendit zowel voor h = 2500 als voor h = 100000 bepalen. Dit geeft ons de clusters basenparenwaarvoor het onwaarschijnlijk is dat de inserties voortkomen uit een uniforme verdeling enhet virus dus geen voorkeur heeft.In onderstaande afbeeldingen zijn deze clusters van basenparen te zien voor de verschillendewaarden van h:

9. De waarden voor 1 ≤ i ≤ 2.654.911.517 waar P (Di > di) < α0, als h = 2500, α = 25 en β = 100

10. De waarden voor 1 ≤ i ≤ 2.654.911.517 waar P (Di > di) < α0, als h = 100000, α = 10 en β = 100

Hieruit kunnen we aflezen dat er, wanneer we α0 = 10−12 kiezen, 82 clusters van basenparenzijn, waarvoor het onwaarschijnlijk is dat de inserties voortkomen uit een uniforme verde-ling. Deze clusters bestaan in totaal uit 1249 basenparen als h = 2500 en 1523 basenparenals h = 100000, te zijn.Wanneer we α0 = 10−15 kiezen, kunnen we aflezen dat dit 45 clusters van basenparen zijn.Als h = 2500 bestaan deze clusters in totaal uit 895 basenparen en als h = 100000 uit 1229basenparen.In de onderstaande tabel is af te lezen waar in het genoom deze clusters liggen. Merkhierbij op dat veel van deze clusters, wanneer we ze op een kleinere schaal bekijken, uitaparte clusters bestaan. Zo bestaat bijvoorbeeld de cluster bij 0.3120 · 109 uit zes aparteclusters, wanneer we de positie in vijf decimalen nauwkeurig bekijken.

33

Page 36: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Tabel 4.1: Onwaarschijnlijke clusters voor twee voorbeeldtoetsen (deel 1)Positie cluster (·109) K1 K2 K3 K4

0.1068 1 - - -0.1253 1 1 1 10.1331 2 0 - -0.2091 1 1 1 10.2215 52 58 49 540.2216 3 3 3 -0.2706 2 - - -0.2863 2 - - -0.3120 65 98 29 650.3258 1 - - -0.3474 2 - - -0.3362 1 - - -0.3624 1 7 - -0.4063 2 5 - 20.4445 2 - - -0.4627 1 1 1 -0.5469 2 - - -0.6644 7 7 7 70.6679 1 1 1 -0.6709 5 6 - 50.6840 - 3 - 10.7227 3 5 2 -0.7973 337 403 265 3590.8301 1 8 - 50.8368 - 1 - -0.8702 - 7 - 10.9687 - 1 - -1.0153 1 - - -1.0867 3 - - -1.0896 2 - - -1.0991 54 95 30 661.1305 1 - - -1.2529 4 4 2 -1.2536 5 5 5 51.2659 2 3 - -1.4038 3 11 3 61.4040 36 46 4 26

34

Page 37: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Tabel 4.1: Onwaarschijnlijke clusters voor twee voorbeeldtoetsen (deel 2)Positie cluster (·109) K1 K2 K3 K4

1.4137 1 - - -1.4674 2 - - -1.5041 1 - - -1.5247 9 14 3 91.5320 1 - - -1.5729 1 - - -1.5811 - 4 - -1.5813 14 31 3 191.5880 16 22 4 121.6119 1 - - -1.6121 9 10 9 101.6472 39 39 39 391.7174 20 34 12 241.7375 1 - - -1.7383 1 - - -1.7431 2 6 - 41.7446 3 - - -1.7942 1 - - -1.8049 2 - - -1.8477 1 - - -1.8892 - 1 - -1.9390 1 - - -1.9750 6 11 1 71.9927 2 1 1 12.0194 2 - - -2.0463 243 254 221 2462.0464 4 4 3 -2.0465 18 13 8 82.0468 4 3 2 32.0578 5 5 5 52.0679 1 1 1 12.1167 3 3 3 -2.1197 2 - - -2.1366 1 - - -2.1798 5 5 4 52.1800 9 12 9 102.1983 1 - - -

35

Page 38: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Tabel 4.1: Onwaarschijnlijke clusters voor twee voorbeeldtoetsen (deel 3)Positie cluster (·109) K1 K2 K3 K4

2.2126 60 69 53 622.2304 73 106 44 752.2825 20 21 20 212.3142 1 1 1 12.3163 2 - - -2.4480 2 2 2 -2.4721 1 1 1 12.4764 55 72 42 62

K1: aantal insertieplaatsen als h = 2500, α = 125

, β = 100 en α0 = 5 · 10−12

K2: aantal insertieplaatsen als h = 100000, α = 110

, β = 100 en α0 = 5 · 10−12

K3: aantal insertieplaatsen als h = 2500, α = 125

, β = 100 en α0 = 5 · 10−15

K4: aantal insertieplaatsen als h = 100000, α = 110

, β = 100 en α0 = 5 · 10−15

In dit hoofdstuk hebben we gezien dat er een aantal clusters van basenparen is die eengoede kandidaat zijn als mogelijke voorkeursplaats van het virus. We zien ook dat dezeclusters afhangen van de waarde van h die we hebben gekozen. Het zijn echter vooral dekleine clusters, die niet voor elke waarde van h en niet voor kleinere waarden van α0 alsonwaarschijnlijk worden aangemerkt.

36

Page 39: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Populaire samenvatting

Deze bachelorscriptie gaat over inserties in het genoom van muizen. Het is een vervolg opeen onderzoek naar een mogelijke oorzaak van kanker: kanker die ontstaat in genen diedoor virussen gemuteerd zijn. Dit is te lezen in het artikel [3]. Voor dit onderzoek zijn ermuizen geınjecteerd met virussen. Hierdoor hebben zich tumoren ontwikkeld in de muizen,waarnaar verder onderzoek is gedaan. De vraag waar het ook in deze bachelorscriptie omgaat, is of het virus een voorkeur heeft om specifieke genen aan te tasten.

De nulhypothese

Het genoom, dat precies een complete set chromosomen en daarmee al het erfelijk materiaalbevat, bestaat uit een groot aantal basenparen en elk basenpaar bevat twee nucleotiden.Wij noemen het aantal basenparen G en zullen vanaf nu gebruiken dat G = 3 · 109.Bovendien nummeren we de basenparen van 1 tot 3 · 109. Daarnaast is er een deel vanhet genoom aangetast door de virussen. Een toevoeging, door een virus, van een of meernucleotiden aan een DNA- of RNA-reeks, noemen we een insertie. In de onderstaandeafbeelding is dit te zien.

Het aantal inserties dat heeft plaats gevonden noemen we n en is aanzienlijk kleiner dan G.Vanaf nu zullen we aannemen dat n = 104.Om aan te kunnen tonen dat het virus inderdaad de voorkeur heeft om het genoom opbepaalde posities aan te tasten, nemen we als nulhypothese: “de posities van de inserties

37

Page 40: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

komen voort uit een uniforme verdeling”. Aan de hand van een dataset met de positiesvan de inserties willen we voor elke positie in het genoom toetsen of het aantal insertiesdat daar heeft plaats gevonden heeft al dan niet onwaarschijnlijk klein is.

De stochast Di

Wanneer de inserties uniform verdeeld zijn en Di het aantal inserties op posities i zijn, heeftde vector (D1, ..., DG) een multinomiale verdeling met

∑Gi=1 ni = n en P(D1 = n1, ..., DG =

nG) =(

nn1,...,nG

)( 1

G)n.

Het blijkt echter dat het moeilijk is om heel nauwkeurig te meten op welk gen een insertieprecies plaats heeft gevonden. Wanneer er dus een insertie op basenpaar k heeft plaats-gevonden, kan deze insertie in de data die we hebben bijvoorbeeld op basenpaar k + 15liggen. We willen daarom niet alleen kijken naar het aantal inserties op elk basenpaar,maar ook de inserties die daar vlak bij liggen meenemen. Daarom gaan we de stochast Di

een beetje aanpassen.Dit wordt “smooting”genoemd. Hierbij geven we de inserties op elk basenpaar een gewichtmee en tellen vervolgens al deze waarden bij elkaar op. Dit geeft ons de nieuwe stochastDi. Dit gewicht kiezen we zo dat het gewicht op het basenpaar i het grootst is en hoeverder we van dit basenpaar afzitten, hoe kleiner het gewicht wordt en hoe minder deinserties daar dus meetellen. We gebruiken hiervoor de functie K|i−j| := e−(i−j)2/h, waarbiji en j posities van basenparen zijn en h een constante, waarmee we de “breedte”van deklokvorm bepalen. We zullen h gelijk aan 900 of 2500 nemen. In onderstaande grafiek isdeze gewichtsfunctie te zien voor het ide basenpaar.

De stochast Di wordt nu Di :=∑G

j=1 DjK|i−j|. De verdeling van deze stochast is door dezegewichtsfunctie helaas ingewikkeld geworden en ook de computer kost het berekenen vande kans P(Di ≤ z), in het programma Matlab, hierdoor zeer veel tijd.

38

Page 41: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Karakterisaties van de stochast D = (D1, ..., DG)

Om toch de verdeling van D1, ..., DG te beschrijven, geven we in Hoofdstuk 1 uitdrukkingenvoor de verwachting EDi, de variantie VarDi, de covariantie Cov(Di, Dj) en de moment

genererende functie EePG

i=1 θiDi :

Lemma 1. Voor de verwachting geldt: EDi = nG

∑Gj=1 K|i−j|.

Voor de variantie geldt: VarDi = nG

∑Gj=1 K2

|i−j| −n

G2 (∑G

j=1 K|i−j|)2.

Voor de covariantie geldt: Cov(Di, Dj) = nG

∑Gk=1 K|i−k|K|j−k|− n

G2 (∑G

k=1 K|i−k|)(∑G

l=1 K|j−l|).

Voor de moment genererende functie geldt: EePG

i=1 θiDi = 1Gn (

∑Gj=1 e

PGi=1 θiK|i−j|)n.

Benaderingen van de karakterisaties

Helaas blijkt het berekenen van de waarden van deze karakterisaties nog steeds veel werk.Dit komt doordat de computer de zeer grote sommaties

∑Gj=1 K|i−j|,

∑Gj=1 K2

|i−j| en∑Gk=1 K|i−k|K|j−k| uit moet rekenen. Daarom geven we in Hoofdstuk 2 benaderingen van

deze sommaties. Voor deze benadering gebruiken we twee methoden. Eerst benaderen weK|i−j| op het interval [i−αh, i+αh] (voor een gekozen variabele α) met de Taylorbenaderingen buiten dit interval met een constante.

1. De boven- en ondergrens van K|i−j|, aan de hand van de Taylorbenadering op het interval [i − αh, i + αh] en eenconstante buiten dit interval.

Bij de tweede methode die we gebruiken, delen we zowel het interval [1, i−αh− 1] als hetinterval [i+αh+1, G] op in intervallen met lengte αh. Op elk van deze intervallen schattenwe K|i−j| dan af met het minimum, dat K|i−j| aanneemt op dit interval, als ondergrens enhet maximum, dat K|i−j| op dit interval aanneemt, als bovengrens. Op de afbeeldinghieronder is dit idee te zien.

2. De boven- en ondergrens van K|i−j|, aan de hand van de Taylorbenadering op het interval [i − αh, i + αh] en constantenop elk van de intervallen van lengte αh buiten [i − αh, i + αh].

Uiteindelijk combineren we deze twee methoden en benaderen we hiermee de karakterisatieszelf.

39

Page 42: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Het bepalen van een bovengrens voor P(Di > z)

Om de nulhypothese (“de posities van de inserties komen voort uit een uniforme verde-ling”) te toetsen willen we weten voor welke waarden van i het aantal inserties in de dataonwaarschijnlijk hoog is onder de nulhypothese. We zullen het aantal insersities volgens dedata di noemen. Het “gewogen aantal inserties” zullen we di noemen. Wanneer dit aantalvoor een zekere i onwaarschijnlijk hoog is, zal de kans P(Di > di) heel klein zijn. Daarombekijken we in Hoofdstuk 3 de kans P(Di > z). De computer heeft echter weer zeer veeltijd nodig om deze kans te berekenen. Daarom zullen we deze kans van boven af gaanschatten. Hiervoor gebruiken we eerst de “Markov ongelijkheid” en de daarvan afgeleide“Chernoff-grens”. Om deze grens uit te rekenen, moet de computer echter nog steeds eensommatie van 1 tot G berekenen, waar de computer zeer lang over doet (naar schattingzelfs enkele maanden). Daarom zullen we ook de Chernoff-grens nog afschatten. Dit doenwe met behulp van de methoden die we in het Hoofdstuk 2 beschreven hebben.

Hypothesetoets

Tot slot toetsen we de nulhypothese. Met behulp van een dataset, die de posities van ruimtwintigduizend inserties bevat, hebben we voor alle basenparen i waar een insertie plaatsheeft gevonden de waarden di berekend. In onderstaande afbeelding zijn deze waarden tezien voor h = 2500.

Voor elk van de pieken hebben we vervolgens berekend hoe groot de kans P(Di > di)maximaal is. Nu kunnen we voor een onbetrouwbaarheidsniveau α0 bepalen voor welkeclusters basenparen het onwaarschijnlijk is dat de inserties voortkomen uit een uniformeverdeling en het virus dus geen voorkeur heeft. Wanneer we α0 = 10−12 kiezen, blijken dit82 clusters, van in totaal 1249 basenparen als h = 2500 en 1523 basenparen als h = 100000,te zijn. Wanneer we α0 = 10−15 kiezen, zijn dit 45 clusters, van in totaal 895 basenparenals h = 2500 en 1229 als h = 100000.Er zijn dus een aantal clusters van basenparen die een goede kandidaat zijn als mogelijkevoorkeursplaats van het virus. We zien ook dat deze clusters afhangen van de waarde van hdie we hebben gekozen. Het zijn echter vooral de kleine clusters, die niet voor elke waardevan h en niet voor kleinere waarden van α0 als onwaarschijnlijk worden aangemerkt.

40

Page 43: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Bibliografie

[1] Sheldon M. Ross, Stochastic processes, John Wiley & Sons, New York,1983

[2] Bert van Es, Chris Klaassen en Misja Nuyens, Stochastiek, Korteweg-de Vries Instituutvoor wiskunde, Universiteit van Amsterdam, Amsterdam, 2005-2006

[3] Jeroen de Ridder, Statistical Analysis of Common Insertion Sites in Retroviral Inserti-onal Mutagenesis Screens, TU Delft, 2005

[4] http://www.ensembl.org/Mus musculus/index.html

41

Page 44: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Appendix A

In deze appendix zullen we bewijzen van opmerkingen, lemma’s en stellingen geven die wein de voorgaande hoofdstukken niet bewezen hebben.

Lemma 1. sommaties

De volgende gelijkheden gelden:

•∑a

j=1 1 = a,

•∑a

j=1 j = (1+a)a2

,

•∑a

j=1 j2 = a3

3+ a2

2+ a

6=

a(a+1)(a+ 12)

3,

•∑a

j=1 j3 = (a(a+1)2

)2,

•∑a

j=1 j4 = a5

5+ a4

2+ a3

3− a

30=

a(a+1)(a+ 12)(a+3−

√21)(a+3+

√21)

30.

Bewijs. We kunnen al deze gelijkheden bewijzen met behulp van volledige inductie. Teneerste gelden ze allen voor het geval a = 1:

•∑1

j=1 1 = 1,

•∑1

j=1 j = (1+1)12

= 1,

•∑1

j=1 j2 = 13

3+ 12

2+ 1

6= 1,

•∑1

j=1 j3 = (1(1+1)2

)2 = 1,

•∑1

j=1 j4 = 15

5+ 14

2+ 13

3− 1

30= 1.

Stel dat ze allen gelden voor het geval a = k, dan zien we voor a = k + 1 dat:

•∑k+1

j=1 1 = 1 +∑k

j=1 1 = k + 1,

•∑k+1

j=1 j = k + 1 +∑k

j=1 j = k + 1 + (1+k)k2

= (1+(k+1))(k+1)2

,

42

Page 45: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

•∑k+1

j=1 j2 = (k+1)2+∑k

j=1 j2 = k2+k+1+ k3

3+ k2

2+ k

6= k3+3k2+3k+1

3+ k2+2k+1

2+ k+1

6=

(k+1)3

3+ (k+1)2

2+ (k+1)

6,

•∑k+1

j=1 j3 = (k + 1)3 +∑k

j=1 j3 = 4(k+1)(k+1)2

22 + (k(k+1)2

)2 = ( (k+1)((k+1)+1)2

)2,

•∑k+1

j=1 j4 = (k + 1)4 +∑k

j=1 j4 = k4 + 4k3 + 6k2 + 4k + 1 + k5

5+ k4

2+ k3

3− k

30=

k5+5k4+10k3+10k2+5k+15

+ k4+4k3+6k2+4k+12

+ k3+3k2+3k+13

− k+130

= (k+1)5

5+ (k+1)4

2+ (k+1)3

3−

(k+1)30

.

Dus bovenstaande gelijkheden gelden voor alle a ∈ N.

Bewijzen uit Hoofdstuk 1

Lemma 2. De verwachting EDjDk is n2−nG2 als j 6= k.

Bewijs. Als j 6= k, kunnen we gebruik maken van het feit dat de onvoorwaardelijke ver-wachting van DjDk gelijk is aan de verwachting van de voorwaardelijke verwachting vanDjDk. Deze laatste verwachting kunnen we uitschrijven en bekende verwachtingen enkansen invullen. We zien dan dat 1:

EDjDk = E[E[DjDk|Dk]]

=n∑

y=1

E[DjDk|Dk = y]P(Dk = y)

=n∑

y=1

E[yDj|Dk = y]P(Dk = y)

=n∑

y=1

yE[Dj|Dk = y]P(Dk = y)

=n∑

y=1

y(n− y)1G

1− 1G

P(Dk = y)

= (nEDk − E(D2k))

1G

1− 1G

= (n2

G− n

G(n

G− 1

G+ 1))

1G

1− 1G

=n2 − n

G2.

1Zie ook [1, pag 12, 15 & 285]

43

Page 46: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Hierbij hebben we ook gebruik gemaakt van het feit dat E[Dj|Dk = y] = (n − y)1G

1− 1G

, dit

is het geval omdat:

P(D1 = n1, ..., DG−1 = nG−1|DG = nG) =P(D1 = n1, ..., DG−1 = nG−1, DG = nG)

P(DG = nG)

=

n!n1!...nG−1!nG!

( 1G

)n

n!nG!(n−nG)!

( 1G)nG(1− 1

G)n−nG

=(n− nG)!

n1!...nG−1!(

1G

1− 1G

)n−nG .

Hieruit volgt dat, gegeven Dk = y, D1 = n1, ..., DG−1 = nG−1 weer multinomiaal ver-deeld is. [2, pag 74,75] En dus weten we dat, gegeven Dk = y, elk van de overige Di

bin(n− y,1G

1− 1G

) verdeeld is. Hieruit volgt dat E[Dj|Dk = y] = (n− y)1G

1− 1G

.

We kunnen EDjDk = n2−nG2 voor j 6= k ook op een andere manier aantonen, door gebruik

te maken van de CovDjDk. We weten immers dat als j 6= k

CovDjDk = EDjDk − EDjEDk = EDjDk − (n

G)2.

Bovendien weten we dat

Var(G∑

k=1

Dk) =G∑

k=1

VarDk + 2G−1∑j=1

G∑k=j+1

Cov(Dj, Dk).

Omdat alle Dj bin(n, 1G) verdeeld zijn, geldt dat VarDj = VarD1 = nG−1

G2 en

2∑G−1

j=1

∑Gk=j+1 Cov(Dj, Dk) = G(G − 1)Cov(Dj, Dk) voor alle j 6= k. Tot slot weten

we ook dat Var(∑G

k=1 Dk) = 0, omdat deze som altijd n is. Nu zien we dat

0 = GnG− 1

G2+ 2G(G− 1)Cov(Dj, Dk).

oftewel Cov(Dj, Dk) = − nG2 . Hiermee volgt dat EDjDk = n2−n

G2 .We maakten hier gebruik van het feit dat

Var(G∑

k=1

Dk) =G∑

k=1

VarDk + 2G−1∑j=1

G∑k=j+1

Cov(Dj, Dk). (4.1)

Dit kunnen we aantonen met inductie naar G. Voor G = 1 is het duidelijk dat

44

Page 47: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Var(1∑

k=1

Dk) =1∑

k=1

VarDk + 20∑

j=1

1∑k=j+1

Cov(Dj, Dk) = VarD1.

Stel dat (4.1) klopt voor alle G < n, dan zien we voor G = n dat

Var(n∑

k=1

Dk) = VarD1 + Var(n∑

k=2

Dk) + 2Cov(D1,n∑

k=2

Dk)

= VarD1 +n∑

k=2

VarDk + 2n−1∑j=1

n∑k=j+1

Cov(Dj, Dk) + 2n∑

k=2

Cov(D1, Dk)

=n∑

k=1

VarDk + 2n−1∑j=1

n∑k=j+1

Cov(Dj, Dk).

Hiermee hebben we bewezen dat (4.1) geldt voor alle G ∈ N.

Bewijzen uit Hoofdstuk 2

Bewijzen uit Sectie 2.3

Om de boven- en ondergrenzen uit de lemma’s 2.1 tot en met 2.3 te bewijzen, hebben weeerste enkele lemma’s nodig die ons grenzen geven voor kleinere sommaties. Eerst bekijkenwe de stukken van de sommaties

∑Gj=1 K|i−j|,

∑Gj=1 K2

|i−j| en∑G

k=1 K|i−k|K|j−k|, die we afwillen schatten met behulp van de Taylorbenadering. Dit worden de lemma’s 3 tot en met9. Vervolgens passen we dit toe om de lemma’s 2.1 tot en met 2.3 te bewijzen, die gelijkzijn aan de lemma’s 10 tot en met 12.Eerst bewijzen we een bovengrens van

∑i+αhj=i−αh K|i−j|. Merk op dat we ook de waarden

waar j niet positief is en de waarden waar j groter is dan G meetellen. Dit kunnen wedoen omdat hier sprake is van een bovengrens en K|i−j| > 0 voor alle waarden van |i− j|.

Lemma 3. Een bovengrens van∑i+αh

j=i−αh K|i−j| is

α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h.

45

Page 48: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Bewijs. We bewijzen dit door de Taylorbenadering in te vullen:

i+αh∑j=i−αh

K|i−j| ≤i+αh∑

j=i−αh

1− (i− j)2

h+

(i− j)4

2h2

= 1 + 2αh∑k=1

1− k2

h+

k4

2h2

=α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h.

Voor dezelfde sommatie, bewijzen we nu ook een ondergrens. Hier tellen we natuurlijk nietde waarden mee, waar j groter dan G of niet positief zou worden. Daarom laten we desom lopen van max{1, i− αh} tot en met min{G, i + αh}.

Lemma 4. Een ondergrens van∑min{G,i+αh}

j=max{1,i−αh} K|i−j| is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

1− 1

3α + (2α− α2)h− 2

3α3h2 = Amin1a ,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

i + αh−α(αh + 1)(αh + 1

2)

3−

(i− 1)i(i− 12)

3h= Amin1b

(i),

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

G− i + αh + 1−α(αh + 1)(αh + 1

2)

3−

(G− i)(G− i + 1)(G− i + 12)

3h= Amin1c(i).

Bewijs. Merk eerst op dat min{G, i + αh} = G en max{1, i − αh} = 1 niet mogelijk is,omdat we een relatief klein interval hebben gekozen ten opzichte van G. De bovenstaandegrenzen kunnen we nu vinden door de ondergrens van de Taylorbenadering in te vullen:

min{G,i+αh}∑j=max{1,i−αh}

K|i−j| ≥min{G,i+αh}∑

j=max{1,i−αh}

1− (i− j)2

h.

In elk van de gevallen zien we dan dat:

46

Page 49: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

1.

min{G,i+αh}∑j=max{1,i−αh}

K|i−j| ≥ 1 + 2αh∑k=1

1− k2

h

= 1 + 2αh− 2

h

αh∑k=1

k2

= 1 + 2αh− 2

3α(αh + 1)(αh +

1

2)

= 1− 1

3α + (2α− α2)h− 2

3α3h2 = Amin1a ,

2.

min{G,i+αh}∑j=max{1,i−αh}

K|i−j| ≥i+αh∑j=1

1− (i− j)2

h

= i + αh− 1

h

αh∑k=1

k2 − 1

h

i−1∑k=1

k2

= i + αh−α(αh + 1)(αh + 1

2)

3−

(i− 1)i(i− 12)

3h= Amin1b

(i),

3.

min{G,i+αh}∑j=max{1,i−αh}

K|i−j| ≥G∑

j=i−αh

1− (i− j)2

h

= G− i + αh + 1− 1

h

αh∑k=1

k2 − 1

h

G−i∑k=1

k2

= G− i + αh + 1−α(αh + 1)(αh + 1

2)

3

−(G− i)(G− i + 1)(G− i + 1

2)

3h= Amin1c(i).

Merk op dat we in het tweede en derde geval ook een iets grovere afschatting haddenkunnen doen, door slechts de waarden van K|i−j| met j ∈ [i + 1, ..., i + αh], respectievelijkmet j ∈ [i− αh, ..., i− 1] mee te tellen (en de overige waarden met 0 af te schatten). Dan

zien we dat Amin1b(i) ≥ Amin1a

2en Amin1c(i) ≥

Amin1a

2.

47

Page 50: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Nu we grenzen voor de som van K|i−j| hebben, bewijzen we een bovengrens voor∑i+αhj=i−αh K2

|i−j|. Ook nu tellen we de waarden waar j groter dan G of niet positief is

mee, omdat we te maken hebben met een bovengrens en ook K2|i−j| > 0.

Lemma 5. Een bovengrens van∑i+αh

j=i−αh K2|i−j| is

2α5

5h3 + (α4 − 4α3

3)h2 + (

2α3

3− 2α2 + 2α)h + (1− 2α

3)− α

15h.

Bewijs. Wanneer we de Taylorbenadering in de som invullen en opnieuw gebruiken dat

K2|i−j| = e−

2(i−j)2

h , zien we dat:

i+αh∑j=i−αh

K2|i−j| ≤

i+αh∑j=i−αh

1− 2(i− j)2

h+

(i− j)4

h2

= 1 + 2αh + 4αh∑k=1

−k2

h+

k4

2h2

=2α5

5h3 + (α4 − 4α3

3)h2 + (

2α3

3− 2α2 + 2α)h + (1− 2α

3)− α

15h.

Voor de ondergrens van K2|i−j| geldt hetzelfde als voor de ondergrens van K2

|i−j|: ook nu

laten we de sommatie lopen van max{1, i− αh} tot en met min{G, i + αh}.

Lemma 6. Een ondergrens van∑min{G,i+αh}

j=max{1,i−αh} K2|i−j| is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

1− 2

3α + (2α− 2α2)h− 4

3α3h2,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

i + αh−2α(αh + 1)(αh + 1

2)

3−

2(i− 1)i(i− 12)

3h,

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

G− i + αh + 1−2α(αh + 1)(αh + 1

2)

3−

2(G− i)(G− i + 1)(G− i + 12)

3h.

48

Page 51: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Bewijs. Merk op dat ook hier min{G, i + αh} = G en max{1, i−αh} = 1 niet mogelijk is,omdat we een relatief klein interval hebben gekozen ten opzichte van G. De bovenstaandegrenzen kunnen we nu vinden door de ondergrensgrens van de Taylorbenadering in tevullen.In elk van de gevallen zien we dan dat:

∑min{G,i+αh}j=max{1,i−αh} K2

|i−j| ≥∑min{G,i+αh}

j=max{1,i−αh} 1− 2(i−j)2

h.

Hier gebruiken we het feit dat K2|i−j| = (e−

(i−j)2

h )2 = e−2(i−j)2

h . Vervolgens zien we dat in dedrie gevallen:

1.

min{G,i+αh}∑j=max{1,i−αh}

K2|i−j| ≥ 1 + 2αh− 4

h

αh∑k=1

k2

= 1− 2

3α + (2α− 2α2)h− 4

3α3h2,

2.

min{G,i+αh}∑j=max{1,i−αh}

K2|i−j| ≥ 1 + i + αh− 2

h

αh∑k=1

k2 − 2

h

i−1∑k=1

k2

= i + αh−2α(αh + 1)(αh + 1

2)

3−

2(i− 1)i(i− 12)

3h,

3.

min{G,i+αh}∑j=max{1,i−αh}

K2|i−j| ≥ G− i + αh + 1− 2

h

αh∑k=1

k2 − 2

h

G−i∑k=1

k2

= G− i + αh + 1−2α(αh + 1)(αh + 1

2)

3

−2(G− i)(G− i + 1)(G− i + 1

2)

3h.

Voor de volgende twee lemma’s nemen we aan dat i ≤ j. Wanneer dit niet het geval is,vervangen we K|i−k|K|j−k| door K|j−k|K|i−k|, wat natuurlijk exact hetzelfde is. Bovendiennemen we aan dat j − αh < i + αh. Wanneer i + αh ≤ j − αh, zijn onderstaande grenzenimmers niet van toepassing. In onderstaande afbeelding is dit te zien. De rode lijn geeft eenafschatting van K|j−k| weer, de groene lijn een afschatting van K|i−k|. Voor de afschattingvan K|i−k|K|j−k| “vermenigvuldigen we de rode lijn met de groene lijn”.

49

Page 52: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

1. De bovengrens vanPG

k=1 K|i−k|K|j−k| als i + αh ≤ j − αh (1a) en als j − αh < i + αh (1b)

Eerst zullen we weer enkele bovengrenzen bewijzen, daarna volgen de ondergrenzen.

Lemma 7. Een bovengrens van∑j−αh

k=i−αh K|i−k| isα5

10h3+(α4

4− α3

3)h2+(α3

6− α2

2+α)h+(1−

α6)− α

60h+j−i−αh− (j−i−αh)3

3h− (j−i−αh)2

2h− j−i−αh

6h+ (j−i−αh)5

10h2 + (j−i−αh)4

4h2 + (j−i−αh)3

6h2 − j−i−αh60h2 .

Bewijs. Om bovenstaand lemma te bewijzen, splitsen we de sommatie van i−αh tot j−αhop in twee sommaties, waar we de bovengrens uit de Taylorbenadering in invullen. Ditgeeft:

j−αh∑k=i−αh

K|i−k| =i∑

k=i−αh

K|i−k| +

j−αh∑k=i+1

K|i−k|

≤ 1 +αh∑k=1

1− k2

h+

k4

2h2+

j−i−αh∑k=1

1− k2

h+

k4

2h2

=α5

10h3 + (

α4

4− α3

3)h2 + (

α3

6− α2

2+ α)h + (1− α

6)− α

60h

+j − i− αh− (j − i− αh)3

3h− (j − i− αh)2

2h− j − i− αh

6h

+(j − i− αh)5

10h2+

(j − i− αh)4

4h2+

(j − i− αh)3

6h2− j − i− αh

60h2.

Merk op dat∑j−αh

k=i−αh K|i−k| =∑j+αh

k=i+αh K|j−k|. Daarom hebben we nu alleen nog een

bovengrens voor∑i+αh−1

k=j−αh+1 K|i−k|K|j−k| nodig.

50

Page 53: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Lemma 8. Een bovengrens van∑i+αh−1

k=j−αh+1 K|i−k|K|j−k| is

((1 +α4h2

2)2 + (

ij

h)2 −

(1 + α4h2

2)(i2 + j2)

h)(i− j + 2αh− 1)

−(2i2j + 2ij2

h2−

(1 + α4h2

2)(2i + 2j)

h) ·

(i + αh)(i + αh− 1)− (1 + j − αh)(j − αh)

2

+(i2 + 4ij + j2

h2− 2 + α4h2

h)(

(i + αh− 1)3 − (j − αh)3

3

+(i + αh− 1)2 − (j − αh)2

2+

(i + αh− 1)− (j − αh)

6)

−(2i + 2j

h2)(

((i + αh− 1)(i + αh))2 − ((j − αh)(j − αh + 1))2

4)

+(i + αh− 1)5 − (j − αh)5

5h2+

(i + αh− 1)4 − (j − αh)4

2h2

+(i + αh− 1)3 − (j − αh)3

3h2− (i + αh− 1)− (j − αh)

30h2.

Bewijs. Ten eerste weten we dat∑i+αh−1

k=j−αh+1 K|i−k|K|j−k| = 0 als i + αh − (j − αh) = 1.Wanneer i + αh− (j − αh) 6= 1 weten we dat:

i+αh−1∑k=j−αh+1

K|i−k|K|j−k| ≤i+αh−1∑

k=j−αh+1

(1− (i− k)2

h+

(i− k)4

2h2)(1− (j − k)2

h+

(j − k)4

2h2).

Omdat |i− k|, |j − k| ≤ αh, kunnen we dit met de Taylorbenadering verder afschatten:

51

Page 54: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

i+αh−1∑k=j−αh+1

K|i−k|K|j−k| ≤i+αh−1∑

k=j−αh+1

(1− (i− k)2

h+

α4h2

2)(1− (j − k)2

h+

α4h2

2)

=i+αh−1∑

k=j−αh+1

(1 +α4h2

2)2 − (1 +

α4h2

2)i2 + j2 − 2k(i + j) + 2k2

h

+i2j2 − 2i2jk + i2k2 − 2ij2k + 4ijk2 − 2ik3 + j2k2 − 2jk3 + k4

h2

=i+αh−1∑

k=j−αh+1

{(1 +α4h2

2)2 + (

ij

h)2 −

(1 + α4h2

2)(i2 + j2)

h}

−i+αh−1∑

k=j−αh+1

{2i2j + 2ij2

h2−

(1 + α4h2

2)(2i + 2j)

h}k

+i+αh−1∑

k=j−αh+1

{i2 + 4ij + j2

h2− 2 + α4h2

h}k2

−i+αh−1∑

k=j−αh+1

{2i + 2j

h2}k3 +

i+αh−1∑k=j−αh+1

{ 1

h2}k4.

Uitschrijven van deze sommaties met Lemma 1 geeft ons nu de gegeven bovengrens.

Ook bij het volgende lemma nemen we aan dat i ≤ j en dat j −αh < i + αh, omdat we inhet andere geval de ondergrens overal voor K|i−k| en/of K|j−k| gelijk aan 0 kiezen en dusK|i−k|K|j−k| overal afschatten met 0, zoals ook in onderstaande afbeelding te zien is.

2. De ondergrens vanPG

k=1 K|i−k|K|j−k| als i + αh ≤ j − αh (2a) en als j − αh < i + αh (2b)

52

Page 55: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Lemma 9. Een ondergrens voor∑min{i+αh,G}

k=max{j−αh,1} K|i−k|K|j−k| is

(1 + (ij

h)2 − i2 + j2

h)(min{i + αh, G}+ 1−max{j − αh, 1})

−(2i2j + 2ij2

h2− 2i + 2j

h) ·

((1 + min{i + αh,G})(min{i + αh,G})

2

−(max{j − αh, 1})(max{j − αh, 1} − 1)

2)

+(i2 + 4ij + j2

h2− 2

h)(

(min{i + αh, G})3 − (max{j − αh, 1} − 1)3

3

+(min{i + αh, G})2 − (max{j − αh, 1} − 1)2

2

+(min{i + αh, G})− (max{j − αh, 1} − 1)

6)

−(2i + 2j

h2)((

min{i + αh,G}(min{i + αh,G}+ 1)

2)2

−((max{j − αh, 1} − 1) max{j − αh, 1}

2)2)

+(min{i + αh, G})5 − (max{j − αh, 1} − 1)5

5h2

+(min{i + αh,G})4 − (max{j − αh, 1} − 1)4

2h2

+(min{i + αh,G})3 − (max{j − αh, 1} − 1)3

3h2

−(min{i + αh,G})− (max{j − αh, 1} − 1)

30h2.

53

Page 56: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Bewijs.

G∑k=1

K|i−k|K|j−k| ≥min{i+αh,G}∑

k=max{j−αh,1}

K|i−k|K|j−k|

≥min{i+αh,G}∑

k=max{j−αh,1}

(1− (i− k)2

h)(1− (j − k)2

h)

=

min{i+αh,G}∑k=max{j−αh,1}

1− i2 + j2 − 2k(i + j) + 2k2

h

+i2j2 − 2i2jk + i2k2 − 2ij2k + 4ijk2 − 2ik3 + j2k2 − 2jk3 + k4

h2

=

min{i+αh,G}∑k=max{j−αh,1}

{1 + (ij

h)2 − i2 + j2

h}

−min{i+αh,G}∑

k=max{j−αh,1}

{2i2j + 2ij2

h2− 2i + 2j

h}k

+

min{i+αh,G}∑k=max{j−αh,1}

{i2 + 4ij + j2

h2− 2

h}k2

−min{i+αh,G}∑

k=max{j−αh,1}

{2i + 2j

h2}k3 +

min{i+αh,G}∑k=max{j−αh,1}

{ 1

h2}k4.

Hier kunnen we de bekende sommaties uit Lemma 1 toepassen. Dan krijgen we de gegevenondergrens.

Nu kunnen we boven- en ondergrenzen voor∑G

j=1 K|i−j|,∑G

j=1 K2|i−j| en

∑Gk=1 K|i−k|K|j−k|

bepalen.

Lemma 10. Een bovengrens van∑G

j=1 K|i−j| is

α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h+ (G− 2αh− 1)e−α2h.

Een ondergrens is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

1− 1

3α + (2α− α2)h− 2

3α3h2 = Amin1a ,

54

Page 57: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

i + αh−α(αh + 1)(αh + 1

2)

3−

(i− 1)i(i− 12)

3h= Amin1b

(i),

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

G− i + αh + 1−α(αh + 1)(αh + 1

2)

3−

(G− i)(G− i + 1)(G− i + 12)

3h= Amin1c(i).

Bewijs. Voor de bovengrens van∑G

j=1 K|i−j| zien we dat:

G∑j=1

K|i−j| ≤ (G− (min{G, i + αh} −max{1, i− αh}))e−α2h +

min{G,i+αh}∑j=max{1,i−αh}

K|i−j|

≤ (G− 2αh− 1)e−α2h +i+αh∑

j=i−αh

K|i−j|.

Dit geeft ons met Lemma 3 de gegeven bovengrens.Voor de ondergrens

∑Gj=1 K|i−j| van weten we dat:

G∑j=1

K|i−j| ≥min{G,i+αh}∑

j=max{1,i−αh}

K|i−j| + 0.

Dit geeft met Lemma 4 elk van de gegeven ondergrenzen.

Lemma 11. Een bovengrens van∑G

j=1 K2|i−j| is

(G− 2αh− 1)e−2α2h +2α5

5h3 + (α4 − 4α3

3)h2 + (

2α3

3− 2α2 + 2α)h + (1− 2α

3)− α

15h.

Een ondergrens is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

1− 2

3α + (2α− 2α2)h− 4

3α3h2,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

i + αh−2α(αh + 1)(αh + 1

2)

3−

2(i− 1)i(i− 12)

3h,

55

Page 58: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

G− i + αh + 1−2α(αh + 1)(αh + 1

2)

3−

2(G− i)(G− i + 1)(G− i + 12)

3h.

Bewijs. Voor de bovengrens van∑G

j=1 K2|i−j| zien we dat:

G∑j=1

K2|i−j| ≤ (G− (min{G, i + αh} −max{1, i− αh}))e−2α2h +

min{G,i+αh}∑j=max{1,i−αh}

K2|i−j|

≤ (G− 2αh− 1)e−2α2h +i+αh∑

j=i−αh

K2|i−j|.

Dit geeft ons met Lemma 5 de bovenstaande bovengrens.Voor de ondergrens

∑Gj=1 K2

|i−j| van weten we dat:

G∑j=1

K2|i−j| ≥

min{G,i+αh}∑j=max{1,i−αh}

K2|i−j| + 0.

Met Lemma 6 krijgen we nu de gegeven ondergrenzen.

Om de boven- en ondergrens van∑G

k=1 K|i−k|K|j−k| te bepalen, nemen we aan dat i ≤j. Wanneer dit niet het geval is, vervangen we ook nu K|i−k|K|j−k| door K|j−k|K|i−k|.Bovendien zullen we onderscheid maken of i + αh ≤ j − αh of j − αh < i + αh.

Lemma 12. Een bovengrens van∑G

k=1 K|i−k|K|j−k| is

• als i + αh ≤ j − αh:

(G−4αh−2)e−2α2h+2e−α2h(α5

5h3+(

α4

2− 2α3

3)h2+(

α3

3−α2+2α)h+(1− α

3)− α

30h),

• als j − αh < i + αh:

(G− 2αh + i− j − 1)e−2α2h + 2e−α2h(α5

10h3 + (

α4

4− α3

3)h2

+(α3

6− α2

2+ α)h + (1− α

6)− α

60h+ j − i− αh

−(j − i− αh)3

3h− (j − i− αh)2

2h− j − i− αh

6h

+(j − i− αh)5

10h2+

(j − i− αh)4

4h2+

(j − i− αh)3

6h2− j − i− αh

60h2)

+i+αh−1∑

k=j−αh+1

K|i−k|K|j−k|.

56

Page 59: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Een ondergrens is

• als i + αh ≤ j − αh: 0,

• als j − αh < i + αh:∑min{i+αh,G}

k=max{j−αh,1} K|i−k|K|j−k|.

Bewijs. Voor de bovengrens van∑G

k=1 K|i−k|K|j−k| maken we onderscheid tussen de vol-gende twee situaties:

1. De bovengrens vanPG

k=1 K|i−k|K|j−k| als i + αh ≤ j − αh (1a) en als j − αh < i + αh (1b)

Eerst bekijken we het geval waarin i + αh ≤ j − αh. Nu zien we dat:

G∑k=1

K|i−k|K|j−k| ≤ max{i− αh− 1, 0}e−2α2h +i+αh∑

k=max{i−αh,1}

K|i−k|e−α2h

+

j−αh−1∑k=i+αh+1

e−2α2h +

min{G,j+αh}∑k=j−αh

e−α2hK|j−k|

+ max{G− (j + αh), 0}e−2α2h

≤ (G− 4αh− 2)e−2α2h + 2e−α2h

i+αh∑j=i−αh

K|i−j|

≤ (G− 4αh− 2)e−2α2h + 2e−α2h ·

(α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h).

Hierbij hebben we in de laatste ongelijkheid Lemma 3 ingevuld.Wanneer j − αh < i + αh, zien we dat:

57

Page 60: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

G∑k=1

K|i−k|K|j−k| ≤ max{i− αh− 1, 0}e−2α2h +

j−αh∑k=max{i−αh,1}

K|i−k|e−α2h

+i+αh−1∑

k=j−αh+1

K|i−k|K|j−k| +

min{G,j+αh}∑k=i+αh

e−α2hK|j−k|

+ max{G− (j + αh), 0}e−2α2h

≤ (G− 2αh + i− j − 1)e−2α2h + 2e−α2h

j−αh∑k=i−αh

K|i−k|

+i+αh−1∑

k=j−αh+1

K|i−k|K|j−k|.

In totaal zien we met Lemma 7 de gegeven bovengrens.Voor de ondergrens van

∑Gk=1 K|i−k|K|j−k| maken we onderscheid tussen de volgende twee

situaties:

2. De ondergrens vanPG

k=1 K|i−k|K|j−k| als i + αh ≤ j − αh (2a) en als j − αh < i + αh (2b)

In het geval dat i + αh ≤ j − αh weten we dat

G∑k=1

K|i−k|K|j−k| ≥ max{i− αh− 1, 0} · 0 +i+αh∑

k=max{i−αh,1}

K|i−k| · 0

+

j−αh−1∑k=i+αh+1

0 +

min{G,j+αh}∑k=j−αh

0 ·K|j−k| + max{G− (j + αh), 0} · 0

= 0.

58

Page 61: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Wanneer j−αh < i+αh, is de ondergrens van zowel K|i−k| als K|j−k| groter dan 0, preciesdan als k ∈ [j − αh, i + αh]. Dit geeft dus dat:

G∑k=1

K|i−k|K|j−k| ≥min{i+αh,G}∑

k=max{j−αh,1}

K|i−k|K|j−k|.

Hiermee hebben we de lemma’s uit Sectie 2.3 bewezen.

Bewijzen uit Sectie 2.4

In deze paragraaf zullen we de lemma’s bewijzen die we in Sectie 2.4 gegeven hebben.Eerst tonen we een boven- en ondergrens van

∑Gj=1 K|i−j| aan:

Lemma 13. Een bovengrens van∑G

j=1 K|i−j| is

max{0, d i− 1

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h + αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h

+α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h

+ max{0, dG− i

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h + αh

min{β,dG−iαh

−1e}∑k=1

e−(kαh+1)2

h = Amax2 .

Een ondergrens is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h + 1− 1

3α + (2α− α2)h− 2

3α3h2

+αh

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h = Amin2a ,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h + i + αh−α(αh + 1)(αh + 1

2)

3

−(i− 1)i(i− 1

2)

3h+ αh

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h = Amin2b(i),

59

Page 62: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h + G− i + αh + 1−α(αh + 1)(αh + 1

2)

3

−(G− i)(G− i + 1)(G− i + 1

2)

3h+ αh

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h = Amin2c(i).

Bewijs. Voor de bovengrens zien we dat:

G∑j=1

K|i−j| ≤ αh

d i−1αh

−1e∑k=1

e−(kαh+1)2

h +i+αh∑

j=i−αh

K|i−j| + αh

dG−iαh

−1e∑k=1

e−(kαh+1)2

h

≤ max{0, d i− 1

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h + αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h

+i+αh∑

j=i−αh

K|i−j| + max{0, dG− i

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h

+αh

min{β,dG−iαh

−1e}∑k=1

e−(kαh+1)2

h .

Hierbij is d i−1αh

− 1e het aantal intervallen onder i− αh en dG−iαh

− 1e het aantal intervallen

boven i + αh, e−(kαh+1)2

h het maximum van K|i−j| op ieder interval en vermenigvuldigen wede sommen met αh, omdat de lengte van ieder interval αh is. Bovendien hebben we bij detweede ongelijkheid de eerste max{0, d i−1

αh− (β + 1)e} (resp de laatste max{0, dG−i

αh− (β +

1)e}) intervallen afgeschat met de hoogste constante, omdat al deze constanten zeer snelnaar 0 gaan, wanneer β groter wordt.Na invullen van

∑i+αhj=i−αh K|i−j| met Lemma 3 hebben we de gegeven bovengrens.

Evenzo voor de ondergrens zien we dat:

G∑j=1

K|i−j| ≥ αh

b i−1αh

−1c∑k=1

e−((k+1)αh+1)2

h +

min{G,i+αh}∑j=max{1,i−αh}

K|i−j| + αh

bG−iαh

−1c∑k=1

e−((k+1)αh+1)2

h

≥ αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h +

min{G,i+αh}∑j=max{1,i−αh}

K|i−j|

+αh

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h .

60

Page 63: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

We nemen hier b i−1αh

− 1c (resp bG−iαh

− 1c)intervallen en schatten de buitenste twee inter-valletjes af met de constante 0. Bovendien hebben we hier bij de tweede ongelijkheid deeerste max{0, d i−1

αh−(β+1)e} (resp de laatste max{0, dG−i

αh−(β+1)e}) intervallen afgeschat

met 0, omdat al deze constanten zeer snel naar 0 gaan, wanneer β groter wordt. Ook nuvullen we

∑i+αhj=i−αh K|i−j| in met de al bekende ondergrens uit Lemma 4. Nu hebben we de

gegeven ondergrens.

De grenzen voor∑G

j=1 K2|i−j| lijken hier heel erg op:

Lemma 14. Een bovengrens van∑G

j=1 K2|i−j| is

max{0, d i− 1

αh− (β + 1)e}αhe−

2((β+1)αh+1)2

h + αh

min{β,d i−1αh

−1e}∑k=1

e−2(kαh+1)2

h

+2α5

5h3 + (α4 − 4α3

3)h2 + (

2α3

3− 2α2 + 2α)h + (1− 2α

3)− α

15h

+ max{0, dG− i

αh− (β + 1)e}αhe−

2((β+1)αh+1)2

h + αh

min{β,dG−iαh

−1e}∑k=1

e−2(kαh+1)2

h = Bmax2 .

Een ondergrens is

1. als min{G, i + αh} = i + αh en max{1, i− αh} = i− αh:

αh

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h + 1− 2

3α + (2α− 2α2)h− 4

3α3h2

+αh

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h = Bmin2a ,

2. als min{G, i + αh} = i + αh en max{1, i− αh} = 1:

αh

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h + i + αh−2α(αh + 1)(αh + 1

2)

3

−2(i− 1)i(i− 1

2)

3h+ αh

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h = Bmin2b(i),

3. als min{G, i + αh} = G en max{1, i− αh} = i− αh:

αh

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h + G− i + αh + 1−2α(αh + 1)(αh + 1

2)

3

−2(G− i)(G− i + 1)(G− i + 1

2)

3h+ αh

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h = Bmin2c(i).

61

Page 64: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Bewijs. Voor de bovengrens zien we dat:

G∑j=1

K2|i−j| ≤ αh

d i−1αh

−1e∑k=1

e−2(kαh+1)2

h +i+αh∑

j=i−αh

K2|i−j| + αh

dG−iαh

−1e∑k=1

e−2(kαh+1)2

h

≤ max{0, d i− 1

αh− (β + 1)e}αhe−

2((β+1)αh+1)2

h + αh

min{β,d i−1αh

−1e}∑k=1

e−2(kαh+1)2

h

+i+αh∑

j=i−αh

K2|i−j| + max{0, dG− i

αh− (β + 1)e}αhe−

2((β+1)αh+1)2

h

+αh

min{β,dG−iαh

−1e}∑k=1

e−2(kαh+1)2

h .

Na invullen van∑i+αh

j=i−αh K2|i−j| met Lemma 5 hebben we de gegeven bovengrens.

En voor de ondergrens zien we dat:

G∑j=1

K2|i−j| ≥ αh

b i−1αh

−1c∑k=1

e−2((k+1)αh+1)2

h +

min{G,i+αh}∑j=max{1,i−αh}

K2|i−j| + αh

bG−iαh

−1c∑k=1

e−2((k+1)αh+1)2

h

≥ αh

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h +

min{G,i+αh}∑j=max{1,i−αh}

K2|i−j|

+αh

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h .

Ook nu vullen we∑i+αh

j=i−αh K2|i−j| in met de al bekende ondergrens uit Lemma 6. Nu hebben

we de gegeven ondergrens.

Ook voor de grenzen van∑G

k=1 K|i−k|K|j−k| kunnen we iets soortgelijks doen:

Lemma 15. Een bovengrens van∑G

j=1 K|i−k|K|j−k| is

62

Page 65: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

• als i + αh ≤ j − αh:

(max{0, d i− 1

αh− (β + 1)e}+ max{0, dG− j

αh− (β + 1)e})·

αhe−((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+ αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h

+ 2(α5

5h3 + (

α4

2− 2α3

3)h2 + (

α3

3− α2 + 2α)h + (1− α

3)− α

30h)e−

(j−i−αh)2

h

+ 2 max{0, dj − i− 2

2αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(i−j+(β+2)αh+1)2

h

+ 2αh

min{β,d j−i−22αh

−1e}∑k=1

e−(kαh+1)2

h e−(i−j+(k+1)αh+1)2

h

+ αh

min{β,dG−jαh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h = Cmax2a ,

• als j − αh < i + αh:

max{0, d i− 1

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+ αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h +i+αh−1∑

k=j−αh+1

K|i−k|K|j−k|

+ 2(α5

10h3 + (

α4

4− α3

3)h2 + (

α3

6− α2

2+ α)h + (1− α

6)− α

60h

+ j − i− αh− (j − i− αh)3

3h− (j − i− αh)2

2h− j − i− αh

6h

+(j − i− αh)5

10h2+

(j − i− αh)4

4h2+

(j − i− αh)3

6h2− j − i− αh

60h2)e−

(j−i−αh)2

h

+ max{0, dG− j

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+ αh

min{β,dG−jαh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h = Cmax2b.

Een ondergrens is

• als i + αh ≤ j − αh:

63

Page 66: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h

+ λ1e− (j−i+αh)2

h

+ 2αh

min{β,b j−i−22αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(i−j+kαh+1)2

h

+ αh

min{β,bG−jαh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h = Cmin2a .

Hierin is λ1 gelijk aan:

1. als min{G, j + αh} = j + αh en max{1, i− αh} = i− αh:

2(1− 1

3α + (2α− α2)h− 2

3α3h2),

2. als min{G, j + αh} = j + αh en max{1, i− αh} = 1:

1− 1

3α + (2α− α2)h− 2

3α3h2 + i + αh−

α(αh + 1)(αh + 12)

3−

(i− 1)i(i− 12)

3h,

3. als min{G, j + αh} = G en max{1, i− αh} = i− αh:

G− j + αh + 1−α(αh + 1)(αh + 1

2)

3−

(G− j)(G− j + 1)(G− j + 12)

3h

+ 1− 1

3α + (2α− α2)h− 2

3α3h2,

4. als min{G, j + αh} = G en max{1, i− αh} = 1:

G− j + αh + 1−α(αh + 1)(αh + 1

2)

3−

(G− j)(G− j + 1)(G− i + 12)

3h

+ i + αh−α(αh + 1)(αh + 1

2)

3−

(i− 1)i(i− 12)

3h,

• als j − αh < i + αh:

64

Page 67: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

+ αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h +

min{G,i+αh−1}∑k=max{1,j−αh+1}

K|i−k|K|j−k|

+ (λ2 + λ3)e− (j−i+αh)2

h

+ αh

min{β,bG−jαh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h = Cmin2b.

Hierin is λ2 gelijk aan:

1. als max{1, i− αh} = i− αh (en dus max{0, j − αh} = j − αh):

(j − i + 1)

h(h− (j − i− αh + 1)2 + (j − i− αh + 1)(j − i + 2)

−(j − i + 2)(j − i + 3

2)

3),

2. als max{1, i− αh} = 1 en max{0, j − αh} = j − αh:

(j − αh)

h(h− i2 + i(j − αh + 1)−

(j − αh + 1)(j − αh + 12)

3),

3. als max{1, i− αh} = 1 en max{0, j − αh} = 0: 0.

En is λ3 gelijk aan:

1. als min{G, j + αh} = j + αh (en dus min{G + 1, i + αh} = i + αh):

(j − i + 1)

h(h− (j − i− αh + 1)2 + (j − i− αh + 1)(j − i + 2)

−(j − i + 2)(j − i + 3

2)

3),

2. als min{G, j + αh} = G en min{G + 1, i + αh} = i + αh:

(G− i− αh + 1)

h(h− (j − i− αh + 1)2+

(j − i− αh + 1)(G− i− αh + 2)−(G− i− αh + 2)(G− i− αh + 3

2)

3),

3. als min{G, j + αh} = G en min{G + 1, i + αh} = G + 1: 0.

65

Page 68: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Bewijs. Voor de bovengrens weten we dat als i + αh ≤ j − αh:

G∑k=1

K|i−k|K|j−k| ≤ αh

d i−1αh

−1e∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h +i+αh∑

k=i−αh

K|i−k|e− (j−i−αh)2

h

+2αh

d j−i−22αh

−1e∑k=1

e−(kαh+1)2

h e−(i−j+(k+1)αh+1)2

h +

j+αh∑k=j−αh

K|j−k|e− (i−j+αh)2

h

+αh

dG−jαh

−1e∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h

≤ max{0, d i− 1

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h +i+αh∑

k=i−αh

K|i−k|e− (j−i−αh)2

h

+2 max{0, dj − i− 2

2αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(i−j+(β+2)αh+1)2

h

+2αh

min{β,d j−i−22αh

−1e}∑k=1

e−(kαh+1)2

h e−(i−j+(k+1)αh+1)2

h +

j+αh∑k=j−αh

K|j−k|e− (i−j+αh)2

h

+ max{0, dG− j

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+αh

min{β,dG−jαh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h .

Invullen van∑i+αh

k=i−αh K|i−k| en∑j+αh

k=j−αh K|j−k| met Lemma 3 en gebruiken dat (i − j +

αh)2 = (−(i− j + αh))2 = (j − i− αh)2 geeft ons nu de gegeven bovengrens.

66

Page 69: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Als j − αh < i + αh veranderen alleen de middelste drie intervallen een beetje:

G∑k=1

K|i−k|K|j−k| ≤ αh

d i−1αh

−1e∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h +

j−αh∑k=i−αh

K|i−k|e− (j−i−αh)2

h

+i+αh−1∑

k=j−αh+1

K|i−k|K|j−k| +

j+αh∑k=i+αh

K|j−k|e− (i−j+αh)2

h

+αh

dG−jαh

−1e∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h

≤ max{0, d i− 1

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h +

j−αh∑k=i−αh

K|i−k|e− (j−i−αh)2

h

+i+αh−1∑

k=j−αh+1

K|i−k|K|j−k| +

j+αh∑k=i+αh

K|j−k|e− (i−j+αh)2

h

+ max{0, dG− j

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h e−(j−i+(β+1)αh+1)2

h

+αh

min{β,dG−jαh

−1e}∑k=1

e−(kαh+1)2

h e−(j−i+kαh+1)2

h .

Invullen van∑j−αh

k=i−αh K|i−k| =∑j+αh

k=i+αh K|j−k| = α5

10h3 +(α4

4− α3

3)h2 +(α3

6− α2

2+α)h+(1−

α6)− α

60h+j−i−αh− (j−i−αh)3

3h− (j−i−αh)2

2h− j−i−αh

6h+ (j−i−αh)5

10h2 + (j−i−αh)4

4h2 + (j−i−αh)3

6h2 − j−i−αh60h2

(Lemma 7) en gebruiken dat (i− j + αh)2 = (−(i− j + αh))2 = (j − i−αh)2 geeft ons nude gegeven bovengrens.

67

Page 70: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Voor de ondergrens weten we dat als i + αh ≤ j − αh:

G∑k=1

K|i−k|K|j−k| ≥ αh

b i−1αh

−1c∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h +

min{G,i+αh}∑k=max{1,i−αh}

K|i−k|e− (j−i+αh)2

h

+2αh

b j−i−22αh

−1c∑k=1

e−((k+1)αh+1)2

h e−(i−j+kαh+1)2

h +

min{G,j+αh}∑k=max{1,j−αh}

K|j−k|e− (i−j−αh)2

h

+αh

bG−jαh

−1c∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h

≥ αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h

+

min{G,i+αh}∑k=max{1,i−αh}

K|i−k|e− (j−i+αh)2

h

+2αh

min{β,b j−i−22αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(i−j+kαh+1)2

h

+

min{G,j+αh}∑k=max{1,j−αh}

K|j−k|e− (i−j−αh)2

h

+αh

min{β,bG−jαh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h .

Merk op dat omdat i + αh ≤ j − αh, moet gelden dat min{G, i + αh} = i + αh en

max{1, j −αh} = j −αh. Invullen van∑min{G,i+αh}

k=max{1,i−αh} K|i−k| en∑min{G,j+αh}

k=max{1,j−αh} K|j−k| met

Lemma 4 en gebruiken dat (i− j + αh)2 = (−(i− j + αh))2 = (j − i− αh)2 geeft ons nude gegeven ondergrens.

Als j − αh < i + αh veranderen ook nu alleen de middelste drie intervallen een beetje:

68

Page 71: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

G∑k=1

K|i−k|K|j−k| ≥ αh

b i−1αh

−1c∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h +

max{0,j−αh}∑k=max{1,i−αh}

K|i−k|e− (j−i+αh)2

h

+

min{G,i+αh−1}∑k=max{1,j−αh+1}

K|i−k|K|j−k| +

min{G,j+αh}∑k=min{G+1,i+αh}

K|j−k|e− (i−j−αh)2

h

+αh

bG−jαh

−1c∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h

≥ αh

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h

+

max{0,j−αh}∑k=max{1,i−αh}

K|i−k|e− (j−i+αh)2

h +

min{G,i+αh−1}∑k=max{1,j−αh+1}

K|i−k|K|j−k|

+

min{G,j+αh}∑k=min{G+1,i+αh}

K|j−k|e− (i−j−αh)2

h

+αh

min{β,bG−jαh

−1c}∑k=1

e−((k+1)αh+1)2

h e−(j−i+(k+1)αh+1)2

h .

Om de gegeven ondergrens te krijgen, gebruiken we ook nu weer dat (i − j + αh)2 =(−(i− j + αh))2 = (j − i− αh)2. Bovendien gebruiken we dat

j−αh∑k=i−αh

K|i−k| =

j+αh∑k=i+αh

K|j−k| ≥j+αh∑

k=i+αh

(1− (j − k)2

h)

=

j−i+1∑k=1

(1− (j − i− αh + 1− k)2

h)

=1

h

j−i+1∑k=1

(h− (j − i− αh + 1)2 + 2(j − i− αh + 1)k − k2).

Daarnaast gebruiken we ook dat

1∑k=j−αh

K|i−k| ≥j−αh∑

k=i−αh

(1− (i− k)2

h) =

1

h

j−αh∑k=1

(h− i2 + 2ik − k2)

69

Page 72: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

en datG∑

k=i+αh

K|j−k| ≥G∑

k=i+αh

(1− (j − k)2

h)

=G−i−αh+1∑

k=1

(1− (j − i− αh + 1− k)2

h)

=1

h

G−i−αh+1∑k=1

(h− (j − i− αh + 1)2 + 2(j − i− αh + 1)k − k2).

Invullen van deze sommaties met Lemma 1 geeft ons nu de gegeven ondergrens van∑j−αhk=max{1,i−αh} K|i−k| +

∑min{G,j+αh}k=i+αh K|j−k| in elk van de vier gevallen.

Bewijzen uit Hoofdstuk 3

Bewijzen uit Sectie 3.3

In deze sectie zullen we twee lemma’s bewijzen die we in Sectie 3.3 gegeven hebben.

Lemma 16. Een bovengrens van de som∑G

j=1 eθK|i−j| is

max{0, i− γ − 1}+ max{0, G− (i + γ)}+ θ(

i−γ−1∑j=1

K|i−j| +G∑

j=i+γ+1

K|i−j|)

+θ2 eθe−γ2

h

2(

i−γ−1∑j=1

K2|i−j| +

G∑j=i+γ+1

K2|i−j|) +

min{i+αh,G}∑j=max{1,i−αh}

eθK|i−j|

Bewijs. Om deze bovengrens te bewijzen, hebben we eerst de Taylorbenadering van (eθ)x

rondom het punt x = 0 nodig. In Sectie 2.1 zagen we al dat (eθ)x = 1 + θx + R1(x), met

R1(x) = θ2eθξx2

2en 0 < ξ < x ≤ e−

γ2

h . Hiermee volgt dat:

1 + θx +θ2x2

2< eθx < 1 + θx +

θ2x2

2eθx ≤ 1 + θx +

θ2x2

2eθe−

γ2

h .

Wanneer we dit combineren met de sommatie∑G

j=1 eθK|i−j| , zien we dat:

i−γ−1∑j=1

eθK|i−j| ≤i−γ−1∑j=1

1 + θK|i−j| + θ2K2|i−j|

eθe−γ2

h

2

= max{0, i− γ − 1}+ θ

i−γ−1∑j=1

K|i−j| + θ2 eθe−γ2

h

2

i−γ−1∑j=1

K2|i−j|

(4.2)

70

Page 73: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

en

G∑j=i+γ+1

eθK|i−j| ≤G∑

j=i+γ+1

1 + θK|i−j| + θ2K2|i−j|

eθe−γ2

h

2

= max{0, G− (i + γ)}+ θ

G∑j=i+γ+1

K|i−j| + θ2 eθe−γ2

h

2

G∑j=i+γ+1

K2|i−j|.

(4.3)

De sommatie

min{i+γ,G}∑j=max{1,i−γ}

eθK|i−j| (4.4)

laten we ongewijzigd. Dit is het stuk waar K|i−j| niet zeer dicht bij 0 ligt.

Deze grens kunnen we nog verder afschatten, zodat we de sommatie van 1 tot G kwijtraken. Hiervoor gebruiken we de afschattingen die we al kennen uit Hoofdstuk 2.

Lemma 17. Een bovengrens van de som∑G

j=1 eθK|i−j| is

max{0, i− αh− 1}+ max{0, G− (i + αh)}+

min{i+αh,G}∑j=max{1,i−αh}

eθK|i−j|

+θαh(max{0, d i− 1

αh− (β + 1)e}e−

((β+1)αh+1)2

h +

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h

+ max{0, dG− i

αh− (β + 1)e}e−

((β+1)αh+1)2

h +

min{β,dG−iαh

−1e}∑k=1

e−(kαh+1)2

h )

+θ2 eθe−αh

2αh(max{0, d i− 1

αh− (β + 1)e}e−

2((β+1)αh+1)2

h +

min{β,d i−1αh

−1e}∑k=1

e−2(kαh+1)2

h

+ max{0, dG− i

αh− (β + 1)e}e−

2((β+1)αh+1)2

h +

min{β,dG−iαh

−1e}∑k=1

e−2(kαh+1)2

h ).

Bewijs. Naast de bovengrens uit Lemma 3.4 weten we ook dat

i−γ−1∑j=1

K|i−j| +G∑

j=i+γ+1

K|i−j| =G∑

j=1

K|i−j| −i+γ∑

j=i−γ

K|i−j|

71

Page 74: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

en dati−γ−1∑j=1

K2|i−j| +

G∑j=i+γ+1

K2|i−j| =

G∑j=1

K2|i−j| −

i+γ∑j=i−γ

K2|i−j|.

Als we nu γ = αh kiezen, kunnen we eenvoudig de afschattingen uit Hoofdstuk 2 toepassen.Dan is immers

∑i+γj=i−γ K|i−j| =

∑i+αhj=i−αh K|i−j| en

∑i+γj=i−γ K2

|i−j| =∑i+αh

j=i−αh K2|i−j|, die we

beiden al kennen. Merk op dat α niet meer kleiner hoeft te zijn dan√

h. Deze eis haddenwe immers opgelegd omdat we gebruik maakten van de Taylorbenadering, maar het stukvan de benadering dat we nu in gaan vullen, bevat de Taylorbenadering niet.Met behulp van Lemma 2.4 zien we nu dat nu:

i−γ−1∑j=1

K|i−j| +G∑

j=i+γ+1

K|i−j| ≤

max{0, d i− 1

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h + αh

min{β,d i−1αh

−1e}∑k=1

e−(kαh+1)2

h

+ max{0, dG− i

αh− (β + 1)e}αhe−

((β+1)αh+1)2

h + αh

min{β,dG−iαh

−1e}∑k=1

e−(kαh+1)2

h .

En evenzo zien we met Lemma 2.5 dat:

i−γ−1∑j=1

K2|i−j| +

G∑j=i+γ+1

K2|i−j| ≤

max{0, d i− 1

αh− (β + 1)e}αhe−

2((β+1)αh+1)2

h + αh

min{β,d i−1αh

−1e}∑k=1

e−2(kαh+1)2

h

+ max{0, dG− i

αh− (β + 1)e}αhe−

2((β+1)αh+1)2

h + αh

min{β,dG−iαh

−1e}∑k=1

e−2(kαh+1)2

h .

Samen met vergelijking (4.4) vormt dit de gegeven bovengrens.

72

Page 75: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Appendix B

In deze Appendix zullen we eerst een programma geven waarmee de computer in staatis om de grenzen uit Hoofdstuk 2 uit te rekenen. In Sectie 4 is vervolgens te zien hoenauwkeurig de benaderingen zijn voor verschillende waarden van i, j, h, a en b. Bovendienis in deze Sectie ook te lezen hoeveel tijd het de computer kost om de benaderingen uit terekenen en om de echte karakterisaties uit te rekenen.

Programma om de grenzen uit Hoofdstuk 2 te bereke-

nen

Met onderstaand programma kunnen we de grenzen uit Hoofdstuk 2 met Matlab berekenen:function [somKbovengrens, somKondergrens, somKKbovengrens, somKKondergrens,somKiKjbovengrens, somKiKjondergrens]= grenzen(G,n,h,a,b,i,j)

if i>jl=i;i=j;j=lendsomKboven1=0;for k=1:min(b,ceil((i-1)/(a*h)-1));somKboven1 = somKboven1 + exp(-((k*a*h+1)ˆ2)/h);endsomKboven1;

somKboven2=0;for k=1:min(b,ceil((G-i)/(a*h)-1));somKboven2 = somKboven2 + exp(-((k*a*h+1)ˆ2)/h);endsomKboven2;

somKbovengrens=max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1 + ((aˆ5)/5)*(hˆ3) + ((aˆ4)/2 -(2*aˆ3)/3)*(hˆ2)+ ((aˆ3)/3-aˆ2+2*a)*h +(1-(a/3))-(a/(30*h))+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2;

somKonder1=0;for k=1:(min(b,floor((i-1)/(a*h)-1)));somKonder1 = somKonder1 + exp(-(((k+1)*a*h+1)ˆ2)/h);endsomKonder1;

somKonder2=0;for k=1:(min(b,floor((G-i)/(a*h)-1)));somKonder2 = somKonder2 + exp(-(((k+1)*a*h+1)ˆ2)/h);endsomKonder2;

if min(G,i+a*h)==(i+a*h)if max(1,i-a*h)==(i-a*h)somKondergrens= a*h*somKonder1+ 1- 1/3*a+(2*a -aˆ2)*h -(2/3)*(aˆ3)*(hˆ2)+ a*h*somKonder2;elsesomKondergrens= a*h*somKonder1+ i+a*h-(a*(a*h+1)*(a*h+(1/2)))/3-((i-1)*i*(i-(1/2)))/(3*h)+ a*h*somKonder2;endelsesomKondergrens= a*h*somKonder1+ G-i+a*h+1 - (a*(a*h+1)*(a*h+(1/2)))/3-((G-i)*(G-i+1)*(G-i+(1/2)))/(3*h)+ a*h*somKonder2;end

73

Page 76: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

somKjonder1=0;for k=1:(min(b,floor((j-1)/(a*h)-1)));somKjonder1 = somKjonder1 + exp(-(((k+1)*a*h+1)ˆ2)/h);endsomKjonder1;

somKjonder2=0;for k=1:(min(b,floor((G-j)/(a*h)-1)));somKjonder2 = somKjonder2 + exp(-(((k+1)*a*h+1)ˆ2)/h);endsomKjonder2;

if min(G,j+a*h)==(j+a*h)if max(1,j-a*h)==(j-a*h)somKjondergrens= a*h*somKjonder1+ 1- 1/3*a+(2*a -aˆ2)*h -(2/3)*(aˆ3)*(hˆ2)+ a*h*somKjonder2;elsesomKjondergrens= a*h*somKjonder1+ j+a*h-(a*(a*h+1)*(a*h+(1/2)))/3-((j-1)*j*(j-(1/2)))/(3*h)+ a*h*somKjonder2;endelsesomKjondergrens= a*h*somKjonder1+ G-j+a*h+1 - (a*(a*h+1)*(a*h+(1/2)))/3-((G-j)*(G-j+1)*(G-j+(1/2)))/(3*h)+ a*h*somKjonder2;end

somKKboven1=0;for k=1:(min(b,ceil((i-1)/(a*h)-1)));somKKboven1 = somKKboven1 + exp(-2*((k*a*h+1)ˆ2)/h);endsomKKboven1;

somKKboven2=0;for k=1:(min(b,ceil((G-i)/(a*h)-1)));somKKboven2 = somKKboven2 + exp(-2*((k*a*h+1)ˆ2)/h);endsomKKboven2;

somKKbovengrens=max(0,ceil((i-1)/(a*h)-(b+1))) * a * h * exp(-2*(((b+1)*a*h+1)ˆ2)/h) + a * h * somKKboven1 + (2*(aˆ5))/5*(hˆ3)+ (aˆ4-(4*aˆ3/3))*(hˆ2) +((2*aˆ3/3)-2*aˆ2+2*a)*h+(1-(2*a/3))-(a/(15*h))+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2;

somKKonder1=0;for k=1:(min(b,floor((i-1)/(a*h)-1)));somKKonder1 = somKKonder1 + exp(-2*(((k+1)*a*h+1)ˆ2)/h);endsomKKonder1;

somKKonder2=0;for k=1:(min(b,floor((G-i)/(a*h)-1)));somKKonder2 = somKKonder2 + exp(-2*(((k+1)*a*h+1)ˆ2)/h);endsomKKonder2;

if min(G,i+a*h)==(i+a*h)if max(1,i-a*h)==(i-a*h)somKKondergrens= a*h*somKKonder1+1-(2/3)*a+(2*a -2*(aˆ2))*h -(4/3)*(aˆ3)*(hˆ2)+ a*h*somKKonder2;elsesomKKondergrens= a*h*somKKonder1+i+a*h-(2*a*(a*h+1)*(a*h+(1/2)))/3 -(2*(i-1)*i*(i-(1/2)))/(3*h)+a*h*somKKonder2;endelsesomKKondergrens= a*h*somKKonder1+G-i+a*h+1-(2*a*(a*h+1)*(a*h+(1/2)))/3-(2*(G-i)*(G-i+1)*(G-i+(1/2)))/(3*h)+ a*h*somKKonder2;end

somKiKjboven1=0;for k=1:(min(b,ceil((i-1)/(a*h)-1)));somKiKjboven1 = somKiKjboven1 + exp(-((k*a*h+1)ˆ2)/h)*exp((-(j-i+k*a*h+1)ˆ2)/h);endsomKiKjboven1;

somKiKjboven2=0;for k=1:(min(b,ceil((j-i-2)/(2*a*h)-1)));somKiKjboven2 = somKiKjboven2 + exp(-((k*a*h+1)ˆ2)/h)*exp((-(i-j+(k+1)*a*h+1)ˆ2)/h);endsomKiKjboven2;

somKiKjboven3=0;for k=1:(min(b,ceil((G-j)/(a*h)-1)));somKiKjboven3 = somKiKjboven3 + exp(-((k*a*h+1)ˆ2)/h)*exp((-(j-i+k*a*h+1)ˆ2)/h);end

74

Page 77: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

somKiKjboven3;

somKiKjbovenII=0;for k=(j-a*h+1):(i+a*h-1);somKiKjbovenII = somKiKjbovenII + (1-((i-k)ˆ2)/h+(aˆ4)*(hˆ2)/2)*(1-((j-k)ˆ2)/h+(aˆ4)*(hˆ2)/2);endsomKiKjbovenII;

if i+a*h<j-a*h+1somKiKjbovengrens=(max(0,ceil((i-1)/(a*h)-(b+1)))-max(0,ceil((G-j)/(a*h)-(b+1))))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)*exp((-(j-i+(b+1)*a*h+1)ˆ2)/h)+ a*h*somKiKjboven1 + 2*(((aˆ5)/5)*(hˆ3) + ((aˆ4)/2 -(2*aˆ3)/3)*(hˆ2) + ((aˆ3)/3-aˆ2+2*a)*h+(1-(a/3))-(a/(30*h)))*exp((-(j-i-a*h)ˆ2)/h)+ 2*a*h*max(0,ceil((j-i-2)/(2*a*h)-(b+1)))*exp(-((b+1)*a*h+1)/h)*exp((-(i-j+(b+2)*a*h+1)ˆ2)/h)+2*a*h*somKiKjboven2 + a*h*somKiKjboven3;elsesomKiKjbovengrens=(max(0,ceil((i-1)/(a*h)-(b+1)))-max(0,ceil((G-j)/(a*h)-(b+1))))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)*exp((-(j-i+(b+1)*a*h+1)ˆ2)/h)+ a*h*somKiKjboven1 + somKiKjbovenII+2*(((aˆ5)/10)*(hˆ3) + ((aˆ4)/4 -(aˆ3)/3)*(hˆ2) +((aˆ3)/6-(aˆ2)/2+a)*h +(1-(a/6))-(a/(60*h))+j-i-a*h-((j-i-a*h)ˆ3)/(3*h)-((j-i-a*h)ˆ2)/(2*h)-(j-i-a*h)/(6*h)+((j-i-a*h)ˆ5)/(10*hˆ2)+((j-i-a*h)ˆ4)/(4*hˆ2)+((j-i-a*h)ˆ3)/(6*hˆ2)-(j-i-a*h)/(60*hˆ2))*exp((-(j-i-a*h)ˆ2)/h)+ a*h*somKiKjboven3;end

somKiKjonder1=0;for k=1:(min(b,floor((i-1)/(a*h)-1)));somKiKjonder1 = somKiKjonder1 + exp(-(((k+1)*a*h+1)ˆ2)/h)*exp((-(j-i+(k+1)*a*h+1)ˆ2)/h);endsomKiKjonder1;

somKiKjonder2=0;for k=1:(min(b,floor((j-i-2)/(2*a*h)-1)));somKiKjonder2 = somKiKjonder2 + exp(-(((k+1)*a*h+1)ˆ2)/h)*exp((-(i-j+k*a*h+1)ˆ2)/h);endsomKiKjonder2;

somKiKjonder3=0;for k=1:(min(b,floor((G-j)/(a*h)-1)));somKiKjonder3 = somKiKjonder3 + exp(-(((k+1)*a*h+1)ˆ2)/h)*exp((-(j-i+(k+1)*a*h+1)ˆ2)/h);endsomKiKjonder3;

somKiKjonderII=0;for k=(max(j-a*h+1,1):min(i+a*h-1,G));somKiKjonderII = somKiKjonderII + (1-((i-k)ˆ2)/h)*(1-((i-k)ˆ2)/h);endsomKiKjonderII;

if i+a*h<j-a*h+1if max(1,i-a*h)==(i-a*h)somKiKjonderi= 1- 1/3*a+(2*a -aˆ2)*h -(2/3)*(aˆ3)*(hˆ2);elsesomKiKjonderi=i+a*h - (a*(a*h+1)*(a*h+(1/2)))/3 -((i-1)*i*(i-(1/2)))/(3*h);end

if min(G,j+a*h)==(j+a*h)somKiKjonderj= 1- 1/3*a+(2*a -aˆ2)*h -(2/3)*(aˆ3)*(hˆ2);elsesomKiKjonderj=G-j+a*h+1 - (a*(a*h+1)*(a*h+(1/2)))/3-((G-j)*(G-j+1)*(G-j+(1/2)))/(3*h);end

somKiKjondergrens= a*h*somKiKjonder1 + (somKiKjonderi+somKiKjonderj)*exp((-(j-i+a*h)ˆ2)/h)+2*a*h*somKiKjonder2+ a*h*somKiKjonder3;elseif max(1,i-a*h)==(i-a*h)somKiKjonderi=(j-i+1)/h*(h-(j-i-a*h+1)ˆ2+(j-i-a*h+1)*(j-i+2)-(j-i+2)*(j-i+3/2)/3);elseif max(0,j-a*h)==(j-a*h)somKiKjonderi= (j-a*h)/h*(h-iˆ2+i*(j-a*h+1)-(j-a*h+1)*(j-a*h+1/2)/3);elsesomKiKjonderi=0endend

if min(G,j+a*h)==(j+a*h)somKiKjonderj= (j-i+1)/h*(h-(j-i-a*h+1)ˆ2+(j-i-a*h+1)*(j-i+2)-(j-i+2)*(j-i+3/2)/3);elseif min(G+1,i+a*h)==(i+a*h)somKiKjonderj=(G-i-a*h+1)/h*(h-(j-i-a*h+1)ˆ2+(j-i-a*h+1)*(G-i-a*h+2)-(G-i-a*h+2)*(G-i-a*h+3/2)/3);elsesomKiKjonderj=0;endend

somKiKjondergrens= a*h*somKiKjonder1 + (somKiKjonderi+somKiKjonderj)*exp((-(j-i+a*h)ˆ2)/h)+somKiKjonderII + a*h*somKiKjonder3;end

75

Page 78: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Verwachtingboven=(somKbovengrens)*n/G;Verwachtingonder=(somKondergrens)*n/G;Variantieboven=(somKKbovengrens)*n/G-(somKondergrens)ˆ2*n/(Gˆ2);Variantieonder=somKKondergrens*n/G-(somKbovengrens)ˆ2*n/(Gˆ2);Covariantieboven=somKiKjbovengrens*n/G-(somKondergrens)*(somKjondergrens)*n/(Gˆ2);Covariantieonder=somKiKjondergrens*n/G-(somKbovengrens)ˆ2*n/(Gˆ2);

end

76

Page 79: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

De nauwkeurigheid van de benaderingen uit Hoofd-

stuk 2 en de rekentijd voor de computer

Nu we een programma hebben, waarmee we de benaderingen van de verwachting, de va-riantie en de covariantie kunnen uitrekenen, willen we ook weten hoe nauwkeurig dezebenaderingen zijn en hoeveel tijdwinst ze ons opleveren.We hebben in de inleiding gesteld dat n = 104 en G = 3 · 109. In de eerste tabel stellen webovendien dat i = 50000 en j = 50000+4. Nu laten we de benaderingen voor verschillendewaarden van h, α en β uitrekenen door de computer.

Tabel 1: De nauwkeurigheid van de benaderingen en de rekentijd voor verschillende waarden van h, α en βh 100 900α 1/10 1/20 1/50 1/100 1/30 1/150 1/450 1/900β 30 60 150 300 10 50 150 300

R1 14 20 42 76 14 18 41 76

R2 1.4391 · 10−5 1.0463 · 10−5 3.1383 · 10−6 1.1083 · 10−12 4.9731 · 10−5 1.6071 · 10−5 3.3112 · 10−6 1.5237 · 10−15

R3 1.3934 · 10−5 1.3119 · 10−5 9.0531 · 10−6 6.4056 · 10−6 4.0727 · 10−5 2.1819 · 10−5 9.8896 · 10−6 6.6371 · 10−6

R4 2.8385 · 10−7 7.6022 · 10−6 2.9420 · 10−6 6.5808 · 10−10 5.0223 · 10−6 1.5476 · 10−5 3.2890 · 10−6 1.1070 · 10−11

R5 2.3101 · 10−5 9.2756 · 10−6 8.2063 · 10−6 6.1554 · 10−6 6.2021 · 10−5 2.0416 · 10−5 9.7805 · 10−6 6.6077 · 10−6

R6 5.8053 · 10−5 1.6454 · 10−5 9.0515 · 10−6 1.7732 · 10−6 1.8295 · 10−4 1.6626 · 10−5 6.9722 · 10−6 3.1365 · 10−6

R7 4.1965 · 10−6 9.4874 · 10−6 7.0197 · 10−6 8.9272 · 10−6 1.6754 · 10−5 1.9822 · 10−5 6.6857 · 10−6 9.8620 · 10−6

Tabel 1: De nauwkeurigheid van de benaderingen en de rekentijd voor verschillende waarden van h, α en β(vervolg)h 2500 4900α 1/50 1/500 1/1250 1/2500 1/70 1/700 1/2450 1/4900β 6 60 150 300 5 50 150 300

R1 18 19 40 75 24 18 39 73

R2 8.5254 · 10−5 1.3206 · 10−5 3.3253 · 10−6 1.4331 · 10−12 1.2080 · 10−4 1.9870 · 10−5 7.6246 · 10−5 8.2499 · 10−5

R3 6.7539 · 10−5 1.9651 · 10−5 9.9601 · 10−6 6.6560 · 10−6 9.4354 · 10−5 2.6235 · 10−5 9.9796 · 10−6 6.6612 · 10−6

R4 1.0597 · 10−5 1.3078 · 10−5 3.3173 · 10−6 9.3055 · 10−12 1.6213 · 10−5 1.9653 · 10−5 3.3252 · 10−6 1.6017 · 10−11

R5 1.0106 · 10−4 1.9310 · 10−5 9.9204 · 10−6 6.6454 · 10−6 1.4011 · 10−4 2.5812 · 10−5 9.9593 · 10−6 6.6558 · 10−6

R6 3.1066 · 10−4 1.3446 · 10−5 6.7779 · 10−6 3.2617 · 10−6 4.3852 · 10−4 1.9876 · 10−5 6.7236 · 10−6 3.2967 · 10−6

R7 2.9716 · 10−5 1.9169 · 10−5 6.6726 · 10−6 9.9497 · 10−6 4.2432 · 10−5 2.5603 · 10−5 6.6695 · 10−6 9.9743 · 10−6

Tabel 1: De nauwkeurigheid van de benaderingen en de rekentijd voor verschillende waarden van h, α en β(vervolg)h 10000 16900α 1/100 1/1000 1/5000 1/10000 1/130 1/1300 1/8450 1/16900β 5 50 250 500 6 60 300 600

R1 32 19 63 120 41 21 73 141

R2 1.7414 · 10−4 2.9805 · 10−5 3.4341 · 10−6 1.1366 · 10−7 2.2748 · 10−4 3.9692 · 10−5 7.8613 · 10−6 4.8638 · 10−6

R3 1.3458 · 10−4 3.6107 · 10−5 9.9900 · 10−6 6.6640 · 10−6 1.7480 · 10−4 4.5977 · 10−5 9.9941 · 10−6 6.6651 · 10−6

R4 2.4659 · 10−5 2.9518 · 10−5 3.3293 · 10−6 3.3993 · 10−11 3.3116 · 10−5 3.9384 · 10−5 3.3309 · 10−6 5.7738 · 10−11

R5 1.9870 · 10−4 3.5557 · 10−5 9.9801 · 10−6 6.6614 · 10−6 2.5729 · 10−4 4.5298 · 10−5 9.9882 · 10−6 6.6636 · 10−6

R6 6.3033 · 10−4 2.9622 · 10−5 6.6946 · 10−6 3.3154 · 10−6 8.2215 · 10−4 3.9421 · 10−5 6.6832 · 10−6 3.3227 · 10−6

R7 6.1300 · 10−5 3.5307 · 10−5 6.6680 · 10−6 9.9874 · 10−6 8.0055 · 10−5 4.5030 · 10−5 6.6675 · 10−6 9.9925 · 10−6

R1 = De totale tijd die het de computer kostte om de benaderingen te berekenen (·10−5 sec)

R2 = Het verschil tussen de bovengrens van EDi en de werkelijke waarde

R3 = Het verschil tussen de ondergrens van EDi en de werkelijke waarde

R4 = Het verschil tussen de bovengrens van VarDi en de werkelijke waarde

R5 = Het verschil tussen de ondergrens van VarDi en de werkelijke waarde

R6 = Het verschil tussen de bovengrens van Cov(Di, Dj) en de werkelijke waarde

R7 = Het verschil tussen de ondergrens van Cov(Di, Dj) en de werkelijke waarde

In de tweede tabel kiezen we h = 2500, α = 1500

en β = 60. Nu laten we i en j varieren:

Tabel 2: De nauwkeurigheid van de benaderingen en de rekentijd voor verschillende waarden van i en j

i 5 5 · 105 3 · 109 − 15

j 9 5 · 105 + 4 3 · 109 − 11 9 5 · 105 + 4 3 · 109 − 11 9 5 · 105 + 4 3 · 109 − 11

R1 12 15 11 15 20 17 11 17 13

R2 9.903 · 10−6 9.903 · 10−6 9.903 · 10−6 1.323 · 10−5 1.321 · 10−5 1.320 · 10−5 1.323 · 10−5 1.321 · 10−5 7.111 · 10−6

R3 9.826 · 10−6 9.826 · 10−6 9.825 · 10−6 1.963 · 10−5 1.965 · 10−5 1.965 · 10−5 1.963 · 10−5 1.965 · 10−5 1.070 · 10−5

R4 9.806 · 10−6 9.806 · 10−6 9.806 · 10−6 1.312 · 10−5 1.308 · 10−5 1.308 · 10−5 1.312 · 10−5 1.308 · 10−5 7.507 · 10−6

R5 9.655 · 10−6 9.655 · 10−6 9.655 · 10−6 1.927 · 10−5 1.931 · 10−5 1.931 · 10−5 1.927 · 10−5 1.931 · 10−5 1.130 · 10−5

R6 1.025 · 10−5 1.569 · 10−12 1.688 · 10−14 1.216 · 10−12 3.003 · 10−5 3.983 · 10−12 1.687 · 10−13 3.568 · 10−12 3.572 · 10−5

R7 9.780 · 10−6 3.320 · 10−13 3.320 · 10−13 4.825 · 10−13 1.917 · 10−5 7.977 · 10−13 4.825 · 10−13 7.977 · 10−13 1.349 · 10−5

77

Page 80: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

R1 = De totale tijd die het de computer kostte om de benaderingen te berekenen (·10−5 sec)

R2 = Het verschil tussen de bovengrens van EDi en de werkelijke waarde

R3 = Het verschil tussen de ondergrens van EDi en de werkelijke waarde

R4 = Het verschil tussen de bovengrens van VarDi en de werkelijke waarde

R5 = Het verschil tussen de ondergrens van VarDi en de werkelijke waarde

R6 = Het verschil tussen de bovengrens van Cov(Di, Dj) en de werkelijke waarde

R7 = Het verschil tussen de ondergrens van Cov(Di, Dj) en de werkelijke waarde

78

Page 81: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Programma om de bovengrens van P(Di > z) uit Hoofd-

stuk 3 te berekenen

Met onderstaand programma kunnen we de bovengrens van P(Di > z) uit Hoofdstuk 3 metMatlab berekenen. Bovendien berekent het de nauwkeurigheid van de grens ten opzichtevan de grens uit Lemma 3.3.

function [grensboven]=infimumbepalen(z,h,i,a,b)G=3*10ˆ9;n=10000;

somKboven1=0;for k=1:(min(b,ceil((i-1)/(a*h)-1)));somKboven1 = somKboven1 + exp(-((k*a*h+1)ˆ2)/h);end

somKboven2=0;for k=1:(min(b,ceil((G-i)/(a*h)-1)));somKboven2 = somKboven2 + exp(-((k*a*h+1)ˆ2)/h);end

somKKboven1=0;for k=1:(min(b,ceil((i-1)/(a*h)-1)));somKKboven1 = somKKboven1 + exp(-2*((k*a*h+1)ˆ2)/h);end

somKKboven2=0;for k=1:(min(b,ceil((G-i)/(a*h)-1)));somKKboven2 = somKKboven2 + exp(-2*((k*a*h+1)ˆ2)/h);end

if z>ngrensboven=0;else

if z>250syms tsommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

fdeelboven=max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein;f=fdeelboven*exp(-t*z/n);ft=diff(f,t);

infimumligtbij=solve(ft);

elset=1;sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));endg=exp(-t*z/n)*(-z/n*(max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein)+ (max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+a*h*somKboven2)+((tˆ2)*exp(-a*h)+2*t)z*exp(t*exp(-a*h))*(a*h/2)*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein);

infimumligtbij=controleerheel(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein);end

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% nu komt er een stuk waarmee we de grens zelf uitrekenen%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

t=infimumligtbij;

sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

79

Page 82: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

inffdeelboven=max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein;

infimumvanf=inffdeelboven*exp(-t*z/n);grensboven=(infimumvanf/G)ˆn

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% het laatste stukje van het programma gebruiken we om de nauwkeurigheid van de bovengrens te bekijken%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

somKonder1=0;for k=1:(min(b,floor((i-1)/(a*h)-1)));somKonder1 = somKonder1 + exp(-(((k+1)*a*h+1)ˆ2)/h);end

somKonder2=0;for k=1:(min(b,floor((G-i)/(a*h)-1)));somKonder2 = somKonder2 + exp(-(((k+1)*a*h+1)ˆ2)/h);end

somKKonder1=0;for k=1:(min(b,floor((i-1)/(a*h)-1)));somKKonder1 = somKKonder1 + exp(-2*(((k+1)*a*h+1)ˆ2)/h);end

somKKonder2=0;for k=1:(min(b,floor((G-i)/(a*h)-1)));somKKonder2 = somKKonder2 + exp(-2*(((k+1)*a*h+1)ˆ2)/h);end

infimumfdeelonder= max(0,i-a*h-1)+max(0,G-i-a*h)+t*(a*h*somKonder1+ a*h*somKonder2)+(tˆ2)/2*(a*h*somKKonder1+ a*h*somKKonder2)+sommgfklein;infimumfonder=infimumfdeelonder*exp(-t*z/n)

grensbovenonder=(infimumfonder/G)ˆngrensfout=grensboven-grensbovenonder

end

end

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% hier volgen nog vier functies die we voor bovenstaand programma nodig hebben%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

function [t]=controleerheel(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein)

if g<0t=t+1;

sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

g=exp(-t*z/n)*(-z/n*(max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein)+ (max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+((tˆ2)*exp(-a*h)+2*t)*exp(t*exp(-a*h))*(a*h/2)*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein);

[t]=controleerheel(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein);

elset=t-9/10;

sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

g=exp(-t*z/n)*(-z/n*(max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein)+ (max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+((tˆ2)*exp(-a*h)+2*t)*exp(t*exp(-a*h))*(a*h/2)*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein);

[t]=controleertiende(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein);

end

80

Page 83: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

end

function [t]=controleertiende(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein)

if g<0t=t+1/10;

sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

g=exp(-t*z/n)*(-z/n*(max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein)+ (max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+((tˆ2)*exp(-a*h)+2*t)*exp(t*exp(-a*h))*(a*h/2)*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein);

[t]=controleertiende(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein);

elset=t-9/100;

sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

g=exp(-t*z/n)*(-z/n*(max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein)+ (max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+((tˆ2)*exp(-a*h)+2*t)*exp(t*exp(-a*h))*(a*h/2)*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein);

[t]=controleerhonderdste(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein);

end

end

function [t]=controleerhonderdste(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein)

if g<0t=t+1/100;

sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

g=exp(-t*z/n)*(-z/n*(max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein)+ (max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+((tˆ2)*exp(-a*h)+2*t)*exp(t*exp(-a*h))*(a*h/2)*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein);

[t]=controleerhonderdste(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein);

elset=t-9/1000;

sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

g=exp(-t*z/n)*(-z/n*(max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein)+ (max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+((tˆ2)*exp(-a*h)+2*t)*exp(t*exp(-a*h))*(a*h/2)*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein);

[t]=controleerduizendste(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein);

81

Page 84: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

end

end

function [t]=controleerduizendste(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein)

if g<0t=t+1/1000;

sommgfklein=0;for k=max(1,i-a*h):min(i+a*h,G)sommgfklein=sommgfklein+exp(t*exp(-(i-k)ˆ2/h));end

g=exp(-t*z/n)*(-z/n*(max(0,i-a*h-1)+max(0,G-i-a*h)+t*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h) + a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+(tˆ2)*(exp(t*exp(-a*h)))/2*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+ max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein)+ (max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKboven2)+((tˆ2)*exp(-a*h)+2*t)*exp(t*exp(-a*h))*(a*h/2)*(max(0,ceil((i-1)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven1+max(0,ceil((G-i)/(a*h)-(b+1)))*a*h*exp(-2*(((b+1)*a*h+1)ˆ2)/h)+ a*h*somKKboven2)+sommgfklein);

[t]=controleerduizendste(t,g,z,h,i,a,b,G,n,somKboven1,somKboven2,somKKboven1,somKKboven2,sommgfklein);

elseinfimumligtbij=t;

end

end

82

Page 85: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

De nauwkeurigheid van de benaderingen uit Hoofd-

stuk 3 en de rekentijd voor de computer

Met het programma uit de vorige sectie kunnen we een bovengrens voor P(Di > z) uitre-kenen. We willen echter ook weten hoe nauwkeurig deze berekening is, ten opzichte van deChernoff grens uit Lemma 3.3 en hoe snel het programma is.In het programma is te zien dat we ook een ondergrens berekenen van de som1

Gn (infθ>0

∑Gj=1 eθ(K|i−j|− z

n))n. Deze ondergrens hebben we gevonden door de methode uit

Sectie 3.3 toe te passen op de som∑G

j=1 eθK|i−j| .Dit geeft ons het volgende lemma:

Lemma 18. Een ondergrens van de som∑G

j=1 eθK|i−j| is

max{0, i− αh− 1}+ max{0, G− (i + αh)}+

min{i+αh,G}∑j=max{1,i−αh}

eθK|i−j|

+θαh(

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h +

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h )

+θ2

2αh(

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h +

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h ).

Nu we een ondergrens van deze som kennen, kunnen we ook een ondergrens opstellen van1

Gn (infθ>0

∑Gj=1 eθ(K|i−j|− z

n))n:

Lemma 19. Een ondergrens van 1Gn (infθ>0

∑Gj=1 eθ(K|i−j|− z

n))n, waarin geen sommatie van

1 tot G voorkomt, is

1

Gn(infθ>0

e−θ zn · (max{0, i− αh− 1}+ max{0, G− (i + αh)}

+

min{i+αh,G}∑j=max{1,i−αh}

eθK|i−j| + θαh(

min{β,b i−1αh

−1c}∑k=1

e−((k+1)αh+1)2

h +

min{β,bG−iαh

−1c}∑k=1

e−((k+1)αh+1)2

h )

+θ2

2αh(

min{β,b i−1αh

−1c}∑k=1

e−2((k+1)αh+1)2

h +

min{β,bG−iαh

−1c}∑k=1

e−2((k+1)αh+1)2

h )))n.

Het programma berekent nu, onder andere, het verschil tussen de grens in Lemma 3.6en in Lemma 19. Dit zullen we in onderstaande tabellen de onnauwkeurigheid noemen.Bovendien nemen we in onderstaande voorbeelden β = 100.

83

Page 86: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Tabel 3: De nauwkeurigheid van de benadering en de rekentijd, als i = 5

z h α rekentijd (·10−3 sec) waarde bovengrens onnauwkeurigheid

1

9001 6.5313 1.1728 · 10−4 0

1/9 1.2813 1.1727 · 10−4 4.6964 · 10−12

1/90 0.8906 1.0578 · 10−4 1.7014 · 10−7

25001 12.2656 1.7502 · 10−4 0

1/25 1.5781 1.7496 · 10−4 1.0287 · 10−8

1/100 1.2500 1.6924 · 10−4 4.8763 · 10−7

5

9001 6.4375 5.2559 · 10−24 0

1/9 1.5625 5.2560 · 10−24 2.4537 · 10−31

1/90 1.5781 3.5459 · 10−24 7.5019 · 10−27

25001 13.1250 3.7264 · 10−23 0

1/25 1.8438 3.7259 · 10−23 2.6043 · 10−27

1/100 1.2969 3.3376 · 10−23 1.2807 · 10−25

300

9001/3 1.5258 · 105 4.1612 · 10−1948 0

1/9 1.9781 · 104 4.1612 · 10−1948 2.5696 · 10−1955

1/90 1.4375 · 103 0.2481 · 10−1952 8.9771 · 10−1956

25001/10 1.0559 · 105 8.9322 · 10−1899 1.2800 · 10−1911

1/25 1.7594 · 104 8.9330 · 10−1899 8.6179 · 10−1903

1/100 2.2344 · 103 1.0780 · 10−1899 7.1950 · 10−1902

Tabel 4: De nauwkeurigheid van de benadering en de rekentijd, als i = 5 · 105

z h α rekentijd (·10−3 sec) waarde bovengrens onnauwkeurigheid

1

9001 12.3281 1.6157 · 10−4 0

1/9 2.1250 1.6151 · 10−4 1.2525 · 10−11

1/90 1.3750 1.3689 · 10−4 4.1986 · 10−7

25001 19.6094 2.7819 · 10−4 0

1/25 2.7500 2.7789 · 10−4 3.0997 · 10−8

1/100 1.0781 2.6492 · 10−4 1.3985 · 10−6

5

9001 13.0469 2.2632 · 10−23 0

1/9 2.6719 2.2626 · 10−23 2.0600 · 10−30

1/90 1.3125 1.1918 · 10−23 4.8491 · 10−26

25001 34.8125 3.3192 · 10−22 0

1/25 3.0469 3.3170 · 10−22 4.4429 · 10−26

1/100 1.6563 2.8166 · 10−22 2.0127 · 10−24

300

9001/3 1.0925 · 105 3.7093 · 10−1917 0

1/9 3.1531 · 104 3.7093 · 10−1917 4.5146 · 10−1924

1/90 2.1094 · 103 6.6451 · 10−1926 4.6869 · 10−1928

25001/10 1.0714 · 105 2.9972 · 10−1848 8.3799 · 10−1861

1/25 4.1625 · 104 2.9977 · 10−1848 5.6262 · 10−1852

1/100 6.0313 · 103 1.1766 · 10−1849 1.4964 · 10−1851

Tabel 5: De nauwkeurigheid van de benadering en de rekentijd, als i = 3 ∗ 109 − 15

z h α rekentijd (·10−3 sec) waarde bovengrens onnauwkeurigheid

1

9001 6.4375 1.5790 · 10−4 0

1/9 1.9063 1.5788 · 10−4 6.1358 · 10−12

1/90 1.4844 1.3671 · 10−4 4.1941 · 10−7

25001 7.9844 2.4644 · 10−4 0

1/25 1.6719 2.4636 · 10−4 1.3934 · 10−8

1/100 0.9688 2.4011 · 10−4 6.4786 · 10−7

5

9001 6.3594 2.1094 · 10−23 0

1/9 1.6875 2.1094 · 10−23 9.6138 · 10−31

1/90 1.2813 1.1899 · 10−23 4.8406 · 10−26

25001 17.4219 2.0597 · 10−22 0

1/25 2.5938 2.0591 · 10−22 1.3922 · 10−26

1/100 0.7969 1.8893 · 10−22 6.8543 · 10−25

300

9001/3 1.1956 · 105 1.0191 · 10−1917 0

1/9 1.1703 · 104 1.0191 · 10−1917 6.2034 · 10−1925

1/90 1.0000 · 103 6.6271 · 10−1926 4.6732 · 10−1928

25001/10 8.0984 · 104 1.9758 · 10−1855 2.7713 · 10−1867

1/25 1.6656 · 104 1.9759 · 10−1855 1.8613 · 10−1859

1/100 2.4219 · 103 3.7083 · 10−1856 2.3788 · 10−1858

In bovenstaande tabellen zien we dat we α = 19

kunnen kiezen als h = 900 en α = 125

alsh = 2500, om een waarde te krijgen die zeer dicht bij de Chernoff-grens ligt. Bovendien isde berekening zeer snel voor z = 1 en z = 5. Voor z = 300 heeft de computer ruim 1000keer zoveel tijd nodig om de grens te berekenen. Dit komt door de twee methoden die wein het programma toepassen. Voor waarden van z < 250 gebruiken we een methode diezeer snel blijkt te zijn. Voor waarden van z ≥ 250 gebruiken we een andere methode omte bepalen waar de afgeleide functie g(θ) = 0. Voor deze methode heeft de computer meertijd nodig.

84

Page 87: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

Programma om te toetsen

Wanneer we waarden voor h, α en β kiezen, kunnen we met onderstaand programma, hetvorige programma en de dataset die “inserties” heet, de kans P (Di > di) berekenen vooralle basenparen 1 ≤ i ≤ 2654911517, waar een insertie heeft plaats gevonden. Merk op datwe hiervoor wel in het vorige programma n = 20053 (het totaal aantal inserties dat heeftplaatsgevonden) in plaats van n = 10000 moeten gebruiken.Bovendien kunnen we met dit programma bepalen voor welke waarden van i, het “gewogenaantal inserties” di groter dan een gekozen grenswaarde is en wat de kans op deze waardenvan di is. Hiermee kunnen we de “clusters van pieken”bestuderen.function [inserties en kansen]=toetsen(h,a,b,onbetrouwbaarheidsniveau)

load inserties

G=2654911517;plaats van insertie=abdel;

totaal aantal inserties=length(plaats van insertie);

aantal insterties op deze plaats=zeros(1,totaal aantal inserties);

i=1;while i¡=totaal aantal insertiesaantal insterties op deze plaats(i)=1;j=i+1;while j¡=totaal aantal insertiesif plaats van insertie(j)-plaats van insertie(i)==0aantal insterties op deze plaats(i)=aantal insterties op deze plaats(i)+1;j=j+1;else j=totaal aantal inserties + 1;endendi=i+aantal insterties op deze plaats(i);end

plaats en aantal inserties=[];for i=1:totaal aantal insertiesif aantal insterties op deze plaats(i)==0else plaats en aantal inserties=[plaats en aantal inserties;plaats van insertie(i),aantal insterties op deze plaats(i)];endend

aantal insertieplaatsen=length(plaats en aantal inserties);

bar plaats en aantal inserties=[];for l=1:aantal insertieplaatseni=plaats en aantal inserties(l,1);bar d i=0;for k=1:aantal insertieplaatsen plaats=plaats en aantal inserties(k,1);if plaats¿=max(1,i-b)if plaats¡=min(i+b,G)bar d i = bar d i + plaats en aantal inserties(k,2)*exp(-(i-plaats)ˆ2/h);endendendbar plaats en aantal inserties=[bar plaats en aantal inserties;plaats en aantal inserties(l),bar d i];end

grenswaardelijn=(1-onbetrouwbaarheidsniveau)*ones(aantal insertieplaatsen,1);x1=bar plaats en aantal inserties(:,1);y1=[bar plaats en aantal inserties(:,2),grenswaardelijn];

plot(x1,y1)

inserties en kansen=[];

for k=1:aantal insertieplaatsenkans=infimumbepalen(bar plaats en aantal inserties(k,2),h,bar plaats en aantal inserties(k,1),a,b);plaats=bar plaats en aantal inserties(k,1); extra=[plaats,kans];inserties en kansen=[inserties en kansen;extra];end

grenswaardelijn=(1-onbetrouwbaarheidsniveau)*ones(aantal insertieplaatsen,1);x2=inserties en kansen(:,1);y2=[inserties en kansen(:,2),grenswaardelijn]

plot(x2,y2)

85

Page 88: Statistische analyse van inserties in het genoom van muizen · Het genoom bevat precies ´e´en complete set chromosomen en daarmee al het erfelijk materi-aal. Het bestaat uit een

x=[];for z=(0:1000)/10000x=[x,z];end

for z=(100:1500)/1000x=[x,z];end

for z=(15:50)/10x=[x,z];end

for z=5:200x=[x,z];end

y=[];for z=(0:1000)/10000grensboven=infimumbepalen(z,h,i,a,b);y=[y,(1-grensboven)];end

for z=(100:1500)/1000grensboven=infimumbepalen(z,h,i,a,b);y=[y,(1-grensboven)];end

for z=(15:50)/10grensboven=infimumbepalen(z,h,i,a,b);y=[y,(1-grensboven)];end

for z=5:200grensboven=infimumbepalen(z,h,i,a,b);y=[y,(1-grensboven)];end

k=1;test=y(k);while test ¡ (1-onbetrouwbaarheidsniveau)k=k+1;test=y(k);end

grenswaarde=x(k);y=[y;(1-onbetrouwbaarheidsniveau)*ones(1,length(y))];plot(x,y)

veel=[];k=1;while k¡aantal insertieplaatsenif bar plaats en aantal inserties(k,2)¿grenswaardeveel=[veel;bar plaats en aantal inserties(k,1),bar plaats en aantal inserties(k,2)];endk=k+1;end

inserties en kansen=[];for k=1:length(veel)kans=infimumbepalen(veel(k,2),h,veel(k,1),a,b);plaats=veel(k,1);extra=[plaats,kans];inserties en kansen=[inserties en kansen;extra];end

grenswaardelijn=(1-onbetrouwbaarheidsniveau)*ones(length(veel inserties en kansen(:,1)),1);x3=veel inserties en kansen(:,1);y3=[veel inserties en kansen(:,2),grenswaardelijn]

plot(x3,y3)

end

86