De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal...

38
De Statistische Analyse van Netwerken Rodel van Rooijen 15 juli 2014 Bachelorscriptie Begeleiding: prof. dr. J.H. (Harry) van Zanten Korteweg-De Vries Instituut voor Wiskunde Faculteit der Natuurwetenschappen, Wiskunde en Informatica Universiteit van Amsterdam

Transcript of De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal...

Page 1: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

De Statistische Analyse van Netwerken

Rodel van Rooijen

15 juli 2014

Bachelorscriptie

Begeleiding: prof. dr. J.H. (Harry) van Zanten

Korteweg-De Vries Instituut voor Wiskunde

Faculteit der Natuurwetenschappen, Wiskunde en Informatica

Universiteit van Amsterdam

Page 2: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Samenvatting

Het modelleren van netwerken zorgt voor het beter be-grijpen van veel dingen in ons hedendaags leven. Zon-der er vaak kennis van te hebben bevinden dit soortnetwerken zich overal om ons heen. Het bestuderenvan netwerken verbreedt bijvoorbeeld ons begrip vanhet internet, transportnetwerken, sociale netwerken ende verspreiding van ziektes. In deze scriptie wordendaarom een aantal statistische netwerkmodellen be-handeld en zal in het bijzonder gefocust worden opeen netwerkmodel namelijk het exponentiele randomgraaf model. Verder zullen er statistische methodengebruikt worden om het model toe te kunnen passenin de praktijk. Een van deze methoden gebruikt eenzogenaamd Monte Carlo Markovketen algoritme datzelfs in de meest gecompliceerde gevallen een benade-ring kan geven van de ware parameters van het mo-del. Na het behandelen van deze methoden voor hetalgemene model zal er nog een praktische toepassinggegeven worden.

Titel: De Statistische Analyse van NetwerkenAuteur: Rodel van Rooijen, [email protected],10184023Begeleiding: prof. dr. J.H. (Harry) van ZantenEinddatum: 15 juli 2014

Korteweg-De Vries Instituut voor WiskundeUniversiteit van AmsterdamScience Park 904, 1098 XH Amsterdamhttp://www.science.uva.nl/math

2

Page 3: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Inhoudsopgave

1. Inleiding 4

2. Een introductie tot netwerken 62.1. Wat is een netwerk? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1. Sociale netwerken . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.2. Informatienetwerken . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2. Waarom bestuderen we netwerken? . . . . . . . . . . . . . . . . . . . . . . 10

3. Grafentheorie en de exponentiele familie van verdelingen 123.1. Grafentheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2. De exponentiele familie van verdelingen . . . . . . . . . . . . . . . . . . . 13

3.2.1. De meest aannemelijke schatter . . . . . . . . . . . . . . . . . . . . 14

4. Netwerk modellen 174.1. Het Erdos-Renyi-Gilbert random graaf model . . . . . . . . . . . . . . . . 174.2. Het stochastische blokmodel . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.2.1. Gegroepeerde netwerken . . . . . . . . . . . . . . . . . . . . . . . . 184.3. Het exponentiele random graaf model . . . . . . . . . . . . . . . . . . . . 20

5. Maximum likelihood op het exponentiele random graaf model 225.1. De Monte Carlo Markovketen . . . . . . . . . . . . . . . . . . . . . . . . . 225.2. De benadering van de meest aannemelijke schatter . . . . . . . . . . . . . 23

5.2.1. Het benaderen van de log-likelihood functie . . . . . . . . . . . . . 235.2.2. Het genereren van een steekproef . . . . . . . . . . . . . . . . . . . 255.2.3. De normalisatiefactor . . . . . . . . . . . . . . . . . . . . . . . . . 27

5.3. Convergentie naar evenwicht . . . . . . . . . . . . . . . . . . . . . . . . . 27

6. Een toepassing van het exponentiele random graaf model 296.1. Het complexe hersennetwerk model . . . . . . . . . . . . . . . . . . . . . . 29

7. Conclusie 32

Bibliografie 33

A. Appendix 35

B. Populaire samenvatting 38

3

Page 4: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

1. Inleiding

Sinds ik begonnen ben aan mijn studie wiskunde aan de Universiteit van Amsterdam(UvA) ligt mijn interesse vooral bij de stochastiek (kansrekening en statistiek). In heteerste jaar was er tevens een vak dat ging over grafentheorie dat mij erg aansprak. Toenik een scriptie onderwerp moest kiezen wilde ik allereerst gaan kijken of ik iets mettoegepaste stochastiek kon doen. Al snel werd ik in de richting van prof. dr. Harryvan Zanten gestuurd en niet zonder succes, al snel stelde hij mij een onderwerp voor datging over netwerken. In dit onderwerp zou ik de stochastiek en de grafentheorie perfectkunnen combineren en zelfs in toegepaste zin, daarmee was mijn keuze snel gemaakt.Niet alleen dit maakt het een heel interessant onderwerp, want er valt namelijk veel overte zeggen.

Netwerken liggen aan het fundament van de hedendaagse samenleving, bijvoorbeeldhet sociale netwerk Facebook en het internet in de vorm van het World Wide Webhebben een prominente positie ingenomen. Allereerst zullen we in het kort de volgendevraag beantwoorden: ”Wat is een netwerk?”. In hoofstuk 2 zal deze vraag in detailbeantwoordt worden, kort gezegd is een netwerk een verbonden geheel waar vaak mensenof dingen centraal staan.

Voorbeelden van netwerken die onmisbaar zijn in ons dagelijks leven zijn bijvoorbeeldde sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld. Het bestuderen van dit soortnetwerken zou dus kunnen helpen bij het beter begrijpen van veel aspecten die deeluitmaken van ons dagelijks leven. Maar niet alleen netwerken die we vaak tegenko-men zijn interessant om te bestuderen. Netwerken van de verspreiding van ziektes enmarketingmodellen zijn andere voorbeelden die tevens interessant zijn om te bekijken.

In hoofdstuk 2 en 3 zullen we zien dat in het algemeen netwerken weergegeven kunnenworden als grafen. Bij het bekijken van netwerken bekijken we dus eigenlijk de achter-liggende netwerkgraaf. In een netwerkgraaf representeren de punten entiteiten of dingenin een netwerk en zijn de relaties tussen punten gegeven door de lijnen van de graaf. Alswe netwerken bestuderen bekijken dus eigenlijk de achterliggende grafen.

Een manier om deze netwerken te bestuderen is door gebruik te maken van statistischemodellen. In een statistisch model zoeken we een formele representatie van een onderlig-gend stochastisch proces. Dit wordt vaak gedaan door een model te selecteren in de vormvan een kansverdeling en dan door middel van observaties de parameter(s) in het modelschatten. Deze methode van modelleren geeft de mogelijkheid om algemene eigenschap-pen te bekijken van netwerken zoals de verbondenheid en clustering van een netwerk.

4

Page 5: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Een andere reden waarom het voor de hand ligt om voor een statistische benadering tekiezen is, omdat al bestaande statistische methoden en technieken dan toegepast kun-nen worden. De modellen die bekeken gaan worden liggen op het grensgebied van degrafentheorie en de stochastiek en worden vaak random graaf modellen genoemd. Hetrandom aan deze grafen is dat deze afhankelijk zijn van een kansverdeling. In hoofdstuk3 zal er allereerst een stuk theorie behandeld worden dat nodig is om in hoofdstuk 4voorbeelden te geven van dit soort statistische netwerkmodellen.

In deze scriptie zullen we een netwerkmodel in detail gaan behandelen namelijk hetexponentiele random graaf model. De benadering van de ware parameter(s) in hetmodel is niet in alle gevallen even makkelijk en daarom zal er in hoofstuk 5 een methodegegeven worden om deze toch in alle gevallen te kunnen benaderen. In de praktijkwordt dit model veel toegepast en daarom zal er een praktische toepassing van hetmodel behandeld worden in hoofdstuk 6. Deze scriptie wordt daarna afgesloten met eenterugblik en eventueel verdere onderzoeksmogelijkheden.

Verder wil ik nog mijn begeleider Harry van Zanten hartelijk bedanken voor het voor-stellen van dit interessante onderwerp en zijn inbreng in deze scriptie.

Rodel van Rooijen

juli 2014

5

Page 6: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

2. Een introductie tot netwerken

Ter introductie zullen we in dit hoofdstuk een paar kernvragen rond netwerken behan-delen zoals: ”Wat is een netwerk?”, ”Welke soorten netwerken zijn er?” en ”Waarombestuderen we netwerken?”. Voordat we namelijk kunnen beginnen met het analyserenvan netwerken zullen we eerst moeten bekijken wat het begrip netwerk precies inhoudt.Om daarna een beter begrip te krijgen waar deze netwerken voorkomen zullen we deze incategorien verdelen en zullen er voorbeelden gegeven worden. We beantwoorden tevensde vraag waarom het bekijken van deze netwerken zo interessant is.

2.1. Wat is een netwerk?

Een netwerk is een geheel van verbonden punten waarbij deze punten opgevat kunnenworden als entiteiten of dingen. In een netwerk zijn twee punten verbonden met el-kaar als er een connectie bestaat tussen deze punten. Deze connecties hebben vaakverschillende betekenissen, bij mensen zijn bijvoorbeeld de connecties vaak van socialeaard. Indien er gekeken word naar bijvoorbeeld webpagina’s zijn de connecties vaakvan informatieve aard, daarom zullen we in het vervolg onderscheid gaan maken tussenverschillende soorten connecties. In het bijzonder kunnen netwerken in verschillendecategorien worden opgedeeld aan de hand van de betekenis van de connecties in eennetwerk. In dit hoofdstuk worden in het bijzonder twee categorien bekeken en wordendeze met voorbeelden geıllustreerd. Toch zijn deze categorien niet bindend en kunnennetwerken in verschillende categorien simultaan voorkomen.

2.1.1. Sociale netwerken

Een interessante voor de hand liggende categorie van netwerken om te bekijken zijn desociale netwerken, deze bevinden zich namelijk overal om ons heen. In een sociaal net-werk gaat het vooral om de sociale interactie tussen mensen en soms tussen dieren. Eeneenvoudig voorbeeld van een sociaal netwerk is een vriendschapsnetwerk, waarbij mensenin een netwerk verbonden zijn als er een vriendschapsrelatie bestaat. Andere voorbeel-den van sociale netwerken naast vriendschapsrelaties zijn bijvoorbeeld handelsverdragen,co-auteurschap in wetenschappelijke artikelen en de alliantie tussen bedrijven.

Onderzoek naar sociale netwerken wordt al sinds omstreeks 1930 [8] gedaan en de ont-wikkeling van de sociogram wordt vaak gezien als het startpunt. Een sociogram is een

6

Page 7: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

visuele weergave van een sociaal netwerk in de vorm van een graaf. Uiteraard zijn nietalleen deze netwerken weer te geven als graaf en daarom zullen we later zien dat ditvoor elk netwerk mogelijk is. Een klassiek voorbeeld van een onderzoek dat gedaan isnaar sociale netwerken is het Small-World Problem [9]. In dit experiment moest eenbrief verzonden worden naar een specifiek persoon onder de regel dat de brief alleendoorgestuurd mocht worden naar kennissen. Als resultaat werd bevonden dat de ketenvan kennissen tussen twee mensen een mediaan heeft van zes. Dit onderzoek is in 2011herhaald met de beschikbare data van het online sociale netwerk Facebook [10] en leverdeeen gemiddelde op van 3.74 vrienden tussen twee mensen op het netwerk. Netwerkenhoeven uiteraard niet altijd een grote omvang te hebben, er bestaan ook kleinschaligerenetwerken die bestudeerd zijn daarom bekijken we nu het volgende voorbeeld.

Voorbeeld 2.1 (Zachary’s ’karate club’ netwerk [11]). Aangezien een netwerk bestaatuit een verzameling van punten en connecties kan een netwerk weergegeven worden alseen graaf, connecties kunnen gezien worden als lijnen tussen punten. In dit voorbeeldworden de vriendschappen in kaart gebracht binnen een karate club en weergegeven alsgraaf.

Figuur 2.1.: Het karatenetwerk weergegeven als graaf.

De verschillende vormen van de punten staan voor de subgroepen die zich vormen rond

7

Page 8: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

persoon a1 en persoon a34. De connecties binnen de graaf staan voor vriendschappentussen twee personen. De kleuren blauw en rood geven respectievelijk de connecties aanbinnen de bovenste en onderste subgroep en de kleur geel geeft de connectie aan tus-sen personen van verschillende subgroepen. In volgende hoofdstukken zullen methodesbekeken worden om grafen van netwerken te modelleren.

Wellicht een bekender voorbeeld in de wetenschappelijke wereld is het volgende voor-beeld.

Voorbeeld 2.2 (Erdosgetal). Een bekender voorbeeld van een sociaal netwerk is hetnetwerk gebaseerd op het Erdosgetal. Dit Erdosgetal geeft de samenwerkingsafstand inwetenschappelijke artikelen tussen een auteur en Erdos en is gedefinieerd als volgt

• Paul Erdos zelf heeft Erdosgetal 0,

• Het Erdosgetal van elke andere auteur X is 1 hoger dan het kleinste Erdosgetalvan alle auteurs met wie X ooit een artikel heeft gepubliceerd,

• Indien geen van de auteurs met wie X ooit een artikel heeft gepubliceerd, eeneindig Erdosgetal heeft, heeft het Erdosgetal van X een waarde van oneindig.

Door middel van dit Erdosgetal en het netwerk dat zich hierdoor vormt wordt dus alsware het netwerk van co-auteurschap vastgelegd met als startpunt Paul Erdos zelf.

2.1.2. Informatienetwerken

We leven in een tijd waarbij het verkrijgen van informatie een belangrijke rol speelt.Een van de belangrijkste en meest gebruikte bronnen van informatie is het internet, ietspreciezer benoemd is dit het World Wide Web (WWW). In het netwerk dat ontstaan isdoor het WWW zijn de punten gegeven door webpagina’s en de connecties door referen-tie’s tussen deze pagina’s. In zijn geheel is het WWW een zeer groot informatienetwerken wel een van de grootste informatienetwerken dat vandaag de dag bestaat. Toch is ditniet het enige informatienetwerk dat interessant is om te bekijken en zijn deze net alsde sociale netwerken overal te vinden. Vooral na de komst van het internet zijn er veelandere nieuwe informatienetwerken in het leven geroepen.

Zoals eerder gezegd zijn de informatienetwerken voortgekomen uit het internet niet deenige netwerken in deze categorie. Andere voorbeelden zijn netwerken die semantischerelatie’s tussen woorden aangeven (synoniemen, antonumen, etc.), netwerken van cita-tie’s tussen wetenschappelijke artikelen en ook behoren de netwerken van co-auteurschapvan wetenschappelijke artikelen tot deze categorie. We zien dus dat deze categorien nietstrict zijn aangezien het laatste voorbeeld ook in de categorie sociale netwerken geplaatstkon worden.

Onderzoeken die gedaan zijn naar informatienetwerken gaan vaak over de structuurvan het netwerk, zoals welk punt verbonden is door het meeste aantal lijnen. Bijbeho-rende vragen zijn bijvoorbeeld: ”Welke webpagina heeft wordt het meest gerefereerd?”

8

Page 9: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

of ”Welke wiskundige artikel is het meest geciteert?”. Andere onderzoeken gaan vaakover het in kaart brengen van informatienetwerken, wat in de meeste gevallen een nietgemakkelijke taak is gezien de omvang van sommige netwerken.

Voorbeeld 2.3 (Peer-to-peernetwerken). Een peer-to-peernetwerk is een informatienet-werk waarin computers direct met elkaar verbonden zijn zonder dat een centrale serverhiervoor nodig is. Belangrijke voorbeelden van peer-to-peernetwerken zijn de uitwisse-lingsnetwerken waarbij gratis en anoniem bestanden gedeeld kunnen worden over hetinternet.

Een van de grootste en meest gebruikte uitwisselingsnetwerken ontstaan door het internetis BitTorrent. In 2009 was BitTorrent verantwoordelijk voor ongeveer 43% tot 70% [12]van al het internetverkeer afhankelijk van geografische locatie.

Een ander voorbeeld van een peer-to-peernetwerk is het netwerk ontstaan door het com-putervirus ZeuS. In dit netwerk werden computers voornamelijk onvrijwillig geınfecteerdmet het virus dat ervoor zorgde dat die computers op afstand overgenomen konden wor-den. In een onderzoek [13] dat gedaan is naar dit niet meer bestaande netwerk is eengraaf gegenereerd die het netwerk weergeeft.

Figuur 2.2.: De graaf van het ZeuSnetwerk.

De blauwe punten staan voor geınfecteerde computers en de groene lijnen geven eenpeer-to-peer connectie aan tussen twee punten.

9

Page 10: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Overige categorien van netwerken zijn de biologische netwerken en de technologischenetwerken. Met voorbeelden zoals het netwerk van de verspreiding van een virus in eenpopulatie als biologisch netwerk en een elektriciteitsnetwerk als technologisch netwerk.In het laatste hoofdstuk zal een toepassing behandeld worden van een model waarbij hetnetwerk valt binnen de biologische netwerken.

2.2. Waarom bestuderen we netwerken?

De interessante vraag is nu: ”Waarom willen we netwerken bekijken?”. Voordat wenetwerken gaan modelleren zullen we eerst deze vraag beantwoorden. Om een beterinzicht te krijgen in welke context netwerken zo interessant zijn zullen we wederomverschillende deelgebieden bekijken.

De sociale wetenschappen zijn vaak geınteresseerd in de interpretatie van de connectiesbinnen een sociaal netwerk. Wat achterhaald wilt worden is of deze ontstaan uit vriend-schap, strategische overwegingen, gedwongen of wellicht een andere relatie? Een grootdeel van de literatuur in sociale wetenschappen is daarom gewijd aan het modelleren vande sociale netwerken en het testen van hypotheses om netwerk structuur te achterhalen.

In de zogenaamde machine learning community worden netwerken vaak gebruikt omnog niet acherhaalde informatie te voorspellen zoals ontbrekende connecties binnen eennetwerk. Andere toepassingen zijn het vinden van een missende connectie in een bedrijfof terroristisch netwerk en bijvoorbeeld het berekenen van de kans dat een klant eenproduct koopt gegeven de aankopen van zijn vrienden. Het laatste voorbeeld kan brederopgevat worden en is te zien als het voorspellen van de voorkeuren van een individuaan de hand van gegevens van vrienden van dit individu. Een recente toepassing vandeze vorm van netwerk analyse is onder de aandacht gebracht door het bedrijf Netflix[14] dat online films en series aanbiedt. Het bedrijf heeft namelijk een prijs van eenmiljoen dollar uitgekeerd aan een groep onderzoekers die konden voorspellen hoe filmsbeoordeeld gingen worden meer dan 10% nauwkeuriger hun eigen systemen zelf konden.

Niet alleen in deze vakgebied worden netwerken gebruikt om dingen te voorspellen. Inde computationele biologie worden netwerken bijvoorbeeld gebruikt om HIV infectiesbinnen een populatie te voorspellen en de verspreiding van virussen te modelleren.

Waar netwerken ook een belangrijke rol hebben is in het vinden van verborgen groepen.Dit soort worden netwerken worden bestudeerd om bijvoorbeeld terroristische cellente vinden in een samenleving. Netwerken worden dus in veel vakgebieden bekeken enhebben een belangrijke rol in het voorspellen en beantwoorden van vragen die opkomenals groepen mensen of dingen bekeken worden.

Toch is niet alleen de link van netwerken met de werkelijkheid interessant. Netwerkenzijn ook wiskundig interessant, namelijk ”Wat gebeurd er met een netwerk als het aantalpunten naar oneindig gaat?” is een wiskundig interessante vraag. En ”Wat is de beste

10

Page 11: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

manier om een netwerk te modelleren?” is nog zo’n vraag. Er zijn dus genoeg toepas-singen, maar in elk van deze vakgebieden is het analyseren van netwerken niet mogelijkzonder de wiskundige modellen. In de volgende hoofdstukken moet dus eerst allereersthet wiskundig fundament gelegd voordat er naar toepassingen gekeken kan worden.

11

Page 12: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

3. Grafentheorie en de exponentielefamilie van verdelingen

Voordat er een begin gemaakt kan worden met behandelen van netwerkmodellen moeter eerst een stuk theorie opgebouwd worden. In dit hoofdstuk zal daarom de benodigdevoorkennis gegeven worden. Er zal terminologie en notatie ingevoerd worden om de graafvan een netwerk precies te definieren en ook zullen eigenschappen behandeld worden vande exponentiele familie van verdelingen die nodig zijn voor het model dat behandeld zalworden in sectie 4.3.

3.1. Grafentheorie

Een netwerk kan zoals eerder genoemd weergegeven worden als een graaf, daarom zalnotatie en terminologie worden ingevoerd om dit precies te maken. In de grafentheoriebestaat een graaf (netwerk) G uit punten en lijnen G ≡ G (N , E), waarbij N de verza-meling van punten voorstelt en E de verzameling van lijnen. Het aantal punten is dangegeven door N = |N | en h““tal lijnen is E = |E|. In het algemeen wordt G vaak gedefi-nieerd in termen van de connecties tussen paren punten. De verzameling van connectiesY ′ wordt vaak uitgedrukt in een matrix Y van grootte N ×N . Deze matrix wordt ookwel de verbindingsmatrix genoemd en is gedefinieerd als volgt.

Definitie 3.1 (De verbindingsmatrix). Stel we bekijken de graaf G ≡ G (N , E) vandeze graaf labelen we de punten uit N met de nummers 1, 2, . . . , N . Dan is het element(entry) op de i-de rij en j-de kolom van de verbindingsmatrix gegeven door

Yij =

{1 als de punten i en j verbonden zijn0 anders.

In het vervolg van deze scriptie beschouwen we alleen niet-gerichte grafen, waarbij hetniet-gerichte aanduidt dat de lijnen geen orientatie hebben dat wil zeggen dat de lijnvanuit het punt i naar j precies hetzelfde voorstelt als de lijn vanuit j naar i. Als dan ineen graaf i een connectie heeft met j geeft dit aan dat j ook een connectie heeft met i.Het aantal lijnen van een niet-gerichte graaf kan dus worden berekend aan de hand vande volgende uitdrukking

∑i<j Yij en volgt uit de symmetrie van de verbindingsmatrix.

Immers in een niet-gerichte graaf heeft de entry Yij dezelfde waarde als de entry Yji.

12

Page 13: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Voorbeeld 3.2 (Gelabelde graaf met verbindingsmatrix). Een eenvoudig voorbeeld omde voorgaande definitie te illustreren is met de volgende graaf.

Figuur 3.1.: Een voorbeeld graaf met bijbehorende verbindingsmatrix.

Naast de graaf is de bijbehorende verbindingsmatrix gegeven. Alle diagonaalelementenvan de verbindingsmatrix zijn nul, omdat er in een netwerk geen connectie tot zichzelfbestaat.

3.2. De exponentiele familie van verdelingen

Definitie 3.3. Laat X een random variabele zijn met verdeling uit de parametrischefamilie van verdelingen {Pθ | θ ∈ Θ} waarbij Θ ⊆ R. Waarbij de parameterverzamelingkomt uit R = R ∪ {±∞} en is het dus ook mogelijk dat de parameter de waarde ±∞aanneemt. De familie van verdelingen {Pθ | θ ∈ Θ} behoort dan tot de een-parameterexponentiele familie als de dichtheden p(x | θ) = pθ(x) voldoen aan

pθ(x) = eη(θ)T (x)−ψ(η(θ))h(x),

waarbij T (x), η(θ), ψ (η (θ)) en h(x) ≥ 0 allen reeelwaardige functies zijn.

Voorbeeld 3.4 (De Bernoulli verdeling). Stel X is Bernoulli(α) (alternatief) verdeeldmet α ∈ (0, 1). Om nu te laten zien dat de Bernoulli(α) verdeling behoort tot de familievan exponentiele verdelingen zullen we de dichtheid omschrijven. Er geldt nu dat

pα(x) = αx(1− α)1−x

= exp{

log(αx(1− α)1−x

)}= exp {x log (α) + (1− x) log (1− α)}

= exp

{x log

1− α

)+ log (1− α)

}= exp

{xη(α)− log

(1 + eη(α)

)}.

Volgens de voorgaande definitie geldt nu met T (x) = x, η(α) = log(

α1−α

), ψ(η(α)) =

log(1 + eη(α)

)en h(x) = 1 dat er aan alle voorwaarden voldaan is. Dus behoort deze

verdeling tot de een-parameter exponentiele familie met parameter θ = α.

13

Page 14: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Definitie 3.5 (De s-parameter exponentiele familie). Stel wederom dat X een randomvariabele is met verdeling uit {Pθ | θ ∈ Θ} waarbij Θ ⊆ Rs. Zij θ nu een vector vanparameters θ = (θ1, θ2, . . . , θs)

t. Dan behoort de familie van verdelingen {Pθ | θ ∈ Θ}tot de s-parameter exponentiele familie als de dichtheden voldoen aan

pθ(x) = exp

{s∑i=1

ηi(θ)Ti(x)− ψ(η(θ))

}h(x)

= exp{η(θ)tT (x)− ψ(η(θ))

}h(x)

waarbij T (x) = (T1(x), . . . , Ts(x))t en η(θ) = (η1(θ), . . . , ηs(θ))t. En waarbij Ti(x), ηi(θ),

ψ(η(θ)) en h(x) ≥ 0 met i ∈ {1, 2, . . . , s} allen reeelwaardige functies zijn.

Definitie 3.6 (De kanonieke exponentiele familie). Als de random variabele X eenverdeling heeft uit de exponentiele familie van verdelingen en er geldt verder dat η(θ) =θ. Dan komt deze verdeling uit de zogenaamde kanonieke exponentiele familie vanverdelingen.

Voorbeeld 3.7 (De normale verdeling). Stel X is normaal verdeeld dat wil zeggenX ∼ N(µ, σ2). Dan onder de veronderstelling dat θt = (µ, σ2) onbekend is, is dedichtheid gegeven door

pµ,σ2 =1√

2πσ2exp

{−(x− µ)2

2σ2

}=

1√2π

exp

{− log(σ)− x2

2σ2+µx

σ2− µ2

2σ2

}=

1√2π

exp

{η(θ)T (x)− log(σ)− µ2

2σ2

},

waarbij T (x) = (T1(x), T2(x))t =(x, x2

)t, η(θ) = (η1(θ), η2(θ))

t =( µσ2 ,− 1

2σ2

)t, ψ(η(θ)) =

µ2

2σ2 + log(σ) = − η214η2

+ 12 log

∣∣∣ 12η2

∣∣∣ en h(x) = 1√2π

. En dus behoort de normale verdeling

tot de 2-parameter exponentiele familie van verdelingen.

In het volgende hoofdstuk zullen we zien dat een belangrijk netwerkmodel behoort totdeze familie van verdelingen.

3.2.1. De meest aannemelijke schatter

Een veel gebruikte methode in de statistiek om de parameter θ te achterhalen van eenstatistisch geparametriseerd model is de meest aannemelijke schatter θ vinden. Gegevengeobserveerde data en een model kan de meest aannemelijke schatter een schatting gevenvan de ware parameters van het model. De manier waarop dit gebeurd heet maximumlikelihood hierbij wordt de zogenaamde log-likelihood functie gemaximaliseerd om zo dekans op de geobserveerde data te maximaliseren. Allereerst zullen we beginnen met watdefinities.

14

Page 15: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Definitie 3.8 (De likelihood functie). Zij X een random variabele met verdeling uit{Pθ | θ ∈ Θ}. Als X discreet verdeeld is, dan is de likelihood van θ gegeven een observatiex gedefinieerd als

L(θ) = L(θ | x) = pθ(x) = Pθ(X = x).

Als X continu verdeeld is dan is de likelihood van θ gegeven een observatie gedefinieerdals

L(θ) = L(θ | x) = pθ(x),

waarbij pθ(x) de dichtheidsfunctie voorstelt.

De log-likelihood functie ` is dan gegeven door het natuurlijk logaritme van de likelihoodfunctie.

Definitie 3.9 (De meest aannemelijke schatter). We definieren de meest aannemelijkeschatter nu als de waarde θ van θ dat een globaal maximum is van de log-likelihoodfunctie en dus ook van de likelihood.

Voor een model uit de kanonieke s-parameter exponentiele familie van verdelingen ge-parametriseerd door θ ∈ Θ ⊆ Rs geldt dat de dichtheid geven is door:

pθ(x) = exp{θtT (x)− ψ(θ)

}h(x).

Om nu de meest aannemelijke schatter θ van θ te vinden gebaseerd op een observatie xschrijven we

`(θ) = logL(θ) = θtT (x)− ψ(θ) + log (h(x))

=s∑j=1

θjTj(x)− ψ(θ) + log (h(x)) .

Om nu het maximum te bepalen moeten er van deze uitdrukking de partiele afgeleidengelijk aan 0 gesteld worden met andere woorden er moet gelden

∂θr`(θ) = 0⇔ Tr(x) = Eθ [Tr(X)] , (3.1)

voor alle r ∈ {1, . . . , s}. Waarbij de waarde r de r-de entry van de respectievelijkevectoren aangeeft. De bovenstaande uitdrukking is een direct gevolg als we opmerkendat ∂

∂θrψ(θ) = Eθ [Tr(X)]1.

Als we dan nu de tweede afgeleide nemen krijgen we dat

∂2

∂θrθq`(θ) = −ir,q(θ) = −Covθ [Tr(X), Tq(X)] ,

waarbij r, q ∈ {1, . . . , s} en ir,q de r, q-de entry is van de Hessian van de log-likelihoodfunctie die onder regulariteitsvoorwaarden correspondeert met de covariantiematrix vanT die altijd symmetrisch is aangezien de covariantie in zijn argumenten symmetrisch is.

1Voor afleiding zie appendix stelling A.1.

15

Page 16: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

We zullen nu laten zien dat deze symmetrische matrix negatief definiet1 is. Namelijkeerst nemen we een willekeurige v ∈ Rs en stellen we dat H(θ) de Hessian voorstelt vande log-likelihood functie dan geldt

vtH(θ)v = −vtVar [T1(X), T2(X), . . . , Ts(X)] v

= −vtE[(T (X)− E (T (X))) (T (X)− E (T (X)))t

]v

= −E[vt (T (X)− E (T (X))) (T (X)− E (T (X)))t v

]= −E

[((T (X)− E (T (X)))t v

)t (((T (X)− E (T (X)))t v

)]= −E

(W tW

)≤ 0,

waarbij W = ((T (X)− E (T (X))) v). Er geldt nu dus dat de uitdrukkingen een negatiefdefiniete matrix vormen en dus is elk stabiel punt een maximum en is er ten hoogste eenmaximum.

Voor de meest aannemelijke schatter θ voorgekomen uit (3.1) geldt dus dat

Eθ [Tr(X)] = Tr(x). (3.2)

Een soortgelijke afleiding is mogelijk waarbij we stellen dat θ = η(θ), maar zal hier nietworden afgeleid.

1Een matrix H is negatief definiet als voor alle vectoren v, er geldt vtHv < 0. Voor symmetrischematrices is dit equivalent aan dat alle eigenwaarden negatief zijn.

16

Page 17: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

4. Netwerk modellen

In dit hoofdstuk zullen er een aantal netwerkmodellen behandeld worden. Het eerste mo-del dat we zullen bekijken is het Erdos-Renyi-Gilbert model en is een klassiek voorbeeldvan een random graaf model. Andere modellen die behandeld zullen worden zijn deblokmodellen waarbij het onderscheiden van groepen gemakkelijker gaat en het meer al-gemene exponentiele random graaf model. Vooral het exponentiele random graaf modelzal in het volgend hoofdstuk in detail uitgewerkt worden.

4.1. Het Erdos-Renyi-Gilbert random graaf model

Dit netwerk model bedacht door Erdos en Renyi wordt ook wel het G(N, p) modelgenoemd. In dit model voor een netwerk met N punten wordt er een lijn getrokkentussen paren punten met kans p onafhankelijk van wat er eerder gebeurd is. Een andereformulering van dit model is geformuleerd door Gilbert en is het G(N,E) model, waarbijhet aantal lijnen E in het model vaststaat en deze willekeurig gekozen worden uit de

(N2

)mogelijke lijnen.

Het G(N, p) model heeft een binomiale likelihood-functie voor het aantal lijnen en isgegeven door

L(G(N, p) heeft E lijnen | p) = pE(1− p)(N2 )−E .

Een equivalente formulering in termen van de N ×N verbindingsmatrix Y is

L(Y | p) =∏i 6=j

pYij (1− p)1−Yij .

Een probleem met dit model is dat elke lijn dezelfde kans gegeven wordt, in het bijzonderwordt elke graaf met hetzelfde aantal lijnen dezelfde kans gegeven. In de realiteit hoeftdit echter niet het geval te zijn en daarom bekijken we nu wat specifiekere modellen.

4.2. Het stochastische blokmodel

Een probleem dat zich voordoet bij het Erdos-Renyi-Gilbert random graaf model is dater geen onderscheid gemaakt kan worden tussen verschillende groepen in een netwerk.In een blokmodel kan er wel onderscheid gemaakt worden tussen verschillende groepen

17

Page 18: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

punten. In dit model wordt de verzameling van punten N onderverdeeld in verschillendepartities of groepen. Op deze manier kan er een specifieke kans gegeven worden voor hetbestaan van connecties tussen punten van verschillende partities of binnen een partitiezelf. Allereerst zullen we nu het model gaan definieren.

Definitie 4.1 (Het stochastische blokmodel). Een stochastisch blokmodel is voor Ngenummerde punten gedefinieerd aan de hand van de volgende drie keuzes:

• k: Een scalere waarde die aangeeft hoeveel partities of groepen er in het netwerkzijn,

• z: Een N × 1 vector waar z(l) de groepindex geeft van het genummerde puntl ∈ {1, 2, . . . , N},

• M : Een k× k stochastische blokmatrix, met entries Mij die de kans geven dat eenpunt uit groep i verbonden is met een punt uit groep j.

Allereerst moet er in dit model een keuze voor k gemaakt worden die het aantal ver-schillende groepen aangeeft in het netwerk. Daarna moeten de punten onderverdeeldworden tussen deze groepen en zo ontstaat de vector z. Het enige wat dan nog resteertis de keuze van de kansen tussen verschillende groepen dat resulteert in de stochastischeblokmatrix M .

De likelihood-functie van dit model is dan gegeven door

L(G |M, z) =∏u,v

P (Er is een lijn tussen u en v |M, z),

waarbij de vector z de punten u en v verdeeld in de respectievelijke groepen en de matrixM de kans tussen deze punten geeft.

In deze scriptie zal deze likelihood niet verder uitgewerkt worden omdat dit model nietin detail behandeld zal worden. Om wel een overzicht te geven in welke gevallen hetgebruik van een blokmodel voor de hand ligt zullen hier een paar voorbeeldnetwerkengegeven worden.

4.2.1. Gegroepeerde netwerken

Een voorbeeld van een gegroepeerd netwerk dat voor de hand ligt is een assortatiefnetwerk. In een assortatief netwerk hebben punten die uit dezelfde groep komen eengrotere kans om met elkaar verbonden te zijn. In een groep zullen er dus relatief meerconnecties voorkomen dan tussen groepen onderling. Voor de matrix M betekent ditdat de diagonaalblokken een grotere waarde hebben dan de overige blokken. Om dit teillustreren volgt nu een voorbeeld.

18

Page 19: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Voorbeeld 4.2 (Een assortatief netwerk). Hieronder is aan de linkerkant een stochasti-sche blokmatrix gegeven en aan de rechterkant een gegenereerd1 voorbeeld netwerk aande hand van deze blokmatrix. De verschillende kleuren van de punten staan voor degroepen waartoe zij behoren.

Figuur 4.1.: Een assortatief netwerk met blokmatrix en gegenereerd voorbeeld.

Het tegenovergestelde van een assortatief netwerk is een disassortatief netwerk. In eendisassortatief netwerk hebben punten binnen dezelfde groep juist een lagere kans om metelkaar verbonden te zijn dan met punten uit andere groepen.

Voorbeeld 4.3 (Een disassortatief netwerk). Hieronder is wederom een stochastischeblokmatrix gegeven met een voorbeeld netwerk.

Figuur 4.2.: Een disassortatief netwerk met blokmatrix en gegenereerd voorbeeld.

Andere voorbeelden van gegroepeerde netwerken zijn bijvoorbeeld de gecentreerde net-werken waarbij de groep met de laagste groepsindex de meeste kans op connecties heeften naarmate de groepsindex toeneemt dat de kans op connecties toeneemt en de ge-ordende netwerken waarbij de blokken onder en boven de diagonaal van de blokmatrix

1Plaatjes van netwerken kunnen gegenereerd worden met behulp van de package Statnet in de program-meertaal R.

19

Page 20: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

dezelfde kans krijgen. En zo zijn er nog veel andere soorten netwerken waar blokmodellenop toegepast zouden kunnen worden.

4.3. Het exponentiele random graaf model

Het exponentiele random graaf model (ERG model) is een veel toegepast model in hetonderzoek naar netwerken en wordt ook wel het p∗-model genoemd. De naam van ditmodel is afkomstig van zijn specificatie namelijk het model behoort tot de in hoofdstuk2 gedefinieerde familie van exponentiele verdelingen. Om dit te laten zien zullen we nueerst het model gaan definieren.

Definitie 4.4 (Het exponentiele random graaf model (ERG model)). In dit model isde klasse van modellen gedefinieerd als random graaf modellen voor een vast N aantalpunten door de volgende verdeling:

Pθ(Y = y) =exp

{θts(y)

}κ(θ,Y)

.

voor y ∈ Y waarbij:

• Y is een random graaf die een bijbehorende verbindingsmatrix heeft,

• Y is de verzameling van alle mogelijke netwerkconfiguraties en kan geıdentificeerdworden met {0, 1}N ,

• θ = (θ1, . . . , θs)t is een s-vector van parameters,

• s(y) is een gegeven s-vector met de netwerk informatie van y,

• κ(θ,Y) is de normalisatiefactor die ervoor zorgt dat het een kansmaat definieerten is gegeven door de volgende uitdrukking κ(θ,Y) =

∑z∈Y exp

{θts(z)

}.

Dat deze klasse van modellen behoort tot de familie van exponentiele verdelingen isgemakkelijk in te zien immers aangezien de verdeling discreet is geldt

pθ(y) = Pθ(Y = y) =exp

{θts(y)

}κ(θ,Y)

= exp{θts(y)− log (κ (θ,Y))

}= exp

{θtT (y)− ψ (θ,Y)

}= exp

{s∑i=1

θiTi(y)− ψ (θ,Y)

}

Dus geldt met T (y) = s(y), η(θ)t = θt, ψ(θ,Y) = log κ(θ,Y) en h(y) = 1 dat deze klassevan modellen behoort tot de s-parameter exponentiele familie van verdelingen.

20

Page 21: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Voorbeeld 4.5. In dit voorbeeld zullen we afleiden dat het G(N, p) model behoorttot de ERG modellen. In dit model is de enige revalante netwerkinformatie het aantallijnen. Voor een y ∈ Y kiezen we dus als netwerkinformatie s(y) =

∑i<j Y

′ij waarbij Y ′

de verbindingsmatrix is van de graaf y en dus het aantal lijnen geeft. In dit model is erdus alleen een parameter θ aangezien de netwerkinformatie een-dimensionaal is.

We zullen nu de normalisatiefactor gaan afleiden. Er geldt nu dat

κ(θ,Y) =∑z∈Y

exp {θs(z)} =∑{Yij}∈Y

exp

θ∑i<j

Yij

=∏i<j

1∑Yij=0

exp {θYij} =∏i<j

(1 + eθ) = (1 + eθ)(N2 )

en dus is de normalisatiefactor gegeven door κ(θ,Y) = (1 + eθ)(N2 ).

Schrijven we dan nu het ERG model uit met de bijbehorende normalisatiefactor danvolgt:

Pθ(Y = y) =exp

{θts(y)

}κ(θ,Y)

=exp

{θts(y)

}(1 + eθ)(

N2 )

=

(1

e−θ + 1

)s(y)(1− 1

e−θ + 1

)(N2 )−s(y)

= ps(y)(1− p)(N2 )−s(y)

= pEy(1− p)(N2 )−Ey

met p = 1e−θ+1

en Ey het aantal lijnen van de graaf y is. En dus zien we dat het G(N, p)model een ERG model is.

In de praktijk is het niet zo gemakkelijk om een algemeen ERG model uit te rekenen.Daarom bespreken we in het volgende hoofdstuk een manier om deze toch te benaderen.

21

Page 22: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

5. Maximum likelihood op hetexponentiele random graaf model

In het algemeen is het niet makkelijk om een exacte oplossing te vinden voor de meestaannemelijke schatter van een ERG model. Het probleem dat zich voordoet zit in denormalisatiefactor. Deze is in sommige gevallen nog makkelijk uit te rekenen, maar bijeen toename van het aantal punten N wordt deze al snel lastig om uit te rekenen. Alsbijvoorbeeld gekeken wordt naar een netwerkgraaf met N punten dan moet er gesom-

meerd worden over 2(N2 ) termen. In het geval van N = 10 zijn dit al zo’n 1013 termenen bij N = 20 zijn het er ongeveer 1057 en dit neemt snel toe.

Daarom is er een alternatief gevonden onder de naam Monte Carlo Markov Chain(MCMC). In dit hoofdstuk zullen we behandelen hoe deze manier gebruikt wordt om demeest aannemelijk schatter te bepalen van een ERG model.

5.1. De Monte Carlo Markovketen

Een Markovketen1 (Markov Chain) is een proces dat alleen afhankelijk is van wat er ophet tijdstip daarvoor gebeurd is. Iets preciezer als {Xt}t∈N een Markovketen is dan is deMarkovketen op tijdstip t+ 1 gedefinieerd als Xt+1 alleen afhankelijk van Xt op tijdstipt. Een van de belangrijke eigenschappen van een Markovketen is dat deze onder dejuiste voorwaarden convergeert naar een evenwichtsverdeling π dit zal in detail wordenbesproken in sectie 5.3.

Een Monte Carlo Markovketen (MCMC) algoritme is een algoritme waarbij de uitkomstXt+1 op tijdstip t+1 alleen afhangt van wat er op tijdstip t is gebeurd. In een MCMC al-goritme genereerd het Monte Carlo proces een willekeurige waarde dat daarna vergelekenword met de huidige situatie en zo een volgende stap zet.

1Een precieze definitie is gegeven in de appendix.

22

Page 23: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

5.2. De benadering van de meest aannemelijke schatter

Om een algemene benadering te geven van een ERG model willen we nu de meestaannemelijke schatter bepalen. Om deze te bepalen moeten we eerst de log-likelihoodfunctie ` bepalen. Deze is voor een algemeen s-parameter ERG model gegeven door

`(θ) = logL(θ) = θts(y)− κ(θ,Y).

Als we direct de meest aannemelijke schatter willen bepalen moeten nu de partiele afge-leiden genomen worden. In sectie 3.2.1 hebben we gezien dat dit leidt tot de volgendevergelijking

Eθ [sr(Y )] = sr(y), (5.1)

waarbij ∂∂θr

κ(θ,Y) = Eθ [sr(Y )].

Het probleem hierbij is echter dat de normalisatiefactor zoals eerder genoemd in demeeste gevallen moeilijk te berekenen is en toch voorkomt in vergelijking (5.1). We zullennu een alternatieve methode bekijken dat gebruik maakt van een MCMC algoritme omdit op te lossen.

5.2.1. Het benaderen van de log-likelihood functie

We veronderstellen nu wederom dat we een ERG model Pθ(Y = y) hebben met bij-behorende eigenschappen. Laat dan nu θ0 een willekeurig gekozen vaste vector vanparameters zijn. Voor iedere y ∈ Y geldt dan nu dat

Eθ0[exp

{(θ − θ0)ts(y)

}]=∑y∈Y

exp{

(θ − θ0)ts(y)}Pθ0(Y = y)

=∑y∈Y

exp{

(θ − θ0)ts(y)} exp

{θt0s(y)

}κ(θ0,Y)

=1

κ(θ0,Y)

∑y∈Y

exp{θts(y)

}=

κ(θ,Y)

κ(θ0,Y),

volgens de eigenschappen van een ERG model en de definitie van een discrete verwach-ting.

Uit het bovenstaande zien we nu in dat κ(θ,Y)κ(θ0,Y) een verwachting is ten opzichte van

de vaste parameters θ0. Als deze verwachting te bepalen is dan weten we ook watde normalisatiefactor is. In een ideale situatie is nu de algemene wet van de groteaantallen toe te passen om deze verwachting te benaderen, echter is het probleem dathier een onafhankelijke steekproef voor nodig is die niet zomaar te verkrijgen is. Tochis hier een oplossing voor namelijk met een aangepaste versie van de wet van de grote

23

Page 24: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

aantallen1 kunnen we deze verwachting benaderen met een gemiddelde van een steekproefdie voldoet de Markov eigenschap en dus is onafhankelijkheid niet nodig. In de volgendesectie zal behandeld worden hoe met een MCMC algoritme deze steekproef bepaald kanworden.

Als er nu even vanuit wordt gegaan dat we een random steekproef y1, y2, . . . , yn gegevenhebben die voldoet aan de Markov eigenschap. Dan kunnen we met behulp van deze wetvan de grote aantallen en dat de e-macht een reele niet-negatieve functie zeggen dat

κ(θ,Y)

κ(θ0,Y)= Eθ0

[exp

{(θ − θ0)ts(y)

}], (5.2)

benaderd kan worden met een gemiddelde namelijk

1

n

n∑i=1

exp{

(θ − θ0)ts(yi)}.

in subsectie 5.2.2 wordt behandeld hoe er random steekproef gegenereerd kan wordenuit de kansmaat Pθ0 .

In het bijzonder geldt er dus dat

P

(limn→∞

1

n

n∑i=1

exp{

(θ − θ0)ts(yi)}

= Eθ0[exp

{(θ − θ0)ts(y)

}])= 1,

we kunnen dus zeggen dat dit steekproef gemiddelde bijna zeker1 naar deze verwachtinggaat.

Dus nu gegeven de steekproef y1, y2, . . . , yn van grafen en als we ervanuit gaan dat weeen observatie yobs hebben kunnen we de log-likelihood functie `(θ) volgens de definitiesin hoofdstuk 3 bepalen. Deze is dan gegeven door

`(θ) = log(L(θ)) = log(Pθ

(Y = yobs

))= log

(exp

{θts(yobs)

}κ(θ,Y)

). (5.3)

Om de bovenstaande resultaten te gebruiken zullen we nu de loglikelihood omschrijvenmet behulp van `(θ0). Met wat omschrijfwerk krijgen we dan dat

`(θ)− `(θ0) = log

(exp

{θts(yobs

)}κ(θ,Y)

− log

(exp

{θt0s(yobs

)}κ(θ,Y)

))

= − log

(exp

{(θ0 − θ)ts

(yobs

)} κ(θ,Y)

κ(θ0,Y)

).

1Zie appendix stelling A.4 voor de algemene wet van de grote aantallen en stelling A.8 voor de aange-paste wet.

1Zie appendix definitie A.2

24

Page 25: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Uit het voorgaande zien we dus dat de term κ(θ,Y)κ(θ0,Y) terugkomt. Omdat we nu ook weten

deze term benaderd kan worden met een gemiddelde geldt

`(θ)− `(θ0) ≈ − log

(exp

{(θ0 − θ)ts

(yobs

)}× 1

n

n∑i=1

exp{

(θ − θ0)ts(yi)})

= − log

(1

n

n∑i=1

exp{

(θ − θ0)t ×−s(yobs

)}× exp

{(θ − θ0)ts(yi)

})

= − log

(1

n

n∑i=1

exp{

(θ − θ0)t(s(yi)− s

(yobs

))}).

Als nu de laatste uitdrukking gemaximaliseerd word als functie van θ dan maximaliserenwe (ongeveer) `(θ)−`(θ0). Maar aangezien we verondersteld hebben dat θ0 vast gekozenis en dus niet variabel is geldt nu dat we `(θ) maximaliseren. Door de bovenstaandeuitdrukking te maximaliseren kunnen we dus de meeste aannemelijke schatter θ vinden.Vaak wordt dit maximalisatie probleem numeriek opgelost, een manier om dit iteratiefte doen is bijvoorbeeld met de Newton-Raphson methode.

5.2.2. Het genereren van een steekproef

De vraag is die nu over is gebleven is hoe we een steekproef van grafen y1, y2, . . . , yn metde Markov eigenschap kunnen genereren uit de kansmaat Pθ0 . Om deze steekproef teverkrijgen zullen we een MCMC algoritme gaan gebruiken waarmee ook meteen aan deMarkov eigenschap voldaan is. Namelijk veronderstel dat we beginnen met een geob-serveerde graaf yobs als we op deze graaf een MCMC algoritme toepassen dan zal dezeconvergeren naar een gegeven verdeling. Als dan elke graaf die gegenereerd is opgeslagenword verkrijgen we zo een steekproef van grafen. We zullen nu twee verschillende MCMCalgoritmes bekijken die dit voor elkaar kunnen krijgen.

Definitie 5.1 (De Gibbs Sampler). Stel we hebben een vaste willekeurig gekozen s-vector van parameters θ0 en een geobserveerd netwerk yobs(N , E) met verbindingsmatrixY ′ waar we mee beginnen. Het algoritme is dan gedefinieerd als volgt

• Allereerst selecteren we willekeurig twee punten u, v ∈ N met u 6= v.

• Als er een lijn loopt tussen de twee punten dan definieren we y+ij als yobs en de

graaf waar alleen deze lijn weggelaten wordt noemen we y−ij .

• Als er geen lijn loopt dan definieren we y+ij als yobs waarbij de lijn tussen u en v

toegevoegd wordt en y−ij als yobs zelf.

• We genereren dan de nieuwe graaf ynieuw gegeven yobs op de volgende manier:Ongeacht of yobs al een lijn tussen u en v heeft zal er in de nieuwe graaf een lijn

25

Page 26: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

tussen u en v lopen met kans:

exp{θt0

(s(y+ij

)− s

(y−ij

))}1 + exp

{θt0

(s(y+ij

)− s

(y−ij

))} .• Als we deze stappen steeds herhalen op de nieuwe graaf ynieuw en ook de verkregen

graaf opgeslaan dan verkrijgen we hieruit een steekproef van grafen.

Met andere woorden als de bovenstaande waarde (kans) groter is dan een willekeurigegegenereerde waarde tussen 0 en 1 (het Monte Carlo sample) dan wordt er in die stapeen lijn getekend of toegestaan tussen u en v. Als de waarde (kans) kleiner of gelijk isaan de waarde gegenereerd door het Monte Carlo proces dan zal er geen lijn tussen u env lopen in de nieuwe graaf ynieuw.

Definitie 5.2 (Metropolis-Hastings). Een andere algoritme dat in essentie hetzelfdedoet als de Gibbs Sampler is het Metropolis-Hastings algoritme. Het enige verschil isdat er bij Metropolis-Hastings gekeken wordt of er een lijn toegevoegd moet wordenof als hij er al is verwijderd moet worden. De eerste stappen gaan analoog met heteerste algoritme tot het nieuwe netwerk gegenereerd moet worden namelijk na y+ij en y−ijgedefinieerd te hebben wordt ynieuw op de volgende manier gegenereerd

• Als er in de gegeven graaf geen lijn bestaat tussen u en v dan wordt er met kans:

min(1, π1) = min(

1, exp{θt0

(s(y+ij

)− s

(y−ij

))}),

een lijn tussen u en v toegevoegd.

• Als er in de gegeven graaf wel een lijn bestaat tussen u en v dan wordt met kans:

min(1, π2) = min(

1, exp{−θt0

(s(y+ij

)− s

(y−ij

))}),

de lijn verwijderd uit de graaf.

De verkregen nieuwe graaf ynieuw wordt dan wederom opgeslagen om zo een steekproefte genereren. Op de dan verkregen nieuwe graaf ynieuw wordt dit algoritme herhaaldanaloog aan het Gibbs Sampler algoritme.

Aan de hand van deze algoritmes kan er dus een steekproef verkregen worden. Desteekproef voldoet aan de eisen, want aan de Markov eigenschap is per definitie voldaanen aan de andere eis van irreducibiliteit is ook voldaan aangezien het model gedefinieerdis voor een eindig aantal punten. In sectie 5.3 zal ook de detailed balance vergelijkingvoor deze algoritmes nagegaan worden zodat de aangepaste wet van de grote aantallentoe te passen is.

26

Page 27: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

5.2.3. De normalisatiefactor

Uit de voorgaande secties hebben we nu een methode verkregen om de vector van pa-rameters te schatten. Het enige wat nog resteert is de normalisatiefactor onder θ0 tebepalen. Door vergelijking (5.1) weten we dat

κ(θ,Y)

κ(θ0,Y)≈ 1

n

n∑i=1

exp{

(θ − θ0)ts(yi)}, (5.4)

met y1, y2, . . . , yn de eerder genoemde random steekproef.

Als we nu stellen θ0 = 0 kunnen we de definitie van een ERG model gebruiken om teverkrijgen dat

κ(θ,Y) = κ(0,Y) =∑y∈Y

e0 =∑y∈Y

1,

en is in dit geval de normalisatiefactor dus precies het aantal grafen in Y en is dus alle

grafen met N punten en geldt er κ(0,Y) = 2(N2 ). Dus kunnen we vergelijking (5.4)omschrijven tot

κ(θ0,Y) ≈(N

2

)(1

n

n∑i=1

exp{−θt0s(yi)

})−1

≈(N

2

)exp

{−θt0s

(yobs

)}( 1

n

n∑i=1

exp{−θt0

(s(yi)− s

(yobs

))})−1.

Hiermee hebben we een uitdrukking gevonden voor de normalisatiefactor onder θ0.

5.3. Convergentie naar evenwicht

Een probleem dat zich kan voordoen bij het gebruik van MCMC algoritmes is dat ergeen convergentie optreedt en dus zo de wet van de grote aantallen niet toe te passen is.Aangezien er willekeurig twee punten geselecteerd worden in beide algoritmes kunnen weer van uitgaan dat elke mogelijke netwerkconfiguratie bereikt kan worden in een eindigaantal stappen. Met deze eigenschap en de zogenaamde detailed balance vergelijking vande Markovketen in het algoritme kan convergentie aangetoond worden. We definiereneerst de overgangskans Pt(yα, yβ) die de kans aangeeft dat de graaf yα veranderd in degraaf yβ op tijdstip t in het algoritme. Als er dan nu een verdeling π bestaat zodanigdat voor alle yα, yβ ∈ Y de volgende vergelijking stand houdt:

π (yα)Pt (yα, yβ) = π (yβ)Pt (yβ, yα) , (5.5)

dan geldt er dat P en π in zogenaamde detailed balance zijn en dat π de stationaireverdeling is van de Markovketen met overgangskansen Pt(yα, yβ).

27

Page 28: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

We zullen nu aantonen dat deze detailed balance vergelijking geldt voor het GibbsSampler algoritme. We definieren allereerst de overgangskansen van de onderliggendeMarkovketen voor een zekere θ ∈ Θ als:

Pt(yα, yβ) =exp

{θt (s (yβ)− s (yα))

}1 + exp {θt (s (yβ)− s (yα))}

.

Als detailed balance verdeling π definieren we π(y) = exp{θts(y)}κ(θ,Y) . We kunnen dan nu

vergelijking (5.5) omschrijven naar de volgende vorm

Pt(yα, yβ)

Pt(yβ, yα)=π(yβ)

π(yα). (5.6)

Als we dan nu eerst de linkerkant van de bovenstaande vergelijking uitschrijven dankrijgen we dat

log

(Pt(yα, yβ)

Pt(yβ, yα)

)= log

exp{θt(s(yβ)−s(yα))}

1+exp{θt(s(yβ)−s(yα))}exp{θt(s(yα)−s(yβ))}

1+exp{θt(s(yα)−s(yβ))}

= log

exp{θt(s(yβ)− s(yα)− s(yα) + s(yβ))(1 + exp{θt(s(yα − s(yβ))

)1 + exp{θt(s(yβ)− s(yα))}

= log exp{θt(s(yβ)− s(yα))}= θt(s(yβ)− s(yα)).

Schrijven we dan nu de rechterkant van de vergelijking uit en zien we in dat er hetzelfdeuitkomt namelijk:

log

(π(yβ)

π(yα)

)= log

exp{θts(yβ)κ(θ,Y)

exp{θts(yα)κ(θ,Y)

= log

(exp{θt(s(yβ)− s(yα))}

)= θt(s(yβ)− s(yα)).

En zo zien we dat er aan de detailed balance vergelijking is voldaan en dat er in hetalgoritme convergentie optreedt dus is er aan alle voorwaarden voldaan. Zo hebbenwe een manier gevonden om de meest aannemelijke schatter te benaderen voor ERGmodellen.

28

Page 29: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

6. Een toepassing van het exponentielerandom graaf model

In dit hoofdstuk zal een toepassing van het exponentiele random graaf model behandeldworden. Namelijk we zullen een model gaan bekijken dat gebruikt is bij het modellerenvan complexe hersen netwerken.

6.1. Het complexe hersennetwerk model

In de neurowetenschappen speelt het onderzoeken naar de verbondenheid van verschil-lende hersendelen een belangrijke rol. Een van de manieren om dit te bestuderen is doornetwerkmodellen toe te passen op een aantal geselecteerde punten binnen de hersenen.We zullen een model gaan definieren dat bij een onderzoek [15] opgesteld is om een net-werkmodel te maken van de hersenen. In dit onderzoek zijn er 90 vaste punten genomenin de hersenen van proefpersonen en tijdens experimenten werd de verbondenheid tus-sen deze punten bestudeerd. Na deze experimenten en observaties zijn de verschillendehersennetwerken vertaald in 90× 90 verbindingsmatrices zoals gedefinieerd in hoofdstuk2. In dit hoofdstuk zullen we een model gaan opstellen dat als algemeen hersennetwerkmodel kan dienen.

Voorbeeld 6.1 (Grafische weergave van een hersennetwerk). Hieronder is een grafischeweergave van het hersennetwerk van een van de proefpersonen gegeven.

Figuur 6.1.: Een grafische weergave van een hersennetwerk.

De groene lijnen geven verbindingen aan tussen verschillende gebieden in de hersenenvan de proefpersoon.

29

Page 30: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Definitie 6.2 (De verklarende variabelen binnen hersennetwerken). Om het model ver-der toe te kunnen lichten zullen er eerst verklarende variabelen gedefinieerd worden. Stelwe hebben een gegeven decay parameter τ dan definieren we nu de volgende variabelen:

• De geometrically weighted degree variabele (GWD) als; de gewogen som van hetaantal punten dat verbonden is met precies i andere punten (partners) met alsgewicht de geometrische reeks (1− exp{−τ})i.

• De geometrically weighted edge-wise shared partner variabele (GWESP) als; degewogen som van het aantal punten met precies i gedeelde partners met als gewichtde geometrische reeks (1− exp{−τ})i.

• De geometrically weighted non-edge-wise shared partner variabele (GWNSP) als;de gewogen som van het aantal niet verbonden punten met precies i gedeeldepartners met gewicht de geometrische reeks (1− exp{−τ})i.

De eerste verklarende variabele geeft de verbondenheid aan binnen een hersennetwerk,de tweede variabele geeft de lokale clustering binnen het netwerk aan waarbij dit delokale dichtheid van de punten aangeeft en de derde variabele geeft de global efficiencydat de gemiddelde lengte van het kortste pad tussen twee punten aangeeft.

Voorbeeld 6.3. Om de bovenstaande begrippen te illustreren zal een voorbeeld gegevenworden. Beschouw de volgende netwerkgraaf op 6 punten:

1 2

6

4

3

5

Definieer dan ESPi en NSPi als respectievelijk de niet gewogen som van de GWESP enGWNSP zoals eerder gedefinieerd. Dan geldt er dat

(ESP0,ESP1, . . . ,ESP4) = (1, 5, 1, 0, 0).

Immers alleen het paar (1, 2) heeft geen gedeelde partners. De paren punten met 1gedeelde partners zijn (2, 4), (2, 3), (2, 6), (4, 5) en (5, 6) en het enige paar punten met 2gedeelte partners is (4, 6). Zo kan ook afgeleidt worden dat

(NSP0,NSP1, . . . ,NSP4) = (1, 4, 2, 0, 0).

Er geldt namelijk dat alleen het niet verbonden paar (1, 5) geen gedeelde partners heeft,de paren (1, 4), (1, 3), (1, 6) en (3, 5) van niet verbonden punten hebben 1 gedeelde partneren de paren (2, 5) en (3, 6) hebben 2 gedeelde partners.

30

Page 31: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Nu alle verklarende variabelen gedefinieerd en geıllusteerd zijn zal het ERG model ge-definieerd worden.

Definitie 6.4 (Het ERG model voor hersennetwerken). Het ERG model dat gebruiktwordt bij het modelleren van hersennetwerken is dan gedefinieerd als volgt

Pθ(Y = y) =exp

{(θts(y)

}κ(θ,Y)

=exp

{((θ1, θ2, θ3)

t × (E,GWESP,GWNSP)}

κ(θ,Y)

=exp {θ1 × E + θ2 ×GWESP + θ3 ×GWNSP}

κ(θ,Y),

met E het aantal lijnen van y en de GWESP en GWNSP de verklarende variabelen vande graaf y. Hiermee hebben we het model gedefinieerd waarbij de parameters geschatkunnen worden met de methoden gegeven in hoofdstuk 5.

31

Page 32: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

7. Conclusie

In deze scriptie hebben we nu opgebouwd wat netwerken zijn en waarom deze zo inte-ressant zijn. Verder is belangrijke theorie behandeld dat nodig was bij het opstellen vannetwerkmodellen. In het bijzonder hebben we een aantal netwerkmodellen behandelden het exponentiele random graaf model uitgewerkt en een methode gegeven om deze tegebruiken in de praktijk. Hierna is nog een toepassing van het model aan bod gekomen.

In vervolgonderzoeken kunnen veel verschillende dingen die netwerkmodellen betreffenbestudeerd worden. In deze scriptie zijn namelijk modellen bekeken voor niet-gerichtenetwerkgrafen, in een vervolgonderzoek kan er gekeken worden naar modellen voor ge-richte grafen of grafen met lijnen die een bepaald gewicht hebben. Er kan ook gekekenworden naar het toepassen van een netwerkmodel in een zelf gecreerde situatie of wel-licht het toepassen van een model in andere contexten. Het zelf maken van een netwerkmodel is natuurlijk ook interessant, maar wellicht niet al te eenvoudig. Een andere optievoor vervolgonderzoek is het bekijken van andere netwerkmodellen en daarvoor metho-den uit te werken. Zo zijn er vele mogelijkheden voor vervolgonderzoeken bovendien ishet onderzoeksgebied dat netwerken betreft relatief nieuw en daarom blijven veel nieuwemogelijkheden over.

32

Page 33: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Bibliografie

[1] Eric D. Kolaczyk, Statistical Analysis of Network Data, Springer, 2009.

[2] Stanley Wasserman, Katherine Faust, Social Network Analysis: Methods and Appli-cations, Cambridge Press, November 2001.

[3] Christian Robert, The Bayesian Choice, 2nd edition, Springer, 2001.

[4] Francesco Palumbo, Carlo Natale Lauro, Michael J. Greenacre, Data Analysis andClassification, Proceedings of the 6th Conference of the Classification and Data Ana-lysis Group of the Societ Italiana di Statistica, Springer, 2010.

[5] J.R. Norris, Markov Chains, Cambridge Series in Statistical and Probabilistic Ma-thematics, Cambridge University Press, 1997.

[6] Bert van Es, Syllabus Mathematische Statistiek, Korteweg-de Vries Instituut, Uni-versiteit van Amsterdam, 5 Februari 2007.

[7] Anna Goldenberg, Stephen E. Fienberg, Alice X. Zheng. Edoardo M. Airoldi, ASurvery of Statistical Network Models, December 2009.

[8] Jacob L. Moreno, Who Shall Survive?, N.Y.: Beacon House, New York, 1934.

[9] Stanley Milgram, The Small-World Problem, Psychology Today, vol. 1, no. 1, pp61-67, Mei 1967.

[10] BBC News, http://www.bbc.co.uk/news/technology-15844230 November 2011.

[11] W.W. Zachary, An information flow model for conflict and fission in small groups,Journal of Anthropological Research 33, pp452-473, 1977.

[12] Hendrik Schulze, Klaus Mochalski, Peer-to-peer file sharing (P2P) still generates byfar the most traffic in all monitored regions ranging from 43 percent in Northern Af-rica to 70 percent in Eastern Europe. Internet Study 2008/2009, Leipzig, Duitsland,2009.

[13] Brett Stone-Gross, The Lifecycle of Peer-to-Peer (Gameover) ZeuS, Dell Secure-Works Counter Threat Unit(TM) Threat Intelligence, 23 Juli 2012.

[14] Netflix, Netflix one million dollar contest, http://www.netflixprize.com/

[15] Sean Simpson, Satoru Hayasaka, Paul Laurienti, Exponential RandomGraph Modeling for Complex Brain Networks, PLoS ONE 6(5): e20039.doi:10.1371/journal.pone.0020039, 2011.

33

Page 34: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

[16] Tom Snijders, Markov Chain Monte Carlo Estimation of Exponential RandomGraph Models, ICS, Department of Statistics and Measurement Theory, Universityof Groningen, 19 April 2002.

[17] Alan Terry, Exponential random graphs, Complex Research Group, BT, Martle-sham, 22 Augustus 2005.

[18] Aaron Clauset, Network Analysis and Modeling, CSCI 5352, Lecture 16, 5 November2013.

[19] David Hunter, Estimation in ERGMs, Department of Statistics, Penn State Uni-versity, Sunbelt, 2006.

[20] Guy Lebanon, The Exponential Family of Distributions and Logistic Regression,College of Computing (CSE), Georgia Institute of Technology.

[21] Steffan Lauritzen, Maximum Likelihood in Exponential Families, BS2 StatisticalInference, Lecture 6, University of Oxford, 7 November 2004.

34

Page 35: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

A. Appendix

Stelling A.1. Zij X is een random variabele met verdeling uit de exponentiele familie.Uit de definitie weten we dan dat

pθ(x) = eη(θ)T (x)−ψ(η)h(x).

Er geldt dan dat

Eθ [T (x)] =∂ψ(η)

∂η.

En als verder geldt dat X uit de kanonieke exponentiele familie komt dan zelfs

Eθ [T (x)] =∂ψ(θ)

∂θ.

Bewijs. We doen dit bewijs onder regulariteitsvoorwaarden. Als we dan nu definiereng(η) = e−ψ(η) dan geldt dat de dichtheid kan omgeschreven worden tot

pθ(x) = eη(θ)T (x)g(η)h(x).

Aangezien dit genormaliseerd moet zijn geldt er dat

1 =

∫xpθ(x)dx =

∫xeη(θ)T (x)g(η)h(x)dx = g(η)

∫xeη(θ)T (x)h(x)dx.

Als we dan nu aan beide kanten de afgeleide nemen naar η krijgen we

0 = g(η)d

∫xh(x)eη(θ)T (x)dx+ g′(η)

∫xh(x)eη(θ)T (x)dx

= g(η)

∫xh(x)

(d

dηeη(θ)T (x)

)dx+ g′(η)

∫xh(x)eη(θ)T (x)dx

= g(η)

∫xh(x)eη(θ)T (x)T (x)dx+ g′(η)

∫xh(x)eη(θ)T (x)dx

=

∫xg(η)h(x)eη(θ)T (x)T (x)dx+

g′(η)

g(η)

∫xg(η)h(x)eη(θ)T (x)dx

=

∫xpθ(x)T (x)dx+

g′(η)

g(η)

∫xpθ(x)dx

= Eθ [T (x)] +g′(η)

g(η)

= Eθ [T (x)] +d

dηlog(g(η)).

35

Page 36: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

En dus moet er gelden

Eθ [T (x)] = − d

dηlog(g(η)) =

d

dηψ(η)

Als dan nu X uit de kanonieke exponentiele verdeling komt dus η(θ) = θ dan geldt

Eθ [T (x)] = − d

dθlog(g(θ)) =

d

dθψ(θ)

Dit bewijs is gedaan voor het 1-dimensionale geval maar kan analoog worden uitgebreidnaar het s-dimensionale geval.

Definitie A.2 (Convergentie van kansmaten). Een rij {Xn}n∈N van random variabelenconvergeert in kans (zwakke convergentie) naar X als voor alle ε > 0 er geldt

limn→∞

P (|Xn −X| ≥ ε) = 0.

Een rij {Xn}n∈N van random variabelen convergeert bijna zeker (sterke convergentie)naar X als er geldt

P(

limn→∞

Xn = X)

= 1.

Op nulverzamelingen (verzamelingen met kans 0 onder P ) na convergeert de rij dus naarX.

Stelling A.3 (De (zwakke) wet van de grote aantallen). Laat {Xn}n∈N een rij vanonafhankelijke identiek verdeelde random variabelen zijn met elk verwachting E[Xi] = µvoor alle i ∈ N en eindige variantie σ. Definieer dan het steekproefgemiddelde als:

Xn =1

n

n∑i=1

Xi.

Als nu n→∞ dan geldtlimn→∞

P(∣∣Xn − µ

∣∣ ≥ ε) = 0,

voor alle ε > 0.

Stelling A.4 (De (sterke) wet van de grote aantallen). Laat wederom {Xn}n∈N eenrij van onafhankelijke identiek verdeelde random variabelen zijn met elk verwachtingE[Xi] = µ voor alle i ∈ N en eindige variantie σ. Definieer analoog het steekproefgemid-delde als in de vorige stelling.

Dan geldt er dat

P(

limn→∞

Xn = µ)

= 1.

Met andere woorden het steekproefgemiddelde convergeert bijna zeker naar de verwach-ting.

36

Page 37: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

Definitie A.5 (Markovketen). Een Markovketen is een rij van random variabelen {Xt}t∈Ndat voldoet aan de Markov eigenschap waarbij t de tijdsindex aangeeft. Een informeleformulering van deze eigenschap is dat alleen de huidige staat van de keten de toekom-stige staat bepaald waarbij het verleden hier dus geen invloed op heeft. Een formeledefinitie van de Markov eigenschap is,

P (Xt+1 = x | X1 = x1, X2 = x2, . . . , Xt = xt) = P (Xt+1 = x | Xt = xt) .

Definitie A.6 (Eigenschappen van Markovketens). Stel dat {Xt}t∈N een Markovketenis en dat U de verzameling is van alle mogelijke staten van deze keten. Een Markovketenheet irreducibel als elke staat door tijdsverloop bereikt kan worden vanuit elke andere

staat. Formeel zegt dit dat voor alle i, j ∈ U de overgangskansen P(t)ij voor een zeker

tijdstip t ≥ 0 strict groter dan 0 is.

Een Markov keten heet recurrent als er in elke staat van de keten teruggekomen kanworden. Formeel moet dan gelden

P (Xt = i voor oneindig veel t ) = 1.

In een positief recurrente Markovketen gebeurd dit in eindige tijd.

Stelling A.7. Als {Xt}t∈N een irreducibele Markovketen is die voldoet aan de detailedbalance vergelijking(zoals in sectie 5.3) dan is de Markovketen positief recurrent.

Stelling A.8 (Wet van de grote aantallen voor Markovketens (Ergodiciteit)). Zij {Xt}t∈Neen positief recurrente Markovketen. Dan als f een begrensde reele functie is metE |f(X1)| <∞ dan geldt

P

(limn→∞

1

n

n∑i=1

f(Xi) = E [f(X1)]

)= 1.

Voor bewijzen van deze stellingen en precieze formeleringen verwijs ik naar het boekMarkov Chains geschreven door J.R. Norris [5].

37

Page 38: De Statistische Analyse van Netwerken · de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informa-tienetwerk zoals het internet is een kenmerkend voorbeeld.

B. Populaire samenvatting

In ons hedendaags leven zijn netwerken eigenlijk niet meer weg te denken. Netwerkenzoals Facebook, Twitter en het internet (World Wide Web) zijn voorbeelden van net-werken die een prominente positie hebben ingenomen. Niet alleen deze netwerken zijnnetwerken waarmee mensen in contact staan andere voorbeelden zijn marketingnetwer-ken van bedrijven, netwerken van de verspreiding van ziektes en zo zijn er nog veel meervoorbeelden.

Hoe meer we dus over netwerken te weten komen hoe meer we over ons dagelijks levenweten. Een misschien niet meteen voor de hand liggende manier om dit te doen ismet wiskunde. Namelijk de wiskunde geeft ons de mogelijkheid om netwerkmodellen temaken om zo netwerken te kunnen modelleren. Een voor de hand liggende vraag is nunatuurlijk ”Wat is modelleren?”. Als we iets willen modelleren dan willen we meestal eenwiskundig model maken van iets dat we tegenkomen. Om zo’n wiskundig model makenmoeten we een abstracte formulering vinden van de werkelijkheid. Bij het bekijken vannetwerken doen we dit meestal met statistiek, namelijk we willen een kans toekennenaan een bepaald netwerk om te kijken of deze voldoet aan onze eisen.

Als we dan een goed model gevonden hebben dan kan er met een geobserveerd netwerk alveel gedaan worden. Bijvoorbeeld de verspreiding van ziektes kan voorspeld worden, demeest effectieve vorm van marketing kan gevonden worden en groei van sociale netwerkenkan voorspeld worden. Zo zijn er vele redenen om netwerkmodellen te bekijken die indeze scriptie ook benoemd zullen worden.

Aangezien we nog niet weten hoe zo’n model er precies uitziet zal er daarna behandeldworden hoe zo’n model eruit ziet en in het bijzonder zal er een model in detail behandeldworden. Er zal blijken dat belangrijke al bestaande methodes in de statistiek gebruiktkunnen worden om dit model te bekijken. Als dit gedaan is zal er nog een toepassingvan het model behandeld worden dat gaat over hersennetwerken.

Al met al biedt deze scriptie dus een kleine introductie het tot onderzoeksgebied van denetwerken. Een interessant vakgebied waar we nog veel over te weten kunnen komen.

38