Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een...

29
Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er loopt een pijl van een knoop naar een andere knoop als er een link is van de ene naar de andere webpagina Veel knopen: ~ 11.5 miljard! Nog (veel) meer pijlen… Bedenk… … dat niemand deze graaf exact kent! (Ook Google niet) zoekmachines slechts met een deel werken, door de crawlers in kaart gebracht (maar dat snel veroudert…).

Transcript of Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een...

Page 1: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Het Web als een graafMathematical

Institute

LAPP-Top C-I

We kunnen het (Surface) Web zien als een gerichte graaf:

• Iedere webpagina is een knoop…

• Er loopt een pijl van een knoop naar een andere knoop als er een link is van de ene naar de andere webpagina

Veel knopen: ~ 11.5 miljard!Nog (veel) meer pijlen…

Bedenk…… dat niemand deze graaf exact kent! (Ook Google niet)

… zoekmachines slechts met een deel werken, door de crawlers in kaart gebracht (maar dat snel veroudert…).

Page 2: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Structuur van het WebMathematical

Institute

LAPP-Top C-I

Structuur van een deel van het Web:(opnieuw)

• 200 miljoen pagina’s, 1.5 miljard links

• Door Broder et al.(2000)

SCC: Strictly Connected Component

Page 3: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Precieze graaf van het gecrawlde deel van het Web(op ‘een’ tijdstip)

Google’s PageRankMathematical

Institute

LAPP-Top C-I

?? Echte Web

Gebruik de ‘spiders’ om een webgraaf te maken van een deel van het (Surface) Web

Page 4: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

LAPP-Top C-I

Idee:

Een pagina is belangrijk als veel en\of belangrijke pagina’s naar haar linken

Google: hoe belangrijker de pagina, des te hoger de PageRank

Hoe dit idee exact / wiskundig maken?

Hoe hiermee praktisch te rekenen?

Page 5: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

LAPP-Top C-I

1

4 3

2

incidentiematrix=link matrix Voorbeeld Web

Dus:

Is dit een goede keuze?

Page 6: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

LAPP-Top C-I

1

4 3

2

incidentiematrix Voorbeeld Web

Truc: verdeel de PageRank van een pagina eerlijk over haar uitgaande links

Dan:

Page 7: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

LAPP-Top C-ILAPP-Top C-I

Dit geeft de PageRank vergelijkingen:

Page 8: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

In de vorm van een matrixvergelijking wordt dit:

=

LAPP-Top C-I

Of: =

met

Page 9: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

LAPP-Top C-I

Gevraagd: een oplossing van de PageRank vergelijking

Bestaat er altijd een oplossing?Zo ja, willen we er maar eentje! Wanneer is dit het geval?

Twee stappen:

Vergelijk link matrix en P Physisch model van random surfer om dit beter te begrijpen

Page 10: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

3

Link matrix en P Mathematical

Institute

LAPP-Top C-I

In linkmatrix: deel rij van webpagina i door het aantal uitgaande links rij i van P

Rijen van P tellen op tot 1, elementen zijn niet-negatief d.w.z. P is een stochastische matrix.

1

4

2

Page 11: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Machten van P MathematicalInstitute

LAPP-Top C-I

dus:

Kunnen we berekenen via matrixvermenigvuldiging:

Zijn allemaal stochastisch!!

Page 12: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Verdelen.... MathematicalInstitute

LAPP-Top C-I

Van gaa

tnaar

en naar

Page 13: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Random surferMathematical

Institute

LAPP-Top C-I

Is precies 2-de rij van

Wat stelt dit nu voor?Dit is de kansverdeling waar een random surfer die op pagina 2 begint, na 2 klikken

terecht komt

Page 14: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Random surfer MathematicalInstitute

LAPP-Top C-I

Definieer de bezoekfrequenties van de random surfer:

kans dat random surfer op pagina i begintkans dat random surfer na N

klikken op pagina i is

Bezoekfrequenties te berekenen via formule

(Paragraaf 5.1, M= aantal webpagina’s)

Page 15: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Random surfer verdeling MathematicalInstitute

LAPP-Top C-ILAPP-Top C-I

Stelling: in ons voorbeeld web geldt de PageRank vergelijking heeft 1

oplossing voor elk startpunt van de random surfer

geldt dat

Vraag: geldt dit altijd?? Volgende week...

24

1,3

Page 16: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Random surfer Mathematical

Institute

LAPP-Top C-I

1

4 3

2

Idee:

Page 17: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Problemen: dangling node MathematicalInstitute

LAPP-Top C-I

1

4 3

2

Page 18: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Problemen MathematicalInstitute

LAPP-Top C-I

Page 19: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Page 20: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Page 21: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Page 22: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Page 23: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Page 24: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Page 25: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

-graaf:

Volledige graaf, zonder dangling links;surfer kan nooit in een deel ‘blijven hangen’

Google’s PageRankMathematical

Institute

LAPP-Top C-I(26) Sander Hille

2.) ‘Verwijder’ dangling links door ‘easily bored surfer model’:surfers kunnen met een (kleine) kans naar een willekeurige andere pagina klikken

Precieze graaf van het gecrawlde deel van het Web

Woensdag, 21 januari 2009

Page 26: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

LAPP-Top C-I(27) Sander Hille

‘Google vergelijkingen’:

Sergey Brin en Larry Page

(voor i = 1,…, n)

n: Totaal aantal pagina’s (knopen) in de Googlegraafd: ‘Dempingsfactor’ (Google: d = 0.85)Nj : Aantal uitgaande links vanuit knoop jAji : ‘Aantal’ links van knoop j naar knoop i (waarde: 0 of 1)

PR(i): PageRank van pagina i

Woensdag, 21 januari 2009

Page 27: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

LAPP-Top C-I(27) Sander Hille

‘Google vergelijkingen’:

Sergey Brin en Larry Page

(voor i = 1,…, n)

Bedenk dat …… de Google-PageRank hoort bij de zogenaamde Google-graaf;

niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip)

… de Google-PageRank niet kijkt naar de inhoud van de pagina’s.

… eens per maand wordt berekend! ‘Google dance’

In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken

Woensdag, 21 januari 2009

Page 28: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Google’s PageRankMathematical

Institute

LAPP-Top C-I(27) Sander Hille

‘Google vergelijkingen’:

Sergey Brin en Larry Page

(voor i = 1,…, n)

Bedenk dat …… de Google-PageRank hoort bij de zogenaamde Google-graaf;

niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip)

… de Google-PageRank niet kijkt naar de inhoud van de pagina’s.

… eens per maand wordt berekend! ‘Google dance’

In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken

Woensdag, 21 januari 2009

Page 29: Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Het Web als een graafMathematical

Institute

LAPP-Top C-I(23) Sander Hille

‘Dangling nodes’Dead ends /pagina’s zonder uit-link

Dead end

• Herkenbaar aan een rij 0-en in de incidentiematrix:

~ 80% van de pagina’s in een webgraaf die verkregen isuit een ‘crawl’ zijn dangling nodes…

Kevin McCurley: collectie dangling nodes in een crawl:

Web Frontier