Post on 13-May-2015
Het Web als een graafMathematical
Institute
LAPP-Top C-I
We kunnen het (Surface) Web zien als een gerichte graaf:
• Iedere webpagina is een knoop…
• Er loopt een pijl van een knoop naar een andere knoop als er een link is van de ene naar de andere webpagina
Veel knopen: ~ 11.5 miljard!Nog (veel) meer pijlen…
Bedenk…… dat niemand deze graaf exact kent! (Ook Google niet)
… zoekmachines slechts met een deel werken, door de crawlers in kaart gebracht (maar dat snel veroudert…).
Structuur van het WebMathematical
Institute
LAPP-Top C-I
Structuur van een deel van het Web:(opnieuw)
• 200 miljoen pagina’s, 1.5 miljard links
• Door Broder et al.(2000)
SCC: Strictly Connected Component
Precieze graaf van het gecrawlde deel van het Web(op ‘een’ tijdstip)
Google’s PageRankMathematical
Institute
LAPP-Top C-I
?? Echte Web
Gebruik de ‘spiders’ om een webgraaf te maken van een deel van het (Surface) Web
Google’s PageRankMathematical
Institute
LAPP-Top C-I
Idee:
Een pagina is belangrijk als veel en\of belangrijke pagina’s naar haar linken
Google: hoe belangrijker de pagina, des te hoger de PageRank
Hoe dit idee exact / wiskundig maken?
Hoe hiermee praktisch te rekenen?
Google’s PageRankMathematical
Institute
LAPP-Top C-I
1
4 3
2
incidentiematrix=link matrix Voorbeeld Web
Dus:
Is dit een goede keuze?
Google’s PageRankMathematical
Institute
LAPP-Top C-I
1
4 3
2
incidentiematrix Voorbeeld Web
Truc: verdeel de PageRank van een pagina eerlijk over haar uitgaande links
Dan:
Google’s PageRankMathematical
Institute
LAPP-Top C-ILAPP-Top C-I
Dit geeft de PageRank vergelijkingen:
Google’s PageRankMathematical
Institute
In de vorm van een matrixvergelijking wordt dit:
=
LAPP-Top C-I
Of: =
met
Google’s PageRankMathematical
Institute
LAPP-Top C-I
Gevraagd: een oplossing van de PageRank vergelijking
Bestaat er altijd een oplossing?Zo ja, willen we er maar eentje! Wanneer is dit het geval?
Twee stappen:
Vergelijk link matrix en P Physisch model van random surfer om dit beter te begrijpen
3
Link matrix en P Mathematical
Institute
LAPP-Top C-I
In linkmatrix: deel rij van webpagina i door het aantal uitgaande links rij i van P
Rijen van P tellen op tot 1, elementen zijn niet-negatief d.w.z. P is een stochastische matrix.
1
4
2
Machten van P MathematicalInstitute
LAPP-Top C-I
dus:
Kunnen we berekenen via matrixvermenigvuldiging:
Zijn allemaal stochastisch!!
Verdelen.... MathematicalInstitute
LAPP-Top C-I
Van gaa
tnaar
en naar
Random surferMathematical
Institute
LAPP-Top C-I
Is precies 2-de rij van
Wat stelt dit nu voor?Dit is de kansverdeling waar een random surfer die op pagina 2 begint, na 2 klikken
terecht komt
Random surfer MathematicalInstitute
LAPP-Top C-I
Definieer de bezoekfrequenties van de random surfer:
kans dat random surfer op pagina i begintkans dat random surfer na N
klikken op pagina i is
Bezoekfrequenties te berekenen via formule
(Paragraaf 5.1, M= aantal webpagina’s)
Random surfer verdeling MathematicalInstitute
LAPP-Top C-ILAPP-Top C-I
Stelling: in ons voorbeeld web geldt de PageRank vergelijking heeft 1
oplossing voor elk startpunt van de random surfer
geldt dat
Vraag: geldt dit altijd?? Volgende week...
24
1,3
Random surfer Mathematical
Institute
LAPP-Top C-I
1
4 3
2
Idee:
Problemen: dangling node MathematicalInstitute
LAPP-Top C-I
1
4 3
2
Problemen MathematicalInstitute
LAPP-Top C-I
Google’s PageRank MathematicalInstitute
LAPP-Top C-I
Google’s PageRank MathematicalInstitute
LAPP-Top C-I
Google’s PageRank MathematicalInstitute
LAPP-Top C-I
Google’s PageRank MathematicalInstitute
LAPP-Top C-I
Google’s PageRank MathematicalInstitute
LAPP-Top C-I
Google’s PageRank MathematicalInstitute
LAPP-Top C-I
-graaf:
Volledige graaf, zonder dangling links;surfer kan nooit in een deel ‘blijven hangen’
Google’s PageRankMathematical
Institute
LAPP-Top C-I(26) Sander Hille
2.) ‘Verwijder’ dangling links door ‘easily bored surfer model’:surfers kunnen met een (kleine) kans naar een willekeurige andere pagina klikken
Precieze graaf van het gecrawlde deel van het Web
Woensdag, 21 januari 2009
Google’s PageRankMathematical
Institute
LAPP-Top C-I(27) Sander Hille
‘Google vergelijkingen’:
Sergey Brin en Larry Page
(voor i = 1,…, n)
n: Totaal aantal pagina’s (knopen) in de Googlegraafd: ‘Dempingsfactor’ (Google: d = 0.85)Nj : Aantal uitgaande links vanuit knoop jAji : ‘Aantal’ links van knoop j naar knoop i (waarde: 0 of 1)
PR(i): PageRank van pagina i
Woensdag, 21 januari 2009
Google’s PageRankMathematical
Institute
LAPP-Top C-I(27) Sander Hille
‘Google vergelijkingen’:
Sergey Brin en Larry Page
(voor i = 1,…, n)
Bedenk dat …… de Google-PageRank hoort bij de zogenaamde Google-graaf;
niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip)
… de Google-PageRank niet kijkt naar de inhoud van de pagina’s.
… eens per maand wordt berekend! ‘Google dance’
In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken
Woensdag, 21 januari 2009
Google’s PageRankMathematical
Institute
LAPP-Top C-I(27) Sander Hille
‘Google vergelijkingen’:
Sergey Brin en Larry Page
(voor i = 1,…, n)
Bedenk dat …… de Google-PageRank hoort bij de zogenaamde Google-graaf;
niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip)
… de Google-PageRank niet kijkt naar de inhoud van de pagina’s.
… eens per maand wordt berekend! ‘Google dance’
In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken
Woensdag, 21 januari 2009
Het Web als een graafMathematical
Institute
LAPP-Top C-I(23) Sander Hille
‘Dangling nodes’Dead ends /pagina’s zonder uit-link
Dead end
• Herkenbaar aan een rij 0-en in de incidentiematrix:
~ 80% van de pagina’s in een webgraaf die verkregen isuit een ‘crawl’ zijn dangling nodes…
Kevin McCurley: collectie dangling nodes in een crawl:
Web Frontier