Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een...

Post on 13-May-2015

214 views 0 download

Transcript of Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een...

Het Web als een graafMathematical

Institute

LAPP-Top C-I

We kunnen het (Surface) Web zien als een gerichte graaf:

• Iedere webpagina is een knoop…

• Er loopt een pijl van een knoop naar een andere knoop als er een link is van de ene naar de andere webpagina

Veel knopen: ~ 11.5 miljard!Nog (veel) meer pijlen…

Bedenk…… dat niemand deze graaf exact kent! (Ook Google niet)

… zoekmachines slechts met een deel werken, door de crawlers in kaart gebracht (maar dat snel veroudert…).

Structuur van het WebMathematical

Institute

LAPP-Top C-I

Structuur van een deel van het Web:(opnieuw)

• 200 miljoen pagina’s, 1.5 miljard links

• Door Broder et al.(2000)

SCC: Strictly Connected Component

Precieze graaf van het gecrawlde deel van het Web(op ‘een’ tijdstip)

Google’s PageRankMathematical

Institute

LAPP-Top C-I

?? Echte Web

Gebruik de ‘spiders’ om een webgraaf te maken van een deel van het (Surface) Web

Google’s PageRankMathematical

Institute

LAPP-Top C-I

Idee:

Een pagina is belangrijk als veel en\of belangrijke pagina’s naar haar linken

Google: hoe belangrijker de pagina, des te hoger de PageRank

Hoe dit idee exact / wiskundig maken?

Hoe hiermee praktisch te rekenen?

Google’s PageRankMathematical

Institute

LAPP-Top C-I

1

4 3

2

incidentiematrix=link matrix Voorbeeld Web

Dus:

Is dit een goede keuze?

Google’s PageRankMathematical

Institute

LAPP-Top C-I

1

4 3

2

incidentiematrix Voorbeeld Web

Truc: verdeel de PageRank van een pagina eerlijk over haar uitgaande links

Dan:

Google’s PageRankMathematical

Institute

LAPP-Top C-ILAPP-Top C-I

Dit geeft de PageRank vergelijkingen:

Google’s PageRankMathematical

Institute

In de vorm van een matrixvergelijking wordt dit:

=

LAPP-Top C-I

Of: =

met

Google’s PageRankMathematical

Institute

LAPP-Top C-I

Gevraagd: een oplossing van de PageRank vergelijking

Bestaat er altijd een oplossing?Zo ja, willen we er maar eentje! Wanneer is dit het geval?

Twee stappen:

Vergelijk link matrix en P Physisch model van random surfer om dit beter te begrijpen

3

Link matrix en P Mathematical

Institute

LAPP-Top C-I

In linkmatrix: deel rij van webpagina i door het aantal uitgaande links rij i van P

Rijen van P tellen op tot 1, elementen zijn niet-negatief d.w.z. P is een stochastische matrix.

1

4

2

Machten van P MathematicalInstitute

LAPP-Top C-I

dus:

Kunnen we berekenen via matrixvermenigvuldiging:

Zijn allemaal stochastisch!!

Verdelen.... MathematicalInstitute

LAPP-Top C-I

Van gaa

tnaar

en naar

Random surferMathematical

Institute

LAPP-Top C-I

Is precies 2-de rij van

Wat stelt dit nu voor?Dit is de kansverdeling waar een random surfer die op pagina 2 begint, na 2 klikken

terecht komt

Random surfer MathematicalInstitute

LAPP-Top C-I

Definieer de bezoekfrequenties van de random surfer:

kans dat random surfer op pagina i begintkans dat random surfer na N

klikken op pagina i is

Bezoekfrequenties te berekenen via formule

(Paragraaf 5.1, M= aantal webpagina’s)

Random surfer verdeling MathematicalInstitute

LAPP-Top C-ILAPP-Top C-I

Stelling: in ons voorbeeld web geldt de PageRank vergelijking heeft 1

oplossing voor elk startpunt van de random surfer

geldt dat

Vraag: geldt dit altijd?? Volgende week...

24

1,3

Random surfer Mathematical

Institute

LAPP-Top C-I

1

4 3

2

Idee:

Problemen: dangling node MathematicalInstitute

LAPP-Top C-I

1

4 3

2

Problemen MathematicalInstitute

LAPP-Top C-I

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

Google’s PageRank MathematicalInstitute

LAPP-Top C-I

-graaf:

Volledige graaf, zonder dangling links;surfer kan nooit in een deel ‘blijven hangen’

Google’s PageRankMathematical

Institute

LAPP-Top C-I(26) Sander Hille

2.) ‘Verwijder’ dangling links door ‘easily bored surfer model’:surfers kunnen met een (kleine) kans naar een willekeurige andere pagina klikken

Precieze graaf van het gecrawlde deel van het Web

Woensdag, 21 januari 2009

Google’s PageRankMathematical

Institute

LAPP-Top C-I(27) Sander Hille

‘Google vergelijkingen’:

Sergey Brin en Larry Page

(voor i = 1,…, n)

n: Totaal aantal pagina’s (knopen) in de Googlegraafd: ‘Dempingsfactor’ (Google: d = 0.85)Nj : Aantal uitgaande links vanuit knoop jAji : ‘Aantal’ links van knoop j naar knoop i (waarde: 0 of 1)

PR(i): PageRank van pagina i

Woensdag, 21 januari 2009

Google’s PageRankMathematical

Institute

LAPP-Top C-I(27) Sander Hille

‘Google vergelijkingen’:

Sergey Brin en Larry Page

(voor i = 1,…, n)

Bedenk dat …… de Google-PageRank hoort bij de zogenaamde Google-graaf;

niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip)

… de Google-PageRank niet kijkt naar de inhoud van de pagina’s.

… eens per maand wordt berekend! ‘Google dance’

In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken

Woensdag, 21 januari 2009

Google’s PageRankMathematical

Institute

LAPP-Top C-I(27) Sander Hille

‘Google vergelijkingen’:

Sergey Brin en Larry Page

(voor i = 1,…, n)

Bedenk dat …… de Google-PageRank hoort bij de zogenaamde Google-graaf;

niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip)

… de Google-PageRank niet kijkt naar de inhoud van de pagina’s.

… eens per maand wordt berekend! ‘Google dance’

In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken

Woensdag, 21 januari 2009

Het Web als een graafMathematical

Institute

LAPP-Top C-I(23) Sander Hille

‘Dangling nodes’Dead ends /pagina’s zonder uit-link

Dead end

• Herkenbaar aan een rij 0-en in de incidentiematrix:

~ 80% van de pagina’s in een webgraaf die verkregen isuit een ‘crawl’ zijn dangling nodes…

Kevin McCurley: collectie dangling nodes in een crawl:

Web Frontier