Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit...

39
Documentverwerking Documentverwerking P10 Zoekrobotten P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Faculteit IngenieursWetenschappen Universiteit Gent Universiteit Gent

Transcript of Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit...

Page 1: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

DocumentverwerkingDocumentverwerkingP10 ZoekrobottenP10 Zoekrobotten

Prof.Dr.ir. Patrick P. BergmansProf.Dr.ir. Patrick P. BergmansFaculteit IngenieursWetenschappenFaculteit IngenieursWetenschappen

Universiteit GentUniversiteit Gent

Page 2: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

2

Zoekrobotten (1)Zoekrobotten (1) Doelstelling van Zoekrobotten: het vinden van Doelstelling van Zoekrobotten: het vinden van

documenten, in grote documentverzamelingen, die documenten, in grote documentverzamelingen, die beantwoorden aan bepaalde eigenschappenbeantwoorden aan bepaalde eigenschappen Documenttypes: html, pdf, andereDocumenttypes: html, pdf, andere Eigenschappen: meestal het bevatten van een Eigenschappen: meestal het bevatten van een

aantal trefwoorden, opgegeven a.d.h. een vraag aantal trefwoorden, opgegeven a.d.h. een vraag (query)(query)

Eigenschappen kunnen ook anders zijn (metadata)Eigenschappen kunnen ook anders zijn (metadata) Zoekrobotten voor de WWWZoekrobotten voor de WWW

Eigenlijk een gigantisch “hyperlinked” documentEigenlijk een gigantisch “hyperlinked” document Zoekrobotten voor DMS (Document Management Zoekrobotten voor DMS (Document Management

Systems)Systems) Belangrijk conceptueel verschil:Belangrijk conceptueel verschil:

Documenten worden op de WWW totaal Documenten worden op de WWW totaal ongecontroleerd geplaatstongecontroleerd geplaatst

Het opslaan van documenten in DMS gebeurt Het opslaan van documenten in DMS gebeurt volledig gecontroleerd volledig gecontroleerd

Page 3: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

3

Zoekrobotten (2)Zoekrobotten (2) Zoekrobotten voor de WWWZoekrobotten voor de WWW Hoe groot is de WWW (aantal bladzijden)?Hoe groot is de WWW (aantal bladzijden)?

Enkele duizendtallen in het begin (1990+)Enkele duizendtallen in het begin (1990+) 20 miljard vandaag20 miljard vandaag

Tot een paar jaar geleden, >50% EngelstaligTot een paar jaar geleden, >50% Engelstalig De meeste zoekrobotten zijn zelf bereikbaar via De meeste zoekrobotten zijn zelf bereikbaar via

het Internet, als zgn. “web-toepassingen” op een het Internet, als zgn. “web-toepassingen” op een bepaald adresbepaald adres www.google.com of IP-adres 64.233.183.99 of IP-adres 64.233.183.99

Hoe werkt zo’n zoekrobot?Hoe werkt zo’n zoekrobot? Gebruik van (soms zeer uitgebreide) Gebruik van (soms zeer uitgebreide)

indextafels, waarvan de opbouw een totaal indextafels, waarvan de opbouw een totaal afzonderlijk proces isafzonderlijk proces is

Indextafels bevatten de trefwoorden waarop Indextafels bevatten de trefwoorden waarop kan gezocht wordenkan gezocht worden

Zoektijd is dus allen de zoektijd in die Zoektijd is dus allen de zoektijd in die indextafels indextafels

Page 4: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

4

Zoekrobotten (3)Zoekrobotten (3) Korte geschiedenis:Korte geschiedenis:

Archie, 1990, McGill University; eigenlijk geen Archie, 1990, McGill University; eigenlijk geen WWW zoekrobot, maar een FMS zoekrobot, WWW zoekrobot, maar een FMS zoekrobot, voorganger van DMS zoekrobottenvoorganger van DMS zoekrobotten

Lycos, 1994, Carnegie Mellon University; Lycos, 1994, Carnegie Mellon University; ongeveer 1.000.000 documenten geïndexeerdongeveer 1.000.000 documenten geïndexeerd

Altavista, 1995, Digital Equipment Corp; eerste Altavista, 1995, Digital Equipment Corp; eerste meertalig zoekrobot (ENG, FRA, ESP, GER, POR, meertalig zoekrobot (ENG, FRA, ESP, GER, POR, ITA, RUS)ITA, RUS)

Google, 1998-2001, Google Corp; ontworpen Google, 1998-2001, Google Corp; ontworpen voor massieve opschaling (duizendtallen voor massieve opschaling (duizendtallen computers onderhouden de index)computers onderhouden de index)

Baidu, 1999, China; eerste Chinees zoekrobot; Baidu, 1999, China; eerste Chinees zoekrobot; gecensureerd door Chinese regeringgecensureerd door Chinese regering

Quaero, 2006, Europa; multimedia zoekrobot Quaero, 2006, Europa; multimedia zoekrobot (beelden, klanken, enz)(beelden, klanken, enz)

Zie Zie www.searchengines.com

Page 5: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

5

Zoekrobotten (4)Zoekrobotten (4)

Uit Wikipedia ©

Page 6: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

6

Zoekrobotten (5)Zoekrobotten (5) Prestatieparameters van zoekrobotten, Prestatieparameters van zoekrobotten,

op een gestelde vraag:op een gestelde vraag: Recall: het aantal gevonden documentenRecall: het aantal gevonden documenten Relevance: een maat van hoe sterk de Relevance: een maat van hoe sterk de

gevonden documenten aan de vraag gevonden documenten aan de vraag beantwoordenbeantwoorden

Return time: de tijd nodig om de Return time: de tijd nodig om de documenten te vinden (of liever, documenten te vinden (of liever, referenties naar die documenten)referenties naar die documenten)

Typische verhouding tussen “recall” en Typische verhouding tussen “recall” en “relevance”: “relevance”:

Recall

Relevance

Page 7: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

7

Zoekrobotten (6)Zoekrobotten (6) Zoekvragen zijn Boolese uitdrukkingen metZoekvragen zijn Boolese uitdrukkingen met

EnEn AND + &AND + & OfOf OR |OR | NietNiet NOT - !NOT - ! NabijNabij NEAR ~NEAR ~ Vorming van zinnen “ … “Vorming van zinnen “ … “ Gebruik van haakjes ( ) is meestal toegelatenGebruik van haakjes ( ) is meestal toegelaten

Bijkomende opties op bepaalde zoekrobottenBijkomende opties op bepaalde zoekrobotten DatumDatum Formaat van de bestandenFormaat van de bestanden FiltersFilters Benadrukken van gezochte trefwoordenBenadrukken van gezochte trefwoorden TaalfunctiesTaalfuncties Beperkte zoekgebieden Beperkte zoekgebieden

Page 8: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

8

Zoekrobotten (7)Zoekrobotten (7) Opbouwen van de index: door “(Web) Opbouwen van de index: door “(Web)

Crawlers” (kruipprogramma’s)Crawlers” (kruipprogramma’s) Maken de ronde van de WWW; starten met Maken de ronde van de WWW; starten met

een lijst van vooropgestelde URL’seen lijst van vooropgestelde URL’s Halen bladzijden in; deze fase wordt soms Halen bladzijden in; deze fase wordt soms

“spider” genoemd; opgehaalde bladzijden “spider” genoemd; opgehaalde bladzijden worden opgeslagen in een “cache”worden opgeslagen in een “cache”

Extraheren van trefwoorden uit de Extraheren van trefwoorden uit de bladzijden en stoppen die in de index bladzijden en stoppen die in de index (“indexer”)(“indexer”)

Identificeren hyperlinks in de bladzijde, en Identificeren hyperlinks in de bladzijde, en ze doorgeven aan de “spider”ze doorgeven aan de “spider”

Details over de werking van web crawlers Details over de werking van web crawlers worden dikwijls geheim gehouden door worden dikwijls geheim gehouden door de firma’s die ze uitbatende firma’s die ze uitbaten

Page 9: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

9

Zoekrobotten (8)Zoekrobotten (8) (Web) crawlers worden ook anders genoemd: (Web) crawlers worden ook anders genoemd:

bots, wanderers, agents, enzbots, wanderers, agents, enz Web crawlers kunnen ook andere taken vervullenWeb crawlers kunnen ook andere taken vervullen

Geautomatiseerd onderhoud van web sitesGeautomatiseerd onderhoud van web sites Verzamelen van specifieke informatie (e-mail Verzamelen van specifieke informatie (e-mail

adressen, telefoonnummers)adressen, telefoonnummers) Bewaking en detectie van nieuwighedenBewaking en detectie van nieuwigheden Verzameling van statistische gegevensVerzameling van statistische gegevens

Architectuur van web crawlersArchitectuur van web crawlers Gecentraliseerd: bestaat praktisch niet meerGecentraliseerd: bestaat praktisch niet meer Parallel: om vanuit verschillende processen, Parallel: om vanuit verschillende processen,

bladzijden in parallel op te ladenbladzijden in parallel op te laden Gedistribueerd: parallel maar ook fysisch Gedistribueerd: parallel maar ook fysisch

verdeeldverdeeld Getypeerd: zoekproces beperkt zich tot Getypeerd: zoekproces beperkt zich tot

bepaalde typesbepaalde types

Page 10: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

10

Zoekrobotten (9)Zoekrobotten (9) Strategie van web crawlersStrategie van web crawlers

Selectiestrategie bepaalt welke bladzijden Selectiestrategie bepaalt welke bladzijden opgeladen wordenopgeladen worden• Ontdekkingsmechanisme (exploratie)Ontdekkingsmechanisme (exploratie)• Filtering bepaalt welke bladzijden weerhouden Filtering bepaalt welke bladzijden weerhouden

wordenworden Prioriteitstrategie bepaalt de volgordePrioriteitstrategie bepaalt de volgorde Herneemstrategie bepaalt wanneer reeds Herneemstrategie bepaalt wanneer reeds

bezochte bladzijden opnieuw bekeken worden bezochte bladzijden opnieuw bekeken worden (cache refresh)(cache refresh)

Parameters van een bladzijde in de cache van Parameters van een bladzijde in de cache van een zoekrobot/crawler een zoekrobot/crawler Versheid (freshness): {0, 1} functie van de tijd Versheid (freshness): {0, 1} functie van de tijd

die aanduidt dat de cache een exacte kopie die aanduidt dat de cache een exacte kopie bevatbevat

Ouderdom (age): functie van de tijd die de tijd Ouderdom (age): functie van de tijd die de tijd sedert de laatste niet-gedetecteerde wijziging sedert de laatste niet-gedetecteerde wijziging aangeeftaangeeft

Page 11: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

11

Zoekrobotten (10)Zoekrobotten (10)

Gemiddelde versheid moet zo hoog Gemiddelde versheid moet zo hoog mogelijk zijnmogelijk zijn

Gemiddeld ouderdom moet zo laag Gemiddeld ouderdom moet zo laag mogelijk zijnmogelijk zijn

Page 12: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

12

Zoekrobotten (11)Zoekrobotten (11) Herneemstrategie (revisiting) kanHerneemstrategie (revisiting) kan

Uniform zijn t.o.v. wijzigingsfrequentie van Uniform zijn t.o.v. wijzigingsfrequentie van bladzijdenbladzijden

Snelveranderende bladzijden frequenter Snelveranderende bladzijden frequenter hernemenhernemen

Een mengsel van beide aanpakkenEen mengsel van beide aanpakken ““Beleefdheid” van web crawlersBeleefdheid” van web crawlers

Crawlers moeten opletten om web servers met Crawlers moeten opletten om web servers met beperkte prestatie niet nodeloos zwaar te beperkte prestatie niet nodeloos zwaar te belastenbelasten

Slecht ontworpen crawlers kunnen web servers Slecht ontworpen crawlers kunnen web servers “platleggen”; vergelijkbaar met D.O.S. virussen“platleggen”; vergelijkbaar met D.O.S. virussen

Verdedigingsmechanisme tegen agressieve Verdedigingsmechanisme tegen agressieve crawlerscrawlers Robot.txt protocol (conventioneel gedefinieerd) Robot.txt protocol (conventioneel gedefinieerd)

inin http://www.robotstxt.org/wc/norobots.htmlhttp://www.robotstxt.org/wc/norobots.html

Page 13: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

13

Zoekrobotten (12)Zoekrobotten (12) Uitdagingen voor zoekrobotten en crawlers:Uitdagingen voor zoekrobotten en crawlers:

Groei van de WWW: 100.000 bladzijden per Groei van de WWW: 100.000 bladzijden per dag!!!dag!!!

Bestaande bladzijden worden ook heel Bestaande bladzijden worden ook heel dikwijls aangepast; moeten eveneens dikwijls aangepast; moeten eveneens opnieuw geïndexeerd worden, uitgenomen opnieuw geïndexeerd worden, uitgenomen als de aanpassing triviaal is (klok)als de aanpassing triviaal is (klok)

Google index wordt “in parallel” Google index wordt “in parallel” onderhouden door meer dan 5.000 computersonderhouden door meer dan 5.000 computers

De “deep web”De “deep web” Informatie op de WWW die schuilt in Informatie op de WWW die schuilt in

databanken (SQL, Access, enz)databanken (SQL, Access, enz) Bladzijden worden met deze informatie Bladzijden worden met deze informatie

dynamisch opgebouwd n.a.v. ondervragingendynamisch opgebouwd n.a.v. ondervragingen Web sites met toegangscontroleWeb sites met toegangscontrole

Page 14: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

14

Zoekrobotten (13)Zoekrobotten (13) DMS-gerichte zoekrobottenDMS-gerichte zoekrobotten Het opslaan/wijzigen van een document Het opslaan/wijzigen van een document

in een DMS geeft een signaal door aan de in een DMS geeft een signaal door aan de indexmanager, dat een document indexmanager, dat een document (opnieuw) moet geïndexeerd worden(opnieuw) moet geïndexeerd worden Omdat het gebeurt met speciale functies Omdat het gebeurt met speciale functies

van het DMSvan het DMS Kan ook met eenvoudige FMSKan ook met eenvoudige FMS

Het vernietigen van een document Het vernietigen van een document eveneenseveneens Zodanig dat referenties naar dit document Zodanig dat referenties naar dit document

kunnen ongeldig gemaakt wordenkunnen ongeldig gemaakt worden• In andere documentenIn andere documenten

• In de indexIn de index

Page 15: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

15

Zoekrobotten (14)Zoekrobotten (14) Index kan veel meer dan trefwoorden bevattenIndex kan veel meer dan trefwoorden bevatten Elk document wordt voorzien van metadata, al dan Elk document wordt voorzien van metadata, al dan

niet automatisch gegenereerdniet automatisch gegenereerd Auteur, oorsprong, enz.Auteur, oorsprong, enz. InhoudstafelInhoudstafel Historiek van wijzigingenHistoriek van wijzigingen Samenvatting (summarization), automatisch of nietSamenvatting (summarization), automatisch of niet

• Eventueel vertaald, automatisch of nietEventueel vertaald, automatisch of niet Semantische trefwoordenSemantische trefwoorden

Die metadata worden ook geïndexeerdDie metadata worden ook geïndexeerd Met vrij complexe operaties, bvb. semantische linksMet vrij complexe operaties, bvb. semantische links

Zoekvragen (queries) kunnen ook op specifieke Zoekvragen (queries) kunnen ook op specifieke metadata slaanmetadata slaan

Zoekrobot wordt dan integraal component van DMS Zoekrobot wordt dan integraal component van DMS

Page 16: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

16

Zoekrobotten (15)Zoekrobotten (15) Ander type zoekrobotten: meta-zoekrobottenAnder type zoekrobotten: meta-zoekrobotten

Hebben zelf geen indexHebben zelf geen index Vormen de vraag om naar de vraagvorm van Vormen de vraag om naar de vraagvorm van

een of meerdere andere robotteneen of meerdere andere robotten Sturen de vraag door, soms naar tientallen Sturen de vraag door, soms naar tientallen

zoekrobotten, die wel over indextafels zoekrobotten, die wel over indextafels beschikkenbeschikken

Verzamelen de resultatenVerzamelen de resultaten Passen bepaalde criteria toe, en tonen Passen bepaalde criteria toe, en tonen

geconsolideerde resultaten aan de gebruikergeconsolideerde resultaten aan de gebruiker Bijkomende eigenschappen van meta-Bijkomende eigenschappen van meta-

zoekrobottenzoekrobotten Beheren van toegangsrechtenBeheren van toegangsrechten Groeperen van resultaten (“clusteren”)Groeperen van resultaten (“clusteren”) Andere functies, zoals vertaling van de vraag, Andere functies, zoals vertaling van de vraag,

expansie van de vraag, enz.expansie van de vraag, enz. Gemengd WWW en DMS meta-zoekrobottenGemengd WWW en DMS meta-zoekrobotten

Page 17: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

17

De Google Story (1)De Google Story (1)

Waarom is Google zo bijzonder?Waarom is Google zo bijzonder? De creatie van het product/systeem en van De creatie van het product/systeem en van

het bedrijfhet bedrijf De technologieDe technologie De bedrijfscultuurDe bedrijfscultuur Het Het business modelbusiness model

• van Googlevan Google

• rond Googlerond Google De evolutie van het product/systeem en de De evolutie van het product/systeem en de

strategie van het bedrijfstrategie van het bedrijf

Page 18: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

18

De Google Story (2)De Google Story (2)

Het artikel dat alles begon kwam van twee Het artikel dat alles begon kwam van twee doctoraatstudenten van Stanford Universitydoctoraatstudenten van Stanford University““The Anatomy of a Large-Scale The Anatomy of a Large-Scale Hypertextual Web Search Engine”, van Hypertextual Web Search Engine”, van Sergey Brin and Lawrence PageSergey Brin and Lawrence Page

http://infolab.stanford.edu/~backrub/google.html Uit de samenvatting: “To engineer a search Uit de samenvatting: “To engineer a search

engine is a engine is a challengingchallenging task” task” Honderdtallen miljoenen Honderdtallen miljoenen Web bladzijdenWeb bladzijden Tientallen of honderdtallen miljoenen Tientallen of honderdtallen miljoenen

verschillende termenverschillende termen Tientallen miljoenen Tientallen miljoenen queriesqueries per dag per dag

• Honderdtallen of duizendtallen per secondeHonderdtallen of duizendtallen per seconde

Page 19: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

19

De Google Story (3)De Google Story (3)

Basisconcept: Basisconcept: GrootschaligGrootschalig Naam: Google is een andere schrijfwijze voor Naam: Google is een andere schrijfwijze voor

““GoogolGoogol”, of 10”, of 10100100 Yahoo! Was er vóór Google, maar:Yahoo! Was er vóór Google, maar:

Het bijhouden van de “index” van Yahoo! Gebeurt Het bijhouden van de “index” van Yahoo! Gebeurt manueel manueel

OK voor populaire onderwerpenOK voor populaire onderwerpen Ingewikkeld en duurIngewikkeld en duur Werkt niet voor gespecialiseerde onderwerpenWerkt niet voor gespecialiseerde onderwerpen

Zoekrobotten met automatische index, en Zoekrobotten met automatische index, en vergelijking van trefwoordenvergelijking van trefwoorden Leveren te veel resultaten opLeveren te veel resultaten op Kunnen door agressieve adverteerders gestoord Kunnen door agressieve adverteerders gestoord

wordenworden

Page 20: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

20

De Google Story (4)De Google Story (4)

Het artikel verscheen in 1998; het vermeldtHet artikel verscheen in 1998; het vermeldt World Wide Web Worm (94) World Wide Web Worm (94) 110,000110,000 web bladzijden web bladzijden WebCrawler (97) WebCrawler (97) 2 to 100 million 2 to 100 million bladzijdenbladzijden Voorziet in 2000 meer dan Voorziet in 2000 meer dan 1 miljard 1 miljard bladzijdenbladzijden

Het artikel focusseert op “Het artikel focusseert op “improved search improved search qualityquality”” Volledigheid van de index is geen garantie voor Volledigheid van de index is geen garantie voor

kwaliteitkwaliteit ““Recall” steeg, maar relevantie werd een probleemRecall” steeg, maar relevantie werd een probleem Gebruikers kijken niet verder dan de eerste Gebruikers kijken niet verder dan de eerste

(tientallen) resultaten(tientallen) resultaten

Page 21: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

21

De Google Story (5)De Google Story (5)

In de eerst dagen van Google was Internet snel In de eerst dagen van Google was Internet snel een belangrijke plaats aan het innemen in de een belangrijke plaats aan het innemen in de ““businessbusiness” wereld” wereld 1993: 1,5% van alle web sites waren van het 1993: 1,5% van alle web sites waren van het .com .com typetype 1997: 60% van alle web sites1997: 60% van alle web sites Maar ook … de “Maar ook … de “Internet bubbleInternet bubble” die barstte in de ” die barstte in de

vroege jaren 2000vroege jaren 2000 Einddoelstelling:Einddoelstelling:

Bouw een architectuur om Bouw een architectuur om nieuwe nieuwe onderzoeksactiviteiten onderzoeksactiviteiten te ondersteunen op (zeer) te ondersteunen op (zeer) grote schaalgrote schaal

Ondersteun Ondersteun bijkomend onderzoek bijkomend onderzoek op een echt op een echt draaiend systeem; verschillende onderzoeksprojecten draaiend systeem; verschillende onderzoeksprojecten hebben gebruik gemaakt van gegevens ingezameld hebben gebruik gemaakt van gegevens ingezameld door Googledoor Google

Page 22: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

22

De Google Story (6)De Google Story (6)

SysteemeigenschappenSysteemeigenschappen Gebruik de Gebruik de linkstructuur van de Web linkstructuur van de Web om een om een quality quality

ranking ranking voor elke bladzijde te berekenen; deze voor elke bladzijde te berekenen; deze ranking heet ranking heet PageRankPageRank (is het “page” van “web (is het “page” van “web pagepage”, of “page” van “Larry ”, of “page” van “Larry PagePage” ” ?)?)

De “citation” of “link graph” van de web is een De “citation” of “link graph” van de web is een belangrijk begrip dat reeds door andere belangrijk begrip dat reeds door andere zoekrobotten werd gebruiktzoekrobotten werd gebruikt

De Citation number De Citation number van een bladzijde is het van een bladzijde is het aantal andere bladzijden die naar die bladzijde aantal andere bladzijden die naar die bladzijde wijzen wijzen (met html hyperlinks)(met html hyperlinks) Niet Niet het aantal links op de bladzijde, maarhet aantal links op de bladzijde, maar Het aantal “Het aantal “backlinksbacklinks””

Page 23: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

23

De Google Story (7)De Google Story (7)

PageRank gebruikt dit begrip, maar PageRank gebruikt dit begrip, maar beschouwt beschouwt niet alle backlinks als gelijkwaardig;niet alle backlinks als gelijkwaardig; en en normaliseertnormaliseert het aantal links op een bladzijde het aantal links op een bladzijde

[citaat uit het artikel] We assume page A has [citaat uit het artikel] We assume page A has T1, T2, … Tn which point to it. The parameter d T1, T2, … Tn which point to it. The parameter d is a damping factor, between 0 and 1 (usually is a damping factor, between 0 and 1 (usually d=0,85). d=0,85). C(A) C(A) is the number of links is the number of links outout of A. of A. The PageRank of A isThe PageRank of A is

PR(A) = PR(A) =

(1-d) + d * [ (1-d) + d * [ PR(T1)/C(T1) PR(T1)/C(T1) + … + (PR(Tn)/C(Tn) ]+ … + (PR(Tn)/C(Tn) ] [citaat uit het artikel] PageRank for 26 millions [citaat uit het artikel] PageRank for 26 millions

web pages can be computed in a few hours on web pages can be computed in a few hours on a medium size PCa medium size PC

Page 24: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

24

De Google Story (8)De Google Story (8)

Men kan aantonen dat PR(A) de Men kan aantonen dat PR(A) de waarschijnlijkheid is dat een “waarschijnlijkheid is dat een “randomrandom” surfer op ” surfer op bladzijde A terecht komt, als hij van tijd tot tijd, bladzijde A terecht komt, als hij van tijd tot tijd, gedurende het random surfen, van een gedurende het random surfen, van een randomrandom bladzijdebladzijde herbegintherbegint

Een Bladzijden A heeft een Een Bladzijden A heeft een hoge PageRank PR(A)hoge PageRank PR(A) Als er veel bladzijden naar A wijzenAls er veel bladzijden naar A wijzen Als er enkele bladzijden, die zelf een hoge PR Als er enkele bladzijden, die zelf een hoge PR

hebben, naar A wijzenhebben, naar A wijzen PageRank is een maat van …PageRank is een maat van …

De De populariteit populariteit van een bladzijdevan een bladzijde Het Het belang belang van een bladzijdevan een bladzijde De De relevantie relevantie van een bladzijde, als de categorie van een bladzijde, als de categorie

juist isjuist is

Page 25: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

25

De Google Story (9)De Google Story (9)

[from Wikipedia]

Page 26: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

26

De Google Story (10)De Google Story (10)

““Anchor text” Anchor text” voor links is het gedeelte van de voor links is het gedeelte van de tekst tussen de hyperlink tags: <href> tekst tussen de hyperlink tags: <href> anchor anchor texttext </href> </href> De meeste systemen beschouwen De meeste systemen beschouwen enkelenkel “anchor “anchor

text” als belangrijk in de bladzijde die de tekst text” als belangrijk in de bladzijde die de tekst bevatbevat

Google associeert ook de “anchor text” met de Google associeert ook de “anchor text” met de bladzijde waarneer de link verwijstbladzijde waarneer de link verwijst

Het concept werd reeds gebruikt in de World Het concept werd reeds gebruikt in de World Wide Web WormWide Web Worm

Werd van in het begin ook door Google gebruiktWerd van in het begin ook door Google gebruikt Google steekt ook alle bladzijden opgehaald Google steekt ook alle bladzijden opgehaald

door de spider in een door de spider in een cachecache Gedurende het opbouwen van de index, maakt Gedurende het opbouwen van de index, maakt

Google gebruik van formattering informatie in Google gebruik van formattering informatie in de tekst (bvb. grootte van de tekst)de tekst (bvb. grootte van de tekst)

Page 27: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

27

De Google Story (11)De Google Story (11)

De bedrijfscultuur van Google is uiterst De bedrijfscultuur van Google is uiterst openopen

Oprichten van “space-age” Oprichten van “space-age” GoogleplexGoogleplex gebouwen waarin werken leuk isgebouwen waarin werken leuk is

Page 28: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

28

De Google Story (12)De Google Story (12)

De “tien geboden” van GoogleDe “tien geboden” van Google1.1. Focus on the user and all else will follow.Focus on the user and all else will follow.2.2. It's best to do one thing really, really well.It's best to do one thing really, really well.3.3. Fast is better than slowFast is better than slow4.4. Democracy on the web worksDemocracy on the web works5.5. You don't need to be at your desk to need an You don't need to be at your desk to need an

answeranswer6.6. You can make money without doing evilYou can make money without doing evil7.7. There's always more information out thereThere's always more information out there8.8. The need for information crosses all bordersThe need for information crosses all borders9.9. You can be serious without a suitYou can be serious without a suit10.10. Great just isn't good enoughGreat just isn't good enough

[ van http://www.google.com/corporate/tenthings.html ]

Page 29: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

29

De Google Story (13)De Google Story (13)

Het Google businessmodelHet Google businessmodel Het businessmodel voor commerciële Het businessmodel voor commerciële

zoekrobotten is reclame; de prioritaire zoekrobotten is reclame; de prioritaire resultaten bevatten dikwijls reclameresultaten bevatten dikwijls reclame

Er zijn twee soorten reclameresultaten op Er zijn twee soorten reclameresultaten op Google bladzijdenGoogle bladzijden

Page 30: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

30

De Google Story (14)De Google Story (14)

Search Engine Optimization (SEO)Search Engine Optimization (SEO) Het verkeer naar een web site doen Het verkeer naar een web site doen stijgenstijgen als het gevolg als het gevolg

van natuurlijke zoekactiviteiten, …van natuurlijke zoekactiviteiten, …

… … door de door de algoritmen te begrijpen algoritmen te begrijpen die gebruikt worden die gebruikt worden door de crawler, de spider en de indexgenerator …door de crawler, de spider en de indexgenerator …

… … en de en de structuur van bladzijden aan te passen structuur van bladzijden aan te passen om een om een hoge ranking te verwervenhoge ranking te verwerven

Maar de algoritmen zijn dikwijls “Maar de algoritmen zijn dikwijls “geheimgeheim”” Bug business Bug business voor consultanten in het ontwerpen voor consultanten in het ontwerpen

van web sitevan web site Talrijke boeken Talrijke boeken werden hierover gepubliceerdwerden hierover gepubliceerd

736 referenties op Google Books over SEO736 referenties op Google Books over SEO 462 referenties op Amazon.com over SEO462 referenties op Amazon.com over SEO

Page 31: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

31

De Google Story (15)De Google Story (15)

Andere projecten Andere projecten projects/products/systems:projects/products/systems:

Searches (opzoekingen) opSearches (opzoekingen) op The web (classic Google)The web (classic Google) ImagesImages VideoVideo NewsNews MapsMaps BlogsBlogs BooksBooks FinanceFinance LabsLabs PatentsPatents PhotosPhotos ProductsProducts ScholarScholar

Page 32: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

32

Lijst zoekrobotten (1)Lijst zoekrobotten (1)Algemene Zoekrobotten (soms gebruik makend Algemene Zoekrobotten (soms gebruik makend

van andere)van andere) www.altavista.comwww.altavista.com www.askjeeves.comwww.askjeeves.com www.excite.comwww.excite.com www.go.comwww.go.com www.go2.comwww.go2.com www.google.comwww.google.com www.hotbot.comwww.hotbot.com www.lycos.comwww.lycos.com www.northernlight.comwww.northernlight.com www.opentext.comwww.opentext.com www.rocketnews.comwww.rocketnews.com www.teoma.comwww.teoma.com www.webcrawler.comwww.webcrawler.com www.vivisimo.comwww.vivisimo.com

Page 33: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

33

Lijst zoekrobotten (2)Lijst zoekrobotten (2)Gespecialiseerde ZoekrobottenGespecialiseerde Zoekrobotten

www.lexibot.comwww.lexibot.com deep Webdeep Web www.quigo.comwww.quigo.com deep Webdeep Web www.about.comwww.about.com directorydirectory www.looksmart.comwww.looksmart.com directorydirectory www.netcenter.comwww.netcenter.com directorydirectory www.suite101.comwww.suite101.com directorydirectory www.a9.comwww.a9.com metasearchmetasearch www.dogpile.comwww.dogpile.com metasearchmetasearch www.go2net.comwww.go2net.com metasearchmetasearch www.mamma.comwww.mamma.com metasearchmetasearch www.profusion.comwww.profusion.com metasearchmetasearch www.search.comwww.search.com metasearchmetasearch www.webinfosearch.comwww.webinfosearch.com metasearchmetasearch

Page 34: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

34

Lijst zoekrobotten (3)Lijst zoekrobotten (3)Web Crawlers 1Web Crawlers 1

JumpStation JumpStation RBSE Spider RBSE Spider WebCrawler WebCrawler The NorthStar Robot The NorthStar Robot W4 (the World Wide Web Wanderer) W4 (the World Wide Web Wanderer) Fish search Fish search The Python Robot The Python Robot html_analyzer html_analyzer MOMspider MOMspider HTMLgobble HTMLgobble WWWW - the WORLD WIDE WEB WORM WWWW - the WORLD WIDE WEB WORM W3M2 W3M2 Websnarf Websnarf The Webfoot Robot The Webfoot Robot Lycos Lycos

Page 35: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

35

Lijst zoekrobotten (4)Lijst zoekrobotten (4)Web Crawlers 2Web Crawlers 2

ASpider (Associative Spider) ASpider (Associative Spider) SG-Scout SG-Scout EIT Link Verifier Robot EIT Link Verifier Robot NHSE Web Forager NHSE Web Forager WebLinker WebLinker Emacs-w3 Search Engine Emacs-w3 Search Engine Arachnophilia Arachnophilia Mac WWWWorm Mac WWWWorm churl churl tarspider tarspider The Peregrinator The Peregrinator Checkbot Checkbot webwalk webwalk Harvest Harvest Katipo Katipo

Page 36: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

36

Lijst zoekrobotten (5)Lijst zoekrobotten (5)Web Crawlers 3Web Crawlers 3

InfoSeek Robot 1.0 InfoSeek Robot 1.0 Open Text Corporation Robot Open Text Corporation Robot The TkWWW Robot The TkWWW Robot Tcl W3 Robot Tcl W3 Robot CS-HKUST WWW Index Server CS-HKUST WWW Index Server Spry Wizard Robot Spry Wizard Robot weblayers weblayers WebCopy WebCopy Scooter Scooter Aretha Aretha WebWatch WebWatch ArchitextSpider ArchitextSpider HI (HTML Index) Search HI (HTML Index) Search Hämähäkki Hämähäkki explorer explorer

Page 37: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

37

Lijst zoekrobotten (6)Lijst zoekrobotten (6)Web Crawlers 4Web Crawlers 4

Senrigan Senrigan FunnelWeb FunnelWeb The Jubii Indexing Robot The Jubii Indexing Robot Jobot Jobot DeWeb(c) Katalog/Index DeWeb(c) Katalog/Index Web Core / Roots Web Core / Roots Robot Francoroute Robot Francoroute Duppies Duppies IncyWincy IncyWincy IBM_Planetwide IBM_Planetwide Nomad Nomad UCSD Crawl UCSD Crawl webfetcher webfetcher libertech-rover libertech-rover HTDig HTDig

Page 38: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

38

Lijst zoekrobotten (7)Lijst zoekrobotten (7)Web Crawlers 5Web Crawlers 5

BlackWidow BlackWidow Pioneer Pioneer NetCarta WebMap Engine NetCarta WebMap Engine Wild Ferret Web Hopper #1, #2, #3 Wild Ferret Web Hopper #1, #2, #3 BackRub BackRub Templeton Templeton Wombat Wombat Inktomi Inktomi HKU WWW Octopus HKU WWW Octopus Vision Search Vision Search Resume Robot Resume Robot w3mir w3mir SafetyNet Robot SafetyNet Robot GetBot GetBot CACTVS Chemistry Spider CACTVS Chemistry Spider

Page 39: Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

39

Lijst zoekrobotten (8)Lijst zoekrobotten (8)Web Crawlers 6Web Crawlers 6

Travel-Finder Spider Travel-Finder Spider pka pka ILSE ILSE Personal Times Personal Times Israeli-search Israeli-search Infoseek Sidewinder Infoseek Sidewinder WebMirrorWebMirror................