Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Post on 23-May-2015

216 views 0 download

Transcript of Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Zoekmachines

ICT voor Studie en WerkCollege 6

5 oktober 2006Toine Bogers

Wat is een zoekmachine?

Definitie:Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW.

Geschiedenis

Explosieve groei WWW steeds meer informatie digitaal en online

beschikbaar/bereikbaar gemiddeld 19 clicks tussen 2

webpagina's zoals in een bibliotheek:

onvindbaar zonder ordening en index

Oplossing: directories en zoekmachines

Geschiedenis

Directories hierarchie van handmatig toegevoegde

wegpagina’s voorbeelden: Yahoo! Directory, DMOZ

Geschiedenis

Directories voordelen

hogere kwaliteit geordend

nadelen subjectief arbeidsintensief passief

Geschiedenis

Zoekmachines doorzoeken automatisch het WWW op basis

van een zoekopdracht voorbeelden:

Geschiedenis

Zoekmachines voordelen

geautomatiseerd objectief actief

nadelen …

Hoe werkt een zoekmachine?

search engine client

search engine client

queryquery search engine server

search engine server

documentsdocuments

Web pages Web

pages browserbrowser

Hoe werkt een zoekmachine?

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

Web pages Web

pages browserbrowser

Hoe werkt een zoekmachine?

WorldWideWeb

WorldWideWeb

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

browserbrowser

Hoe werkt een zoekmachine?

webpage

webpage

webpagewebpage

webpage

webpage

webpage

webpage

webpage

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

browserbrowser

webpage

webpage

Hoe werkt een zoekmachine?

Web indexWeb index

webpage

webpage

webpagewebpage

webpage

webpage

webpage

webpage

webpage

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

browserbrowser

webpage

webpage

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Hoe werkt een zoekmachine?

crawler

Web indexWeb index

webpage

webpage

webpagewebpage

webpage

webpage

webpage

webpage

webpage

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

browserbrowser

webpage

webpage

Geschiedenis

Verschillende generaties 1e generatie (Archie)

locatie 2e generatie (Lycos)

locatie & inhoud 3e generatie (Google)

locatie, inhoud & autoriteit 4e generatie

???

webpage webpage

hub autoriteit

Google44%

Yahoo!29%

MSN Search13%

Ask.com5%

Others3%

AOL.com6%

Lies, damned lies & statistics

Getallen marktaandeel VS

Google50%

Others50%

Lies, damned lies & statistics

Getallen marktaandeel VS

Google73%

Others27%

Lies, damned lies & statistics

Getallen marktaandeel Groot-Brittannië

Google91%

Others9%

Lies, damned lies & statistics

Getallen marktaandeel Nederland & Duitsland

Lies, damned lies & statistics

Getallen marktaandeel grootte geindexeerde Web

overlap (70%-90%) “much of the Web is crap” > 14,3 miljard geindexeerde pagina’s

0

2

4

6

8

10

12

14

16

1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

miljarden webpagina's

Lies, damned lies & statistics

Getallen marktaandeel grootte geindexeerde Web

Lies, damned lies & statistics

Getallen marktaandeel grootte geindexeerde Web

> 14,3 miljard pagina’s aantal zoekopdrachten

± 1 miljard per dag≈11.500 per seconde

Zoeken

basis Booleaanse operatoren

pirate AND monkey pirate OR monkey pirate NOT monkey pirate AND monkey NOT robot

filteren stopwoorden exacte frases

“pirates of the caribbean”

Zoeken

gevorderden proximity (NEAR, ADJ)

pirates NEAR software wildcards (*)

“pirates of *” synoniemen (~)

~pirate veldspecifiek zoeken (title, domain,

filetype) pirate filetype:ppt

Problemen voor zoekmachines

groei & dynamiek van het WWW +11 miljoen pagina’s per dag dynamisch

updates link rot

Problemen voor zoekmachines

groei & dynamiek van het WWW niet alles is indexeerbaar

geen verwijzing geen indexering dynamisch gegenereerde pagina’s

Surface Web

> 14,3 miljard

DeepWeb

400 tot 550 keer groter

totale WWW

> 5 biljoen

Problemen voor zoekmachines

groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden

search engine spamming keyword stuffing link farms

Problemen voor zoekmachines

groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend

beperkt tot keywords ambiguiteit!

Problemen voor zoekmachines

‘jaguar’

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.QuickTime™ and a

TIFF (Uncompressed) decompressorare needed to see this picture.

Problemen voor zoekmachines

groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend

beperkt tot keywords ambiguiteit! gemiddelde 2 zoektermen

4e generatie zoekmachines

andere domeinen desktop

Google Desktop, Spotlight enterprise/intranet

Verity, Panoptic, Grokker blogs

Bloogz, Technorati, Google Blog Search multimedia

Ditto, Google Images/Video, AllTheWeb

4e generatie zoekmachines

andere domeinen andere algoritmes/toepassingen

meta search Dogpile, Vivisimo

clustering Clusty, Grokker

question answering systemen Brainboost, AnswerBus, Inferret, Ionaut

4e generatie zoekmachines

andere domeinen andere algoritmes/toepassingen

meta search Dogpile, Vivisimo

clustering Clusty, Grokker

question answering systemen Brainboost, AnswerBus, Inferret, Ionaut

personalizatie recommender systems

Amazon, MyStrands, Pandora, MovieLens

4e generatie zoekmachines

andere domeinen andere algoritmes/toepassingen

meta search Dogpile, Vivisimo

clustering Clusty, Grokker

question answering systemen Brainboost, AnswerBus, Inferret, Ionaut

personalizatie recommender systems

Amazon, MyStrands, Pandora, MovieLens social tagging

Flickr, del.icio.us, LastFM

4e generatie zoekmachines

andere domeinen andere algoritmes/toepassingen andere rol

van passief naar actief IntelliGent, Watson

Fun with Google 101

Google Bomb miserable failure raar kapsel vreemdelingenhaat more evil than satan

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Fun with Google 101

Google Bomb Google suggestions

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Fun with Google 101

Google Bomb Google suggestions Googlewhack

intergalactically janitorial icebreaking snaggletooth obverse tartiness tailgated winnebagoes arachnophobic swashbuckler

Fun with Google 101

Google Bomb Google suggestions Googlewhack Googlisms Google Trends

The Dark side of the Force search

censuur Frankrijk Duitsland China

The Dark side of the Force search

censuur AOL search data

grootte 650.000 gebruikers 3 maanden 20 miljoen zoektermen

slecht geanonimiseerd mirrors

http://www.dontdelete.com http://www.aolpsycho.com

Literatuur

Van Driel (Red.), Digitale Communicatie (tweede editie), Boom, 2005. hoofdstuk 7

Engelse Wikipedia pagina’s search engine web directory Google Google pagerank