Zoekmachines
ICT voor Studie en WerkCollege 6
5 oktober 2006Toine Bogers
Wat is een zoekmachine?
Definitie:Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW.
Geschiedenis
Explosieve groei WWW steeds meer informatie digitaal en online
beschikbaar/bereikbaar gemiddeld 19 clicks tussen 2
webpagina's zoals in een bibliotheek:
onvindbaar zonder ordening en index
Oplossing: directories en zoekmachines
Geschiedenis
Directories hierarchie van handmatig toegevoegde
wegpagina’s voorbeelden: Yahoo! Directory, DMOZ
Geschiedenis
Directories voordelen
hogere kwaliteit geordend
nadelen subjectief arbeidsintensief passief
Geschiedenis
Zoekmachines doorzoeken automatisch het WWW op basis
van een zoekopdracht voorbeelden:
Geschiedenis
Zoekmachines voordelen
geautomatiseerd objectief actief
nadelen …
Hoe werkt een zoekmachine?
search engine client
search engine client
queryquery search engine server
search engine server
documentsdocuments
Web pages Web
pages browserbrowser
Hoe werkt een zoekmachine?
search engine client
search engine client
search engine server
search engine server
queryquery
documentsdocuments
Web pages Web
pages browserbrowser
Hoe werkt een zoekmachine?
WorldWideWeb
WorldWideWeb
search engine client
search engine client
search engine server
search engine server
queryquery
documentsdocuments
browserbrowser
Hoe werkt een zoekmachine?
webpage
webpage
webpagewebpage
webpage
webpage
webpage
webpage
webpage
search engine client
search engine client
search engine server
search engine server
queryquery
documentsdocuments
browserbrowser
webpage
webpage
Hoe werkt een zoekmachine?
Web indexWeb index
webpage
webpage
webpagewebpage
webpage
webpage
webpage
webpage
webpage
search engine client
search engine client
search engine server
search engine server
queryquery
documentsdocuments
browserbrowser
webpage
webpage
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
Hoe werkt een zoekmachine?
crawler
Web indexWeb index
webpage
webpage
webpagewebpage
webpage
webpage
webpage
webpage
webpage
search engine client
search engine client
search engine server
search engine server
queryquery
documentsdocuments
browserbrowser
webpage
webpage
Geschiedenis
Verschillende generaties 1e generatie (Archie)
locatie 2e generatie (Lycos)
locatie & inhoud 3e generatie (Google)
locatie, inhoud & autoriteit 4e generatie
???
webpage webpage
hub autoriteit
Google44%
Yahoo!29%
MSN Search13%
Ask.com5%
Others3%
AOL.com6%
Lies, damned lies & statistics
Getallen marktaandeel VS
Google50%
Others50%
Lies, damned lies & statistics
Getallen marktaandeel VS
Google73%
Others27%
Lies, damned lies & statistics
Getallen marktaandeel Groot-Brittannië
Google91%
Others9%
Lies, damned lies & statistics
Getallen marktaandeel Nederland & Duitsland
Lies, damned lies & statistics
Getallen marktaandeel grootte geindexeerde Web
overlap (70%-90%) “much of the Web is crap” > 14,3 miljard geindexeerde pagina’s
0
2
4
6
8
10
12
14
16
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
miljarden webpagina's
Lies, damned lies & statistics
Getallen marktaandeel grootte geindexeerde Web
Lies, damned lies & statistics
Getallen marktaandeel grootte geindexeerde Web
> 14,3 miljard pagina’s aantal zoekopdrachten
± 1 miljard per dag≈11.500 per seconde
Zoeken
basis Booleaanse operatoren
pirate AND monkey pirate OR monkey pirate NOT monkey pirate AND monkey NOT robot
filteren stopwoorden exacte frases
“pirates of the caribbean”
Zoeken
gevorderden proximity (NEAR, ADJ)
pirates NEAR software wildcards (*)
“pirates of *” synoniemen (~)
~pirate veldspecifiek zoeken (title, domain,
filetype) pirate filetype:ppt
Problemen voor zoekmachines
groei & dynamiek van het WWW +11 miljoen pagina’s per dag dynamisch
updates link rot
Problemen voor zoekmachines
groei & dynamiek van het WWW niet alles is indexeerbaar
geen verwijzing geen indexering dynamisch gegenereerde pagina’s
Surface Web
> 14,3 miljard
DeepWeb
400 tot 550 keer groter
totale WWW
> 5 biljoen
Problemen voor zoekmachines
groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden
search engine spamming keyword stuffing link farms
Problemen voor zoekmachines
groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend
beperkt tot keywords ambiguiteit!
Problemen voor zoekmachines
‘jaguar’
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.QuickTime™ and a
TIFF (Uncompressed) decompressorare needed to see this picture.
Problemen voor zoekmachines
groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend
beperkt tot keywords ambiguiteit! gemiddelde 2 zoektermen
4e generatie zoekmachines
andere domeinen desktop
Google Desktop, Spotlight enterprise/intranet
Verity, Panoptic, Grokker blogs
Bloogz, Technorati, Google Blog Search multimedia
Ditto, Google Images/Video, AllTheWeb
4e generatie zoekmachines
andere domeinen andere algoritmes/toepassingen
meta search Dogpile, Vivisimo
clustering Clusty, Grokker
question answering systemen Brainboost, AnswerBus, Inferret, Ionaut
4e generatie zoekmachines
andere domeinen andere algoritmes/toepassingen
meta search Dogpile, Vivisimo
clustering Clusty, Grokker
question answering systemen Brainboost, AnswerBus, Inferret, Ionaut
personalizatie recommender systems
Amazon, MyStrands, Pandora, MovieLens
4e generatie zoekmachines
andere domeinen andere algoritmes/toepassingen
meta search Dogpile, Vivisimo
clustering Clusty, Grokker
question answering systemen Brainboost, AnswerBus, Inferret, Ionaut
personalizatie recommender systems
Amazon, MyStrands, Pandora, MovieLens social tagging
Flickr, del.icio.us, LastFM
4e generatie zoekmachines
andere domeinen andere algoritmes/toepassingen andere rol
van passief naar actief IntelliGent, Watson
Fun with Google 101
Google Bomb miserable failure raar kapsel vreemdelingenhaat more evil than satan
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
Fun with Google 101
Google Bomb Google suggestions
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
Fun with Google 101
Google Bomb Google suggestions Googlewhack
intergalactically janitorial icebreaking snaggletooth obverse tartiness tailgated winnebagoes arachnophobic swashbuckler
Fun with Google 101
Google Bomb Google suggestions Googlewhack Googlisms Google Trends
The Dark side of the Force search
censuur Frankrijk Duitsland China
The Dark side of the Force search
censuur AOL search data
grootte 650.000 gebruikers 3 maanden 20 miljoen zoektermen
slecht geanonimiseerd mirrors
http://www.dontdelete.com http://www.aolpsycho.com
Literatuur
Van Driel (Red.), Digitale Communicatie (tweede editie), Boom, 2005. hoofdstuk 7
Engelse Wikipedia pagina’s search engine web directory Google Google pagerank
Top Related