Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

53
Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers

Transcript of Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Page 1: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Zoekmachines

ICT voor Studie en WerkCollege 6

5 oktober 2006Toine Bogers

Page 2: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Wat is een zoekmachine?

Definitie:Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW.

Page 3: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Geschiedenis

Explosieve groei WWW steeds meer informatie digitaal en online

beschikbaar/bereikbaar gemiddeld 19 clicks tussen 2

webpagina's zoals in een bibliotheek:

onvindbaar zonder ordening en index

Oplossing: directories en zoekmachines

Page 4: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Geschiedenis

Directories hierarchie van handmatig toegevoegde

wegpagina’s voorbeelden: Yahoo! Directory, DMOZ

Page 5: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 6: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 7: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Geschiedenis

Directories voordelen

hogere kwaliteit geordend

nadelen subjectief arbeidsintensief passief

Page 8: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Geschiedenis

Zoekmachines doorzoeken automatisch het WWW op basis

van een zoekopdracht voorbeelden:

Page 9: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Geschiedenis

Zoekmachines voordelen

geautomatiseerd objectief actief

nadelen …

Page 10: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Hoe werkt een zoekmachine?

search engine client

search engine client

queryquery search engine server

search engine server

documentsdocuments

Web pages Web

pages browserbrowser

Page 11: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Hoe werkt een zoekmachine?

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

Web pages Web

pages browserbrowser

Page 12: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Hoe werkt een zoekmachine?

WorldWideWeb

WorldWideWeb

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

browserbrowser

Page 13: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Hoe werkt een zoekmachine?

webpage

webpage

webpagewebpage

webpage

webpage

webpage

webpage

webpage

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

browserbrowser

webpage

webpage

Page 14: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Hoe werkt een zoekmachine?

Web indexWeb index

webpage

webpage

webpagewebpage

webpage

webpage

webpage

webpage

webpage

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

browserbrowser

webpage

webpage

Page 15: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Hoe werkt een zoekmachine?

crawler

Web indexWeb index

webpage

webpage

webpagewebpage

webpage

webpage

webpage

webpage

webpage

search engine client

search engine client

search engine server

search engine server

queryquery

documentsdocuments

browserbrowser

webpage

webpage

Page 16: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Geschiedenis

Verschillende generaties 1e generatie (Archie)

locatie 2e generatie (Lycos)

locatie & inhoud 3e generatie (Google)

locatie, inhoud & autoriteit 4e generatie

???

webpage webpage

hub autoriteit

Page 17: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Google44%

Yahoo!29%

MSN Search13%

Ask.com5%

Others3%

AOL.com6%

Lies, damned lies & statistics

Getallen marktaandeel VS

Page 18: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Google50%

Others50%

Lies, damned lies & statistics

Getallen marktaandeel VS

Page 19: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Google73%

Others27%

Lies, damned lies & statistics

Getallen marktaandeel Groot-Brittannië

Page 20: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Google91%

Others9%

Lies, damned lies & statistics

Getallen marktaandeel Nederland & Duitsland

Page 21: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Lies, damned lies & statistics

Getallen marktaandeel grootte geindexeerde Web

overlap (70%-90%) “much of the Web is crap” > 14,3 miljard geindexeerde pagina’s

Page 22: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

0

2

4

6

8

10

12

14

16

1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

miljarden webpagina's

Lies, damned lies & statistics

Getallen marktaandeel grootte geindexeerde Web

Page 23: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Lies, damned lies & statistics

Getallen marktaandeel grootte geindexeerde Web

> 14,3 miljard pagina’s aantal zoekopdrachten

± 1 miljard per dag≈11.500 per seconde

Page 24: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Zoeken

basis Booleaanse operatoren

pirate AND monkey pirate OR monkey pirate NOT monkey pirate AND monkey NOT robot

filteren stopwoorden exacte frases

“pirates of the caribbean”

Page 25: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Zoeken

gevorderden proximity (NEAR, ADJ)

pirates NEAR software wildcards (*)

“pirates of *” synoniemen (~)

~pirate veldspecifiek zoeken (title, domain,

filetype) pirate filetype:ppt

Page 26: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Problemen voor zoekmachines

groei & dynamiek van het WWW +11 miljoen pagina’s per dag dynamisch

updates link rot

Page 27: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Problemen voor zoekmachines

groei & dynamiek van het WWW niet alles is indexeerbaar

geen verwijzing geen indexering dynamisch gegenereerde pagina’s

Surface Web

> 14,3 miljard

DeepWeb

400 tot 550 keer groter

totale WWW

> 5 biljoen

Page 28: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Problemen voor zoekmachines

groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden

search engine spamming keyword stuffing link farms

Page 29: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Problemen voor zoekmachines

groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend

beperkt tot keywords ambiguiteit!

Page 30: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Problemen voor zoekmachines

‘jaguar’

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.QuickTime™ and a

TIFF (Uncompressed) decompressorare needed to see this picture.

Page 31: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Problemen voor zoekmachines

groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend

beperkt tot keywords ambiguiteit! gemiddelde 2 zoektermen

Page 32: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

4e generatie zoekmachines

andere domeinen desktop

Google Desktop, Spotlight enterprise/intranet

Verity, Panoptic, Grokker blogs

Bloogz, Technorati, Google Blog Search multimedia

Ditto, Google Images/Video, AllTheWeb

Page 33: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

4e generatie zoekmachines

andere domeinen andere algoritmes/toepassingen

meta search Dogpile, Vivisimo

clustering Clusty, Grokker

question answering systemen Brainboost, AnswerBus, Inferret, Ionaut

Page 34: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 35: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

4e generatie zoekmachines

andere domeinen andere algoritmes/toepassingen

meta search Dogpile, Vivisimo

clustering Clusty, Grokker

question answering systemen Brainboost, AnswerBus, Inferret, Ionaut

personalizatie recommender systems

Amazon, MyStrands, Pandora, MovieLens

Page 36: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 37: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 38: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 39: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 40: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

4e generatie zoekmachines

andere domeinen andere algoritmes/toepassingen

meta search Dogpile, Vivisimo

clustering Clusty, Grokker

question answering systemen Brainboost, AnswerBus, Inferret, Ionaut

personalizatie recommender systems

Amazon, MyStrands, Pandora, MovieLens social tagging

Flickr, del.icio.us, LastFM

Page 41: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 42: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 43: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

4e generatie zoekmachines

andere domeinen andere algoritmes/toepassingen andere rol

van passief naar actief IntelliGent, Watson

Page 44: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Fun with Google 101

Google Bomb miserable failure raar kapsel vreemdelingenhaat more evil than satan

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Page 45: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Fun with Google 101

Google Bomb Google suggestions

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Page 46: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Fun with Google 101

Google Bomb Google suggestions Googlewhack

intergalactically janitorial icebreaking snaggletooth obverse tartiness tailgated winnebagoes arachnophobic swashbuckler

Page 47: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Fun with Google 101

Google Bomb Google suggestions Googlewhack Googlisms Google Trends

Page 48: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

The Dark side of the Force search

censuur Frankrijk Duitsland China

Page 49: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 50: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 51: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

The Dark side of the Force search

censuur AOL search data

grootte 650.000 gebruikers 3 maanden 20 miljoen zoektermen

slecht geanonimiseerd mirrors

http://www.dontdelete.com http://www.aolpsycho.com

Page 52: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.
Page 53: Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Literatuur

Van Driel (Red.), Digitale Communicatie (tweede editie), Boom, 2005. hoofdstuk 7

Engelse Wikipedia pagina’s search engine web directory Google Google pagerank