Ificatie Search & Retrieval de Googl ificatie van onze samenleving Eric Sieverts...

Post on 24-May-2015

218 views 1 download

Transcript of Ificatie Search & Retrieval de Googl ificatie van onze samenleving Eric Sieverts...

Search & Retrievalde Googl iiffiiccaattiiee van onze samenleving

Eric SievertsUniversiteitsbibliotheek Utrecht

Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)

zoekmachines zijn er al lang

lycosin 1994 de eerste "echte", met bijna 1,5 miljoen pagina's

altavistain 1996 de nieuwste grootste, met ruim 30 miljoen pagina's

maar geen van alle heeft ons gedrag én zelfs onze taal zo beïnvloed als

wat maakte anders ?

• zijn "kale" interface

• zijn goede zoekresultaten (al geeft elke zoekmachine -bijna- exact wat je vraagt)

– andere, betere relevantie-ordening– grote dekking (> 20 miljard) geeft vaker goed resultaat– goed voor simpele vragen van de grote massa

• zijn PR en zijn timing– company motto: "Don't do evil“– everyone loves Google (or don’t we?)

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

het succes van google

• zoeken is een “commodity” geworden– iedereen gebruikt thuis een zoekmachine– iedereen gebruikt op het werk een zoekmachine– iedereen gebruikt onderweg een zoekmachine?

• iedereen verwacht altijd overal te kunnen zoeken– “the ubiquitous search box”

• iedereen verwacht er altijd alles mee te vinden– “ambient findability”

• Google is daarbij de “maat der dingen” geworden– de usability benchmark? – de “Google experience”

• kortom: Google is synoniem met zoeken

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

marktaandeel zoekmachines(schattingen medio 2006)

UK

NL

USA

door Google hooggespannen verwachtingen

niet in elke situatie makkelijk daaraan te voldoen

– een intranet is iets anders dan internet

– wat op internet werkt (methode van relevance ranking) hoeft nog niet te werken op een intranet en voor “enterprise search”

– eisen aan relevantie en volledigheid van zoekresultaat in werkomgeving anders dan in consumenten-omgeving

search & retrieval

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

uit onderzoek van de Delphi Group (april 2006):

– 34% van medewerkers zoekt > 6 uur/week

– 42% van medewerkers besteedt > 40% van die tijd aan doorploegen van irrelevante informatie

– 67% heeft geen zoekfunctie of heeft vaak vind-problemen;slechts 3% zegt: "intranet search is great"

– 52% is ontevreden met "search experience"

daarom uitdaging voor elke organisaties te zorgen voor:

– kwaliteit van zoekinterface en hele "user experience"

"search" binnen organisaties

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

Google als meetlat

• 10 redenen waarom Google wel een goed idee is

• 10 redenen waarom Google GEEN goed idee is (vooral niet voor lokale toepassingen)

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

wat is zo goed aan Google ?

1. Google is de grootste (op internet)

2. Google is zo eenvoudig in gebruik

3. uitstekend ranking mechanisme

4. slimme automatische vraagverbetering

5. vraagexpansie met synoniemen

6. extra online tools

7. veel offline tools & online diensten

8. additionele zoekmachines voor andere media

9. automatische attenderingsdienst

10. bewaart desgewenst je zoekgeschiedenis

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

1: google is de grootste

• hoewel Google zelf geen omvang meer opgeeft,• hoewel Searchenginewatch geen groottes van

zoekmachines meer vermeldt,

blijkt uit vergelijken van zoekresultaten dat:

• Google vaker meer oplevert dan runner-up Yahoo! • en Google flink groter is dan Ask, LiveSearch, Exalead

of Gigablast

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

2: google is eenvoudig in gebruik

• het “kale” zoekscherm van Google is usability benchmark voor zoeksystemen geworden

• iedereen kan met Google uit de voeten (en iets vinden)

• als een zoeksysteem ingewikkelder lijkt dan Google, wordt het niet meer gebruikt (?)

maar:

• Google kan ingewikkelder zijn dan het lijkt!

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

3: uitstekend ranking mechanisme

• “pagerank” was eerste mechanisme waarin “democratisch bepaalde kwaliteit” van gevonden informatie meespeelde

PR(x) = (1-d) + d* {PR(yx) / C(y)} y

• dat jouw pagina niet altijd als eerste uit Google komt, ligt minder aan Google dan aan jouw pagina

• pagerank vooral bepalend voor volgorde bij “one-word queries”maar: werkt niet als er geen links zijn (intranetten) !

• bij “intelligentere” queries ranking vooral op basis van andere parameters (waar zoekwoorden voorkomen, woordnabijheid, woordvolgorde - phrase)

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

4: ingebouwde vraagverbetering

• Google zoekt automatisch op enkel- en meervoud en enkele standaard uitgangen voor Engelse woorden (op Engelstalige site)

• Google doet dat met sommige Nederlandse woorden (op Nederlandstalige site), maar niet heel consistent

• Google doet dat slim voor bepaalde vaste afkortingen (jfk, wwii)

• Google doet dat ook voor bepaalde Nederlandse namen op de Nederlandstalige site

maar:nogal onduidelijk wat wanneer wel of niet

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

5: vraagexpansie met synoniemen

• door ~ voor een (Engelse) zoekterm te zetten, zoekt Google ook op (Engelse) synoniemen van dat woord

maar:• levert vaak meer troep dan verbetering

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

6: extra online tools

via gewone zoekvenster is Google ook:• rekenmachine ( 3*7/5 )• omrekenaar ( 87F in C )• valutahulp ( 27USD in EUR )• adreszoeker ( 650 Madison Avenue, Albany, NY )• telefoonboek ( john smith, schenectady, ny )• definitiezoeker ( define:relevance )• enz.

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

7: offline tools & online diensten

• Google toolbar• Google desktop• Picasa – foto’s beheren en uitwisselen• Google mail• online RSS reader• tekstverwerker in je browser• spreadsheet in je browser• Blogger weblog host • coop – custom search engine• Google suggest• enz.

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

8: zoeken in andere media

• image search• newsgroup search• video search• blog search• news search (voor 10 talen)• book search• google scholar• google maps / google earth• shopping search• finance search• desktop search• program code search

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

zie ook Google “cheat sheet”:http://www.adelaider.com/google/?cheatsheet

9: persoonlijke attenderingsdienst

• regelmatige attendering via mail, op basis van eigen zoekvraag, uit:

– web– nieuws– nieuwsgroepen– blogs

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

10: bewaart je zoekgeschiedenis

• als je een account hebt, kan je zoekgeschiedenis worden bewaard

• zo kun je terugvinden hoe je eerder hebt gezocht

• zo kun je terugvinden wat je eerder had gevonden (als je resultaten wel hebt aangeklikt, maar hebt vergeten te bookmarken)

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

wat is er mis met Google ?

1. met Google vind je niet wat je zoekt

2. met Google vind je ook wat je niet zoekt

3. in Google ontbreekt zoekfunctionaliteit

4. Google biedt geen goede tijdinperking

5. Google zoekt niet op metadata

6. Google biedt geen reproduceerbare resultaten

7. Google levert veel minder backlinks

8. Google biedt geen hulp voor verfijnen van zoekvraag

9. voor andere media zijn er betere alternatieven

10. Google is niet erg “web-2.0 - aware”

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

1: je vindt niet wat je zoekt

in 40 miljard items op internet vind je (met Google) altijd wel iets dat een antwoord op je vraag is, maar vaak niet precies dat ene document waarnaar je op zoek bent

in lokaal systeem met 20.000 items is dat nog veel sterker– het gezochte document bleek toch net niet dat woord / die

combinatie van woorden te bevatten waarop jij zocht,

– het begrip waarnaar je zocht bleek in dat document alleen als werkwoordsvorm voor te komen, terwijl jij op een zelfstandig naamwoord zocht,

– het woord bleek toch anders gespeld te zijn,

– ....

voor lokaal systeem is slimmere zoekmachine nodig

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

2: je vindt wat je niet zoekt

• als volledige tekst van documenten doorzoekbaar is, vind je ook documenten waarin je zoekterm niet van belang is (ondanks “relevance ranking”)

• als je spullen niet goed op orde hebt, vind je ook allerlei oude versies van documenten

• als je naar meneer Bakker zoekt, vind je ook documenten over brood

• ....

voor lokaal systeem is slimmere zoekmachine nodig

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

3: ontbrekende functionaliteit

• geen truncatie

• niet zoeken op woorden in elkaars nabijheid

maar:

– Google zoekt toch al op (Engels) enkel- + meervoud

– woordnabijheid telt toch al flink mee bij ranking

– meeste andere webzoekmachines bieden dat ook niet

uitzondering: Exalead

kies voor lokaal systeem software die dat wel kan

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

truncatie

proximityfuzzy

4 : geen (goede) tijdinperking

• alleen heel beperkte keuze: laatste 3 / 6 / 12 maanden

• en dat werkt bovendien NIET goed

• wel ongedocumenteerde "daterange" optie met gebruik van juliaans datum format

daterange:2451910-2452153 • maar dat werkt bovendien NIET goed

• wel gedetailleerd en betrouwbaar mogelijk bij AllTheWeb, AltaVista of Exalead

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

5: Google zoekt niet in metadata

<meta name="keyword" content=“.....”>

• Google niet i.v.m. mogelijk misbruik van metadata

• andere doen dat wel (weer): yahoo, alltheweb, altavista, ask, hotbot, gigablast (maar meestal niet meer dan eerste 16 of 24 keywords)

• die vinden makkelijker pagina’s met weinig “eigen” tekst

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

6: geen betrouwbare aantallen

• gevonden aantal van zelfde vraag vaak elke keer verschillend

• bij bekijken van afzienbaar aantal resultaten zie je bij bekijken van hele lijst pas hoeveel echt is gevonden (meestal minder)

• niet duidelijk wanneer op woordvarianten wordt gezocht• Booleaanse resultaten kloppen (daardoor?) vaak niet• verschillen tussen NL en USA versie

maar:• bij Ask en andere zoekmachines soms ook rare effecten

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

6: geen betrouwbare aantallen

voorbeeld:• recept AND doornhaai 123 (in resultaat ook “recepten”)

• recepten AND doornhaai 195 (in resultaat geen “recept”)

• (recept OR recepten) AND doornhaai 123

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

7: veel minder backlinks

• met “link zoeken” vindt Google altijd vele malen minder webpagina’s die een link naar een opgegeven URL bevatten dan Yahoo, AllTheWeb, AltaVista of Exalead

maar:• het zijn de minst belangrijke (met laagste pagerank) die

ontbreken

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

8: geen hulp bij verfijnen zoekvraag

• omdat men vaak slecht zoekt en veel te veel vindt, is het vaak nodig zoekvraag te verfijnen

• sommige zoekmachines bieden daarbij hulp door statistische analyse van woorden uit zoekresultaat(Ask, Quintura/Yahoo, Clusty, ... )

• sommige zoekmachines delen resultaat (ook) op naar meer formele kenmerken - “parametric search” (Exalead)

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

• Google video begon ooit met publieke TV-programma’s, ondertitels voor slecht-horenden gebruikend om op te zoeken

• halfslachtige switch naar uploads door gebruikers

• YouTube veel populairder voor uploaden, uitwisselen en via tagging karakteriseren (van slechte met mobieltjes opgenomen filmpjes)daarom [?] opgekocht door Google

• Blinkx bevat ook professioneel materiaal van o.a. nieuwsdiensten, door spraakherkenning “full-text” doorzoekbaar op gesproken tekst

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

9: YouTube & Blinkx beter voor video

uploaden webcrawler

kwaliteit vaak slecht veel professioneel materiaal

“metadata” (tagging) spraakherkenning

browsen i.p.v. zoeken full-text zoeken (“most popular”)

9: YouTube & Blinkx beter voor video

9: blogsearch liever met Technorati

• voor blog-posts is Technorati vaak completer (zeker voor niet-Engelstalig) en wat sneller

• aparte zoekmachines voor podcasts (audio & video van omroepen, amateurs en ook bedrijven) zelfs met “full-text” search via spraakherkenning en aanduiding na hoeveel minuten het zoekwoord voorkomt

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

10: Google weinig web-2.0 aware

• veel van Google's oplossingen berusten op software,veel aspecten van web 2.0 vooral op "peopleware"

• nieuwe diensten en startups (en ook Yahoo!) leggen wel "de macht bij het volk"

– zelf publiceren (blogs, wiki's, foto's, video's, podcasts, …)

– zelf het nieuws bepalen (newsvine, digg, postgenomic, …)

– zelf bookmarken (del.icio.us, myweb, furl, connotea, …)

– zelf taggen (overal: flickr, del.icio.us, digg, technorati, …)

– zelf netwerken (hyves, myspace, orkut, facebook, …)

– zelf zoekmachien maken (rollyo, wink, yoono, google-coop)

– samenwerken en delen (overal)

10: Google weinig web-2.0 aware

bij Google zelf– geen tagging– geen tagclouds– weinig sociale netwerken

maar wel– overnames van web 2.0 successen– op ajax-technologie in de browser gebaseerde toepassingen– open API voor mash-ups met Google-Earth– rss en blog ondersteuning

Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

web 2.0 en zoeken

vormt social software en tagging concurrentie voor het "echte" zoeken?

"most popular" zelf omschreven behoefte

tags metadata

tag cloud zoekvenster

andermans advies zelf zoeken

notification (rss) zelf zoeken

amusement werk en studie

Flickr.com klassieke image-search

YouTube Blinkx

conclusies & trends

• Google zette "search" op de kaart en maakte andere gerelateerde diensten zichtbaar

• nieuwe technologieën sluiten aan op het "search" paradigma

• Google niet automatisch de beste voor elke toepassing (toch heeft concurrentie het op consumenten-markt moeilijk)

• Google zeker niet de beste voor enterprise search en BI

• enterprise search is heel wat anders dan internet search

• search is pas eerste puzzle-stukje om ongestructureerde informatie in BI uit te baten (het is nog geen text-mining)

• trend naar integratie van diensten en technieken

• trend naar verdergaande personalisatie (ook voor ranking)

disclaimer: "mijn woorden geven geen garantie voor de toekomst"disclaimer: "mijn woorden geven geen garantie voor de toekomst"