Eric Sieverts Media, Informatie & Communicatie (Hogeschool van Amsterdam) ZA07-2

Post on 12-Jan-2016

29 views 0 download

description

De Googl i f i c a t i e van ons leven zoeken doen we allemaal, maar hoe kun je het beter vinden?. Eric Sieverts Media, Informatie & Communicatie (Hogeschool van Amsterdam) ZA07-2. februari 2011. zoeken = google ?. zoeken is een “commodity” geworden - PowerPoint PPT Presentation

Transcript of Eric Sieverts Media, Informatie & Communicatie (Hogeschool van Amsterdam) ZA07-2

De Googl iiffiiccaattiiee van ons leven

zoeken doen we allemaal,maar hoe kun je het beter vinden?

Eric SievertsMedia, Informatie & Communicatie (Hogeschool van Amsterdam)

ZA07-2 februari 2011

zoeken = google ?

• zoeken is een “commodity” geworden– iedereen gebruikt voor alles altijd, overal zoekmachines– in december 2010: 3 miljoen zoekacties per minuut

• iedereen verwacht altijd overal te kunnen zoeken– “the ubiquitous search box”

• iedereen verwacht dat je er altijd alles mee kunt vinden– “ambient findability”

• Google is daarbij de “maat der dingen” geworden– de usability benchmark? – de “Google experience”

• kortom: Google is synoniem met zoeken

Eric Sieverts | ZA07-2 | februari 2011

iedereen denkt dat Google wat zoeken betreft "de maat der dingen" is

maar let op:

de Google paradox– met Google "kun je alles vinden"

the google experience

Eric Sieverts | ZA07-2 | februari 2011

iedereen denkt dat Google wat zoeken betreft "de maat der dingen" is

maar let op:

de Google paradox– met Google "kun je alles vinden"

maar – als echt "alles" in Google (of Yahoo! of Bing) zit

(> 500.000.000.000 items)

is “het” eigenlijk niet goed meer te vinden

the google experience

Eric Sieverts | ZA07-2 | februari 2011

programma

• bronnen voor informatie• zoeksystemen

– alleen google of ook andere?

• hoe zoek je– algemeen– met Google , Bing , Yahoo! / ranking– wat is er speciaal aan andere systemen?

• betrouwbaarheid / selectiviteit• toegankelijkheid

Eric Sieverts | ZA07-2 | februari 2011

• is Google een bron?

• is internet een bron?

• NEEGoogle is een zoeksysteem dat heel veel (soorten) bronnen doorzoekt

• internet is een medium waarop heel veel soorten bronnen beschikbaar zijn

wat is een bron ?

Eric Sieverts | ZA07-2 | februari 2011

soorten informatiebronnen• naar aard van de

informatie– wetenschappelijke

informatie– naslagwerken– nieuwsberichten– krantenartikelen– (digitale) boeken– ...

• naar “medium”– webpagina’s– pdf’s– images– videos– weblogs– tweets– rss-feeds– ...

• onderscheid tussen deze invalshoeken is niet altijd heel scherp te trekken

• ook onderscheid: web diepe webEric Sieverts | ZA07-2 | februari 2011

niet al deze combinaties zijn zinvol/mogelijk

web

-p

agin

a

pd

f

imag

e

video

web

log

tweet

rss-feed

wetenschap

naslag

nieuws

kranten

eBooks

... (en nog meer)

soorten informatiebronnen

Eric Sieverts | ZA07-2 | februari 2011

soorten informatievragen

• feitelijk gegeven• informatie "over iets"

kies bij elk de juiste soort bron kies daarbij het juiste zoektool

feit: 1: naslag - bijv. wikipedia2: zoekmachine (event. gespecialiseerde > )

"over": zoekmachine (liefst gespecialiseerde > )

kies bij elk de juiste manier van zoeken (>)

Eric Sieverts | ZA07-2 | februari 2011

bronnen & hun zoeksystemenweb algemeen google, yahoo!, bing, ...weblogs google blogsearch, icerocket, ...

boekinhoud google books, amazonvak & wetenschap google scholar, scirus, pubmed, db's €, ...

nieuws google news (per land/taal), lexis/nexis €, ...tweets / real-time twitter, socialmention, whostalkin, …mensen pipl, wieowie, 123people, ...

video youtube, blinkx, google video, ...afbeeldingen google image, flickr, ...oud spul way-back-machine, historische kranten, ...feiten, naslag wikipedia, acronymfinder, answers.com, ..."alles" keuze via browsys

gespecialiseerde zoeksystemen

waarom gespecialiseerd zoeksysteem gebruiken, als het waarschijnlijk (?) toch (ook) al in Google zit (of in Yahoo! of Bing) ?

– resultaten verdrinken niet in die 500.000.000.000 andere documenten van algemene zoekmachine

Eric Sieverts | ZA07-2 | februari 2011

gespecialiseerde zoeksystemen

waarom gespecialiseerd zoeksysteem gebruiken, als het waarschijnlijk (?) toch (ook) al in Google zit (of in Yahoo! of Bing) ?

– resultaten verdrinken niet in die 500.000.000.000 andere documenten van algemene zoekmachine

– minder last van ruis uit "content farms"– niet alles zit in Google (enz.) >> het "diepe" web

– Google (enz.) minder up-to-date dan gespecialiseerd systeem

– vaak: specifieke zoekfunctionaliteit voor dat type informatie

daarom stopt Google tussen gewone resultaten vaak ook iets uit zijn andere systemen

Eric Sieverts | ZA07-2 | februari 2011

uit Google-News

uit real-time web(twitter e.d.)

uit Google-Video

een paar"gewone" resultaten

zoeken → vinden

zoekmachines = uitkijkposten?

zoeken (algemeen)

• zoekmachines begrijpen niet wat we bedoelen, maar geven wat we vragen

– als jij "effecten van de financiële crisis in Europa" vraagt, zal hij niet naar "... in Spanje" gaan zoeken

• vraag dus wat je verwacht dat antwoord zal zijn!– omdat die zoekwoorden voorkomen– omdat pagina met zoekwoorden in zelfde volgorde

als in zoekvraag hoger scoort bij ranking– doe dit zeker bij zoeken naar feitelijke gegevens

Eric Sieverts | ZA07-2 | februari 2011

zoeken (algemeen)

• vraag wat je verwacht dat antwoord zal zijn!– vraag bijvoorbeeld met "precieze zin" optie:

"water kookt bij * graden" met * (wildcard) voor ontbrekend / onbekend woord of getal

– ook als je een vaste uitdrukking niet meer weet"het * * met het badwater weggooien"

– met Google alle getallen binnen gegeven range zoeken"een huur van 300..500 euro"

Eric Sieverts | ZA07-2 | februari 2011

zoeken (algemeen)

• vraag wat je verwacht dat antwoord zal zijn!– vraag niet "wie waren de presidenten van de VS?"

maar vraag "presidenten van de VS waren"of vraag misschien nog liever: obama, bush, clinton, nixon, kennedy, lincoln want op pagina waar deze 6 namen voorkomen, worden vast ook die andere 35 namen genoemd

– pas woordgebruik aan gewenste (culturele) context aan wetenschappelijk / populair / jargon / jongeren mexicaanse griep h1n1 virus influenza A

Eric Sieverts | ZA07-2 | februari 2011

zoeken (algemeen)

• soms proberen sommige zoekmachines wel slimme dingen te doen

– google zoekt automatisch op enkel- en meervoud en nog wat morfologische woordvarianten

maar: is soms afhankelijk van taal- en landenversie, dus niet altijd voorspelbaar wat en wanneer

maar: je wilt dat niet altijd new news philips philip – op google.nl krijgen resultaten van .nl sites voorrang– bing probeert resultaat aan je locatie aan te passen

maar: effect vaak onbegrijpelijk

Eric Sieverts | ZA07-2 | februari 2011

+ voor zoekterm zorgt voor exact zoeken

voor alleen exacte naam dus:

+piet +janssen

google.com

google.nl

systematische zoekvraag

in databases werden zoekvragen van oudsher systematisch opgebouwd met zoekmachines kan dat voor inhoudelijke vragen ook heel goed

1. welke aspecten / facetten / invalshoeken moeten in de te vinden informatie samen aanwezig zijn?bijv.: bijwerking + inenting + varkensgriep

2. welke zoekwoorden kan ik bedenken voor elk daarvan?bijv.: 1: bijwerking, bijwerkingen, nadeel, bezwaar

2: inenting, vaccinatie, vaccin3: varkensgriep, H1N1, influenza a, mexicaanse

griepEric Sieverts | ZA07-2 | februari 2011

systematische zoekvraag

systematisch opbouwen van inhoudelijke zoekvraag (ik zoek informatie "over")

3. neem die woorden per facet samen met ORbijwerking OR nadeel OR bezwaarinenting OR vaccinatie OR vaccinvarkensgriep OR H1N1

4. combineer de resulterende "bouwstenen" met AND

maar hoe doe je dat precies?

Eric Sieverts | ZA07-2 | februari 2011

• gebruik hoofdletters voor operator(en)• je mag de AND's weglaten • hier gaat -als enige systemen- OR voor AND • je hoeft dus geen haakjes te gebruiken • als je woorden wilt uitsluiten, dan moet je i.p.v. "NOT" per

losse term - (min)teken gebruiken

voorbeeld:bijwerking OR nadeel inenting OR vaccinatie varkensgriep OR H1N1 -qkoorts

i.p.v.(bijwerking OR nadeel) AND (inenting OR vaccinatie) AND (varkensgriep OR H1N1) NOT qkoorts

combineren bij Google en Yahoo!

Eric Sieverts | ZA07-2 | februari 2011

• gebruik hoofdletters voor operator(en)• je mag de AND's weglaten • je moet WEL haakjes gebruiken bij OR • je mag ook NOT gebruiken

dus wel:(bijwerking OR nadeel) AND (inenting OR vaccinatie) AND (varkensgriep OR H1N1) NOT qkoorts

of (bijwerking OR nadeel) (inenting OR vaccinatie) (varkensgriep OR H1N1)NOT qkoorts

combineren bij Bing

Eric Sieverts | ZA07-2 | februari 2011

relevance ranking: meer dan pagerank

pagerank alleen van belang als zoekwoorden weinig bepalenddie woorden maken:• pagina relevanter als zoekwoord in titel• pagina relevanter als zoekwoord in URL of in koppen <H1> <H2>• pagina relevanter als zoekwoord meer in begin van tekst• pagina relevanter als zoekwoord vaker voorkomt• pagina relevanter als zoekwoorden dicht bij elkaar • pagina relevanter als zoekwoorden in zelfde volgorde als vraag (!)• zeldzaam zoekwoord telt hierbij zwaarder dan heel algemeen

(voor jou belangrijk woord in zoekvraag 3x intikken - bij Google)• pagina relevanter als zoekwoord ook vaak voorkomt in tekst van

hyperlink die ernaar verwijst (de "googlebom")

zie bijv.: http://www.vaughns-1-pagers.com/internet/google-ranking-factors.htmEric Sieverts | ZA07-2 | februari 2011

relevance ranking

• elke zoekmachine heeft eigen "geheime" factoren en eigen afweging hoe sterk elke factor meeteltelke zoekmachine sorteert dus andersdus weinig overlap tussen zoekmachines bij eerste 10

Eric Sieverts | ZA07-2 | februari 2011

relevance ranking

• elke zoekmachine heeft eigen "geheime" factoren en eigen afweging hoe sterk elke factor meeteltelke zoekmachine sorteert dus andersdus weinig overlap tussen zoekmachines bij eerste 10 wie doet het het best?

probeer eens een "blinde" vergelijking site: blindsearch

Eric Sieverts | ZA07-2 | februari 2011

relevance ranking

• elke zoekmachine heeft eigen "geheime" factoren en eigen afweging hoe sterk elke factor meeteltelke zoekmachine sorteert dus andersdus weinig overlap tussen zoekmachines bij eerste 10 wie doet het het best? soms de een, soms de ander !

• het heeft dus zin meer zoekmachines • bijv.: via browsys-finder

of metasearch te gebruiken• bijv.: ixquick, dogpile, yippy

Eric Sieverts | ZA07-2 | februari 2011

hulp bij verfijnen zoekresultaat

zoekresultaten vaak te ruim en nog niet in goede context door onvoldoende gespecificeerde zoekvragen

• sommige systemen geven suggesties op basis van eerder door anderen gestelde uitgebreider zoekvragen terwijl jij je vraag aan het intikken bent ; Google-Instant voorspelt zelfs al wat je gaat vragen

• sommige systemen geven suggesties voor inperking op basis van statistische analyse van woorden in al gevonden resultaten, bijv. Quintura (gebruikt Yahoo!)

Eric Sieverts | ZA07-2 | februari 2011

hulp bij verfijnen zoekresultaat

zoekresultaten vaak te ruim en nog niet in goede context door onvoldoende gespecificeerde zoekvragen

• sommige systemen geven suggesties op basis van eerder door anderen gestelde uitgebreider zoekvragen terwijl jij je vraag aan het intikken bent ; Google-Instant voorspelt zelfs al wat je gaat vragen

• sommige systemen geven suggesties voor inperking op basis van statistische analyse van woorden in al gevonden resultaten, bijv. Quintura (gebruikt Yahoo!)

Eric Sieverts | ZA07-2 | februari 2011

hulp bij verfijnen zoekresultaat

• Google biedt opties om achteraf zoekresultaat in te perken op bepaalde kenmerken

• (dat had je voor een deel ook vooraf al kunnen doen via geavanceerd zoekscherm)

• vooral interessant is inperking op zelf te specificeren tijdperiode

Eric Sieverts | ZA07-2 | februari 2011

pas op:datums niet 100%betrouwbaar

zoeken in andere talen

• handig als je andere taal kent, anders zonder hulp niet haalbaar

• Google "language tools" biedt gewone vertaalhulp, maar ook vertaald zoeken

– vertaalt zoekvraag naar gewenste taal

– vertaalt zoekresultaten terug naar jouw taal

Eric Sieverts | ZA07-2 | februari 2011

specialisatie

speciale zoekhulpmiddelen• voor blogs• voor vak & wetenschap• voor nieuws• voor real-time• voor boeken• voor oude meuk• voor mensen

blogsearch

waarom aparte zoekmachine (bijv. Google Blogsearch)

• snelheid essentieel: snel indexeren van alleen blogs is makkelijker dan van het hele web

• relevante speciale zoekopties:– op auteur zoeken– op datum zoeken – zoeken wie verwijzen naar bepaalde andere blogpost

(of webpagina) [ongedocumenteerd!]link:http://www.xxx.com/yyy/zzz.html

Eric Sieverts | ZA07-2 | februari 2011

SearchEngineLand blogpost (1/2/2011) over"afkijken" van zoekresultaten door Bing

vak & wetenschap algemeen

• Google Scholar– >100 miljoen wetenschappelijke artikelen op elk gebied– je kunt zoeken op auteurs – links naar "related articles" en naar "citaties"– aantallen "citaties" mede gebruikt voor ranking– toegankelijkheid volledige tekst vaak een probleem

(niet aanwezig / alleen als je betaalt - soms wel binnen HvA)

• Scirus– wetenschappelijke artikelen + 150 miljoen webpagina's– artikelen lang niet altijd toegankelijk (soms wel binnen HvA)

Eric Sieverts | ZA07-2 | februari 2011

vak & wetenschap specifiek

• geneeskunde: pubmed– vertaalt (Engelse) zoekwoorden zo veel mogelijk naar

wetenschappelijk jargon tranquilisers → tranquilizing agents

– breidt zoekvraag automatisch uit met specifiekere begrippen / onderdelen

tranquilizing agents → clozapine, diazepam, enz. eye → eyelid, retina, enz

– linkt naar volledige teksten bij uitgevers (toegang?)

• overige vakgebieden: zie databases (€) bij mediatheek of universiteitsbibliotheek

Eric Sieverts | ZA07-2 | februari 2011

nieuws

• Google News:vaak alleen "nieuw nieuws"NL: 1 maand; VS: enkele jaren + (€)

• LexisNexis (€): ook "oud nieuws">> mediatheek >> databanken >> LexisNexis

Newsportal

Eric Sieverts | ZA07-2 | februari 2011

Engelstalig nieuws uit 4500 bronnen

+ aparte versies in andere talen dan Engels:– chinees (1000 bronnen)– duits (700 bronnen)– frans (500 bronnen)– hebreeuws (100 bronnen)– italiaans (250 bronnen)– japans (600 bronnen)– koreaans (550 bronnen)– nederlands (>400 bronnen)– portugees (200 bronnen)– spaans (700 bronnen)– ...

Eric Sieverts | ZA07-2 | februari 2011

nieuws

• gewone zoekmachines (Google , Bing ) erg onvolledig• in speciale zoekmachines alleen nieuwste berichten• voor alleen twitter: search.twitter, kurrently, tweetzi, …

• voor twitter + facebook + blogs + …. :socialmention, samepoint, whostalkin

• lees interview met Henk van Ess hoe je twitter e.d. als bron kunt gebruiken

Eric Sieverts | ZA07-2 | februari 2011

real-time web

book search

• google book search– o.a. om te zien of iets heel specifieks ergens in een boek

een keer wordt genoemd

– mashup met Google maps

– alleen uit oude boeken altijd alles full-text op het scherm

• worldcat– catalogus van 10.000 bibliotheken– o.a. hoe dichtbij je bepaald boek kunt lenen (via postcode)

• librarything– o.a. kijken wat anderen van een boek vinden

Eric Sieverts | ZA07-2 | februari 2011

welk boek zou dit zijn?

ouwe spullen

• way-back-machine – vindt oude versies van webpagina's terug tot 1996

(als je het -oude- URL weet)

• Koninklijke bibliotheek – heeft groeiend aantal gedigitaliseerde full-text

doorzoekbare (historische) kranten (nu 1618-1945)

• Google news archive – stelt (tegen betaling) ook Amerikaanse krantenarchieven

beschikbaar

Eric Sieverts | ZA07-2 | februari 2011

hier nog geen MIM!

MIM-sitejuni 2000

mensen

• je kunt iedereen Googlen

• speciale mens-zoekmachines maken vooral gebruik van zo veel mogelijk sociale netwerken:

– pipl – wieowie – kgb-people – 123people

Eric Sieverts | ZA07-2 | februari 2011

zijn eigenlijk dezelfdealleen verschillende interfacetaal

s

Eric Sieverts | ZA07-2 | februari 2011

wanneer leefde Johann Sebastian Bach?

just ask Google!

betrouwbaarheid

wat te doen?

• gebruik Wikipedia voor controle op feiten• gebruik gespecialiseerd (selectief) zoeksysteem voor

betrouwbaarder informatie • zoek in social bookmark-site Delicious:

wat daarin zit is bewust door mensen gebookmarked• kijk of onafhankelijke bronnen hetzelfde beweren• wetenschappelijke en vak-tijdschriften passen vaak

"peer review" toe voor ze iets publiceren• wees zelf kritisch

Eric Sieverts | ZA07-2 | februari 2011

toegankelijkheid

• door zoekmachines zijn we gewend geraakt aan "instant satisfaction" van onze informatiebehoefte

• wat je vindt staat meteen op je scherm• toch lukt dat ook niet in alle Googles:

Google Scholar, Google Books• sommige "betrouwbare" informatie krijg je alleen te zien

als je abonnee bent (of je organisatie dat is)• er is wel trend naar "open access"• universiteiten en hogescholen hebben vaak licenties

Eric Sieverts | ZA07-2 | februari 2011

slotopmerkingen

• er is (helaas) geen ideaal zoekrecept dat altijd werkt• zorg dat je vertrouwd bent met een boel van de hier

genoemde bronnen, systemen en technieken • beperk je niet tot 1 zoektool• zorg dat je altijd een plan B achter de hand hebt

– als je niet tevreden was met resultaat van plan A

– als plan A wel al goed ging, maar je toch ook nog nieuwsgierig bent of er meer / andere informatie is

• wees kritisch • wees inventief

Eric Sieverts | ZA07-2 | februari 2011