Keuzes in het zoekproces en structuur van het web

28
1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 1 november 2006 Wageningen

description

Keuzes in het zoekproces en structuur van het web. Jeroen Bosman VOGIN, 1 november 2006 Wageningen. Kenmerken zoekexpert. Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces. - PowerPoint PPT Presentation

Transcript of Keuzes in het zoekproces en structuur van het web

Page 1: Keuzes in het zoekproces en structuur van het web

1

Keuzes in het zoekproces en

structuur van het web

Jeroen Bosman

VOGIN, 1 november 2006 Wageningen

Page 2: Keuzes in het zoekproces en structuur van het web

2

Page 3: Keuzes in het zoekproces en structuur van het web

3

Page 4: Keuzes in het zoekproces en structuur van het web

4

Kenmerken zoekexpert

• Kennis onderwerp• Bronnenkennis• Kennis zoektools• Talenkennis, taalcreativiteit• Logica

• Zorgvuldig gebruik zoektools• Snelheid• Reflectie op eigen zoekproces

Page 5: Keuzes in het zoekproces en structuur van het web

5

Zoeksystematiek1. Vraaganalyse2. Verkenning3. Opstellen zoekprofiel: waaraan moet de informatie

voldoen4. Keuze ingang(en): zoekmachines, directories,

bookmarksites5. Daadwerkelijk zoeken en selecteren6. Beoordeling bron7. Nabewerking per relevante bron 8. Eventueel andere ingangen of geheel andere

typen bronnen (gedrukte literatuur, deskundigen)9. Expliciete reflectie op zoekproces en zoekresultaat10. Bij doorlopende interesse evt. web en page

alerts/feeds instellen

Page 6: Keuzes in het zoekproces en structuur van het web

6

Vraaganalyse

• Opdrachtgever: wat wil men met de informatie?

• Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.)

• Randvoorwaarden: tijd, geld, vertrouwelijkheid

• Rapportagevorm (inhoudelijk, technisch)

Page 7: Keuzes in het zoekproces en structuur van het web

7

Verkenning

• Welke vraag/onderwerp• Wat ligt er al, nuttig als uitgangspunt?• Inhoudelijk verkennen (via bv

Wikipedia of ander naslagwerk of via korte zoekactie)

• Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs

Page 8: Keuzes in het zoekproces en structuur van het web

8

Zoekprofiel

• Onderscheiden elementen (variabelen)• Welke?• Allebei even belangrijk?

• Vooraf genereren zoektermen• Uit reeds gevonden bronnen• Uit naslagwerken/zoekacties van verkenningsfase• Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus)

• Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen

• Relevante typen informatie en publicaties• Relevante publicatieperiode

Page 9: Keuzes in het zoekproces en structuur van het web

9

Keuze zoekingang

• Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren

• Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties

• Bepaald door extra wensen:– Zoekmethode: catalogus-, bibliografische,

sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks)

– Zoeken in full-text, links naar full-text• Ook letten op volgorde ingangen (dekking,

bekendheid, selectiviteit)• Zie voor links naar ingangen de ‘startpagina’ bij

deze cursus

Page 10: Keuzes in het zoekproces en structuur van het web

10

Daadwerkelijk zoeken

• Bij zoekmachine input zoektermen en instellingen, bij gids klikken in hiërarchie of ook zoeken met zoektermen

• Eén of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen

• Selectie uit resultaat: waarnaar kijken?• Evaluatie gevonden bron: waarop letten?

Page 11: Keuzes in het zoekproces en structuur van het web

11

Beoordeling bron• Formeel (vooral bij

websites): – Aanduiding maker/auteur

(“about us”)– Aanduiding postadres,

telefoonnummer– Aanduiding doel/doelgroep– Goede opmaak– Geen reclame en pop-ups– Heldere navigatie– Interne zoekfunctie– Voldoende snelheid server– Backlinks door

gezaghebbende organisaties

– Up to date?– Zinnige datering inhoud– Geen grof taalgebruik– Geen kinderlijk taalgebruik– Geen storende taalfouten

• Inhoudelijk (vooral bij reguliere publicaties) – Status bron (peer

reviewed, uitgever, gezaghebbende instantie)

– Plaats in citatienetwerk (door wie, hoe vaak)

– Bronvermelding (voldoende, geen kernpublicaties gemist)

Page 12: Keuzes in het zoekproces en structuur van het web

12

Nabewerking per (relevante) bron

• opslaan (mail, document, endnote/refworks e.d)

• versturen (handmatig, vanuit systeem)• bookmark (browser, del.icio.us)• alert/spion• RSS-feed

Komt op vierde dag apart aan de orde

Page 13: Keuzes in het zoekproces en structuur van het web

13

Reflectie

• Hoeveel gevonden in hoeveel tijd?• Voldoet oogst aan zoekprofiel?• Welke aspecten van zoekprofiel waren meest

selectief?• Waren alle vooraf bedachte ingangen even

nuttig?• Wat was de overlap tussen de ingangen?• Goede volgorde ingangen gehanteerd?• Iets geleerd over eigen sterke/zwakke punten?

Page 14: Keuzes in het zoekproces en structuur van het web

14

domeinen• soorten top-level-domains (TLD) iso-3166

– generiek: • com / org / net (vrij)• int / edu / gov / mil / arpa (beperkt)

– landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%)– jump: tv / nu / to / tk– nieuw: biz/info/name/coop/pro/aero

• generieke ‘subtopleveldomeinen’:co / gob / ac / org etc. (zie bv. http://www.derbal.com/domains.html)

Page 15: Keuzes in het zoekproces en structuur van het web

15

opbouw URL

• protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie

• http : // www . library . uu . nl / geosource / index . html

Page 16: Keuzes in het zoekproces en structuur van het web

16

URL’s van databasepagina’s

• http://hardy.library.uu.nl:4505/ALEPH0/SESSION66067604868/scan?VALUE=geografische+huis&SCAN=TIT

• http://www.ussc.alltheweb.com/cgi-bin/advsearch?offset=40&terms=3&type=any&query=utrecht&exec=FAST+Search&lang=any&enco=iso-88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on

Page 17: Keuzes in het zoekproces en structuur van het web

17

Inhoud WWW: aanbieders• Bedrijven• Overheid• Internationale organisaties• Verenigingen, actiegroepen • Universiteiten• Bibliotheken• Uitgevers • Particulieren

Page 18: Keuzes in het zoekproces en structuur van het web

18

zoektools: wanneer wat?

• indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk:

zoekmachines• indien zoekvraag breed, exploratief,

inventariserend, met weinig voorkennis, met relatief veel tijd:

onderwerpsgidsen

Page 19: Keuzes in het zoekproces en structuur van het web

19

Onderwerpsgidsen: algemeen

+ geen zoektermen

nodigvaak actueelannotatiesweinig ruis

-

onvolledigdode linksvoorkeur makerhoudt groei niet bijvoor homepages

Page 20: Keuzes in het zoekproces en structuur van het web

20

Onderwerpsgidsen: breed

• internationaal/VS:– Open Directory (in Gigablast extra

zoekfuncties hiervoor)

– Yahoo• Nederlands:

– startpagina+dochters en concurrenten

– startnederland (meta-gids)

Page 21: Keuzes in het zoekproces en structuur van het web

21

Onderwerpsgidsen: gespecialiseerd

• Miljoenen• Breed wetenschappelijk: Infomine, BUBL• Zoeken:

– via Yahoo (per onderwerp onder ‘webdirectories’)– via Open Directory of Startnederland– via RDN (wetenschappelijk)– via Pinakes (wetenschappelijk)

• Tijd besteden aan vinden van goede onderwerpsgidsen:– via collegae– via discussielijsten

Page 22: Keuzes in het zoekproces en structuur van het web

22

Zoekmachines: dekking

• > 15% van de webpagina’s in geen enkele van de grootste zoekmachines

• Van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (http://www.cs.uiowa.edu/~asignori/web-size/)

• dekking zeer ongelijkmatig• verschil in actualiteit

Page 23: Keuzes in het zoekproces en structuur van het web

23

Zoekmachines: ontwikkeling• Webcrawler, Lycos, Alta Vista (10)

• concurrentie Hotbot, Excite, Yahoo (50)• 1997 Northern Light, MSN, sterke groei web > 200• 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite,

ILSE o.a. (100)• 2002 komst Teoma, Wisenut, Gigablast (1000)• 2003 renaissance AV, glorietijd Google (3000)

• 2004 consolidatie/concurrentie (4000):– Google+Blogger, verbreding: boeken, kritiek, beursgang– Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW– Microsoft: introductie MSNsearch beta: zelf indexeren

• 2005 verbreding/innovatie/content (5000-10000)– Samenwerking content providers-zoekmachines?– Opkomst vijfde grote speler, Amazon met A9?– Doorgroei Gigablast (2000)

• 2006 puur zoeken raakt op achtergrond, uploaden, gemengde content, specifieke diensten (10000-20000)

Page 24: Keuzes in het zoekproces en structuur van het web

24

Zoekmachines: wat vind je niet?

• recente webpagina’s/wijzigingen• dynamisch gegenereerde pagina’s• informatie in databases• pagina’s met no robots file• pagina’s met toegangsrestricties• verdwenen pagina’s (maar: cache en

Wayback Machine archive.org)

Page 25: Keuzes in het zoekproces en structuur van het web

25

Zoekmachines: beperkingen Google

• genest Booleaans zoeken > Yahoo/Live/Exalead/Gigablast

• backlinksindex vrij klein > Yahoo• zeer grote pagina’s niet volledig

geïndexeerd > Yahoo• truncatie en patroonzoeken >

Exalead

Page 26: Keuzes in het zoekproces en structuur van het web

26

kwaliteit van de invoer in zoekmachines, termen

1. belang van juiste zoektermen2. spellingsvarianten en truncatie (alleen nog Exalead,

hoewel…)3. denken in termen van het te vinden document, gebruik

zinsnedes4. gebruik van algemene thesauri (Het juiste woord en

Roget's) en evt. gespecialiseerde thesauri bij het zoeken naar alternatieve zoektermen, Word-synoniemen

5. gewicht aanbrengen met zoektermherhaling in Google 6. gebruik van speciale termen (evt slang) om te beperken tot

een specifieke context waarin term moet voorkomen 7. gebruik van gesuggereerde termen (o.a. Google Suggest /

Gigablast)8. inschatten effect gebruikte termen op basis van resultaat9. gevaar effect combineren gespecialiseerde en algemene

termen10. voorbeeldzoeken versus generiek zoeken voor

opsommingen

Page 27: Keuzes in het zoekproces en structuur van het web

27

Relatieve omvang, april 2006

  A9 Exalead Gigablast Google MSNsearch Scirus Ask Yahoo!

Nederlands algemeen            

fietsenstalling 9 5 3 100 14 0 0 31

poldermodel 9 3 3 100 8 1 1 58

Terschelling Schylge wad 69 48 32 100 34 1 9 58

VMBO onderwijs 2000 9 3 3 100 11 0 0 25

"van de hak op de tak" 1 1 11 100 7 0 1 22

gemiddelde 19 12 10 100 15 0 2 39

Engels/internationaal algemeen            

production 9 4 4 100 8 0 5 23

Cairo Coptic 5 5 25 100 21 1 9 49

zenith aardvark 9 3 14 100 7 0 8 14

MI5 submarine 8 4 1 100 12 1 7 45

"read my lips" 9 0 5 100 7 0 9 50

gemiddelde 8 3 10 100 11 0 8 36

Page 28: Keuzes in het zoekproces en structuur van het web

28

lunchpauze

Vervolg 13:30