“resources” en hun zoeksystemen op internetwebzoek.pbworks.com/f/resources.pdf ·...

Post on 04-Aug-2020

2 views 0 download

Transcript of “resources” en hun zoeksystemen op internetwebzoek.pbworks.com/f/resources.pdf ·...

“resources” en hun zoeksystemen op internet

Eric Sieverts januari 2015

GO Opleidingen

doelstelling / leerdoelen

leerdoelen van deze cursus:

• U bent in staat de voor uw onderzoek meest geschikte bronnen te selecteren

• U kunt daarbij toe te passen zoeksystemen optimaal gebruiken

• U kunt anderen adviseren bij de keuze van informatiebronnen en het zoeken daarin

2

gedachtenbepaling vooraf

• wat is een bron?

• is Google een bron?

• is het web een bron?

• NEE (althans voor deze cursus)

• Google is een zoekingang op heel veel bronnen

• het web is een medium waarop heel veel soorten bronnen beschikbaar zijn 3

gedachtenbepaling vooraf

uitgangspunt voor de cursus:

• een bron is een collectie van een bepaald soort informatie die online beschikbaar is,

• waarbij de soort bepaald kan zijn door de vorm (krantenartikelen, video's, blogs, tweets, plaatjes, ...),

en/of door de inhoud (medische informatie, nieuws, wetenschap, ...)

4

gedachtenbepaling vooraf

om in "bronnen" te kunnen zoeken / ze te raadplegen, maken we gebruik van zoeksystemen of zoekingangen

• in die zin is Yahoo! een zoekingang op een

veelheid aan bronnen.

• in die zin is IceRocket een zoekingang op weblogs.

• in die zin is een zoekingang op

wetenschappelijke bronnen. 5

inhoud / programma

0. welkom, introductie 1. boeken en (wetenschappelijke) artikelen 2. nieuws koffiepauze 3. oude informatie 4. blogs, feeds lunchpauze 5. twitter, facebook, social 6. beeld & geluid theepauze 7. naslag 8. data 9. gespecialiseerd versus algemeen, diepe web,

persoonlijke zoekmachines, 10. beoordelen van bronnen 11. bijblijven, afsluiting 6

10.00 ~11.15 ~12.30 ~13.30 ~14.45 ~16.45

inhoud / programma

• zie "Zicht op de veelheid aan bronnen op internet" voor informatie over octrooien, digitale colleges,

rapporten, bedrijfsgegevens, projecten, kaarten, etc.

• zie http://webzoek.pbworks.com/resources-plus voor lijst aanklikbare URL's van hier genoemde

systemen

7

bekend verondersteld

• verschil tussen soorten diensten op internet • typerende aanbieders op internet • domeinenstructuur en url-opbouw • verschillende soorten zoekstrategieën en -doelen • verschil/toepassing gidsen versus zoekmachines • werking en geavanceerde opties van zoekmachines • betekenis van recall en precision • betekenis diepe/onzichtbare web • wijze van ranking zoekmachines, werking PageRank

algemene startpagina voor zoekhulpmiddelen • http://gostartpagina.pbworks.com

8

soorten informatiebronnen • naar aard van informatie

– wetenschappelijke informatie – naslagwerken – nieuwsberichten – krantenartikelen – (digitale) boeken – ...

• naar “medium” – webpagina’s – pdf’s – images – videos – weblogs – rss-feeds – tweets – ...

ander onderscheid: • primair - secundair - tertiair

– KNMI - weer-startpagina - StartNederland • doorzoekbaarheid

– alleen metadata - full-text 9

soorten informatiebronnen

niet al zulke combinaties zijn zinvol/mogelijk

web-

pagina

pdf

image

video

weblog

tweet

rss-feed

wetenschap

naslag

nieuws

kranten

eBooks

...

10

informatiebronnen en hun zoekingangen (de zoektools)

• kun je alles (ook) met Google vinden?

• welke Googles (en Bing’s) zijn er allemaal? (image-, blog-, video-, news-, book-, scholar-, groups-search,

maar meeste ook geïntegreerd in gewone Google)

• kun je met die Googles alles vinden?

• welke alternatieven zijn er voor die Googles? – zie bijv. trovando.it http://www.trovando.it/ of wiinkz http://www.wiinkz.com/ – alternatieven voor het diepe (en betaalde) web

11

1. boeken & (wetenschappelijke) artikelen

• boeken – Google Books – Hathitrust Digital Library (open book scan project) – Delpher (gedigitaliseerde boeken -en kranten- van de KB en NL-univ.) – Amazon (ook reviews, inhoud, boek-boek citaties) – Worldcat (catalogus van 10.000 bibliotheken met postcode-functie) – Librarything (catalogus van 58.000.000 boeken van 1.000.000 bezitters) – GoodReads (reviews, recommandatie, vrienden, ...) – Picarta – Bibliotheek.nl – DOAB (directory of open access books) – Open Textbook Library (open access leerboeken) – enz.

• artikelen (e.d.) • enz. 12

boeken: Google Books

• van kaft tot kaft gescand (en doorzoekbaar!) • sterk voor ontdekken van niet-hoofdinhoud van boeken • vaak beperkt doorbladerbaar (no preview / snippet view / limited preview / full preview) • content via uitgevers en via grote bibliotheken • probleem met copyrighted materiaal uit bibliotheken • vergeleken met Amazon search inside: meer oud, minder recent • ook ‘My Library’ optie vb • > 30 miljoen boeken (+ nu ook enkele ‘magazines’) • NL-boeken niet alleen uit Gent en KB, ook uit US/UK • metadata op about-this-book-pagina • bibliotheken linken vanuit catalogus (bijv. Picarta) • interessante woordfrequentie-analyses met ngram viewer

13

1. boeken & (wetenschappelijke) artikelen

• boeken • artikelen (e.d.)

– Google Scholar (wetenschappelijke artikelen, rapporten, proefschriften, ...) – Microsoft Academic (wetenschappelijke artikelen, ...) – RefSeek, Virtual LRC (wetenschappelijke artikelen en webpagina's) – sEURch / UvA-library / MIT / UGA, ... (universitaire "discovery tools") – ScienceDirect (artikelen van Elsevier) – BASE / OAIster (uit academische repositories / Open Access) – Paperity (aggregator van Open Access artikelen - nog in opbouw) – NARCIS (40.000 proefschriften, 600.000 publicaties [veel artikelen] uit NL) – DOAJ (artikelen in Open Access tijdschriften) – SciELO (Spaans/Portugees-talige wetenschappelijke artikelen) – Magportal (ook -Engelstalige- publiekstijdschriften) – DeepDyve (wetenschappelijke artikelen "te huur") – enz.

• enz. 18

wetenschap: Google Scholar

• > 100 miljoen wetenschappelijke publicaties • verschil full record en aanwezigheid als ‘citation’ • verschil full-text links en bibliografische links • concurrent voor Web of Science, Scopus, Picarta, BASE,

OAIster, DOAJ, Ingenta • gericht geïndexeerd in vele bronnen (uitgevers, abstract-

databases, universiteiten, repositories, ...) • met citaties! • aantallen citaties mede gebruikt voor ranking (waardoor recente publicaties relatief laag scoren)

• .... >>

19

wetenschap: Google Scholar

• .... • advanced search beperkt, nog veel fouten door computer-

generated metadata • van zoekresultaat naar volledige tekst vaak een probleem

(niet aanwezig, alleen tegen betaling) • soms veel versies van artikel (waaronder wel gratis) • wel zichtbaar welke artikelen gratis versie hebben • Google Scholar library programme koppelt aan eigen

bibliotheekbezit: links naar eigen toegangen / link-resolver • geen info over bronnen, updates

20

## citaties/ aangehaald

open access

abonnement univ. utrecht

als dit artikel interessant is, dan deze 23 recentere waarschijnlijk ook

werkt vaak niet goed

1. boeken & (wetenschappelijke) artikelen

• boeken • artikelen (e.d.) vakspecifiek zoeken (gratis zoekingangen; soms alleen de metadata)

– geneeskunde: Pubmed (bibliografisch), PLoS-one (open-access tijdschrift - full-text) – economie: RepEc (repository) – wiskunde, informatica: CiteSeer (repository) – onderwijs: ERIC (bibliografisch) – (hoge energie-) fysica: SPIRES-HEP (bibliografisch), ArXiv (full-text preprint server) – bibliotheekwetenschap: LISTA (bibliografisch) – humanities (vooral): JURN (deels full-text) – filosofie: International Philosophical Bibliography – transport: TRID (bibliografisch)

• enz. 24

Maak nu de opdrachten van onderdeel 1

2. nieuws, kranten, tijdschriften

• Google News, Yahoo News, Bing News, ... • BBC , CNN , CBSnews , e.d.

• nu.nl • € LexisNexis, € Factiva • sites van kranten en tijdschriften

– overzicht Engelstalig wereldwijd: world-newspapers.com – overzicht Nederlandse kranten: kranten.startnederland.nl – overzicht Nederlandse tijdschriften: tijdschrift.startnederland.nl

• Newslink-magazines • ....

[weblogs & tweets: zie 4 en 5] [video/tv-nieuws: zie 6]

25

gespecialiseerd: Google News

Engelstalig nieuws uit 4500 bronnen + aparte versies in andere talen dan Engels:

– chinees (1000 bronnen) – duits (700 bronnen) – frans (500 bronnen) – hebreeuws (100 bronnen) – italiaans (250 bronnen) – japans (600 bronnen) – koreaans (550 bronnen) – nederlands (>400 bronnen) – portugees (200 bronnen) – spaans (700 bronnen) [alleen nog zoeken] – enz.

Maak nu de opdrachten van onderdeel 2 26

3. oud web, oud nieuws, archief

• web-archieven – "way-back-machine" op archive.org (oude versies van websites, terug tot 1996, al 435 miljard pagina's !

ingang niet met zoekwoorden, maar via -oude- url) – UK web archive – Library of Congress web archives – Archipol - webarchief Nederlandse politieke partijen – list of web archiving initiatives – lijst webarchieven (Eric Hennekam)

• historische nederlandse kranten (versnipperd aanbod) • historische buitenlandse kranten • LexisNexis

• ‘echte archieven’

27

3. oud web, oud nieuws, archief

• web-archieven • historische nederlandse kranten (versnipperd aanbod)

– Delpher (gedigitaliseerde kranten KB, inclusief Suriname, Nederlandse Antillen en Indonesië - samen met boeken)

– landelijke krantendatabank (ook papieren collecties) – Los: Groene Amsterdammer (>1877), Leeuwarder Courant (>1752)

• historische buitenlandse kranten – British newspapers 1800-1900 – historic American newspapers – € NY Times archief (Timesmachine) – Google news archive (use "Search Tools" - "Any Time" - "Custom range") – digitized Australian newspapers – internationaal overzicht

• € LexisNexis • ‘echte archieven’ via archiefzoeker.nl, archivegrid, ... 30

Maak nu de opdrachten van onderdeel 3 31

4. blogs & rss-feeds

• Icerocket • Twingly • Google [→ tabblad "News" → search tools → all news → blogs]

• Exalead [ >> achteraf inperken op blogs ]

– denk aan verschil tussen ingang op individuele berichten en ingang op blogs of feeds als geheel

– wie citeert wie? – filtermogelijkheid op “autoriteit” ?=? belang, kwaliteit, .... – filter op termen binnen je rss-feedreader – blogs of onderwerp volgen met blogsalert? – #hashtags

32

4. blogs & rss-feeds

zoeken naar RSS feeds (meer dan alleen blogs) – CTRLQ: http://ctrlq.org/rss/ – RSS Searchhub: http://www.rsssearchhub.com/ – overzicht (op "makeuseof")

voor vinden van feeds van bepaalde bron / website voor vinden van feeds waarin bepaald onderwerp centraal

staat

33 Maak nu de opdrachten van onderdeel 4

• Twitter in 140 tekens – vaak met verkorte links – vaak met foto- of video-link – vaak met hashtags (#afgesprokentrefwoord)

• Twitter als continue informatiebron: – volg de "juiste" personen die interessante nieuwtjes, rapporten,

artikelen via Twitter delen

• zoeken (in 500 miljard tweets) – twitter (ook advanced search) – topsy – snapbird (alle tweets van 1 persoon waarvan je twitternaam kent) – twicsy (foto's op twitter) – ...

5. tweets en social search

34

5. tweets en social search

• veel Twitter hulptools – archief van al weer gewiste tweets van politici: politwoops (ook nl) – twubs (bijv. bij congres) : volg in real-time alles met bepaalde hashtag en voeg die tag

automatisch toe aan eigen berichten – ...

• links uit tweets automatisch bewaren als social bookmarks – via packrati.us >> delicious, pinboard, diigo, ...

• Facebook "graph-search" voor gestructureerd zoeken (in Engelstalig interface, maar mogelijkheden recent sterk beperkt)

35

Facebook Graph Search alles wat gebruikers registreren, wordt gestructureerd opgeslagen in Facebook's graph (met gestandaardiseerde betekenis), waardoor ook gestructureerd gezocht kan worden

5. tweets en social search

• “Real time / social search engines” – social-searcher, socialmention, whostalkin, … (tweets + blogs + facebook + …) – Google personal results / Google+ ("search plus your world")

• Forumdiscussies – omgili, (boardtracker), ... – Google groups (ook oude nieuwgroep-discussies)

voor methoden van onderzoek: – zie adviezen van Henk van Ess in "de digitale detective" (2012) – How to: use social media in newsgathering (2012) – zie ook: 50 Top Tools for Social Media Monitoring (2013)

Maak nu de opdrachten van onderdeel 5 37

6. multimedia

• images – Google-image (simpele beeldherkenning; ook foto’s uit Picasa) – Yahoo-image (ook veel foto’s uit Flickr) – Bing-image – Exalead-image (veel verschillen in zoekresultaten door verschillen in “tekstzoekvelden”)

– Flickr (zoekt vooral op tags; ondersteunt “Creative Commons” ) Andere uploadsites: Pbase, Smugsmug, Photobucket, Zoom, Zenfolio – Google, Bing (VS) (search by image), – Tineye (zoekt -bijna- exacte copieën) – speciale sites (beeldbank nationaal archief, wikimedia commons, ...) – geografische ingang (panoramio [via google-maps], google maps [views],

worldc.am [instagram], ...)

• video • audio

38

voorbeeld

... en geeft "visually similar images" maar dat werkt niet in elke situatie goed

40

google zoekt meest waarschijnlijke zoekwoorden om dit plaatje te beschrijven en combineert die in het zoekvenster al met het plaatje zelf

40

41

42

6. multimedia

• images • video

– YouTube (groei: 300 uur/minuut, ook "filters") • Youtube Edu channel

– Vimeo (uploads - "serieus" materiaal) – Blinkx (omroepen - 35 miljoen uur video, spraakherkenning?) – VoxaleadNews (met spraakherkenning - in 9 talen - ook NL!) – Bing-video (niet makkelijk te vinden vanuit basis-scherm) – Google-video (ook video’s uit YouTube; zoekt alleen in metadata) – TV-uitzendingen:

• Uitzending gemist (beperkte zoekfunctie) • Beeld & Geluid (doorzoekt metadata; gebruik “uitgebreid zoeken”) • Academia (selectie uit Beeld & Geluid voor hoger onderwijs; betaald)

• audio – VoxaleadNews (met spraakherkenning - in 9 talen - ook NL)

Maak nu de opdrachten van onderdeel 6 43

7. naslag & antwoorden

• encyclopedieën e.d. – wikipedia – overzicht in Open Directory – internet movie database

• vragen & antwoorden – Quora – Yahoo-answers – (FAQs: internet FAQ consortium )

• woordenboeken, vertaaldiensten e.d. • ...

44

• in >280 talen • levert “wisdom of the crowds” altijd “wisdom”? • goed voor “feitelijke” onderwerpen • veel detailonderwerpen (>20 miljoen lemma’s, >1 miljoen NL) • soms nuttig om relevante eigen publicaties / boeken uit eigen

collectie als referenties aan lemma toe te voegen • toch wel beleid & beheer: stewards, administrators • met Google site-commando kun je alle taalversies tegelijk

doorzoeken: zoekwoord site:wikipedia.org • Qwika: wikipedia metasearch (1158 wiki's in 12 talen, incl.

computer-vertaling)

wikipedia

45

7. naslag & antwoorden

• encyclopedieën e.d. • vragen & antwoorden • woordenboeken, vertaaldiensten e.d.

– answers.com (voert een metasearch uit) – Roget thesaurus – Acronymfinder – Bartleby – Mijn Woordenboek synoniemen – Synoniemen.net – Google Translate

– overzicht in Open Directory – overzicht in Open Directory Nederlands

• ...

46

8. feiten

• dataverzamelingen – algemene data-zoekmachines:

• knoema zoekmachine voor data, statistieken en visualisaties • quandl datasets uit diverse bronnen • zanran zoekmachine voor data, tabellen, statistieken,

grafieken e.d. uit webpagina's – zoekmachine voor feiten + berekeningen:

• Wolfram Alpha

– statistieken – visualisatietool – linked (open) data – wetenschappelijke datasets

47

8. feiten

• dataverzamelingen – algemene data-zoekmachines – zoekmachine voor feiten + berekeningen – statistieken:

• statline (Nederland: CBS), • eurostat (Europa), • Undata (Verenigde Naties), • worldbank (wereldwijd) • oecd (wereldwijd) • ....

– visualisatietool: Google Public Data Explorer – linked (open) data – wetenschappelijke datasets

48

8. feiten

• dataverzamelingen – algemene data-zoekmachines – zoekmachine voor feiten + berekeningen – statistieken – visualisatietool – linked (open) data (niet makkelijk bruikbaar voor eindgebruikers):

• data.overheid.nl (Nederland), • UK-open-data (UK) • EU-open-data (Europa) • data.gov (US) • open-data-site-finder (wereldwijd overzicht)

– wetenschappelijke datasets

49

8. feiten

• dataverzamelingen – algemene dataset-zoekmachines .... – zoekmachine voor feiten + berekeningen – statistieken: – visualisatietool – linked (open) data – wetenschappelijke datasets:

• DANS dataportal (NL) • Narcis-data (NL) • dataverse-network (algemeen; vooral VS en Europa) • Re3data (data-repositories) • DataBib (datarepositories) • datacite (metasearch) • worldwidescience (metasearch - tabblad "data") • ....

50 Maak nu de opdrachten van onderdeel 7 / 8

9. gespecialiseerde versus algemene zoekingangen

gespecialiseerde: selectief & vaak “dieper” dan algemene zoekmachine – interne zoekfunctie van individuele site – kant en klare onderwerpsgerichte zoekingangen

• Worldwidescience (wetenschap algemeen) • Findlaw (rechten USA) • WebMD / Medscape (geneeskunde) • Google-finance (financiële gegevens + nieuws) • Searchgov (metasearch Amerikaanse overheidssites) • .....

– homemade met : • Google CSE, Blekko (slashtags) zelf selecteren welke sites (url’s) in zoekmachine moeten

worden meegenomen 51

ingangen op diepe web

toegang tot het diepe web – “handmatig” (elke database afzonderlijk doorzoeken)

• geen universele overzichten meer beschikbaar • voor "wetenschap" al eerder verzamelzoeksystemen genoemd

– “halfautomatisch” (doorzocht via desktop metasearch engine) • copernic-agent (metasearch vanaf eigen PC)

– “automatisch” (gegevens uit bepaalde database/bron zitten ook al -allemaal?- in algemene zoekmachines)

bijv. catalogus UB Wageningen

52 Maak nu de opdracht van onderdeel 9

10. vergelijken en beoordelen van (zoekingangen van) bronnen

• wat voor soort materiaal zit er in – primaire (c.q. full-text) vs. secundaire informatie – naslag / nieuws / onderzoekresultaten / statistieken / websites /

artikelen / boeken / rapporten / ...

• welk onderwerpsgebied • welke doelgroep (niveau)

• hoeveel zit erin (aantal items, dekkingsgraad, ...) vaak moeilijk te bepalen door verschillen in functionaliteit en onbetrouwbare aantallen voor zoekresultaten uit zoekmachines

• hoe goed werkt het zoeksysteem (functionaliteit, gebruiksgemak, selectiviteit, ...)

• wat is de kwaliteit van de content zie bijvoorbeeld JISC Academic Database Assessment Tool

• bekijk: bron zelf / Wikipedia / leveranciers / JISC 53

web-gerelateerde factoren • beoordeel domeinnaam

(bijv.: edu, edu.au, edu.sg, edu.ng, edu.lb, ac.uk, gov, gov.uk, gov.hk, gov.au, gov.on.ca, gob.es, gob.mx, gob.ve, gob.ec, ...)

• Alexa rank van website (hoeveelheid web traffic); tools daarvoor: – http://www.seomastering.com/alexa-rank-checker.php – http://www.alexa.com/

• Google pagerank van website (bepaald door aantal en aard van backlinks); tools daarvoor:

– http://www.prchecker.info/ – http://www.checkpagerank.net/

• zoek de "backlinks" zelf – Google: met link: commando - erg incompleet – OpenSiteExplorer: erg compleet - betaalde dienst – Alexa: toont 5 belangrijkste backlinks

• wie is eigenaar van domeinnaam; tools daarvoor: – http://centralops.net/co/DomainDossier.aspx – http://whois.domaintools.com/

beoordelingscriteria voor websites

54

beoordelingscriteria voor websites Nog wat algemene factoren: • Goede opmaak • Aanduiding maker/auteur (“about us”) • Aanduiding postadres, telefoonnummer • Aanduiding doel/doelgroep • Geen reclame en pop-ups • Heldere navigatie • Interne zoekfunctie • Voldoende snelheid server • Backlinks door gezaghebbende organisaties • Up to date? • Zinnige datering inhoud • Geen grof taalgebruik • Geen kinderlijk taalgebruik • Geen storende taalfouten Zelfs als alles in orde lijkt, bij gevoelige onderwerpen toch nog uitkijken

Maak nu de opdracht van onderdeel 10 55

11. bijblijven met bronnen

• Weblogs: – Resourceblog – InfoDocket (Gary Price) – SearchEngineLand (Sullivan, Sherman) – InternetNews/WebSearchGuide (Gwen Harris) – Phil Bradley's weblog – “Spion” op bronnenlijst (Copernic Tracker, WatchThatPage, …) – RSS-feed op lijsten indien aanwezig

• FreePint

56

bijblijven met behulp van RSS

• Rich Site Summary / Really Simple Syndication • voor sites met (on)regelmatig nieuwe actuele inhoud, bijvoorbeeld

nieuwsbrieven, weblogs (+ ook sommige databases) • lezen, beheren als ware het email • maakt gebruik van xml-structuur • vereist software (reader), bijv. Feedreader, Feeddemon, Shrook, …

of online lezen bijv. bij Netvibes, Bloglines, Digg reader • toevoegen van een ‘feed’: op pagina url onder oranje (soms blauw)

rss- of xml-logo copiëren en in reader plakken • drie nauwverwante formats: rss/atom/rdf (readers multiformat) • zoeken van berichten: Google Blogsearch, Twingly, IceRocket,

real-time search [zie eerder] • zoeken van feeds: CTRLQ, RSSsearchhub [zie eerder]

57