Information Retrieval: van specialisme tot commodity

138
information retrieval: van specialisme tot commodity online zoeken - 1980-2014 Eric Sieverts @sieverts UB Utrecht HvA-MIC GO Opleidingen BW UA - 4 april 2014

Transcript of Information Retrieval: van specialisme tot commodity

Page 1: Information Retrieval: van specialisme tot commodity

information retrieval: van specialisme tot commodity

online zoeken - 1980-2014

Eric Sieverts@sieverts

UB Utrecht HvA-MICGO Opleidingen

IBW UA - 4 april 2014

Page 2: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

informatievoorziening van specialisme tot commodityhet komt nu gewoon "uit de muur"

maar soms wel wat veel .......

2

Page 3: Information Retrieval: van specialisme tot commodity

de geschiedenis in één slide .....

Eric Sieverts, IBW-UA, 4-4-20143

Page 4: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-20141980

verbinding met "The Cloud" anno 1980

datacom-kosten (PTT) : ca f 0,30 / kB

online informatie zoeken kunnen we al meer dan 40 jaar

4

Page 5: Information Retrieval: van specialisme tot commodity

online verbinding anno 1980:300 baud acoustisch modemmet thermische lijnprinter

5 Eric Sieverts, IBW-UA, 4-4-2014

Page 6: Information Retrieval: van specialisme tot commodity

online in1985: draagbare IBM PC met "domme terminal" software en 1200 bit/s modem

6 Eric Sieverts, IBW-UA, 4-4-2014

Page 7: Information Retrieval: van specialisme tot commodity

ARPAnet 1969

7

en internet is zelfs nog ouder ….

Page 8: Information Retrieval: van specialisme tot commodity

webzoekmachines zijn er al 20 jaar

webcrawlerin 1993 de eerste die ook tekst uit de pagina zelf indexeerde

8

Page 9: Information Retrieval: van specialisme tot commodity

lycosin 1994 de eerste "echte", met bijna 1,5 miljoen pagina's

9

webzoekmachines zijn er al 20 jaar

Page 10: Information Retrieval: van specialisme tot commodity

altavistain 1996 de nieuwste grootste, met ruim 30 miljoen pagina's

10

webzoekmachines zijn er al 20 jaar

Page 11: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

Google vierde vorig jaarzijn 15de verjaardag

11

Page 12: Information Retrieval: van specialisme tot commodity

agenda• informatiegroei / informatieinflatie

– wetenschap

– web

– data

• vinden van "al" die informatie– zoektrends voor de wetenschap

• resultaten vergelijking Scopus - WoS - Google Scholar

– zoektrends voor het web

• Google - meer of minder / beter of slechter

• semantisch zoeken

Eric Sieverts, IBW-UA, 4-4-201412

Page 13: Information Retrieval: van specialisme tot commodity

1. de wetenschap

groei van te vinden informatie

Page 14: Information Retrieval: van specialisme tot commodity

overhead sheet bijcolleges ca. 1985

bronnen:• Derek de Solla Price• Gale Directory• Ulrich's• ...

14 Eric Sieverts, IBW-UA, 4-4-2014

Page 15: Information Retrieval: van specialisme tot commodity

10

100

1000

10000

100000

1000000

10000000

100000000

17

20

17

40

17

60

17

80

18

00

18

20

18

40

18

60

18

80

19

00

19

20

19

40

19

60

19

80

20

00

20

20

schatting jaarlijks aantalwetenschappelijke publicaties

aantal tijdschriften

al 260 jaar verdubbeltjaarlijks aantal wetenschappelijkeartikelen elke 14 jaar

en aantal tijdschriftenook zo ongeveer

15 Eric Sieverts, IBW-UA, 4-4-2014

Page 16: Information Retrieval: van specialisme tot commodity

10

100

1000

10000

100000

1000000

10000000

100000000

17

20

17

40

17

60

17

80

18

00

18

20

18

40

18

60

18

80

19

00

19

20

19

40

19

60

19

80

20

00

20

20

schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)

10

100

1000

10000

100000

1000000

10000000

100000000

17

20

17

40

17

60

17

80

18

00

18

20

18

40

18

60

18

80

19

00

19

20

19

40

19

60

19

80

20

00

20

20

schatting jaarlijks aantalwetenschappelijke publicaties(Sieverts 1981-1994)

na (exponentiële) groei met factor 100.000neiging tot verzadiging?

NRC 12 maart 201116 Eric Sieverts, IBW-UA, 4-4-2014

Page 17: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

10

100

1000

10000

100000

1000000

10000000

100000000

17

20

17

40

17

60

17

80

18

00

18

20

18

40

18

60

18

80

19

00

19

20

19

40

19

60

19

80

20

00

20

20

schatting jaarlijks aantalwetenschappelijke publicaties(Eric Sieverts, 1981-1994)

jaarlijks aantalwetenschappelijke publicaties(NRC-Handelsblad, maart 2011)

exponentiële groei blijkt na 280 jaar toch nog niet afgevlakt

wetenschappers raken niet op?

• meer in china en india• nog meer "publish or perish" • …. ?

17

Page 18: Information Retrieval: van specialisme tot commodity

publish or perish

©18

Page 19: Information Retrieval: van specialisme tot commodity

extrapolatie naar 2024 ?

30 miljoen wetenschappelijke artikelen per jaar ?? database Scopus bevat dan 100 miljoen artikelen? Web of Science bevat dan 90 miljoen artikelen? Pubmed bevat dan 50 miljoen artikelen

maar blijven het (alleen) klassieke artikelen?

19 Eric Sieverts, IBW-UA, 4-4-2014

Page 20: Information Retrieval: van specialisme tot commodity

"what next" voor wetenschappelijk publiceren ?• ook blogs

• ook tweets

• ook onderzoeksdata

• klassieke artikelen ontleed / opgesplitst tot "nanopublicaties":afzonderlijke beweringen die beschreven worden als RDF-tripels (zelfde techniek als voor "linked open data")

DNA variant NG_000007.3:g.70628G>A (Subject) has a frequency (Predicate) of 0.25% (Object). The assertion holds for the Sardinian population Provenance includes authors of the article (Giardine et. al.),the date when the nanopublication was created, et cetera.

voorbeeld

nog meer "items"

20

Page 21: Information Retrieval: van specialisme tot commodity

Barend Mons, Jan Velterop, et al., Nature Genetics 43, 281–283 (2011) doi:10.1038/ng0411-281

21 Eric Sieverts, IBW-UA, 4-4-2014

Page 22: Information Retrieval: van specialisme tot commodity

trend: fragmentering van informatie

willen we dan nog naar artikelen zoeken

of naar die losse feiten of fragmenten?

22 Eric Sieverts, IBW-UA, 4-4-2014

Page 23: Information Retrieval: van specialisme tot commodity

2. het web

groei van te vinden informatie

23

Page 24: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

Dutch Home Pagenajaar 1993

Dutch Home Pagezomer 1994

Page 25: Information Retrieval: van specialisme tot commodity

gegevens aanvankelijk uit:

1998

hoeveel doorzoeken webzoekmachines?

20011995

25 Eric Sieverts, IBW-UA, 4-4-2014

Page 26: Information Retrieval: van specialisme tot commodity

1

10

100

1000

10000

100000

1000000

1992

1994

1996

1998

2000

2002

2004

2006

2008

2010

aantal miljoenenwebpagina's in grootstezoekmachine(verschillende bronnen)

15 jaar langverdubbelde elk jaar het aantal webpagina's in de grootste zoekmachine

content in betaalde online bronnen

milj

oene

n w

ebpa

gina

's?

hoeveel doorzoekenwebzoekmachines?

zie: Eric Sieverts. Van Lycos tot Google.in: NRC 9 februari 2013, special "Slimmer zoeken op internet" http://sieverts.pbworks.com/f/NRC_Lycos_Google.pdf

26 Eric Sieverts, IBW-UA, 4-4-2014

Page 27: Information Retrieval: van specialisme tot commodity

but presently:

• do we want to find any page?

• does Google want to index any page?

• what is a web page anyhow?

september 2012: Google knew about the existence of30 trillion URL's 30,000,000,000,000

various estimates:presently about500,000,000,000 indexed pages

27 Eric Sieverts, IBW-UA, 4-4-2014

Page 28: Information Retrieval: van specialisme tot commodity

extrapolatie naar 2024

4 biljard webpagina's in Google? (4.000.000.000.000.000)

maar blijft Google alles indexeren

en blijven het webpagina's?

28 Eric Sieverts, IBW-UA, 4-4-2014

Page 29: Information Retrieval: van specialisme tot commodity

29

Page 30: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

linked open data

• met linked open data komen losse feiten en gegevens gestandaardiseerd op internet beschikbaar

• in de linked open data cloud zijn al duizenden datasets met vele biljoenen RDF-tripels toegankelijk

• Google's Knowledge Graph bevat al miljarden gegevens

3030

Page 31: Information Retrieval: van specialisme tot commodity

31

van web totlinked data

Tim Berners Lee:1989: "invented" the WWW2004: proposed the "semantic web"2006: designed "linked data"

as a step towards realisation of the semantic web

Page 32: Information Retrieval: van specialisme tot commodity

dbpedia: data from Wikipedia

last.fm: artists

geonames:6.2 M toponyms

BBC: wildlifefinder

project GutenbergIMDB

music brainz

Reuters:openCalais

viaf: virtual internationalauthority file

LCSH

NY times

Flickr

"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussendoor standaardisering van dataformats en metadata,

kunnen computers betekenis van die data "begrijpen" en die data gebruiken

rechtspraak.nl

sept 2011

Page 33: Information Retrieval: van specialisme tot commodity

trend: fragmentering van informatie

zoeken we in 2024 nog naar webpagina's of naar losse feiten en fragmenten?

33 Eric Sieverts, IBW-UA, 4-4-2014

Page 34: Information Retrieval: van specialisme tot commodity

informatiegroei

informatie of data ?

&

informatieinflatie© Foam Amsterdam

Eric Sieverts, IBW-UA, 4-4-201434

Page 35: Information Retrieval: van specialisme tot commodity

informatie of data?informatieinflatie

2000 Hall & Varian onderzoek:

gezamenlijk produceerden we dat jaar 1,5 exabyte (miljard gigabyte) informatie en dat verdubbelt elk jaar

(maar: is dat informatie of zijn het data?)

2011 uit een "infographic":in 2010 produceerden we gezamenlijk 2 zettabytes :

2 x 1021 bytes (2000 miljard gigabyte)

en dat verdubbelt elk jaar

[d.w.z. ruim 300 GB per persoon]35 Eric Sieverts, IBW-UA, 4-4-2014

Page 36: Information Retrieval: van specialisme tot commodity
Page 37: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-201437

Page 38: Information Retrieval: van specialisme tot commodity

informatie of data?informatieinflatie

elk jaar verdubbelt aantal bytes dat we produceren is dat groei of inflatie?

• TXT documentje met mijn tekst: 50 kBvideoregistratie van mijn lezing: 500 MBdezelfde informatie(!?) maar 10.000 x zoveel data

• berichten op het web worden 100-voudig gerepliceerd, herblogd en geretweet

• van alles maken we ongecoördineerd back-ups

• ...

38 Eric Sieverts, IBW-UA, 4-4-2014

Page 39: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-201439

YouTube groeit met 100 uur per minuut

Page 40: Information Retrieval: van specialisme tot commodity

datavloedgolf

2011 - 1 biljoen YouTube filmpjes bekeken

2012 - Internet Archive: 10 PetaByte (1016)

2013 - 100 uur video per minuut YouTube - 4000 foto's per seconde Facebook

- 250 miljard foto's op Facebook

- 540 miljard tweets in Topsy zoekmachine

2014 - Beeld & Geluid (NL): 15 PetaByte

40 Eric Sieverts, IBW-UA, 4-4-2014

Page 41: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

5 MB harde schijf in 1956

2 TB in 2013

prijs van opslagmedia:

in 1956: $ 7000 / MB / jaar lease

in 2013: $10 / TB (= $ 0,00001 / MB)

dataopslag

41

Page 42: Information Retrieval: van specialisme tot commodity

1051 atomen

2110: ~1051 bits

2024: ~1026 bits (10 yottabyte)

2010: ~1022 bits

2000: ~1019 bits (1 exabyte)

onze jaarlijkse data productie

??

exponentiële groei blijftvoortduren ?

42

"grenzen aan de groei"

• minder produceren?

• niet alles (willen) bewaren?

Eric Sieverts, IBW-UA, 4-4-2014

Page 43: Information Retrieval: van specialisme tot commodity

vinden van die informatie

1. de wetenschap

43

Page 44: Information Retrieval: van specialisme tot commodity

vinden van wetenschappelijke informatie

1980 - 2005 - in bibliografische databases

belang van metadata - zoektermenuit thesauri en classificaties gestructureerd booleaans combinerenversnipperd aanbod

2005 - 2014 ….

Eric Sieverts, IBW-UA, 4-4-201444

Page 45: Information Retrieval: van specialisme tot commodity

zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….)

• basis: booleaanse building block methode

• functionaliteit zeer stabiel (conservatief?) databases bij host Dialog waren tot vorig jaar nog vrijwel net zo te bevragen als 35 jaar geleden (als je dat wilde)

• ….

veiligheid lange tunnelsveiligheidveiligonveiligheidbeveiligingveiligheidsmaatregelen....

langlengte...

tunnelsverkeerstunnelsautotunnelsspoortunnels....

OR OR

ANDAND

Eric Sieverts, IBW-UA, 4-4-201445

Page 46: Information Retrieval: van specialisme tot commodity

46

Page 47: Information Retrieval: van specialisme tot commodity

zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….)

• ….

• zeer exacte zoekresultaten (aantallen)

• ook moderner uitziende interfaces (Ovid, Proquest, Ebsco, LexisNexis, …) nog niet erg gebruiksvriendelijk

• automatisch "vervangend zoeken" ten behoeve van gecontroleerd vocabulair (thesaurus) nog niet heel algemeen (wel bij PubMed, Ovid)

• automatisch "generiek zoeken" (zoekvraag uitbreiden met specifiekere begrippen - uit thesaurus) nog niet heel algemeen (wel bij PubMed)

• elk systeem heeft zijn eigen interface (en eigen zoeksyntax)

Eric Sieverts, IBW-UA, 4-4-201447

Page 48: Information Retrieval: van specialisme tot commodity

2000

Page 49: Information Retrieval: van specialisme tot commodity

zoeksystemen voor gestructureerde informatie (bibliografisch, metadata, ….)

willen aanbieders hiermee gebruikers blijven trekken, dan moet • het er net zo makkelijk (& aantrekkelijk?) uitzien als

• het net zo makkelijk lijken als

• het een "experience" opleveren

discovery tools proberen dit wel te bieden >>

bij aanbieders van bibliografische databases

is dat allemaal (nog) meestal niet het geval

Eric Sieverts, IBW-UA, 4-4-201449

Page 50: Information Retrieval: van specialisme tot commodity

vinden van wetenschappelijke informatie

1980 - 2005 - in bibliografische databases

belang van metadata - zoektermenuit thesauri en classificaties gestuctureerd booleaans combinerenversnipperd aanbod

2005 - 2014 - in "discovery tools"- in Google Scholar

belang van woorden uit de full-text (ongecontroleerd vocabulair)"bag of words" zoekactieséén ingang

Eric Sieverts, IBW-UA, 4-4-201450

Page 51: Information Retrieval: van specialisme tot commodity

2000 - 2013discovery toolavant la lettre

51

Page 52: Information Retrieval: van specialisme tot commodity

201152

Page 53: Information Retrieval: van specialisme tot commodity

Eric Sieverts, SIG-CI, 1-11-2012

2011

year of the webscale discovery tools

53

Page 54: Information Retrieval: van specialisme tot commodity

vinden van wetenschappelijke informatie

kenmerken "discovery tools"– ranking van resultaat op basis van best match

– facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata!

– beperken tot materiaal waarvoor toegang (licenties)

waardoor discovery = delivery

Eric Sieverts, IBW-UA, 4-4-201454

Page 55: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

van google zijn we dat gewend

in fysieke bibliotheek was dat gewoon

maar in deze voorbeelden isde discovery wat beperkt .......

discovery = delivery

Page 56: Information Retrieval: van specialisme tot commodity

vinden van wetenschappelijke informatie

kenmerken "discovery tools"– ranking van resultaat op basis van best match

– facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata!

– beperken tot materiaal waarvoor toegang (licenties)

– de catalogus is erin geïntegreerd

maar is die geschikt voor "discovery" ?

Eric Sieverts, IBW-UA, 4-4-201456

Page 57: Information Retrieval: van specialisme tot commodity

voor informatie zoeken zijn (waren?) bibliotheekcatalogi geheel ongeschikt

voorbeeld: boek van 480 bladzijdenmet onderwerpsindex van 14 dichtbedrukte bladzijdenmet inhoudsopgave van 5 blz. met 21 hoofdstukken en 117 paragrafen

in een catalogus beschrevenmet 1 onderwerpscategorieen 1 (daaraan identiek!) trefwoord

57 Eric Sieverts, IBW-UA, 4-4-2014

Page 58: Information Retrieval: van specialisme tot commodity

zelfs user-tags in Librarything bieden maar weinig meer zinvolle ingangen vergeleken met die inhoudsopgave

metadata in een bibliotheekcatalogus kunnen wel eens problematisch zijn

voorbeeld: boek van 480 bladzijdenmet onderwerpsindex van 14 dichtbedrukte bladzijdenmet inhoudsopgave van 5 blz. met 21 hoofdstukken en 117 paragrafen

58

Page 59: Information Retrieval: van specialisme tot commodity

de 21 hoofdstukken op de bijbehorende website

een paar van de 117paragrafen uit de TOC

Page 60: Information Retrieval: van specialisme tot commodity

vinden van wetenschappelijke informatie

kenmerken "discovery tools"– ranking van resultaat op basis van best match

– facetten op basis van standaard formele kenmerken (parametrisch zoeken) - metadata!

– beperken tot materiaal waarvoor toegang (licenties)

– de catalogus is erin geïntegreerd

kenmerken Google Scholar– in ranking spelen citaties grote rol

nieuwste informatie wordt benadeeld **>>

– geen metadata, maar patroonherkenning

– vaak meer versies van artikelen, waarbij soms ook gratis (bijv. uit Institutioneel Repository)

Eric Sieverts, IBW-UA, 4-4-201460

Page 61: Information Retrieval: van specialisme tot commodity

vinden van wetenschappelijke informatie

2012 - 2013 : UB Utrecht onderzocht – of eigen "discovery tool" Omega afgesloten kon worden

(leed onder wet van de remmende voorsprong)

– of Google Scholar en/of al aanwezige betaalde zoeksystemen als Web of Science en/of Scopus alternatief vormden voor nieuw in te richten discovery tool

– of catalogus t.z.t. als zoekhulpmiddel afgedankt kon worden

uitkomst: • meer nadruk op delivery dan op (eigen) discovery • verder met Google Scholar + Scopus + WoS

– met verbeterde link resolving

– met gerichte communicatie naar gebruikers

Eric Sieverts, IBW-UA, 4-4-201461

Page 62: Information Retrieval: van specialisme tot commodity

Eric Sieverts

@sieverts

Bianca Kramer

@MsPhelps

onderdeel uit

dat onderzoek

62

Page 63: Information Retrieval: van specialisme tot commodity

acromioclavicular joint fracture surgery

greenhouse emission dairy cattle

dangling bond passivation amorphous silicon

"verbal memory" children dyslexia

ethnicity "residential areas"

"sarbanes oxley" compliance legislation

modern literature cultural continuity

Medicine

Biology

Physics

Law

Humanities

Social sciences

Geosciences

Page 64: Information Retrieval: van specialisme tot commodity

Medicine Physics Biology

Geosciences Social sciences Law Humanities

Overlap Scopus / Web of Science

Page 65: Information Retrieval: van specialisme tot commodity

7 search queries

# p

ublic

atio

ns

← results Scopus + WoS

Scopus / WoS results found in Google Scholar ?

Page 66: Information Retrieval: van specialisme tot commodity

# p

ublic

atio

ns

← results Scopus + WoS

Page 67: Information Retrieval: van specialisme tot commodity

# p

ublic

atio

ns

← results Scopus + WoS

Page 68: Information Retrieval: van specialisme tot commodity

# p

ublic

atio

ns

← results Scopus + WoS

Page 69: Information Retrieval: van specialisme tot commodity

# p

ublic

atio

ns

← results Scopus + WoS

Page 70: Information Retrieval: van specialisme tot commodity

← results Scopus + WoS

Page 71: Information Retrieval: van specialisme tot commodity

Medicine Physics Biology

Geosciences Social sciences Law Humanities

Page 72: Information Retrieval: van specialisme tot commodity

72

Page 73: Information Retrieval: van specialisme tot commodity

73

Page 74: Information Retrieval: van specialisme tot commodity
Page 75: Information Retrieval: van specialisme tot commodity

7 search queries Scopus

1st 100 Google Scholar results: in Scopus / Wos ?

Page 76: Information Retrieval: van specialisme tot commodity

7 search queries Web of Science

2

1st 100 Google Scholar results: in Scopus / Wos ?

Page 77: Information Retrieval: van specialisme tot commodity

Medicine Physics Biology

Geosciences Social sciences Law Humanities

Scopus

Page 78: Information Retrieval: van specialisme tot commodity

Medicine Physics Biology

Geosciences Social sciences Law Humanities

Web of Science

78

Page 79: Information Retrieval: van specialisme tot commodity

vinden van die informatie

op het web: voorkeur slingert tussen zoekmachine en ontsluiting

Page 80: Information Retrieval: van specialisme tot commodity

yahoo! directory

yahoo! directoryopen directorystartpagina's

lycosaltavista

google

web-2.0tagging/folksonomies

1990

2013

zoeken ontsluiten

semantisch zoeken

semantisch webcontent curation

80

Page 81: Information Retrieval: van specialisme tot commodity

webzoekmachines• introduceerden best-match zoeken (i.p.v. booleaans)

• (ca. 1997) van "most of the terms" "all of the terms"

• (ca. 1998) suggesties voor alternatieve zoektermen(op basis van statistiek), vooral voor inperken van zoekactie, soms (AltaVista) ook geclusterd

(al deden online hosts ESA en Dialog anno 1985 al net zo iets, met ZOOM- of RANK-commando)

• (1998) introduceert link-statistiek als ranking parameter

• (2003-2008) suggesties voor extra termen verdwijnen weer(wel nog bij gespecialiseerde zoeksystemen)

• (2010) soort van verfijnen komt terug in de vorm van facetten (maar databases als Scopus waren daar al veel eerder mee)

• vermelde aantallen zoekresultaten kloppen van geen kant

• ….

Eric Sieverts, IBW-UA, 4-4-201481

Page 82: Information Retrieval: van specialisme tot commodity

webzoekmachines• ….• doordat je zoveel vindt, vind je ook steeds meer niet

(niet > 1000 ! ook niet bij Google Scholar)• verbeteren zoekvraag door "did you mean:"• verbreden door automatisch zoeken op woordstammen• verbreden door automatisch zoeken op synoniemen,

samenstellingen, afkortingen, enz.• verbeteren zoekvraag zonder nog te vragen "did you

mean:"• niet zoeken wat je vraagt (de ingetikte zoekwoorden),

maar wat (zoekmachine denkt dat) je bedoelt: "user intent"

• ....

Eric Sieverts, IBW-UA, 4-4-2014

maar zoekspecialisten niet meer zo tevreden door die automatismes

82

Page 83: Information Retrieval: van specialisme tot commodity

webzoekmachines• ….

• doordat je zoveel vindt, vind je ook steeds meer niet (niet > 1000 ! ook niet bij Google Scholar)

• verbeteren zoekvraag door "did you mean:"

• verbreden door automatisch zoeken op woordstammen

• verbreden door automatisch zoeken op synoniemen, samenstellingen, enz.

• verbeteren zoekvraag zonder nog te vragen "did you mean:"

• niet zoeken wat je vraagt (de ingetikte zoekwoorden), maar wat (zoekmachine denkt dat) je bedoelt: "user intent"

• (2011) introduceert "Verbatim" om toch weer"woordelijk" te laten zoeken

• ....

Eric Sieverts, IBW-UA, 4-4-201483

Page 84: Information Retrieval: van specialisme tot commodity

webzoekmachines• ….

• is benchmark geworden voor (uiterlijk van) zoeksystemen

MAAR: syntax voor geavanceerde functies van Google (en Bing, Blekko,DuckDuckGo, ...) nog net zo ingewikkeld als Dialog anno 1980

EN: ­ bij Google hangt zoekresultaat af van

welke browser landenversie taalinstelling of je ingelogd bent of je Google+ gebruiker bent ....

­ wekelijks verschijnen en verdwijnen functies en mogelijkheden (vooral bij Google)

Eric Sieverts, IBW-UA, 4-4-201484

Page 85: Information Retrieval: van specialisme tot commodity

webzoekmachines• EN:

­ ...

­ in hoog tempo verdwijnen functies en mogelijkheden als "graveyard of broken dreams" :

• helemaal verdwenen: + operator, ~ synonym operator timeline, wonder wheel, toolbar, sidewiki, searchwiki, ... real time results, code search, translated search, desktop search google buzz, google wave, google directory, google reader,

iGoogle, google answers, google talk, google sets, ...

• alleen maar verstopt: advanced search & settings (onder "tandwiel”) "similar page" & "cache"-links (onder groen driehoekje) material specific search (onder "grid") Scholar, Patents, Discussions (Groups), Blogs, Recipes

helemaal niet meer genoemd (je moet URL weten) "backlink search" niet meer in advanced search …

Eric Sieverts, IBW-UA, 4-4-201485

Page 86: Information Retrieval: van specialisme tot commodity

webzoekmachines• ….

• personalisatie van (ranking van) zoekresultaat op basis van • eerder zoekgedrag• je "sociale kring"

meer algemeen gaan we:van zoeken filteren (via sociale media)

de "filter bubble"

Eric Sieverts, IBW-UA, 4-4-201486

Page 87: Information Retrieval: van specialisme tot commodity

webzoekmachines• Google 2013: not STRINGS but THINGS

geen DOCUMENTEN maar DINGEN

geen 10 blue links maar ANTWOORDEN

van indexen op documenten (webpagina's) "graphs" van feiten en

gegevens

Google Knowledge Graph Bing Entity Engine (Satori) Facebook Graph search

semantisch web & semantisch zoeken ??

Eric Sieverts, IBW-UA, 4-4-201487

Page 88: Information Retrieval: van specialisme tot commodity

semantisch web

semantisch zoeken

Eric Sieverts, IBW-UA, 4-4-201488

Page 89: Information Retrieval: van specialisme tot commodity

Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem.Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken(binnenkort ook in het Nederlands)

89

gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook enstatistische analyse van eigen gegevens

Page 90: Information Retrieval: van specialisme tot commodity

wat is in dit verband een "graph"? een netwerk van al die concepten met hun

onderlinge relaties en kenmerken

90

Page 91: Information Retrieval: van specialisme tot commodity

graphs zijn nu "hot"

91

social graph uit Twitter

social graph uit Facebook

relaties in Freebase

Eric Sieverts, IBW-UA, 4-4-201491

Page 92: Information Retrieval: van specialisme tot commodity

92

meer uit de Knowledge Graph

generieke vragen leveren lijstjes/"carousel",soms in meer rubrieken

Eric Sieverts, IBW-UA, 4-4-2014

Page 93: Information Retrieval: van specialisme tot commodity

93 Eric Sieverts, IBW-UA, 4-4-2014

Page 94: Information Retrieval: van specialisme tot commodity

94 Eric Sieverts, IBW-UA, 4-4-2014

Page 95: Information Retrieval: van specialisme tot commodity
Page 96: Information Retrieval: van specialisme tot commodity

maar niets overde diefstal ….

96

Page 97: Information Retrieval: van specialisme tot commodity

97

feitelijk antwoordboven gewoneresultaten

Eric Sieverts, IBW-UA, 4-4-2014

Page 98: Information Retrieval: van specialisme tot commodity

98

Page 99: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-201499

Page 100: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014100

Page 101: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014101

Page 102: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014102

Page 103: Information Retrieval: van specialisme tot commodity

103

vergelijkingen

Eric Sieverts, IBW-UA, 4-4-2014

Page 104: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014104

Page 105: Information Retrieval: van specialisme tot commodity

Bing heeft zijn "Entity Engine" (Satori)maar die reageert nog niet altijd zo slim op combinaties van woorden

105

Page 106: Information Retrieval: van specialisme tot commodity

Facebook Graph Search

alle gegevens die gebruikers registreren, worden gestructureerd opgeslagen in Facebook's graph (met gestandaardiseerde betekenis), waardoor ook gestructureerd gezocht kan worden

Page 107: Information Retrieval: van specialisme tot commodity
Page 108: Information Retrieval: van specialisme tot commodity

semantisch zoeken

drie soorten toepassingen

1. inschatten van de intentie van de zoeker - en liefst concreet antwoord in plaats van "10 blue links" (zoals bij Knowledge Graph)bijv.: zoekt mobiel in buurt van de Groenplaats naar “pizza”

>> adres van pizzeria in de buurt

2. bepalen van betekenis van woorden/tekst in documentenvooraf bij indexeren of achteraf in zoekresultaat;bijv.: herkennen van entiteiten of meegegeven metadata,

via complexe kennis van de wereld, concepten met tekst

associeren

3. automatisch aanpassen van zoekactie / zoekresultaat bijv.: toevoegen van betere en/of gerelateerde zoekwoorden,

zoekresultaat analyseren, (ook) in andere systemen zoeken

108 Eric Sieverts, IBW-UA, 4-4-2014

Page 109: Information Retrieval: van specialisme tot commodity

interpretatie vannatuurlijke taal om tot concreetantwoord te komen

109

Page 110: Information Retrieval: van specialisme tot commodity

1. antwoordmachines

110 Eric Sieverts, IBW-UA, 4-4-2014

maar willen we als informatieprofessionals wel antwoordmachines in paats van zoekmachines?

wie bepaalt wat juiste antwoord is ?

google ?

wikipedia ?

ik zelf ?

wie maakt afweging voor de juiste nuances ?

wie verzamelt voors en tegens ?

Page 111: Information Retrieval: van specialisme tot commodity

2. betekenis in documenten

• herkennen van "entiteiten" in tekstzoals namen van plaatsen, personen, bedrijven, producten, ...

• automatische categorisering door via "machine learning" getraind systeem

• gebruik van "embedded metadata" / semantische coderingbijvoorbeeld binnen (X)HTML coderingen

• inhoudelijke koppeling met geselecteerde andere bronnen bijvoorbeeld via "linked data"

• ...

Eric Sieverts, IBW-UA, 4-4-2014111

Page 112: Information Retrieval: van specialisme tot commodity

sentiment detection

112

Page 113: Information Retrieval: van specialisme tot commodity

Google herkentobjecten in images

113

Page 114: Information Retrieval: van specialisme tot commodity

pinterest biedt automatisch (?) gegenereerdefilters op onder meer recepten

?

Page 115: Information Retrieval: van specialisme tot commodity

uit semantische codering

gestandaardiseerde markering van kenmerken in webpagina's

voorbeelden van “embedded metadata”:– recipe search bij Google en Yahoo– toepassing e-commerce ontology

daarbij gebruikte standaarden:– microformats / rich snippet markup / microdata / schema.org

(Google, Yahoo, Bing) onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek

– RDFa

115 Eric Sieverts, IBW-UA, 4-4-2014115

Page 116: Information Retrieval: van specialisme tot commodity

in huidig Google-interface

onzichtbaar en minder

handig geworden;

NB: alleen in google.com

bij Yahoo overzichtelijker

116 Eric Sieverts, IBW-UA, 4-4-2014

Page 117: Information Retrieval: van specialisme tot commodity

browser extensies (in Chrome) omembedded metadatauit pagina's te pikken

Page 118: Information Retrieval: van specialisme tot commodity

standaardisatie van kenmerken van producten

met "GR-ontologie" volgens "RDFa“ in “XHTML”

118

Page 119: Information Retrieval: van specialisme tot commodity

119 Eric Sieverts, IBW-UA, 4-4-2014

Page 120: Information Retrieval: van specialisme tot commodity

120

Eric Sieverts, IBW-UA, 4-4-2014

Page 121: Information Retrieval: van specialisme tot commodity

nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s

+ nu ook Yandex

121

Page 122: Information Retrieval: van specialisme tot commodity

de concepten uit degood relations ontology zijn recent ook in schema.org geïncorporeerd

door Google, Bing en Yahoo vastgelegde standaard: microdata met hiërarchie van embeddable metadata kenmerken voor het web

Page 123: Information Retrieval: van specialisme tot commodity

microdata en RDFa

• toepassing van deze technieken is vaak "SEO-driven"

• Google biedt webmasters "Structured data testing tool" dat fouten in codering detecteert

zie blogpost op SearchEngineLand

http://searchengineland.com/how-to-use-rich-snippets-semantic-markup-to-send-rich-signals-139886

123 Eric Sieverts, IBW-UA, 4-4-2014

Page 124: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

wat heeft zoeker hieraan?

• zoeker kan gerichter zoeken en filteren

(zoals in Google's receptenzoeker)

• zoeker krijgt duidelijker informatie over gevonden items

(zoals Google's rich snippets)

Page 125: Information Retrieval: van specialisme tot commodity

in semantisch webwordt van "alles"

de betekenisvastgelegd

semantisch web

om betekenis ook te kunnen begrijpen zijn"ontologieën" nodig

125 Eric Sieverts, IBW-UA, 4-4-2014

Page 126: Information Retrieval: van specialisme tot commodity

Originally from: http://www.emiliosanfilippo.it/?page_id=1172

ontologieën

Page 127: Information Retrieval: van specialisme tot commodity

ontologieën

"Ontology is the philosophical study of the nature of being, becoming, existence, or reality, as well as the basic categories of being and their relations" 

Wikipedia

filosofie kunstmatigeintelligentie

semantischweb

127

linked(open) data

Eric Sieverts, IBW-UA, 4-4-2014

Page 128: Information Retrieval: van specialisme tot commodity

ontologieën

"een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen"

"kennis-representatie“ waarin kennis over (klein stukje van) de wereld in geformaliseerde vorm is weergegeven en die vollediger en meer complexe representatie van de werkelijkheid mogelijk maakt dan bijv. een thesaurus

filosofie kunstmatigeintelligentie

semantischweb

128

linked(open) data

Eric Sieverts, IBW-UA, 4-4-2014

Page 129: Information Retrieval: van specialisme tot commodity

ontologieën

elk soort kennisorganisatiesysteem waarmee betekenisbeschreven kan worden, zoals• "echte" ontologieën• thesauri• taxonomieën• semantische netwerken• namenlijsten• concordanties• …

filosofie kunstmatigeintelligentie

semantischweb

129

linked(open) data

schema.orgis ook simpele vorm hiervan

Eric Sieverts, IBW-UA, 4-4-2014

Page 130: Information Retrieval: van specialisme tot commodity

ontologieën

"conceptuele datamodellen" voor allerlei domeinen, zoals• foaf (persoonsgegevens)

• dublin core (15 velden voor vooral erfgoed)

• good-relations ontology (e-commerce)

• music ontology (muziek)

• skos (thesaurusrelaties)

• cidoc-crm (erfgoed)

definities van "velden", klassen van eigenschappen, e.d., meestal niet van hun inhouden

filosofie kunstmatigeintelligentie

semantischweb

130

linked(open) data

Eric Sieverts, IBW-UA, 4-4-2014

Page 131: Information Retrieval: van specialisme tot commodity

voorbeeld van de relaties tussen concepten m.b.t.het standbeeld van Balzacdoor Rodin [CIDOC-CRM]

131

Page 132: Information Retrieval: van specialisme tot commodity

132

Page 133: Information Retrieval: van specialisme tot commodity

voorbeeld hoe diverse semantische standaarden

(ontologieën) via RDF werden gecombineerd

vroeger veel gebruikte standaarden voor beschrijvingselementen:• v: vcard• mo: music ontology• foaf: friend of a friend• owl: web ontology language• geo

maar worden nu algemeenvervangen door schema.org

133

oud

Page 134: Information Retrieval: van specialisme tot commodity

ontologieën

voor “ontologieën” in het kader van semantisch web en linked data is essentieel dat:

– ontologie zo beschikbaar is dat een computer-programma hem kan lezen, verwerken en interpreteren

→ vereist gestandaardiseerde notaties en formele talen om ze te beschrijven, zoals

• rdf• rdfs• owl• skos• …

134 Eric Sieverts, IBW-UA, 4-4-2014

Page 135: Information Retrieval: van specialisme tot commodity

fragment uit het linked dataVIAF-record voor Hugo Brandt Corstiusviaf.org/viaf/94439179/rdf.xml

135

Page 136: Information Retrieval: van specialisme tot commodity

Eric Sieverts, IBW-UA, 4-4-2014

linked data in worldcat

136

Page 137: Information Retrieval: van specialisme tot commodity

we've come a long way

van informatieschaarstenaar informatieoverload

van gespecialiseerde bestanden naar universele zoeksystemen

van complexe commandotalennaar systemen die onze vragen

begrijpen

maar :

- informatievaardige kritische gebruikers blijven nodig

- "there will always be a place for 10 blue links"

137 Eric Sieverts, IBW-UA, 4-4-2014

Page 138: Information Retrieval: van specialisme tot commodity

foto: Jan-Jaap Heine