Vertrouwen op semantische zoeksystemen of zelf aan het stuur

64
Workshop Vertrouwen op semantische zoeksystemen of zelf aan het stuur? Eric Sieverts VOGIN-IP-lezing 26 maart 2015 OBA Amsterdam

Transcript of Vertrouwen op semantische zoeksystemen of zelf aan het stuur

Page 1: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

Workshop Vertrouwen op semantische

zoeksystemen of zelf aan het stuur?

Eric Sieverts

VOGIN-IP-lezing

26 maart 2015

OBA Amsterdam

Page 2: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

Google geeft steeds vaker concrete antwoorden ("direct answers") op onze zoekvragen

"liever een antwoord dan 10 blauwe links"

Page 3: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

direct answers

uit presentaties op "SMX West" congres (3-5 maart 2015, San Jose):

• Google geeft "direct answer" bij 20% van de zoekvragen

• Bing geeft "direct answer" bij 1% van de zoekvragen

maar:

moeten we op die antwoorden vertrouwen?

eric sieverts, maart 20153

Page 4: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 5: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

Vertrouwen we op

Google's antwoord,

of willen we zelf het

antwoord zoeken?

Page 6: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

semantisch zoeken

het kunnen geven van concrete antwoordenhangt direct samen met de ontwikkeling van"semantische zoeksystemen"

wat moet computer daarvoor kunnen?

1. begrijpen wat de zoeker bedoelt

2. • weten wat het antwoord is ("dat staat klaar")• begrijpen wat documenten "bedoelen", zodat

antwoord daaruit kan worden afgeleid

eric sieverts, maart 20156

Page 7: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

semantisch zoeken

enkele van de punten die Hakia Company als belangrijkekenmerken van semantische zoeksystemen noemde:

1. Handling morphological variations

2. Handling synonyms with correct senses

3. Handling generalizations

4. Handling concept matching

5. Handling knowledge matching

6. Handling natural language queries and questions

7. Ability to point to uninterrupted paragraph and the most relevant sentence

maar daarnaast nu ook steeds meer gebruik van structuur in webpagina's kennissystemen (Google Knowledge Graph)

eric sieverts, maart 20157

hulp bij het"begrijpen"

alinea met het antwoord

Page 8: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

semantisch zoeken

semantisch zoeken ≡ semantisch web

van het semantisch web zoals dat Tim Berners Lee in 2004 voor ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd, maar die helpen wel al bij "semantisch zoeken"

eric sieverts, maart 20158

semantisch

zoeken

semantisch

web

entiteiten

ontologieën

metadata

….

Page 9: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

9

Page 10: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 11: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

semantisch zoeken

terug naar de 2 aspecten van semantisch zoeken

1. wat bedoelt de zoeker met zijn zoekvraag?"not strings but things"

– om concreet antwoord te kunnen geven, in plaats van lijstje met "ten blue links"

2. wat is betekenis van content in webpagina's

– ten behoeve van die concrete antwoorden– maar ook: om in de "ten blue links" extra informatie te kunnen

tonen

eric sieverts, maart 201511

Page 12: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

intentie van de zoeker

1. bepalen van bedoeling / intentie van de zoeker

– uit locatie van de zoeker

– globaal:

op basis van internetdomein waar gebruiker zit (ip-adres)

op google.nl krijg je ander antwoord dan op google.com

– heel precies:

op basis van bekende gps- of gsm-gegevens (mobiel)

bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”

>> adres van pizzeria in de buurt

– uit eerder zoekgedrag van de zoeker

– door analyse van de zoekvraag

– ...

12 eric sieverts, maart 2015

Page 13: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

intentie van de zoeker

1. bepalen van bedoeling / intentie van de zoeker

– uit locatie van de zoeker

– uit eerder zoekgedrag van de zoeker

– wat voor zoekvragen stelde gebruiker eerder

– naar welke resultaten keek gebruiker dan

bijvoorbeeld al toegepast in Google's personalisatie van relevance ranking;

de opgeslagen "web history" is ook al "big data"

– door analyse van de zoekvraag

– ...

13 eric sieverts, maart 2015

Page 14: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

intentie van de zoeker

1. bepalen van bedoeling / intentie van de zoeker

– uit locatie van de zoeker

– uit eerder zoekgedrag van de zoeker

– door analyse van de zoekvraag

– uit algemene statistiek van zoekvragenbijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian"

– door herkennen van "entiteiten" in de vraagbijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn)

naam van persoon, bedrijf, product, gebeurtenis, … >> feiten

naam van gewoon persoon >> facebook / linked-in gegevens

– herkent vaste combinaties van woorden

– natuurlijke taal interpretatie

14 eric sieverts, maart 2015

wolfram|alpha

Google

Knowledge

Graph

~ Google

Page 15: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

content van webpagina

2. bepalen van betekenis van content in webpagina's

– herkennen van entiteiten in de tekst

bijv.: namen van personen, bedrijven, steden, producten, ...

– gebruik van metadata/codering volgens ontologieën

bijv.: informatie gecodeerd met begrippen uit schema.org ontologie

<kom ik later nog even op terug>

– uit vaste structuur van beschikbare informatie

bijv.: gestructureerd opgeslagen kenmerken in Facebook

– automatisch herkennen van betekenis/onderwerp uit hele tekst

bijv.: door "machine learning" getraind op vaste concepten

– koppelen aan data uit andere bronnen

bijv.: via linked (open) data

– ...

15 eric sieverts, maart 2015

Page 16: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

Wie op “Bach” zoekt, vindt vermoedelijk liever

gegevens over hem dan websites over hem.

Google's Knowledge Graph kent 500 miljoen

objecten met 3,5 miljard kenmerken

16

gegevens o.a. afkomstig uit:

"Freebase" (crowdsourced kennisbank),

Wikipedia (dbpedia), CIA World factbook en

(statistische) analyse van eigen gegevens

Page 17: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

wat is in dit verband een "graph"?

een netwerk van al die concepten met

hun onderlinge relaties en kenmerken

17

Page 18: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

tripels

al die informatie wordt in feite opgeslagen als "tripels"

L. Da Vinci schilderde Mona Lisa

J.S. Bach geboren op 31-03-1685

J.S. Bach geboren in Eisenach

Eisenach ligt in Duitsland

C.P.E. Bach kind van J.S. Bach

18 eric sieverts, maart 2015

Page 19: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

knowledge cards

• dit soort gegevens die bij eenpersoon/object/entiteit horen, worden gecombineerd in "knowledge cards"

• die knowledge cards verschijnen - zoals bij het eerdere voorbeeld van Bach -rechts naast het gewonezoekresultaat

19 eric sieverts, maart 2015

Page 20: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

maar niets over

de diefstal ….

20

Page 21: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

21 eric sieverts, maart 2015

generieke

vragen

leveren

"carousel"

Page 22: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

22 eric sieverts, maart 2015

Page 23: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

23 eric sieverts, maart 2015

Page 24: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 25: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 26: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 27: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 28: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 29: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

29 eric sieverts, maart 2015

soms verschijnt ook

feitelijk antwoord

(eveneens een "tripel")

boven de gewone

zoekresultaten

Page 30: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

eric sieverts, maart 201530

Page 31: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

31 eric sieverts, maart 2015

Page 32: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

eric sieverts, maart 201532

Page 33: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

33 eric sieverts, maart 2015

daarbij wordt ook

d.m.v. natuurlijke taal

technieken herkend

wat er gevraagd /

bedoeld wordt

Page 34: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

34 eric sieverts, maart 2015

Page 35: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

in werkelijkheid varieert die afstand dus tussenongeveer 356.000 en 407.000 km[bron: NASA - via Wikipedia]

dus dat cijfer op 4 decimalen nauwkeurig iseigenlijk onzin (hoewel dat ook uit de Wikipedia komt)

maar:

eric sieverts, maart 201535

Page 36: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

36 eric sieverts, maart 2015

ook wordt (soms)

herkend als je dingen

wilt vergelijken en

worden relevante

gegevens in een tabel

gezet

Page 37: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

antwoord isgeen feit uit Knowl. Graph, maar tekst uit web-pagina

Page 38: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

??

Page 39: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

soms extra informatiebij specifiekeresultaten

Page 40: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

knowledge vault

• inhoud van "knowledge graph" komt uit gecontroleerdegestructureerde bronnen als wikipedia/dbpedia, freebase, …

• in "knowledge vault" wordt dat uitgebreid met gegevens die uit allerlei webpagina's worden onttrokken (ook als tripels)

40 eric sieverts, maart 2015

Page 41: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

This paper[http://www.cs.cmu.edu/~nlao/publication/2014.kdd.pdf] published by Google goes into more detail about the concepts behind the Knowledge Vault, citing three major components:

Extractors: These systems extract triples from a huge number of Web sources. Each extractor assigns a confidence score to an extracted triple, representing uncertainty about the identity of the relation and its corresponding arguments.

Graph-based priors: These systems learn the probability of each possible triple, based on triples scored in an existing KB (knowledge base).

Knowledge fusion: This system computes the probability of a triple being true, based on agreement between different extractors and priors

Page 42: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

Google tables

zoeken naar/in tabellen

https://research.google.com/tables

zie ook:

"Applying WebTables in Practice"

http://www.cidrdb.org/cidr2015/ Papers/CIDR15_Paper3.pdf

google heeft een speciaal tool om tabellen te herkennen en daar gegevens aan te ontlenen - ook publiekelijk beschikbaar

Page 43: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

voorbeelden:huis

Pittsburg

oppervlak

# inwoners

4849 sqft

334.563

Page 44: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 45: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

Bing heeft zijn "Entity Engine" (Snapshots)

maar die reageert vaak nog wat minder

slim op combinaties van woorden

45

Page 46: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

... en alleen bij landeninstelling

"Verenigde Staten"

46

Page 47: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

en nog meer …

er zijn nog meer (semantische) zoeksystemen die proberen concrete antwoorden te geven

een paar voorbeelden:

• wolfram|alpha

• kngine

• cluuz

• sensebot

• …..

47 eric sieverts, maart 2015

Page 48: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

eric sieverts, maart 201548

Page 49: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 50: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 51: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

het onderzoek

wat geeft beter antwoord op wat voor soort vragen?

• bekijken bij Google:– antwoord uit Knowledge Graph (boven zoekresultaat , of rechts ernaast)

– extra gegevens bij individuele resultaten

• alternatieven om ook eens te proberen als er tijd over is:– antwoord uit Bing's Entity Engine [http://www.bing.com/]

– antwoord uit Wolfram|Alpha [http://www.wolframalpha.com/]

– door Sensebot geselecteerde antwoorden[http://www.sensebot.net/sense6.aspx]

– door Cluuz geselecteerde antwoorden [http://cluuz.com/]

– antwoord uit Ask-Cluuz [http://ask.cluuz.com/]

– antwoord uit Kngine [http://www.kngine.com/]

eric sieverts, maart 201551

Page 52: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

het onderzoek

ieder groepje stelt een aantal zoekvragen in de eigen belangstellingssfeer en analyseert de resultaten

• Op welke (soorten) vragen komt een concreet antwoord?

• Zijn die concrete antwoorden zinnig?

• Wat is de bron van die antwoorden?

• Is die bron betrouwbaar?

• Hoe verhouden die antwoorden zich tot de gewone resultaten van de zoekvragen?

• ....

eric sieverts, maart 201552

Page 53: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

nog even terug naar …

2. bepalen van betekenis van content in webpagina's

– herkennen van entiteiten in de tekst

– gebruik van metadata/codering volgens ontologieën

"betekenis vooraf gekarakteriseerd"

bijv.: informatie gecodeerd met begrippen uit schema.org ontologie

– uit (variabele) structuur van beschikbare informatie

"betekenis achteraf afgeleid / geraden"

bijv.: herkennen van tabellen, kenmerk-waarde koppels, ....

– uit (vaste) structuur van beschikbare informatie

bijv.: gestructureerd opgeslagen kenmerken in Facebook

– automatisch herkennen van betekenis/onderwerp uit hele tekst

– koppelen aan data uit andere bronnen

– ...

53 eric sieverts, maart 2015

Page 54: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

semantische codering

gestandaardiseerde markering van kenmerken in

webpagina's - "semantic markup"

voorbeeld van zulke "embedded metadata":

– recipe search bij Google en Yahoo

daarbij gebruikte standaarden:

– rich snippet markup / microdata / schema.org

(Google, Yahoo, Bing, Yandex)

onder andere voor: recepten, recencies, personen,

producten, organisaties, gebeurtenissen, muziek

– RDFa

54 eric sieverts, maart 2015

Page 56: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

nieuwe standaard van de zoekmachinegiganten: microdata

hiërarchie van kenmerken voor embeddable metadata in webpagina’s

56

+ nu ook

Yandex

Page 57: Vertrouwen op semantische zoeksystemen of zelf aan het stuur
Page 58: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

eric sieverts, maart 201558

voorbeeld van codering met restaurant metadata(zoals gebruikt door o.a. IENS)

zoals in HTML gecodeerd volgens microdata standaard

Page 59: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

schema.org recept-metadata volgens microdata standaard in HTML gecodeerd

Page 60: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

microdata en RDFa

• toepassing van deze technieken is vaak "SEO-driven"

• Google biedt webmasters "Structured data testing tool" dat fouten in codering detecteert

zie blogposts op SearchEngineLand:

http://searchengineland.com/how-to-use-rich-snippets-semantic-markup-to-send-rich-signals-139886

http://searchengineland.com/5-ways-optimize-markup-knowledge-graph-semantic-search-186755

eric sieverts, maart 201560

Page 61: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

wat heeft zoeker hieraan?

• zoeker kan gerichter zoeken en filteren

(zoals in Google's receptenzoeker)

• zoeker krijgt duidelijker informatie over gevonden items in zijn 10 blue links

(zoals Google's rich snippets)

Page 62: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

we blijken al anders te kijken …

we zijn al zo gewend aan schermindeling met op allerlei plaatsen antwoorden, dat eye-tracking studies ander kijkgedrag laten zien

2014

2005

62

conclusies uit recente studie:

1. where searchers have been conditioned to look has changed

2. searchers are viewing more results during a single session and spending less time viewing each one

Page 63: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

semantische zoekmachines

voor "semantisch" gaan door :

• Wolfram|Alpha "computational knowledge engine", feitelijke gegevens

• DuckDuckGo niet semantischer dan google

• Sensebot vat ook inhoud van meer documenten samen

• Factbites samengevatte informatie uit geselecteerde bronnen

• Cluuz selecteert (uit) antwoorden

• ask.cluuz beantwoordt vragen

• Kngine heeft ook een app voor smartphones

noemen zich niet "semantisch", maar wel handig voor feitelijke gegevens :• Zanran data zoekmachine (zoekt in tabellen, grafieken en visualisaties)

• Google tables zoeken naar/in tabellen [https://research.google.com/tables]

63 eric sieverts, maart 2015

Page 64: Vertrouwen op semantische zoeksystemen of zelf aan het stuur

eric sieverts, maart 2015

any questions ?