Daan Odijk | Semantic Search ContentCafé #11

Post on 28-Jul-2015

929 views 2 download

Transcript of Daan Odijk | Semantic Search ContentCafé #11

Semantic SearchDaan Odijk

ContentCafé 8 april 2015

ContentCafé proudly presents: Zoekt en gij zult vinden… toch? door CHARLOTTE VAN OOSTRUM geplaatst op 13 MAART 2015

Toen Google in 2013 5 minuten offline was. daalde het aantal page views op het internet met 40%. We navigeren het web via zoekmachines: elke maand stellen we met z’n allen elke 60 seconden zo’n 2.66 miljoen vragen aan Google’s ondoorgrondelijke algoritmes. Het is dus niet zo gek om te denken dat navigatie- of interactieproblemen ook met search ‘opgelost’ kunnen worden. Als je argumenten nodig hebt om aan te tonen dat dit niet werkt. lees dan dit artikel.

Maar wanneer werkt search dan wel en hoe weet je of een zoekmachine goed functioneert? Hoe kun je input leveren voor implementatie? Wat is semantisch zoeken. wat zijn de praktische mogelijkheden en hoe kun je dat zo inzetten dat jouw bezoekers niet eens meer hóeven te zoeken?

De elfde editie van het ContentCafé vindt plaats op woensdag 8 april om 19 uur Performance Solutions in Hoofddorp. We laten je graag verdwalen en je weg terugvinden in de wereld van search. semantiek en algoritmes.

Termjeenhetdatde

searchhoe

zoekencontentcafé

denkensolutions

implementatieweb

presentsinput

hoofddorpgek

bezoekerszoekmachine

google

TF65543332211111111111

Termjeenhetdatde

searchhoe

zoekencontentcafé

denkensolutions

implementatieweb

presentsinput

hoofddorpgek

bezoekerszoekmachine

google

TF65543332211111111111

Termjeenhetdatde

searchhoe

zoekencontentcafé

denkensolutions

implementatieweb

presentsinput

hoofddorpgek

bezoekerszoekmachine

google

TF65543332211111111111

DF881091057810947749

11175298352

1725

Termjeenhetdatde

searchhoe

zoekencontentcafé

denkensolutions

implementatieweb

presentsinput

hoofddorpgek

bezoekerszoekmachine

google

TF65543332211111111111

DF881091057810947749

11175298352

1725

TF.IDF0.070.050.050.050.030.060.040.220.020.140.20 0.50 0.110.120.330.20 0.50 0.060.500.20

Lucene2.452.242.242.00 1.732.931.734.810.00 3.563.894.613.4

3.484.303.894.612.794.613.89

! TF Luhn 1957

! TF.IDF KSJ 1972

! BM25 Robertson

1995

!Language Models

Kalt, 1996

PageRank Brin & Page

1998

!

! ! !!

!Learning to Rank Fuhr (1992)

!

! ! !!

ContentCafé proudly presents: Zoekt en gij zult vinden… toch? door CHARLOTTE VAN OOSTRUM geplaatst op 13 MAART 2015

Toen Google in 2013 5 minuten offline was. daalde het aantal page views op het internet met 40%. We navigeren het web via zoekmachines: elke maand stellen we met z’n allen elke 60 seconden zo’n 2.66 miljoen vragen aan Google’s ondoorgrondelijke algoritmes. Het is dus niet zo gek om te denken dat navigatie- of interactieproblemen ook met search ‘opgelost’ kunnen worden. Als je argumenten nodig hebt om aan te tonen dat dit niet werkt. lees dan dit artikel.

Maar wanneer werkt search dan wel en hoe weet je of een zoekmachine goed functioneert? Hoe kun je input leveren voor implementatie? Wat is semantisch zoeken. wat zijn de praktische mogelijkheden en hoe kun je dat zo inzetten dat jouw bezoekers niet eens meer hóeven te zoeken?

De elfde editie van het ContentCafé vindt plaats op woensdag 8 april om 19 uur Performance Solutions in Hoofddorp. We laten je graag verdwalen en je weg terugvinden in de wereld van search. semantiek en algoritmes.

48pt18pt

24pt

! Zoek

%

"#$#

&

%

&! Zoek

BM25

Page

Rank

Semantic Search

Semantic search

• Improve search accuracy by understanding searcher intent and the contextual meaning of terms and documents.

• Move beyond “ten blue links” (towards actually answering information needs) using rich context.

Semantic search• What is “semantic” search?

• understanding intent, contextual meaning • finding actual answers for information needs • combining text and structure

• “Entity-centric search” • Entity: uniquely identifiable thing or object • “A thing with a distinct and independent

existence”

Challenges

"#$#

! Zoek

Query Understanding

Presentation & Interaction

Document Understanding

Presentation & Interaction

Challenges

"#$#

! Zoek

Document Understanding

Interplay: (un)structured data

Unstructured Structuredxxxx x xxx xx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxxx xx x xxx xx xxxx xx xxx xx x xxxxx xxx xx x xxxx x xxx xx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxxx xx x xxx xx xxxx xx xxx xx x xxxxx xxx xx x

xxxx x xxx xx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxxx xx x xxx xx xxxx xx xxx xx x xxxxx xxx xx x xxxx x xxx xx

xxxx x xxx xx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxxx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxx xx x xxx xx xxxx xx xxx xx x xxxxx xxx

xxxx x xxx xx xxxxxx

adding structure to text

adding text to structure

Entity Profiling

- Entity profiling- generate a profile of an entity

- summary (keywords/full-text) - timelines - …

- Slot filling- automatically fill attribute fields

But first…

ice cube music

michelangelo

But first…

vin diesel

schema.org (RDFa)

• used by Google, Bing, Yandex, Yahoo!, IPTC, etc.

Challenges

"#$#

! Zoek

Query Understanding

Distribution of web search queries [Pound et al. 2010]

6%

36%

1%5% 12%

41%Entity (“1978 cj5 jeep”)Type (“doctors in barcelona”)Attribute (“zip code waterville Maine”)Relation (“tom cruise katie holmes”)Other (“nightlife in Barcelona”)Uninterpretable

Query Understanding• First step: recognize, label, and

disambiguate entities in queries • add: attributes/aspects • add: types • add: relationships • add: actions/verbs • etc.

• Then: query understanding • what is the intent?

Query Understanding

• Adding structure to queries• Query intents• Query context

(sessions, users, history, etc.)• Interaction

Template-based query understanding

• Rule-based approaches (editorial)• high precision • difficult to generalize • costly to create/maintain

• Research into more generic approaches is ongoing

Challenges

"#$#

! Zoek

Presentation & Interaction

Presentation & Interaction

Result presentation

• Rich result pages (SERPs)

• Directly displaying answers and relevant information or context

Rich result pages

Direct displays

Keyword Queries

- Single-search-box paradigm

- Typical web search queries

- “Telegraphic”, i.e., neither well-formed nor grammatically correct

Keyword++ queries

- Augmented with context

- form/facet-based input

- location/date/TOD/…

Example keyword++ queries

Example keyword++ queries

Interaction: recommendation, auto-completion

Interaction: recommendation, auto-completion

Want to learn more?

d.odijk@uva.nl / daan.odijk.me

Edgar Meij – @edgarmeijYahoo Labs

Krisztian Balog – @krisztianbalogUniversity of Stavanger

Daan Odijk – @dodijkUniversity of Amsterdam

Entity Linking and Retrieval

Edgar Meij – @edgarmeijYahoo! Research

Krisztian Balog – @krisztianbalogUniversity of Stavanger

Daan Odijk – @dodijkUniversity of Amsterdam

Monday, May 13, 13

Tutorial on Entity Linking and Retrieval for Semantic Search

bit.ly/ELR-slides