Semantisch zoeken - over knowledge graph, semantisch web, rdf enz

download Semantisch zoeken - over knowledge graph, semantisch web, rdf enz

If you can't read please download the document

  • date post

    20-Aug-2015
  • Category

    Education

  • view

    763
  • download

    1

Embed Size (px)

Transcript of Semantisch zoeken - over knowledge graph, semantisch web, rdf enz

  1. 1. semantisch zoeken over knowledge graph, semantisch web, rdf, linked data, ontologien, metadata, ... VOGIN-IP-lezing 2014 Eric Sieverts @sieverts
  2. 2. semantisch zoeken een deel van het materiaal in deze presentatie wordt ook gebruikt in de eendaagse cursus "semantisch zoeken" bij GO Opleidingen eric sieverts, maart 20142
  3. 3. conflicting views? Semantic Web Business: Going Nowhere Slowly I've been a semantic web skeptic for years. SemWeb is useful for information enrichment in certain domains, via a circumscribed set of tools. However, the SemWeb offers a vanishingly small benefit to the vast majority of businesses. The vision persists but is unachievable; the business reality of SemWeb is going pretty much nowhere. The SemWeb dream centers on sharing linked data via the W3C's Resource Description Framework protocol. There is no question that SemWeb aspires to a worthy goal, but its tools and processes are no match for the reality of never-diminishing online, social, and enterprise data chaos. We will never achieve its ideal universe of neatly marked up data, published by content producers in accordance with the prescriptive W3C standards. Seth GrimesonJanuary 7, 2014 in InformationWeek eric sieverts, maart 20143 In case you missed it, a series of recent articles have made a Big Announcement: The Semantic Web is not here yet. Additionally, neither are flying cars, the cure for cancer, humans traveling to Mars or a bunch of other futuristic ideas that still have merit. A problem with many of these articles is that they conflate the Vision of the Semantic Web with the practical technologies associated with the standards. While the Whole Enchilada has yet to emerge (and may never do so), the individual technologies are finding their way into ever more systems in a wide variety of industries. These are not all necessarily on the public Web, they are simply Webs of Data. Brian SlettenonJanuary 13, 2014 in semanticweb.com
  4. 4. semantisch zoeken vraag 1: wanneer is een zoeksysteem een semantisch zoeksysteem? .... als het erop staat? eric sieverts, maart 20144
  5. 5. semantisch zoeken vraag 2: welke functionaliteit van een zoeksysteem zou u semantisch noemen? eric sieverts, maart 20145
  6. 6. semantisch zoeken 10 Things that Make Search a Semantic Search [volgens Hakia dat zelf beweert semantische zoekmachine te zijn] 1. Handling morphological variations 2. Handling synonyms with correct senses 3. Handling generalizations 4. Handling concept matching 5. Handling knowledge matching 6. Handling natural language queries and questions 7. Ability to point to uninterrupted paragraph and the most relevant sentence 8. Ability to Customize and Organic Progress 9. Ability to operate without relying on statistics, user behavior, and other artificial means 10. Ability to detect its own performance eric sieverts, maart 2014 http://company.hakia.com/whatis.html 6
  7. 7. semantisch zoeken Current trend : the semantic search system should be able to understand the query and give relevant results based on the current trend and news. Location of search : When searching for 'what is the temperature', semantic search should provide results based on the current location. Intent of the search : Semantic search should give appropriate search results based on the intent of the search and not on the specific words used. Variations of words : Semantic search should consider tenses, plural, singular etc and provide results for all semantic word variations. Synonyms : Semantic search should understand synonyms and give more or less the same results on any synonyms of the word users search for. Generalized and Specialized queries : Semantic Search should set relation between generalized and specialized queries and provide appropriate results. Concept matching : Sub-set of context matching. Semantic search should understand the broad concept of the query and return relevant results. Natural language queries : On search for 'What time is it in Arizona, Semantic Search would show you the current time in Arizona, USA. Change of meaning based on the group of words. The last word in a query may completely change its meaning. Semantic Search should distinguish such differences and give relevant search results. eric sieverts, maart 2014 http://www.techulator.com/resources/59Tony John (2012) - Semantic Search: Factors considered by Search Engines 7
  8. 8. 8 maar dat is vooral vanuit SEO perspectief
  9. 9. semantisch zoeken samenvattend: globaal 3 soorten toepassingen 1. inschatten van de intentie van de zoeker - en liefst concreet antwoord in plaats van "ten blue links" bijv.: zoekt mobiel in buurt van de Damstraat naar pizza >> adres van pizzeria in de buurt 2. bepalen van betekenis van woorden/tekst in documenten vooraf bij indexeren of achteraf in zoekresultaat; van eenvoudige herkenning van entiteiten of meegegeven metadata, tot complexe kennis van de wereld, zodat automatisch concepten worden toegekend of relevante aanvullende informatie verschijnt 3. automatisch aanpassen van zoekacties bijv.: zoekactie uitbreiden met gerelateerde zoekwoorden, zoekwoorden vervangen door betere zoekwoorden, (ook) in andere systemen zoeken eric sieverts, maart 20149
  10. 10. 1. intentie van de zoeker intentie of context van vraag kan worden bepaald: op basis van de lokatie van de zoeker globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.nl krijg je ander antwoord dan op google.com heel precies: op basis van bekende gps- of gsm-gegevens (mobiel) op basis van analyse van de gestelde vraag op basis van eerder zoekgedrag van de zoeker ook bij dubbelzinnige zoekwoorden? eric sieverts, maart 201410
  11. 11. intentie van de zoeker intentie of context van vraag kan worden bepaald: op basis van lokatie op basis van analyse van de gestelde vraag naam van persoon, bedrijf, product, gebeurtenis, >> feiten naam van gewoon persoon >> facebook / linked-in gegevens herkent vaste combinaties van woorden natuurlijke taal interpretatie statistiek op frequente eerdere vragen op basis van eerder zoekgedrag eric sieverts, maart 201411 Google Knowledge Graph wolfram|alpha
  12. 12. eric sieverts, maart 2014
  13. 13. Wie op Bach zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem. Google's Knowledge Graph kent 500 miljoen objecten met 3,5 miljard kenmerken (binnenkort ook in het Nederlands) 13 gegevens o.a. afkomstig uit: "Freebase" (crowdsourced kennisbank), Wikipedia, CIA World factbook en statistische analyse van eigen gegevens
  14. 14. wat is in dit verband een "graph"? een netwerk van al die concepten met hun onderlinge relaties en kenmerken 14
  15. 15. graphs zijn nu "hot" 15 eric sieverts, maart 2014 social graph uit Twitter social graph uit Facebook relaties in Freebase
  16. 16. 16 eric sieverts, maart 2014 meer uit de Knowledge Graph generieke vragen leveren lijstjes/"carousel", soms in meer rubrieken
  17. 17. 17 eric sieverts, maart 2014
  18. 18. 18 eric sieverts, maart 2014
  19. 19. 20 eric sieverts, maart 2014 feitelijk antwoord boven gewone resultaten
  20. 20. 21
  21. 21. 22 eric sieverts, maart 2014 vergelijkingen
  22. 22. 23 eric sieverts, maart 2014
  23. 23. Bing heeft iets soortgelijks: "Satori" maar dat reageert nog niet altijd zo slim op combinaties van woorden
  24. 24. intermezzo: een onderzoekje wat geeft beter antwoord op wat voor soort vragen? zie: http://webzoek.pbworks.com/semantisch antwoord uit Google's Knowledge Graph antwoord uit Bing's Satori antwoord uit Wolfram|Alpha gegevens over dat onderwerp uit de Wikipedia eerste weblinks uit gewone zoekresultaat uit Google door Sensebot geselecteerde antwoorden door Cluuz geselecteerde antwoorden antwoord uit Ask-Cluuz antwoord uit Kngine door Factbites samengevatte antwoorden eerste weblinks uit (semantisch?) zoekresultaat uit Hakia eric sieverts, maart 201426
  25. 25. intentie van de zoeker intentie of context van vraag kan worden bepaald: op basis van de lokatie van de zoeker op basis van analyse van de gestelde vraag op basis van eerder zoekgedrag van de zoeker wat voor zoekvragen stelde gebruiker eerder naar welke resultaten keek gebruiker dan (bijvoorbeeld al toegepast in Google's relevantie-personalisatie; opgeslagen "history" is ook al "big data") eric sieverts, maart 201427
  26. 26. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorien als plaats, persoon, bedrijf, product, ...) tekstanalyse voor automatisch categoriseren (door "machine learning" getraind op taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection") betekenis die herkenbaar aanwezig is in "embedded metadata" (bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web inhoudelijke koppeling met geselecteerde andere bronnen (bijvoorbeeld via "linked data") ... eric sieverts, maart 201428
  27. 27. example: article from NYTimes analysed by .. >> herkennen van "entiteiten" 29
  28. 28. example: article from NYTimes analysed by "Open Calais" http://viewer.opencalais.com/ 30
  29. 29. example: article from NYTimes analysed by "Zemanta" http://www.zemanta.com/demo/ 31
  30. 30. betekenis door structuur Facebook kent betekenis toe door gegevens gestructureerd op te slaan doet dat ook in een "graph" >> graph search 32 eric sieverts, maart 2014
  31. 31. 2. bepalen van betekenis betekenis herkennen van woorden en gegevens in te indexeren tekst en/of in al gevonden resultaten herkennen van "entiteiten" in tekst (herkennen van woorden/samenstellingen behorend tot categorien als plaats, persoon