20121108 fobid

42
Zoekplatform Openbare Bibliotheken 8 november 2012 Gerard Kuys Beter content vinden met DBpedia

description

Presentatie op de FOBID Studiedag in Amsterdam. Pleit voor 'the best of both worlds' als het gaat om zoeken op onderwerp: classificaties maar ook DBpedia.

Transcript of 20121108 fobid

Page 1: 20121108 fobid

Zoekplatform Openbare Bibliotheken

8 november 2012

Gerard Kuys

Beter content vinden met DBpedia

Page 2: 20121108 fobid

Overzicht

1. Bibliotheken en internet: when are the twain going to meet?

2. Wat is Wikipedia / DBpedia

3. Wat hebben wij aan DBpedia in het Zoekplatform

4. Benodigde stappen

5. Succesfactoren* Alignment ontologieën* Medewerking van communities

6. Vragen?

Page 3: 20121108 fobid

Libraries and the internet

3

RDFa Microdata

Schema.org

Page 4: 20121108 fobid

Libraries and the internet

4

Page 5: 20121108 fobid

Libraries and the internet

5

Page 6: 20121108 fobid

Libraries and the internet

6

* http://danbri.org/words/2012/07/18/793

Page 7: 20121108 fobid

Waarom is die combinatie belangrijk?

7

• Er is een tijd geweest, waarin men dacht dat digitale content geen metadata meer nodig had om gevonden te worden• Matchen op vóórkomen van een term, termen vinden op basis van

brute force en statistiek (bv. proximity)• Maar de metadata zijn weer terug, dit keer in combinatie met grote

hoeveelheden tekst• Content wordt tegen vocabulaires gehouden, tegen termenlijsten

(gazetteers), of tegen ontologieën• Expansie op de manier van thesauri

• Niet meer om alleen te komen tot een hiërarchische ordening van begrippen

• Maar nu ook vooral om te zoeken op ‘skos:related’ én tegelijk informatie op te halen over de aard van die relatie

Page 8: 20121108 fobid

Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?

8

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

?

Page 9: 20121108 fobid

9

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal

?

??

• Dewey• UDC• Unesco• Brinkman’s• etc.

• RDFa• Microdata• Schema.org

Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?

Page 10: 20121108 fobid

10

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal

?

??

Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?

Page 11: 20121108 fobid

11

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal

?

??

• Dewey• UDC• Unesco• Brinkman’s• etc.

• RDFa• Microdata• Schema.org

Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?

Page 12: 20121108 fobid

Er is ook een classificatie ‘van onderop’

12

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

• Dewey• UDC• Unesco• Brinkman’s• etc.

• Wikipedia• Freebase• Yago• Wordnet• etc.

Page 13: 20121108 fobid

Linked Data met DBpedia

13

Page 14: 20121108 fobid

Wat is Wikipedia?

• Ward Cunningham, The Wiki Way (2001)• Jimmy Wales en Larry Sanger combineerden Cunninghams

werkmethode met nupedia.org. Resultaat: internet-encyclopedie Wikipedia (2001)

• Vrij toegankelijke bron van informatie, die binnen een raamwerk van ‘nagelopen versies’ door iedereen kan worden aangevuld

• Drijft wereldwijd op communities die content leveren en onderhouden (in 271 talen)

• Software is in handen van de Wikimedia Foundation in San Francisco

• Beeldbank Wikimedia Commons• Diverse nationale regeringen zien mogelijkheden tot goedkopere

kennisdeling en stellen geld beschikbaar (bv. België)

Page 15: 20121108 fobid

Lezers en schrijvers in Wikipedia(juni 2012)

Engels Duits Frans Nederlands Spaans Russisch0

2000000

4000000

6000000

8000000

10000000

12000000

Series1

Series2

Keren bekeken per uur

Aantal artikelen

Page 16: 20121108 fobid

Wikipedia? Dat is toch een ongeregeld zootje?

Begin bij het begin:• Bibliotheken moeten de omslag maken van de aanbodkant naar

de vraagkant• Al was het maar omdat het aanbod zo enorm uitdijt

Niet óf catalogiseren óf ‘spideren’, zoek the best of both worlds:• Beeld de ‘folksonomies’ (waaronder de Wikipedia-indeling van

onderwerpen) af op de formele classificaties en vice versa• Met de moderne technieken (benaderingen nevenschikkend in

RDF) kun je komen tot alignments• En dan kun je een zoekresultaat bereiken dat zowel het meest

overeenkomt met de strenge definitie van een zoekterm, als ook met wat het brede publiek daaronder wil verstaan

16

Page 17: 20121108 fobid

Wat is DBpedia?

• ‘A community effort to extract information from Wikipedia and to make this information available on the web’

• Christian Bizer, Sören Auer, Sebastian Hellmann, DBpedia – A Crystallization Point for the Web of Data (2009)

• Initiatief om alle informatie in de lemma’s van Wikipedia als verzameling van concepten te zien, te extraheren en als één samenhangend geheel aan te bieden• Knowledge Extraction Framework• Interlanguage Links• Canonical URI’s: Een gemeenschappelijke ontologie voor

Personen, Plaatsen, Organisaties etc. • Gepubliceerd als Linked Open Data (licentie: CC0-BY-SA)

Page 18: 20121108 fobid

Wat doet DBpedia• Leest van lemma’s de samenvatting uit (500 woorden)• Leest de Infobox uit

• De Infobox bepaald het objecttype, de ‘klasse’• Kijkt voor de gevonden termen of er een concept in de ontologie

mee correspondeert• Persoonsgegevens• Plaatsgegevens• Afbeeldingen

• De kwaliteit van het resultaat hangt sterk af van de consistentie waarmee termen in de samenvatting en in de velden van de Infobox zijn ingevuld

• Door het niet-heel-sterk-geplande karakter van de inhoud is ook de ontologie achter Wikipedia zwak gestructureerd

• Dit kan verbeterd worden door gestuurde mapping

Page 19: 20121108 fobid

Hoe werkt Dbpedia

Page 20: 20121108 fobid

Mappings, mappings, mappings

• Wikipedia heeft een structuur met Infoboxes en andere templates• Als je die structuur vult, weet je dus welke term correspondeert

met welk concept in een achterliggende ordening / classificatie• Die overeenkomst kun je tot stand brengen:

• Met interlanguage links: deze term in het Engels verwijst naar hetzelfde concept als deze term in het Nederlands

• Langs geautomatiseerde weg• Uit het publiek, met ‘community mapping’

Page 21: 20121108 fobid

Nederlandstaligen schrijven wel, maar mappen niet

21

Page 22: 20121108 fobid

Mappings in Dbpedia-Nederlands

22

Page 23: 20121108 fobid

Mappings, mappings, mappings

Page 24: 20121108 fobid

24

Hoe ziet een Infobox eruit

Page 25: 20121108 fobid

25

Hoe ziet een Infobox eruit

{{Infobox auteur| naam = Anna Roemers Visscher| afbeelding = Anna Visscher.jpg| onderschrift = Anna Roemers Visscher| citaat = | volledige naam = Anna Roemers(dochter) Visscher| pseudoniem = | bijnaam = | geboren = [[2 februari]] (?) [[1583]]| overleden = [[6 december]] [[1651]]| land = [[Nederland]]| beroep = [[dichter]],[[graveerder]]| jaren-actief = | genre = | stroming = | invloeden = | bekende-werken = | uitgeverij = | dbnl = viss001| handtekening = | website = }}

Page 26: 20121108 fobid

26

{{CanonicalNamespace "wgPageName":" Jeltje_de_Bosch_Kemper ","wgTitle":“Jeltje de Bosch Kemper”,"wgCurRevisionId":32911458,"wgArticleId":2940082,"wgIsArticle":true,{{TemplateMapping| mapToClass = Person| mappings =

{{PropertyMapping | templateProperty = naam | ontologyProperty = foaf:name}}{{PropertyMapping | templateProperty = geboortedatum | ontologyProperty = birthDate }}{{PropertyMapping | templateProperty = geboorteplaats | ontologyProperty = birthPlace }}{{PropertyMapping | templateProperty = sterfdatum | ontologyProperty = deathDate }}{{PropertyMapping | templateProperty = sterfplaats | ontologyProperty = deathPlace }}{{PropertyMapping | templateProperty = website | ontologyProperty = foaf:homepage }}{{PropertyMapping | templateProperty = religie | ontologyProperty = religion }}{{PropertyMapping | templateProperty = beroep | ontologyProperty = occupation }}{{PropertyMapping | templateProperty = partners | ontologyProperty = spouse }}{{PropertyMapping | templateProperty = kinderen | ontologyProperty = child }}

{{PropertyMapping | templateProperty = nationaliteit | ontologyProperty = nationality }}{{PropertyMapping | templateProperty = bekendvan | ontologyProperty = knownFor }}{{PropertyMapping | templateProperty = algemeennaam1 | ontologyProperty = foaf:name }}{{PropertyMapping | templateProperty = algemeen1 | ontologyProperty = foaf:description }}{{PropertyMapping | templateProperty = functie1 | ontologyProperty = personFunction }}{{DataIntervalMapping | templateProperty = tijdvak1 | ontologyProperty = activeYearsStartYear

ontologyProperty = activeYearsEndYear }}{{PropertyMapping | templateProperty = functie2 | ontologyProperty = personFunction }}{{DataIntervalMapping | templateProperty = tijdvak2 | ontologyProperty = activeYearsStartYear

ontologyProperty = activeYearsEndYear }}}}

Infobox mappen op Dbpedia ontologie

Page 27: 20121108 fobid

Van infoboxveld naar Dbpedia property

27

•Agent (edit) •Organisation (edit) •Person (edit)

•Ambassador (edit) •Architect (edit) •Artist (edit)

•Actor (edit) •AdultActor (edit) •VoiceActor (edit)

•Comedian (edit) •ComicsCreator (edit) •MusicalArtist (edit) •Writer (edit)

•Astronaut (edit) •Athlete (edit) •Celebrity (edit) •Cleric (edit)

•Cardinal (edit) •ChristianBishop (edit) •ChristianPatriarch (edit) •Pope (edit) •Priest (edit) •Saint (edit)

•CollegeCoach (edit) •Criminal (edit) •FictionalCharacter (edit) •Journalist (edit) •Judge (edit) •MilitaryPerson (edit) •Model (edit) •Monarch (edit) •OfficeHolder (edit) •OrganisationMember (edit) •Philosopher (edit) •PlayboyPlaymate (edit) •Politician (edit) •Referee (edit) •Royalty (edit) •SoccerManager (edit)

Page 28: 20121108 fobid

Infobox mappen op DBpedia ontologie (1)

{{Infobox persoon

| naam = Jeltje de Bosch Kemper

| afbeelding =

| onderschrift =

| volledigenaam = jkvr. J. de Bosch Kemper

| geboortedatum = [[28 april]] [[1836]]

| geboorteplaats = [[Amsterdam]]

| sterfdatum = [[16 februari]] [[1916]]

| sterfplaats = [[Amsterdam]]

| doodsoorzaak =

| nationaliteit = [[Nederland]]se

| beroep =

| bekendvan = [[Tesselschade-Arbeid Adelt|Algemeene Nederlandsche Vrouwenvereeniging 'Tesselschade']]

| algemeennaam1 =

| algemeennaam2 =

| algemeen2 =

| tijdvak1 =

| functie1 =

| partners =

| kinderen =

| religie =

| politieknaam =

| politiek =

| politieknaam1 =

| politiek1 =

}}28

Page 29: 20121108 fobid

29

{{CanonicalNamespace "wgPageName":" Jeltje_de_Bosch_Kemper ","wgTitle":“Jeltje de Bosch Kemper”,"wgCurRevisionId":32911458,"wgArticleId":2940082,"wgIsArticle":true,{{TemplateMapping| mapToClass = Person| mappings =

{{PropertyMapping | templateProperty = naam | ontologyProperty = foaf:name}}{{PropertyMapping | templateProperty = geboortedatum | ontologyProperty = birthDate }}{{PropertyMapping | templateProperty = geboorteplaats | ontologyProperty = birthPlace }}{{PropertyMapping | templateProperty = sterfdatum | ontologyProperty = deathDate }}{{PropertyMapping | templateProperty = sterfplaats | ontologyProperty = deathPlace }}{{PropertyMapping | templateProperty = website | ontologyProperty = foaf:homepage }}{{PropertyMapping | templateProperty = religie | ontologyProperty = religion }}{{PropertyMapping | templateProperty = beroep | ontologyProperty = occupation }}{{PropertyMapping | templateProperty = partners | ontologyProperty = spouse }}{{PropertyMapping | templateProperty = kinderen | ontologyProperty = child }}

{{PropertyMapping | templateProperty = nationaliteit | ontologyProperty = country }}{{PropertyMapping | templateProperty = bekendvan | ontologyProperty = dbpedia-owl:concept }}{{PropertyMapping | templateProperty = algemeennaam1 | ontologyProperty = foaf:name }}{{PropertyMapping | templateProperty = algemeen1 | ontologyProperty = foaf: }}{{PropertyMapping | templateProperty = functie1 | ontologyProperty = occupation }}{{DataIntervalMapping | templateProperty = tijdvak1 | ontologyProperty = activeYearsStartYear

ontologyProperty = activeYearsEndYear }}{{PropertyMapping | templateProperty = functie2 | ontologyProperty = occupation }}{{DataIntervalMapping | templateProperty = tijdvak2 | ontologyProperty = activeYearsStartYear

ontologyProperty = activeYearsEndYear }}}}

Infobox mappen op DBpedia ontologie (2)

Page 30: 20121108 fobid

DBpedia en WikiData

• Nieuw initiatief van de Wikimedia Foundation, gesponsord door Google en Microsoft

• Springt in de discussie over Schema.org en RDFa voor semantische markup van internetpagina’s

• Is complementair, niet concurrerend:• Doelgroep van WikiData zijn de redacteuren/’bureaucraten’,

DBpedia publiceert als Linked Open Data• Mensen van DBpedia in Advisory Board Wikidata• DBpedia gericht op extractie van data uit Wikipagina’s• Wikidata gericht op datastructuren ten behoeve van Wikipedia-

redacteuren• Wikidata levert in potentie betere data dan de Infoboxen die op dit

moment komen zoals ze komen• Zie http://meta.wikimedia.org/wiki/Wikidata/Essays/DBpedia_and_Wikidata

Page 31: 20121108 fobid

WikiData bestrijkt dit gebied

31

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

• Dewey• UDC• Unesco• Brinkman’s• etc.

• RDFa• Microdata• Schema.org

Page 32: 20121108 fobid

Wat hebben bibliotheken aan DBpedia?

Page 33: 20121108 fobid

Zoeken op onderwerp

• Het is de overtuiging van Bibliotheek.nl dat metadata hun rechten hernemen t.o.v. het full-text indexeren

• Heeft te maken met de manier van zoeken van het OB-publiek: tikje meer gericht op associatief en verkennend zoeken

• In de termen van Marchionini: meer exploratory search dan look-up: ‘Vertel mij wat er nog meer is’

• En dan niet alleen non-fictie, maar ook op ‘gevoel’ en culturele waarden – fictie moet beter ontsloten worden

• Het Zoekplatform maakt het (beter) mogelijk metadata te genereren met cross-overs over domeinen en collecties heen

• Bovendien bestaat er in het bibliotheek een traditie van classificeren: vastleggen waarover iets gáát

33

Page 34: 20121108 fobid

Collecties koppelen aan onderwerpen

• Op dit moment zijn collectie-items gekoppeld aan trefwoorden of termen uit een classificatie

• Maar catalogiseren en classificeren kan geen gelijke tred houden met de toename van het materiaal

• Niet het kind met het badwater weggooien• En dus oude classificaties verbinden met nieuwe classificaties• Dan stroomt het bibliotheek-aanbod door naar Linked Open

Data (en omgekeerd)

34

Page 35: 20121108 fobid

DBpedia gebruiken als(aanvullend) onderwerpsysteem• Bibliotheken hebben van de dingen in hun collecties

opgeschreven waarover ze gaan• Non-fictie titels in de catalogus hebben meestal wel een

onderwerp erbij staan• Brinkman• Unesco• Basisclassificatie / GOO

• Fictietitels nu alleen geclassificeerd door NBD | Biblion• Maar het overgrote deel van alle titels heeft geen classificatie en

waar halen wij die dan vandaan?• Classificatie nodig die informatie niet (alleen) top-down beschrijft

maar ook bottom-up

Page 36: 20121108 fobid

Metadatastrategie Zoekplatform

• Aansluiten bij initiatieven om classificaties in SKOS te zetten (KB, Catch- en Stitch-projecten)

• Aansluiten bij Linked Open Data waar zinvol:* FOAF (http://www.foaf-project.org/) * Music Ontology (http://musicontology.com/) * Movie Ontology (http://www.movieontology.org/)

• Speerpunt ligt bij DBpedia: DBpedia-ontologie als verbindend systeem van onderwerpen

• Een Wikipedia-lemma is een vind-plaats voor ‘related terms’(w.o. Kullback-Leibler divergentie)

Page 37: 20121108 fobid

Formeel Onder redactie InformeelAgent ISNI / VIAF, NTA

Unesco, AAT, GTAA, ISAAR/EAC

DBpedia, FOAFthesaurus KB, auteurslijst Literatuurplein, Biografisch Portaal ING

Facebook, tags als in CWise

Concept Unesco, AAT, GTAA, GOO, Cornetto

DBpedia,Music Ontology,‘emotionele ontologie’

tags als in CWise

Event UnescoAATGTAA

DBpedia, G!DS, thesaurus KB

Twitter, tags als in CWise

Physical Thing

Unesco, AAT, GTAA, archeologischeartefacten RCE

Dbpedia, Rijksmonumentenlijst RCE

tags als in CWise

Place Unesco, AAT, GTAA, Gelderlandthesaurus, Zeelandthesaurus

KB-lijst, GeoNames, Open GeoData,DBpedia, controlled vocabularies OWMS

Twitter, tags als in CWise

Timespan Kalendaria Dbpedia, indeling Nationaal Archief

tags als in CWise

Waar halen we onze referenties vandaan?

Page 38: 20121108 fobid

Samenwerking met Leipzig

Hi Gerard,

ist this text ok for the announcement? We are also happy to see the number of the DBpedia language chapters rising. Since the 3.7 DBpedia release we welcomed the French, Italian and Japanese Chapters.

What is more, we expect the release of the Dutch chapter during the following months (in cooperation with http://bibliotheek.nl/). Therefore, you will be able to de-reference (among others) the 10 biggest Wikipedia / DBpedia language editions. The following picture gives an overview of the current state of the Internationalization effort:

Sebastian Hellmann 

Page 39: 20121108 fobid

• Op dit moment worden de concepten achter DBpediavooral geëxtraheerd uit de Engelstalige pagina’s• Sinds 1 jaar ook uit Duitse, Franse, Griekse, Russische en

Koreaanse pagina’s• Als we alleen naar het Engels kijken missen we concepten die in

een Nederlands/Vlaamse context belangrijk zijn:• Personen, (Sociale) Geografie, Geschiedenis en cultuur• (Al hebben we nu al wel de Engelse kijk op: ‘poffertjes’)

• We moeten zorgen dat de begrippen in de Nederlandstalige pagina’s refereerbaar worden, en dat die begrippen worden gemapt op algemene Linked Data

• Infoboxen proberen te standaardiseren• Termen en concepten disambigueren voor Nederlandstalig gebied• Waar dit al door bestaande thesauri gedaan is: géén dubbel werk

Wat gaan we concreet doen?

Page 40: 20121108 fobid

nl.dbpedia.org

40

• Dit jaar nog Nederlandstalig chapter DBpedia en DBpedia information extraction framework (DIEF)

• Vlaamse Bibnet is aangehaakt• DBpedia Spotlight voor Named Entity Recognition

(https://github.com/dbpedia-spotlight/dbpedia-spotlight)

Page 41: 20121108 fobid

Samenwerking zoeken

Een interessante passage uit het document "Strategie 2013-2015"  van Wikimedia Nederland: " In eerste instantie gaan we verder met het uitbouwen van onze activiteiten op het gebied van culturele samenwerking en het verstevigen van de relaties met instellingen op dit terrein (GLAM: galleries, libraries, archives en museums). Door samen te werken ontstaat een maatschappelijke meerwaarde die de doelstellingen van zowel de Wikimedia-beweging als deze instellingen weerspiegelt. Verder gaan we verkennen of ook samenwerkingsverbanden met (hoger) onderwijs en de diverse overheidsinstellingen mogelijk zijn. Ook willen we blijven deelnemen in activiteiten die bijdragen aan innovatie en ontwikkeling."