20121108 fobid

Post on 21-May-2015

495 views 0 download

description

Presentatie op de FOBID Studiedag in Amsterdam. Pleit voor 'the best of both worlds' als het gaat om zoeken op onderwerp: classificaties maar ook DBpedia.

Transcript of 20121108 fobid

Zoekplatform Openbare Bibliotheken

8 november 2012

Gerard Kuys

Beter content vinden met DBpedia

Overzicht

1. Bibliotheken en internet: when are the twain going to meet?

2. Wat is Wikipedia / DBpedia

3. Wat hebben wij aan DBpedia in het Zoekplatform

4. Benodigde stappen

5. Succesfactoren* Alignment ontologieën* Medewerking van communities

6. Vragen?

Libraries and the internet

3

RDFa Microdata

Schema.org

Libraries and the internet

4

Libraries and the internet

5

Libraries and the internet

6

* http://danbri.org/words/2012/07/18/793

Waarom is die combinatie belangrijk?

7

• Er is een tijd geweest, waarin men dacht dat digitale content geen metadata meer nodig had om gevonden te worden• Matchen op vóórkomen van een term, termen vinden op basis van

brute force en statistiek (bv. proximity)• Maar de metadata zijn weer terug, dit keer in combinatie met grote

hoeveelheden tekst• Content wordt tegen vocabulaires gehouden, tegen termenlijsten

(gazetteers), of tegen ontologieën• Expansie op de manier van thesauri

• Niet meer om alleen te komen tot een hiërarchische ordening van begrippen

• Maar nu ook vooral om te zoeken op ‘skos:related’ én tegelijk informatie op te halen over de aard van die relatie

Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?

8

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

?

9

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal

?

??

• Dewey• UDC• Unesco• Brinkman’s• etc.

• RDFa• Microdata• Schema.org

Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?

10

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal

?

??

Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?

11

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal

?

??

• Dewey• UDC• Unesco• Brinkman’s• etc.

• RDFa• Microdata• Schema.org

Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?

Er is ook een classificatie ‘van onderop’

12

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

• Dewey• UDC• Unesco• Brinkman’s• etc.

• Wikipedia• Freebase• Yago• Wordnet• etc.

Linked Data met DBpedia

13

Wat is Wikipedia?

• Ward Cunningham, The Wiki Way (2001)• Jimmy Wales en Larry Sanger combineerden Cunninghams

werkmethode met nupedia.org. Resultaat: internet-encyclopedie Wikipedia (2001)

• Vrij toegankelijke bron van informatie, die binnen een raamwerk van ‘nagelopen versies’ door iedereen kan worden aangevuld

• Drijft wereldwijd op communities die content leveren en onderhouden (in 271 talen)

• Software is in handen van de Wikimedia Foundation in San Francisco

• Beeldbank Wikimedia Commons• Diverse nationale regeringen zien mogelijkheden tot goedkopere

kennisdeling en stellen geld beschikbaar (bv. België)

Lezers en schrijvers in Wikipedia(juni 2012)

Engels Duits Frans Nederlands Spaans Russisch0

2000000

4000000

6000000

8000000

10000000

12000000

Series1

Series2

Keren bekeken per uur

Aantal artikelen

Wikipedia? Dat is toch een ongeregeld zootje?

Begin bij het begin:• Bibliotheken moeten de omslag maken van de aanbodkant naar

de vraagkant• Al was het maar omdat het aanbod zo enorm uitdijt

Niet óf catalogiseren óf ‘spideren’, zoek the best of both worlds:• Beeld de ‘folksonomies’ (waaronder de Wikipedia-indeling van

onderwerpen) af op de formele classificaties en vice versa• Met de moderne technieken (benaderingen nevenschikkend in

RDF) kun je komen tot alignments• En dan kun je een zoekresultaat bereiken dat zowel het meest

overeenkomt met de strenge definitie van een zoekterm, als ook met wat het brede publiek daaronder wil verstaan

16

Wat is DBpedia?

• ‘A community effort to extract information from Wikipedia and to make this information available on the web’

• Christian Bizer, Sören Auer, Sebastian Hellmann, DBpedia – A Crystallization Point for the Web of Data (2009)

• Initiatief om alle informatie in de lemma’s van Wikipedia als verzameling van concepten te zien, te extraheren en als één samenhangend geheel aan te bieden• Knowledge Extraction Framework• Interlanguage Links• Canonical URI’s: Een gemeenschappelijke ontologie voor

Personen, Plaatsen, Organisaties etc. • Gepubliceerd als Linked Open Data (licentie: CC0-BY-SA)

Wat doet DBpedia• Leest van lemma’s de samenvatting uit (500 woorden)• Leest de Infobox uit

• De Infobox bepaald het objecttype, de ‘klasse’• Kijkt voor de gevonden termen of er een concept in de ontologie

mee correspondeert• Persoonsgegevens• Plaatsgegevens• Afbeeldingen

• De kwaliteit van het resultaat hangt sterk af van de consistentie waarmee termen in de samenvatting en in de velden van de Infobox zijn ingevuld

• Door het niet-heel-sterk-geplande karakter van de inhoud is ook de ontologie achter Wikipedia zwak gestructureerd

• Dit kan verbeterd worden door gestuurde mapping

Hoe werkt Dbpedia

Mappings, mappings, mappings

• Wikipedia heeft een structuur met Infoboxes en andere templates• Als je die structuur vult, weet je dus welke term correspondeert

met welk concept in een achterliggende ordening / classificatie• Die overeenkomst kun je tot stand brengen:

• Met interlanguage links: deze term in het Engels verwijst naar hetzelfde concept als deze term in het Nederlands

• Langs geautomatiseerde weg• Uit het publiek, met ‘community mapping’

Nederlandstaligen schrijven wel, maar mappen niet

21

Mappings in Dbpedia-Nederlands

22

Mappings, mappings, mappings

24

Hoe ziet een Infobox eruit

25

Hoe ziet een Infobox eruit

{{Infobox auteur| naam = Anna Roemers Visscher| afbeelding = Anna Visscher.jpg| onderschrift = Anna Roemers Visscher| citaat = | volledige naam = Anna Roemers(dochter) Visscher| pseudoniem = | bijnaam = | geboren = [[2 februari]] (?) [[1583]]| overleden = [[6 december]] [[1651]]| land = [[Nederland]]| beroep = [[dichter]],[[graveerder]]| jaren-actief = | genre = | stroming = | invloeden = | bekende-werken = | uitgeverij = | dbnl = viss001| handtekening = | website = }}

26

{{CanonicalNamespace "wgPageName":" Jeltje_de_Bosch_Kemper ","wgTitle":“Jeltje de Bosch Kemper”,"wgCurRevisionId":32911458,"wgArticleId":2940082,"wgIsArticle":true,{{TemplateMapping| mapToClass = Person| mappings =

{{PropertyMapping | templateProperty = naam | ontologyProperty = foaf:name}}{{PropertyMapping | templateProperty = geboortedatum | ontologyProperty = birthDate }}{{PropertyMapping | templateProperty = geboorteplaats | ontologyProperty = birthPlace }}{{PropertyMapping | templateProperty = sterfdatum | ontologyProperty = deathDate }}{{PropertyMapping | templateProperty = sterfplaats | ontologyProperty = deathPlace }}{{PropertyMapping | templateProperty = website | ontologyProperty = foaf:homepage }}{{PropertyMapping | templateProperty = religie | ontologyProperty = religion }}{{PropertyMapping | templateProperty = beroep | ontologyProperty = occupation }}{{PropertyMapping | templateProperty = partners | ontologyProperty = spouse }}{{PropertyMapping | templateProperty = kinderen | ontologyProperty = child }}

{{PropertyMapping | templateProperty = nationaliteit | ontologyProperty = nationality }}{{PropertyMapping | templateProperty = bekendvan | ontologyProperty = knownFor }}{{PropertyMapping | templateProperty = algemeennaam1 | ontologyProperty = foaf:name }}{{PropertyMapping | templateProperty = algemeen1 | ontologyProperty = foaf:description }}{{PropertyMapping | templateProperty = functie1 | ontologyProperty = personFunction }}{{DataIntervalMapping | templateProperty = tijdvak1 | ontologyProperty = activeYearsStartYear

ontologyProperty = activeYearsEndYear }}{{PropertyMapping | templateProperty = functie2 | ontologyProperty = personFunction }}{{DataIntervalMapping | templateProperty = tijdvak2 | ontologyProperty = activeYearsStartYear

ontologyProperty = activeYearsEndYear }}}}

Infobox mappen op Dbpedia ontologie

Van infoboxveld naar Dbpedia property

27

•Agent (edit) •Organisation (edit) •Person (edit)

•Ambassador (edit) •Architect (edit) •Artist (edit)

•Actor (edit) •AdultActor (edit) •VoiceActor (edit)

•Comedian (edit) •ComicsCreator (edit) •MusicalArtist (edit) •Writer (edit)

•Astronaut (edit) •Athlete (edit) •Celebrity (edit) •Cleric (edit)

•Cardinal (edit) •ChristianBishop (edit) •ChristianPatriarch (edit) •Pope (edit) •Priest (edit) •Saint (edit)

•CollegeCoach (edit) •Criminal (edit) •FictionalCharacter (edit) •Journalist (edit) •Judge (edit) •MilitaryPerson (edit) •Model (edit) •Monarch (edit) •OfficeHolder (edit) •OrganisationMember (edit) •Philosopher (edit) •PlayboyPlaymate (edit) •Politician (edit) •Referee (edit) •Royalty (edit) •SoccerManager (edit)

Infobox mappen op DBpedia ontologie (1)

{{Infobox persoon

| naam = Jeltje de Bosch Kemper

| afbeelding =

| onderschrift =

| volledigenaam = jkvr. J. de Bosch Kemper

| geboortedatum = [[28 april]] [[1836]]

| geboorteplaats = [[Amsterdam]]

| sterfdatum = [[16 februari]] [[1916]]

| sterfplaats = [[Amsterdam]]

| doodsoorzaak =

| nationaliteit = [[Nederland]]se

| beroep =

| bekendvan = [[Tesselschade-Arbeid Adelt|Algemeene Nederlandsche Vrouwenvereeniging 'Tesselschade']]

| algemeennaam1 =

| algemeennaam2 =

| algemeen2 =

| tijdvak1 =

| functie1 =

| partners =

| kinderen =

| religie =

| politieknaam =

| politiek =

| politieknaam1 =

| politiek1 =

}}28

29

{{CanonicalNamespace "wgPageName":" Jeltje_de_Bosch_Kemper ","wgTitle":“Jeltje de Bosch Kemper”,"wgCurRevisionId":32911458,"wgArticleId":2940082,"wgIsArticle":true,{{TemplateMapping| mapToClass = Person| mappings =

{{PropertyMapping | templateProperty = naam | ontologyProperty = foaf:name}}{{PropertyMapping | templateProperty = geboortedatum | ontologyProperty = birthDate }}{{PropertyMapping | templateProperty = geboorteplaats | ontologyProperty = birthPlace }}{{PropertyMapping | templateProperty = sterfdatum | ontologyProperty = deathDate }}{{PropertyMapping | templateProperty = sterfplaats | ontologyProperty = deathPlace }}{{PropertyMapping | templateProperty = website | ontologyProperty = foaf:homepage }}{{PropertyMapping | templateProperty = religie | ontologyProperty = religion }}{{PropertyMapping | templateProperty = beroep | ontologyProperty = occupation }}{{PropertyMapping | templateProperty = partners | ontologyProperty = spouse }}{{PropertyMapping | templateProperty = kinderen | ontologyProperty = child }}

{{PropertyMapping | templateProperty = nationaliteit | ontologyProperty = country }}{{PropertyMapping | templateProperty = bekendvan | ontologyProperty = dbpedia-owl:concept }}{{PropertyMapping | templateProperty = algemeennaam1 | ontologyProperty = foaf:name }}{{PropertyMapping | templateProperty = algemeen1 | ontologyProperty = foaf: }}{{PropertyMapping | templateProperty = functie1 | ontologyProperty = occupation }}{{DataIntervalMapping | templateProperty = tijdvak1 | ontologyProperty = activeYearsStartYear

ontologyProperty = activeYearsEndYear }}{{PropertyMapping | templateProperty = functie2 | ontologyProperty = occupation }}{{DataIntervalMapping | templateProperty = tijdvak2 | ontologyProperty = activeYearsStartYear

ontologyProperty = activeYearsEndYear }}}}

Infobox mappen op DBpedia ontologie (2)

DBpedia en WikiData

• Nieuw initiatief van de Wikimedia Foundation, gesponsord door Google en Microsoft

• Springt in de discussie over Schema.org en RDFa voor semantische markup van internetpagina’s

• Is complementair, niet concurrerend:• Doelgroep van WikiData zijn de redacteuren/’bureaucraten’,

DBpedia publiceert als Linked Open Data• Mensen van DBpedia in Advisory Board Wikidata• DBpedia gericht op extractie van data uit Wikipagina’s• Wikidata gericht op datastructuren ten behoeve van Wikipedia-

redacteuren• Wikidata levert in potentie betere data dan de Infoboxen die op dit

moment komen zoals ze komen• Zie http://meta.wikimedia.org/wiki/Wikidata/Essays/DBpedia_and_Wikidata

WikiData bestrijkt dit gebied

31

9  GEOGRAPHY. BIOGRAPHY. HISTORY

93/94  History

94 (38) History of ancient Greece

1  PHILOSOPHY. PSYCHOLOGY

14  Philosophical systems and points of view

  17  Moral philosophy.

Ethics. Practical philosophy

172  Social ethics. Duties to one`s fellow humans

171  Individual ethics. Human duties to oneself

177  Ethics and society

• Dewey• UDC• Unesco• Brinkman’s• etc.

• RDFa• Microdata• Schema.org

Wat hebben bibliotheken aan DBpedia?

Zoeken op onderwerp

• Het is de overtuiging van Bibliotheek.nl dat metadata hun rechten hernemen t.o.v. het full-text indexeren

• Heeft te maken met de manier van zoeken van het OB-publiek: tikje meer gericht op associatief en verkennend zoeken

• In de termen van Marchionini: meer exploratory search dan look-up: ‘Vertel mij wat er nog meer is’

• En dan niet alleen non-fictie, maar ook op ‘gevoel’ en culturele waarden – fictie moet beter ontsloten worden

• Het Zoekplatform maakt het (beter) mogelijk metadata te genereren met cross-overs over domeinen en collecties heen

• Bovendien bestaat er in het bibliotheek een traditie van classificeren: vastleggen waarover iets gáát

33

Collecties koppelen aan onderwerpen

• Op dit moment zijn collectie-items gekoppeld aan trefwoorden of termen uit een classificatie

• Maar catalogiseren en classificeren kan geen gelijke tred houden met de toename van het materiaal

• Niet het kind met het badwater weggooien• En dus oude classificaties verbinden met nieuwe classificaties• Dan stroomt het bibliotheek-aanbod door naar Linked Open

Data (en omgekeerd)

34

DBpedia gebruiken als(aanvullend) onderwerpsysteem• Bibliotheken hebben van de dingen in hun collecties

opgeschreven waarover ze gaan• Non-fictie titels in de catalogus hebben meestal wel een

onderwerp erbij staan• Brinkman• Unesco• Basisclassificatie / GOO

• Fictietitels nu alleen geclassificeerd door NBD | Biblion• Maar het overgrote deel van alle titels heeft geen classificatie en

waar halen wij die dan vandaan?• Classificatie nodig die informatie niet (alleen) top-down beschrijft

maar ook bottom-up

Metadatastrategie Zoekplatform

• Aansluiten bij initiatieven om classificaties in SKOS te zetten (KB, Catch- en Stitch-projecten)

• Aansluiten bij Linked Open Data waar zinvol:* FOAF (http://www.foaf-project.org/) * Music Ontology (http://musicontology.com/) * Movie Ontology (http://www.movieontology.org/)

• Speerpunt ligt bij DBpedia: DBpedia-ontologie als verbindend systeem van onderwerpen

• Een Wikipedia-lemma is een vind-plaats voor ‘related terms’(w.o. Kullback-Leibler divergentie)

Formeel Onder redactie InformeelAgent ISNI / VIAF, NTA

Unesco, AAT, GTAA, ISAAR/EAC

DBpedia, FOAFthesaurus KB, auteurslijst Literatuurplein, Biografisch Portaal ING

Facebook, tags als in CWise

Concept Unesco, AAT, GTAA, GOO, Cornetto

DBpedia,Music Ontology,‘emotionele ontologie’

tags als in CWise

Event UnescoAATGTAA

DBpedia, G!DS, thesaurus KB

Twitter, tags als in CWise

Physical Thing

Unesco, AAT, GTAA, archeologischeartefacten RCE

Dbpedia, Rijksmonumentenlijst RCE

tags als in CWise

Place Unesco, AAT, GTAA, Gelderlandthesaurus, Zeelandthesaurus

KB-lijst, GeoNames, Open GeoData,DBpedia, controlled vocabularies OWMS

Twitter, tags als in CWise

Timespan Kalendaria Dbpedia, indeling Nationaal Archief

tags als in CWise

Waar halen we onze referenties vandaan?

Samenwerking met Leipzig

Hi Gerard,

ist this text ok for the announcement? We are also happy to see the number of the DBpedia language chapters rising. Since the 3.7 DBpedia release we welcomed the French, Italian and Japanese Chapters.

What is more, we expect the release of the Dutch chapter during the following months (in cooperation with http://bibliotheek.nl/). Therefore, you will be able to de-reference (among others) the 10 biggest Wikipedia / DBpedia language editions. The following picture gives an overview of the current state of the Internationalization effort:

Sebastian Hellmann 

• Op dit moment worden de concepten achter DBpediavooral geëxtraheerd uit de Engelstalige pagina’s• Sinds 1 jaar ook uit Duitse, Franse, Griekse, Russische en

Koreaanse pagina’s• Als we alleen naar het Engels kijken missen we concepten die in

een Nederlands/Vlaamse context belangrijk zijn:• Personen, (Sociale) Geografie, Geschiedenis en cultuur• (Al hebben we nu al wel de Engelse kijk op: ‘poffertjes’)

• We moeten zorgen dat de begrippen in de Nederlandstalige pagina’s refereerbaar worden, en dat die begrippen worden gemapt op algemene Linked Data

• Infoboxen proberen te standaardiseren• Termen en concepten disambigueren voor Nederlandstalig gebied• Waar dit al door bestaande thesauri gedaan is: géén dubbel werk

Wat gaan we concreet doen?

nl.dbpedia.org

40

• Dit jaar nog Nederlandstalig chapter DBpedia en DBpedia information extraction framework (DIEF)

• Vlaamse Bibnet is aangehaakt• DBpedia Spotlight voor Named Entity Recognition

(https://github.com/dbpedia-spotlight/dbpedia-spotlight)

Samenwerking zoeken

Een interessante passage uit het document "Strategie 2013-2015"  van Wikimedia Nederland: " In eerste instantie gaan we verder met het uitbouwen van onze activiteiten op het gebied van culturele samenwerking en het verstevigen van de relaties met instellingen op dit terrein (GLAM: galleries, libraries, archives en museums). Door samen te werken ontstaat een maatschappelijke meerwaarde die de doelstellingen van zowel de Wikimedia-beweging als deze instellingen weerspiegelt. Verder gaan we verkennen of ook samenwerkingsverbanden met (hoger) onderwijs en de diverse overheidsinstellingen mogelijk zijn. Ook willen we blijven deelnemen in activiteiten die bijdragen aan innovatie en ontwikkeling."