Vinden dankzij / ondanks metadata

Click here to load reader

  • date post

    17-Jan-2015
  • Category

    Education

  • view

    1.087
  • download

    2

Embed Size (px)

description

Lezing op de studiedag "Informatieontsluiting Hic et Nunc", 3 december 2008, Gent, België

Transcript of Vinden dankzij / ondanks metadata

  • 1. Eric Sieverts Instituut voor Media & informatie Management Hogeschool van Amsterdam / Universiteitsbibliotheek Utrecht sector Innovatie & Ontwikkeling Vinden dankzij / ondanks metadata Studiedag :Informatieontsluiting hic et nunc 3 december 2008, Gent

2. metadata en ontsluiting

  • waarom informatieontsluiting?
  • we ontsluiten om te kunnen vinden
  • dat is waar(want nodig)voor niet-digitaal materiaal
  • dat is waar(want nodig?)voor digitaal niet-tekst materiaal
  • is dat ook nog waar voor digitaal tekstmateriaal?
  • in eenGoogle -maatschappij is het in elk geval niet altijd meer strikt nodig

Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 3.

  • filenaam:thesaurus.jpg
  • kun je zo makkelijk
  • uit de voeten met thesauri?

waarop is deze foto in Google te vinden? 4. wat bedoelen we met ontsluiting? Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 5.

  • velen in Nederland vinden ontsluiting te duur
  • in bibliotheken doen we het vaak ook niet zo goed
  • misschien hoeft het ook niet meer zo nodig
  • of misschien toch wel?
      • informatie vinden op internet wordt steeds lastiger
      • informatici komen achter belang van betekenis
      • informatici vinden dat ze metadata nodig hebben
      • monopoliseren informatici metadata en ontsluiting?
  • informaticus en bibliothecaris moeten samenwerken
  • nieuwe technieken voor ontsluiting en metadata adopteren
  • automatische methoden en menselijke inbreng combineren

Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 mijn drie verhaallijnen 6. zoek, zoek,zoek, zoek,zoek, ......zoeker / zoekvraag documenten match basis-paradigma voor vinden van informatie Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 7. zoek, zoek,zoek, zoek,zoek, ......match klassieke situatie bij ontsluiting zoeker moet proberen termen"te bedenken, waarmee onderwerp is ontsloten ontsluiting: indexeerder moet correcte termen aan document toekennen in principe perfecte match mogelijk Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 8. klassieke ontsluiting

  • gebruikersonvriendelijk dat zoeker zelf correcte termen moet ontdekken
  • duur dat indexeerders documenten moeten analyseren om correcte termen te kunnen toekennen

Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 9. zoek, zoek,zoek, zoek,zoek, ......zoeken in de wereld van zoeker tikt maar wat woorden in(en vaak zelfs maar n woord) zoeksysteem bevat alleen de woorden uit de documenten zelf je vindt vaak niet(alles) wat je zoekt - toch tevreden ?match Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 10. zoeken in de wereld van.

  • zoeker mist relevante informatie (recall-probleem):
    • in tekst komen afwijkende spelling en woordvormen voor
    • in tekst komen synoniemen en woorden in andere taal voor
    • in tekst komen specifiekere begrippen voor
    • ....
  • zoeker vindt niet-relevante informatie (precisie-probleem):
    • onvoldoende gespecificeerde vraag
    • in tekst ontbreekt gewenste relatie tussen zoektermen
    • in tekst komt zoekwoord in andere betekenis of context voor
    • ....

Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 11. waarom toch tevreden gebruikers ?

  • zoeksysteem ziet er zo lekker (simpel) uit
  • zoeker vindt altijd wel wat(in 100 miljard webpagina's)
  • slimme ordening van resultaten,
  • zodat bij meeste vragen
  • voor meerderheid van gebruikers
  • altijd wel iets relevants bij de eerste 10 zit
  • en:who cares about lousy recall & precision
  • (in theGoogle -world)?

Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 12. zoek, zoek,zoek, zoek,zoek, ......taaltechnologie bij zoeker simpele zoekvraaggexpandeerd en gedisambigueerd;uit zoekresultaat aanvullende termen gegenereerd voor vraagverfijning zoeksysteem bevat alleen de woorden uit de documenten zelf door verbeterde zoekvraag een beter antwoord ? match Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 13. taaltechnologie voor betere "query"

  • door"word stemming"en"fuzzy zoeken"automatisch op meer woordvormen gezocht>>betere recall
  • semantisch netwerk(ofontologie)bevat relaties tussen begrippen waardoor inhoudelijk verwante termen aan vraag kunnen worden toegevoegd>>betere recall
  • semantisch netwerk(ofontologie) bevat voor verschillende betekenissen van woord ook verschillende relaties met andere woorden>>disambigueren>>betere precisie
  • geleerden zijn het er nog niet over eens hoeveel dit verbetert

Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 14. visualisatie van semantisch netwerk 15. taaltechnologie voor betere "query"

  • door statistische analyse van zoekresultaat, genereert software mogelijke kenmerkendezoektermen, waarmee gebruiker naar eigen inzicht zoekvraag kan verfijnen
  • zulke woorden kunnen ook uit woordenlijstje, thesaurus, semantisch netwerk e.d. worden afgeleid
  • meestal>>betere precisie

Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 16. zoek, zoek,zoek, zoek,zoek, ......taaltechnologie bij document zoeken met "correcte" of belangrijke term taaltechnologie verrijkt documentmet "correcte" term (uit thesaurus)of met meest kenmerkende termen uit de tekst in principe perfecte match mogelijk match Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 17. documenten automatisch "verrijken"

  • na training van systeem op alle thesaurustermen kunnen documenten op basis van inhoudsanalyse van thesaurustermen worden voorzien
  • ondanks wat beperkingen gaat dat al steeds beter
  • op basis van woordlijsten en tekstanalyse kunnen bepaalde soorten woorden (persoonsnamen, plaatsnamen, producten, e.d.) als zodanig herkend en gemarkeerd worden

Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 18. 19. The Calais Web Service automatically creates rich semantic metadata NamedEntities Facts Events 20. 21. 22. geografische herkenning in Google Books 23. zoek, zoek,zoek, zoek,zoek, ......taaltechnologie aan beide kanten gebruiker tikt maar wat in, maar systeem zoekttoch op "goede" termen computer kan documenteninhoudelijk karakteriseren(metadata toekennen) beter zoekresultaat & lagere kosten ? match Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 24. nut van gecontroleerd vocabulaire free-text retrieval

  • problemen met recall:
  • door ontbreken van
  • standaardisatie als retrieval
  • software zelf te dom is
  • als er te weinig digitale tekst is
  • problemen met precisie:
  • als er te weinig digitale tekst is
  • OK door standaardisatie /
  • autorisatie, maar toch:
  • problemen met recall:
  • als er te weinig trefwoorden zijn
  • (wat bijna altijd geval zal zijn)
  • problemen met precisie:
  • bij specialistisch onderwerp

inhoudelijke ontsluiting Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 25. voorbeeld: een boek van 480 bladzijden met een onderwerpsindex van 14 dichtbedrukte bladzijden met een inhoudsopgave van 5 bladzijdenmet 21 hoofdstukken en 117 paragrafen in een catalogus beschreven met 1 onderwerpscategorie en 1 (daaraan identiek!) trefwoord Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 26. zelfs user-tags in Librarything biedenmaar weinig meer zinvolle ingangenvergeleken met die inhoudsopgave voorbeeld: een boek van 480 bladzijden met een onderwerpsindex van 14 dichtbedrukte bladzijden met een inhoudsopgave van 5 bladzijdenmet 21 hoofdstukken en 117 paragrafen Eric Sieverts|e.g.sieverts@uu.nl|e.g.sieverts@hva.nl|http://www.library.uu.nl/medew/it/eric|Gent03-12-2008 27. de 21 hoofdstukken op de bijbehorende website een paar van de 117 paragrafen uit de TOC 28.

  • Roy Tennant :If your system is more difficult to search and less effective than Amazon.com (and who