Computationeel denken

download Computationeel denken

of 54

  • date post

    21-Jan-2018
  • Category

    Science

  • view

    130
  • download

    0

Embed Size (px)

Transcript of Computationeel denken

  1. 1. L E Z I N G T I J D E N S D H C L I N I C S , 2 6 S E P T 2 0 1 7 COMPUTATIONEEL DENKEN SUZAN VERBERNE
  2. 2. OVER MIJ Achtergrond in taal- en spraaktechnologie (Katholieke Universiteit Nijmegen, 1998-2002) Promotie op het onderwerp van vraag-antwoordsystemen (Radboud Universiteit Nijmegen, 2005-2009) Onderzoeker en docent op het gebied van Text Mining en Information Retrieval (Radboud Universiteit, 2009-2017) Universitair docent voor het Data Science onderzoeksprogramma (Universiteit Leiden, 2017 -)
  3. 3. DOEL VAN DEZE PRESENTATIE Voor digitaal (geesteswetenschappelijk) onderzoek is het noodzakelijk om een vraag in de echte wereld te kunnen omzetten naar een vraag die met software beantwoord kan worden. Dit vereist een bepaalde manier van denken: computationeel denken. Best een abstract onderwerp! Computationeel denken binnen de UB? Wat? Hoe?
  4. 4. COMPUTATIONEEL DENKEN IN DE UB
  5. 5. COMPUTATIONEEL DENKEN IN DE UB Bibliothecaris: vroeger en nu 1987 1936 nu (the digital librarian) https://americanlibrariesmagazine.org/
  6. 6. THE DIGITAL LIBRARIAN Librarians in the Digital Age, A response to the Wall Street Journal column, By Sari Feldman and Julie Todaro | January 19, 2016 De bibliothecaris als informatiespecialist Informatiedienstverlening
  7. 7. THE DIGITAL LIBRARIAN Informatietaken van een academisch bibliothecaris: Informatiespecialist Selecteren, catalogiseren en classificeren van bibliotheekmaterialen Gebruik van bibliotheek-informatiesystemen en elektronische catalogi Informatiedienstverlening: Het beantwoorden van vragen van lezers Lezers helpen met het gebruik van informatiesystemen en het zoeken van literatuur Bron: https://targetjobs.co.uk/careers-advice/job-descriptions/275697-academic-librarian-job-description
  8. 8. COMPUTATIONEEL DENKEN IN DE UB Computationeel denken binnen de UB? Wat? Informatietaken van de digital librarian Hoe? De computer als hulpmiddel Kleine zijsprong: De bibliotheekwetenschappen (library and information sciences) stonden aan de basis van het vakgebied Information Retrieval Doel: de bibliothecaris ondersteunen met technologie
  9. 9. 1962
  10. 10. 1960, Journal of the ACM
  11. 11. COMPUTATIONEEL DENKEN Computationeel denken: een probleem en de bijbehorende oplossing op een zodanige manier formuleren dat een computer (mens of machine) de oplossing kan uitvoeren Stappen: 1. Probleemformulering (abstractie/decompositie) 2. Implementatie van de oplossing 3. Uitvoeren van de oplossing en evaluatie
  12. 12. COMPUTATIONEEL DENKEN Dus: de computer als hulpmiddel voor the digital librarian Informatietaken: 1. categoriseren 2. zoeken en vinden
  13. 13. 1 . C AT E G O R I S E R E N HET COMPUTATIONEEL UITVOEREN VAN INFORMATIETAKEN
  14. 14. INFORMATIETAAK 1: CATEGORISEREN Informatiespecialist Selecteren, catalogiseren en classificeren van bibliotheekmaterialen Gebruik van bibliotheek-informatiesystemen en elektronische catalogi 1. Probleemformulering (abstractie/decompositie) Gegeven een boek/artikel/bundel/tijdschrift, waar moet het worden gecatalogiseerd? Wat is het genre/onderwerp/categorie? Of: wat zijn de onderwerpen?
  15. 15. SPAM OF GEEN SPAM?
  16. 16. SPAM OF GEEN SPAM?
  17. 17. SPAM OF GEEN SPAM?
  18. 18. TEKSTCLASSIFICATIE Op basis van welke kenmerken heb je je beslissing genomen? Classificatieprobleem: kiezen tussen twee of meer categorien (classes) De kenmerken die je gebruikt om je beslissing te maken zijn features Voor tekstclassificatie worden meestal de woorden uit het document gebruikt als features
  19. 19. VOORBEELDEN VAN TEKSTCLASSIFICATIE
  20. 20. SPAMDETECTIE
  21. 21. TAALHERKENNING
  22. 22. HET INDELEN VAN NIEUWS IN SECTIES
  23. 23. HET INDELEN VAN BOEKEN IN GENRES
  24. 24. HET TOEKENNEN VAN TREFWOORDEN AAN ARCHIEFSTUKKEN
  25. 25. WAT IS NODIG VOOR TEKSTCLASSIFICATIE Definitie van de taak Voorbeelddata Feature-extractie Classificatiemethode Evaluatie
  26. 26. WAT IS NODIG VOOR TEKSTCLASSIFICATIE Definitie van de taak Voorbeelddata Feature-extractie Classificatiemethode Evaluatie
  27. 27. DEFINIEER JE TAAK Wat is de teksteenheid die je wilt classificeren? Hele boeken/tijdschriften? (nieuwe materialen) Hele documenten? (denk aan een e-mailarchief: classificatie per bericht) Secties? (denk aan notulen) Zinnen? (denk aan taalherkenning of sentimentclassificatie) Wat zijn de categorien? Zijn de categorien vooraf gegeven?
  28. 28. WAT IS NODIG VOOR TEKSTCLASSIFICATIE Definitie van de taak Voorbeelddata Feature-extractie Classificatiemethode Evaluatie
  29. 29. VOORBEELDDATA Voorbeelddata (trainingsdata): Een set van teksten met categorien/labels Om een classificatiemodel mee te trainen
  30. 30. Build classifier Classifier Voorbeeld- documenten Representeren als feature vectors Een classificatie- model leren Toepassen op een nieuw document
  31. 31. WAT IS NODIG VOOR TEKSTCLASSIFICATIE Definitie van de taak Voorbeelddata Feature-extractie Classificatiemethode Evaluatie
  32. 32. FEATURE-EXTRACTIE Voorbeeld- documenten Representeren als feature vectors
  33. 33. WOORDEN ZIJN FEATURES Keuzes in het maken van de features: Wel of niet functiewoorden weggooien Hoeveel features gebruiken (grootte van vocabulaire van de classifier) Wel of niet lemmatiseren (interests interest) Doc id Content Class 1 request urgent interest urgent Spam 2 assistance low interest deposit Spam 3 symposium defense june No spam 4 notas symposium deadline june No spam 5 registration assistance symposium deadline ?
  34. 34. CLASSIFICATIE-METHODEN Veel gebruikte methoden: Bereken de kans op het voorkomen van elke term gegeven elke categorie op basis van de voorkomens in de trainingsdata (Nave Bayes) Leer regels, bijvoorbeeld als de e-mail het woord urgent bevat dan is het spam (Decision Trees) Bepaal waar precies de verschillen tussen twee categorien zitten; zoek voorbeelden in de trainingsdata die precies op de grens tussen twee categorien zitten (Support Vector Machines) Vind de voorbeelden in de trainingsdata die het meest lijken op het te classificeren document (kNN) Meestal werken we met een experimentele omgeving waar we methoden kunnen vergelijken. Bijvoorbeeld Scikit-learn in Python
  35. 35. WAT IS NODIG VOOR TEKSTCLASSIFICATIE Definitie van de taak Voorbeelddata Feature-extractie Classificatiemethode Evaluatie
  36. 36. EVALUATIE Hoe goed is de classifier? Meten op voorbeelddata (want daarvan weten we de categorien) Splits de voorbeelddata in een trainingset en een testset Bijvoorbeeld 80% om te trainen en 20% om te testen Of, als je niet zoveel data hebt, steeds roterende 80-20 (cross validation)
  37. 37. EVALUATIEMATEN Menselijke classificatie = referentie Classificatie door automatische classsifier 8 ware categorien waarvan 5 toegekend Recall = 5/8 6 toegekende categorien waarvan 5 correct Precisie = 5/6 We rapporteren meestal het gemiddelde: F1 = 2 precision recall precision + recall
  38. 38. RESULTATEN: WAT KUN JE VERWACHTEN? Waar hangt de kwaliteit van de classifier van af? De moeilijkheid van de taak: hoe meer categorien, hoe moeilijker De hoeveelheid trainingsdocumenten en de kwaliteit van de handmatige classificatie De lengte van de documenten: korte documenten zijn moeilijker te classificeren
  39. 39. WAT IS NODIG VOOR TEKSTCLASSIFICATIE Definitie van de taak Voorbeelddata Feature-extractie Classificatiemethode Evaluatie
  40. 40. 2 . Z O E K E N E N V I N D E N HET COMPUTATIONEEL UITVOEREN VAN INFORMATIETAKEN
  41. 41. INFORMATIETAAK 2: ZOEKEN & VINDEN Informatiedienstverlening: Het beantwoorden van vragen van lezers Lezers helpen met het gebruik van informatiesystemen en het zoeken van literatuur 1. Probleemformulering (abstractie/decompositie) Gegeven een informatie-vraag, wat zijn relevante boeken/artikelen/bundels/tijdschriften? Hoe wordt de vraag geformuleerd? En hoe wordt relevantie bepaald?
  42. 42. INFORMATIEVRAGEN Wat is de betekenis achter een zoekvraag? De stad? De universiteit? Vertaling van het Nederlandse woord leiden? Een stadsplattegrond? Afbeeldingen? Nieuwsberichten? www.leiden.nl ? Een artikel op Wikipedia? Toeristische informatie? Zoekvragen in zoekmachines zijn ondergespecificeerd De vragensteller heeft impliciet een bedoeling met zijn vraag En verwacht dat de zoekmachine die bedoeling kent
  43. 43. INFORMATIEVRAGEN Google lost dat op 3 manieren op: Leren wat de meerderheid van de gebruikers bedoelt met de vraag Leren wat de interesse van deze specifieke gebruiker is Variatie aanbrengen in de resultaten
  44. 44. INFORMATIEVRAGEN
  45. 45. INFORMATIEVRAGEN IN CONTEXT Ingwersen & Jrvelin, 2005
  46. 46. INFORMATIEVRAGEN IN CONTEXT Een zoekvraag staat niet op zichzelf Een gebruiker heeft een werktaak, bijvoorbeeld literatuuronderzoek voor een artikel De werktaak omvat een aantal informatiebehoeften Elke informatiebehoefte wordt geuit in een reeks van zoekvragen Soms zijn meerdere zoekvragen nodig om het juiste detailniveau te krijgen Soms is alleen een woordelijke zoekvraag niet genoeg filteren op metadata
  47. 47. ACADEMISCH ZOEKEN
  48. 48. ACADEMISCH ZOEKEN
  49. 49. ACADEMISCH ZOEKEN Waarom is academisch zoeken anders dan web search? Langere sessies (meer queries over hetzelfde onderwerp) Specifieke informatiebehoeften Academici willen controle over de resultaten die ze zien (en beweren daarom dat ze personalisatie absoluut niet willen) Het gaat niet om het 1e relevante resultaat; de resultatenset moet compleet zijn (high recall)
  50. 50. RELEVANTIE 1. Probleemformulering (abstractie/decompositie) Gegeven een