Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

Click here to load reader

Embed Size (px)

description

Presentatie tijdens Etmaal 2014, congres voor de communicatiewetenschap, in Wageningen (3-4 feb) over onderzoek met Florian Kunneman MA en prof.dr. Antal van den Bosch naar automatische detectie van sarcasme op Twitter.

Transcript of Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

  • 1. Deze tweet is sarcastisch, zegt de computerChristine Liebrecht MA, Florian Kunneman MA & prof.dr. Antal van den Bosch

2. 2 3. 3 4. 4 5. (Liebrecht, Kunneman & Van den Bosch, 2013) 5 6. Sarcasme Omklappen van evaluatieve polariteit: Van letterlijk positief naar de bedoelde negatieve betekenis Van letterlijk negatief naar de bedoelde positieve mening (Burgers, Van Mulken & Schellens, 2011) Omklappen is impliciet Of expliciet 6 7. Sarcasme7 8. Sarcasme Lingustische middelen om sarcasme te markeren (o.a.): Hyperbool: prachtig weer Understatement: best slecht weer Verkleinwoord: lekker weertje Uitroep: lekker weer!!!!!!! Herhaling: regen, regen en nog eens regen Kapitalen: LEKKER weer Emoticons: lekker weer :-s(Burgers, Van Mulken & Schellens, 2012) 8 9. Computationele analyse Kan een computer sarcastische tweets herkennen? Sentimentanalyse eWOM9 10. Sarcasme Lingustische middelen om sarcasme te markeren (o.a.): Hyperbool: prachtig weer Understatement: best slecht weer Verkleinwoord: lekker weertje Uitroep: lekker weer!!!!!!! Herhaling: regen, regen en nog eens regen Kapitalen: LEKKER weer Emoticons: lekker weer :-s(Burgers, Van Mulken & Schellens, 2012) 10 11. Methode Kan een computer sarcastische tweets herkennen? Hashtags: expliciete markeerders (Chang, 2010) Hashtags die omklappen markeren: #sarcasme 48.992 90% van de tweets met een van #ironie 3.285 deze hashtags was inderdaad 404 sarcastisch (Cohens Kappa .44) #cynisme 353.758 + #not (Attardo, 2007; Kreuz & Roberts, 1993; Tsur, Davidov & Rappoport, 2010) 406.439 11 12. Methode Stap 1: de training 406 duizend (Nederlandse) tweets met een van de vier genoemde hashtags werd verzameld Uit die tweets werd de hashtag verwijderd Vervolgens gingen ze de computer in (machine learning classifier) Wellicht herkent de computer patronen in deze sarcastische uitingen 12 13. Methode Stap 2: herkenning Alle (Nederlandse) tweets van een reguliere dag: 1 februari 2013: 2.246.904 tweets 353 daarvan hadden een van de vier hashtags (die hashtags werden weer verwijderd) Lukt het de computer om die 353 eruit te halen? 13 14. ResultatenZijn de door de computer gedentificeerde tweets sarcastisch of niet?14 15. Resultaten Annotatie van de top 250 gedentificeerde tweets. Nou woehoe nederlands Wort super gezellig #yeah Wooow gezellig hier in huis geweldig Goh #gezellig 3 codeurs: sarcastisch 3 codeurs: niet sarcastisch 2 codeurs: sarcastisch 1 codeur: sarcastisch Cohens Kappa: .53, average mutual F-score: .72 35% van de tweets was volgens tenminste 2 codeurs sarcastisch15 16. Resultaten 500 meest gebruikte tokens Eerder onderzoek: veelbesproken onderwerpen zoals tv-programmas, school, het weer en ov (Liebrecht et al., 2013) Dit onderzoek: nauwelijks onderwerpen!16 17. Resultaten Veelvoorkomende tokens: Intensifiers: geweldig, heerlijk, prachtig, super Niet-gentensiveerde positieve bijwoorden en bijvoeglijke naamwoorden: interessant, leuk, slim Uitroepen: jippie, yes, woehoe, wow Niet-sarcastische hashtags voor metacommunicatie: #humor, #lml, #grapje17 18. Resultaten HashtagNone NoneExclamationIntensifiedUnintensifiedUnintensified Intensified Exclamation HashtagTrainingtweetsGeannoteerde tweets 18 19. Resultaten19 20. Conclusie Hashtags die sarcasme markeren zijn vrij betrouwbaar (90% vd tweets was sarcastisch) 307 van 353 (87%) sarcastische tweets zijn automatisch correct gedentificeerd In het wild is het lastig om letterlijke tweets van sarcastische tweets te onderscheiden (35%) Lingustische markeerders zijn intensifiers, positieve bijwoorden en bijvoeglijke naamwoorden, uitroepen, andere hashtags 20 21. Christine Liebrecht Florian Kunneman Antal van den Bosch [email protected] @flowian7 @avandenbosch @RadboudCLSLST21