Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

21
Deze tweet is sarcastisch, zegt de computer Christine Liebrecht MA, Florian Kunneman MA & prof.dr. Antal van den Bosch

description

Presentatie tijdens Etmaal 2014, congres voor de communicatiewetenschap, in Wageningen (3-4 feb) over onderzoek met Florian Kunneman MA en prof.dr. Antal van den Bosch naar automatische detectie van sarcasme op Twitter.

Transcript of Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

Page 1: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

Deze tweet is sarcastisch, zegt de computer

Christine Liebrecht MA, Florian Kunneman MA & prof.dr. Antal van den Bosch

Page 2: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

2

Page 3: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

3

Page 4: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

4

Page 5: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

5

(Liebrecht, Kunneman & Van den Bosch, 2013)

Page 6: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

6

Sarcasme

• Omklappen van evaluatieve polariteit:– Van letterlijk positief naar de bedoelde negatieve

betekenis– Van letterlijk negatief naar de bedoelde positieve

mening(Burgers, Van Mulken & Schellens, 2011)

• Omklappen is impliciet

• Of expliciet

Page 7: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

7

Sarcasme

Page 8: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

8

Sarcasme

• Linguïstische middelen om sarcasme te markeren (o.a.):– Hyperbool: prachtig weer– Understatement: best slecht weer– Verkleinwoord: lekker weertje– Uitroep: lekker weer!!!!!!!– Herhaling: regen, regen en nog eens regen– Kapitalen: LEKKER weer– Emoticons: lekker weer :-s(Burgers, Van Mulken & Schellens, 2012)

Page 9: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

9

Computationele analyse

• Kan een computer sarcastische tweets herkennen?

• Sentimentanalyse• eWOM

Page 10: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

10

Sarcasme

• Linguïstische middelen om sarcasme te markeren (o.a.):– Hyperbool: prachtig weer– Understatement: best slecht weer– Verkleinwoord: lekker weertje– Uitroep: lekker weer!!!!!!!– Herhaling: regen, regen en nog eens regen– Kapitalen: LEKKER weer– Emoticons: lekker weer :-s(Burgers, Van Mulken & Schellens, 2012)

Page 11: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

11

Methode

• Kan een computer sarcastische tweets herkennen?

• Hashtags: expliciete markeerders (Chang, 2010)

• Hashtags die ‘omklappen’ markeren:– #sarcasme– #ironie– #cynisme– #not(Attardo, 2007; Kreuz & Roberts, 1993; Tsur, Davidov & Rappoport, 2010)

90% van de tweets met een van deze hashtags was inderdaad sarcastisch (Cohen’s Kappa .44)

48.992 3.285 404353.758 + 406.439

Page 12: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

12

Methode

Stap 1: de training• 406 duizend (Nederlandse) tweets met een van

de vier genoemde hashtags werd verzameld• Uit die tweets werd de hashtag verwijderd• Vervolgens gingen ze de computer in (machine

learning classifier)• Wellicht herkent de computer patronen in deze

sarcastische uitingen

Page 13: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

13

Methode

Stap 2: herkenning• Alle (Nederlandse) tweets van een reguliere dag:• 1 februari 2013: 2.246.904 tweets• 353 daarvan hadden een van de vier hashtags• (die hashtags werden weer verwijderd)

• Lukt het de computer om die 353 eruit te halen?

Page 14: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

14

Resultaten

Zijn de door de computer geïdentificeerde tweets sarcastisch of niet?

Page 15: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

15

Resultaten

• Annotatie van de top 250 geïdentificeerde tweets.

• Cohen’s Kappa: .53, average mutual F-score: .72

• 35% van de tweets was volgens tenminste 2 codeurs sarcastisch

Nou woehoe nederlands …Wort super gezellig #yeahWooow gezellig hier in huis geweldigGoh #gezellig

3 codeurs: sarcastisch 3 codeurs: niet sarcastisch 2 codeurs: sarcastisch 1 codeur: sarcastisch

Page 16: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

16

Resultaten

• 500 meest gebruikte tokens• Eerder onderzoek: veelbesproken onderwerpen

zoals tv-programma’s, school, het weer en ov(Liebrecht et al., 2013)

• Dit onderzoek: nauwelijks onderwerpen!

Page 17: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

17

Resultaten

• Veelvoorkomende tokens: – Intensifiers: geweldig, heerlijk, prachtig, super– Niet-geïntensiveerde positieve bijwoorden en

bijvoeglijke naamwoorden: interessant, leuk, slim– Uitroepen: jippie, yes, woehoe, wow– Niet-sarcastische hashtags voor meta-

communicatie: #humor, #lml, #grapje

Page 18: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

18

Resultaten

Trainingtweets Geannoteerde tweets

Page 19: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

19

Resultaten

Page 20: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

20

Conclusie

• Hashtags die sarcasme markeren zijn vrij betrouwbaar (90% vd tweets was sarcastisch)

• 307 van 353 (87%) sarcastische tweets zijn automatisch correct geïdentificeerd

• ‘In het wild’ is het lastig om letterlijke tweets van sarcastische tweets te onderscheiden (35%)

• Linguïstische markeerders zijn intensifiers, positieve bijwoorden en bijvoeglijke naamwoorden, uitroepen, andere hashtags

Page 21: Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

21

Christine Liebrecht @christineliebrFlorian Kunneman @flowian7Antal van den Bosch @avandenbosch Onderzoeksgroep @RadboudCLSLST

In progress