Gebruik van sociale media voor de statististiek - Piet Daas

31
Gebruik van social media voor de officiële statistiek: Dr. Piet J.H. Daas Senior-Methodoloog, Big Data onderzoek coördinator en Marco Puts, Martijn Tennekes, Marco Paragini, …. 22 Sept., NPSO Statistics Netherlands Een top-down (Big Data) aanpak

Transcript of Gebruik van sociale media voor de statististiek - Piet Daas

Page 1: Gebruik van sociale media voor de statististiek - Piet Daas

Gebruik van social media

voor de officiële statistiek:

Dr. Piet J.H. Daas

Senior-Methodoloog, Big Data onderzoek coördinatoren Marco Puts, Martijn Tennekes, Marco Paragini, ….

22 Sept., NPSO

Statistics

Netherlands

Een top-down (Big Data) aanpak

Page 2: Gebruik van sociale media voor de statististiek - Piet Daas

Overzicht

2

•Uitgangspunt

• Voorbeelden

• Rijp en groen door elkaar

• Afsluitende opmerkingen

Page 3: Gebruik van sociale media voor de statististiek - Piet Daas

Twee soorten data

Primaire data Secundaire data

Onze ‘eigen’ vragenlijstenData van ‘anderen’

- Administratieve bronnen

- Big Data

-zoals social media

CBS

3

Page 4: Gebruik van sociale media voor de statististiek - Piet Daas

Big Data onderzoek bij het CBS

– Exploratief, ‘data gedreven’

‐ Case studies: Verkeers’lussen’, Mobiele telefoon data, Sociale media

‐ Er is nog geen Big Data methodologie (werken we aan)

– Combinatie van IT, methodologie en inhoud (Data Science)

– Belangrijke onderwerpen voor de officiële statistiek

‐ Structurele toegang tot data krijgen

‐ Selectiviteit (representativiteit)

‐ Grote hoeveelheden data controleren en corrigeren

‐ Omvang data verminderen

(zonder informatieverlies)

4

Page 5: Gebruik van sociale media voor de statististiek - Piet Daas

5

Waarom social media?

– Nederlanders zijn erg actief op sociale media!

– Zo’n 70% volgens een recent onderzoek

– Snel beschikbaar

– Mogelijke bron van informatie over wat er leeft onder de

‘Nederlanders’ (actief op social media)

‐ Als aanvullende bron? Naast surveys en admin. data

– Zijn er nog meer mogelijkheden?

‐ Exploratief onderzoeken!

‐ lt

Map by Eric Fischer (via Fast Company)

Page 6: Gebruik van sociale media voor de statististiek - Piet Daas

Onderzoek naar social media op CBS

1. Relatie inhoud Twitter en thema’s CBS publicaties

2. Relatie sentiment in social media en consumenten

vertrouwen

3. ‘Meten’ andere emoties in social media berichten

4. Sociale samenhang en Twitter (in specifieke regio)

5. Selectiviteit: mogelijkheden ‘feature extractie’ van

Twitter

6

Page 7: Gebruik van sociale media voor de statististiek - Piet Daas

Onderwerpen Twitter

Bijdrage (%)

0 10 20 30 40 50

Thema's

Overige

Media

Sport

Cultuur/events

Vakantie

Vrije tijd

Vervoer

Veiligheid

Politiek

Onderwijs

Gezondheid

ICT

Weer

Milieu

Economie

Wonen

Relaties

Werk

1) Onderwerpen in NLTwitterberichten

(46%)

(10%)

(7%)

(3%)

(5%)

12 miljoen berichten van 330.000 users met locatie in NL7

Page 8: Gebruik van sociale media voor de statististiek - Piet Daas

8

2) Sentiment in NL Sociale media

– De gegevens

‐ NL bedrijf dat continue ALLE publieke Nederlandstalige sociale media

berichten verzameld

‐ Dataset van meer dan 4 miljard berichten!

• Vanaf 2010 tot heden

• Zo’n 3-4 miljoen nieuwe berichten per dag

– Over het bepalen van het sentiment

‐ ‘Bag of words’ aanpak

• Lijst van NL-woorden en hun sentiment

• Additionele lijst van sociale media specifieke ‘woorden’ (‘FAIL’, ‘LOL’, etc.)

‐ Overall score bepaald het uiteindelijke sentiment

• Is positief, negatief of neutraal

‐ Gemiddelde sentiment per periode (dag / week / maand)

• (#positief - #negatief)/#totaal * 100%

Page 9: Gebruik van sociale media voor de statististiek - Piet Daas

Dag, week, maand sentiment

9

Page 10: Gebruik van sociale media voor de statististiek - Piet Daas

Sentiment per platform

(~10%) (~80%)

Page 11: Gebruik van sociale media voor de statististiek - Piet Daas

Table 1. Social media messages properties for various platforms and their correlation with consumer confidence

Correlation coefficient of

Social media platform Number of social Number of messages as monthly sentiment index and

media messages1

percentage of total (%) consumer confidence ( r )2

All platforms combined 3,153,002,327 100 0.75 0.78

Facebook 334,854,088 10.6 0.81* 0.85*

Twitter 2,526,481,479 80.1 0.68 0.70

Hyves 45,182,025 1.4 0.50 0.58

News sites 56,027,686 1.8 0.37 0.26

Blogs 48,600,987 1.5 0.25 0.22

Google+ 644,039 0.02 -0.04 -0.09

Linkedin 565,811 0.02 -0.23 -0.25

Youtube 5,661,274 0.2 -0.37 -0.41

Forums 134,98,938 4.3 -0.45 -0.49

1period covered June 2010 untill November 20132confirmed by visual inspecting scatterplots and additional checks (see text)

*cointegrated

Platform specifieke resultaten

11

Page 12: Gebruik van sociale media voor de statististiek - Piet Daas

Schematisch overzicht

12

Vorige maand Maand

Consumenten Vertr.

Publicatie datum (~20e)

Social media sentiment

Dag 1-7 Dag 8-14 Dag 15-21 Dag 22-28

Vorige maand Huidige maandDag 1-7 Dag 8-14 Dag 15-21 Dag 22-28

Sentiment

Page 13: Gebruik van sociale media voor de statististiek - Piet Daas

Resultaten verschillende perioden

13

Consumenten Vertr. Facebook Facebook Facebook

+ Twitter * Twitter

0.81* 0.84* 0.86*

0.85* 0.87* 0.89*

0.82 0.85 0.87

0.82* 0.85* 0.89*

0.79* 0.82* 0.84*

0.79 0.83 0.84

0.82* 0.86* 0.89*

0.79* 0.83* 0.87*

0.75* 0.80* 0.81*

LOOCV resultaten*cointegratie

Page 14: Gebruik van sociale media voor de statististiek - Piet Daas

Uiteindelijke resultaten

14

– Correlatie en cointegratie

‐ 1e ‘week’ van Consumenten Vertrouwen geeft meestal 70% respons

‐ Beste correlatie en cointegratie met het sentiment van de 2e week

• Highest correlation 0.93* (all Facebook * specific word filtered Twitter)

– Granger causaliteit

‐ Veranderingen in Consumenten Vertrouwen lopen voor op veranderingen in

het Sociale media sentiment

‐ Voor alle combinaties!

– Voorspellen?

‐ Iets beter dan ‘random chance’

‐ Beste resultaat voor de 4e week v/d maand

Page 15: Gebruik van sociale media voor de statististiek - Piet Daas

‘Sentiment’ indicator voor NL (beta-versie)

15

Gebaseerd op het gemiddelde sentiment van publieke NL-talige Facebook en Twitter berichten

Page 16: Gebruik van sociale media voor de statististiek - Piet Daas

3) Basis emoties in social media

16

Enkele basis emoties

Vreugde

Verdriet

Woede

Angst

Tederheid

Opgewonden

Page 17: Gebruik van sociale media voor de statististiek - Piet Daas

Eerste ‘ruwe’ resultaten

17

Page 18: Gebruik van sociale media voor de statististiek - Piet Daas

4) Sociale samenhang en social media

– Wat zijn de mogelijkheden van social media om sociale

samenhang te bestuderen?

– Studie naar een gemeente in Limburg

‐ Samen met Hans Schmeets

– Verzamelen van actieve Twittergebruikers in die

gemeente

‐ In totaal ~2000 accounts

‐ Locatie van de gebruikers (dorp)

‐ Onderlinge relatie bepaald (volgers/vrienden)

‐ Nog te doen: Onderwerpen tweets

18

Page 19: Gebruik van sociale media voor de statististiek - Piet Daas

Eerste resultaten: netwerk van ‘vrienden’

19

Page 20: Gebruik van sociale media voor de statististiek - Piet Daas

5) Selectiviteit: kenmerken Twitteraars

– Op Twitter is slechts een selectie van alle Nederlanders

actief

– Willen we deze bron kunnen gebruiken dan moeten we

meer van de gebruikers afweten

– Dit kan o.a. door bepalen van (achtergrond)kenmerken

– Zoals geslacht, leeftijd, inkomen, opleidingsniveau

etc.

– Wat zijn de mogelijkheden?

‐ Voor geslacht

20

Page 21: Gebruik van sociale media voor de statististiek - Piet Daas

21

1)Naam

2) Korte bio

3) Inhoud

berichten

4) Foto

Page 22: Gebruik van sociale media voor de statististiek - Piet Daas

Resultaten van een subset

– Uit een lijst van Twitter gebruikers (~330.000)– Een random sample van 1000 unieke id’s geselecteerd

– Hiervan bleek:‐ 844 profielen bestonden nog

• 844 hadden een naam• 583 hadden een korte bio• 473 hadden ‘getweet’• 804 hadden een ‘niet‐standaard’ foto

• 409 Mannen (49%)• 282 Vrouwen (33%)• 153 ‘Overige’ (18%)

• bedrijven, organisaties, hond, katten, ‘bots’..

22

Standaard Twitter foto

Page 23: Gebruik van sociale media voor de statististiek - Piet Daas

Geslacht bepalen: 1) Voornaam

23

– Hebben de ‘Voornamenbank’ website gebruikt (Meertens instituut)– Score tussen 0 en 1 (vrouw – man); 676 v/d 844 (80%) namen kwamen voor – Onbekende namen -1 (vaak bedrijven/organisaties)

Page 24: Gebruik van sociale media voor de statististiek - Piet Daas

24

Geslacht bepalen: 2) Korte bio

– Als er een korte bio omschrijving is

‐ Best wel wat mensen vermelden hun ‘positie’ in de familie• Mother, father, papa, mama, ‘son of’, etc.

‐ Soms zelfs hun beroep (‘studente’)

‐ Voor 155 v/d 583 (27%) was hun geslacht hieruit af te leiden

‐ Je moet zowel naar Nederlandse en Engels termen zoeken

Page 25: Gebruik van sociale media voor de statististiek - Piet Daas

Geslacht bepalen: 3) Inhoud Tweets

– Samen met Universiteit Twente (Dong Nguyen)– Machine learning aanpak die geslacht specifieke schrijfstijl kan herkennen ‐ Alleen Nederlandstalige berichten!

‐ 437 v/d 473 (92%) personen hadden tweets die bruikbaar waren

Page 26: Gebruik van sociale media voor de statististiek - Piet Daas

Geslacht bepalen 4) Profiel foto

– OpenCV software gebruikt om foto's te bewerken1) Gezichten herkennen2) Standaardiseren van gezichten (uitknippen, herschalen en roteren)3) Gezichten classificeren a.d.h.v. geslacht

- op 603 v/d 804 (75%) profiel foto’s werden 1 of meer gezichten herkend

1

23

Page 27: Gebruik van sociale media voor de statististiek - Piet Daas

Geslacht bepalen: algemene resultaten

27

Diagnostic Odds Ratio =

(TP/FN) / (FP/TN)

random guessing

log(DOR) = 0

‐ Resultaten van meerdere methoden

• Hoe combineer je die het best?

• Ook rekening houden met efficiëntie v/d methode

Diagnostic Odds

Ratio (log)

Voornaam 6.41

Korte bio 3.50

Inhoud Tweets 2.36

Foto (gezichten) 0.72

Page 28: Gebruik van sociale media voor de statististiek - Piet Daas

Afsluitende opmerkingen

– Social media is een erg lastige bron om te analyseren

– Bevat veel ‘ruis’

– Social media is een secundaire bron

‐ Hierdoor moet je anders denken/werken

• kwaliteit verbeteren (ruis onderdrukken, aggregeren) gebruik

maken van de grote hoeveelheden aan data

– Teksten en foto’s analyseren is een vak apart

‐ Zelf expertise opdoen & samenwerken

– Interessante resultaten maar

‐ het is relatief nieuw terrein, dus nog veel uit te zoeken

– We zien mogelijkheden voor de officiële statistiek maar

‐ Is het bureau er al aan toe?

28

Page 29: Gebruik van sociale media voor de statististiek - Piet Daas

Big Data !!!

29

Page 30: Gebruik van sociale media voor de statististiek - Piet Daas

The Future

30

The

future

of

statistics

looks

BIG

Page 31: Gebruik van sociale media voor de statististiek - Piet Daas

Bedankt voor u aandacht !@pietdaas