Gebruik van sociale media voor de statististiek - Piet Daas

download Gebruik van sociale media voor de statististiek - Piet Daas

of 31

  • date post

    11-Jan-2017
  • Category

    Documents

  • view

    217
  • download

    1

Embed Size (px)

Transcript of Gebruik van sociale media voor de statististiek - Piet Daas

  • Gebruik van social media

    voor de officile statistiek:

    Dr. Piet J.H. Daas

    Senior-Methodoloog, Big Data onderzoek cordinatoren Marco Puts, Martijn Tennekes, Marco Paragini, .

    22 Sept., NPSO

    Statistics

    Netherlands

    Een top-down (Big Data) aanpak

  • Overzicht

    2

    Uitgangspunt

    Voorbeelden

    Rijp en groen door elkaar

    Afsluitende opmerkingen

  • Twee soorten data

    Primaire data Secundaire data

    Onze eigen vragenlijstenData van anderen

    - Administratieve bronnen

    - Big Data

    -zoals social media

    CBS

    3

  • Big Data onderzoek bij het CBS

    Exploratief, data gedreven

    Case studies: Verkeerslussen, Mobiele telefoon data, Sociale media

    Er is nog geen Big Data methodologie (werken we aan)

    Combinatie van IT, methodologie en inhoud (Data Science)

    Belangrijke onderwerpen voor de officile statistiek

    Structurele toegang tot data krijgen

    Selectiviteit (representativiteit)

    Grote hoeveelheden data controleren en corrigeren

    Omvang data verminderen

    (zonder informatieverlies)

    4

  • 5

    Waarom social media?

    Nederlanders zijn erg actief op sociale media!

    Zon 70% volgens een recent onderzoek

    Snel beschikbaar

    Mogelijke bron van informatie over wat er leeft onder de

    Nederlanders (actief op social media)

    Als aanvullende bron? Naast surveys en admin. data

    Zijn er nog meer mogelijkheden?

    Exploratief onderzoeken!

    lt

    Map by Eric Fischer (via Fast Company)

  • Onderzoek naar social media op CBS

    1. Relatie inhoud Twitter en themas CBS publicaties

    2. Relatie sentiment in social media en consumenten

    vertrouwen

    3. Meten andere emoties in social media berichten

    4. Sociale samenhang en Twitter (in specifieke regio)

    5. Selectiviteit: mogelijkheden feature extractie van

    Twitter

    6

  • Onderwerpen Twitter

    Bijdrage (%)

    0 10 20 30 40 50

    Thema's

    Overige

    Media

    Sport

    Cultuur/events

    Vakantie

    Vrije tijd

    Vervoer

    Veiligheid

    Politiek

    Onderwijs

    Gezondheid

    ICT

    Weer

    Milieu

    Economie

    Wonen

    Relaties

    Werk

    1) Onderwerpen in NLTwitterberichten

    (46%)

    (10%)

    (7%)

    (3%)

    (5%)

    12 miljoen berichten van 330.000 users met locatie in NL7

  • 8

    2) Sentiment in NL Sociale media

    De gegevens

    NL bedrijf dat continue ALLE publieke Nederlandstalige sociale media

    berichten verzameld

    Dataset van meer dan 4 miljard berichten!

    Vanaf 2010 tot heden

    Zon 3-4 miljoen nieuwe berichten per dag

    Over het bepalen van het sentiment

    Bag of words aanpak

    Lijst van NL-woorden en hun sentiment

    Additionele lijst van sociale media specifieke woorden (FAIL, LOL, etc.)

    Overall score bepaald het uiteindelijke sentiment

    Is positief, negatief of neutraal

    Gemiddelde sentiment per periode (dag / week / maand)

    (#positief - #negatief)/#totaal * 100%

  • Dag, week, maand sentiment

    9

  • Sentiment per platform

    (~10%) (~80%)

  • Table 1. Social media messages properties for various platforms and their correlation with consumer confidence

    Correlation coefficient of

    Social media platform Number of social Number of messages as monthly sentiment index and

    media messages1

    percentage of total (%) consumer confidence ( r )2

    All platforms combined 3,153,002,327 100 0.75 0.78

    Facebook 334,854,088 10.6 0.81* 0.85*

    Twitter 2,526,481,479 80.1 0.68 0.70

    Hyves 45,182,025 1.4 0.50 0.58

    News sites 56,027,686 1.8 0.37 0.26

    Blogs 48,600,987 1.5 0.25 0.22

    Google+ 644,039 0.02 -0.04 -0.09

    Linkedin 565,811 0.02 -0.23 -0.25

    Youtube 5,661,274 0.2 -0.37 -0.41

    Forums 134,98,938 4.3 -0.45 -0.49

    1period covered June 2010 untill November 20132confirmed by visual inspecting scatterplots and additional checks (see text)

    *cointegrated

    Platform specifieke resultaten

    11

  • Schematisch overzicht

    12

    Vorige maand Maand

    Consumenten Vertr.

    Publicatie datum (~20e)

    Social media sentiment

    Dag 1-7 Dag 8-14 Dag 15-21 Dag 22-28

    Vorige maand Huidige maandDag 1-7 Dag 8-14 Dag 15-21 Dag 22-28

    Sentiment

  • Resultaten verschillende perioden

    13

    Consumenten Vertr. Facebook Facebook Facebook

    + Twitter * Twitter

    0.81* 0.84* 0.86*

    0.85* 0.87* 0.89*

    0.82 0.85 0.87

    0.82* 0.85* 0.89*

    0.79* 0.82* 0.84*

    0.79 0.83 0.84

    0.82* 0.86* 0.89*

    0.79* 0.83* 0.87*

    0.75* 0.80* 0.81*

    LOOCV resultaten*cointegratie

  • Uiteindelijke resultaten

    14

    Correlatie en cointegratie

    1e week van Consumenten Vertrouwen geeft meestal 70% respons

    Beste correlatie en cointegratie met het sentiment van de 2e week

    Highest correlation 0.93* (all Facebook * specific word filtered Twitter)

    Granger causaliteit

    Veranderingen in Consumenten Vertrouwen lopen voor op veranderingen in

    het Sociale media sentiment

    Voor alle combinaties!

    Voorspellen?

    Iets beter dan random chance

    Beste resultaat voor de 4e week v/d maand

  • Sentiment indicator voor NL (beta-versie)

    15

    Gebaseerd op het gemiddelde sentiment van publieke NL-talige Facebook en Twitter berichten

  • 3) Basis emoties in social media

    16

    Enkele basis emoties

    Vreugde

    Verdriet

    Woede

    Angst

    Tederheid

    Opgewonden

  • Eerste ruwe resultaten

    17

  • 4) Sociale samenhang en social media

    Wat zijn de mogelijkheden van social media om sociale

    samenhang te bestuderen?

    Studie naar een gemeente in Limburg

    Samen met Hans Schmeets

    Verzamelen van actieve Twittergebruikers in die

    gemeente

    In totaal ~2000 accounts

    Locatie van de gebruikers (dorp)

    Onderlinge relatie bepaald (volgers/vrienden)

    Nog te doen: Onderwerpen tweets

    18

  • Eerste resultaten: netwerk van vrienden

    19

  • 5) Selectiviteit: kenmerken Twitteraars

    Op Twitter is slechts een selectie van alle Nederlanders

    actief

    Willen we deze bron kunnen gebruiken dan moeten we

    meer van de gebruikers afweten

    Dit kan o.a. door bepalen van (achtergrond)kenmerken

    Zoals geslacht, leeftijd, inkomen, opleidingsniveau

    etc.

    Wat zijn de mogelijkheden?

    Voor geslacht

    20

  • 21

    1)Naam

    2) Korte bio

    3) Inhoud

    berichten

    4) Foto

  • Resultaten van een subset

    Uit een lijst van Twitter gebruikers (~330.000) Een random sample van 1000 unieke ids geselecteerd

    Hiervan bleek: 844 profielen bestonden nog

    844 hadden een naam 583 hadden een korte bio 473 hadden getweet 804 hadden een nietstandaard foto

    409 Mannen (49%) 282 Vrouwen (33%) 153 Overige (18%)

    bedrijven, organisaties, hond, katten, bots..

    22

    Standaard Twitter foto

  • Geslacht bepalen: 1) Voornaam

    23

    Hebben de Voornamenbank website gebruikt (Meertens instituut) Score tussen 0 en 1 (vrouw man); 676 v/d 844 (80%) namen kwamen voor Onbekende namen -1 (vaak bedrijven/organisaties)

  • 24

    Geslacht bepalen: 2) Korte bio

    Als er een korte bio omschrijving is

    Best wel wat mensen vermelden hun positie in de familie Mother, father, papa, mama, son of, etc.

    Soms zelfs hun beroep (studente)

    Voor 155 v/d 583 (27%) was hun geslacht hieruit af te leiden

    Je moet zowel naar Nederlandse en Engels termen zoeken

  • Geslacht bepalen: 3) Inhoud Tweets

    Samen met Universiteit Twente (Dong Nguyen) Machine learning aanpak die geslacht specifieke schrijfstijl kan herkennen Alleen Nederlandstalige berichten!

    437 v/d 473 (92%) personen hadden tweets die bruikbaar waren

  • Geslacht bepalen 4) Profiel foto

    OpenCV software gebruikt om foto's te bewerken1) Gezichten herkennen2) Standaardiseren van gezichten (uitknippen, herschalen en roteren)3) Gezichten classificeren a.d.h.v. geslacht

    - op 603 v/d 804 (75%) profiel fotos werden 1 of meer gezichten herkend

    1

    23

  • Geslacht bepalen: algemene resultaten

    27

    Diagnostic Odds Ratio =

    (TP/FN) / (FP/TN)

    random guessing

    log(DOR) = 0

    Resultaten van meerdere methoden

    Hoe combineer je die het best?

    Ook rekening houden met efficintie v/d methode

    Diagnostic Odds

    Ratio (log)

    Voornaam 6.41

    Korte bio 3.50

    Inhoud Tweets 2.36

    Foto (gezichten) 0.72

  • Afsluitende opmerkingen

    Social media is een erg lastige bron om te analyseren

    Bevat veel ruis

    Social media is een secundaire bron

    Hierdoor moet je anders denken/werken

    kwaliteit verbeteren (ruis onderdrukken, aggregeren) gebruik

    maken van de grote hoeveelheden aan data

    Teksten en fotos analyseren is een vak apart

    Zelf expertise opdoen & samenwerken

    Interessante resultaten maar

    het is relatief nieuw terrein, dus nog veel uit te zoeken

    We zien mogelijkheden voor de officile statistiek maar

    Is het bureau er al aan toe?

    28

  • Big Data !!!

    29

  • The Future

    30

    The

    future

    of

    statistics

    looks

    BIG