The Voice of Twitter

36
1 The Voice of #Twitter Tweets over Nederlandse Televisie in september 2014 Leila Essanoussi Friso Leder David de Wied Koen Mooij Begeleider: Daniela van Geenen

description

Onderzoek 'The Voice of Twitter' van studenten Utrecht Data School naar de relatie tussen tv-programma's en Twittergedrag van kijkers.

Transcript of The Voice of Twitter

Page 1: The Voice of Twitter

1

The Voice of #Twitter

Tweets over Nederlandse Televisie in september 2014

Leila Essanoussi

Friso Leder David de Wied

Koen Mooij Begeleider: Daniela van Geenen

Page 2: The Voice of Twitter

2

Voorwoord Dankzij Utrecht Data School (UDS) en Buzzcapture hebben we interessante verbanden bloot kunnen leggen tussen verschillende  televisieprogramma’s  met  Twitter. Daarom willen wij als team graag de mensen van de Utrecht Data School, waaronder Mirko Tobias Schäfer, Thomas Boeschoten, Daniela van Geenen, Karin van Es, James Dyer en Irene Westra bedanken voor hun suggesties, enthousiasme en samenwerking. Ook bedanken we graag Buzzcapture voor het ter beschikking stellen van hun data en software en in het bijzonder Jaap van Zessen voor zijn expertise, inspiratie en technische ondersteuning.

Page 3: The Voice of Twitter

3

Samenvatting Het  doel  van  dit  onderzoek  is  verbanden  tussen  verschillende  televisieprogramma’s  te  ontdekken  op  basis  van  tweets. Door middel van explorerend data-onderzoek  is  er  gekeken  naar  welke  televisieprogramma’s  op  een  avond  met elkaar in verband gebracht  kunnen  worden.  Om  dit  te  bereiken,  zijn  de  best  bekeken  televisieprogramma’s  van  Nederland in september 2014 in kaart gebracht, inclusief bijbehorende hashtags. Op basis van de hashtags is over een periode van vier weken een gebruikersgroep vastgesteld. Binnen deze groep en periode hebben we bekeken welke  hashtags  nog  meer  populair  waren  om  zeker  te  zijn  dat  we  geen  televisieprogramma’s  over  het  hoofd  zagen.  Zo  kwamen  we  uiteindelijk  bij  32  televisieprogramma’s.  Alle  tweets  over  deze  televisieprogramma’s  hebben  we  verzameld,  inclusief  metadata.  Ook  hebben  we  gekeken  naar  de  inhoud  van  de  televisieprogramma’s  en  in  het  bijzonder naar de mediastrategieën die ze toepassen. Vooral het aansporen tot gebruik van Twitter was voor ons relevant om eventuele kleuring en bijzondere uitschieters te kunnen verklaren.

Page 4: The Voice of Twitter

4

Inhoudsopgave 1.0 Inleiding 5 2.0 Theoretisch kader 6 3.0 Methode 9 4.0 Data 12 5.0 Analyse en resultaten 18 6.0 Conclusie 26 7.0 Discussie 27 8.0 Literatuur 28 9.0 Bijlagen 29

Page 5: The Voice of Twitter

5

1.0 Inleiding Miljoenen mensen nemen deel aan de second screen-ervaring - tv kijken en tegelijkertijd een pc, laptop, smartphone of tablet gebruiken om op social media te laten weten wat ze vinden van wat ze zien op tv (Dumenco, 2012). Deze vorm van sociale interactie wordt ook wel social tv genoemd (Hill & Benton, 2012) en maakt deel uit van televisiestrategieën. The Voice of Holland betrekt social media bijvoorbeeld heel expliciet in de uitzendingen. Hashtags en tweets komen in beeld en de app die bij het programma hoort wordt regelmatig getoond en genoemd. Steeds meer programma's gebruiken deze kruisbestuiving van media. Dit levert enorme hoeveelheden aan data op rondom televisieprogramma’s  en  hun  kijkers.  De  nieuwe  mogelijkheden van televisie in combinatie met social media zijn leuk voor de kijkers, nog mooier voor de tv-producenten en helemaal geweldig voor de adverteerders, maar wat kan het voor ons als dataonderzoekers betekenen? 1.1 Aanleiding Het onderzoeksproject Utrecht Data School houdt zich bezig met het samenbrengen van universitaire kennis, studenten en opdrachtgevers op het gebied van data-onderzoek. In deze vierde editie kregen vijf teams opdrachten van verschillende opdrachtgevers. Het doel was om binnen tien weken data gerelateerd onderzoek te doen en de resultaten te presenteren op een symposium en in een rapport. Dit rapport is het resultaat van een van deze projecten.

In samenwerking met UDS en externe opdrachtgever Buzzcapture zijn we gaan kijken naar data rondom televisieprogramma’s  vanuit  Twitter. Dat Twitter zich leent voor data onderzoek hadden Thomas Boeschoten van UDS en Jaap van Zessen van Buzzcapture al laten zien. Met name de zoektocht naar de Mol in Wie is de Mol? en de afvallers van Expeditie Robinson gaven een indruk van de mogelijkheden van Twitter in combinatie met televisie. Het vermoeden van Jaap dat er veel meer met Twitter over televisie te zeggen valt, is vervolgens door ons bevestigd. De expertise en professionele ervaring van Jaap op dit vlak leverde de inspiratie voor dit onderzoek. Zo kwamen we in dialoog met hem tot de volgende vraag: Wat laat Twitter zien over televisiekijkend Nederland?

Page 6: The Voice of Twitter

6

2.0 Theoretisch Kader In dit theoretisch kader zetten we de belangrijkste concepten binnen ons onderzoek in perspectief. We bieden hiermee de academische onderbouwing en context voor hoe we deze begrippen gebruiken in de rest van het rapport. 2.1 Totstandkoming en beschikbaarheid van data Farida  Vis  (2013)  wijst  in  ‘A  critical  reflection  on Big  Data:  Considering  APIs,  researchers  and  tools  as  data  makers’  op  twee soorten tekortkomingen. De eerste categorie is dat data er niet gewoon is, maar gemaakt of tenminste geselecteerd moet worden. Zelfs bij een relatief eenvoudige bron van data als Twitter komen er strategieën en keuzes bij kijken als het gaat om hoe de data verzameld wordt. De keuzes zullen het resultaat beïnvloeden. Daarom worden vragen als wie de data verzameld heeft, met welke invalshoek, op welke manier en met welke techniek, is relevant voor de zeggenschap van de resultaten. De tweede categorie is data-specifieke ruis, zoals duplicaten in een dataset. Hoewel deze ruis een onderzoek kan verstoren, is niets a priori ruis en vraagt het om oplettendheid van onderzoekers en kennis van hun methode en doelen.

Vis geeft aan dat Twitter als data-leverancier behoefte heeft bij een (ogenschijnlijk) rijkere selectie aan data, maar dat de kwalitatieve data hiermee niet toegenomen hoeft te zijn. Boyd en Crawford (2012) bespreken het gevaar van kwantificatie  onder  “bigger  data  are  not  always  better  data.”  Correlaties  lijken  sterker  bij  grotere  datasets, maar dit kan ook een teken zijn dat de dataset nog irrelevante informatie of ruis bevat. Voor big social data kunnen we vaak alleen terecht bij grote social media, waarbij nieuwe factoren de selectie en filtering van de data bepalen.

Boyd en Crawford (2012) stellen met betrekking tot beschikbaarheid van data dat de beperkte beschikbaarheid van specifieke data het meest voor de hand liggend is. Selectief vrijgeven door bedrijven of – onbedoeld – selectieve beschikbaarheid als gevolg van technologische drempels kan een digital divide creëren, waarschuwen zij. Dit staat de herhaalbaarheid van wetenschappelijk onderzoek in de weg. Manovich (2011) wijst in lijn hiermee op het feit dat bekendheid met relevante technologie per vakgebied zal verschillen, wat ongelijke barrières creëert in de mogelijkheden van wetenschappelijk onderzoek. De kanttekening die Eisner (1997) maakt, is aan het bovenstaande verbonden:  wanneer  de  data  beschikbaar  maar  “onleesbaar”  is  voor  het  grote  publiek,  en  alleen de interpretatie, vertaling of representatie voor hen bestaat, komt een interpreterende macht te liggen in de handen van een onderzoeker die bezig zou moeten zijn met data-onderzoek.

In ons onderzoek hebben we te maken met data die we als ruis ervaren, en om de invloed hiervan te beperken hebben we kwaliteit van de data geprobeerd te vergroten door kwalitatieve analyse en gedeelten van de data op basis hiervan niet te gebruiken. 2.2 Twitter Inzicht hebben in het gebruikersbestand van Twitter biedt belangrijke context aan de vorming van hypotheses en het trekken van conclusies op basis van de data. Kennis van de demografie van Twitter vult de gaten met betrekking tot welke personen over- en ondervertegenwoordigd zijn. Dit aspect van over- en ondervertegenwoordiging is van belang omdat het van grote invloed is op zowel inhoud als gebruik van het platform Twitter. Er is nauwelijks gepubliceerd Nederlands onderzoek te vinden. Onderzoek dat wel beschikbaar is, is schaars, inconsistent en heeft voornamelijk betrekking op het Amerikaanse gebruikersbestand. Daarnaast zijn voor de dataverzameling vaak experimentele onderzoeksmethoden en -algoritmes gebruikt.

Mislove, Lehmann en Ahn (2011) hebben de data van 54 miljoen Amerikanen geanalyseerd en geprobeerd de geografische locatie, gender-informatie en etniciteit vast te stellen op basis van publiek toegankelijke profielinformatie. De belangrijkste vondst in de geografische data was dat de meer dichtbevolkte gebieden een grotere representatie hadden in het Twitter gebruikersbestand (Mislove et al, 2011). De gender van de gebruikers is bepaald aan de hand van de voornaam waarvoor een algoritme werd gebruikt. In 64% van de gevallen heeft de

Page 7: The Voice of Twitter

7

algoritme een voornaam kunnen vinden, hiervan was 72% man. Uit een eerder telefonisch onderzoek van Smith en Rainie (2010) bleek echter dat 7% van de mannelijke internetgebruikers op Twitter zitten, terwijl 10% van de vrouwelijke internetgebruikers op Twitter zitten. Deze interessante tegenstelling kan een indicatie zijn voor een fout in één of beide onderzoeken.

Hoewel deze resultaten gebaseerd zijn op data uit de Verenigde Staten, kunnen deze resultaten tot op zekere hoogte gebruikt worden om iets te zeggen over Nederlandse Twitteraars. In 2008 hebben Kulshrestha, Kooti, Nikravesh en Gummadi onderzoek gedaan naar de geografische distributie van het Twitternetwerk. Een van hun bevindingen was dat de Twitterpopulatie per land sterk correleert met de Human Development Index. Hierbij scoort de V.S. 0.914 en Nederland 0.915. Echter, grote verschillen in productie, consumptie, import en export van tweets tonen aan dat voorzichtigheid is geboden bij het deduceren van de conclusies. 2.3 Social tv In de inleiding werd al genoemd dat kijkers gedurende uitzendingen van hedendaagse televisieprogramma's worden aangespoord om met andere kijkers te communiceren. Volgens McPerson et al (2012) is Twitter een medium is dat de traditie van het bespreken van televisiprogramma’s  voortzet  met  real-time mogelijkheden.

Zoals eerder genoemd, is The Voice een goed voorbeeld van een televisieprogramma waar duidelijk een televisiestrategie wordt ingezet. Ten eerste worden er tijdens de uitzendingen tweets op het beeldscherm getoond. Een conclusie die Hill en Benton trekken, is dat het tonen van een tweet tijdens een uitzending het aantal retweets vergroot (2012). Ten tweede verhoogt het tonen van hashtags tijdens een uitzending het aantal tweets gerelateerd aan dat televisieprogramma. De conclusie van Hill en Benton is dat een hashtag een brug vormt voor mensen die in hetzelfde televisieprogramma zijn geïnteresseerd: zij kunnen makkelijker erover praten en maken tegelijkertijd reclame voor het televisieprogramma (2012).

In een onderzoek naar Twittergebruik gedurende een uitzending van Glee in de Verenigde Staten, gaven sommige kijkers aan dat zij meer gemotiveerd waren om de uitzending live te bekijken vanwege de mogelijkheid om live te kunnen Twitteren (McPherson et al., 2012). Tevens noemden de kijkers dat live-Twitteren "a social, interactive aspect" toevoegt aan het kijken van het televisieprogramma. Ondanks dat kijkers fysiek individueel naar de uitzending kijken, draagt het live-Twitteren bij aan het idee van een gemeenschap waarbij leden in grote getallen simultaan samen naar de uitzending kijken. Hill en Benton (2012) beschrijven dat het doel van social tv is om mensen te motiveren live televisie te kijken zodat zij kunnen deelnemen aan 'that specific social experience'. Deze nieuwe vorm van communicatie, namelijk live-Twitteren, wordt ook wel 'mass self-communication' genoemd (Courtois & D'heer, 2012). Hiermee in lijn ligt Twitter als een vorm van een virtuele lounge waarbij actief publiek van bepaalde televisieprogramma's verbonden zijn op onovertroffen schaal en waarmee de activiteiten van dit publiek worden versterkt (Harrington, Highfield & Bruns, 2012).

Een voorbeeld van Twitter als virtuele lounge is een opvallend resultaat uit het eerder genoemde Glee onderzoek: live-Twitteren wordt door een aantal kijkers ervaren als het hebben van een gesprek. Het blijkt echter dat kijkers voorrang geven aan het plaatsen van eigen tweets en minder geïnteresseerd zijn in het lezen van en het reageren op tweets van andere kijkers (McPherson et al., 2012).

In 2011 gaven Greer en Ferguson aan dat de televisie-industrie moet zien mee te groeien met de groeiende populariteit van het bekijken van televisieprogramma's via andere (mobiele) kanalen. Een jaar later blijkt echter uit een onderzoek naar second screen dat kijkers zich in mindere mate bewust zijn van het bestaan van second screen apps; met name kijkers die tijdens het televisie kijken geen gebruikmaken van andere 'schermen' als een tablet of smartphone (Courtois & D'heer, 2012). Indien kijkers zich wel bewust zijn van het bestaan van second screen apps, zouden zij alsnog via hun televisiebeeldscherm herinnerd moeten worden aan deze apps door de televisieprogramma's die second screen ondersteunen, aldus Courtois en D'heer (2012). Kijkers die gedurende het televisie kijken (nog) geen gebruikmaken van second screen blijken niet door second screen apps gemotiveerd te zijn om dit wel te gaan doen; de kans is groter dat er gebuik wordt gemaakt van social media als Facebook dan second screen apps (Courtois & D'heer, 2012). 2.4 Visualisatie en representatie

Page 8: The Voice of Twitter

8

Bollier en Firestone (2010) benoemen visualisatie als sense-making tool – dit doet direct denken aan Vis. Wanneer data-visualisatie wordt ingezet op een manier waarop het ook vragen op blijft werpen, is het simpel gezegd een goed middel. Dit contrasteert enigszins met data-visualisatie als sense-making tool – het is evengoed een question-raising tool – en tussen deze twee invullingen moet een balans bestaan. Belangrijk hierbij is dat visualisatie echter nooit een enkele methode of tool is – er zijn vele vormen, elk met eigen gevaren en waarde.

Page 9: The Voice of Twitter

9

3.0 Methode Om antwoord te geven op de vraag in hoeverre er inzichten te ontwikkelen zijn over de verbanden tussen Nederlandse televisieprogramma’s  in  door  middel  van  tweets,  is  data  nodig.  Tweets  zijn  relatief  eenvoudig  te  downloaden,  als  je  weet welke je zoekt. De praktische en wetenschappelijke overwegingen voor de selectie en verwerking van de data staan hieronder samengevat. 3.1  Selectie  onderzoekperiode  en  televisieprogramma’s Het begin van het onderzoek viel samen met het begin van een nieuw televisieseizoen. Er is gekozen voor een kader van de eerste vier weken van dat nieuwe seizoen, dit kader past goed in de scope van dit onderzoek. Dat wil zeggen dat het onderzoek gebaseerd is op data uit de periode van 01-09-2014 tot en met 29-09-2014. De reden dat er nog een extra dag is opgenomen in deze termijn, heeft te maken met hoe het gesprek op Twitter over een uitzending nog door kan lopen in de avond tot voorbij middernacht. Deze extra dag is dus enkel relevant voor tweets over televisieprogramma’s  van  zondagavond  28-09-2014.

Een potentieel interessant resultaat zijn de relaties tussen programma’s  door  een  overlap  in  unieke  kijkers,  wat eventueel zou kunnen duiden op een soort doelgroep. Nog interessanter zou zijn om relaties te ontdekken tussen televisieprogramma’s  van  een  specifieke  avond  in  de  week  door  te  kijken  naar  unieke  gebruikers  van  Twitter, om zo ‘zapgedrag’   op   de   avond   zelf   in   kaart   te   brengen.   Om   dit   te   kunnen   onderzoeken,   is   gekozen   voor   relatief   veel  televisieprogramma’s  ten  opzichte  van  de  onderzoekperiode.  Om  per  televisieprogramma  zeker  te  zijn  van  voldoende  data, waren hoge kijkcijfers het selectiecriterium. Op basis van de kijkcijfers van Stichting Kijkonderzoek (www.kijkonderzoek.nl)  is  bepaald  welke  dertig  televisieprogramma’s  het  best  bekeken  zijn  in  die  eerste  vier  weken  van september 2014. 3.2 Dataverzameling op basis van hashtags Vanuit de top dertig hebben we de relevante hashtags verzameld. Deze hashtags zijn gevonden door een combinatie van zoekmethoden. Deze hashtags hebben we gecontroleerd op Twitter.com.  Sommige  programma’s  zijn  gezocht  in  combinatie met de naam van de omroep, als de titel van het televisieprogramma ambivalent is. Dit was in het geval van  bijvoorbeeld  Spoorloos.  De  zoekterm  zou  dan  dus  zijn  ‘spoorloos  kro  hashtag’.  Daarnaast  was  op  bijna  alle  officiële  websites  van  de  televisieprogramma’s  een  suggestie voor een hashtag te vinden. Deze suggestie kwam uiteindelijk vrijwel altijd overeen met de hashtag die het meest populair was om over het betreffende televisieprogramma te tweeten.   Voor  een  aantal   televisieprogramma’s  waren  meerdere   hahstags   in   gebruik. We hebben gekozen om in sommige gevallen de twee meest populaire te gebruiken, alhoewel er vrijwel altijd een in volume duidelijk dominante hashtag te herkennen was.

Aan de hand van de lijst met hashtags welke als bijlage is opgenomen in dit rapport, zijn tweets gedownload die de ruwe data vormden. Voor deze stap stelde de opdrachtgever, BuzzCapture, hun tool beschikbaar. Het downloaden van tweets gaat per gebruiker en per gebruiker geldt datde 3.200 meest recente tweets ingezien en gedownload kunnen worden. Echter, de tool van BuzzCapture is zo opgebouwd dat alle tweets van bepaalde onderwerpen worden gearchiveerd. Alle hashtags die waren geselecteerd, stonden al op de archiveerlijst van BuzzCapture waardoor het maximum van 3.200 tweets per gebruiker voor ons niet aan de orde was. Bij het downloaden van data via de BuzzCapture tool is er een mogelijkheid om de data als Excelbestanden te downloaden. In een dergelijk bestand zijn niet alleen de tweets aanwezig, maar ook de gebruikersnaam, tijd en datum en andere metadata die verder niet relevant waren voor dit onderzoek. Iedere rij geeft een unieke tweet weer (voor die hashtag). Een voorbeeld van hoe dit er ongeveer uit ziet is in de bijlage te vinden.

De data op basis van deze criteria was nog niet direct geschikt voor een onderzoek naar verbanden. Veel tweets die een hashtag van een televisieprogramma bevatten, zijn niet van kijkers die over het programma willen converseren of laten weten dat ze kijken. Daarom hebben we sommige tweets of gebruikers uit de set gefilterd op basis van specifieke criteria. Over dit onderscheid tussen kijkers en niet kijkers wordt uitgebreid ingegaan in het hoofdstuk over data onder het kopje filters.

Page 10: The Voice of Twitter

10

Ter  controle  van  onze  selectie  van  programma’s  en  hashtags  hebben  we  onderzocht of er nog hashtags en televisieprogramma’s  waren  waarover  onze  groep  sprak  op  Twitter, maar ontbrak in de selectie tot nu toe. Dus binnen de  gebruikersgroep  zoeken  naar  andere  hashtags  die  over  televisieprogramma’s  gaan  was  de  volgende  stap.  Hiervoor  was de tool van BuzzCapture uitermate geschikt. Een lijst met de unieke gebruikers, die we als kijkers hadden geduid, kon als selectiecriterium ingezet worden om te kijken naar alle tweets die deze groep had gestuurd. Bovendien kan met deze tool eenvoudig de meest populaire hashtags gezien worden. Na het filteren van hashtags die al op onze lijst voorkwamen, bleven veelhashtags over die over actuele onderwerpen uit september 2014 gingen, bijvoorbeeld #prinsjesdag en #monstertruck. Twee uitschieters die voor ons wel relevant waren, zijn #pauw en #hntm, omdat die respectievelijk  over  de  talkshow  Pauw  en  Hollands  Next  Top  Model  gaan.  Dit  zijn  twee  televisieprogramma’s  die  het  niet haalden in onze kijkcijferlijst, maar wel erg populair zijn op Twitter. Deze twee televisieprogramma’s   zijn  toegevoegd  aan  de  eerste  lijst  van  televisieprogramma’s  en  kwamen  we  op  een  totaal  van  32  televisieprogramma’s  binnen dit onderzoek. Voor de hashtags bleek dat alle relevante hashtags al gevonden waren. 3.3 Kwalitatief onderzoek Om de populariteit van Pauw en Hollands Next Top Model op Twitter te kunnen verklaren en om andere resultaten beter te kunnen plaatsen, hebben we een deel van dit onderzoek toegewijd aan een kwalitatieve analyse van de televisieprogramma’s.  Deze  kwalitatieve analyse is uitgevoerd met het idee om sociale televisiestrategieën in kaart te brengen en dit te koppelen aan de cijfers die uit de Twitterdata blijken.

Van ieder televisieprogramma hebben we ten minste een hele aflevering bekeken om te zien in welke mate er tijdens de uitzending hashtags, sites en andere cross-mediale referenties in beeld te zien zijn en/of genoemd worden. Ook is de officiële website van het televisieprogramma bezocht en onderworpen aan een analyse voor links, verwijzingen, oproepen, enzovoort, die de combinatie van sociale media of andere cross-media tactieken aangeven. Alvorens de televisieprogramma's geanalyseerd werden, is een format in Excel opgesteld zodat er zoveel mogelijk op dezelfde aspecten van een uitzending werd gelet. Deze aspecten zijn as onderdeel van het uiteindelijke resultaat opgenomen als bijlage.

Alvorens dit format definitief te maken, is een pilot met twee televisieprogramma's gedaan. Hieruit kwam naar voren dat het format op een tweetal aspecten aangepast moest worden. Ten eerste bleek dat hashtags en sites niet alleen op beeld werden getoond, maar dat er ook mondeling naar werden verwezen. Ten tweede kwam uit de pilot naar voren dat het lastig is om de looptijd van een aantal televisieprogramma's nauwkeurig in kaart te brengen. Om deze reden is besloten om dit aspect achterwege te laten. 3.5 Exploreren van de data Omdat het aan het begin van het onderzoek onduidelijk was wat er precies in de data aan relevante gegevens te vinden zou zijn in het kader van onze vraag, zijn we exploratief te werk gegaan. Dat betekent dat we gaandeweg nieuwe deelvragen hebben ontwikkeld en verschillende tactieken hebben toegepast om deze te beantwoorden.

In eerste instantie hebben we alle data in Excel bekeken. Om de uiteindelijke verbanden tussen de televisieprogramma’s   in  kaart   te  brengen,  hebben  we  twee  verschillende  maar  verwante  tactieken  toegepast.  Een  statistische aanpak en een visualisatie van een relatienetwerk op basis van een algoritme, dus beide met behulp van software. De details hiervan zullen besproken worden in het hoofdstuk Data en verder worden toegelicht in het hoofdstuk Analyse en Resultaten. 3.6 Gephi Voor de netwerkvisualisatie hebben we gebruikgemaakt van het programma Gephi. Gephi is een open-source programma, ontworpen om netwerken in kaart te brengen (Bastian M., Heymann S., Jacomy M., 2009). Een netwerk bestaat in dit geval uit zogenaamde nodes en de verbindingen daartussen (edges). De relatieve zwaarte van deze verbindingen kan uitgedrukt worden in edge weight. Edges kunnen directed of undirected zijn, wat uitdrukt dat een verbinding respectievelijk van A naar B dan wel tussen A en B bestaat.

Page 11: The Voice of Twitter

11

Voor het in kaart brengen van een netwerk biedt Gephi enkele algoritmen, waaronder ForceAtlas 2 – het algoritme waar wij voor gekozen hebben. ForceAtlas 2 is een algoritme dat uitgaat van edges en edge weight tussen nodes, en op basis hiervan een zwaartekracht simuleert. Het algoritme zoekt naar een evenwichtige layout waarin nodes die onderling (sterk) verbonden zijn dicht bij elkaar komen te staan. De details van dit algoritme worden door de ontwikkelaars van Gephi en ForceAtlas 2, uitgebreid beschreven (Jacomy M, Venturini T, Heymann S, Bastian, 2014). Voor de verwerking van data biedt Gephi enkele filters. Op basis van eigenschappen zoals aantal verbindingen, richting of zwaarte van deze verbindingen, kunnen nodes of edges buiten beschouwing blijven in onderdelen van een visualisatie. Een andere functionaliteit van Gephi die voor onze visualisaties relevant is, is de modularity. Dit is een wiskundige berekening die een netwerk beoordeelt op de mate waarin het in onderling sterk verbonden clusters op te delen is, en deze afzonderlijke clusters in modularity classes indeelt.

Page 12: The Voice of Twitter

12

4.0 Data Onze belangrijkste twee datasets  zijn  de  tweets  en  kwalitatieve  data  over  de  programma’s.  In  dit  hoofdstuk  bespreken  we eerst de kwalitatieve data en meta-data  over  de  programma’s,  vervolgens  de  tweets  en  verwerkingen  daar  van.

Page 13: The Voice of Twitter

13

4.1 Kwalitatieve data TV-programma’s Tabel 1: Kwalitatieve data over  het  media  beleid  van  de  32  programma’s.  

Titel programma

Link op website naar Twitter

Officiële Twitter account

Hashtag in beeld

Website in beeld

App beschikbaar

Uitzendingen binnen tijdsframe Opmerkingen

De Wereld Draait Door + + - + - 20 Website benoemd

Dokter Tinus + - - - - 3

Dubbeltje op zijn Kant - + + + - 4 Website genoemd

Earthflight - - - + - 4

Een Vandaag + + - + - 24

Expeditie Robinson + + + + + 4 Hashtag en website genoemd

Familiediner - + - + - 4 Website genoemd

Flikken Maastricht + + - + - 4

Geer en Goor + + + + - 4

Goede Tijden Slechte Tijden + + - - + 20

Hart van Nederland + + - + - 28 Website genoemd

Heel Holland Bakt + + - + - 4

Holland’s  Got  Talent + + + + + 4 Hashtag en website genoemd

Holland's Next Top Model + + + + + 4 Hashtag en website genoemd

Journaal + + - + + 28 Website genoemd

Kassa + + - + + 4 App genoemd

Liefs Uit + + + + - 4 Website genoemd

Love is in the Air - - - - - 4

Nieuwe Buren + + - + - 3

Pauw + + + + - 20 Hashtag en website genoemd en hashtag op sappige momenten in beeld

Radar + + + + + 4 Website en app genoemd

Rijdende Rechter + + - + + 4 Website genoemd

Roodkapje - - - - - 4

RTL Boulevard - + - + - 20 Website genoemd

RTL Late Night - + + + - 20 Heel vaak in beeld en benoemd

Spoorloos + + - + + 4 Website in beeld en benoemd. Twitter account gehackt.

Studio Sport Eredivisie - + - - - 4

Studio Voetbal - - - - - 4

Syndroom + + + + - 4

The Voice of Holland + + + + + 4

Hashtag, website en app genoemd. Tweets van gebruikers komen in beeld.

Thuis voor de Buis + + + - - 4

Uitstel van Executie - - - + - 4

Page 14: The Voice of Twitter

14

In tabel 1 staan de belangrijkste gegevens die we verzameld hebben tijdens het kwalitatieve deel van ons onderzoek. De volledige versie staat in de  bijlage.  Omdat  bepaalde  programma’s  meerdere  malen  per  dag  worden  uitgezonden,  zoals bijvoorbeeld het Journaal, hebben we gekozen om als maximale aantal uitzendingen 28 te kiezen, één voor elke dag.  Van  de  32  programma’s  tonen  er  25  de  website  in  beeld tijdens de aflevering en 12 daarnaast ook nog de hashtag. Ook  valt  op  dat  een  aantal  programma’s  een  app  hebben  om  mensen  meer  te  betrekken.  Waar  sommige  programma’s  zoals The Voice vele malen de hashtag tonen, tweets live uitzenden en de app aanprijzen, laten  andere  programma’s  zoals bijvoorbeeld Love is in the Air deze mogelijkheden volledig links liggen. 4.2 Kijkcijfers

Fig. 1: Kijkcijfers van 32 programma's. Omdat het via de website van stichting kijkonderzoek niet mogelijk is om gemiddelde kijkcijfers over de maand op te vragen of te berekenen, hebben we gekozen om uit de maand top 100 voor elk programma de aflevering te pakken die daarin genoemd werd. Hoewel dit de best bekeken aflevering en niet het gemiddelde is, is dit een acceptabel compromis   als   dit   voor   alle   programma’s   geldt.   Het   is   duidelijk   dat   er   grote   verschillen   zitten   tussen   bepaalde  programma’s.  De  twee  programma’s  die  we  later  geselecteerd  hebben  op  basis  van  de  terugkoppeling  van  de  meest  diverse  kijkers,  Holland’s  Next  Top  Model  en Pauw hebben lagere kijkcijfers dan gemiddeld. Spoorloos, The Voice of Holland en Het Journaal werden in september het best bekeken. 4.3 Volume in tweets

Page 15: The Voice of Twitter

15

Fig. 2: Tweetvolume per programma, absoluut en gecorrigeerd voor aantal afleveringen. In deze grafiek  staat  de  absolute  hoeveelheid  berichten  afgebeeld  in  rood.  Omdat  sommige  programma’s  veel  vaker  worden uitgezonden, en er dus veel vaker de mogelijkheid is er live over mee te tweeten, hebben we gekozen de absolute hoeveelheid te delen door het aantal uitzendingen binnen het tijdsframe. De gemiddelde hoeveelheid berichten  per  aflevering   staan  aangegeven   in  het  blauw.  Hoewel  er  bij  de  meeste  programma’s   sprake   is  van  vier  afleveringen in de maand, worden bijvoorbeeld Pauw en RTL Late Night veel vaker uitgezonden. Waar deze programma’s  er  qua  absolute  hoeveelheid  hoog  uitspringen  zijn  ze  gemiddeld  per  aflevering  veel  minder  groot. 4.4 Filters In de virtuele lounge die Twitterhashtags opzetten (Harrington, Highfield & Bruns, 2012), verzamelen zich mensen die geïnteresseerd zijn in het gerelateerde onderwerp. Maar niet alleen mensen die deze directe interesse hebben komen af op de lounge die is ontstaan. Andere partijen met belangen die gerelateerd zijn aan de lounge, zoals in ons geval marketing rond het televisieprogramma, of acteurs uit de show zullen zich soms ook vanuit een professioneel uitgangspunt laten zien. Deze categorie die we professioneel hebben genoemd, is meestal te herkennen aan de vormgeving die vaak uitgedacht en coherent is. Inhoudelijkworden er veel aansporingen gedaan om de site te bezoeken en bevatten de tweets weinig persoonlijke informatie of reflectie. Deze accounts hebben relatief veel volgers.

Omdat de lounge publiekelijk toegankelijk is en het daar binnen vaak gaat om een groep mensen waarvan de interesse bekend is, biedt het ook ruimte voor partijen die een doelgroep denken te vinden. Dit is vergelijkbaar met posters aan de muur van de lounge. Deze categorie hebben we spam genoemd. Spam is herkenbaar door het gebruik van meerdere hashtags binnen één bericht om het bereik te vergroten. Herkenbaar is ook het gebruik van veel verschillende hashtags binnen dezelfde account. De tweets bevatten vaak ongerelateerde content.

Een bijzonder geval was de #televizierring.Een beperkt aantal hashtags grotendeels gerelateerd aan televisie, kwam steeds in wisselende combinaties terug. Dit bleek te maken te hebben met de Televizierring, een prijs waarvoor een  aantal  programma’s  genomineerd  waren  (en  dus  steeds  genoemd)  in  combinatie  met  #televizierring. Dit is geen echte spam, maar kreeg door de vorm wel hetzelfde karakter.

Page 16: The Voice of Twitter

16

Een aantal accounts viel op omdat ze relatief veel retweets (doorgestuurde berichten) hadden. Dit bleek te verklaren door de humoristische invulling en inhoud van sommige accounts. In dat geval waren ze te herkennen door de grote hoeveelheid grappen over verschillende populaire onderwerpen en een duidelijke poging om via Twitter een publiek te vinden voor hun grappen. Deze grappen worden vaak om hun humor doorgezonden, waarschijnlijk hebben de  verstuurders  wel  enig  gevoel  bij  de  televisieprogramma’s  waarover  de  grappen  gemaakt  worden,  maar  het  is  geen  teken  van  ‘kijken’.  Daarom  hebben  we  besloten  de  bovenstaande  categorieën  te  proberen  te  vinden  in  onze  dataset,  om ze vervolgens te verwijderen. Om te bepalen welke accounts binnen de categorieën horen die hierboven herkend zijn, hebben we alle accounts op een lijst gezet en achtereenvolgens gesorteerd op retweets, tweets en diversiteit van hashtags. Voor iedere sortering hebben we de top geanalyseerd op inhoud, net zo lang tot we weinig accounts tegen kwamen die in aanmerking kwamen voor een van de categorieën. We hebben gekeken naar de tweets binnen de dataset, maar ook andere tweets van die accounts, om te bepalen of ze in een van de categorieën thuis hoorden. Accounts die uiteindelijk binnen een categorie vielen, hebben we benaderd als een niet-kijker. Daarom zijn deze accounts uit het grootste deel van de resultaten weggelaten, omdat we vooral op zoek zijn naar verbanden tussen kijkers. Dus we hebben met deze filtering geprobeerd een dataset te maken die niet alleen hashtags bevat over televisie  programma’s,  maar  voor  zover  mogelijk  ook  voornamelijk  tweets  bevat  die  kijkgedrag  duiden.  In  de  resultaten  zullen nog wat reflecties naar voren komen op deze keuze en hoe deze filter onze resultaten heeft beïnvloed. In de discussie zal naar voren komen dat het filteren wel relevant is gebleken, maar ook nog voor verbetering vatbaar is. 4.5 Tweets, kijkers en overlap Om de data klaar te maken analyse, was er soms ook een transformatie nodig. Allereerst hebben we aan onze dataset een kolom toegevoegd, met daarin het relevante programma, onder de noemer target, en de titel van de kolom user veranderd in source. Dit om het voor Gephi leesbaar te maken. Hierna hebben we voor elke tweet bepaald of het een retweet  was,  door  te  filteren  op  tweets  die  met  “RT  @”  begonnen.  Hiervan  hebben  we  ook  bepaald  van  welke  account  de originele tweets waren, en dit als meta-data toegevoegd.

Voor een tweede dataset hebben we onze lijst met tweets teruggebracht tot twee kolommen: source (de username) en target (het programma). Deze hebben we versimpeld door elke combinatie maar één keer voor te laten komen. Op basis hiervan hebben we een kruistabel of matrix  gecreëerd  met  horizontaal  alle  programma’s  en  verticaal  alle usernames, met in de cel een 0 of 1 die aangeeft of de user en het programma aan elkaar verbonden zijn. Hieraan toegevoegd hebben we per user een diversiteit berekend, door de 0 en 1-scores bij elkaar op te tellen.

Uit  deze  matrix  konden  we  een  matrix  creëren  met  zowel  horizontaal  als  verticaal  de  programma’s,  met  in  de  cellen de absolute overlap in kijkers. Dit hebben we gedaan door te kijken naar het aantal kijkers waarbij beide programma’s   voorkwamen – de co-occurence. Dit is een symmetrische matrix met in de diagonale lijn van cellen waarin  de  programma’s  met  zichzelf  kruisen  het  aantal  unieke  kijkers  per  programma.

Deze informatie hebben we verwerkt tot een matrix van relatieve overlap. Door in elke cel het getal te delen door het aantal unieke kijkers van het programma in de corresponderende rij, ontstaat in de kolommen een overzicht van de relatieve overlap die elk programma heeft met het programma in de corresponderende rij. Dit is een niet-symmetrische matrix. Deze matrix hebben we vervolgens verwerkt tot een matrix van gewogen relatieve overlap. Hier hebben we de getallen aan de ene kant van de hoofddiagonaal vermenigvuldigd met de corresponderende getallen aan de andere kant van de hoofddiagonaal. Hieruit volgt een getal wat de relatieve overlap vanuit A naar B uitdrukt, gewogen op de relatieve overlap vanuit B naar A.

Het  uiteindelijke  resultaat  is  een  matrix  met  getallen  die  de  relatieve  compatibiliteit  van  twee  programma’s  aangeven. Deze is terug te vinden in de bijlagen. 4.6 Eigenschappen kijkersgroepen Voor een verdere verwerking van onze data hebben we ook gekeken naar enkele kenmerken van de kijkersgroepen van  elk  programma.  Voor  het  aantal  programma’s  hebben  we  voor  elke  kijker  de hierboven genoemde diversiteit

Page 17: The Voice of Twitter

17

genomen. Hiervan hebben we vervolgens voor elk programma de gemiddelde waarde van al hun kijkers genomen. Voor het aantal tweets hebben we het eerder besproken tweetvolume per programma gedeeld door het aantal unieke kijkers per programma, wat neerkomt op gemiddeld aantal tweets per kijker. Een andere eigenschap van kijkersgroepen die wij bepaald hebben, is een eigenschap van de users op Twitter, op individueel niveau. Via onze technisch partner Buzzcapture hadden wij de mogelijkheid om voor een groep users een genderbepaling te doen. We hebben hiervoor een lijst opgesteld van users die aan meer dan een programma waren verbonden, in totaal 8.461 uit onze totale dataset. Het resultaat hiervan was 2.870 mannelijk, 2.809 vrouwelijk en 2.782 onbekend, wat grofweg overeenkomt met eerder besproken onderzoek naar genderbepaling. De genderbepaling is uitgevoerd door Buzzcapture, met behulp van SocialBro, door een algoritme in combinatie met een steekproefsgewijze menselijke controle. 4.7 Matrix van Spearman-correlatie De gewogen matrix wilden we vergelijken met een statistische analyse. Hiervoor hebben we gebruik gemaakt van het Statistiekprogramma SPSS. Na het binair maken van de dataset konden we een non-parametrische Spearman-correlatie   test  uitvoeren  om  voor  alle  programma’s  onderling  een   correlatie   coëfficiënt   te   krijgen.  Om  deze   tabel  inzichtelijker te maken zijn de sterk significante relaties (p>0.01) hier dikgedrukt. Daarnaast zijn de negatieve correlaties in het rood  en  de  positieve   relaties   in  het   zwart.  Tot   slot   is   in   Excel   gebruik   gemaakt   van   “conditional  formatting”,  waarbij   in   een   dataset   relatieve   positieve   en   negatieve  waarden   in   categorieën   van   kleuren  worden  gesorteerd. Door dit per kolom apart te doen is voor  elk  programma  zichtbaar  met  welke  programma’s  een  sterke  positieve of negatieve relatie bestaat. In de eerste kolom is bijvoorbeeld in de groene blokken zichtbaar dat Dokter Tinus een significant positieve relatie heeft met drie andere fictionele series, Flikken, GTST en Nieuwe Buren, en een significant   negatieve   relatie  met   de   actualiteitsprogramma’s   Pauw   en  DWDD.  De   gegevens   uit   deze  matrix   zullen  gebruikt worden om visualisaties te contextualiseren en verdere conclusies te onderbouwen.

Fig. 3: Matrix van Spearman-correlatie.

Page 18: The Voice of Twitter

18

5.0 Analyse en resultaten 5.1 Kijkcijfers en tweetvolume

Fig. 4: Scatterplot van kijkcijfers ten opzichte van gecorrigeerd tweetvolume. In deze scatterplot staan de absolute kijkcijfers op de X-as afgezet tegen het gemiddelde aantal tweets per aflevering op de Y-as. Direct zichtbaar is dat de relatie tussen kijkcijfers  en  tweets  niet  lineair  is;  programma’s  met  vergelijkbare  kijkcijfers kunnen verschillen van 10 tot 1000 tweets per aflevering. Vanwege deze grote verschillen hebben we gekozen de gemiddelde tweets per aflevering op een logaritmische schaal te noteren om de leesbaarheid te bevorderen. In deze analyse zullen een aantal bijzondere gevallen uitgelicht en vergeleken worden met de uitkomsten van de kwalitatieve analyse. De grootste uitschieter hier is The Voice Of Holland, en hoewel de kijkcijfers erg hoog zijn, is de magnitude van het verschil in gemiddelde tweets per aflevering, met meer dan 4500 berichten, ongekend hoog. Uit de kwalitatieve analyse is gebleken dat The Voice een zeer omvangrijk mediabeleid voert en naast het meermaals in beeld brengen van de hashtag ook tweets live op het scherm laat zien en een eigen app heeft. Een vergelijkbaar, maar   minder   volledig   mediabeleid   is   zichtbaar   bij   Holland’s   Got   Talent   en   Expeditie   Robinson.   Ook   deze   twee  programma’s  scoren  met  meer  dan  1000  tweets  per  aflevering  hoog.  De  programma’s  die  later  geselecteerd  zijn  op  basis  van  terugkoppeling  zijn  hier  ook  duidelijke  uitschieters;  ondanks  de  lage  kijkcijfers  hebben  zowel  Holland’s  Next  Top Model als Pauw relatief veel tweets per uitzending. Aan de andere kant van het spectrum is Spoorloos. Hoewel dit programma een actief mediabeleid heeft met onder andere een eigen app, is het duidelijk dat de focus niet ligt op Twitter. Behalve het feit dat de hashtag niet wordt weergegeven tijdens het programma is de officiële Twitter account van het programma gehackt en op het moment van schrijven niet online. Deze focus op andere vormen van digitale media is ook terug te zien in de gemiddelde hoeveelheid tweets; ondanks dat het programma een van de hoogste kijkcijferaantallen heeft, worden er gemiddeld 15 tweets met de hashtag Spoorloos gestuurd per uitzending. 5.2 Kenmerken kijkersgroepen

Page 19: The Voice of Twitter

19

Fig. 5: Kenmerken van de verschillende kijkersgroepen. In dit scatter-plot grafiek staat het gemiddelde aantal tweets dat een gebruiker over een bepaald programma plaatst op de X-as  tegenover  het  gemiddelde  aantal  andere  programma’s  dat  een  gebruiker  volgt  naast  het  programma  waar  hij een tweet over plaatst. The Voice of Holland heeft bijvoorbeeld een relatief grote hoeveelheid tweets per gebruiker en  heeft  de  laagste  diversiteit  in  aantal  andere  programma’s.  Dit  wil  zeggen  dat  deze  mensen  voornamelijk  over  de  Voice   tweeten   en   weinig   over   andere   programma’s,   maar   binnen   dit   programma   wel   erg   actief   zijn.   Het  tegenovergestelde wordt zichtbaar bij Spoorloos. Als een gebruiker al iets over Spoorloos plaatst, is dat vaak eenmalig maar  tweeten  hiernaast  over  gemiddeld  meer  dan  vier  andere  programma’s.  Deze  beide  extremen  zijn  terug  te  vinden  in de kwalitatieve data; waar The Voice duidelijk veel moeite doet om mensen over de uitzending te laten tweeten, is Spoorloos   helemaal   niet   actief   op   Twitter.   Veel   van   de   programma’s   die   laag   scoren   op   gemiddelde   tweets   per  uitzending scoren hier hoog op diversiteit van kijkgedrag. Kijkers zijn dus niet op Twitter voor bijvoorbeeld Spoorloos, maar  gebruiken  Twitter  al  vaker  en  kijken  ``toevallig``  ook  Spoorloos.  Het  tegenovergestelde  geldt  ook;  programma’s  met hoge kijkcijfers en gemiddelde tweets per uitzending hebben een lage diversiteitsscore. Dit is te verklaren door het  feit  dat  deze  programma’s  veel  bekeken  worden  en  veel  aansporen  tot  Twitter-gebruik. Op deze wijze zijn er veel mensen die overgehaald worden en incidenteel een tweet plaatsen maar normaal gesproken niet of weinig over televisie tweeten. Familiediner is ook een interessante uitschieter met de grote hoeveelheid tweets per gebruiker en een  hoog  aantal  programma’s  per  kijker.  Dit  duidt  op  een  actieve  achterban  die  daarnaast  ook  nog  eens  zeer  divers  is. 5.3 Impact van filters

Page 20: The Voice of Twitter

20

Fig. 6: Relatief aantal tweets en retweets per programma, voor en na filtering.

Fig. 7: Relatief aantal tweets en retweets per programma, na filtering. In  dit  staafdiagram  worden  per  programma  twee  relatieve  ratio’s  tussen  tweets  en  retweets  afgebeeld,  de  eerste is voor en de tweede na de filter. Niet elk programma werd even hard getroffen door de filter. GTST en Flikken raakten beide meer dan de helft van de tweets kwijt, terwijl het Journaal en Pauw maar een paar procent verloren. Omdat we

Page 21: The Voice of Twitter

21

gekozen hebben om de  grootste  vervuilers  uit  de  dataset  te  halen,  worden  grotere  programma’s  beter  gefilterd  dan  kleinere. Hart van Nederland is hierbij een uitzonderlijke casus. Er werden voornamelijk tweets uit gefilterd terwijl de retweets bleven staan. Dit werd veroorzaakt doordat het mediateam van Hart van Nederland voor elke presentator een eigen account had, en dus geen echte kijkers waren en veel werden geretweet. Deze accounts hadden in de filter moeten zitten, maar omdat Hart van Nederland in totaal relatief weinig tweets heeft, waren ze niet zichtbaar bij de grootste vervuilers. Als we naar de gesorteerde ratio kijken na de filter, worden er geen duidelijke patronen zichtbaar die  ondersteund  kunnen  worden  door  de  kwalitatieve  gegevens.  Vergelijkbare  programma’s  zijn niet terug te zien in de  ratio’s.   5.4 Genderverhoudingen Op basis van de eerder genoemde data van genderbepaling was het mogelijk een beeld te creëeren van de genderverhoudingen  tussen  de  verschillende  programma’s.  Het  is  belangrijk  hierbij  te  vermelden dat mannen lichtelijk overgerepresenteerd zijn en dat dit tweederde van de kijkers van meer dan één programma betreft. Users waarbij gender niet bepaald kon worden, hebben we buiten beschouwing gelaten. Hieruit volgt de volgende staafdiagram:

Fig. 8: Genderverhoudingen per programma. Dit  beeld  klopt  grotendeels  met  onze  verwachtingen  over  programma’s  zoals  Goede  Tijden  Slechte  Tijden,  maar  dient  binnen de scope van ons onderzoek vooral ter illustratie van de mogelijkheden van genderbepaling. Om hier verdergaande uitspraken over te kunnen doen, zou het nodig zijn om een externe bron te vinden die data levert over genderverhoudingen  van  programma’s.  Hiermee  zou  een  bevestiging  of  afwijking  op  basis  van  onze  Twitterdata  pas  echt betekenisvol worden. Voor nu is het in ieder geval duidelijk dat Twitterdata in combinatie met genderbepaling een  blik  geeft  op  specifieke  programma’s.  

Opvallend aan de data van de mannen en vrouwen binnen onze dataset is dat mannen gemiddeld 7.74 tweets per persoon verstuurden binnen onze dataset, en vrouwen gemiddeld 6.39. Dit komt niet overeen met de in andere literatuur gesignaleerde trend dat vrouwen meer tweets versturen, en kan er op wijzen dat mannen in de categorie televisie relatief actiever zijn. Om hier een uitspraak over te kunnen doen, is verder onderzoek nodig aangezien wij niet verder gekeken hebben naar het Twittergedrag van deze users buiten onze selectie van hashtags.

Page 22: The Voice of Twitter

22

5.5 Netwerkvisualisatie met kijkers De eerste netwerkvisualisatie die we hebben uitgevoerd, is op basis van onze eerste dataset, enkel met de programma’s  toegevoegd  als  target en ingevoerd in Gephi. De eerste stap hierbij is het veranderen van de edge weight in 1 voor alle verbindingen, omdat ons onderzoek zich hier zoals gezegd richt op kijkers en niet op tweets. De edge weight drukt hier het aantal tweets van een user over een programma uit en is voor deze visualisatie niet interessant. Allereerst rekenen we hier de modularity uit: randomized en use weights aan (hoewel dit irrelevant is) en met een resolution van 1.2. Dit resulteert in 6 communities. We doen dit op basis van de complete dataset om een zo breed mogelijk berekende modularity te krijgen.

Vervolgens hebben we door middel van Gephi alle nodes gefilterd met een OutDegree-waarde van 1-4. Dit komt  overeen  met  alle  users  die  verbonden  zijn  aan  minder  dan  vier  programma’s.  Dit  maakt  de  netwerkvisualisatie  consistenter en verkleint daarnaast het aantal nodes en edges drastisch, van 35.175 en 49.904 naar respectievelijk 765 en 4.567. Hiermee wordt de uitvoering van het algoritme in een redelijke tijd mogelijk maakt.

De layout is gebaseerd op het eerder besproken ForceAtlas 2, met onderstaande instellingen.

Threads number 2

Dissuade hubs uit

LinLog mode uit

Prevent Overlap uit

Edge Weight Influence 1.0

Scaling 220.0

Stronger Gravity uit

Gravity 1.0

Tolerance (speed) 0.1

Approximate Repulsion uit

Approximation 1.2

Tot slot de visualisatie: de nodes van  de  programma’s  zijn  via  partition gekleurd op basis van hun modularity class en via ranking hebben ze, gebaseerd op hun InDegree (aantal verbindingen met users) een grootte van 75-250 gekregen. Alle  programma’s  geven  als label een hashtag weer, thematisch consistent met de reikwijdte en onderwerp van het onderzoek,  maar   aangezien   sommige   programma’s  meerdere   hashtags   gebruiken,   en  wij   die  ook   in   onze   dataset  hebben, niet volledig. Deze handelingen en instellingen geven onderstaand beeld als resultaat.

Page 23: The Voice of Twitter

23

Fig. 9: Netwerkvisualisatie met programma's en kijkers. In deze netwerkvisualisatie valt een aantal dingen op. Studio Sport en Studio Voetbal komen dicht bij elkaar te staan, net  als  Uitstel  van  Executie  en  Dubbeltje  Op  Zijn  Kant.  Dit  zijn  vergelijkbare  programma’s,  en  het  lag  ook  in  de  lijn  der  verwachting dat deze  bij  elkaar  uit  zouden  komen.  Uit  de  statistische  analyse  komen  deze  programma’s  naar  voren  als  de  grootste  onderlinge  correlaties  in  de  dataset.  Links  in  het  midden  is  een  grote  lijn  te  zien  in  actualiteitprogramma’s,  vanuit links het meest diepgaande EenVandaag, geleidelijk via Journaal, Pauw en De Wereld Draait Door naar RTL Late Night, die zich vooral op populaire actualiteit richt. Opvallend is hier de schikking van Pauw en Journaal die ook andersom te verklaren zou zijn, omdat Pauw zich meer richt op de achtergronden van het nieuws. Dit kan bijvoorbeeld komen doordat Pauw nog geen gevestigd programma is en een vaste achterban heeft, en dat dit bij EenVandaag en het Journaal wel het geval is. Opvallend hierbij is dat Hart van Nederland, ook een actualiteitprogramma, ver buiten deze groep valt. Een ander opvallend patroon in grote lijnen is de scheiding tussen NPO en commercieel. Een denkbeeldige lijn die vanuit Dubbeltje op zijn Kant begint en RTL Late Night doorkruist/links passeert, maakt een scheiding met aan de linkerkant   enkel   programma’s   van   de   publieke   omroep,   en   aan   de   rechterkant   enkel   commerciële   zenders   - met Flikken Maastricht als uitzondering. Dit valt weer te verklaren doordat het bij andere fictie-series staat: Dokter Tinus, GTST en Nieuwe Buren.

Page 24: The Voice of Twitter

24

Spoorloos, De Rijdende Rechter, Liefs Uit en Familiediner zijn vier reality-programma’s  die   zich   richten  op  persoonlijke  verhalen.  Deze  staan  in  een  cluster  links  onderin,  maar  de  programma’s  Love  is  in  the  Air  en  Syndroom  die ook in deze categorie vallen, staan elders. 5.6 Netwerkvisualisatie zonder kijkers De tweede netwerkvisualisatie is een versimpelde versie, maar doet meer recht aan onze data. Hiervoor hebben we enkel   de   programma’s   aangehouden   als   nodes,   en   edges toegevoegd tussen deze   programma’s.   De   edge  weight hebben  we  gebaseerd  op  de  eerder  besproken  gewogen  relatieve  overlap  tussen  programma’s.  Waar  dit  0  was  hebben  we de edges weggelaten. Deze visualisatie hebben we in eerste instantie gebaseerd op de vorige, wat betekent dat de grootte van de nodes, en de data over modularity nog in stand gebleven is.

De layout is ook hier gebaseerd op het eerder besproken ForceAtlas 2, met onderstaande instellingen. Belangrijk hierbij is dat edge weight influence eerder niet relevant was, omdat het overal 1 was. Nu hangt de visualisatie er sterk vanaf. Deze staat op 0.7 omdat dit een gelijkere verdeling veroorzaakt tussen centrum en de randen,  met  een  hogere  waarde  komen  de  uiterste  programma’s  ver  buiten  het  centrum  te  staan.  De  scaling is ook anders, maar dit zorgt per saldo voor een vergelijkbare grootte.

Threads number 2

Dissuade hubs uit

LinLog mode uit

Prevent Overlap uit

Edge Weight Influence 0.7

Scaling 80.0

Stronger Gravity uit

Gravity 1.0

Tolerance (speed) 0.1

Approximate Repulsion uit

Approximation 1.2

Een ander detail van deze visualisatie is dat de edge weight duidelijk terug te zien is in de visualisatie, hiervoor is bij de export-instellingen gekozen voor een thickness van 350.0 en rescale weight is aangezet.

Page 25: The Voice of Twitter

25

Fig. 10: Netwerkvisualisatie tussen programma's onderling. In deze visualisatie zien we veel dezelfde patronen als in de vorige figuur. Enkele opvallende verschillen verdienen nog  aandacht.  Earthflight  blijkt  ten  opzichte  van  de  andere  programma’s  een  perifere  positie  te  hebben,  net  als  Kassa en Radar. Ook valt hier duidelijk te zien dat Kassa en Radar onderling geen grote overlap hebben, terwijl het inhoudelijk  vergelijkbare  programma’s  zijn.  Het  verschil  tussen  de  bij  de  vorige  figuur  besproken  combinaties  Studio  Sport/Studio Voetbal enerzijds en anderzijds Dubbeltje op zijn Kant/Uitstel van Executie is ook duidelijk zichtbaar: laatstgenoemde  programma’s  hebben  een  veel  sterkere  onderlinge  correlatie,  wat  de  vorige  figuur  nog  niet  zichtbaar maakte. Ook is hier pas de sterke onderlinge verbinding tussen de besproken  actualiteitenprogramma’s  links van het midden goed zichtbaar. De  programma’s  Syndroom  en  Geer  en  Goor,  die  in  de  vorige  figuur  opvielen  door  hun  afwijkende  kleur  in  een verder ogenschijnlijk hechte groep, krijgen ook duidelijker een eigen positie hoewel ze duidelijk dichtbij de groen gekleurde groep blijven staan, en daar ook sterke verbindingen mee hebben. Deze en andere relatief sterke verbindingen komen allemaal ook als significante resultaten uit de Pearson-correlatie. Dit is een ondersteuning van bovenstaande visualisatie, en laat zien dat de sterkste verbindingen niet per toeval ontstaan uit onze data, maar daadwerkelijk zeggingskracht hebben. De volledige data van de Pearson-correlaties is terug te vinden in de bijlagen.

Page 26: The Voice of Twitter

26

6.0 Conclusie Bij aanvang van dit onderzoek hadden we een simpele maar brede onderzoeksvraag; Wat laat Twitter zien over televisiekijkend Nederland? Vanwege het explorerende karakter van dit onderzoek is het na de gevonden resultaten lastig om te spreken van eenduidige conclusies. Het is duidelijk geworden dat er veel mogelijk is met enkel de gegevens van Twitter en meer als er andere indicatoren aan worden toegevoegd. Ons doel was om met behulp van Twitter  gegevens  verbanden  tussen  programma’s  aan  te  tonen,  en  door  middel  van  de  gecreëerde  Gephi  visualisatie  en de correlatie matrixen is dat gelukt. Zonder enige toegevoegde data behalve de tweets was het mogelijk groepen van  programma’s  te  vinden,  die  vervolgens  ondersteund  werden  door  statistische  analyse  en  in  verband  stonden  met de kwalitatieve data. Door hiernaast ook te kijken naar indicatoren zoals kijkcijfers is het mogelijk om te kijken welke  programma’s  relatief  gezien  populair  zijn  op  Twitter.  Met  behulp  van  Buzzcapture  was  het  ook  goed  mogelijk  om gegevens terug te koppelen en onder andere een geslachtsverdeling op te stellen voor de verschillende programma’s.

In de loop van het onderzoek hebben we een format gecreëerd waarmee relatief gemakkelijk vergelijkbare onderzoeken opgezet kunnen worden. Gezien het gebrek aan eerder onderzoek op dit gebied is er nog veel meer te ontdekken. Omdat het onderzoek explorerend is en zonder voorafgaande hypothesen is het grootste deel van het werk verricht in het opzetten van het format en hier gaandeweg over te leren. Dit leerproces heeft een aantal suggesties opgeleverd die in de discussie zullen worden besproken. Hoewel er niet gezocht is naar specifieke conclusies  over  de  programma’s  zelf,  leent  de  data  hier  zich  wel  voor  en  kan  in  de  bijlagen  gekeken  worden  naar  de  volledige bevindingen op dit gebied. Voor onze opdrachtgever zijn zowel de huidige resultaten als het gecreëerde format nuttig om de mogelijkheden van Buzzcapture aan potentiële klanten te tonen.

Page 27: The Voice of Twitter

27

7.0 Discussie Er zijn enkele kenmerken van onze data die belangrijk zijn om in het oog te houden bij de analyse van de data en de visualisaties. Omdat deze voor het hele onderzoek van toepassing zijn bespreken we die hier centraal. 7.1 Beperkingen binnen ons onderzoek Een  grondigere  kwalitatieve  analyse  van  de  programma’s  had  wellicht  tot  betere  resultaten  kunnen  leiden.  Wij  hebben gekozen om enkel te kijken naar hashtag-gebruik onder mogelijke kijkers, waarmee een hoop data buiten onze  blik  valt.  Het  is  goed  mogelijk  dat  programma’s  die  nauwelijks  een  actieve  media-strategie hebben daar meer door  getroffen  worden  dan  andere  programma’s.  We  hebben  daarnaast  gekeken  naar  de  eerste  weken  van  september; de start van het nieuwe televisie-seizoen.  Hierdoor  is  het  mogelijk  dat  nieuwere  programma’s  die  minder kunnen bouwen op een reeds bestaande achterban meer getroffen zijn. Een onderzoek naar de eerste weken van oktober zou een ander en wellicht evenwichtiger beeld kunnen laten zien. 7.2 Beperkingen van Twitter Bij Twitter als bron van data is het belangrijk om stil te staan bij de beperkingen die dit met zich meebrengt. Twitter is geen afspiegeling van de Nederlandse bevolking, waardoor onderzoek naar doelgroepen vooral iets zegt over Twitter. Bij een grootschaliger onderzoek zou het interessant zijn om externe bronnen over demografische kenmerken van Twitter in het algemeen er structureel bij te betrekken. 7.3 Vervolgonderzoek Verder onderzoek zou verbeterd kunnen worden door, zoals hierboven genoemd, een groter tijdframe te bekijken. Dit  maakt  het  ook  mogelijk  om  meerdere  programma’s  te  analyseren  - nu was het zo dat deminst besproken programma’s  te  weinig  tweets  hadden  om  goed  te  kunnen  analyseren.  Onze  datafiltering  zou  bij een grootschaliger onderzoek ook groter aangepakt moeten worden. Hier zou niet alleen op de volledige dataset gefilterd moeten worden op accounts die als niet-kijkers te categoriseren zijn, maar zou ook per programma een steekproef uitgevoerd moeten worden. Dit bleek in ons onderzoek uit de data van tweets over Hart van Nederland. Daarnaast zou een grootschaliger en gedetailleerder kwalitatief onderzoek de mogelijkheid bieden om meer inhoudelijke uitspraken over onderlinge verbanden en verschillen aan te geven. Hier zou onder andere het beoogde media beleid van  de  adverteerders  van  de  programma’s  in  kunnen  worden  opgenomen.

Page 28: The Voice of Twitter

28

8.0 Literatuur Bastian M., Heymann S., Jacomy M. (2009). Gephi: an open source software for exploring and manipulating networks. International AAAI Conference on Weblogs and Social Media. Bollier, David, and Charles M. Firestone (2010). The Promise and Peril of Big Data. Aspen Institute, Communications and Society Program Washington, DC, USA. Boyd, Danah, & Crawford, K. (2012). Critical Questions for Big Data: Provocations for aCultural, Technological, and Scholarly Phenomenon. Information, Communication & Society, 15 (5), 662–79. Courtois, C., & D'heer, E. (2012). Second screen applications and tablet users: constellation, awareness, experience, and interest. In Proceedings of the 10th European conference on Interactive tv and video, 153-156. Dumenco, S., (2012). Believe the Hype? Four Things Social TV Can Actually Do. A Lot of People Are Gathered Around the Digital Water Cooler Talking About  TV  Shows.  Here’s  Why  it  Matters.  Geraadpleegd op: http://adage.com/article/the-media-guy/hype-things-social-tv/234134/ Eisner, Elliot W. (1997). The Promise and Perils of Alternative Forms of Data Representation. Educational Researcher, 26 (6), 4–10. Greer, C., & Douglas, A. (2011). Using Twitter for Promotion and Branding: A Content Analysis of Local Television Twitter Sites. Journal of Broadcasting & Electronic Media, 55 (2), 198-214. Harrington, S., Highfield, T., & Bruns, A. (2012). More than a backchannel: Twitter and television. Participations, Journal of Audience & Reception Studies,10 (1), 405-409. Hill, S., & Benton, A. (2012). Analyzing the Impact of Social TV Strategies on Viewer Engagement. Proceedings of the Sixth International Workshop on Data Mining for Online Advertising and Internet Economy, 4. Jacomy M, Venturini T, Heymann S, Bastian M (2014) ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software. PLoS ONE 9(6): e98679 Kulshrestha, J., Kooti, F., Nikravesh, A., & Gummadi, K. P. (2008). Geographic Dissection of the Twitter Network. Manovich, L. (2011). Trending: The Promises and the Challenges of Big Social Data. McPherson, K., Huotari, K., Cheng, F., Humphrey, D., Cheshire, C., & Brooks, A. L. (2012). Glitter: A mixed-methods study of Twitter use during Glee broadcasts. In Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work Companion, 167-170. Mislove, A., Lehmann, S., & Ahn, Y. (2011). Understanding the Demographics of Twitter Users. ICWSM, 554–557. Smith, A., & Rainie, L. (2010). 8 % of online Americans use Twitter. Pew Research Center. Vis, F. (2013). A Critical Reflection on Big Data: Considering APIs, Researchers and Tools as Data Makers. First Monday 18 (10).

Page 29: The Voice of Twitter

29

9.0 Bijlagen 9.1 Overzicht van figuren: Fig. 1: Kijkcijfers van 32 programma's. Fig. 2: Tweetvolume per programma, absoluut en gecorrigeerd voor aantal afleveringen. Fig. 3: Matrix van Spearman-correlatie. Fig. 4: Scatterplot van kijkcijfers ten opzichte van gecorrigeerd tweetvolume. Fig. 5: Kenmerken van de verschillende kijkersgroepen. Fig. 6: Relatief aantal tweets en retweets per programma, voor en na filtering. Fig. 7: Relatief aantal tweets en retweets per programma. Fig. 8: Genderverhoudingen per programma. Fig. 9: Netwerkvisualisatie met programma's en kijkers. Fig. 10: Netwerkvisualisatie tussen programma's onderling. N.B. Al deze figuren zijn in de externe bijlagen te vinden.

Page 30: The Voice of Twitter

30

9.2 Tabellen achter data-visualisaties Data van fig. 1: Kijkcijfers van 32 programma's.

Programma Kijkcijfers De Wereld Draait Door 1430000 Dokter Tinus 1359000 Dubbeltje op zijn kant 1561000 Earthflight 1159000 EenVandaag 1056000 Expeditie Robinson 1473000 Familiediner 1395000 Flikken 2195000 Geer en Goor 1717000 Goeide Tijden Slechte Tijden 1905000 Hart van Nederland 1146000 Heel Holland Bakt 1846000 Holland's Got Talent 1896000 Holland's Next Top Model 494000 Journaal 3035000 Kassa 1043000 Liefs Uit 992000 Love is in the Air 1465000 Nieuwe Buren 1762000 Pauw 744000 Radar 2044000 Rijdende Rechter 1345000 Roodkapje 1067000 RTL Boulevard 1117000 RTL Late Night 1562000 Spoorloos 2267000 Studio Sport 1319000 Studio Voetbal 1194000 Syndroom 1535000 The Voice of Holland 2632000 Thuis voor de buis 959000 Uitstel van Executie 1477000

Page 31: The Voice of Twitter

31

Data van fig. 2: Tweetvolume per programma, absoluut en gecorrigeerd voor aantal afleveringen.

Programma Tweetvolume gecorrigeerd Dokter Tinus 54,25 Dubbeltje op zijn kant 90,75 De Wereld Draait Door 764,9 Earthflight 78,5 EenVandaag 80,29166667 Expeditie Robinson 1323 Familiediner 386,6666667 Flikken 947,75 Geer en Goor 164 Goeide Tijden Slechte Tijden 207,65 Hart van Nederland 4,678571429 Heel Holland Bakt 738,75 Holland's Got Talent 2127,5 Holland's Next Top Model 221,5 Journaal 160,4285714 Kassa 32,5 Liefs Uit 102,5 Love is in the air 12,25 Nieuwe Buren 633,6666667 Pauw 925,45 Radar 44,25 Rijdende Rechter 516 Roodkapje 117 RTL Boulevard 12,2 RTL Late Night 587,4 Spoorloos 14,5 Studio Sport 18,35714286 Studio Voetbal 428,75 Syndroom 275,5 Thuis voor de buis 87,5 The Voice of Holland 4517,75 Uitstel van Executie 45,75

Data van fig. 4: Scatterplot van kijkcijfers ten opzichte van gecorrigeerd tweetvolume. Zie data van fig. 1 en data van fig. 2.

Page 32: The Voice of Twitter

32

Data van fig. 5: Kenmerken van de verschillende kijkersgroepen.

Programma Gemiddeld aantal tweets Gemiddeld aantal programma's

Dokter Tinus 1,307228916 2,439759036 Dubbeltje op zijn kant 1,506224066 3,340248963 DWDD 2,316124148 1,984557154 Earthflight 1,256 2,244 EenVandaag 1,891069676 2,822374877 Expeditie Robinson 1,636363636 1,864873222 Familiediner 3,778501629 3,729641694 Flikken 2,370856785 1,947467167 Geer en Goor 1,438596491 2,978070175 GTST 2,970672389 2,459227468 Hart van Nederland 2,25862069 3,068965517 Heel Holland Bakt 1,632596685 2,282872928 Hollands Got Talent 2,280889842 1,93326186 Holland's Next Top Model 1,599277978 2,523465704 Journaal 1,56352245 2,134354333 Kassa 1,214953271 3,018691589 Liefs Uit 1,952380952 3,252380952 Love is in the air 1,96 3,88 Nieuwe Buren 1,530595813 2,5 Pauw 3,0397438 2,063885696 Radar 1,149350649 2,435064935 Rijdende Rechter 2,83127572 3,049382716 Roodkapje 1,380530973 3,115044248 RTL Boulevard 1,61589404 3,973509934 RTLLN 1,774890467 2,00664753 Spoorloos 1,054545455 4,490909091 Studio Sport 1,400544959 2,588555858 Studio Voetbal 1,725352113 2,220321932 Syndroom 1,238202247 2,231460674 Thuis voor de buis 1,785714286 3,081632653 TVOH 2,464003272 1,833651486 Uitstel van Executie 1,4296875 3,6328125

Page 33: The Voice of Twitter

33

Data van fig. 6: Relatief aantal tweets en retweets per programma, voor en na filtering.

Programma Retweets voor filtering

Tweets voor filtering

Retweets na filtering

Tweets na filtering

TVOH 6091 15378 3355 14716 Pauw 7460 12305 6746 11763 DWDD 4756 13361 2861 12437 RTLLN 4927 9961 2476 9272 Hollands Got Talent

4464 7463 1936 6574

GTST 3967 5979 795 3358 Flikken 4717 3680 958 2833 Expeditie Robinson

2061 4141 1307 3985

Journaal 1662 2896 1648 2844 Heel Holland Bakt

1012 2519 507 2448

EenVandaag 974 1510 690 1237 Rijdende Rechter 412 1887 277 1787 Nieuwe Buren 575 1545 401 1500 Studio Voetbal 401 1365 372 1343 Syndroom 332 892 297 805 Familiediner 142 1020 142 1018 Holland's Next Top Model

261 751 208 678

Geer en Goor 225 582 116 540 Studio Sport 161 417 100 414 Thuis voor de buis

272 253 163 187

Roodkapje 127 364 113 355 Liefs Uit 64 347 63 347 Dubbeltje op zijn kant

132 240 130 233

RTL Boulevard 145 212 42 202 Earthflight 46 270 44 270 Radar 102 162 44 133 Dokter Tinus 54 171 50 168 Kassa 87 121 22 108 Uitstel van Executie

61 124 60 123

Hart van Nederland

90 78 89 42

Spoorloos 25 34 24 34 Love is in the air 5 44 5 44

Data van fig. 7: Relatief aantal tweets en retweets per programma. Zie data van fig. 6.

Page 34: The Voice of Twitter

34

Data van fig. 8: Genderverhoudingen per programma.

Programma Mannen Vrouwen Dokter Tinus 24 0 Studio Voetbal 273 48 Studio Sport 121 25 Kassa 27 12 EenVandaag 260 122 Love is in the air 8 4 Pauw 771 391 Journaal 540 288 De Wereld Draait Door 1109 724 Thuis voor de buis 38 25 Radar 27 20 Rijdende Rechter 173 137 RTL Late Night 1027 888 Earthflight 39 35 Hart van Nederland 12 11 Uitstel van Executie 28 26 Familiediner 73 68 Dubbeltje op zijn kant 57 54 Roodkapje 69 72 RTL Boulevard 36 38 Heel Holland Bakt 316 344 Flikken 212 252 Geer en Goor 89 114 Spoorloos 10 13 The Voice of Holland 836 1089 Syndroom 140 185 Nieuwe Buren 212 288 Got Talent 386 594 Expeditie Robinson 334 532 Goede Tijden Slechte Tijden 175 290 Liefs Uit 29 63 Holland's Next Top Model 29 86

Page 35: The Voice of Twitter

35

9.3  Lijst  van  programma’s  en  bijbehorende  hashtags

Programma Hashtags Dokter Tinus #doktertinus Dubbeltje op zijn kant #dubbeltje, #dubbeltjeopzijnkant De Wereld Draait Door #dwdd Earthflight #earthflight EenVandaag #eenvandaag, #1vandaag Expeditie Robinson #expeditierobinson Familiediner #familiediner Flikken #flikken, #flikkenmaastricht Geer en Goor #geerengoor Goeide Tijden Slechte Tijden #GTST Hart van Nederland #hvn, #hartvannederland Heel Holland Bakt #heelhollandbakt Holland's Got Talent #hgt Holland's Next Top Model #hntm Journaal #journaal Kassa #kassa Liefs Uit #liefsuit Love is in the air #liefsuit Nieuwe Buren #LIITA Pauw #nieuweburen Radar #radartv Rijdende Rechter #rijdenderechter Roodkapje #roodkapje RTL Boulevard #rtlboulevard, #rtlblvd RTL Late Night #rtlln, #rtllatenight Spoorloos #spoorloos Studio Sport #studiosport Studio Voetbal #studiovoetbal Syndroom #syndroom Thuis voor de buis #thuisvoordebuis, #tvdb The Voice of Holland #tvoh Uitstel van Executie #uitstelvanexecutie

Page 36: The Voice of Twitter

36

9.4 Kwalitatieve analyse tv-programma’s Zie bijlage in excel-bestand. 9.5 Random sample, voorbeeld van primaire dataset Zie bijlage in excel-bestand. 9.6 Matrix van gewogen relatieve overlap Zie bijlage in excel-bestand. 9.7 Matrix van Pearson-correlatie Zie bijlage in excel-bestand. 9.8 Taakverdeling binnen het team Zie bijlage in excel-bestand.