The Voice of Twitter

1

The Voice of #Twitter

Tweets over Nederlandse Televisie in september 2014

Leila Essanoussi

Friso Leder David de Wied

Koen Mooij Begeleider: Daniela van Geenen

2

Voorwoord Dankzij Utrecht Data School (UDS) en Buzzcapture hebben we interessante verbanden bloot kunnen leggen tussen verschillende televisieprogramma’s met Twitter. Daarom willen wij als team graag de mensen van de Utrecht Data School, waaronder Mirko Tobias Schäfer, Thomas Boeschoten, Daniela van Geenen, Karin van Es, James Dyer en Irene Westra bedanken voor hun suggesties, enthousiasme en samenwerking. Ook bedanken we graag Buzzcapture voor het ter beschikking stellen van hun data en software en in het bijzonder Jaap van Zessen voor zijn expertise, inspiratie en technische ondersteuning.

3

Samenvatting Het doel van dit onderzoek is verbanden tussen verschillende televisieprogramma’s te ontdekken op basis van tweets. Door middel van explorerend data-onderzoek is er gekeken naar welke televisieprogramma’s op een avond met elkaar in verband gebracht kunnen worden. Om dit te bereiken, zijn de best bekeken televisieprogramma’s van Nederland in september 2014 in kaart gebracht, inclusief bijbehorende hashtags. Op basis van de hashtags is over een periode van vier weken een gebruikersgroep vastgesteld. Binnen deze groep en periode hebben we bekeken welke hashtags nog meer populair waren om zeker te zijn dat we geen televisieprogramma’s over het hoofd zagen. Zo kwamen we uiteindelijk bij 32 televisieprogramma’s. Alle tweets over deze televisieprogramma’s hebben we verzameld, inclusief metadata. Ook hebben we gekeken naar de inhoud van de televisieprogramma’s en in het bijzonder naar de mediastrategieën die ze toepassen. Vooral het aansporen tot gebruik van Twitter was voor ons relevant om eventuele kleuring en bijzondere uitschieters te kunnen verklaren.

4

Inhoudsopgave 1.0 Inleiding 5 2.0 Theoretisch kader 6 3.0 Methode 9 4.0 Data 12 5.0 Analyse en resultaten 18 6.0 Conclusie 26 7.0 Discussie 27 8.0 Literatuur 28 9.0 Bijlagen 29

5

1.0 Inleiding Miljoenen mensen nemen deel aan de second screen-ervaring - tv kijken en tegelijkertijd een pc, laptop, smartphone of tablet gebruiken om op social media te laten weten wat ze vinden van wat ze zien op tv (Dumenco, 2012). Deze vorm van sociale interactie wordt ook wel social tv genoemd (Hill & Benton, 2012) en maakt deel uit van televisiestrategieën. The Voice of Holland betrekt social media bijvoorbeeld heel expliciet in de uitzendingen. Hashtags en tweets komen in beeld en de app die bij het programma hoort wordt regelmatig getoond en genoemd. Steeds meer programma's gebruiken deze kruisbestuiving van media. Dit levert enorme hoeveelheden aan data op rondom televisieprogramma’s en hun kijkers. De nieuwe mogelijkheden van televisie in combinatie met social media zijn leuk voor de kijkers, nog mooier voor de tv-producenten en helemaal geweldig voor de adverteerders, maar wat kan het voor ons als dataonderzoekers betekenen? 1.1 Aanleiding Het onderzoeksproject Utrecht Data School houdt zich bezig met het samenbrengen van universitaire kennis, studenten en opdrachtgevers op het gebied van data-onderzoek. In deze vierde editie kregen vijf teams opdrachten van verschillende opdrachtgevers. Het doel was om binnen tien weken data gerelateerd onderzoek te doen en de resultaten te presenteren op een symposium en in een rapport. Dit rapport is het resultaat van een van deze projecten.

In samenwerking met UDS en externe opdrachtgever Buzzcapture zijn we gaan kijken naar data rondom televisieprogramma’s vanuit Twitter. Dat Twitter zich leent voor data onderzoek hadden Thomas Boeschoten van UDS en Jaap van Zessen van Buzzcapture al laten zien. Met name de zoektocht naar de Mol in Wie is de Mol? en de afvallers van Expeditie Robinson gaven een indruk van de mogelijkheden van Twitter in combinatie met televisie. Het vermoeden van Jaap dat er veel meer met Twitter over televisie te zeggen valt, is vervolgens door ons bevestigd. De expertise en professionele ervaring van Jaap op dit vlak leverde de inspiratie voor dit onderzoek. Zo kwamen we in dialoog met hem tot de volgende vraag: Wat laat Twitter zien over televisiekijkend Nederland?

6

2.0 Theoretisch Kader In dit theoretisch kader zetten we de belangrijkste concepten binnen ons onderzoek in perspectief. We bieden hiermee de academische onderbouwing en context voor hoe we deze begrippen gebruiken in de rest van het rapport. 2.1 Totstandkoming en beschikbaarheid van data Farida Vis (2013) wijst in ‘A critical reflection on Big Data: Considering APIs, researchers and tools as data makers’ op twee soorten tekortkomingen. De eerste categorie is dat data er niet gewoon is, maar gemaakt of tenminste geselecteerd moet worden. Zelfs bij een relatief eenvoudige bron van data als Twitter komen er strategieën en keuzes bij kijken als het gaat om hoe de data verzameld wordt. De keuzes zullen het resultaat beïnvloeden. Daarom worden vragen als wie de data verzameld heeft, met welke invalshoek, op welke manier en met welke techniek, is relevant voor de zeggenschap van de resultaten. De tweede categorie is data-specifieke ruis, zoals duplicaten in een dataset. Hoewel deze ruis een onderzoek kan verstoren, is niets a priori ruis en vraagt het om oplettendheid van onderzoekers en kennis van hun methode en doelen.

Vis geeft aan dat Twitter als data-leverancier behoefte heeft bij een (ogenschijnlijk) rijkere selectie aan data, maar dat de kwalitatieve data hiermee niet toegenomen hoeft te zijn. Boyd en Crawford (2012) bespreken het gevaar van kwantificatie onder “bigger data are not always better data.” Correlaties lijken sterker bij grotere datasets, maar dit kan ook een teken zijn dat de dataset nog irrelevante informatie of ruis bevat. Voor big social data kunnen we vaak alleen terecht bij grote social media, waarbij nieuwe factoren de selectie en filtering van de data bepalen.

Boyd en Crawford (2012) stellen met betrekking tot beschikbaarheid van data dat de beperkte beschikbaarheid van specifieke data het meest voor de hand liggend is. Selectief vrijgeven door bedrijven of – onbedoeld – selectieve beschikbaarheid als gevolg van technologische drempels kan een digital divide creëren, waarschuwen zij. Dit staat de herhaalbaarheid van wetenschappelijk onderzoek in de weg. Manovich (2011) wijst in lijn hiermee op het feit dat bekendheid met relevante technologie per vakgebied zal verschillen, wat ongelijke barrières creëert in de mogelijkheden van wetenschappelijk onderzoek. De kanttekening die Eisner (1997) maakt, is aan het bovenstaande verbonden: wanneer de data beschikbaar maar “onleesbaar” is voor het grote publiek, en alleen de interpretatie, vertaling of representatie voor hen bestaat, komt een interpreterende macht te liggen in de handen van een onderzoeker die bezig zou moeten zijn met data-onderzoek.

In ons onderzoek hebben we te maken met data die we als ruis ervaren, en om de invloed hiervan te beperken hebben we kwaliteit van de data geprobeerd te vergroten door kwalitatieve analyse en gedeelten van de data op basis hiervan niet te gebruiken. 2.2 Twitter Inzicht hebben in het gebruikersbestand van Twitter biedt belangrijke context aan de vorming van hypotheses en het trekken van conclusies op basis van de data. Kennis van de demografie van Twitter vult de gaten met betrekking tot welke personen over- en ondervertegenwoordigd zijn. Dit aspect van over- en ondervertegenwoordiging is van belang omdat het van grote invloed is op zowel inhoud als gebruik van het platform Twitter. Er is nauwelijks gepubliceerd Nederlands onderzoek te vinden. Onderzoek dat wel beschikbaar is, is schaars, inconsistent en heeft voornamelijk betrekking op het Amerikaanse gebruikersbestand. Daarnaast zijn voor de dataverzameling vaak experimentele onderzoeksmethoden en -algoritmes gebruikt.

Mislove, Lehmann en Ahn (2011) hebben de data van 54 miljoen Amerikanen geanalyseerd en geprobeerd de geografische locatie, gender-informatie en etniciteit vast te stellen op basis van publiek toegankelijke profielinformatie. De belangrijkste vondst in de geografische data was dat de meer dichtbevolkte gebieden een grotere representatie hadden in het Twitter gebruikersbestand (Mislove et al, 2011). De gender van de gebruikers is bepaald aan de hand van de voornaam waarvoor een algoritme werd gebruikt. In 64% van de gevallen heeft de

7

algoritme een voornaam kunnen vinden, hiervan was 72% man. Uit een eerder telefonisch onderzoek van Smith en Rainie (2010) bleek echter dat 7% van de mannelijke internetgebruikers op Twitter zitten, terwijl 10% van de vrouwelijke internetgebruikers op Twitter zitten. Deze interessante tegenstelling kan een indicatie zijn voor een fout in één of beide onderzoeken.

Hoewel deze resultaten gebaseerd zijn op data uit de Verenigde Staten, kunnen deze resultaten tot op zekere hoogte gebruikt worden om iets te zeggen over Nederlandse Twitteraars. In 2008 hebben Kulshrestha, Kooti, Nikravesh en Gummadi onderzoek gedaan naar de geografische distributie van het Twitternetwerk. Een van hun bevindingen was dat de Twitterpopulatie per land sterk correleert met de Human Development Index. Hierbij scoort de V.S. 0.914 en Nederland 0.915. Echter, grote verschillen in productie, consumptie, import en export van tweets tonen aan dat voorzichtigheid is geboden bij het deduceren van de conclusies. 2.3 Social tv In de inleiding werd al genoemd dat kijkers gedurende uitzendingen van hedendaagse televisieprogramma's worden aangespoord om met andere kijkers te communiceren. Volgens McPerson et al (2012) is Twitter een medium is dat de traditie van het bespreken van televisiprogramma’s voortzet met real-time mogelijkheden.

Zoals eerder genoemd, is The Voice een goed voorbeeld van een televisieprogramma waar duidelijk een televisiestrategie wordt ingezet. Ten eerste worden er tijdens de uitzendingen tweets op het beeldscherm getoond. Een conclusie die Hill en Benton trekken, is dat het tonen van een tweet tijdens een uitzending het aantal retweets vergroot (2012). Ten tweede verhoogt het tonen van hashtags tijdens een uitzending het aantal tweets gerelateerd aan dat televisieprogramma. De conclusie van Hill en Benton is dat een hashtag een brug vormt voor mensen die in hetzelfde televisieprogramma zijn geïnteresseerd: zij kunnen makkelijker erover praten en maken tegelijkertijd reclame voor het televisieprogramma (2012).

In een onderzoek naar Twittergebruik gedurende een uitzending van Glee in de Verenigde Staten, gaven sommige kijkers aan dat zij meer gemotiveerd waren om de uitzending live te bekijken vanwege de mogelijkheid om live te kunnen Twitteren (McPherson et al., 2012). Tevens noemden de kijkers dat live-Twitteren "a social, interactive aspect" toevoegt aan het kijken van het televisieprogramma. Ondanks dat kijkers fysiek individueel naar de uitzending kijken, draagt het live-Twitteren bij aan het idee van een gemeenschap waarbij leden in grote getallen simultaan samen naar de uitzending kijken. Hill en Benton (2012) beschrijven dat het doel van social tv is om mensen te motiveren live televisie te kijken zodat zij kunnen deelnemen aan 'that specific social experience'. Deze nieuwe vorm van communicatie, namelijk live-Twitteren, wordt ook wel 'mass self-communication' genoemd (Courtois & D'heer, 2012). Hiermee in lijn ligt Twitter als een vorm van een virtuele lounge waarbij actief publiek van bepaalde televisieprogramma's verbonden zijn op onovertroffen schaal en waarmee de activiteiten van dit publiek worden versterkt (Harrington, Highfield & Bruns, 2012).

Een voorbeeld van Twitter als virtuele lounge is een opvallend resultaat uit het eerder genoemde Glee onderzoek: live-Twitteren wordt door een aantal kijkers ervaren als het hebben van een gesprek. Het blijkt echter dat kijkers voorrang geven aan het plaatsen van eigen tweets en minder geïnteresseerd zijn in het lezen van en het reageren op tweets van andere kijkers (McPherson et al., 2012).

In 2011 gaven Greer en Ferguson aan dat de televisie-industrie moet zien mee te groeien met de groeiende populariteit van het bekijken van televisieprogramma's via andere (mobiele) kanalen. Een jaar later blijkt echter uit een onderzoek naar second screen dat kijkers zich in mindere mate bewust zijn van het bestaan van second screen apps; met name kijkers die tijdens het televisie kijken geen gebruikmaken van andere 'schermen' als een tablet of smartphone (Courtois & D'heer, 2012). Indien kijkers zich wel bewust zijn van het bestaan van second screen apps, zouden zij alsnog via hun televisiebeeldscherm herinnerd moeten worden aan deze apps door de televisieprogramma's die second screen ondersteunen, aldus Courtois en D'heer (2012). Kijkers die gedurende het televisie kijken (nog) geen gebruikmaken van second screen blijken niet door second screen apps gemotiveerd te zijn om dit wel te gaan doen; de kans is groter dat er gebuik wordt gemaakt van social media als Facebook dan second screen apps (Courtois & D'heer, 2012). 2.4 Visualisatie en representatie

8

Bollier en Firestone (2010) benoemen visualisatie als sense-making tool – dit doet direct denken aan Vis. Wanneer data-visualisatie wordt ingezet op een manier waarop het ook vragen op blijft werpen, is het simpel gezegd een goed middel. Dit contrasteert enigszins met data-visualisatie als sense-making tool – het is evengoed een question-raising tool – en tussen deze twee invullingen moet een balans bestaan. Belangrijk hierbij is dat visualisatie echter nooit een enkele methode of tool is – er zijn vele vormen, elk met eigen gevaren en waarde.

9

3.0 Methode Om antwoord te geven op de vraag in hoeverre er inzichten te ontwikkelen zijn over de verbanden tussen Nederlandse televisieprogramma’s in door middel van tweets, is data nodig. Tweets zijn relatief eenvoudig te downloaden, als je weet welke je zoekt. De praktische en wetenschappelijke overwegingen voor de selectie en verwerking van de data staan hieronder samengevat. 3.1 Selectie onderzoekperiode en televisieprogramma’s Het begin van het onderzoek viel samen met het begin van een nieuw televisieseizoen. Er is gekozen voor een kader van de eerste vier weken van dat nieuwe seizoen, dit kader past goed in de scope van dit onderzoek. Dat wil zeggen dat het onderzoek gebaseerd is op data uit de periode van 01-09-2014 tot en met 29-09-2014. De reden dat er nog een extra dag is opgenomen in deze termijn, heeft te maken met hoe het gesprek op Twitter over een uitzending nog door kan lopen in de avond tot voorbij middernacht. Deze extra dag is dus enkel relevant voor tweets over televisieprogramma’s van zondagavond 28-09-2014.

Een potentieel interessant resultaat zijn de relaties tussen programma’s door een overlap in unieke kijkers, wat eventueel zou kunnen duiden op een soort doelgroep. Nog interessanter zou zijn om relaties te ontdekken tussen televisieprogramma’s van een specifieke avond in de week door te kijken naar unieke gebruikers van Twitter, om zo ‘zapgedrag’ op de avond zelf in kaart te brengen. Om dit te kunnen onderzoeken, is gekozen voor relatief veel televisieprogramma’s ten opzichte van de onderzoekperiode. Om per televisieprogramma zeker te zijn van voldoende data, waren hoge kijkcijfers het selectiecriterium. Op basis van de kijkcijfers van Stichting Kijkonderzoek (www.kijkonderzoek.nl) is bepaald welke dertig televisieprogramma’s het best bekeken zijn in die eerste vier weken van september 2014. 3.2 Dataverzameling op basis van hashtags Vanuit de top dertig hebben we de relevante hashtags verzameld. Deze hashtags zijn gevonden door een combinatie van zoekmethoden. Deze hashtags hebben we gecontroleerd op Twitter.com. Sommige programma’s zijn gezocht in combinatie met de naam van de omroep, als de titel van het televisieprogramma ambivalent is. Dit was in het geval van bijvoorbeeld Spoorloos. De zoekterm zou dan dus zijn ‘spoorloos kro hashtag’. Daarnaast was op bijna alle officiële websites van de televisieprogramma’s een suggestie voor een hashtag te vinden. Deze suggestie kwam uiteindelijk vrijwel altijd overeen met de hashtag die het meest populair was om over het betreffende televisieprogramma te tweeten. Voor een aantal televisieprogramma’s waren meerdere hahstags in gebruik. We hebben gekozen om in sommige gevallen de twee meest populaire te gebruiken, alhoewel er vrijwel altijd een in volume duidelijk dominante hashtag te herkennen was.

Aan de hand van de lijst met hashtags welke als bijlage is opgenomen in dit rapport, zijn tweets gedownload die de ruwe data vormden. Voor deze stap stelde de opdrachtgever, BuzzCapture, hun tool beschikbaar. Het downloaden van tweets gaat per gebruiker en per gebruiker geldt datde 3.200 meest recente tweets ingezien en gedownload kunnen worden. Echter, de tool van BuzzCapture is zo opgebouwd dat alle tweets van bepaalde onderwerpen worden gearchiveerd. Alle hashtags die waren geselecteerd, stonden al op de archiveerlijst van BuzzCapture waardoor het maximum van 3.200 tweets per gebruiker voor ons niet aan de orde was. Bij het downloaden van data via de BuzzCapture tool is er een mogelijkheid om de data als Excelbestanden te downloaden. In een dergelijk bestand zijn niet alleen de tweets aanwezig, maar ook de gebruikersnaam, tijd en datum en andere metadata die verder niet relevant waren voor dit onderzoek. Iedere rij geeft een unieke tweet weer (voor die hashtag). Een voorbeeld van hoe dit er ongeveer uit ziet is in de bijlage te vinden.

De data op basis van deze criteria was nog niet direct geschikt voor een onderzoek naar verbanden. Veel tweets die een hashtag van een televisieprogramma bevatten, zijn niet van kijkers die over het programma willen converseren of laten weten dat ze kijken. Daarom hebben we sommige tweets of gebruikers uit de set gefilterd op basis van specifieke criteria. Over dit onderscheid tussen kijkers en niet kijkers wordt uitgebreid ingegaan in het hoofdstuk over data onder het kopje filters.

10

Ter controle van onze selectie van programma’s en hashtags hebben we onderzocht of er nog hashtags en televisieprogramma’s waren waarover onze groep sprak op Twitter, maar ontbrak in de selectie tot nu toe. Dus binnen de gebruikersgroep zoeken naar andere hashtags die over televisieprogramma’s gaan was de volgende stap. Hiervoor was de tool van BuzzCapture uitermate geschikt. Een lijst met de unieke gebruikers, die we als kijkers hadden geduid, kon als selectiecriterium ingezet worden om te kijken naar alle tweets die deze groep had gestuurd. Bovendien kan met deze tool eenvoudig de meest populaire hashtags gezien worden. Na het filteren van hashtags die al op onze lijst voorkwamen, bleven veelhashtags over die over actuele onderwerpen uit september 2014 gingen, bijvoorbeeld #prinsjesdag en #monstertruck. Twee uitschieters die voor ons wel relevant waren, zijn #pauw en #hntm, omdat die respectievelijk over de talkshow Pauw en Hollands Next Top Model gaan. Dit zijn twee televisieprogramma’s die het niet haalden in onze kijkcijferlijst, maar wel erg populair zijn op Twitter. Deze twee televisieprogramma’s zijn toegevoegd aan de eerste lijst van televisieprogramma’s en kwamen we op een totaal van 32 televisieprogramma’s binnen dit onderzoek. Voor de hashtags bleek dat alle relevante hashtags al gevonden waren. 3.3 Kwalitatief onderzoek Om de populariteit van Pauw en Hollands Next Top Model op Twitter te kunnen verklaren en om andere resultaten beter te kunnen plaatsen, hebben we een deel van dit onderzoek toegewijd aan een kwalitatieve analyse van de televisieprogramma’s. Deze kwalitatieve analyse is uitgevoerd met het idee om sociale televisiestrategieën in kaart te brengen en dit te koppelen aan de cijfers die uit de Twitterdata blijken.

Van ieder televisieprogramma hebben we ten minste een hele aflevering bekeken om te zien in welke mate er tijdens de uitzending hashtags, sites en andere cross-mediale referenties in beeld te zien zijn en/of genoemd worden. Ook is de officiële website van het televisieprogramma bezocht en onderworpen aan een analyse voor links, verwijzingen, oproepen, enzovoort, die de combinatie van sociale media of andere cross-media tactieken aangeven. Alvorens de televisieprogramma's geanalyseerd werden, is een format in Excel opgesteld zodat er zoveel mogelijk op dezelfde aspecten van een uitzending werd gelet. Deze aspecten zijn as onderdeel van het uiteindelijke resultaat opgenomen als bijlage.

Alvorens dit format definitief te maken, is een pilot met twee televisieprogramma's gedaan. Hieruit kwam naar voren dat het format op een tweetal aspecten aangepast moest worden. Ten eerste bleek dat hashtags en sites niet alleen op beeld werden getoond, maar dat er ook mondeling naar werden verwezen. Ten tweede kwam uit de pilot naar voren dat het lastig is om de looptijd van een aantal televisieprogramma's nauwkeurig in kaart te brengen. Om deze reden is besloten om dit aspect achterwege te laten. 3.5 Exploreren van de data Omdat het aan het begin van het onderzoek onduidelijk was wat er precies in de data aan relevante gegevens te vinden zou zijn in het kader van onze vraag, zijn we exploratief te werk gegaan. Dat betekent dat we gaandeweg nieuwe deelvragen hebben ontwikkeld en verschillende tactieken hebben toegepast om deze te beantwoorden.

In eerste instantie hebben we alle data in Excel bekeken. Om de uiteindelijke verbanden tussen de televisieprogramma’s in kaart te brengen, hebben we twee verschillende maar verwante tactieken toegepast. Een statistische aanpak en een visualisatie van een relatienetwerk op basis van een algoritme, dus beide met behulp van software. De details hiervan zullen besproken worden in het hoofdstuk Data en verder worden toegelicht in het hoofdstuk Analyse en Resultaten. 3.6 Gephi Voor de netwerkvisualisatie hebben we gebruikgemaakt van het programma Gephi. Gephi is een open-source programma, ontworpen om netwerken in kaart te brengen (Bastian M., Heymann S., Jacomy M., 2009). Een netwerk bestaat in dit geval uit zogenaamde nodes en de verbindingen daartussen (edges). De relatieve zwaarte van deze verbindingen kan uitgedrukt worden in edge weight. Edges kunnen directed of undirected zijn, wat uitdrukt dat een verbinding respectievelijk van A naar B dan wel tussen A en B bestaat.

11

Voor het in kaart brengen van een netwerk biedt Gephi enkele algoritmen, waaronder ForceAtlas 2 – het algoritme waar wij voor gekozen hebben. ForceAtlas 2 is een algoritme dat uitgaat van edges en edge weight tussen nodes, en op basis hiervan een zwaartekracht simuleert. Het algoritme zoekt naar een evenwichtige layout waarin nodes die onderling (sterk) verbonden zijn dicht bij elkaar komen te staan. De details van dit algoritme worden door de ontwikkelaars van Gephi en ForceAtlas 2, uitgebreid beschreven (Jacomy M, Venturini T, Heymann S, Bastian, 2014). Voor de verwerking van data biedt Gephi enkele filters. Op basis van eigenschappen zoals aantal verbindingen, richting of zwaarte van deze verbindingen, kunnen nodes of edges buiten beschouwing blijven in onderdelen van een visualisatie. Een andere functionaliteit van Gephi die voor onze visualisaties relevant is, is de modularity. Dit is een wiskundige berekening die een netwerk beoordeelt op de mate waarin het in onderling sterk verbonden clusters op te delen is, en deze afzonderlijke clusters in modularity classes indeelt.

12

4.0 Data Onze belangrijkste twee datasets zijn de tweets en kwalitatieve data over de programma’s. In dit hoofdstuk bespreken we eerst de kwalitatieve data en meta-data over de programma’s, vervolgens de tweets en verwerkingen daar van.

13

4.1 Kwalitatieve data TV-programma’s Tabel 1: Kwalitatieve data over het media beleid van de 32 programma’s.

Titel programma

Link op website naar Twitter

Officiële Twitter account

Hashtag in beeld

Website in beeld

App beschikbaar

Uitzendingen binnen tijdsframe Opmerkingen

De Wereld Draait Door + + - + - 20 Website benoemd

Dokter Tinus + - - - - 3

Dubbeltje op zijn Kant - + + + - 4 Website genoemd

Earthflight - - - + - 4

Een Vandaag + + - + - 24

Expeditie Robinson + + + + + 4 Hashtag en website genoemd

Familiediner - + - + - 4 Website genoemd

Flikken Maastricht + + - + - 4

Geer en Goor + + + + - 4

Goede Tijden Slechte Tijden + + - - + 20

Hart van Nederland + + - + - 28 Website genoemd

Heel Holland Bakt + + - + - 4

Holland’s Got Talent + + + + + 4 Hashtag en website genoemd

Holland's Next Top Model + + + + + 4 Hashtag en website genoemd

Journaal + + - + + 28 Website genoemd

Kassa + + - + + 4 App genoemd

Liefs Uit + + + + - 4 Website genoemd

Love is in the Air - - - - - 4

Nieuwe Buren + + - + - 3

Pauw + + + + - 20 Hashtag en website genoemd en hashtag op sappige momenten in beeld

Radar + + + + + 4 Website en app genoemd

Rijdende Rechter + + - + + 4 Website genoemd

Roodkapje - - - - - 4

RTL Boulevard - + - + - 20 Website genoemd

RTL Late Night - + + + - 20 Heel vaak in beeld en benoemd

Spoorloos + + - + + 4 Website in beeld en benoemd. Twitter account gehackt.

Studio Sport Eredivisie - + - - - 4

Studio Voetbal - - - - - 4

Syndroom + + + + - 4

The Voice of Holland + + + + + 4

Hashtag, website en app genoemd. Tweets van gebruikers komen in beeld.

Thuis voor de Buis + + + - - 4

Uitstel van Executie - - - + - 4

14

In tabel 1 staan de belangrijkste gegevens die we verzameld hebben tijdens het kwalitatieve deel van ons onderzoek. De volledige versie staat in de bijlage. Omdat bepaalde programma’s meerdere malen per dag worden uitgezonden, zoals bijvoorbeeld het Journaal, hebben we gekozen om als maximale aantal uitzendingen 28 te kiezen, één voor elke dag. Van de 32 programma’s tonen er 25 de website in beeld tijdens de aflevering en 12 daarnaast ook nog de hashtag. Ook valt op dat een aantal programma’s een app hebben om mensen meer te betrekken. Waar sommige programma’s zoals The Voice vele malen de hashtag tonen, tweets live uitzenden en de app aanprijzen, laten andere programma’s zoals bijvoorbeeld Love is in the Air deze mogelijkheden volledig links liggen. 4.2 Kijkcijfers

Fig. 1: Kijkcijfers van 32 programma's. Omdat het via de website van stichting kijkonderzoek niet mogelijk is om gemiddelde kijkcijfers over de maand op te vragen of te berekenen, hebben we gekozen om uit de maand top 100 voor elk programma de aflevering te pakken die daarin genoemd werd. Hoewel dit de best bekeken aflevering en niet het gemiddelde is, is dit een acceptabel compromis als dit voor alle programma’s geldt. Het is duidelijk dat er grote verschillen zitten tussen bepaalde programma’s. De twee programma’s die we later geselecteerd hebben op basis van de terugkoppeling van de meest diverse kijkers, Holland’s Next Top Model en Pauw hebben lagere kijkcijfers dan gemiddeld. Spoorloos, The Voice of Holland en Het Journaal werden in september het best bekeken. 4.3 Volume in tweets

15

Fig. 2: Tweetvolume per programma, absoluut en gecorrigeerd voor aantal afleveringen. In deze grafiek staat de absolute hoeveelheid berichten afgebeeld in rood. Omdat sommige programma’s veel vaker worden uitgezonden, en er dus veel vaker de mogelijkheid is er live over mee te tweeten, hebben we gekozen de absolute hoeveelheid te delen door het aantal uitzendingen binnen het tijdsframe. De gemiddelde hoeveelheid berichten per aflevering staan aangegeven in het blauw. Hoewel er bij de meeste programma’s sprake is van vier afleveringen in de maand, worden bijvoorbeeld Pauw en RTL Late Night veel vaker uitgezonden. Waar deze programma’s er qua absolute hoeveelheid hoog uitspringen zijn ze gemiddeld per aflevering veel minder groot. 4.4 Filters In de virtuele lounge die Twitterhashtags opzetten (Harrington, Highfield & Bruns, 2012), verzamelen zich mensen die geïnteresseerd zijn in het gerelateerde onderwerp. Maar niet alleen mensen die deze directe interesse hebben komen af op de lounge die is ontstaan. Andere partijen met belangen die gerelateerd zijn aan de lounge, zoals in ons geval marketing rond het televisieprogramma, of acteurs uit de show zullen zich soms ook vanuit een professioneel uitgangspunt laten zien. Deze categorie die we professioneel hebben genoemd, is meestal te herkennen aan de vormgeving die vaak uitgedacht en coherent is. Inhoudelijkworden er veel aansporingen gedaan om de site te bezoeken en bevatten de tweets weinig persoonlijke informatie of reflectie. Deze accounts hebben relatief veel volgers.

Omdat de lounge publiekelijk toegankelijk is en het daar binnen vaak gaat om een groep mensen waarvan de interesse bekend is, biedt het ook ruimte voor partijen die een doelgroep denken te vinden. Dit is vergelijkbaar met posters aan de muur van de lounge. Deze categorie hebben we spam genoemd. Spam is herkenbaar door het gebruik van meerdere hashtags binnen één bericht om het bereik te vergroten. Herkenbaar is ook het gebruik van veel verschillende hashtags binnen dezelfde account. De tweets bevatten vaak ongerelateerde content.

Een bijzonder geval was de #televizierring.Een beperkt aantal hashtags grotendeels gerelateerd aan televisie, kwam steeds in wisselende combinaties terug. Dit bleek te maken te hebben met de Televizierring, een prijs waarvoor een aantal programma’s genomineerd waren (en dus steeds genoemd) in combinatie met #televizierring. Dit is geen echte spam, maar kreeg door de vorm wel hetzelfde karakter.

16

Een aantal accounts viel op omdat ze relatief veel retweets (doorgestuurde berichten) hadden. Dit bleek te verklaren door de humoristische invulling en inhoud van sommige accounts. In dat geval waren ze te herkennen door de grote hoeveelheid grappen over verschillende populaire onderwerpen en een duidelijke poging om via Twitter een publiek te vinden voor hun grappen. Deze grappen worden vaak om hun humor doorgezonden, waarschijnlijk hebben de verstuurders wel enig gevoel bij de televisieprogramma’s waarover de grappen gemaakt worden, maar het is geen teken van ‘kijken’. Daarom hebben we besloten de bovenstaande categorieën te proberen te vinden in onze dataset, om ze vervolgens te verwijderen. Om te bepalen welke accounts binnen de categorieën horen die hierboven herkend zijn, hebben we alle accounts op een lijst gezet en achtereenvolgens gesorteerd op retweets, tweets en diversiteit van hashtags. Voor iedere sortering hebben we de top geanalyseerd op inhoud, net zo lang tot we weinig accounts tegen kwamen die in aanmerking kwamen voor een van de categorieën. We hebben gekeken naar de tweets binnen de dataset, maar ook andere tweets van die accounts, om te bepalen of ze in een van de categorieën thuis hoorden. Accounts die uiteindelijk binnen een categorie vielen, hebben we benaderd als een niet-kijker. Daarom zijn deze accounts uit het grootste deel van de resultaten weggelaten, omdat we vooral op zoek zijn naar verbanden tussen kijkers. Dus we hebben met deze filtering geprobeerd een dataset te maken die niet alleen hashtags bevat over televisie programma’s, maar voor zover mogelijk ook voornamelijk tweets bevat die kijkgedrag duiden. In de resultaten zullen nog wat reflecties naar voren komen op deze keuze en hoe deze filter onze resultaten heeft beïnvloed. In de discussie zal naar voren komen dat het filteren wel relevant is gebleken, maar ook nog voor verbetering vatbaar is. 4.5 Tweets, kijkers en overlap Om de data klaar te maken analyse, was er soms ook een transformatie nodig. Allereerst hebben we aan onze dataset een kolom toegevoegd, met daarin het relevante programma, onder de noemer target, en de titel van de kolom user veranderd in source. Dit om het voor Gephi leesbaar te maken. Hierna hebben we voor elke tweet bepaald of het een retweet was, door te filteren op tweets die met “RT @” begonnen. Hiervan hebben we ook bepaald van welke account de originele tweets waren, en dit als meta-data toegevoegd.

Voor een tweede dataset hebben we onze lijst met tweets teruggebracht tot twee kolommen: source (de username) en target (het programma). Deze hebben we versimpeld door elke combinatie maar één keer voor te laten komen. Op basis hiervan hebben we een kruistabel of matrix gecreëerd met horizontaal alle programma’s en verticaal alle usernames, met in de cel een 0 of 1 die aangeeft of de user en het programma aan elkaar verbonden zijn. Hieraan toegevoegd hebben we per user een diversiteit berekend, door de 0 en 1-scores bij elkaar op te tellen.

Uit deze matrix konden we een matrix creëren met zowel horizontaal als verticaal de programma’s, met in de cellen de absolute overlap in kijkers. Dit hebben we gedaan door te kijken naar het aantal kijkers waarbij beide programma’s voorkwamen – de co-occurence. Dit is een symmetrische matrix met in de diagonale lijn van cellen waarin de programma’s met zichzelf kruisen het aantal unieke kijkers per programma.

Deze informatie hebben we verwerkt tot een matrix van relatieve overlap. Door in elke cel het getal te delen door het aantal unieke kijkers van het programma in de corresponderende rij, ontstaat in de kolommen een overzicht van de relatieve overlap die elk programma heeft met het programma in de corresponderende rij. Dit is een niet-symmetrische matrix. Deze matrix hebben we vervolgens verwerkt tot een matrix van gewogen relatieve overlap. Hier hebben we de getallen aan de ene kant van de hoofddiagonaal vermenigvuldigd met de corresponderende getallen aan de andere kant van de hoofddiagonaal. Hieruit volgt een getal wat de relatieve overlap vanuit A naar B uitdrukt, gewogen op de relatieve overlap vanuit B naar A.

Het uiteindelijke resultaat is een matrix met getallen die de relatieve compatibiliteit van twee programma’s aangeven. Deze is terug te vinden in de bijlagen. 4.6 Eigenschappen kijkersgroepen Voor een verdere verwerking van onze data hebben we ook gekeken naar enkele kenmerken van de kijkersgroepen van elk programma. Voor het aantal programma’s hebben we voor elke kijker de hierboven genoemde diversiteit

17

genomen. Hiervan hebben we vervolgens voor elk programma de gemiddelde waarde van al hun kijkers genomen. Voor het aantal tweets hebben we het eerder besproken tweetvolume per programma gedeeld door het aantal unieke kijkers per programma, wat neerkomt op gemiddeld aantal tweets per kijker. Een andere eigenschap van kijkersgroepen die wij bepaald hebben, is een eigenschap van de users op Twitter, op individueel niveau. Via onze technisch partner Buzzcapture hadden wij de mogelijkheid om voor een groep users een genderbepaling te doen. We hebben hiervoor een lijst opgesteld van users die aan meer dan een programma waren verbonden, in totaal 8.461 uit onze totale dataset. Het resultaat hiervan was 2.870 mannelijk, 2.809 vrouwelijk en 2.782 onbekend, wat grofweg overeenkomt met eerder besproken onderzoek naar genderbepaling. De genderbepaling is uitgevoerd door Buzzcapture, met behulp van SocialBro, door een algoritme in combinatie met een steekproefsgewijze menselijke controle. 4.7 Matrix van Spearman-correlatie De gewogen matrix wilden we vergelijken met een statistische analyse. Hiervoor hebben we gebruik gemaakt van het Statistiekprogramma SPSS. Na het binair maken van de dataset konden we een non-parametrische Spearman-correlatie test uitvoeren om voor alle programma’s onderling een correlatie coëfficiënt te krijgen. Om deze tabel inzichtelijker te maken zijn de sterk significante relaties (p>0.01) hier dikgedrukt. Daarnaast zijn de negatieve correlaties in het rood en de positieve relaties in het zwart. Tot slot is in Excel gebruik gemaakt van “conditional formatting”, waarbij in een dataset relatieve positieve en negatieve waarden in categorieën van kleuren worden gesorteerd. Door dit per kolom apart te doen is voor elk programma zichtbaar met welke programma’s een sterke positieve of negatieve relatie bestaat. In de eerste kolom is bijvoorbeeld in de groene blokken zichtbaar dat Dokter Tinus een significant positieve relatie heeft met drie andere fictionele series, Flikken, GTST en Nieuwe Buren, en een significant negatieve relatie met de actualiteitsprogramma’s Pauw en DWDD. De gegevens uit deze matrix zullen gebruikt worden om visualisaties te contextualiseren en verdere conclusies te onderbouwen.

Fig. 3: Matrix van Spearman-correlatie.

18

5.0 Analyse en resultaten 5.1 Kijkcijfers en tweetvolume

Fig. 4: Scatterplot van kijkcijfers ten opzichte van gecorrigeerd tweetvolume. In deze scatterplot staan de absolute kijkcijfers op de X-as afgezet tegen het gemiddelde aantal tweets per aflevering op de Y-as. Direct zichtbaar is dat de relatie tussen kijkcijfers en tweets niet lineair is; programma’s met vergelijkbare kijkcijfers kunnen verschillen van 10 tot 1000 tweets per aflevering. Vanwege deze grote verschillen hebben we gekozen de gemiddelde tweets per aflevering op een logaritmische schaal te noteren om de leesbaarheid te bevorderen. In deze analyse zullen een aantal bijzondere gevallen uitgelicht en vergeleken worden met de uitkomsten van de kwalitatieve analyse. De grootste uitschieter hier is The Voice Of Holland, en hoewel de kijkcijfers erg hoog zijn, is de magnitude van het verschil in gemiddelde tweets per aflevering, met meer dan 4500 berichten, ongekend hoog. Uit de kwalitatieve analyse is gebleken dat The Voice een zeer omvangrijk mediabeleid voert en naast het meermaals in beeld brengen van de hashtag ook tweets live op het scherm laat zien en een eigen app heeft. Een vergelijkbaar, maar minder volledig mediabeleid is zichtbaar bij Holland’s Got Talent en Expeditie Robinson. Ook deze twee programma’s scoren met meer dan 1000 tweets per aflevering hoog. De programma’s die later geselecteerd zijn op basis van terugkoppeling zijn hier ook duidelijke uitschieters; ondanks de lage kijkcijfers hebben zowel Holland’s Next Top Model als Pauw relatief veel tweets per uitzending. Aan de andere kant van het spectrum is Spoorloos. Hoewel dit programma een actief mediabeleid heeft met onder andere een eigen app, is het duidelijk dat de focus niet ligt op Twitter. Behalve het feit dat de hashtag niet wordt weergegeven tijdens het programma is de officiële Twitter account van het programma gehackt en op het moment van schrijven niet online. Deze focus op andere vormen van digitale media is ook terug te zien in de gemiddelde hoeveelheid tweets; ondanks dat het programma een van de hoogste kijkcijferaantallen heeft, worden er gemiddeld 15 tweets met de hashtag Spoorloos gestuurd per uitzending. 5.2 Kenmerken kijkersgroepen

19

Fig. 5: Kenmerken van de verschillende kijkersgroepen. In dit scatter-plot grafiek staat het gemiddelde aantal tweets dat een gebruiker over een bepaald programma plaatst op de X-as tegenover het gemiddelde aantal andere programma’s dat een gebruiker volgt naast het programma waar hij een tweet over plaatst. The Voice of Holland heeft bijvoorbeeld een relatief grote hoeveelheid tweets per gebruiker en heeft de laagste diversiteit in aantal andere programma’s. Dit wil zeggen dat deze mensen voornamelijk over de Voice tweeten en weinig over andere programma’s, maar binnen dit programma wel erg actief zijn. Het tegenovergestelde wordt zichtbaar bij Spoorloos. Als een gebruiker al iets over Spoorloos plaatst, is dat vaak eenmalig maar tweeten hiernaast over gemiddeld meer dan vier andere programma’s. Deze beide extremen zijn terug te vinden in de kwalitatieve data; waar The Voice duidelijk veel moeite doet om mensen over de uitzending te laten tweeten, is Spoorloos helemaal niet actief op Twitter. Veel van de programma’s die laag scoren op gemiddelde tweets per uitzending scoren hier hoog op diversiteit van kijkgedrag. Kijkers zijn dus niet op Twitter voor bijvoorbeeld Spoorloos, maar gebruiken Twitter al vaker en kijken ``toevallig`` ook Spoorloos. Het tegenovergestelde geldt ook; programma’s met hoge kijkcijfers en gemiddelde tweets per uitzending hebben een lage diversiteitsscore. Dit is te verklaren door het feit dat deze programma’s veel bekeken worden en veel aansporen tot Twitter-gebruik. Op deze wijze zijn er veel mensen die overgehaald worden en incidenteel een tweet plaatsen maar normaal gesproken niet of weinig over televisie tweeten. Familiediner is ook een interessante uitschieter met de grote hoeveelheid tweets per gebruiker en een hoog aantal programma’s per kijker. Dit duidt op een actieve achterban die daarnaast ook nog eens zeer divers is. 5.3 Impact van filters

20

Fig. 6: Relatief aantal tweets en retweets per programma, voor en na filtering.

Fig. 7: Relatief aantal tweets en retweets per programma, na filtering. In dit staafdiagram worden per programma twee relatieve ratio’s tussen tweets en retweets afgebeeld, de eerste is voor en de tweede na de filter. Niet elk programma werd even hard getroffen door de filter. GTST en Flikken raakten beide meer dan de helft van de tweets kwijt, terwijl het Journaal en Pauw maar een paar procent verloren. Omdat we

21

gekozen hebben om de grootste vervuilers uit de dataset te halen, worden grotere programma’s beter gefilterd dan kleinere. Hart van Nederland is hierbij een uitzonderlijke casus. Er werden voornamelijk tweets uit gefilterd terwijl de retweets bleven staan. Dit werd veroorzaakt doordat het mediateam van Hart van Nederland voor elke presentator een eigen account had, en dus geen echte kijkers waren en veel werden geretweet. Deze accounts hadden in de filter moeten zitten, maar omdat Hart van Nederland in totaal relatief weinig tweets heeft, waren ze niet zichtbaar bij de grootste vervuilers. Als we naar de gesorteerde ratio kijken na de filter, worden er geen duidelijke patronen zichtbaar die ondersteund kunnen worden door de kwalitatieve gegevens. Vergelijkbare programma’s zijn niet terug te zien in de ratio’s. 5.4 Genderverhoudingen Op basis van de eerder genoemde data van genderbepaling was het mogelijk een beeld te creëeren van de genderverhoudingen tussen de verschillende programma’s. Het is belangrijk hierbij te vermelden dat mannen lichtelijk overgerepresenteerd zijn en dat dit tweederde van de kijkers van meer dan één programma betreft. Users waarbij gender niet bepaald kon worden, hebben we buiten beschouwing gelaten. Hieruit volgt de volgende staafdiagram:

Fig. 8: Genderverhoudingen per programma. Dit beeld klopt grotendeels met onze verwachtingen over programma’s zoals Goede Tijden Slechte Tijden, maar dient binnen de scope van ons onderzoek vooral ter illustratie van de mogelijkheden van genderbepaling. Om hier verdergaande uitspraken over te kunnen doen, zou het nodig zijn om een externe bron te vinden die data levert over genderverhoudingen van programma’s. Hiermee zou een bevestiging of afwijking op basis van onze Twitterdata pas echt betekenisvol worden. Voor nu is het in ieder geval duidelijk dat Twitterdata in combinatie met genderbepaling een blik geeft op specifieke programma’s.

Opvallend aan de data van de mannen en vrouwen binnen onze dataset is dat mannen gemiddeld 7.74 tweets per persoon verstuurden binnen onze dataset, en vrouwen gemiddeld 6.39. Dit komt niet overeen met de in andere literatuur gesignaleerde trend dat vrouwen meer tweets versturen, en kan er op wijzen dat mannen in de categorie televisie relatief actiever zijn. Om hier een uitspraak over te kunnen doen, is verder onderzoek nodig aangezien wij niet verder gekeken hebben naar het Twittergedrag van deze users buiten onze selectie van hashtags.

22

5.5 Netwerkvisualisatie met kijkers De eerste netwerkvisualisatie die we hebben uitgevoerd, is op basis van onze eerste dataset, enkel met de programma’s toegevoegd als target en ingevoerd in Gephi. De eerste stap hierbij is het veranderen van de edge weight in 1 voor alle verbindingen, omdat ons onderzoek zich hier zoals gezegd richt op kijkers en niet op tweets. De edge weight drukt hier het aantal tweets van een user over een programma uit en is voor deze visualisatie niet interessant. Allereerst rekenen we hier de modularity uit: randomized en use weights aan (hoewel dit irrelevant is) en met een resolution van 1.2. Dit resulteert in 6 communities. We doen dit op basis van de complete dataset om een zo breed mogelijk berekende modularity te krijgen.

Vervolgens hebben we door middel van Gephi alle nodes gefilterd met een OutDegree-waarde van 1-4. Dit komt overeen met alle users die verbonden zijn aan minder dan vier programma’s. Dit maakt de netwerkvisualisatie consistenter en verkleint daarnaast het aantal nodes en edges drastisch, van 35.175 en 49.904 naar respectievelijk 765 en 4.567. Hiermee wordt de uitvoering van het algoritme in een redelijke tijd mogelijk maakt.

De layout is gebaseerd op het eerder besproken ForceAtlas 2, met onderstaande instellingen.

Threads number 2

Dissuade hubs uit

LinLog mode uit

Prevent Overlap uit

Edge Weight Influence 1.0

Scaling 220.0

Stronger Gravity uit

Gravity 1.0

Tolerance (speed) 0.1

Approximate Repulsion uit

Approximation 1.2

Tot slot de visualisatie: de nodes van de programma’s zijn via partition gekleurd op basis van hun modularity class en via ranking hebben ze, gebaseerd op hun InDegree (aantal verbindingen met users) een grootte van 75-250 gekregen. Alle programma’s geven als label een hashtag weer, thematisch consistent met de reikwijdte en onderwerp van het onderzoek, maar aangezien sommige programma’s meerdere hashtags gebruiken, en wij die ook in onze dataset hebben, niet volledig. Deze handelingen en instellingen geven onderstaand beeld als resultaat.

23

Fig. 9: Netwerkvisualisatie met programma's en kijkers. In deze netwerkvisualisatie valt een aantal dingen op. Studio Sport en Studio Voetbal komen dicht bij elkaar te staan, net als Uitstel van Executie en Dubbeltje Op Zijn Kant. Dit zijn vergelijkbare programma’s, en het lag ook in de lijn der verwachting dat deze bij elkaar uit zouden komen. Uit de statistische analyse komen deze programma’s naar voren als de grootste onderlinge correlaties in de dataset. Links in het midden is een grote lijn te zien in actualiteitprogramma’s, vanuit links het meest diepgaande EenVandaag, geleidelijk via Journaal, Pauw en De Wereld Draait Door naar RTL Late Night, die zich vooral op populaire actualiteit richt. Opvallend is hier de schikking van Pauw en Journaal die ook andersom te verklaren zou zijn, omdat Pauw zich meer richt op de achtergronden van het nieuws. Dit kan bijvoorbeeld komen doordat Pauw nog geen gevestigd programma is en een vaste achterban heeft, en dat dit bij EenVandaag en het Journaal wel het geval is. Opvallend hierbij is dat Hart van Nederland, ook een actualiteitprogramma, ver buiten deze groep valt. Een ander opvallend patroon in grote lijnen is de scheiding tussen NPO en commercieel. Een denkbeeldige lijn die vanuit Dubbeltje op zijn Kant begint en RTL Late Night doorkruist/links passeert, maakt een scheiding met aan de linkerkant enkel programma’s van de publieke omroep, en aan de rechterkant enkel commerciële zenders - met Flikken Maastricht als uitzondering. Dit valt weer te verklaren doordat het bij andere fictie-series staat: Dokter Tinus, GTST en Nieuwe Buren.

24

Spoorloos, De Rijdende Rechter, Liefs Uit en Familiediner zijn vier reality-programma’s die zich richten op persoonlijke verhalen. Deze staan in een cluster links onderin, maar de programma’s Love is in the Air en Syndroom die ook in deze categorie vallen, staan elders. 5.6 Netwerkvisualisatie zonder kijkers De tweede netwerkvisualisatie is een versimpelde versie, maar doet meer recht aan onze data. Hiervoor hebben we enkel de programma’s aangehouden als nodes, en edges toegevoegd tussen deze programma’s. De edge weight hebben we gebaseerd op de eerder besproken gewogen relatieve overlap tussen programma’s. Waar dit 0 was hebben we de edges weggelaten. Deze visualisatie hebben we in eerste instantie gebaseerd op de vorige, wat betekent dat de grootte van de nodes, en de data over modularity nog in stand gebleven is.

De layout is ook hier gebaseerd op het eerder besproken ForceAtlas 2, met onderstaande instellingen. Belangrijk hierbij is dat edge weight influence eerder niet relevant was, omdat het overal 1 was. Nu hangt de visualisatie er sterk vanaf. Deze staat op 0.7 omdat dit een gelijkere verdeling veroorzaakt tussen centrum en de randen, met een hogere waarde komen de uiterste programma’s ver buiten het centrum te staan. De scaling is ook anders, maar dit zorgt per saldo voor een vergelijkbare grootte.

Threads number 2

Dissuade hubs uit

LinLog mode uit

Prevent Overlap uit

Edge Weight Influence 0.7

Scaling 80.0

Stronger Gravity uit

Gravity 1.0

Tolerance (speed) 0.1

Approximate Repulsion uit

Approximation 1.2

Een ander detail van deze visualisatie is dat de edge weight duidelijk terug te zien is in de visualisatie, hiervoor is bij de export-instellingen gekozen voor een thickness van 350.0 en rescale weight is aangezet.

25

Fig. 10: Netwerkvisualisatie tussen programma's onderling. In deze visualisatie zien we veel dezelfde patronen als in de vorige figuur. Enkele opvallende verschillen verdienen nog aandacht. Earthflight blijkt ten opzichte van de andere programma’s een perifere positie te hebben, net als Kassa en Radar. Ook valt hier duidelijk te zien dat Kassa en Radar onderling geen grote overlap hebben, terwijl het inhoudelijk vergelijkbare programma’s zijn. Het verschil tussen de bij de vorige figuur besproken combinaties Studio Sport/Studio Voetbal enerzijds en anderzijds Dubbeltje op zijn Kant/Uitstel van Executie is ook duidelijk zichtbaar: laatstgenoemde programma’s hebben een veel sterkere onderlinge correlatie, wat de vorige figuur nog niet zichtbaar maakte. Ook is hier pas de sterke onderlinge verbinding tussen de besproken actualiteitenprogramma’s links van het midden goed zichtbaar. De programma’s Syndroom en Geer en Goor, die in de vorige figuur opvielen door hun afwijkende kleur in een verder ogenschijnlijk hechte groep, krijgen ook duidelijker een eigen positie hoewel ze duidelijk dichtbij de groen gekleurde groep blijven staan, en daar ook sterke verbindingen mee hebben. Deze en andere relatief sterke verbindingen komen allemaal ook als significante resultaten uit de Pearson-correlatie. Dit is een ondersteuning van bovenstaande visualisatie, en laat zien dat de sterkste verbindingen niet per toeval ontstaan uit onze data, maar daadwerkelijk zeggingskracht hebben. De volledige data van de Pearson-correlaties is terug te vinden in de bijlagen.

26

6.0 Conclusie Bij aanvang van dit onderzoek hadden we een simpele maar brede onderzoeksvraag; Wat laat Twitter zien over televisiekijkend Nederland? Vanwege het explorerende karakter van dit onderzoek is het na de gevonden resultaten lastig om te spreken van eenduidige conclusies. Het is duidelijk geworden dat er veel mogelijk is met enkel de gegevens van Twitter en meer als er andere indicatoren aan worden toegevoegd. Ons doel was om met behulp van Twitter gegevens verbanden tussen programma’s aan te tonen, en door middel van de gecreëerde Gephi visualisatie en de correlatie matrixen is dat gelukt. Zonder enige toegevoegde data behalve de tweets was het mogelijk groepen van programma’s te vinden, die vervolgens ondersteund werden door statistische analyse en in verband stonden met de kwalitatieve data. Door hiernaast ook te kijken naar indicatoren zoals kijkcijfers is het mogelijk om te kijken welke programma’s relatief gezien populair zijn op Twitter. Met behulp van Buzzcapture was het ook goed mogelijk om gegevens terug te koppelen en onder andere een geslachtsverdeling op te stellen voor de verschillende programma’s.

In de loop van het onderzoek hebben we een format gecreëerd waarmee relatief gemakkelijk vergelijkbare onderzoeken opgezet kunnen worden. Gezien het gebrek aan eerder onderzoek op dit gebied is er nog veel meer te ontdekken. Omdat het onderzoek explorerend is en zonder voorafgaande hypothesen is het grootste deel van het werk verricht in het opzetten van het format en hier gaandeweg over te leren. Dit leerproces heeft een aantal suggesties opgeleverd die in de discussie zullen worden besproken. Hoewel er niet gezocht is naar specifieke conclusies over de programma’s zelf, leent de data hier zich wel voor en kan in de bijlagen gekeken worden naar de volledige bevindingen op dit gebied. Voor onze opdrachtgever zijn zowel de huidige resultaten als het gecreëerde format nuttig om de mogelijkheden van Buzzcapture aan potentiële klanten te tonen.

27

7.0 Discussie Er zijn enkele kenmerken van onze data die belangrijk zijn om in het oog te houden bij de analyse van de data en de visualisaties. Omdat deze voor het hele onderzoek van toepassing zijn bespreken we die hier centraal. 7.1 Beperkingen binnen ons onderzoek Een grondigere kwalitatieve analyse van de programma’s had wellicht tot betere resultaten kunnen leiden. Wij hebben gekozen om enkel te kijken naar hashtag-gebruik onder mogelijke kijkers, waarmee een hoop data buiten onze blik valt. Het is goed mogelijk dat programma’s die nauwelijks een actieve media-strategie hebben daar meer door getroffen worden dan andere programma’s. We hebben daarnaast gekeken naar de eerste weken van september; de start van het nieuwe televisie-seizoen. Hierdoor is het mogelijk dat nieuwere programma’s die minder kunnen bouwen op een reeds bestaande achterban meer getroffen zijn. Een onderzoek naar de eerste weken van oktober zou een ander en wellicht evenwichtiger beeld kunnen laten zien. 7.2 Beperkingen van Twitter Bij Twitter als bron van data is het belangrijk om stil te staan bij de beperkingen die dit met zich meebrengt. Twitter is geen afspiegeling van de Nederlandse bevolking, waardoor onderzoek naar doelgroepen vooral iets zegt over Twitter. Bij een grootschaliger onderzoek zou het interessant zijn om externe bronnen over demografische kenmerken van Twitter in het algemeen er structureel bij te betrekken. 7.3 Vervolgonderzoek Verder onderzoek zou verbeterd kunnen worden door, zoals hierboven genoemd, een groter tijdframe te bekijken. Dit maakt het ook mogelijk om meerdere programma’s te analyseren - nu was het zo dat deminst besproken programma’s te weinig tweets hadden om goed te kunnen analyseren. Onze datafiltering zou bij een grootschaliger onderzoek ook groter aangepakt moeten worden. Hier zou niet alleen op de volledige dataset gefilterd moeten worden op accounts die als niet-kijkers te categoriseren zijn, maar zou ook per programma een steekproef uitgevoerd moeten worden. Dit bleek in ons onderzoek uit de data van tweets over Hart van Nederland. Daarnaast zou een grootschaliger en gedetailleerder kwalitatief onderzoek de mogelijkheid bieden om meer inhoudelijke uitspraken over onderlinge verbanden en verschillen aan te geven. Hier zou onder andere het beoogde media beleid van de adverteerders van de programma’s in kunnen worden opgenomen.

28

8.0 Literatuur Bastian M., Heymann S., Jacomy M. (2009). Gephi: an open source software for exploring and manipulating networks. International AAAI Conference on Weblogs and Social Media. Bollier, David, and Charles M. Firestone (2010). The Promise and Peril of Big Data. Aspen Institute, Communications and Society Program Washington, DC, USA. Boyd, Danah, & Crawford, K. (2012). Critical Questions for Big Data: Provocations for aCultural, Technological, and Scholarly Phenomenon. Information, Communication & Society, 15 (5), 662–79. Courtois, C., & D'heer, E. (2012). Second screen applications and tablet users: constellation, awareness, experience, and interest. In Proceedings of the 10th European conference on Interactive tv and video, 153-156. Dumenco, S., (2012). Believe the Hype? Four Things Social TV Can Actually Do. A Lot of People Are Gathered Around the Digital Water Cooler Talking About TV Shows. Here’s Why it Matters. Geraadpleegd op: http://adage.com/article/the-media-guy/hype-things-social-tv/234134/ Eisner, Elliot W. (1997). The Promise and Perils of Alternative Forms of Data Representation. Educational Researcher, 26 (6), 4–10. Greer, C., & Douglas, A. (2011). Using Twitter for Promotion and Branding: A Content Analysis of Local Television Twitter Sites. Journal of Broadcasting & Electronic Media, 55 (2), 198-214. Harrington, S., Highfield, T., & Bruns, A. (2012). More than a backchannel: Twitter and television. Participations, Journal of Audience & Reception Studies,10 (1), 405-409. Hill, S., & Benton, A. (2012). Analyzing the Impact of Social TV Strategies on Viewer Engagement. Proceedings of the Sixth International Workshop on Data Mining for Online Advertising and Internet Economy, 4. Jacomy M, Venturini T, Heymann S, Bastian M (2014) ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software. PLoS ONE 9(6): e98679 Kulshrestha, J., Kooti, F., Nikravesh, A., & Gummadi, K. P. (2008). Geographic Dissection of the Twitter Network. Manovich, L. (2011). Trending: The Promises and the Challenges of Big Social Data. McPherson, K., Huotari, K., Cheng, F., Humphrey, D., Cheshire, C., & Brooks, A. L. (2012). Glitter: A mixed-methods study of Twitter use during Glee broadcasts. In Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work Companion, 167-170. Mislove, A., Lehmann, S., & Ahn, Y. (2011). Understanding the Demographics of Twitter Users. ICWSM, 554–557. Smith, A., & Rainie, L. (2010). 8 % of online Americans use Twitter. Pew Research Center. Vis, F. (2013). A Critical Reflection on Big Data: Considering APIs, Researchers and Tools as Data Makers. First Monday 18 (10).

http://adage.com/article/the-media-guy/hype-things-social-tv/234134/

29

9.0 Bijlagen 9.1 Overzicht van figuren: Fig. 1: Kijkcijfers van 32 programma's. Fig. 2: Tweetvolume per programma, absoluut en gecorrigeerd voor aantal afleveringen. Fig. 3: Matrix van Spearman-correlatie. Fig. 4: Scatterplot van kijkcijfers ten opzichte van gecorrigeerd tweetvolume. Fig. 5: Kenmerken van de verschillende kijkersgroepen. Fig. 6: Relatief aantal tweets en retweets per programma, voor en na filtering. Fig. 7: Relatief aantal tweets en retweets per programma. Fig. 8: Genderverhoudingen per programma. Fig. 9: Netwerkvisualisatie met programma's en kijkers. Fig. 10: Netwerkvisualisatie tussen programma's onderling. N.B. Al deze figuren zijn in de externe bijlagen te vinden.

30

9.2 Tabellen achter data-visualisaties Data van fig. 1: Kijkcijfers van 32 programma's.

Programma Kijkcijfers De Wereld Draait Door 1430000 Dokter Tinus 1359000 Dubbeltje op zijn kant 1561000 Earthflight 1159000 EenVandaag 1056000 Expeditie Robinson 1473000 Familiediner 1395000 Flikken 2195000 Geer en Goor 1717000 Goeide Tijden Slechte Tijden 1905000 Hart van Nederland 1146000 Heel Holland Bakt 1846000 Holland's Got Talent 1896000 Holland's Next Top Model 494000 Journaal 3035000 Kassa 1043000 Liefs Uit 992000 Love is in the Air 1465000 Nieuwe Buren 1762000 Pauw 744000 Radar 2044000 Rijdende Rechter 1345000 Roodkapje 1067000 RTL Boulevard 1117000 RTL Late Night 1562000 Spoorloos 2267000 Studio Sport 1319000 Studio Voetbal 1194000 Syndroom 1535000 The Voice of Holland 2632000 Thuis voor de buis 959000 Uitstel van Executie 1477000

31

Data van fig. 2: Tweetvolume per programma, absoluut en gecorrigeerd voor aantal afleveringen.

Programma Tweetvolume gecorrigeerd Dokter Tinus 54,25 Dubbeltje op zijn kant 90,75 De Wereld Draait Door 764,9 Earthflight 78,5 EenVandaag 80,29166667 Expeditie Robinson 1323 Familiediner 386,6666667 Flikken 947,75 Geer en Goor 164 Goeide Tijden Slechte Tijden 207,65 Hart van Nederland 4,678571429 Heel Holland Bakt 738,75 Holland's Got Talent 2127,5 Holland's Next Top Model 221,5 Journaal 160,4285714 Kassa 32,5 Liefs Uit 102,5 Love is in the air 12,25 Nieuwe Buren 633,6666667 Pauw 925,45 Radar 44,25 Rijdende Rechter 516 Roodkapje 117 RTL Boulevard 12,2 RTL Late Night 587,4 Spoorloos 14,5 Studio Sport 18,35714286 Studio Voetbal 428,75 Syndroom 275,5 Thuis voor de buis 87,5 The Voice of Holland 4517,75 Uitstel van Executie 45,75

Data van fig. 4: Scatterplot van kijkcijfers ten opzichte van gecorrigeerd tweetvolume. Zie data van fig. 1 en data van fig. 2.

32

Data van fig. 5: Kenmerken van de verschillende kijkersgroepen.

Programma Gemiddeld aantal tweets Gemiddeld aantal programma's

Dokter Tinus 1,307228916 2,439759036 Dubbeltje op zijn kant 1,506224066 3,340248963 DWDD 2,316124148 1,984557154 Earthflight 1,256 2,244 EenVandaag 1,891069676 2,822374877 Expeditie Robinson 1,636363636 1,864873222 Familiediner 3,778501629 3,729641694 Flikken 2,370856785 1,947467167 Geer en Goor 1,438596491 2,978070175 GTST 2,970672389 2,459227468 Hart van Nederland 2,25862069 3,068965517 Heel Holland Bakt 1,632596685 2,282872928 Hollands Got Talent 2,280889842 1,93326186 Holland's Next Top Model 1,599277978 2,523465704 Journaal 1,56352245 2,134354333 Kassa 1,214953271 3,018691589 Liefs Uit 1,952380952 3,252380952 Love is in the air 1,96 3,88 Nieuwe Buren 1,530595813 2,5 Pauw 3,0397438 2,063885696 Radar 1,149350649 2,435064935 Rijdende Rechter 2,83127572 3,049382716 Roodkapje 1,380530973 3,115044248 RTL Boulevard 1,61589404 3,973509934 RTLLN 1,774890467 2,00664753 Spoorloos 1,054545455 4,490909091 Studio Sport 1,400544959 2,588555858 Studio Voetbal 1,725352113 2,220321932 Syndroom 1,238202247 2,231460674 Thuis voor de buis 1,785714286 3,081632653 TVOH 2,464003272 1,833651486 Uitstel van Executie 1,4296875 3,6328125

33

Data van fig. 6: Relatief aantal tweets en retweets per programma, voor en na filtering.

Programma Retweets voor filtering

Tweets voor filtering

Retweets na filtering

Tweets na filtering

TVOH 6091 15378 3355 14716 Pauw 7460 12305 6746 11763 DWDD 4756 13361 2861 12437 RTLLN 4927 9961 2476 9272 Hollands Got Talent

4464 7463 1936 6574

GTST 3967 5979 795 3358 Flikken 4717 3680 958 2833 Expeditie Robinson

2061 4141 1307 3985

Journaal 1662 2896 1648 2844 Heel Holland Bakt

1012 2519 507 2448

EenVandaag 974 1510 690 1237 Rijdende Rechter 412 1887 277 1787 Nieuwe Buren 575 1545 401 1500 Studio Voetbal 401 1365 372 1343 Syndroom 332 892 297 805 Familiediner 142 1020 142 1018 Holland's Next Top Model

261 751 208 678

Geer en Goor 225 582 116 540 Studio Sport 161 417 100 414 Thuis voor de buis

272 253 163 187

Roodkapje 127 364 113 355 Liefs Uit 64 347 63 347 Dubbeltje op zijn kant

132 240 130 233

RTL Boulevard 145 212 42 202 Earthflight 46 270 44 270 Radar 102 162 44 133 Dokter Tinus 54 171 50 168 Kassa 87 121 22 108 Uitstel van Executie

61 124 60 123

Hart van Nederland

90 78 89 42

Spoorloos 25 34 24 34 Love is in the air 5 44 5 44

Data van fig. 7: Relatief aantal tweets en retweets per programma. Zie data van fig. 6.

34

Data van fig. 8: Genderverhoudingen per programma.

Programma Mannen Vrouwen Dokter Tinus 24 0 Studio Voetbal 273 48 Studio Sport 121 25 Kassa 27 12 EenVandaag 260 122 Love is in the air 8 4 Pauw 771 391 Journaal 540 288 De Wereld Draait Door 1109 724 Thuis voor de buis 38 25 Radar 27 20 Rijdende Rechter 173 137 RTL Late Night 1027 888 Earthflight 39 35 Hart van Nederland 12 11 Uitstel van Executie 28 26 Familiediner 73 68 Dubbeltje op zijn kant 57 54 Roodkapje 69 72 RTL Boulevard 36 38 Heel Holland Bakt 316 344 Flikken 212 252 Geer en Goor 89 114 Spoorloos 10 13 The Voice of Holland 836 1089 Syndroom 140 185 Nieuwe Buren 212 288 Got Talent 386 594 Expeditie Robinson 334 532 Goede Tijden Slechte Tijden 175 290 Liefs Uit 29 63 Holland's Next Top Model 29 86

35

9.3 Lijst van programma’s en bijbehorende hashtags

Programma Hashtags Dokter Tinus #doktertinus Dubbeltje op zijn kant #dubbeltje, #dubbeltjeopzijnkant De Wereld Draait Door #dwdd Earthflight #earthflight EenVandaag #eenvandaag, #1vandaag Expeditie Robinson #expeditierobinson Familiediner #familiediner Flikken #flikken, #flikkenmaastricht Geer en Goor #geerengoor Goeide Tijden Slechte Tijden #GTST Hart van Nederland #hvn, #hartvannederland Heel Holland Bakt #heelhollandbakt Holland's Got Talent #hgt Holland's Next Top Model #hntm Journaal #journaal Kassa #kassa Liefs Uit #liefsuit Love is in the air #liefsuit Nieuwe Buren #LIITA Pauw #nieuweburen Radar #radartv Rijdende Rechter #rijdenderechter Roodkapje #roodkapje RTL Boulevard #rtlboulevard, #rtlblvd RTL Late Night #rtlln, #rtllatenight Spoorloos #spoorloos Studio Sport #studiosport Studio Voetbal #studiovoetbal Syndroom #syndroom Thuis voor de buis #thuisvoordebuis, #tvdb The Voice of Holland #tvoh Uitstel van Executie #uitstelvanexecutie

36

9.4 Kwalitatieve analyse tv-programma’s Zie bijlage in excel-bestand. 9.5 Random sample, voorbeeld van primaire dataset Zie bijlage in excel-bestand. 9.6 Matrix van gewogen relatieve overlap Zie bijlage in excel-bestand. 9.7 Matrix van Pearson-correlatie Zie bijlage in excel-bestand. 9.8 Taakverdeling binnen het team Zie bijlage in excel-bestand.

The Voice of Twitter

Documents

Transcript of The Voice of Twitter