Big data, het voorspellen van online gedrag, en nog zo wat€¦ · Big data, het voorspellen van...
Transcript of Big data, het voorspellen van online gedrag, en nog zo wat€¦ · Big data, het voorspellen van...
Big data, het voorspellen van online gedrag, en nog zo watMaarten de Rijke
Big data, het voorspellen van online gedrag, …
Dank aan de financiers van het onderliggende onderzoek
2
Big data, het voorspellen van online gedrag, … 3
Achtergrond
Big data, het voorspellen van online gedrag, …
Levens doorzoekbaar
¢ Steeds groter deel van ons leven leven we online¢ Digitale sporen van dagelijks leven, werk, …¢ Simpelweg bewaren is goedkoper van selecteren
4
Big data, het voorspellen van online gedrag, …
Wat is big data?
¢ Meestal een buzzword, maar kan toch nuttig zijn¢ We hebben het over big data als je met data werkt
waarvan de schaal niet langer past bij de manier waarop je werkt£ Meer dan in je machine past£ Meer dan je in je leven kan lezen£ Meer dan …
¢ De definitie evolueert
5
Big data, het voorspellen van online gedrag, … 6
Problem definition
2. Data collection
3. Data exploration
4. Data transformation
5. Analysis
6. Model construction
7. Model evaluation
8. Model application
9. Model monitoring& updating
1. Research plan
Data science loop
Big data, het voorspellen van online gedrag, …
Algoritmische kernprocessen rondom big data¢ Information retrieval
£ Wetenschap achter de zoekmachine£ Zoeken, vinden, filteren, combineren
¢ Machine leren£ Patronen ontdekken om kennis uit data te trekken
¢ Visualisatie£ Inzicht in de patronen geven
7
Wat doe ik zoal?• Analyse (inhoud, structuur, gedrag)• Synthese (combineer resultaten)• Evaluatie
Big data, het voorspellen van online gedrag, …
Enige big data scientist principes
1. Cause the futureModels and algorithms not only capable of predicting the future but also causing the future
2. Feedback loopsData about user behavior becomes building block of data products
3. Classical statistical conceptsCausation, causality, correlation, experiments
4. Being humanEthics, meaning, interpretation
5. Space between data set & algorithmDon’t run an algorithm, run it well
8
6. Little dataSmall-scale surveys and user-experience interviews
7. Data strategyWhat to collect, log, store,
8. Foundation of coding practicesStart and continue to build
9. Democratization of IR, ML, DMThose using the algorithms understand their meaning and impact
10. Interdisciplinary data scienceCombine depth plus collaboration
Big data, het voorspellen van online gedrag, …
Big data is niet alleen maar “big”
¢ Big data is ook£ Longitudinaal, dekt langere periodes af
¢ Big data is ook£ Heel erg parallel, waarbij grote aantallen simultane signalen
geproduceerd worden
¢ Big data is ook£ Buitengewoon persoonlijk (zie later)
9
Big data, het voorspellen van online gedrag, …
Verbinden van de offline en online werelden¢ Hoe weerspiegelt de online wereld de offline wereld?¢ Wat kan de online wereld ons leren over de offline
wereld?¢ Hoe beinvloedt de online wereld de offline wereld?
£ Social media data has already been related to real-life outcomes
£ Online engagement has been shown to impact individual social capital offline.
£ Recent work has explored the connection between online interactions and socioeconomic indicators of city neighbourhoods (Forrest, 2001).
10
Big data, het voorspellen van online gedrag, … 11
Voorbeelden
Big data, het voorspellen van online gedrag, … 12
Observational ExperimentalUser studiesControlled interpretation of behavior with detailed instrumentation
In-lab behavior observations Controlled taks, controlled systems, laboratory studies
User panelsIn the wild, real-world tasks, probe for detail
Ethnography, field studies, case reports
Diary studies, critical incident surveys
Log analysisNo explicit feedback but lots of implicit feedback
Behavioral log analysis A/B testing, interleaved comparisons
Big data, het voorspellen van online gedrag, …
“Life mining”
¢ Psychological£ Sentiment analysis£ Behavioral tracking£ Activity prediction£ Personality mining£ Relevance mining£ …
13
¢ Social£ Planned events£ Real-time events£ Stock market fluctuations£ Political polling£ Reputation management£ …
Big data, het voorspellen van online gedrag, … 14
Wanneer we ontbijten
http://timeu.se
Big data, het voorspellen van online gedrag, …
06/03/05 08/01/05 10/01/05 12/01/05 02/01/06 04/01/060.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Original data versus Trend
ratio
of
blo
g p
osts
la
be
led
with
ST
RE
SS
ED
15
Hoe we ons voelen
G. Mishne et al., Tracking and searching mood-annotated blog posts. ICWSM 2007
Big data, het voorspellen van online gedrag, …
¢ Mining expertise areas and expertise levels from digital traces of our working lifes£ Expertise retrieval
� Expert finding� Given a topic, find me the experts
� Expert profiling� Given a person, tell me in which areas he is
an expert
¢ Models£ Generate profile by aggregating
and summarizing text associated with a person
£ Find the best publications on the topic, and then find out who is most closely associated with them
16
Gebieden waarin we expert zijn
K. Balog et al., Expertise retrieval. Foundations and Trends in Information Retrieval, 2012
Big data, het voorspellen van online gedrag, …
¢ Follow #nowplaying on Twitter
¢ For this presentation£ September 16–30, 2012 £ 6,445,000 tweets, from
1,747,842 users£ Identifying “musical tweets”£ Multiple axes through the
data� Follow an artist, a song, a
genre� Find out what people are doing
while there listening to music� Look for unusual events
17
Hoe we muziek beleven
M. Tsagkias et al., Music in our ears. Submitted, 2013.
Big data, het voorspellen van online gedrag, …
Voorspel volume aan commentaar
10�1 100 10110�1
100
101NUjij
10�1 100 10110�1
100
101De Pers
10�1 100 10110�1
100
101Trouw
10�1 100 10110�1
100
101Spits
10�1 100 10110�1
100
101FD
10�1 100 10110�1
100
101
102Telegraaf
10�1 100 10110�1
100
101AD
100 101100
101
102WaarMaarRaar
#comments in the first 2 hrs
in 20 hrs
19
Wat triggert onze aandacht
M. Tsagkias et al., Predicting the volume of comments on online news stories. CIKM 2009
Big data, het voorspellen van online gedrag, …
Voorspel movie ratings voor lancering
20
De films die we leuk gaan vinden (en in welke mate)
A. O
ghin
a et
al.,
Pre
dict
ing
IMD
B m
ovie
ratin
gs u
sing
soc
ial m
edia
. EC
IR
2012
.
Big data, het voorspellen van online gedrag, …
¢ Individual differences in personality linked to differences in linguistic style£ Can be
reliably estimatedfrom languageusage on blogs
£ Neural network-based prediction achieves normalized root means score error (NRMSE) scores of 0.079
21
De Big Five persoonlijk-heidskenmerken
Onze persoonlijkheid
T. Yarkoni, Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers. J. Research in Personality 44:363-373, 2010
Big data, het voorspellen van online gedrag, …
Wat als je …
¢… 58,000 Facebook gebruikers had die hun “Likes” met je deelden plus gedetailleerde demografische profielen en de resultaten van psychometrische tests?
¢ Leer modellen gebaseerd op de “Likes signalen” die allerlei kerneigenschappen voorspellen …
22
Wat niet?
M. Kosinski et al., Private traits and attributes are predictable from digital records of human behavior. PNAS 2013, www.pnas.org/cgi/doi/10.1073/pnas.1218772110
Big data, het voorspellen van online gedrag, …
Digitale geesteswetenschappen (1)
¢ Tweet stromen van politici, politiek journalisten, lobbyisten (plus cirkel er omheen)£ Wie brengt welk
onderwerp waar in?£ Wie neemt het
over?
23
Zoeken naar perspectieven
Big data, het voorspellen van online gedrag, …
Digitale geesteswetenschappen (2)
¢ Vijfhonderd jaar aan kranten£ Vind belangrijke
gebeurtenissen£ Volg en vergelijk
discussies over langere periodes
24
Zoeken naar perspectieven
Big data, het voorspellen van online gedrag, …
Digitale geesteswetenschappen (3)
¢ Archief van Beeld & Geluid£ Exploreer£ Contextualiseer
� Kranten� Foto� Sociaal� …
25
Zoeken naar perspectieven
Big data, het voorspellen van online gedrag, … 26
En nu?
Big data, het voorspellen van online gedrag, …
Veranderende wetenschappelijke praktijk
¢ Vergeet disciplinaire grenzen¢ Offline vs. online als
onderzoeksthematiek£ Data selectie£ Reproduceerbaarheid
¢ Big data vs little data¢ Discipline-gestuurd vs.
probleem-gestuurd vs. data-gestuurd¢ Observatie vs. experiment¢ Infrastructuur
27
Problem definition
2. Data collection
3. Data exploration
4. Data transformation
5. Analysis
6. Model construction
7. Model evaluation
8. Model application
9. Model monitoring& updating
1. Research plan
Data science loop
Big data, het voorspellen van online gedrag, …
¢ Big data en het voorspellen van online gedrag
¢ Maarten de Rijke¢ [email protected]
28