3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan...
Transcript of 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan...
Internet als een bron van big data:
De ervaringen van het RIVM
Albert Wong
NMDC Studiedag || Internet als Big Data || 28-11-2016
1
Internet als vorm van Big DataWaarom kan het internet als een vorm van Big Data worden gezien?
Volume● >>1 miljard websites wereldwijd● 200 miljard Twitter berichten per jaar wereldwijd
Velocity● Gemiddeld 6,000 Twitterberichten per seconde wereldwijd
Variety● Teksten met grote variatie aan talen, dialecten, taalgebruik (e.g.
informeel/formeel, jargon, etc.)● Veel metadata (gebruikerstatistieken, plaats, tijd, etc.)
Bron: livescience.com, internetlivestats.com
NMDC Studiedag || Internet als Big Data || 28-11-20162
Veel data, veel kennis?
𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛
NMDC Studiedag || Internet als Big Data || 28-11-20163
Veel data, veel kennis?
𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛
NMDC Studiedag || Internet als Big Data || 28-11-20164
Veel data, veel kennis?Garbage In, Garbage Out (GIGO)● Veel ruis / non-informatie: het is lastig om de data te filteren die van belang
zijn voor jouw vraagstelling● Onzin: soms zijn data die qua onderwerp wel van belang zijn gewoon
onbruikbaar
Gebrek aan representativiteit● Geen random sample: Jongeren zijn oververtegenwoordigd op het internet● (Self-)Selection bias: participanten die meedoen aan social media verschillen
in ongeobserveerde kenmerken van mensen die niet aan social media doen
Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor onderzoek)● Veel data over één kenmerk beschikbaar● Data zijn niet te koppelen
NMDC Studiedag || Internet als Big Data || 28-11-20165
Veel data, veel kennis?
𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛
NMDC Studiedag || Internet als Big Data || 28-11-20166
Hoe kijken wij tegen Big Data aan?
𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛
NMDC Studiedag || Internet als Big Data || 28-11-20167
𝑁𝑖𝑒𝑡𝑚𝑒𝑡𝑒𝑛 ⟹ 𝑁𝑖𝑒𝑡𝑤𝑒𝑡𝑒𝑛!!!
RIVM Projecten Big DataInitiatief: Pilot projecten
Vraagstellingen:● Hoe kunnen we het internet gebruiken als databron voor RIVM
onderzoek en taken?● Welke technieken zijn er voor benodigd om de tekstdata op het
internet te analyseren? Kunnen wij die ons eigen maken? Kunnen we een infrastructuur opzetten?
NMDC Studiedag || Internet als Big Data || 28-11-20168
Textmining proces (Pipeline)
NMDC Studiedag || Internet als Big Data || 28-11-20169
Hoe kunnen we internetdata gebruiken?Opsporing van incidenten/ongewenste uitkomsten op het internet, die anders onopgemerkt blijven● Mensen delen persoonlijke ervaringen op social media (Twitter,
Webfora)● Ervaringen bevatten soms zaken waarover we anders nooit of veel
later zouden horen
Voorbeelden:● Nieuwe incidenten van voedselvergiftigingen (restaurants)● Nieuwe bijwerkingen van geneesmiddelen en
voedingssupplementen
NMDC Studiedag || Internet als Big Data || 28-11-201610
Hoe kunnen we internetdata gebruiken?Monitoring van social media● Geeft inzicht in de sentiment van de burger over RIVM-
onderwerpen, ook al is het niet geheel representatief● Is relatief goedkoop en minder tijdrovend in vergelijking met
enquêtes● Inzicht in actueel sentiment, wat niet haalbaar is met enquêtes● Geeft mogelijkheid tot ingrijpen bij misinformatie of uit de hand
lopende negatieve sentimenten op het internet
Voorbeelden:● Sentiment over rijksvaccinatieprogramma● Sentiment over RIVM onderzoek, zoals over de link tussen
kunstgrasvelden en het voorkomen van kanker
NMDC Studiedag || Internet als Big Data || 28-11-201611
12 NMDC Studiedag || Internet als Big Data || 28-11-2016
Hoe nu verder?● Draagvlak creëren binnen het RIVM● Standpunt innemen over privacy issues● Bij positieve uitkomsten verder met internet als bron van data voor
andere RIVM onderwerpen (zoals sentimenten over voeding)● Verkennen van andere databronnen voor RIVM-onderzoek (zoals hi-
res satellietbeelden en telefoonverkeerdata)● Kennis van techniek verder verbreden (Natural Language
Processing, machine learning, parallel computing etc.)
NMDC Studiedag || Internet als Big Data || 28-11-201613