3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan...

13
Internet als een bron van big data: De ervaringen van het RIVM Albert Wong NMDC Studiedag || Internet als Big Data || 28-11- 2016 1

Transcript of 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan...

Page 1: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Internet als een bron van big data:

De ervaringen van het RIVM

Albert Wong

NMDC Studiedag || Internet als Big Data || 28-11-2016

1

Page 2: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Internet als vorm van Big DataWaarom kan het internet als een vorm van Big Data worden gezien?

Volume● >>1 miljard websites wereldwijd● 200 miljard Twitter berichten per jaar wereldwijd

Velocity● Gemiddeld 6,000 Twitterberichten per seconde wereldwijd

Variety● Teksten met grote variatie aan talen, dialecten, taalgebruik (e.g.

informeel/formeel, jargon, etc.)● Veel metadata (gebruikerstatistieken, plaats, tijd, etc.)

Bron: livescience.com, internetlivestats.com

NMDC Studiedag || Internet als Big Data || 28-11-20162

Page 3: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Veel data, veel kennis?

𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛

NMDC Studiedag || Internet als Big Data || 28-11-20163

Page 4: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Veel data, veel kennis?

𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛

NMDC Studiedag || Internet als Big Data || 28-11-20164

Page 5: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Veel data, veel kennis?Garbage In, Garbage Out (GIGO)● Veel ruis / non-informatie: het is lastig om de data te filteren die van belang

zijn voor jouw vraagstelling● Onzin: soms zijn data die qua onderwerp wel van belang zijn gewoon

onbruikbaar

Gebrek aan representativiteit● Geen random sample: Jongeren zijn oververtegenwoordigd op het internet● (Self-)Selection bias: participanten die meedoen aan social media verschillen

in ongeobserveerde kenmerken van mensen die niet aan social media doen

Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor onderzoek)● Veel data over één kenmerk beschikbaar● Data zijn niet te koppelen

NMDC Studiedag || Internet als Big Data || 28-11-20165

Page 6: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Veel data, veel kennis?

𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛

NMDC Studiedag || Internet als Big Data || 28-11-20166

Page 7: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Hoe kijken wij tegen Big Data aan?

𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛

NMDC Studiedag || Internet als Big Data || 28-11-20167

𝑁𝑖𝑒𝑡𝑚𝑒𝑡𝑒𝑛 ⟹ 𝑁𝑖𝑒𝑡𝑤𝑒𝑡𝑒𝑛!!!

Page 8: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

RIVM Projecten Big DataInitiatief: Pilot projecten

Vraagstellingen:● Hoe kunnen we het internet gebruiken als databron voor RIVM

onderzoek en taken?● Welke technieken zijn er voor benodigd om de tekstdata op het

internet te analyseren? Kunnen wij die ons eigen maken? Kunnen we een infrastructuur opzetten?

NMDC Studiedag || Internet als Big Data || 28-11-20168

Page 9: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Textmining proces (Pipeline)

NMDC Studiedag || Internet als Big Data || 28-11-20169

Page 10: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Hoe kunnen we internetdata gebruiken?Opsporing van incidenten/ongewenste uitkomsten op het internet, die anders onopgemerkt blijven● Mensen delen persoonlijke ervaringen op social media (Twitter,

Webfora)● Ervaringen bevatten soms zaken waarover we anders nooit of veel

later zouden horen

Voorbeelden:● Nieuwe incidenten van voedselvergiftigingen (restaurants)● Nieuwe bijwerkingen van geneesmiddelen en

voedingssupplementen

NMDC Studiedag || Internet als Big Data || 28-11-201610

Page 11: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Hoe kunnen we internetdata gebruiken?Monitoring van social media● Geeft inzicht in de sentiment van de burger over RIVM-

onderwerpen, ook al is het niet geheel representatief● Is relatief goedkoop en minder tijdrovend in vergelijking met

enquêtes● Inzicht in actueel sentiment, wat niet haalbaar is met enquêtes● Geeft mogelijkheid tot ingrijpen bij misinformatie of uit de hand

lopende negatieve sentimenten op het internet

Voorbeelden:● Sentiment over rijksvaccinatieprogramma● Sentiment over RIVM onderzoek, zoals over de link tussen

kunstgrasvelden en het voorkomen van kanker

NMDC Studiedag || Internet als Big Data || 28-11-201611

Page 12: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

12 NMDC Studiedag || Internet als Big Data || 28-11-2016

Page 13: 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan social media doen Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor

Hoe nu verder?● Draagvlak creëren binnen het RIVM● Standpunt innemen over privacy issues● Bij positieve uitkomsten verder met internet als bron van data voor

andere RIVM onderwerpen (zoals sentimenten over voeding)● Verkennen van andere databronnen voor RIVM-onderzoek (zoals hi-

res satellietbeelden en telefoonverkeerdata)● Kennis van techniek verder verbreden (Natural Language

Processing, machine learning, parallel computing etc.)

NMDC Studiedag || Internet als Big Data || 28-11-201613