3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan...

Post on 29-Sep-2020

7 views 0 download

Transcript of 3-wong-Internet als bron van Big Data RIVM · in ongeobserveerde kenmerken van mensen die niet aan...

Internet als een bron van big data:

De ervaringen van het RIVM

Albert Wong

NMDC Studiedag || Internet als Big Data || 28-11-2016

1

Internet als vorm van Big DataWaarom kan het internet als een vorm van Big Data worden gezien?

Volume● >>1 miljard websites wereldwijd● 200 miljard Twitter berichten per jaar wereldwijd

Velocity● Gemiddeld 6,000 Twitterberichten per seconde wereldwijd

Variety● Teksten met grote variatie aan talen, dialecten, taalgebruik (e.g.

informeel/formeel, jargon, etc.)● Veel metadata (gebruikerstatistieken, plaats, tijd, etc.)

Bron: livescience.com, internetlivestats.com

NMDC Studiedag || Internet als Big Data || 28-11-20162

Veel data, veel kennis?

𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛

NMDC Studiedag || Internet als Big Data || 28-11-20163

Veel data, veel kennis?

𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛

NMDC Studiedag || Internet als Big Data || 28-11-20164

Veel data, veel kennis?Garbage In, Garbage Out (GIGO)● Veel ruis / non-informatie: het is lastig om de data te filteren die van belang

zijn voor jouw vraagstelling● Onzin: soms zijn data die qua onderwerp wel van belang zijn gewoon

onbruikbaar

Gebrek aan representativiteit● Geen random sample: Jongeren zijn oververtegenwoordigd op het internet● (Self-)Selection bias: participanten die meedoen aan social media verschillen

in ongeobserveerde kenmerken van mensen die niet aan social media doen

Gebrek aan identificatie (gunstig voor privacy, niet gunstig voor onderzoek)● Veel data over één kenmerk beschikbaar● Data zijn niet te koppelen

NMDC Studiedag || Internet als Big Data || 28-11-20165

Veel data, veel kennis?

𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛

NMDC Studiedag || Internet als Big Data || 28-11-20166

Hoe kijken wij tegen Big Data aan?

𝑀𝑒𝑡𝑒𝑛 ⟹ 𝑊𝑒𝑡𝑒𝑛

NMDC Studiedag || Internet als Big Data || 28-11-20167

𝑁𝑖𝑒𝑡𝑚𝑒𝑡𝑒𝑛 ⟹ 𝑁𝑖𝑒𝑡𝑤𝑒𝑡𝑒𝑛!!!

RIVM Projecten Big DataInitiatief: Pilot projecten

Vraagstellingen:● Hoe kunnen we het internet gebruiken als databron voor RIVM

onderzoek en taken?● Welke technieken zijn er voor benodigd om de tekstdata op het

internet te analyseren? Kunnen wij die ons eigen maken? Kunnen we een infrastructuur opzetten?

NMDC Studiedag || Internet als Big Data || 28-11-20168

Textmining proces (Pipeline)

NMDC Studiedag || Internet als Big Data || 28-11-20169

Hoe kunnen we internetdata gebruiken?Opsporing van incidenten/ongewenste uitkomsten op het internet, die anders onopgemerkt blijven● Mensen delen persoonlijke ervaringen op social media (Twitter,

Webfora)● Ervaringen bevatten soms zaken waarover we anders nooit of veel

later zouden horen

Voorbeelden:● Nieuwe incidenten van voedselvergiftigingen (restaurants)● Nieuwe bijwerkingen van geneesmiddelen en

voedingssupplementen

NMDC Studiedag || Internet als Big Data || 28-11-201610

Hoe kunnen we internetdata gebruiken?Monitoring van social media● Geeft inzicht in de sentiment van de burger over RIVM-

onderwerpen, ook al is het niet geheel representatief● Is relatief goedkoop en minder tijdrovend in vergelijking met

enquêtes● Inzicht in actueel sentiment, wat niet haalbaar is met enquêtes● Geeft mogelijkheid tot ingrijpen bij misinformatie of uit de hand

lopende negatieve sentimenten op het internet

Voorbeelden:● Sentiment over rijksvaccinatieprogramma● Sentiment over RIVM onderzoek, zoals over de link tussen

kunstgrasvelden en het voorkomen van kanker

NMDC Studiedag || Internet als Big Data || 28-11-201611

12 NMDC Studiedag || Internet als Big Data || 28-11-2016

Hoe nu verder?● Draagvlak creëren binnen het RIVM● Standpunt innemen over privacy issues● Bij positieve uitkomsten verder met internet als bron van data voor

andere RIVM onderwerpen (zoals sentimenten over voeding)● Verkennen van andere databronnen voor RIVM-onderzoek (zoals hi-

res satellietbeelden en telefoonverkeerdata)● Kennis van techniek verder verbreden (Natural Language

Processing, machine learning, parallel computing etc.)

NMDC Studiedag || Internet als Big Data || 28-11-201613