Jeugd in Onderzoek - Gemeente Rotterdam Rotterdamse TNO … · 2019. 5. 21. · Jeugd Gemeente...
Transcript of Jeugd in Onderzoek - Gemeente Rotterdam Rotterdamse TNO … · 2019. 5. 21. · Jeugd Gemeente...
20-5-2019
RotterdamseData Science Analyse Jeugd
Gemeente Rotterdam
TNO
Ministerie van OCW
Ministerie van BZK
20-5-20192
Rotterdam Groeit: evidentie en interactie
▪Potentie van de stad waarmaken: kansrijk, veilig en
gezond opgroeien van kinderen en jongeren
▪Naast symptoombestrijding ook dieper kijken voor
duurzaam resultaat
▪Versterken van perspectief, beperken van problemen
▪ Interactie met professionals, ouders en kinderen
▪Wetenschappelijk fundament: factoren
▪Kwaliteit: doen wat werkt; meten,
spreken en verbeteren
20-5-20193
20-5-20195
Ranking van factoren
▪Op: relevantie, impact en prevalentie
20-5-20196
Factor ranking
Emotionele- en sociale vaardigheden 1
Ouderlijke psychopathologie 2
Sociaal economische status 2
Opvoedingsvaardigheden 2
Psychosociale problemen 3
Lage opleiding/verzuim/voortijdig schoolverlaten/slechte schoolprestaties 3
Woonomgeving/slechte buurt 3
Middelengebruik 4
Mishandeling 4
Criminaliteit 5
Sport/beweging (individu) 5
Stimuleren vanuit omgeving cultuur 5
Stimuleren/bekendheid sport 5
Temperament 5
Toegang voorzieningen 5
Voeding 5
Zwakke binding met buurt 5
Beleidsmodel Rotterdam Groeit
Input Throughput Output
Outcome Impact
Meten, spreken, verbeteren
Data Science Analyse Rotterdam
Gedeelde ambitie: Gemeente Rotterdam, OCW, TNO en
BZK → samenwerking in matrix van proces en inhoud
Doel
Met verschillende machine learning technieken het
factorenmodel Rotterdam Groeit verrijken en inzichten
verwerven voor potentieel effectief beleid voor het kansrijk,
veilig en gezond opgroeien van kinderen en jongeren in de
stad
20-5-20198
Beoogde resultaten
▪Werkwijze voor het bouwen van een hybride model van
generieke wetenschappelijke literatuur en actuele data
binnen een locale context
▪Kennis over het gebruik van machine learning in de
sociale context
▪Het werken met data van verschillende partners op
populatieniveau van de hele stad
▪Het ontwikkelen van een dataset met potentie voor
kwalitatief hoogwaardige analyses
▪Uitlegbaarheid van AI in een publieke beleidscontext
20-5-20199
Inhoudelijke thema’s
▪Oorzaken en (mate van) invloeden van factoren op sociaal
emotionele gezondheid
▪Welke factoren in welke mate een rol spelen bij het
verwezenlijken van kansen voor kinderen, bijvoorbeeld
m.b.t. schoolsucces, maar ook in risico’s zoals op het
gebied van delinquentie
20-5-201910
20-5-201911
20-5-201912
DATA GEDREVEN BELEID
Databronnen als (real-time) sensor data
leveren mogelijk nieuwe inzichten op voor
(‘evidence-based’) beleid.
Hiervoor zijn ook nieuwe methoden nodig: kan
machine learning beleidsmodellen versterken?
Vanwege wettelijke bepalingen, waaronder
t.a.v. de privacy van betrokkenen, is een
omgeving nodig om te experimenteren.
Belang van co-creatie: betrekken stakeholders
in verschillende fases van beleid.
Policy Lab Casus Rotterdams Jeugdbeleid
POLICY LAB
BENADERING
1. Identificeren van nieuwe
databronnen en technologieën met
impact op beleid.
2. Opzetten van experimenten om deze
nieuwe technologieën, methoden en
beleidsmodellen te testen.
3. Implementeren en monitoren van dit
beleid; formuleren van mogelijkheden
voor opschaling.
Policy Lab Casus Rotterdams Jeugdbeleid
TOEPASSING: JEUGDBELEID ROTTERDAM
Data over sociaal-emotionele
vaardigheden en gedrag van jongeren
kunnen het beleidsmodel versterken.
Opstellen hybride beleidsmodel: niet
alleen combinatie van theorie en praktijk,
maar ook machine learning en statistiek.
Policy Lab Casus Rotterdams Jeugdbeleid
Verkennen van nieuwe databronnen en
technologieën en de impact op beleid
1. Analyse van het bestaande beleidsmodel
2. Bepalen welke databronnen het beleidsmodel
kunnen onderbouwen
3. Opstellen DPIA / gegevensverwerkingsregeling
4. Data verzamelen en opschonen
5. Trainen data-gedreven model (machine learning)
6. Aanvullende statistische analyses
7. Analyse van de uitkomsten; uitlegbaarheid
8. Opstellen hybride beleidsmodel
VOORSPELLEN
Policy Lab Casus Rotterdams Jeugdbeleid
ONDERZOEKSDOEL
“Met verschillende machine learning technieken het factorenmodel
Rotterdam Groeit verrijken en inzichten verwerven voor potentieel
effectief beleid voor het kansrijk, veilig en gezond opgroeien van kinderen
en jongeren in de stad’
Machine Learning
AANPAK
Begrijpen factorenmodel ‘Rotterdam Groeit’ + indicatoren identificeren
(sprint)
Data-gedreven model maken
Kunnen we gebaseerd op de aanwezige data een data-gedreven
model maken?
Sociaal-emotionele gezondheid
Delinquentie
Schoolprestaties
Statistische analyse van een aantal variabelen
Machine Learning
DATASET
Bronnen:
CBS
CJG
DUO
Gemeente Rotterdam
Uitkomsten:
Sociaal emotionele gezondheid: groep 2, VO1 (SDQ) en VO3 (RCADS)
(2014-2018)
Delinquentie: verdachten of bij halt (2005-2017)
Schoolsucces: opstroom, afstroom, zittenblijven (2014-2017)
Machine Learning
MACHINE LEARNING - CRISP-DM MODEL
Machine Learning
DATA PREPARATIE
Inladen van de data
Toetsing en analyse van data
Alle databronnen koppelen op personen
Selectie van de geselecteerde variabelen
Omgaan met missende data
Omgaan met disbalans in de data
Machine Learning
MACHINE LEARNING - CRISP-DM MODEL
Machine Learning
MACHINE LEARNING – MODELLING
(from: http://blogs.teradata.com/data-points/building-machine-learning-infrastructure-2/)
MODEL
Trainen & Testen:
Zorgen dat je een stuk ongeziene data houdt om mee te testen; dit voorkomt dat je ‘overfit’ op de
data
Zorgen dat de training en test data ongeveer hetzelfde verdeeld zijn qua klassen
Performance maat moet geschikt zijn: 100% is meestal niet haalbaar, maar wat kan dan wel
en wat is belangrijk?
‘Garbage in, garbage out’ principe: gooi je er onzin in, komt er onzin uit
Genoeg data: hoeveel data er is en hoe divers deze is, bepaalt welk model het beste te gebruiken is
(geen overkill, maar ook geen te simpel model)
Machine Learning
TYPE ALGORITMEN
Bron: sklearn
KEUZE ALGORITME
Een aantal verschillende algoritmen met standaard settings proberen en kijken
welke het goed doet
Dan gaan we verder met die algoritmen en kijken we of we ze nog beter
kunnen krijgen
Ook trainen we het model meerdere keren om te kijken of de uitkomst
stabiel is (dezelfde performance en dezelfde variabelen die belangrijk zijn)
Focus bij dit project ligt op explainable modellen, dus waarin we kunnen zien
wat het model heeft geleerd en welke input variabelen een grote / kleine invloed
hebben
Machine Learning
VOORBEELD DECISION TREE (BESLISBOOM)
Machine Learning
MACHINE LEARNING - CRISP-DM MODEL
Machine Learning
EVALUATIE – VEEL VERSCHILLENDE MATEN!
Machine Learning
Bron: wikipedia
EVALUATIE
Reflectie sessie met experts:
Is het belangrijker dat
alle hoge waarden (bijv. SDQ) gevonden worden, met als gevaar dat
veel lage waarden ook als hoog worden voorspeld,
of dat de hoge waarden die gevonden worden ook echt goed zijn, met
de kans dat er een aantal gemist worden?
Wijk wel of niet als factor opnemen
Leeftijd: 13 –jarigen wel of niet in dataset
Machine Learning
STATISTISCHE ANALYSE
Vergelijking van de associatie tussen Sociaal-emotionele gezondheid en
uitkomstmaten, zoals delinquentie
Correlatie berekenen is helaas niet mogelijk vanwege de niet-
kloppende assumpties
Associaties is uitgerekend door
two-way tabulation (‘tellen’)
tetrachoric correlation coefficient (correlatie uitrekenen)
probit model and its goodness of fit (statistisch data model)
Machine Learning
RESULTATEN ALGEMEEN
Het is mogelijk een data-gedreven model te maken om de verschillende uitkomsten te voorspellen.
De performance is nog beperkt; vooral waarden die weinig voorkomen zijn moeilijk te voorspellen.
WOZ waarde komt vaak terug als belangrijkste voorspellende waarde, voor zowel SDQ als delinquentie
als schoolsucces.
Statistiek laat zien dat de relatie tussen een variabele, WOZ in dit geval, en de uitkomsten heel
complex is en waarschijnlijk niet lineair. De relatie was niet significant.
Machine learning kan dit ook niet volledig vatten, maar kan wel gebruikt worden om te bepalen
welke variabelen verder onderzocht moeten worden / een grotere impact zouden kunnen hebben.
Voorzichtigheid: er zijn (buurt)variabelen die ‘best of the rest’ zijn en 4% voorspellende waarde van de
uitkomst hebben, maar aan dergelijke beperkte percentages kunnen geen conclusies worden
verbonden.
Machine Learning
Disbalans van de uitkomsten: er zijn weinig positieve gevallen. De beïnvloedende factoren zijn vaak per
geval verschillend, en daardoor kan er geen goed model getraind worden voor de positieven.
Realistische input variabelen: de variabelen die we ter beschikking hadden, zijn mogelijk niet
toereikend om het volledige plaatje te krijgen en dus ook niet om een heel goed model te trainen.
In alle gevallen lijkt het model beter voorspellend als de WOZ-waarde als variabele mee wordt
genomen.
RESULTATEN ALGEMEEN
Machine Learning
RESULTATEN – SOCIAAL EMOTIONELE
GEZONDHEID
Uitkomst: leerlingen met een verhoogd risico op psychosociale problemen (SDQ/RCADS score)
Belangrijkste resultaat: WOZ waarde van het huis waar de jeugdige woont, een aantal buurtvariabelen
als ‘best of the rest’, waarde rond de 4%
Het gebruik van alle variabelen m.u.v. WOZ-waarde i.p.v. de hele dataset vermindert de performance
overall iets, maar de positieven worden wel beter voorspeld.
Voor VO1 is de voorspelling iets slechter dan bij VO3, ondanks dat er meer positieven aanwezig zijn.
Doordat het meetinstrument anders is, kunnen we hier geen conclusies aan verbinden.
Machine Learning
RESULTATEN - DELINQUENTIE
Uitkomst: leerlingen met een verhoogd risico op het plegen van (halt-)delicten
In de analyse lijkt naast de WOZ-waarde, de studierichting vmbo en man-zijn beïnvloedend te zijn.
Het maakt geen verschil of de scores sociaal – emotionele gezondheid wel of niet meegenomen
worden als input voor het model.
Machine Learning
RESULTATEN - SCHOOLSUCCES
Uitkomst : leerlingen met een een verhoogde kans om te blijven zitten, op- of af te stromen
Zelfde algemene constateringen als bij SDQ en delinquentie: namelijk: WOZ –waarde als belangrijkste
voorspeller
Het toevoegen van de sociaal-emotionele gezondheid variabelen als input voor het model heeft geen
toegevoegde waarde.
Vroegtijdig schoolverlaten kon niet worden voorspeld, omdat er nauwelijks positieve uitkomstvariabelen
waren.
Machine Learning
Potentie en toekomst
20-5-201937
▪ In dit project hebben we een data-gedreven beleidsmodel kunnen
maken. Hiermee is het mogelijk uitkomsten te voorspellen en samenhang
tussen factoren in beeld te krijgen.
▪ Daarin hebben we veel geleerd, zoals
▪ De benodigde data verkrijgen is vrij lastig, maar wel haalbaar
▪ Het pre-processen van de data kost veel tijd, maar is nodig en waardevol
▪ Samenbrengen van de expert kennis op het beleidsgebied en het data
science gebied heeft het proces versneld en we hebben elkaar versterkt
▪ En er is niet één variabele die eenduidig de grootste invloed heeft
Potentie en toekomst
▪ Doel: met verschillende machine learning technieken het factorenmodel Rotterdam
Groeit verrijken en inzichten verwerven voor potentieel effectief beleid voor het
kansrijk, veilig en gezond opgroeien van kinderen en jongeren in de stad
Potentie
- Meer tijd in de preparatiefase voor analyse, hiermee meer balans in dataset
- Toetsen van meer modellen dan uitlegbare en lineaire methoden
▪ Toevoegen meer jaren aan de dataset voor meer data, en data over een langere
periode van het leven van een kind
▪ Verder verrijken van datasets door toevoegen van indicatoren
▪ Door samenwerking met partners toewerken naar steeds betere indicatoren
20-5-201938
20-5-201939
Ecosysteem van factoren
20-5-201940