Jeugd in Onderzoek - Gemeente Rotterdam Rotterdamse TNO … · 2019. 5. 21. · Jeugd Gemeente...

20-5-2019

RotterdamseData Science Analyse Jeugd

Gemeente Rotterdam

TNO

Ministerie van OCW

Ministerie van BZK

20-5-20192

Rotterdam Groeit: evidentie en interactie

▪Potentie van de stad waarmaken: kansrijk, veilig en

gezond opgroeien van kinderen en jongeren

▪Naast symptoombestrijding ook dieper kijken voor

duurzaam resultaat

▪Versterken van perspectief, beperken van problemen

▪ Interactie met professionals, ouders en kinderen

▪Wetenschappelijk fundament: factoren

▪Kwaliteit: doen wat werkt; meten,

spreken en verbeteren

20-5-20193

20-5-20195

Ranking van factoren

▪Op: relevantie, impact en prevalentie

20-5-20196

Factor ranking

Emotionele- en sociale vaardigheden 1

Ouderlijke psychopathologie 2

Sociaal economische status 2

Opvoedingsvaardigheden 2

Psychosociale problemen 3

Lage opleiding/verzuim/voortijdig schoolverlaten/slechte schoolprestaties 3

Woonomgeving/slechte buurt 3

Middelengebruik 4

Mishandeling 4

Criminaliteit 5

Sport/beweging (individu) 5

Stimuleren vanuit omgeving cultuur 5

Stimuleren/bekendheid sport 5

Temperament 5

Toegang voorzieningen 5

Voeding 5

Zwakke binding met buurt 5

Beleidsmodel Rotterdam Groeit

Input Throughput Output

Outcome Impact

Meten, spreken, verbeteren

Data Science Analyse Rotterdam

Gedeelde ambitie: Gemeente Rotterdam, OCW, TNO en

BZK → samenwerking in matrix van proces en inhoud

Doel

Met verschillende machine learning technieken het

factorenmodel Rotterdam Groeit verrijken en inzichten

verwerven voor potentieel effectief beleid voor het kansrijk,

veilig en gezond opgroeien van kinderen en jongeren in de

stad

20-5-20198

Beoogde resultaten

▪Werkwijze voor het bouwen van een hybride model van

generieke wetenschappelijke literatuur en actuele data

binnen een locale context

▪Kennis over het gebruik van machine learning in de

sociale context

▪Het werken met data van verschillende partners op

populatieniveau van de hele stad

▪Het ontwikkelen van een dataset met potentie voor

kwalitatief hoogwaardige analyses

▪Uitlegbaarheid van AI in een publieke beleidscontext

20-5-20199

Inhoudelijke thema’s

▪Oorzaken en (mate van) invloeden van factoren op sociaal

emotionele gezondheid

▪Welke factoren in welke mate een rol spelen bij het

verwezenlijken van kansen voor kinderen, bijvoorbeeld

m.b.t. schoolsucces, maar ook in risico’s zoals op het

gebied van delinquentie

20-5-201910

20-5-201911

20-5-201912

DATA GEDREVEN BELEID

Databronnen als (real-time) sensor data

leveren mogelijk nieuwe inzichten op voor

(‘evidence-based’) beleid.

Hiervoor zijn ook nieuwe methoden nodig: kan

machine learning beleidsmodellen versterken?

Vanwege wettelijke bepalingen, waaronder

t.a.v. de privacy van betrokkenen, is een

omgeving nodig om te experimenteren.

Belang van co-creatie: betrekken stakeholders

in verschillende fases van beleid.

Policy Lab Casus Rotterdams Jeugdbeleid

POLICY LAB

BENADERING

1. Identificeren van nieuwe

databronnen en technologieën met

impact op beleid.

2. Opzetten van experimenten om deze

nieuwe technologieën, methoden en

beleidsmodellen te testen.

3. Implementeren en monitoren van dit

beleid; formuleren van mogelijkheden

voor opschaling.


TOEPASSING: JEUGDBELEID ROTTERDAM

Data over sociaal-emotionele

vaardigheden en gedrag van jongeren

kunnen het beleidsmodel versterken.

Opstellen hybride beleidsmodel: niet

alleen combinatie van theorie en praktijk,

maar ook machine learning en statistiek.


Verkennen van nieuwe databronnen en

technologieën en de impact op beleid

1. Analyse van het bestaande beleidsmodel

2. Bepalen welke databronnen het beleidsmodel

kunnen onderbouwen

3. Opstellen DPIA / gegevensverwerkingsregeling

4. Data verzamelen en opschonen

5. Trainen data-gedreven model (machine learning)

6. Aanvullende statistische analyses

7. Analyse van de uitkomsten; uitlegbaarheid

8. Opstellen hybride beleidsmodel

VOORSPELLEN


ONDERZOEKSDOEL

“Met verschillende machine learning technieken het factorenmodel

Rotterdam Groeit verrijken en inzichten verwerven voor potentieel

effectief beleid voor het kansrijk, veilig en gezond opgroeien van kinderen

en jongeren in de stad’

Machine Learning

AANPAK

Begrijpen factorenmodel ‘Rotterdam Groeit’ + indicatoren identificeren

(sprint)

Data-gedreven model maken

Kunnen we gebaseerd op de aanwezige data een data-gedreven

model maken?

Sociaal-emotionele gezondheid

Delinquentie

Schoolprestaties

Statistische analyse van een aantal variabelen

Machine Learning

DATASET

Bronnen:

CBS

CJG

DUO

Gemeente Rotterdam

Uitkomsten:

Sociaal emotionele gezondheid: groep 2, VO1 (SDQ) en VO3 (RCADS)

(2014-2018)

Delinquentie: verdachten of bij halt (2005-2017)

Schoolsucces: opstroom, afstroom, zittenblijven (2014-2017)

Machine Learning

MACHINE LEARNING - CRISP-DM MODEL

Machine Learning

DATA PREPARATIE

Inladen van de data

Toetsing en analyse van data

Alle databronnen koppelen op personen

Selectie van de geselecteerde variabelen

Omgaan met missende data

Omgaan met disbalans in de data

Machine Learning


Machine Learning

MACHINE LEARNING – MODELLING

(from: http://blogs.teradata.com/data-points/building-machine-learning-infrastructure-2/)

MODEL

Trainen & Testen:

Zorgen dat je een stuk ongeziene data houdt om mee te testen; dit voorkomt dat je ‘overfit’ op de

data

Zorgen dat de training en test data ongeveer hetzelfde verdeeld zijn qua klassen

Performance maat moet geschikt zijn: 100% is meestal niet haalbaar, maar wat kan dan wel

en wat is belangrijk?

‘Garbage in, garbage out’ principe: gooi je er onzin in, komt er onzin uit

Genoeg data: hoeveel data er is en hoe divers deze is, bepaalt welk model het beste te gebruiken is

(geen overkill, maar ook geen te simpel model)

Machine Learning

TYPE ALGORITMEN

Bron: sklearn

KEUZE ALGORITME

Een aantal verschillende algoritmen met standaard settings proberen en kijken

welke het goed doet

Dan gaan we verder met die algoritmen en kijken we of we ze nog beter

kunnen krijgen

Ook trainen we het model meerdere keren om te kijken of de uitkomst

stabiel is (dezelfde performance en dezelfde variabelen die belangrijk zijn)

Focus bij dit project ligt op explainable modellen, dus waarin we kunnen zien

wat het model heeft geleerd en welke input variabelen een grote / kleine invloed

hebben

Machine Learning

VOORBEELD DECISION TREE (BESLISBOOM)

Machine Learning


Machine Learning

EVALUATIE – VEEL VERSCHILLENDE MATEN!

Machine Learning

Bron: wikipedia

EVALUATIE

Reflectie sessie met experts:

Is het belangrijker dat

alle hoge waarden (bijv. SDQ) gevonden worden, met als gevaar dat

veel lage waarden ook als hoog worden voorspeld,

of dat de hoge waarden die gevonden worden ook echt goed zijn, met

de kans dat er een aantal gemist worden?

Wijk wel of niet als factor opnemen

Leeftijd: 13 –jarigen wel of niet in dataset

Machine Learning

STATISTISCHE ANALYSE

Vergelijking van de associatie tussen Sociaal-emotionele gezondheid en

uitkomstmaten, zoals delinquentie

Correlatie berekenen is helaas niet mogelijk vanwege de niet-

kloppende assumpties

Associaties is uitgerekend door

two-way tabulation (‘tellen’)

tetrachoric correlation coefficient (correlatie uitrekenen)

probit model and its goodness of fit (statistisch data model)

Machine Learning

RESULTATEN ALGEMEEN

Het is mogelijk een data-gedreven model te maken om de verschillende uitkomsten te voorspellen.

De performance is nog beperkt; vooral waarden die weinig voorkomen zijn moeilijk te voorspellen.

WOZ waarde komt vaak terug als belangrijkste voorspellende waarde, voor zowel SDQ als delinquentie

als schoolsucces.

Statistiek laat zien dat de relatie tussen een variabele, WOZ in dit geval, en de uitkomsten heel

complex is en waarschijnlijk niet lineair. De relatie was niet significant.

Machine learning kan dit ook niet volledig vatten, maar kan wel gebruikt worden om te bepalen

welke variabelen verder onderzocht moeten worden / een grotere impact zouden kunnen hebben.

Voorzichtigheid: er zijn (buurt)variabelen die ‘best of the rest’ zijn en 4% voorspellende waarde van de

uitkomst hebben, maar aan dergelijke beperkte percentages kunnen geen conclusies worden

verbonden.

Machine Learning

Disbalans van de uitkomsten: er zijn weinig positieve gevallen. De beïnvloedende factoren zijn vaak per

geval verschillend, en daardoor kan er geen goed model getraind worden voor de positieven.

Realistische input variabelen: de variabelen die we ter beschikking hadden, zijn mogelijk niet

toereikend om het volledige plaatje te krijgen en dus ook niet om een heel goed model te trainen.

In alle gevallen lijkt het model beter voorspellend als de WOZ-waarde als variabele mee wordt

genomen.

RESULTATEN ALGEMEEN

Machine Learning

RESULTATEN – SOCIAAL EMOTIONELE

GEZONDHEID

Uitkomst: leerlingen met een verhoogd risico op psychosociale problemen (SDQ/RCADS score)

Belangrijkste resultaat: WOZ waarde van het huis waar de jeugdige woont, een aantal buurtvariabelen

als ‘best of the rest’, waarde rond de 4%

Het gebruik van alle variabelen m.u.v. WOZ-waarde i.p.v. de hele dataset vermindert de performance

overall iets, maar de positieven worden wel beter voorspeld.

Voor VO1 is de voorspelling iets slechter dan bij VO3, ondanks dat er meer positieven aanwezig zijn.

Doordat het meetinstrument anders is, kunnen we hier geen conclusies aan verbinden.

Machine Learning

RESULTATEN - DELINQUENTIE

Uitkomst: leerlingen met een verhoogd risico op het plegen van (halt-)delicten

In de analyse lijkt naast de WOZ-waarde, de studierichting vmbo en man-zijn beïnvloedend te zijn.

Het maakt geen verschil of de scores sociaal – emotionele gezondheid wel of niet meegenomen

worden als input voor het model.

Machine Learning

RESULTATEN - SCHOOLSUCCES

Uitkomst : leerlingen met een een verhoogde kans om te blijven zitten, op- of af te stromen

Zelfde algemene constateringen als bij SDQ en delinquentie: namelijk: WOZ –waarde als belangrijkste

voorspeller

Het toevoegen van de sociaal-emotionele gezondheid variabelen als input voor het model heeft geen

toegevoegde waarde.

Vroegtijdig schoolverlaten kon niet worden voorspeld, omdat er nauwelijks positieve uitkomstvariabelen

waren.

Machine Learning

Potentie en toekomst

20-5-201937

▪ In dit project hebben we een data-gedreven beleidsmodel kunnen

maken. Hiermee is het mogelijk uitkomsten te voorspellen en samenhang

tussen factoren in beeld te krijgen.

▪ Daarin hebben we veel geleerd, zoals

▪ De benodigde data verkrijgen is vrij lastig, maar wel haalbaar

▪ Het pre-processen van de data kost veel tijd, maar is nodig en waardevol

▪ Samenbrengen van de expert kennis op het beleidsgebied en het data

science gebied heeft het proces versneld en we hebben elkaar versterkt

▪ En er is niet één variabele die eenduidig de grootste invloed heeft

Potentie en toekomst

▪ Doel: met verschillende machine learning technieken het factorenmodel Rotterdam

Groeit verrijken en inzichten verwerven voor potentieel effectief beleid voor het

kansrijk, veilig en gezond opgroeien van kinderen en jongeren in de stad

Potentie

- Meer tijd in de preparatiefase voor analyse, hiermee meer balans in dataset

- Toetsen van meer modellen dan uitlegbare en lineaire methoden

▪ Toevoegen meer jaren aan de dataset voor meer data, en data over een langere

periode van het leven van een kind

▪ Verder verrijken van datasets door toevoegen van indicatoren

▪ Door samenwerking met partners toewerken naar steeds betere indicatoren

20-5-201938

20-5-201939

Ecosysteem van factoren

20-5-201940

20-5-201941

Dank voor uw aandacht

www.rotterdam.nl/jeugd

@jeugd010

[email protected]

Jeugd in Onderzoek - Gemeente Rotterdam Rotterdamse TNO … · 2019. 5. 21. · Jeugd Gemeente...

Documents

Transcript of Jeugd in Onderzoek - Gemeente Rotterdam Rotterdamse TNO … · 2019. 5. 21. · Jeugd Gemeente...