Big Data & Machine Learning - Mogelijkheden & Valkuilen

Post on 15-Apr-2017

1.660 views 1 download

Transcript of Big Data & Machine Learning - Mogelijkheden & Valkuilen

Big Data & Machine Learning

Mogelijkheden & Valkuilen

David Graus

Deel 0: IntroductieWie ben ik? Wat is Big Data & Machine Learning (ML)?

Deel I: TheorieHoe werkt ML?

Deel II: Voorbeelden Mogelijkheden van Big Data & ML

Deel III: Valkuilen Risico’s bij het gebruik van

ML & Big Data?

Wie ben ik?

PhD kandidaat @ UvA: Semantic Search for E-Discovery

Data Scientist @ FD Mediagroep

Semantic Search for E-Discovery

• E-Discovery: Ondersteunen van zoeken naar “bewijsmateriaal” in ongestructureerde data (social media, forums, email, etc.)

• Semantic search: toegepaste machine learning en taaltechnologie voor beter ontsluiten “digitale sporen.”

1. Herkennen structuur (entities) in ongestructureerde data (tekst).

2. Voorspellen van gebruikersgedrag op basis van data.

• Vakgebieden: Machine Learning, Text Mining, Information Retrieval.

Wat is big data?

Wat is big data?

Big data

Bron: domo.com

7

Only 4% of Web content (~8 billion pages) is available via search engines like Google

The Public Web

Source: The Deep Web: Semantic Search Takes Innovation to New Depths

Big Data is Behind the Firewall

The Deep Web

Approximately 96% of information is inside the firewall

Fragmented Unmanaged

Growing Hidden

7.9 Zettabytes

Kortom

• Big data:

• Veel (en steeds meer!)

• Snel

• Gevarieerd

• Ongestructureerd/“Onzeker”

Wat is Machine Learning?

Wat is Machine Learning?

• Subgebied van “AI” (Kunstmatige Intelligentie)

• The subfield of computer science that “gives

computers the ability to learn without being

explicitly programmed”

• “AI-hype”

• IBM (Watson), Google (DeepMind)

• Futuristisch: Tesla (zelf-rijdende auto’s)

Deel I: Hoe werkt

Machine Learning?

ML 101

• Voorspel: is iets lekker of niet lekker?

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

ML 101

• Voorspel: is iets lekker of niet lekker?

• Data:

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

ML 101

• Voorspel: is iets lekker of niet lekker?

• Data:

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Feature Extraction

Beschrijf: is het zoet, zout, knapperig, groente?

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Leer een model

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Leer een model

Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groenteLekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Leer een model

Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groente3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Leer een model

Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

3 2 3 1 0 0

zoet zout knapperig groente3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Leer een model

Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

3 2 3 1 0 0

zoet zout knapperig groente3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Leer een model

Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

3 2 3 1 0 0

zoet zout knapperig groente3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Appel

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Leer een model

Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

3 2 3 1 0 0

zoet zout knapperig groente3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Appel

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Leer een model

Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

3 2 3 1 0 0

zoet zout knapperig groente3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Appel

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Voorspel

Bereken de score voor “nieuwe” data.

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groente

Appel 3 0 1 0

3 2 3 1 0 0

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Voorspel

Bereken de score voor “nieuwe” data.

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groente

Appel 3 0 1 0 4

3 2 3 1 0 0

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Voorspel

Bereken de score voor “nieuwe” data.

IJs Pizza

Aardbeien Sardines Broccoli

Spruitjes

zoet zout knapperig groente

Appel 3 0 1 0 4

3 2 3 1 0 0

Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

3 0 3 0 0 0

0 1 0 1 0 0

0 1 0 0 1 1

0 0 0 0

-1 -1

Lekker

Samenvattend

• Gegeven voorbeelden + labels.

• Omschrijf voorbeelden (features)

• Leer een model om features naar labels te “vertalen”

• Bereken voor een nieuw voorbeeld de score

Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child

Deel II: Voorbeelden

1: Voorspellen email communicatie

Waarom?

• Inzicht krijgen in communicatiepatronen.

• Wat zijn de factoren die communicatie bepalen?

• Ontdekken ‘afwijkende’ communicatiepatronen.

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Hoe?

• Leer van (historische) digitale sporen.

• Vergelijk invloed van:

1. Inhoud van email

2. Communicatie netwerk

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Communicatie netwerk

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Communicatie netwerk

d.p.graus@uva.nl z.ren@uva.nl

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Communicatie netwerk

d.p.graus@uva.nl z.ren@uva.nl

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Communicatie netwerk

d.p.graus@uva.nl z.ren@uva.nl

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Communicatie netwerk

d.p.graus@uva.nl z.ren@uva.nl

derijke@uva.nl

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Communicatie netwerk

d.p.graus@uva.nl z.ren@uva.nl

derijke@uva.nl

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Communicatie netwerk

d.p.graus@uva.nl z.ren@uva.nl

derijke@uva.nl

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

Communicatie netwerk

d.p.graus@uva.nl z.ren@uva.nl

derijke@uva.nl

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

image by Calvinius - Creative Commons Attribution-Share Alike 3.0

Bevindingen

• Email inhoud heeft meer voorspelbare waarde dan het netwerk.

• Combineren levert het meest effectieve voorspellen.

• Juiste voorspelling in ~66% van de gevallen.

Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)

2: Structuur van

Criminele Netwerken

Wat?

• Computermodellen inzetten om te onderzoeken hoe een crimineel netwerk op te rollen.

• Case-study: illegale hennepteelt

Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)

Hoe?

Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)

Hoe?

Data Criminele netwerken (personen & contacten) opgebouwd uit inlichtingeninformatie.

Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)

Hoe?

Data Criminele netwerken (personen & contacten) opgebouwd uit inlichtingeninformatie.

VoorspelExperimenteer met het weghalen van knooppunten (= personen) uit het netwerk; meet welke de meeste invloed hebben op de “gezondheid” van het netwerk.

Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)

Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)

Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)

Bevindingen

• Niet de meest centrale/invloedrijke criminelen, maar de gespecialiseerde faciliterende personen verwijderen is het effectiefst in het verstoren van het netwerk.

Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)

Bevindingen

• Niet de meest centrale/invloedrijke criminelen, maar de gespecialiseerde faciliterende personen verwijderen is het effectiefst in het verstoren van het netwerk.

• Computersimulaties om “goedkoop” verschillende interventiestrategieën te testen en te meten.

Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)

3: New York City’s Geek Squad

Waarom?

• Enorm veel gegevens en informatie beschikbaar op stadsniveau.

• Case-study: “illegal conversions” van appartementen

• Opsplitsen van appartementen voor illegale onderhuur.

http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html

Hoe?

http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html

Hoe?

Data Breng alle kavels in kaart.“Verrijk” kavels met extra databronnen.

http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html

Hoe?

Data Breng alle kavels in kaart.“Verrijk” kavels met extra databronnen.

VoorspelLeer van 5 jaar historische data welke kavels het meest waarschijnlijk “illegally converted” zijn.

http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html

Bevindingen

• effectiviteit van opsporen conversions van 13% naar 70%.

• Data die op het eerste gezicht niet gerelateerd lijken, hebben grote voorspelbare waarde.

http://www.slate.com/articles/technology/future_tense/2013/03/big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html

4: Voorspellende waarde

Facebook likes

Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)

4: Voorspellende waarde

Facebook likes

Data: ~58.000 respondenten - Facebook profiel: leeftijd, relatie, etc.- Enquête informatie: roken/drankgebruik, etc. - Facebook likes (gem. ~170 pp)

Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)

4: Voorspellende waarde

Facebook likes

Data: ~58.000 respondenten - Facebook profiel: leeftijd, relatie, etc.- Enquête informatie: roken/drankgebruik, etc. - Facebook likes (gem. ~170 pp)

VoorspelGegeven likes van alle respondenten voorspel Facebook profiel/enquête data.

Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)

Kosinski et al., “Private traits and attributes are predictable from digital records of human behavior” (2013)

Bevindingen

• Automatisch categoriseren van mensen op basis van likes.

• “Verlies” privacy door wat anderen delen.

• Zelfs met een weinig likes (1-5) kun je accurate voorspellingen maken.

Wrap-up

Wrap-up

(Big) Data:

1. (Historisch) Email verkeer

2. Politie/overheidsdata

3. Stadsdata

4. Facebook likes

Wrap-up

(Big) Data:

1. (Historisch) Email verkeer

2. Politie/overheidsdata

3. Stadsdata

4. Facebook likes

Voorspellingen:

1. Wie communiceert met wie (en waarom)?

2. Wie moet je oppakken om een netwerk te verstoren?

3. Wie zijn de verdachten van illegale activiteiten?

4. Wie is de persoon achter een Facebook profiel?

Veel mogelijkheden!

• We gebruiken het dagelijks.

Veel mogelijkheden!

• We gebruiken het dagelijks.

• En steeds meer in de toekomst.

Deel III: Valkuilen

• Steeds meer data/ML “achter de schermen”

• Credit scores.

• Sollicitanten matchen op basis van CV analyse.

• Algorithmic Price Discrimination.

• In het extreme: China’s “Social Credit System.”

Risico’s

Risico’s

• ML heeft tot doel m.b.v. (historische) data de meest waarschijnlijke uitkomst te voorspellen.

• Aanname: patronen herhalen zich

• Gevolg: geleerde “vooroordelen” bestaan voort.

• Voorspel het meest waarschijnlijke: optimalisatie voor de gemene deler.

Algorithmic Bias

• Men ziet technologie, algoritmen, en wiskundige modellen veelal als “neutraal,” en “objectief.”

• Maar dat zijn ze niet: ze zijn een reflectie van onszelf, en leren van “ons”

• Bias In, Bias Out

Voorbeeld

https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

Voorbeeld

https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

Algorithmic Bias

• Relatief nieuw “topic”

• Politieke agenda:

• EU (General Data Protection Regulation)

• The White House “Big Data” reports [1, 2]

• En ook steeds meer vanuit de informatica.

https://www.whitehouse.gov/sites/default/files/microsites/ostp/2016_0504_data_discrimination.pdf https://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf

Begrijp de data

• Onderzoek van Google naar het ‘eerlijk maken’ van banken leen-krediet systeem

• Automatisch compenseren van beslissingsfunctie voor aanwezige subgroepen in data.

• http://research.google.com/bigpicture/attacking-discrimination-in-ml/

• http://research.google.com/bigpicture/attacking-discrimination-in-ml/

• http://research.google.com/bigpicture/attacking-discrimination-in-ml/

Begrijp de data

• Van belang om goed de verschillende subgroepen te vinden.

• http://research.google.com/bigpicture/attacking-discrimination-in-ml/

Begrijp het proces

• Verander de perceptie. De uitkomst van een ML model is ook maar een ‘standpunt’ — indirect een reflectie van onszelf.

• Behandel deze systemen dus niet als ‘orakel.’

• EU wetgeving is een stap in de goede richting.

Samenvattend

• Veel mogelijkheden

• Ongekende hoeveelheid data + snelle computerhardware + slimme algoritmen.

• Steeds toegankelijker.

• Algemene tendens = grotere rol van big data/ML.

• Pas op voor valkuilen!

• Bias In, Bias Out

• Algoritmen zijn geen orakels

Einde

David Graus

david.graus@fdmediagroep.nl

@dvdgrs

Vragen?