Ngi data science

Post on 22-Jan-2018

721 views 0 download

Transcript of Ngi data science

Linda Terlouw (linda.terlouw@icris.nl)

Tutorial Data Science

Data Science is een vakgebied dat zich richt op het verzamelen, organiseren en analyseren van (grote) data sets om patronen te ontdekken.

Hadden we niet al BI?

Data Science is niet nieuw. De populariteit ervan neemt wel toe door ontwikkelingen die de opslag en verwerking van grote datasets gemak-kelijker maken (Big Data). Hieronder vallen bijv. NoSQL data stores en in-memory databases.

De data scientist bestaat niet. Mensen werkzaam in data science hebben verschillende achtergronden.

Data Analytics combineert technieken uit o.a. de volgende vakgebieden: Statistiek, Opera-

tional research en Software engineering.

Google introduceerde PageRank; een algoritme dat keek naar “het belang” van webpagina’s.

Search engines als AltaVista gebruikten traditionele information retrieval-technieken.

Kaggle heeft een wedstrijd uitgezet om met behulp van data science meer “te zien” dan artsen voor het voor-

komen en genezen van oogafwijkingen bij diabetici.

Met behulp van data science kun je weten dat de klant ver-trekt voordat hij het zelf weet.

privacy?

Tom M. Mitchell: “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”.

Machine Learning?

Overfitting versus

underfitting

Enkele aanpakken in data science zijn:- classificatie- regressie- clustering- similarity matching- association rule discovery- graafanalyse

Dit is geen complete lijst!

Classificatie voorspelt een niet-numerieke waarde

Voorbeeldhet onderscheiden van normale en frauduleuze transacties voor het automatisch blokkeren van

credit cards

Regressievoorspelt een numerieke waarde

Voorbeeldhet voorspellen van het aantal flesjes bier dat verkocht wordt

aan de hand van prijs en het weer

Clusteringontdekt groepen van gelijksoortige dingen

Voorbeeldhet segmenteren van klant-groepen met verschillende

behoeftes

SIMILARITY MATCHINGvoorspelt gelijksoortige producten

Voorbeeldhet voorspellen van een Net-flix-serie op basis van eerder

kijkgedrag

Association rule discoverybepaalt gelijkheid van dingen op basis van transacties

Voorbeeldhet bieden van gepersonaliseerde aan-

biedingen op basis van producten die al in de kar liggen

Graafanalyseanalyseert netwerken van mensen of dingen

Voorbeeldhet vinden van fraudenetwerken

in de zorgsector

In Nederland is het nieuwe vakgebied Process Mining ontwikkeld.

Dit is Data Science toegepast op bedrijfsprocessen.

Business Understanding

Data Understanding

Data Preparation

Modeling

Evaluation

Deployment

Het data science-proces is geen rechte lijn van A naar B.

Demo

Process mining as a Service: www.processminingfactory.com

www.icris.nllinda.terlouw@icris.nl

icrismeasure facts, treasure knowledge

linda
Stamp