Machine Learning - Info Support Blog€¦ · Prijsopgaven en leveringen geschieden volgens de...

Whitepaper Machine Learning Hylke Peek

Hoofdkantoor Kruisboog 42 3905 TG Veenendaal Tel. +31(0)318 - 55 20 20 Fax +31(0)318 - 55 23 55

Kenniscentrum De Smalle Zijde 39 3903 LM Veenendaal Tel. +31(0)318 - 50 11 19 Fax +31(0)318 - 51 83 59

[email protected] www.infosupport.com K.v.K. 3013 5370 BTW NL8062.30.277.B01

IBAN NL92 RABO 0305 9528 89 BIC RABONL2U IBAN NL74 INGB 0004 7385 93 BIC INGBNL2A

Datum: 4-jan-2016 Pagina 2 van 16 Titel: Whitepaper Machine Learning

© Info Support B.V., Veenendaal 2016 Niets uit deze uitgave mag worden verveelvoudigd en/of openbaar gemaakt door middel van druk, fotokopie, microfilm of op welke andere wijze ook, zonder voorafgaande toestemming van Info Support B.V. No part of this publication may be reproduced in any form by print, photo print, microfilm or any other means without written permission by Info Support B.V. Prijsopgaven en leveringen geschieden volgens de Algemene Voorwaarden van Info Support B.V. gedeponeerd bij de K.v.K. te Utrecht onder nr. 30135370. Een exemplaar zenden wij u op uw verzoek per omgaande kosteloos toe.

Whitepaper Machine Learning

Titel Whitepaper

Project/Onderwerp Machine Learning

Datum 4-jan-2016

Bestand Whitepaper Machine Learning

Bedrijf Info Support B.V.

Meer informatie Voor vragen of meer informatie over deze whitepaper kunt u contact opnemen met Info Support door te bellen naar +31 (0) 318 55 20 20 en te vragen naar Sales Support & Marketing (Nederland) of te bellen naar +32 (0) 15 28 63 70 (België). U kunt ook een e-mail sturen naar [email protected].


Inhoudsopgave

1. Intro 4

2. Machine learning in de dagelijkse praktijk 6

3. Waarom machine learning nu populair is 8

4. Vandaag al aan de slag met machine learning 10

5. Toepassingsgebieden 12

6. De valkuilen van machine learning 14

7. Conclusie: machine learning binnen handbereik 15

8. Over Info Support 16


1. Intro

Van alle verschillen die er zijn tussen mens en machine is ‘lerend vermogen’ misschien wel het meest opvallende. Wij mensen hebben een behoefte of probleem, zoeken een oplossing en beoordelen achteraf of we het goed hebben gedaan of niet. In het laatste geval doen we het de volgende keer anders. Vraag dat maar eens aan een tractor of een kopieerapparaat. Machines worden traditioneel zo ontworpen dat we een opdracht kunnen invoeren (gas geven, kopiëren) die vervolgens wordt uitgevoerd. Wij vragen, de machine draait. Zelfs het meest eenvoudige kopieerapparaat kan tegenwoordig echter al leren. Als je een kleurenafbeelding op de glasplaat legt, dan stelt hij voor om dan ook maar een fullcolour-kopie af te drukken. Het gaat nog niet zo ver dat het apparaat je als gebruiker herkent en zich automatisch aanpast aan de persoonlijke voorkeuren die je eerder hebt ingegeven, maar dat gaat ongetwijfeld niet lang meer duren. Als machines zoals kopieerapparaten zelf gaan ‘denken’, dan hebben we het over machine learning. Dit fenomeen is niet zo nieuw als je misschien zou denken. Al ruim zestig jaar geleden (in 1952) ontwikkelde IBM-medewerker Arthur Samuel een computermodel waarmee dammers op wereldniveau hun spel konden oefenen en verbeteren. De computer leerde van de moves van de tegenspelers en paste daar zijn strategie op aan. Het duurde tot de jaren negentig voordat IBM een computer had ontwikkeld die wereldkampioen schaken Kasparov kon verslaan (Deep Blue).


Nu klinkt machine learning misschien als een ingewikkelde technologie die alleen voorbehouden is aan hele grote organisaties met dito budgetten, om complexe problemen op te lossen. Het goede nieuws is: zoals dat vaak gaat met technologie, wordt machine learning inmiddels zo breed toegepast dat het voor elk bedrijf in elke sector binnen handbereik ligt. Hoe? Daar komen we later op terug in deze whitepaper. Eerst zoomen we nog in op alledaagse voorbeelden van machine learning die we al heel gewoon zijn gaan vinden. Ook komen er nog tips aan bod om vandaag nog aan de slag te gaan met deze technologie. Ten slotte behandelen we de valkuilen: waarop moet je zoal letten voordat je machine learning toepast? Wat kan er misgaan en hoe voorkom je dat?

Machine learning of data mining? Over de exacte definitie van machine learning bestaat nog weleens wat onduidelijkheid; niet zelden wordt het verward met data mining. Er is wel degelijk een verschil. Data mining gebruiken we om kennis en onbekende patronen te herkennen in ogenschijnlijk ongestructureerde data. Machine learning passen we toe om machines te laten leren zonder dat we expliciet programmeren wát ze leren. Om zowel machine learning als data mining toe te passen kan je gebruik maken van veel verschillende soorten algoritmes. Bij machine learning hebben de algoritmes voornamelijk betrekking op het ‘lerende’ aspect van de oplossing, waar bij data mining een breder scala aan algoritmes interessant is. Het verschil zit voor een deel in het soort algoritmes die je gebruikt, maar belangrijker nog is het doel van je oplossing. Tegelijkertijd heeft machine learning iets weg van de techniek die ‘predictive analytics’ heet; namelijk het voorspellen van (consumenten)gedrag op basis van historische data. Het grote verschil met machine learning is echter wie er uiteindelijk wijzer wordt van deze gegevens: alleen de gebruiker (predictive analytics) of ook het systeem (in het geval van machine learning).


2. Machine learning in de dagelijkse praktijk

Dagelijks komen we tientallen keren in aanraking met computers die leren van ons gedrag en zich daaraan aanpassen, vaak zelfs zonder dat we het in de gaten hebben. Google is een bekend voorbeeld van een bedrijf dat machine learning toepast op veel producten en diensten. Zo is hun vertaaldienst Google Translate vooral gebaseerd op ervaring. Voor elke tekst die je ingeeft, zoekt Google naar eerdere vertalingen van soortgelijke zinnen en past daarop zijn suggestie aan. Hoe meer mensen het systeem gebruiken, des te slimmer het wordt. Dat geldt ook voor zelfrijdende auto’s. Deze rijdende computers leren voortdurend van wat ze onderweg tegenkomen en passen daar hun rijgedrag op aan. Hierdoor gaan ze niet alleen steeds beter rijden, het verkleint ook nog eens de kans op ongelukken.

Een zelfrijdende auto van Google (bron: smoothgroover 22, via Flickr).

Media-streamingdiensten als Spotify en Netflix zijn steeds slimmer in het voorspellen van je smaak. Zo analyseert Spotify voortdurend de muziek die je beluistert en deze voorkeur wordt gekoppeld aan andere gebruikersprofielen met een vergelijkbare smaak. Dit wordt vervolgens gebruikt om je elke week een verse lijst voor te schotelen met dertig liedjes die je wellicht nog niet kende, maar waarschijnlijk wel goed vindt. Is dit een pure vriendendienst van Spotify? Natuurlijk niet, de muziekdienst rekent erop dat je het programma vaker gebruikt door dit soort relevante suggesties. Bovendien heeft elke week wel een paar liedjes in petto die zijn gesponsord door platenmaatschappijen – waar Spotify weer handig aan verdient.


Helemaal commercieel is de machine learning-praktijk die wordt toegepast door webshops als bol.com en Amazon.com. Ook hier gaat het om het koppelen van jouw koopgedrag aan dat van vergelijkbare klanten. Vind je boek A leuk? Dan interesseert deze titel je misschien ook wel. Kortom: machine learning is niet alleen een slimme manier om systemen gebruiksvriendelijker te maken, er zit vaak ook een commerciële component aan vast. Immers: hoe gerichter en relevanter je (potentiële) klanten kunt bedienen, des te groter de kans dat ze klant bij je blijven of worden. Toch lijkt het opvallend dat het zes decennia heeft geduurd sinds de eerste experimenten van IBM en de wereldwijde adoptie van machine learning. Hoe kan het dat zo lang heeft geduurd? Waarom juist nu? Op die vraag gaan we het volgende hoofdstuk in.


3. Waarom machine learning nu populair is

Elk jaar publiceert analistenbureau Gartner een lijst met opkomende technologieën. De ervaring leert dat de hype die ontstaat rondom deze toepassingsgebieden van IT vaak een vergelijkbare curve doorloopt:

1. Innovation trigger: een technologie is nog nieuw en relatief onbekend, maar ondernemers en investeerders zien er genoeg toekomst in om aan de slag te gaan met het ontwikkelen en vermarkten ervan.

2. Peak of inflated expectations: op dit punt zijn de verwachtingen zo hooggespannen, dat er een piek is aan aandacht die de technologie krijgt.

3. Trough of disillusionment: na de hype komt de eerste teleurstelling. Augmented reality is zo’n technologie die op dit moment in deze fase zit: nadat het jarenlang is ‘gehypet’ gaan steeds meer partijen zich afvragen of consumenten er nu wel daadwerkelijk op zitten te wachten en wat de toepassingsmogelijkheden zijn.

4. Slope of enlightment: nadat de verwachtingen weer wat zijn getemperd, wordt de weg omhoog ingezet. De technologie wordt volwassen en er wordt geïnvesteerd in commerciële toepassingen.

5. Plateau of productivity: de technologie is mainstream (en winstgevend) geworden en producenten en investeerders kunnen de vruchten gaan plukken van hun harde werk.

Machine learning bevindt zich nu op de top van deze zogeheten hypecyclus. De verwachtingen zijn hoog, media en analisten raken er niet over uitgepraat en er wordt veel in geïnvesteerd. Als machine learning dezelfde curve volgt als Gartner voorspelt, dan zal de technologie over twee tot vijf jaar het productiviteitsplateau bereiken.


Hoe kan het nu zo zijn dat het zestig jaar heeft geduurd vanaf de eerste prille toepassing tot aan dit moment? Als computers al in de jaren negentig zo goed konden leren schaken dat ze wereldkampioen konden worden, waarom moesten we dan nog zo lang wachten tot het moment waarop machine learning commercieel kon worden toegepast? Het antwoord is: data en tools. In tegenstelling tot mensen, die vaak aan een simpel voorval genoeg hebben om hun gedrag te veranderen (als je een keer over een stoeptegel bent gestruikeld, dan kijk je de volgende keer wel uit), hebben computers grote hoeveelheden data nodig om patronen te herkennen en daar hun gedrag op aan te passen. Dankzij het internet en slimme apparaten heeft elke organisatie nu de beschikking over grote hoeveelheden (gestructureerde en ongestructureerde) data om computers écht te laten leren – of het nu gaat om transactiegegevens, berichten op social media of de data die worden gegenereerd door slimme apparaten met sensoren. Het is niet geheel toevallig dat Internet of Things op dit moment ook op de top van de hypecycle bevindt: machine learning wordt snel volwassen mede dankzij de toepassing in slimme apparaten. Daarnaast zijn er sinds een paar jaar verschillende tools op de markt die grote en kleine bedrijven in staat stellen om machine learning toe te passen – maar daarover meer in het volgende hoofdstuk. De grafiek van Gartner doet misschien vermoeden dat machine learning een hele prille technologie is die pas over een paar jaar in de praktijk kan worden toegepast. In het vorige hoofdstuk hebben we gezien dat dat geenszins het geval is. Ook is het niet alleen voorbehouden aan grote Silicon Valley-partijen als Google of Amazon.com – hoewel de algoritmes erachter inderdaad behoorlijk complex zijn, is het implementeren van machine learning eigenlijk helemaal niet zo ingewikkeld. In het volgende hoofdstuk wordt uiteengezet hoe machine learning eenvoudig in de praktijk kan worden toegepast.


4. Vandaag al aan de slag met machine learning

Dat de verwachtingen op het gebied van machine learning hooggespannen zijn, wil niet zeggen dat de technologie overschat wordt. In tegendeel. Over een paar jaar is machine learning net zo mainstream als cloud computing nu is; het grote verschil is dat de ‘early adopters’ eerder kunnen profiteren van de commerciële voordelen. De kansen van het vroeg inspelen op de hype zijn dus groot. Maar wat heb je ervoor nodig om vandaag al te beginnen? Data Zoals we al lazen in het vorige hoofdstuk, begint elk leerproces met data. Op basis van historische gegevens kun je voorspellingen doen over de toekomst en de inrichting en het gedrag van systemen daarop aanpassen. Voordat je weet welke data je wilt verzamelen en analyseren, moet helder zijn wat het uiteindelijke doel is: welke (automatische) acties wil je laten plaatsvinden op basis van voorspellingen? Concrete voorbeelden hiervan komen we tegen in het volgende hoofdstuk. Tools Er zijn verschillende tools die machine learning ondersteunen. Je hoeft als gebruiker de (vaak complexe) statistische formules die aan de basis van machine learning liggen niet te kennen om het daadwerkelijk toe te passen. We maken hierbij onderscheid tussen ‘tools’ en ‘schillen’. Met een schil wordt de laag bedoeld tussen de eindgebruiker en (het gebruik van) algoritmes, een tool neemt een stuk van deze schil voor haar rekening. Als een tool een groot deel van de schil invult, verbergt de tool de complexe algoritmes, het analyse proces en het verwerken van de data. Kortom, dan zorgt de tool ervoor dat je weinig programmeer en analyse kennis nodig hebt. Naarmate de tool een kleiner deel van de schil invult, heb je meer programmeer en/of analyse kennis nodig. Wat wel belangrijk is, is dat je weet wanneer je welk soort algoritmes moet gebruiken. De invulling van de schil verschilt per tool; afhankelijk van statistiek en programmeerkennis zijn bepaalde oplossingen snel inzetbaar. Over het algemeen kun je stellen dat een tool een groter deel van de schil moet invullen naarmate je als gebruiker minder kennis hebt van statistiek en programmeren. Een puntje van aandacht daarbij is wel dat de tools die een groot deel van de schil invullen weer hun beperkingen hebben als het gaat om flexibiliteit in de mogelijkheden. Een bekend voorbeeld is de tool R, die een klein deel van de schil invult. Als gebruiker ben je dus gedwongen om heel goed te weten wat je aan het doen bent. Dat zorgt er wel voor dat het mogelijk is om bijna alles uit te programmeren wat je wilt. Aan de andere kant van het spectrum staat Azure ML, een tool die weinig kennis van data-analyse en programmeren vereist. Je kan met drag-and-drop het machine learning-proces in elkaar ‘slepen’. Veel flexibiliteit biedt deze tool echter niet; als je die zoekt, dan moet je terugvallen op statistische programmeertalen als R en Python. Om machine learning te kunnen toepassen is het dus eigenlijk onontbeerlijk om kennis te hebben van R en/of Python; er zijn nu nog geen tools die zo volwassen zijn dat kennis van statistische programmeertalen overbodig is.


Tools kunnen gratis en open source zijn. Gratis geeft minder zekerheid over de kwaliteit maar zorgt wel weer voor een grotere community. Dat is vooral krachtig wanneer de tool ook uitgebreid kan worden door deze community (open source). Een voorbeeld is R waar veel mensen met de tool aan de slag gaan, functionaliteiten maken en vervolgens delen.

Machine learning binnen een architectuur Machine learning-oplossingen bouw je dus op data en met statistische kennis van mensen. De combinatie van data en data-analisten met algoritmes leveren een model dat iets voorspelt of zegt wat er moet gebeuren op basis van een voorspelling. Vervolgens gaat deze output naar een device en/of een persoon die beslissingen maakt. Een aantal voorbeelden om dit te illustreren:

• Als je in een webshop recommendations wilt laten zien (bijvoorbeeld bol.com), dan moet je zodra iemand producten selecteert direct analyseren welke producten voor deze persoon interessant zijn. Dat betekent dat deze intelligentie verbonden moet zijn met de website (in dit geval: het eindproduct). De algoritmes achter de analyses zijn wel al bepaald aan de hand van data en data-analysten.

• Het komt ook vaak voor dat het niet een website is die data genereert, maar een device; bijvoorbeeld een navigatie-app op je telefoon. In dit geval is er geen actie van de eindgebruiker nodig om een analyse af te trappen. Het kan namelijk ook zo zijn dat er een ongeluk gebeurt op de geplande route, waardoor een andere weg nemen een betere optie kan zijn. In dit geval wordt je analyse getriggerd door externe data.

• Het onderhoud van devices op basis van machine learning is weer een ander verhaal. Machines leveren continu data, die ook voortdurend worden geanalyseerd. Indien nodig kan er direct actie worden ondernomen door de machine stop te zetten, te laten afkoelen, of langzamer te laten draaien. Ook gaat er continu data naar een maintenance-afdeling die de machine monitort en indien nodig actie onderneemt.

Het is belangrijk om machine learning de juiste plek te geven binnen een architectuur, om er zeker van te zijn dat de resultaten optimaal zijn. De exacte plek binnen een architectuur verschilt per organisatie en scenario.


5. Toepassingsgebieden

Zoals we al lazen in de introductie, is de toepassing van machine learning erg divers. In dit hoofdstuk laten we een aantal huidige en potentiële toepassingen de revue passeren voor woningcorporaties, overheden, zorginstellingen en financiële organisaties. Woningcorporaties Niet alleen thermostaten worden steeds slimmer: de komende jaren zullen meer en meer huishoudelijke apparaten worden voorzien van sensoren die gebruiksinformatie verzamelen. Zo kunnen CV-ketels leren van het gebruik van hun eigenaar en van elkaar; dat geldt voor het tempo waarin er wordt opgewarmd, zelf reinigen en potentiële fouten detecteren. Ook op het gebied van huurbetaling biedt machine learning mogelijkheden. Als uit historische data blijkt dat bepaalde huurders steevast te laat betalen, dan kan het systeem daar lering uit trekken en herinneringen eerder versturen. Ook kunnen patronen worden herkend in data die potentiële wanbetalers gaan herkennen. Overheden Fraudedetectie is een belangrijk potentieel toepassingsgebied van machine learning binnen de overheid. Nu al worden bijvoorbeeld gemeentelijke databases aan elkaar gekoppeld om de kans op uitkeringsfraude te bepalen. Hoe meer data een overheidsinstelling tot zijn beschikking heeft, des te nauwkeuriger deze analyse zal zijn. Ook op het gebied van de bestrijding van terreur en criminaliteit liggen er kansen. Op basis van data kunnen systemen de kans berekenen dat er op een bepaald tijdstip en op een specifieke locatie extra politie moet worden ingezet. Machine learning zorgt ervoor dat deze systemen steeds slimmer worden en dus betere voorspellingen kunnen doen. Zorginstellingen Net als bij woningcorporaties het geval is, beschikken zorginstellingen in toenemende mate over devices die verbonden zijn met het internet; of het nu gaat om medische apparatuur, piepers of tablets die worden gebruikt door artsen, patiënten en verpleegkundigen. Patiënten meten steeds meer zelf thuis, zodat ze niet meer naar het ziekenhuis of de huisarts hoeven om metingen te doen. De data die deze devices genereren kunnen vrij eenvoudig worden geanalyseerd om bijvoorbeeld het onderhoud van medische apparatuur, de capaciteit van de beschikbare bedden of de planning van medewerkers te optimaliseren. Financiële organisaties Machine learning heeft veel potentie als het gaat om de analyse van klantgroepen met soortgelijke profielen. Klantengroepen zijn tegenwoordig steeds vluchtiger; hoe klanten zich gedragen verandert steeds sneller en verschilt vaak per product dat een bedrijf aanbiedt. Voor financiële organisaties is het daarom interessant om te onderzoeken welke (potentiële) klanten een soortgelijk demografisch profiel hebben om deze groep op dezelfde manier te benaderen. Ook hier geldt weer: hoe meer data, des te effectiever de aanpak. Aan het andere eind van het spectrum is er juist de mogelijkheid om individuele klanten te benaderen met hyper-persoonlijke aanbiedingen op basis van hun gebruikersprofiel. Weten we van een klant dat deze veel online bankiert en graag als ‘early adopter’ nieuwe tools probeert? Dan is dit de juiste persoon om te benaderen met een persoonlijke aanbieding om een beta-app te testen. Reist iemand regelmatig naar het buitenland en maakt hij daar gebruik van een creditcard? Dan kunnen specifieke aanbiedingen daarop worden toegespitst.


Dit is slechts een kleine greep uit de mogelijkheden die machine learning biedt. Zoals aangegeven in hoofdstuk 3, is het vooral belangrijk om vooraf te bepalen wat het doel is, welke data beschikbaar zijn en welke tools er kunnen worden ingezet. In het volgende hoofdstuk worden de mogelijke valkuilen besproken: waar moet je op letten om er zeker van te zijn dat machine learning op de juiste manier wordt toegepast?


6. De valkuilen van machine learning

Omdat het hier gaat om een relatief nieuw vakgebied (althans, op deze schaal), is het belangrijk om een aantal mogelijke valkuilen van machine learning in het achterhoofd te houden. In dit hoofdstuk zullen we deze behandelen. Ten eerste moet machine learning gezien worden als een iteratief proces, en niet lineair. Het lerend vermogen wordt dus groter naarmate het proces langer duurt en er meer data zijn verzameld. Dat betekent dat de meest waardevolle resultaten niet op korte termijn worden gerealiseerd, maar op de middellange en lange termijn. Geduld is dus het credo. Daarnaast is het belangrijk om te onthouden dat een minimale sample-grootte nodig is om valide conclusies te kunnen trekken. Dat is met name belangrijk als het gaat om datasegmentatie; elk cluster van data moet groot genoeg zijn om statistisch relevant te kunnen zijn. De datakwaliteit is van levensbelang voor de slagingskans van machine learning. Inconsistente, corrupte of gedupliceerde data kunnen een vertekend beeld geven, met alle gevolgen van dien. Ten slotte is het belangrijk om altijd het oorspronkelijke doel voor ogen te houden. Hoewel het geen kwaad kan om met beschikbare data te ‘spelen’ om te bekijken of er nog andere interessante conclusies kunnen worden getrokken, is het een risico om correlaties te zoeken die verder geen enkele betekenis hebben. Het doel heiligt de middelen, niet andersom.


7. Conclusie: machine learning binnen handbereik

Hoewel het klinkt als een futuristische technologie, is machine learning niet zo ver weg als vaak wordt gedacht. Spelers als Spotify, bol.com en Google gebruiken het al om de gebruikerservaring te optimaliseren. De achterkant van machine learning is ontegenzeggelijk complex; het daadwerkelijk begrijpen en interpreteren van alle algoritmes is voor weinigen weggelegd. Dat wil niet zeggen dat de technologie onbereikbaar is; machine learning is al lang geen ‘black box’ meer, maar een technologie die vandaag al op heel veel plekken kan worden toegepast. Overal waar mens en computer interactie hebben, valt lering te trekken uit historische data. En zeg nou eerlijk, waar is dat niet meer het geval? Wie vandaag nog begint, heeft over een paar jaar (als machine learning mainstream is geworden) een groot concurrentievoordeel opgebouwd.


8. Over Info Support

Info Support is opgericht in 1986 en is met ruim 350 medewerkers in Nederland een vooraanstaand IT-dienstverlener op het gebied van IT-consultancy, softwareontwikkeling, opleidingen en beheer. Info Support is niet beursgenoteerd en financiert de verdere ontwikkeling van de organisatie op basis van een beheerste groei uit eigen middelen. Onze drive achter de oplossingen die wij realiseren voor onze klanten is er sterk op gericht bedrijfsprocessen sneller en beter te maken. Info Support ontwikkelt en beheert solide en innovatieve softwareoplossingen die organisaties ondersteunen bij het realiseren van hun doelstellingen. De kernwaarden Soliditeit, Integriteit, Vakmanschap en Passie typeren onze werkwijze, waarin we sociaal en solide management belangrijker vinden dan omzetmaximalisatie. Ons hoogste doel is dat we met opdrachtgevers en medewerkers willen bouwen aan langetermijnrelaties. Daarbij houden we ons aan gemaakte afspraken. Dit maken we in de praktijk waar, getuige de jarenlange relaties die we met onze klanten hebben. Info Support mag zich al 16 jaar op rij TOP-IT-werkgever van het jaar noemen. Zie voor meer informatie www.infosupport.com.

Machine Learning - Info Support Blog€¦ · Prijsopgaven en leveringen geschieden volgens de...

Documents

Transcript of Machine Learning - Info Support Blog€¦ · Prijsopgaven en leveringen geschieden volgens de...