Thesis Big Data

51
Technologie & Design < Professionele bachelor > Academiejaar 2012-2013 2 e examenperiode - juni BIG DATA HARNESSING A GAME-CHANGING ASSETTHE ECONOMIST Eindwerk voorgedragen door < Natan Meekers > Interne promotor: < Dhr. Chris Vandermeiren > Externe promotor: < Dhr. Geert Van Landeghem > tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan | Bachelor in het Informaticamanagement en de multimedia | | in het studiegebied Technologie & Design |

description

Thesis I wrote in my final year of my higher education

Transcript of Thesis Big Data

Page 1: Thesis Big Data

Technolo

gie

& D

esi

gn

< P

rofe

ssio

nel

e b

ach

elo

r >

Academiejaar 2012-2013

2e examenperiode - juni

BIG DATA

”HARNESSING A GAME-CHANGING ASSET” THE ECONOMIST

Eindwerk voorgedragen door < Natan Meekers >

Interne promotor:

< Dhr. Chris Vandermeiren > Externe promotor:

< Dhr. Geert Van Landeghem >

tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan

| Bachelor in het Informaticamanagement en de multimedia | | in het studiegebied Technologie & Design |

Page 2: Thesis Big Data
Page 3: Thesis Big Data

Technolo

gie

& D

esi

gn

< P

rofe

ssio

nel

e b

ach

elo

r >

Academiejaar 2012-2013

2e examenperiode - juni

BIG DATA

”HARNESSING A GAME-CHANGING ASSET” THE ECONOMIST

Eindwerk voorgedragen door < Natan Meekers >

Interne promotor:

< Dhr. Chris Vandermeiren > Externe promotor:

< Dhr. Geert Van Landeghem >

tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan

| Bachelor in het Informaticamanagement en de multimedia | | in het studiegebied Technologie & Design |

Page 4: Thesis Big Data

"Ik, Natan Meekers, verklaar dat, voor zover ik er weet van heb, deze scriptie geen materiaal

bevat dat ooit in eender welke instelling is gebruikt om een diploma, van welke aard ook, te

behalen of dat eerder werd gepubliceerd of geschreven door een ander persoon, behalve daar

waar deze scriptie referenties bevat naar andere werken.”

Page 5: Thesis Big Data

I n h o u d s o p g a v e

1 Dankwoord ....................................................................................................................................... 1

2 Voorwoord ....................................................................................................................................... 2

3 Abstract ............................................................................................................................................ 3

4 Inleiding ............................................................................................................................................ 4

5 Definitie ............................................................................................................................................ 6

6 Situering Big Data ............................................................................................................................. 7

6.1 Big Data & Performance Management .................................................................................... 7

6.2 Big Data & Business Intelligence .............................................................................................. 8

6.2.1 Business Intelligence ........................................................................................................ 8

6.2.2 Big Data ............................................................................................................................ 9

6.2.3 Situering ......................................................................................................................... 10

6.2.4 Big Data Raffinaderij ....................................................................................................... 11

7 Innovatie, uitdagingen & opportuniteiten ..................................................................................... 13

7.1 Innovatie................................................................................................................................. 13

7.1.1 Hadoop stack .................................................................................................................. 14

7.1.2 Cloudera vs. Hortonworks Data Platform (HDP) ............................................................ 18

7.1.3 SAS Visual Analytics ........................................................................................................ 19

7.2 Uitdagingen ............................................................................................................................ 22

7.2.1 Data silo’s samenbrengen .............................................................................................. 22

7.2.2 Data complexiteit ........................................................................................................... 22

7.2.3 Nieuwe skills ................................................................................................................... 22

7.2.4 Privacy ............................................................................................................................ 22

7.3 Opportuniteiten ..................................................................................................................... 23

7.3.1 Data-gedreven organisatie ............................................................................................. 23

7.3.2 Uitgebreidere analytische mogelijkheden ..................................................................... 23

7.3.3 Interactie met klanten .................................................................................................... 23

7.3.4 Detecteren van fraude ................................................................................................... 23

7.3.5 Andere ............................................................................................................................ 23

Page 6: Thesis Big Data

8 Aanpak ............................................................................................................................................ 24

8.1 Onderzoek naar Big Data ....................................................................................................... 24

8.1.1 Events ............................................................................................................................. 24

8.1.2 Webinars ........................................................................................................................ 24

8.1.3 Sociale Media ................................................................................................................. 25

8.1.4 Virtuele Machine ............................................................................................................ 26

8.2 Formuleer opportuniteiten .................................................................................................... 26

8.3 Ontwikkel Use Cases .............................................................................................................. 27

8.4 Identificeer huidige- en toekomstige capaciteiten ................................................................ 27

8.5 Zet een testomgeving op ........................................................................................................ 27

8.6 Evalueer .................................................................................................................................. 27

9 Use Cases ........................................................................................................................................ 28

9.1 Misdaad Preventie Memphis ................................................................................................. 28

9.2 Presidentsverkiezing US ......................................................................................................... 29

9.3 Detectie frauduleuze transacties ........................................................................................... 31

9.4 Vestas windturbines ............................................................................................................... 32

10 Case – FOD Justitie ..................................................................................................................... 33

11 Case – Adswizz............................................................................................................................ 34

12 Conclusie .................................................................................................................................... 35

12.1 Algemeen ............................................................................................................................... 35

12.2 Persoonlijk .............................................................................................................................. 36

13 Verklarende woordenlijst ........................................................................................................... 37

14 Bijlage ......................................................................................................................................... 39

14.1 Big data poster ....................................................................................................................... 39

14.2 Adswizz- streaming ad injection ............................................................................................. 40

15 Bibliografie ................................................................................................................................. 41

16 Auteur......................................................................................................................................... 45

Page 7: Thesis Big Data

Natan Meekers Thomas More 1

1 D A N K W O O R D Graag betuig ik mijn dank aan iedereen die heeft bijgedragen tot de realisatie van dit eindwerk en

project. In de eerste plaats wil ik mijn ouders bedanken voor de mogelijkheden en ondersteuning die

zij mij hebben gegeven. Hun enthousiasme en geloof in mij hebben mij sterk gemotiveerd.

Ik wil mijn interne promotor, Dhr. Chris Vandermeiren, bedanken voor zijn wijze raad, opvolging en

begeleiding doorheen het hele traject. Zijn geloof in mij heeft mij extra aangespoord om mijn best te

doen. Ook wil ik me richten tot Mevr. Ilse Bracke en Dhr. Hans Tubbax voor hun enthousiasme en

aanmoedigingen om bij mijn eerste voorstel te blijven toen ik aan het twijfelen was.

Bijzondere dank gaat uit naar mijn externe promotor, Dhr. Geert Van Landeghem van DataCrunchers.

Toen ik hem contacteerde om te vragen of ik op hem mocht ‘terugvallen’ wanneer ik vast zat, had ik

nooit de begeleiding, tijdsinvestering en het materiaal verwacht, waarin hij heeft voorzien. De keren

dat ik op kantoor van hem en medewerkers opleiding heb gekregen, hebben enorm bijgedragen om

vertrouwd te geraken in het Big Data verhaal. Toen ik hem om raad vroeg in verband met het project

bij Justitie dat zéér traag vooruit ging, heeft hij mij op zeer korte termijn aan een nieuw en

interessant project geholpen.

De organisatoren en leden van de Meetup groep ‘BigData.be’ wil ik ook graag bedanken voor de

verschillende Big Data Meetups. Elke keer opnieuw waren het leerrijke presentaties en interessante

gesprekken waaruit ik veel heb bijgeleerd. Speciaal dank gaat uit naar Daan Gerits voor het delen van

opinies en gedachten, als antwoord op mijn vragen in de LinkedIn groep.

Graag vernoem ik ook Dries Van Nieuwenhuyse die spontaan heeft aangeboden mijn eindwerk na te

lezen. Zijn feedback en raad hebben mij geholpen inhoudelijke en structurele verbeteringen aan te

brengen.

Ook alle andere mensen, die ik niet bij naam heb genoemd maar toch hebben bijgedragen, wil ik

bedanken voor die dingen die mij geholpen hebben mijn bachelorproef tot een goed einde te

brengen.

Page 8: Thesis Big Data

Natan Meekers Thomas More 2

2 V O O R W O O R D Tijdens het tweede jaar van mijn studie Informatica Management en -systemen, moest ik voor het

vak ‘Methoden voor onderzoek en rapportering’ een thesis voorstel uitwerken. Aangezien ik voor de

afstudeerrichting ‘Performance Management’ gekozen heb, en mij wil specialiseren in Business

Intelligence, ben ik op zoek gegaan naar een interessant en relevant onderwerp in diezelfde richting.

Op het jaarlijkse Business Intelligence congres, dat georganiseerd wordt door het BICC van de

hogeschool, heb ik met een heel aantal bedrijfsmensen gesproken over verschillende mogelijke

onderwerpen. Dit soort events zijn een uitstekende opportuniteit om contacten te leggen en raad te

vragen aan professionals en bedrijven. Zij hebben immers ervaring en kennen de markt.

Zo ben ik in gesprek geraakt met Dhr. F. Verscheure die als Lifecycle Management Consultant werkt

bij SAS Belgium & Luxemburg. Hij bracht mij op het idee om een eindwerk te maken rond Hadoop. Na

wat opzoekwerk werd mij al snel duidelijk dat de term Big Data en Hadoop nauw samen gaan.

Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de

verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan

uit commodity1 hardware. Zo kunnen bedrijven complexe vragen stellen en nieuwe inzichten

bekomen in zeer korte tijd op basis van alle beschikbare data.

Ik was meteen overtuigd om over Big Data een eindwerk te maken. Met de populariteit van Social,

Mobile en Cloud, geloof ik dat Big Data een steeds grotere en belangrijkere rol zal gaan spelen.

Tijdens een eerste gesprek met mijn mentor, Dhr. Chris Vandermeiren, werd het al snel duidelijk dat

de technologie gewoon testen niet voldoende was. Om het eindwerk relevant en waardevol te

maken, moest ik op zoek gaan naar een bedrijf dat met Big Data problematiek te maken heeft.

Zo ben ik terechtgekomen bij het FOD Justitie. Zij zitten met een aantal problemen waarvoor Big Data

een mooie oplossing kan bieden:

Er zijn héél veel vragen van de business die snel opgelost moeten worden.

Het bouwen van datawarehouses duurt te lang.

De data zit verspreid over verschillende data silo’s van de verschillende instanties.

Hun situatie is voor mij een uitstekende kans om te kijken naar de mogelijkheden van Hadoop en

andere open-source tools die de oplossing zullen bieden voor hun problemen.

1 Betaalbaar, normale hardware

Page 9: Thesis Big Data

Natan Meekers Thomas More 3

3 A B S T R A C T Wanneer we kijken naar de veranderingen die plaatsvinden binnen Business Intelligence, is er

duidelijk nood aan innovatieve technologieën en nieuwe methodologieën. Met dit eindwerk wil ik de

focus leggen op volgende aspecten:

Wat is Big Data en hoe kaderen we dit binnen Performance Management en Business

Intelligence?

Welke innovaties, uitdagingen en opportuniteiten brengt het met zich mee?

Hoe pak je een Big Data project concreet aan? Welke stappen moet je volgen? Welke skills

zijn nodig?

Om de relevantie van mijn eindwerk naar bedrijven toe te verhogen, zou ik de theorie toepassen op

een business case bij FOD Justitie.

De Federale Overheidsdienst Justitie (FOD Justitie) bestaat uit verschillende instanties en houdt zich

bezig met de rechtsorde in alle stadia: wetgeving, preventie, handhaving … Hun cel ‘Data

Management’ is sinds twee jaar bezig met Business Intelligence en Datawarehousing. Van hen wordt

verwacht dat ze alle vragen die van de verschillende gerechtsinstellingen komen, zo snel mogelijk

beantwoorden. Echter, het bouwen van een datawarehouse kost tijd en de vragen die van de

verschillende instanties komen, stapelen zich snel op. Momenteel zijn er zoveel vragen die

beantwoord moeten worden, dat de cel Data Management voor de komende 10 jaar? al werkt heeft.

Daarbij komt dat het departement slechts 8? werknemers in dienst heeft en dat de vereiste data

verspreid zit over verschillende data silo’s bij de verschillende instanties. Sinds twee jaar is Justitie

ook bezig met een Business Intelligence project in samenwerking met LACO. Mede door de

investering in dit BI project staat het hoger management niet te springen om nu een Big Data project

te gaan financieren.

Echter, door veelheid aan procedures en een trage en moeilijke communicatie, kan ik het slechts

suggestief toepassen in de resterende tijdframe. Om mijn theoretische kennis toch toe te passen in

de praktijk, ben ik via mijn externe begeleider terecht gekomen bij Adswizz op een interessant Big

Data project.

Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand.

Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal

worden. Ook willen ze extra data gaan verzamelen over luisteraars zodat ze advertenties kunnen

gaan personaliseren. Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om

dan een meer relevante advertentie te injecteren in een bepaalde webstream.

Momenteel gebruiken zij Amazon S3 en EMR en ontwikkelen ze scripts in Pig om hun data te

manipuleren. Ik zal hen helpen bij het ontwikkelen van Pig scripts die data verzamelen, aggregeren en

wegschrijven naar Hbase. Rapporten worden opgebouwd op basis hiervan.

Page 10: Thesis Big Data

Natan Meekers Thomas More 4

4 I N L E I D I N G Big Data is een term waar je de laatste tijd véél over hoort. Het was dé term van het jaar 2012 in de wereld van Business Intelligence en zal komende jaren op grote schaal worden opgenomen door bedrijven. (Gartner, 2013)

"After a few years of experimentation and early adopter successes, 2013 will be the year of

larger scale adoption of big data technologies."

GARTNER, 2013

In onze huidige economie is de grootste waarde gebaseerd op kennis, en gegevens zijn van zéér groot

strategisch belang. De data die nodig is om tot deze kennis te komen is afkomstig uit diverse bronnen

en bestaat uit verschillende types zoals: data uit legacy systemen, online transactie gegevens,

sensoren die klimaatgegevens verzamelen, gps-tracking signalen, berichten geplaatst op sociale

media, log bestanden… Vandaag de dag creëren we ongeveer 900.000 Terabytes aan data per dag

(IBM, 2012). Dat wil zeggen dat ongeveer 90% van de data over de hele wereld gegenereerd is in de

laatste twee jaar.

Figuur 1 - Big Data sources

Page 11: Thesis Big Data

Natan Meekers Thomas More 5

De explosie aan ‘uniek’ gegenereerde data vindt zijn oorsprong in drie domeinen:

De snelle opkomst van deze drie domeinen heeft heel wat veranderingen teweeg gebracht: sociale

veranderingen gaan veel sneller dan vroeger (zie “Arabisch Lente”) en de informatiestroom is nu

omgekeerd. Waar vroeger informatie afkomstig was van slechts een beperkt aantal kanalen, beschikt

nu iedereen over de mogelijkheid om op alle mogelijke momenten en plaatsen informatie te delen.

(Hunt, 2013)

Deze grote hoeveelheid informatie die nu beschikbaar wordt, biedt veel mogelijkheden aan maar ook

veel uitdagingen. Het wordt steeds moeilijker om relevante en nuttige informatie uit deze enorme

massa te filteren. Veel organisaties hebben het al moeilijk om hun kritieke gegevens te beheren en te

analyseren omdat deze verspreid zitten over de verschillende informatiesystemen en/of

departementen, laat staan dat ze dan klaar zijn om, of beschikken over de mogelijkheden om

relevante informatie te extraheren uit voorgaande genoemde domeinen. (Jernevad, 2012)

Daarbij komt dat het “on-the-fly” analyseren (voor bv. Fraude-detectie bij transacties) en het

betrekken van externe bronnen met ongestructureerde data, steeds essentiëler wordt voor

bedrijven.

‘Social’ ‘Mobile’ ‘Cloud’

Page 12: Thesis Big Data

Natan Meekers Thomas More 6

5 D E F I N I T I E Big Data is de grootste hype van de laatste jaren. Het is moeilijk om de term in één definitie te

verklaren aangezien er zoveel verschillende standpunten zijn over wat er nu juist verstaan wordt

onder Big Data.

De term ‘Big Data’ is misschien misleidend omdat hij letterlijk betekent: grote volumes data. Echter in

de praktijk wordt Big Data niet persé bepaald door grote volumes van data maar ook door andere

factoren zoals: de snelheid waarmee de data binnenkomt, de variëteit aan data - gestructureerd of

ongestructureerd - en de externe datasets die men wil betrekken bij analyses. Volgende definitie van

Gartner, die Big Data als de 3 V’s omschrijft, is de meest algemeen aangenomen definitie:

"Big data in general is defined as high Volume, Velocity and Variety information assets

that demand cost-effective, innovative forms of information processing for enhanced

insight and decision making."

GARTNER, 2012

In deze definitie merken we direct verschillende aspecten die de term Big Data omschrijven:

Het data aspect: volume, variëteit en snelheid. Het technologische aspect: kosteneffectieve manier om de data op te slaan en te

verwerken. Het analytische aspect: data anders bekijken voor verbeterde inzichten en besluitvorming.

Ondanks deze definitie de meest algemeen aangenomen definitie is, zijn er nog steeds andere visies

over wat Big Data nu juist betekent. Volgende omschrijving is naar mijn mening een mooie aanvulling

op de definitie van Gartner:

"Big Data is indeed Volume, Velocity and Variety. But these are again consequences of how

you structure your data. In my opinion Big Data is also about the way you look at your

data, which is enabled by a collection of technologies. The fact that you can restructure

your data at any time and enrich it with any kind of additional data sources allows us to

get information out which we never thought was possible"

DAAN GERITS, 2013

Samengevat: ondanks de term laat uitschijnen dat het gaat over grote data volumes, omschrijft de

term meer het geheel. Het omvat de steeds sneller groeiende en complexer wordende datasets, die

ervoor gezorgd hebben dat er nieuwe technologieën ontwikkeld zijn. Die bieden op hun beurt nieuwe

mogelijkheden aan om enorm grote datasets op te slaan en te herstructureren en om externe data te

betrekken bij analyses om zo tot nieuwe inzichten en een verbeterde besluitvorming te komen.

Page 13: Thesis Big Data

Natan Meekers Thomas More 7

Business Intelligence

ANALYSEREN

VOORSPELLEN RAPPORTEREN

SOCIALE MEDIA

PDF, TEXT DOCUMENTEN

EN FOTO'S

GPS & SENSOR

SIGNALEN

LOG FILES

PERFORMANCE MANAGEMENT

Analytical Intelligence

6 S i t u e r i n g B i g D a t a

6 . 1 B i g D a t a & P e r f o r m a n c e M a n a g e m e n t Performance Management is een overkoepelende term voor het geheel van processen, methoden, toepassingen en technologieën die een

organisatie gebruikt om haar prestaties op te volgen, te beheren en te sturen (Nieuwenhuyse, 2011). Performance Management omvat vier

‘intelligence’ domeinen: het Strategische, Financiële, Analytische en Business domein. Big Data valt voornamelijk onder Business Intelligence

maar kan ook voor een deel ook onder Analytical Intelligence gerekend worden.

GESTRUCTUREERDE-

ONGESTRUCTUREERDE-

GEHERSTRUCTUREERDE-

DATA

BIG DATA

Figuur 2 - Situering Big Data binnen Performance Management

Page 14: Thesis Big Data

Natan Meekers Thomas More 8

6 . 2 B I G D A T A & B U S I N E S S I N T E L L I G E N C E Steeds meer organisaties tonen interesse in Big Data en gaan de uitdaging aan om deze rijke bron aan

informatie te benutten. Big Data biedt enorme verbeteringen en nieuwe mogelijkheden aan t.o.v. de

klassieke Business Intelligence tools; het kan zelfs sommige van deze tools vervangen. Hierdoor is het

niet meer voor iedereen duidelijk hoe we BD en BI nu juist moeten bekijken ten opzichte van elkaar.

In dit hoofdstuk wil ik een beeld scheppen hoe we ze juist moeten bekijken en waar we BD kunnen

situeren in het huidige BI landschap.

6 . 2 . 1 B U S I N E S S I N T E L L I G E N C E

Business Intelligence is een overkoepelende term voor de methodes, technologieën en tools die data

verzamelen, opslaan, analyseren en rapporteren om bedrijven tot een verbeterde besluitvorming te

laten komen.

Een definitie voor Business Intelligence door Gartner:

“Business intelligence (BI) is an umbrella term that includes the applications, infrastructure

and tools, and best practices that enable access to and analysis of information to improve

and optimize decisions and performance”

GARTNER, 2012

De missie van BI is dus om te antwoorden op Business vragen en te kijken naar de prestaties in het

verleden. Om die missie zo goed mogelijk te vervullen, zien we dat er een aantal elementen zijn waar

meer aandacht aan besteed moet worden:

1. SNELHEID: Vertraging proberen te vermijden wanneer het gaat om het bedienen van klanten,

reageren op veranderingen in de markt en het optimaliseren van processen.

2. ‘AGILITY’: Het coördineren en beheren van processen en activiteiten doorheen de hele

organisatie om beter te kunnen inspelen op bijgestuurde input.

3. INTELLIGENCE: Aanpassen naar een meer voorspellende en proactieve instelling door gebruik te

maken van meerdere data bronnen en het continu bijsturen van processen en beslissingen.

4. EFFECTIVITEIT: De kosten beter beheren en de productiviteit verhogen om het succes van de

business te ondersteunen.

De scope van BI is gelimiteerd tot gestructureerde data. Alles wat in een datawarehouse terecht komt

via ETL, kan gebruikt worden. Alle ongestructureerde data, die op dit moment tot 80% bedraagt, blijft

onbruikbaar terwijl er toch heel veel informatie en patronen in verstopt zitten.

De vernieuwingen die BD brengt, zijn dus hoognodig en essentieel voor bedrijven want BD helpt

bedrijven om ruwe databronnen te transformeren tot een bruikbaar formaat. Pas dan kan deze data

gebruikt worden in analyses om zo tot nieuwe inzichten te komen.

Page 15: Thesis Big Data

Natan Meekers Thomas More 9

Daarnaast wordt er door Social-Mobile-Cloud zoveel data gegenereerd dat er, naast de huidige

oplossingen, nieuwe en andere methodes moesten komen om ondersteuning te bieden bij de nieuwe

problemen waar wordt tegenaan gelopen.

Nu alles veel groter kan en iedereen veel groter wil, moet je als bedrijf opletten dat je niet ‘verdrinkt’

in de hoeveelheid data die je gaat verzamelen en opslaan. Ook daar zullen deze nieuwe

technologieën bedrijven in ondersteunen.

Onderstaande tabel schept een duidelijk beeld hoe de focus in BI zich verplaatst om te kunnen blijven

voldoen aan de eisen van de business en om te kunnen inspelen op de snel veranderende markt.

BI IN HET VERLEDEN EN HEDEN

Klein, gebruikersgroepen per departement die

afhankelijk zijn van IT

ETL processen voorzien extracten van specifiek

opgevraagde data; deze transformeren voor

specifiek gebruik.

Focus op gestructureerde data voor rapporten

en ad hoc query analyses.

Alleen historische views op de data

BI IN HET HEDEN EN DE TOEKOMST

Implementaties overheen het hele bedrijf met

‘selfservice’ functionaliteiten

ELT en andere ETL alternatieven, toegang tot

Big Data - ruwe data- en meer gedetailleerde

data afkomstig van verschillende bronnen

Nood aan een uitgebreider scala van zoek,

query en andere tools; rijke meta data voor

semigestructureerde data

Views en analyses op de data voor zowel het

verleden, heden als de toekomst

6 . 2 . 2 B I G D A T A

Zoals al in het vorige hoofdstuk aangehaald, is de meest algemeen aangenomen en complete definitie

van Big Data:

"Big data in general is defined as high volume, velocity and variety information assets

that demand cost-effective, innovative forms of information processing for enhanced

insight and decision making."

GARTNER, 2012

Als we definities vergelijken, wordt het al snel duidelijk dat BD geen vervanger is en dit ook nooit kan

zijn, noch worden voor BI. BI is een overkoepelende term die ruim omschrijft hoe bedrijven informatie

uit hun data kunnen halen en BD in zijn geheel, zal daar altijd toe behoren.

Page 16: Thesis Big Data

Natan Meekers Thomas More 10

6 . 2 . 3 S I T U E R I N G

Het BI landschap op de dag van vandaag:

Figuur 3 - BI landschap (door Convergent-Consulting)

Als we het huidige BI landschap bekijken, merken we al snel op dat Big Data een stap verder gaat dan de

klassieke BI:

Verder dan relationeel: de stroom van semi- en ongestructureerde data (sensor, M2M, …)

creëren de vraag naar niet-relationele, gedistribueerde databases.

Verder dan structuur: de huidige BI metadata structuur kan niet om met de complexiteit van de

data.

Verder dan het Datawarehouse: nood aan een nieuwe manier om data op te slaan en te

verwerken (HDFS, HBase, MapReduce)

Verder dan historiek: het implementeren van modellen om uitzonderingen of patronen te

ontdekken als ze voorkomen i.p.v. steeds te werken op historische data.

Voorlopig zal BD de klassieke BI architectuur en tools ondersteunen en aanvullen (Big Data raffinaderij),

maar naarmate deze systemen en methoden meer vertrouwd geraken en real-time analyses en

rapporteringen nog essentiëler worden, zullen ze in steeds meer bedrijven aan aantal van de klassieke

BI-tools vervangen.

Page 17: Thesis Big Data

Natan Meekers Thomas More 11

6 . 2 . 4 B I G D A T A R A F F I N A D E R I J

Wanneer je als bedrijf begint met het implementeren van BD systemen, kan je als het ware een soort

data raffinaderij bouwen die ondersteuning biedt voor de klassieke BI architectuur en de toepassingen

die al up-and-running zijn.

Figuur 4 – Big Data ondersteunt Business Intelligence (door Hortonworks)

Op bovenstaande figuur zien we hoe een BD raffinaderij kan instaan om data uit verschillende bronnen

te verzamelen en te verwerken zodat die mee gebruikt kan worden in de huidige BI architectuur bij

bedrijven. Of dat nu gestructureerde data is - zoals database records -, of ongestructureerde data - zoals

documenten -, of zelfs semigestructureerd data - zoals log data in een tekstbestand -, maakt voor

Hadoop niet uit. Hadoop is in staat om al deze types data gelijktijdig te verwerken en te analyseren. Dat

is ook de voornaamste functie van een Hadoop gebaseerde data raffinaderij.

Page 18: Thesis Big Data

Natan Meekers Thomas More 12

6 . 2 . 4 . 1 O P H A L E N E N L A D E N

Gebruik makende van verschillende database- en ETL tools, wordt de data opgehaald en in Hadoop

ingeladen. Hadoop speelt hierin een belangrijke rol omdat het data, afkomstig uit verschillende bronnen

en van verschillende types, kan omzetten tot een formaat dat waardevol is voor de business.

6 . 2 . 4 . 2 O P S L A G

Het Hadoop Distributed File System (HDFS) verdeelt de data in blokken (vb. 128MB) en verspreidt deze

over de verschillende nodes van een cluster2. Elke blok data wordt minimaal 3 keer opgeslagen wat het

mogelijk maakt om een data blok in parallel te verwerken. Op die manier is het systeem ook fouten-

tolerant. Wanneer er een machine defect geraakt, kan een andere machine, die dezelfde data blok

bevat, de taak overnemen.

6 . 2 . 4 . 3 P R O C E S S I N G

De verwerking van die data gebeurt door MapReduce, een framework dat het mogelijk maakt om

enorme datasets in parallel te verwerken door taken op te delen (Map), die te laten verwerken door de

nodes, en achteraf de resultaten weer samen te voegen (Reduce).

Doordat elke blok data verschillende keren is opgeslagen, voorziet het HDFS in een high-availability

omgeving, die kan opgebouwd worden uit commodity hardware. Om gestructureerde datasets op te

slaan, wordt er vaak gebruik gemaakt van HBase of Cassandra (NoSQL databanken).

2 Verzameling van servers bestaande uit commodity hardware

Page 19: Thesis Big Data

Natan Meekers Thomas More 13

7 I N N O V A T I E , U I T D A G I N G E N & O P P O R T U N I T E I T E N

7 . 1 I N N O V A T I E Wanneer je als bedrijf denkt over het implementeren van een BD oplossing, zijn er enkele vragen die je

jezelf moet stellen als je een bepaald systeem overweegt.

1. Kan dit systeem om met grote hoeveelheden data en is het schaalbaar?

2. Kan dit systeem om met zowel gestructureerde als semi- en ongestructureerde data?

3. Kan dit systeem om met data die aan hoge snelheid binnenkomt?

4. Kan dit systeem om met complexiteit? (data centers in verschillende locaties)

De zoektocht naar een geschikt systeem is niet gemakkelijk. Elk bedrijf wil natuurlijk een mix van

volgende drie factoren om met hun nieuwe BD systeem zo dicht mogelijk bij het BD ‘Bulls-Eye’ te komen.

Figuur 5 - Big Data Bulls-Eye

Omdat de snelheid, waarmee de data moet omgezet worden naar informatie, steeds essentiëler wordt,

moeten IT en business-users beter gaan samenwerken. Dat is een insteek die je terugvindt bij vele

leveranciers. De manier waarop hun oplossing gebouwd is, is gefocust op een verbeterde samenwerking

tussen business & IT en een goede balans tussen agility en controle.

Schaalbaarheid en performantie

Operationeel gemak

Kosten-effectiviteit

BD ‘Bulls-Eye’

Page 20: Thesis Big Data

Natan Meekers Thomas More 14

7 . 1 . 1 H A D O O P S T A C K

De Hadoop stack is veel uitgebreider dan hieronder weergegeven. Deze componenten zijn de

belangrijkste en meest gebruikte en die zal ik dan ook iets uitgebreider bespreken.

Enkele van de voornaamste voordelen die het Hadoop ecosysteem ons biedt zijn de volgende:

Schaalbaarheid

Performantie: hoe groter het volume van de data die verwerkt moet worden, hoe duidelijker

het wordt dat de manier waarop Hadoop werkt, veel performanter is dan bvb. een appliance .

Kosteneffectief: door de manier waarop Hadoop werkt, volstaat het om met commodity

hardware te werken en besparen we op die manier ook op energie omdat deze hardware

minder energie verbruikt.

Fouten-tolerant: alle data blokken zijn meerdere keren verspreid over verschillende machines

en zodra er een machine wegvalt, zal Hadoop een nieuwe kopie aanmaken op een andere.

Pushen van algoritmes naar de data in plaats van de data naar het algoritme te brengen

Gedistribueerde verwerking

Figuur 6 - Hadoop ecosysteem

Project R

(Statistics)

Mahout

(Machine learning)

Page 21: Thesis Big Data

Natan Meekers Thomas More 15

7 . 1 . 1 . 1 H A D O O P C O R E

Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de

verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan

uit commodity3 hardware. Het is zo ontworpen dat je clusters kan schalen tot duizenden machines,

die elk voorzien in opslag en verwerking.

De Hadoop core bestaat uit twee componenten: Hadoop Distributed File System (HDFS) en

MapReduce. Deze twee zijn zo ontworpen dat ze perfect op elkaar afgestemd zijn en samen worden

uitgerold. Dat is het meest significante punt van Hadoop want zo beschik je over de mogelijkheid om

algoritmes naar de data te pushen in plaats van de data naar het algoritme te brengen.

Figuur 7 – Werking van Hadoop

Op bovenstaande afbeelding zien we hoe data verspreid wordt over verschillende nodes van een

cluster en hoe MapReduce jobs verdeelt en de resultaten weer samenvoegt om tot het eindresultaat

te komen.

Het is belangrijk om te weten hoe Hadoop werkt wanneer je begint na te denken over hardware

vereisten. MapReduce gebruikt in een ideale situatie slechts één ‘Map’ voor één disk omdat het

geoptimaliseerd is voor sequentieel lezen van disks. Dat is ook de reden waarom virtuele omgevingen

worden afgeraden: wanneer je in een virtuele omgeving werkt, is het moeilijk om te verzekeren dat

elk proces maar één disk gebruikt.

3 Betaalbaar, normale hardware.

Page 22: Thesis Big Data

Natan Meekers Thomas More 16

De ideale opstelling voor een cluster is: 1 disk per CPU core (met normale kloksnelheid) met +/- 4 GB

ram. Wanneer je HBase of Cassandra gebruikt, kan het zijn dat je meer geheugen nodig hebt. Voor

het OS kan je best een aparte disk voorzien. Wanneer je in het geval van deze setup kiest voor servers

met 2 CPU’s, kan je best ook twee keer zoveel disks voorzien. Meer dan twee CPU’s per node is niet

aangeraden omdat de meerprijs voor zulke machines niet gelijk opgaat met de extra performantie.

Voorbeeld van de kleinst mogelijke cluster opstelling:

Figuur 8 - Basic cluster setup

7 . 1 . 1 . 2 H B A S E

HBase is een gedistribueerde, kolom-georiënteerde database die behoort tot de NoSQL databases.

NoSQL staat voor ‘Not Only SQL’ waarmee men wil duiden op het feit dat er ook NoSQL systemen zijn

die de gebruiker toelaten om SQL query’s in te voeren. Grote voordelen zijn dat ze horizontaal

schaalbaar zijn en dat ze performanter zijn voor bepaalde data modellen. Het wordt dus gebruikt

wanneer je zeer grote tabellen moet opslaan die bestaan uit miljarden rijen en miljoenen kolommen.

HBase maakt het mogelijk om data random in real-time te lezen en te schrijven.

De reden dat je tabellen kan aanmaken met miljoenen kolommen en miljarden rijen is dat alle lege

cellen geen plaats in nemen (sparse-lead). Ook kan je ten allen tijde, zonder al te veel moeite, extra

kolommen gaan invoegen.

Hbase heeft ook een hoge through-put. Je kan tot 20000 records per second schrijven.

master

2* 4 cores

24GB RAM

4 * 2TB HD

1Gbit

RHEL 5/6

slave - workload slave - cluster slave - cluster slave - cluster

4 cores 4 cores 4 cores 4 cores

24GB RAM 24GB RAM 24GB RAM 24GB RAM

4 * 2TB HD 4 * 2TB HD 4 * 2TB HD 4 * 2TB HD

1Gbit 1Gbit 1Gbit 1Gbit

RHEL 5/6 RHEL 5/6 RHEL 5/6 RHEL 5/6

Page 23: Thesis Big Data

Natan Meekers Thomas More 17

7 . 1 . 1 . 3 Z O O K E E P E R

ZooKeeper is een gecentraliseerde tool voor het onderhouden van: cluster configuratie, naamgeving,

distributie synchronisatie, en nog andere groep services. Alle services die ZooKeeper aanbiedt,

worden gebruikt door één of andere gedistribueerde applicatie.

7 . 1 . 1 . 4 P I G

Pig is een platform voor het manipuleren van grote data sets. Het bestaat uit een ‘high-level’ taal

waarin je programma’s kan schrijven om data te analyseren. Het grote voordeel van Pig is dat de

structuur van de programma’s vatbaar is om parallel uit te voeren. Dat maakt het mogelijk dat we

met Pig programma’s zeer grote data sets kunnen manipuleren.

Een ander groot voordeel is dat je Pig programma’s lokaal kan schrijven en testen op een extract van

de data. Zo kun je programma’s in iteratieve stappen opbouwen om ze zo optimaal mogelijk te maken

om achteraf uit te voeren op een grote data set. Ook kunnen gebruikers hun eigen functies schrijven

en die toevoegen aan de Pig library, waarna je die functies gewoon kan opvragen in al je andere

programma’s.

7 . 1 . 1 . 5 H I V E

Hive is een Data warehouse systeem dat ontwikkeld is op Hadoop en voorziet in een mechanisme dat

structuur kan projecteren op data en die dan opvragen door middel van HiveQL, een taal die op SQL

lijkt. Hive zorgt er dus voor dat je gemakkelijk data kan aggregeren, ad-hoc query’s kan uitvoeren en

analyses op grote data sets.

Page 24: Thesis Big Data

Natan Meekers Thomas More 18

7 . 1 . 2 C L O U D E R A V S . H O R T O N W O R K S D A T A P L A T F O R M ( H D P )

Cloudera is vanaf het begin dé open-source Hadoop verdeler geweest omwille van:

Hadoop experts

Grote bijdrage aan de Hadoop open-source community

Goede start

Daar heeft Yahoo!, gesteund door Benchmark Capital, in het najaar van 2011 verandering in gebracht

door een team Hadoop-ingenieurs af te splitsen en onder te brengen in een nieuw bedrijf:

Hortonworks. Deze ingenieurs bleken dé grootste bijdrage geleverd te hebben aan Apache Hadoop en

hebben zo één van de grootste, meest innovatieve Hadoop implementaties gebouwd.

Hortonworks verklaart dat het HDP 100% open-source is en altijd gratis zal zijn! ... dit in tegenstelling

tot Cloudera. Zo proberen ze, net als RedHat in de tijd van Linux, Cloudera’s eerste plaats in te nemen

door 100% open-source te blijven. Bij Cloudera moet je betalen voor de Management Suite en die

bevat belangrijke administratieve tools voor configuratie- en resource management.

Figuur 9 - HDP integratie mogelijkheden

Hortonworks heeft de krachten gebundeld met verschillende partners om de integratie met een zo

breed mogelijk scala aan andere applicaties te verzekeren. Hortonworks zit dus niet stil. Onlangs

hebben ze aangekondigd dat ze het HDP ook voor Windows Server beschikbaar hebben gemaakt en

dat ze nu ook samenwerken met OpenStack4 om Hadoop daarop beschikbaar te maken.

4 OpenStack levert open source cloud software voor het bouwen van een private of publieke cloud.

Page 25: Thesis Big Data

Natan Meekers Thomas More 19

7 . 1 . 3 S A S V I S U A L A N A L Y T I C S

Tijdens mijn stage heb ik een opleiding gevolgd om met Visual Analytics (VA) te leren werken.

Daarom zal ik het hier kort bespreken. Voor mij is het de combinatie van onderstaande vijf factoren

die VA tot een uniek platform maken:

1. Hadoop (HDFS) voor de data-opslag

2. SAS LASR® voor speed-of-thought computing (in-memory)

3. Visueel sterke data-exploratie modus en data-visualisatie interface

4. Sterke voorspellende analytische mogelijkheden (forecasting)

5. Mobile ondersteuning & ‘Selfservice’ BI

Figuur 10 - SAS Visual Analytics word-cloud

Page 26: Thesis Big Data

Natan Meekers Thomas More 20

VA biedt de schaalbaarheid van Hadoop, de intuïtieve dashboarding mogelijkheden zoals Tableau of

Qlikview die aanbieden, zeer snelle in-memory analytics en natuurlijk het uitgebreide scala aan

analytische- & forecasting-mogelijkheden, waarvoor SAS bekend staat.

De nieuwe mogelijkheden die VA ons biedt, maken het bouwen van cubes en vooraf definiëren van

dimensies overbodig. Het berekenen, aggregeren en analyseren van data gebeurt nu on-the-fly.

Voorlopig gebruikt VA altijd een LASR server. Dit kan een enkele machine zijn of een gedistribueerde

omgeving. In het tweede geval worden LASR servers en de analyses geparallelliseerd. Maar SAS voert

nu ook onderzoek naar het draaien van Visual Analytics op andere technologieën zoals een Teradata

of Greenplum appliance.

Met de massive parallel processing (MPP) voor geavanceerde analyses (mining, forcasting, …) in het

geheugen, biedt SAS een alternatief aan voor MapReduce; dit gaat volgens hen een stuk verder dan

datgene wat MapReduce aanbiedt.

Figuur 11 - SAS Visual Analytics gedistribueerde omgeving

Page 27: Thesis Big Data

Natan Meekers Thomas More 21

Onderstaande afbeelding geeft ons een overzicht van de verschillende gebruikers op het platform en

laat zien hoe VA ook voldoet aan de eisen voor het steeds meer populair wordende selfservice BI

gebeuren. Bedrijven verlangen naar Agile BI platformen waar business users zelf kunnen spelen met

de data en waar IT het platform onderhoudt en beheert en de data prepareert.

Gecreëerde rapporten kunnen zowel op het web bekeken worden als op mobiele apparaten. Business

users kunnen opmerkingen maken op rapporten, waarna geassocieerde personen (analyst/report

designer) op de hoogte worden gebracht en kunnen interageren.

Figuur 12 - VA gebruikersgroepen en hun functionaliteiten

Page 28: Thesis Big Data

Natan Meekers Thomas More 22

7 . 2 U I T D A G I N G E N

7 . 2 . 1 D A T A S I L O ’ S S A M E N B R E N G E N

Door alle data silo’s samen te voegen alsook de verschillende soorten analisten (marktonderzoekers

en traditionele analisten), kunnen we nieuwe verbanden ontdekken tussen deze data en onopgeloste

vraagstukken, beantwoorden.

7 . 2 . 2 D A T A C O M P L E X I T E I T

Dit is waarschijnlijk de meest voor de hand liggende uitdaging. Met alle data die nu beschikbaar is,

moeten bedrijven gaan opletten dat ze niet verdrinken in de data die ze willen verzamelen en

opslaan. Niet alleen de grote hoeveelheden data draagt bij aan de complexiteit, maar ook de

variëteit: semi gestructureerde en ongestructureerde data.

7 . 2 . 3 N I E U W E S K I L L S

Uit een onderzoek van SAS in samenwerking met Bloomberg Businessweek Research Services blijkt

dat vele organisaties moeilijkheden hebben bij het implementeren of gebruiken van analytics. Sinds

de opkomst van Big Data is Business Analytics dan ook in populariteit en belang toegenomen. De

nieuwe platformen laten ons immers beschikken over de mogelijkheid om verborgen patronen en

verbanden te ontdekken.

De vraag naar analytische skills is dus enorm toegenomen en dat zal het blijven doen. Zo zijn

bedrijven ook op zoek naar nieuwe profielen zoals Data Scientists, die bedrijven moeten helpen om

verbanden te zoeken in data. Door het tekort aan opgeleide personen met voldoende analtyische

kennis, is het vinden van zulke profielen, of zelfs het opleiden ervan, voor een groot aantal bedrijven

al een uitdaging.

Niet alleen hebben bedrijven nood aan analytische skills, maar ook Hadoop gecertifieerde personen

en Linux experts zijn nodig voor het opzetten en onderhouden van de onderliggende architectuur.

7 . 2 . 4 P R I V A C Y

Rekening houden met privacy issues bij het verzamelen van persoonlijke data van klanten wanneer

men op die manier beter en persoonlijker wil inspelen op hen. Dit is een topic dat weer wat

gevoeliger ligt omdat er geen duidelijke grens is tot waar bedrijven mogen gaan in het op zoek gaan

en verzamelen van gegevens over klanten.

Page 29: Thesis Big Data

Natan Meekers Thomas More 23

7 . 3 O P P O R T U N I T E I T E N

7 . 3 . 1 D A T A - G E D R E V E N O R G A N I S A T I E

Data wordt steeds belangrijker. Er wordt wel eens gezegd dat data de ‘new oil’ is van de 21ste eeuw.

Bedrijven moeten dus op zoek gaan naar alle mogelijke soorten bronnen om data uit te verzamelen

en te betrekken bij analyses zodat toekomstige beslissingen gebaseerd kunnen worden op verkregen

informatie en nieuw ontdekte patronen.

7 . 3 . 2 U I T G E B R E I D E R E A N A L Y T I S C H E M O G E L I J K H E D E N

Doordat de opslag van data goedkoper is en de verwerking van grote hoeveelheden geen enkel

probleem meer vormt, kun je als bedrijf meer ‘advanced analytics’ gaan toepassen. Datamining en

voorspellende analyses zoals forecasting kunnen ingezet worden om complexere problemen aan te

pakken waarvan men vroeger dacht dat ze onmogelijk op te lossen waren.

7 . 3 . 3 I N T E R A C T I E M E T K L A N T E N

Het hele gegeven van Social-Mobile-Cloud genereert zoveel data, dat we nu over de mogelijkheid

beschikken om klantenprofielen op te stellen en hen persoonlijk aan te spreken. Dit kan door

consequent data bij te houden (van sociale media, mobile app gebruik .....) en die te gaan analyseren.

Je verzamelt bijvoorbeeld gegevens van personen die je website bezoeken. Op basis daarvan kan je

een gepersonaliseerde website laten zien. Concreet: een verschillende layout voor mannen en

vrouwen of het tonen van andere producten op basis van leeftijdscategorieën.

7 . 3 . 4 D E T E C T E R E N V A N F R A U D E

Nu er meer data beschikbaar is en die data sneller verwerkt kan worden, kun je als bedrijf werken

naar een real-time Big Data architectuur, die op basis van vooropgestelde regels nagaat of een

transactie mogelijk frauduleus is terwijl die wordt uitgevoerd.

Door de vernieuwingen die Big Data met zich meebrengt, kun je als bedrijf alle beschikbare data

betrekken bij analyses in plaats van een extract van de laatste jaren. Blijf op zoek gaan naar nieuwe

patronen die wijzen op mogelijk frauduleuze transacties. Verifieer de gefilterde transacties om na te

gaan of er geen valse positieven in voorkomen want anders verlies je misschien klanten. Deze

modellen worden opgebouwd door data scientists die op zoek gaan naar mogelijke verbanden tussen

data.

7 . 3 . 5 A N D E R E

Er zijn nog zoveel andere opportuniteiten die Big Data ons kan bieden. Het is niet mogelijk om ze

allemaal te definiëren omdat ze voor elke sector specifiek zijn. Elke dag worden er nieuwe

opportuniteiten ontdekt. De kunst is creatief te zijn in het op zoek gaan naar manieren om Big Data te

gebruiken en zo een concurrentieel voordeel op te bouwen.

Page 30: Thesis Big Data

Natan Meekers Thomas More 24

8 A A N P A K Aangezien Big Data een relatief ‘nieuw’ onderwerp is, zeker in België, wordt er tot op de dag van

vandaag weinig of geen aandacht aan besteed in het hoger onderwijs. In dit hoofdstuk stel ik een

stappenplan op om bedrijven, die met Big Data willen beginnen, te helpen.

8 . 1 O N D E R Z O E K N A A R B I G D A T A Big Data is nieuw en er zijn verschillende percepties van het begrip. Het gaat niet alleen om grote

volumes van data. Door onderzoek te doen, leer je wat er allemaal verstaan wordt onder dit begrip.

Tijdens de lessen van Performance Management pasten we de ‘flipped-class’ methode toe. Gedurende

een aantal weken mochten we werken aan een paper over een nieuwe ontwikkeling binnen

Performance Management. Zo heb ik mij in die periode kunnen verdiepen in Big Data door hienrnaar

onderzoek te doen; deze paper heeft als basis gediend voor dit eindwerk.

8 . 1 . 1 E V E N T S

Events zijn een uitstekende plaats om contacten te leggen met mensen die gemeenschappelijke

interesses hebben. Een goed netwerk is volgens mij dan ook essentieel voor een IT ’er; wanneer je kennis

of informatie zoekt over een bepaald onderwerp, kan je altijd iemand uit je netwerk contacteren.

LinkedIn, websites van consultancy bedrijven en nieuwsbrieven van vendors (IBM, MS, ..) zijn goede

kanalen om op de hoogte te blijven van georganiseerde events. Als je een beetje sociaal vaardig en

communicatief bent, en wat lef hebt, is het niet moeilijk om contacten te leggen met mensen om op die

manier je netwerk uit te breiden.

8 . 1 . 2 W E B I N A R S

Webinars zijn een relatief nieuw concept om informatie te delen. Deze worden voornamelijk

georganiseerd door bedrijven die hun klanten en prospecten op een eenvoudige manier van informatie

willen voorzien.

Wanneer je ingeschreven bent voor een webinar, wordt je een link toegestuurd waarmee je kan inloggen

op het moment dat de webinar plaatsvindt. Wanneer je inlogt, krijg je toegang tot audio en video. In

sommige webinars kan je ook zelf interactief deelnemen aan de sessie, als je over een headset beschikt.

Tijdens andere webinars kan je vragen stellen via een chat module; deze worden dan achteraf

behandeld.

Het interessante aan dit concept is dat je je niet hoeft te verplaatsen en dat je op een relatief korte tijd,

meestal ongeveer één uur, veel informatie krijgt en over de mogelijkheid beschikt om vragen te stellen.

Als er tijd tekort is om alle vragen te beantwoorden, worden de overige vragen vaak beantwoord via

email.

Page 31: Thesis Big Data

Natan Meekers Thomas More 25

8 . 1 . 3 S O C I A L E M E D I A

In onze huidige maatschappij speelt Sociale Media een steeds meer belangrijke rol. Vooral LinkedIn,

Twitter, en Meetup zijn erg populair voor professionele doeleinden.

Figuur 13 - Sociale media om je netwerk uit te bouwen

Via Twitter kan je je abonneren op kanalen van bedrijven en/of personen die jou interesseren. Als je je

abonneert op een Twitter kanaal waar jouw interesse naar uitgaat, ontvang je telkens de nieuwste

Tweets op je persoonlijk dashboard.

Het abonneren op Twitter kanalen van ‘thought- en inspirational leaders’ heeft als voordeel dat je op de

hoogte blijft van populaire topics en nieuwe, interessante ontwikkelingen.

Op LinkedIn bouw je je eigen professionele netwerk van contacten en kan je je inschrijven op groepen.

Deze groepen kunnen door iedereen opgericht worden en hebben als doel mensen met dezelfde

interesse met elkaar in contact te brengen en meningen en ervaringen te kunnen delen. Door middel van

polls en discussies worden ideeën tussen groepsleden uitgewisseld.

Meetup, een minder bekend platform, is interessant om in contact te komen met mensen die dezelfde

interesses hebben.

Page 32: Thesis Big Data

Natan Meekers Thomas More 26

8 . 1 . 4 V I R T U E L E M A C H I N E

Cloudera en Hortonworks hebben beide een virtuele machine (VM) aangemaakt die je gemakkelijk kan

afspelen op je eigen systeem om op die manier kennis te maken met Hadoop en services. De VM van

Hortonworks bevat ook tutorials voor Pig en Hive om te leren hoe scripts worden opgebouwd en

uitgevoerd.

Figuur 14 - Hortonworks VM interface

8 . 2 F O R M U L E E R O P P O R T U N I T E I T E N Je kan vertrekken vanuit een analyse van je bedrijf en die problemen formuleren die tot nu toe te

moeilijk of te duur waren om op te lossen. In samenwerking met analisten, data scientists, marketeers

en andere business users kan je opportuniteiten of problemen identificeren die het best passen bij jouw

bedrijf en die nog nooit zijn aangepakt.

Uit die lijst van geformuleerde opportuniteiten neem je best degene waarvan je redelijk zeker bent dat je

een acceptabele ROI zal krijgen.

Page 33: Thesis Big Data

Natan Meekers Thomas More 27

8 . 3 O N T W I K K E L U S E C A S E S Nu de opportuniteit geselecteerd is, stel je use cases op die nodig zijn om het project uit te voeren.

Schematiseer de datastromen om na te gaan welke technologieën nodig zijn om het geformuleerde

probleem op te lossen.

Ga na welke data verzameld en opgeslagen moeten worden en welke je beter weg laat. Ook al is opslag

goedkoper geworden, het kost nog steeds geld en daarom is het nuttig om goed na te denken welke data

tot nieuwe inzichten kunnen leiden en die op te slaan.

Ga na welke analytische query’s er nodig zijn en welke algoritmes gebruikt zullen worden om de

gewenste resultaten te verkrijgen.

8 . 4 I D E N T I F I C E E R H U I D I G E - E N T O E K O M S T I G E C A P A C I T E I T E N Als de use cases zijn opgesteld, is het goed om na te gaan welke extra data kwaliteitseisen gedefinieerd

moeten worden voor het verzamelen, cleanen en aggregeren van data. Ook op gebied van hardware is

het goed om na te gaan aan welke vereisten het systeem moet voldoen: schaalbaar, fouten tolerant,

performant …

Zoals eerder vermeld is het voor Hadoop clusters niet aangeraden om servers te kopen met meer dan 2

CPU’s omdat die direct een prijsklasse hoger zijn en dat loopt niet gelijk op met de extra performantie. In

de meeste opstellingen wordt er gebruik gemaakt van één 2TB disk per CPU core, maar er zijn ook al

clusters die draaien met 3TB schijven per core. Een node met 2 quad core processors heeft dus 8 disks

om data op te slaan en 1 disk voor het OS.

8 . 5 Z E T E E N T E S T O M G E V I N G O P Nu ook de capaciteiten geïdentificeerd en geformuleerd zijn, kan je beginnen met het opzetten van een

testomgeving of kiezen voor een cloud oplossing zoals Amazon. Zeker voor een POC is dat heel

gemakkelijk en veel kosten efficiënter dan het opzetten van een eigen omgeving.

Wanneer je een eigen architectuur opzet, is het slim om te kijken naar gelijkaardige bedrijven om te zien

wat voor setup zij gebruiken. Verder zijn er verschillende blogs van Yahoo! Hadoop ingenieurs geven

concrete tips geven over het opzetten van een cluster.

Denk ook al na over hoe de data gevisualiseerd zal worden zodat die gemakkelijk te begrijpen is voor alle

business users.

8 . 6 E V A L U E E R Interpreteer de resultaten en ga na of deze kunnen kloppen. Is de doorlooptijd om de vraag te

beantwoorden korten dan voorheen? Of is het resultaat nauwkeuriger? Meet ook de ROI en ga na wat

de ROI is op korte en lange termijn. Breidt het project uit met meer cases en ga na wat voor jou bedrijf

de beste opportuniteiten zijn om uit te werken.

Page 34: Thesis Big Data

Natan Meekers Thomas More 28

9 U S E C A S E S

9 . 1 M I S D A A D P R E V E N T I E M E M P H I S Memphis was een slechte stad om in te wonen. De criminaliteitscijfers liepen zo hoog op dat er iets

moest gebeuren. Enkele wetenschappers van de Universiteit van Memphis hebben het Memphis Police

Department (MPD) benaderd met het voorstel om alle data, die tot nog toe in silo’s zat opgesloten, te

‘bevrijden’ en te combineren met real-time data om zo patronen te ontdekken.

De wetenschappers zijn de data gaan analyseren met het statistische programma SPSS en is vervolgens

omgedoopt tot Operatie Blue CRUSH doordat het door IMB is aangekocht. Dankzij de analyses heeft het

politie departement meer inzicht gekregen in de plaats en tijd van de incidenten.

Door deze inzichten kan MPD hun patrouilles nu effectiever en efficiënter inzetten.

H I S T O R I S C H E I N P U T R E A L - T I M E I N P U T O U T P U T

Politierapporten Verkeerspatronen Real-time

Soorten criminaliteit Jaargetijde Grootste kans misdaad

Locatie misdaad Temperatuur Optimale inzet politiekrachten

Tijdstip misdaad (pv) Regen

Weersomstandigheden Evenementen (?)

Verkeersinformatie Integratie met 911

Overige bijzonderheden GSM-locatie verdachten

Soorten criminelen (strafbladen)

Arrestatiebevelen

Crime-scene

Terugkerende patronen (loon-uitbetaaldag)

Het resultaat van dit project kan niet ontkent worden:

30% minder zware criminaliteit

15% minder gewelddelicten

Hogere veroordelingsgraad (16% 70%) door betere bewijslast (op heterdaad betrapt)

Het Big Data systeem Blue CRUSH is een zelf lerend systeem dat beter wordt doordat er meer informatie

beschikbaar komt en er meer feedback ingevoerd wordt. Deze oplossing kan nu ook zonder al te veel

aanpassingen gebruikt worden door andere politiedepartementen die hier ook nood aan hebben.

Page 35: Thesis Big Data

Natan Meekers Thomas More 29

9 . 2 P R E S I D E N T S V E R K I E Z I N G U S Op dinsdag 6 november 2012 is Barack Obama verkozen voor een tweede termijn als president. Volgens

verschillende bronnen heeft Obama zijn overwinning te danken aan het gebruik van Big Data in zijn

campagne.

President Obama’s campagne was één van de meeste verfijnde en gesofistikeerde digitale operaties

waarbij geen enkele veronderstelling als vanzelfsprekend werd aangenomen. Zijn campagne werd

bedacht en geleid door data analisten die niets aan toeval overlieten. Ze moedigden supporters aan om

hun persoonlijke gegevens te delen, opmerkingen, foto’s en video’s te posten en om te doneren. Dat

was slechts het begin.

Vanuit hun veelzijdige campagnestrategie positie zijn ze verder gegaan door webmasters deze data te

laten gebruiken om bezoekers te leiden naar andere campagne-media zoals Obama’s Facebook-pagina

en Youtube kanaal.

Een ander voorbeeld toont ook aan dat data van steeds groter belang is bij politiek: Obama heeft een

wedstrijd opgesteld om te dineren met Jessica Parker en heeft zich gericht naar een beperkte groep van

personen die ook aangetrokken zijn door zijn de Republikeinen, celebraties en die houden van dineren.

Deze specifieke groep bestaat en heeft veel geld waardoor er op deze manier ook extra inkomsten

verkregen kunnen worden.

Page 36: Thesis Big Data

Natan Meekers Thomas More 30

Alles wat er over een persoon gevonden kan worden, is gebruikt om voorspellende analyses te maken

om nieuwe kiezers te vinden maar ook om te bepalen welke boodschappen de aandacht trekt van

bepaalde personen en welke types van personen door deze boodschappen overtuigd geraken.

Het is duidelijk dat de zeer dure advertenties op tv en radio er niet langer voor zorgen dat je de

verkiezingen wint. Het zijn de nauwkeurig uitgezochte, kleinschalige en op maat gemaakte

boodschappen voor een specifieke doelgroep of persoon die maken dat een gebruiker zich aangesproken

voelt en mogelijk een stem wordt.

Obama’s team is zelfs zo ver gegaan dat de campagne voerders die thuis langsgaan, verschillende

boodschappen klaar hadden afhankelijk voor welk familielid de deur zou open doen.

N A T E S I L V E R Een ander opvallend verhaal is dat van Nate Silver. Hij is een statisticus die een gewaagde voorspelling

heeft gemaakt over de uitslag van de verkiezingen in de US.

Nate Silver deed ook een voorspelling over het aantal stemmen dat beide kandidaten zouden halen: 332

voor Obama en 206 voor Romney. Deze cijfers komen 100% overeen met de echte resultaten. Uit beide

verhalen blijkt maar weer dat er heel veel data is die we op de juiste manier moeten gaan gebruiken om

tot nieuwe inzichten en voorspellingen te komen en welke mogelijkheden we krijgen om doelen te

bereiken die vroeger onmogelijk leken.

Page 37: Thesis Big Data

Natan Meekers Thomas More 31

9 . 3 D E T E C T I E F R A U D U L E U Z E T R A N S A C T I E S Platformen, zoals PayPal, om online te betalen moeten transacties van veel meer bronnen verwerken

dan de gewone creditkaart bedrijven. PayPal moet uit de 90 miljoen browsers en mobiele apparaten die

bijna constant connecteren naar de online betaal service, de mogelijke frauduleuze transacties

identificeren. Door deze uitdaging hebben ze systemen ontworpen die frauduleuze activiteiten kunnen

identificeren en die afhandelen voordat deze transacties begonnen zijn. Ook de andere grote spelers op

de markt van online transacties hebben speciale geavanceerde analytische tools en servers gebouwd om

patronen van frauduleuze activiteiten te ontdekken.

PayPal heeft zo een ‘Fraude Management Filter’ ontworpen die

zoekt naar betalingen en andere soorten transacties waarvan de

bron verdacht is, de grootte van het bedrag of eender welke

andere factor die een winkelier kan opgeven en maakt dat deze

transacties goedgekeurd moeten worden. Maar er zijn meer

factoren die kunnen helpen in het verfijnen van de bestaande

modellen om fraude te voorkomen. Zo kunnen ook IP adressen,

browser informatie en andere technische data dienen in het

ontdekken van nieuwe patronen.

Het gebruik van deze nieuwe technieken en tools zijn een enorme vooruitgang op de manieren die

hiervoor gebruikt werden. Nu kunnen er continu, real-time analyses uitgevoerd worden op zéér grote

datasets. Vroeger werden er samples gebruikt van de data die dan ’s nachts werd geanalyseerd voor het

maken van fraude-detectie modellen. In deze snel veranderende wereld volstaan deze modellen simpel

weg niet meer.

Data die geregistreerd wordt door transacties via deze online betalings-platformen bieden veel meer

mogelijkheden dan het detecteren van alleen fraude. Door het combineren van klantgegevens,

transacties, zoekopdrachten, aankopen, likes & dislikes (sociale media), … kunnen bedrijven nieuwe

geavanceerde marketing modellen opstellen en voorspellende analyses maken voor het verkopen van

nieuwe producten en services.

Page 38: Thesis Big Data

Natan Meekers Thomas More 32

9 . 4 V E S T A S W I N D T U R B I N E S Het Deense bedrijf Vestas, dat Windturbines verkoopt, moest iets ondernemen om ervoor te zorgen dat

het voor bleef op de concurrerende firma’s. Om dat te doen zijn ze Big Data analytische software van

IBM gaan gebruiken: ‘BigInsight’ in samenwerking met een krachtige IBM supercomputer: ‘Firestorm’.

Met deze nieuwe technologieën willen ze

Petabytes aan gestructureerde en

ongestructureerde data van weerrapporten,

satteliet foto’s, geospatial en sensor data,

ontbossingsmappen en weersvoorspellings-

modellen analyseren.

Klanten willen weten hoeveel energie een

windturbine zal opbrengen en wat hun Return

On Investment (ROI) zal zijn vooraleer ze

overgaan tot het aankopen en plaatsen van

een windturbine. Met deze nieuwe technologieën kunnen ze de vragen van de klant zeer snel

beantwoorden en hen helpen om hun doelen voor hernieuwbare energie te behalen.

Als de turbines geplaatst zijn en operationeel zijn, zullen Vestas ingenieurs de nieuwe software

gebruiken om de opbrengst van de turbine te simuleren, analyseren hoe elk blad van de schroef op

weersomstandigheden reageert en bepalen wat het beste tijdstip is om de turbine stil te leggen voor

onderhoud.

Vestas is één van de bedrijven die weer

aantoont hoe grote organisaties Big Data

kunnen gebruiken om slimmere

beslissingen te maken. Deze beslissingen

hebben een sterke invloed op de groei van

je bedrijf aangezien je de moeilijkste

problemen kan aanpakken. De

mogelijkheid om inzichten te krijgen in de

grote hoeveelheden data die bedrijven ter

beschikking hebben, heeft het potentieel

om een bedrijf of industrie voor goed te

veranderen.

Page 39: Thesis Big Data

Natan Meekers Thomas More 33

1 0 C A S E – F O D J U S T I T I E Bij FOD Justitie is niet alles gelopen zoals verwacht. Sinds november was ik in dialoog met hen over de

scope en vereisten van het project dat ik zou uitvoeren. Zij zouden voorzien in hardware en data, ik zou

het systeem operationeel maken en een vraag van de business proberen te beantwoorden met het

nieuwe systeem . Ondanks ik mijn praktisch gedeelte daar niet kon uitwerken, heb ik er veel uit geleerd.

Wanneer een bedrijf te groot wordt, loopt het risico om zoveel procedures te creëren, dat sommige

processen onnodig ingewikkeld worden. Zo heb ik twee weken moeten wachten vooraleer SAS

Enterprise Guide als package op mijn pc beschikbaar was. Die aanvraag moest via de helpdesk geïnitieerd

worden: een ticket aanmaken, wachten tot het ticket geaccepteerd is, wachten tot alle voorgaande

tickets afgewerkt zijn en dan wachten tot je eigen ticket succesvol afgewerkt is.

In tussentijd heb ik via e-mail en telefoon contact gezocht met IT om er zeker van te zijn dat het daarna

niet nog eens zo lang zou duren om de servers klaar te maken. Ik merkte al snel dat er traag geantwoord

werd op mijn mails en telefonisch kreeg ik geen contact meer. Dan ben ik op zoek gegaan naar een ander

project.

Ik heb mijn interne begeleider bij FOD Justitie op de hoogte gebracht van mijn beslissing en heb gezegd

dat ik in juni nog een aantal dagen kom werken op de Visual Analytics server. Deze demo server heeft

SAS voorzien en wordt nu door niemand gebruikt.

Het opzetten van een Big Data architectuur ter ondersteuning van de klassieke BI zal verbetering

brengen op volgende vlakken:

Eén centrale data ‘repository’ waar alle data van alle justitiehuizen in samenvloeit.

Verrijken van interne data met externe data zoals verkeersinformatie en klimaatgegevens.

Toepassen van datamining om verbanden te zoeken tussen data.

Data modellen projecteren op data.

Uitgebreidere mogelijkheden om tekst analyses en Natural Language Processing uit te voeren.

Penitentie gegevens gaan analyseren die rechters kunnen helpen om gepaste sancties uit te

delen.

Page 40: Thesis Big Data

Natan Meekers Thomas More 34

1 1 C A S E – A D S W I Z Z Eind mei ben ik aan een project begonnen bij Adswizz in samenwerking met mijn externe begeleider

(DataCrunchers).

Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand.

Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal worden.

Ook willen ze extra data verzamelen over luisteraars zodat ze advertenties kunnen gaan personaliseren.

Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om dan een meer relevante

advertentie te injecteren in een bepaalde webstream.

Momenteel gebruiken zij Scribe om hun data te verplaatsen naar Amazon S3 storage. Ontwikkelde Pig

scripts worden gelanceerd op Amazon ’s Elastic MapReduce (EMR) om te testen hoe ze performen op de

volledige data set in plaats van een lokaal extract.

De data van één maand kopiëren van S3 naar EMR duurt ongeveer 4 minuten. In EMR wordt er dan een

cluster online gebracht van 20 nodes. Het aantal nodes kan je zelf kiezen. De data wordt met de huidige

Pig scripts in 4 uur verwerkt. Deze scripts moeten dus nog geoptimaliseerd worden want dit zou moeten

lukken in 1 à 2 uur. Wanneer het Pig script is uitgevoerd, wordt het resultaat weggeschreven naar S3, de

data verwijderd en de cluster weer offline gebracht.

Mijn rol in dit project is het helpen ontwikkelen van Pig scripts die data verzamelen, aggregeren en

wegschrijven naar HBase. De huidige rapporten worden opgebouwd op basis van de data in HBase.

De informatie over dit project is beperkt omdat ik hier pas eind mei kon opstarten. Dit komt door de

moeilijkheden die er waren bij Justitie.

Tijdens de presentatie van dit eindwerk kan de jury meer gedetailleerde informatie verwachten over het

praktische gedeelte van dit project. Ik zal laten zien hoe Pig scripts zijn opgebouwd en uitleggen hoe ze

worden uitgevoerd. Ook zal ik met de iPad een aantal rapporten laten zien die ik in Visual Analytics heb

gebouwd.

Page 41: Thesis Big Data

Natan Meekers Thomas More 35

1 2 C O N C L U S I E

1 2 . 1 A L G E M E E N Big Data valt onder het Business Intelligence en Analytical Intelligence domein van Performance

Management. Het meet onze prestaties in het verleden (BI) en het kan ons ook door middel van

geavanceerde analyses (‘predictive analytics’) inzicht geven in de toekomst.

Doorheen dit eindwerk is het duidelijk geworden dat Big Data een grote toegevoegde waarde biedt voor

bedrijven: meer inzicht in klanten om ze persoonlijker te bedienen, sneller (en nieuwe) inzichten

verwerven, geld uitsparen, uitvoeren van fraude en risico analyses, … Dat is de reden waarom steeds

meer bedrijven een ‘data-driven’ richting uitgaan.

De mogelijkheid om meer data sneller te verwerken en daarbij externe databronnen te betrekken, maakt

dat bedrijven beschikken over veel nieuwe opportuniteiten waarmee ze een concurrentievoordeel

kunnen opbouwen.

Big Data projecten eisen nieuwe skills waarin een bedrijf zal moeten investeren. Vooral de vraag naar

analytische profielen zal sterk stijgen.

De ROI is moeilijk te bepalen voor veel Big Data projecten maar ondertussen bestaan er al veel use cases

waaruit je inspiratie kan opdoen en die je zekerheid geven dat je project iets zal opleveren.

Ondanks de vele use cases, die voornamelijk uit de VS afkomstig zijn, heb ik gemerkt dat er op de

Belgische markt nog maar weinig vraag is naar Big Data expertise. Het zal dus voor Big Data consultants

een uitdaging zijn om aan bedrijven de meerwaarde en voordelen aan te tonen om een project op te

starten. Maar over het algemeen zien we dat in België vernieuwingen altijd wat later doorbreken. Ik

geloof dus dat Big Data de komende jaren op grote schaal zal geïmplementeerd worden.

Bedrijven beginnen best met een POC of Pilot project om vanuit één probleem of vraag een oplossing of

antwoord te geven door middel van Big Data. Wanneer zo een case succesvol is uitgewerkt, kan men

stilaan uitbreiden door meer cases aan te pakken en creatief te zoeken naar nieuwe opportuniteiten.

Pas wel op voor de grote fout die vele mensen maken: ‘Big Data is no silver bullet’ ! Alle dingen die

mogelijk zijn met het verzamelen en opslaan van data tot het uitvoeren van de geavanceerde analyses,

vereisen de juiste skills en expertise om succes te garanderen. Big Data systemen werken niet autonoom

en hebben nog steeds begeleiding nodig van mensen die begrijpen wat er gebeurt en die de resultaten

kunnen evalueren.

Suggesties voor verder werk: dieper ingaan op ‘the analytics’ van Big Data en nagaan hoe we creatief

kunnen zijn met data. Op die manier kan een profiel opgesteld worden van vereiste skills en hoe ze

ontwikkeld kunnen worden om bedrijven beter te helpen bij Big Data projecten en succes te garanderen.

Page 42: Thesis Big Data

Natan Meekers Thomas More 36

1 2 . 2 P E R S O O N L I J K De afgelopen maanden ben ik druk bezig geweest met mezelf wegwijs te maken in het Big Data verhaal.

Dat was niet altijd gemakkelijk omdat het allemaal nieuwe materie is. Door verschillende kanalen te

gebruiken, heb ik veel bijgeleerd en heb ik goede contacten kunnen leggen. Die kan ik raadplegen als ik

hulp nodig heb voor de praktijk.

Big Data is een zeer uitgebreid en veelomvattend onderwerp en het was niet gemakkelijk om het

compact uit te leggen.

Voor het praktische gedeelte heb ik wat tegenslag gehad maar daar heb ik ook veel uit geleerd. Ondanks

de noodzaak van verandering van project op het allerlaatste moment (5 werkdagen voor de deadline van

dit eindwerk) heb ik niet opgegeven.

Tot in juni blijf ik er aan verder werken zodat ik een meer uitgebreid praktisch gedeelte kan presenteren.

Page 43: Thesis Big Data

Natan Meekers Thomas More 37

1 3 V E R K L A R E N D E W O O R D E N L I J S T

[1] OPEN-SOURCE

Software waarvan de broncode wordt vrijgegeven. Gebruikers hebben de mogelijkheid om de

software te bestuderen, aan te passen en verbeteringen aan te brengen. De code van open-

source software komt vaak tot stand door de samenwerking van individuele programmeurs uit

een open-source community

[2] Commodity hardware

Computer hardware die gemakkelijk te verkrijgen en betaalbaar is.

[3] Appliance

Een machine die speciaal ontworpen is om een bepaalde taak uit te voeren.

[4] Node

Een computer die is aangesloten op een bepaald netwerk. Een verzameling van nodes vormt

een cluster.

[5] Legacy systemen

Bronsystemen zoals ERP, CRM of andere applicaties met gegevens in een databank.

[6] Scope

Het bereik van een project. Overeengekomen werk dat voltooid moet worden om tot het

eindresultaat te komen.

[7] Amazon S3

Service die de mogelijkheid aanbiedt om data op te slaan in de cloud.

[8] Amazon EMR

Elastic MapReduce is een web service die bedrijven de mogelijkheid aanbiedt om enorme

hoeveelheden data op een gemakkelijke en kosten-efficiënte manier te analyseren.

[9] on-the-fly

In real-time. Uitvoeren terwijl het gebeurt.

[10] speed-of-thought

Zeer snel.

Page 44: Thesis Big Data

Natan Meekers Thomas More 38

1 4 A F K O R T I N G E N

PM PERFORMANCE MANAGEMENT

BI BUSINESS INTELLIGENCE

BD BIG DATA

ETL/ELT EXTRACT, TRANSFORM AND LOAD / EXTRACT, LOAD AND TRANSFORM.

EMR ELASTIC MAPREDUCE

POC PROOF OF CONCEPT

HDFS HADOOP DISTRIBUTED FILE SYSTEM

VA VISUAL ANALYTICS

HDP HORTONWORKS DATA PLATFORM

MPP MASSIVE PARALLEL PROCESSING

ROI RETURN ON INVESTMENT

Page 45: Thesis Big Data

Natan Meekers Thomas More 39

1 6 B I J L A G E

1 6 . 1 B I G D A T A P O S T E R Voor het vak Performance Management moesten wij voor onze paper een poster ontwerpen. Aan de

hand van die poster mochten wij onze paper presenteren op het Performance Management event dat

georganiseerd was door het BICC van onze hogeschool.

Page 46: Thesis Big Data

Natan Meekers Thomas More 40

1 6 . 2 A D S W I Z Z - S T R E A M I N G A D I N J E C T I O N Een overzicht van de methode die Adswizz gebruikt om advertenties te injecteren in webstreams.

Page 47: Thesis Big Data

Natan Meekers Thomas More 41

1 7 B I B L I O G R A F I E

[1] ANTUNOVIĆ, M. Build Optimal Hadoop Cluster. Atlantbh, 2012.

Opgeroepen in Oktober 2012 van:

<http://www.atlantbh.com/how-to-build-optimal-hadoop-cluster/>.

[2] APACHE. Hadoop™. Apache.org, 2012.

Opgeroepen in Oktober 2012 van:

<http://hadoop.apache.org/>.

[3] ASAY M.. Becoming Red Hat: Cloudera and Hortonworks' Big Data death match™. The Register, 2013.

Opgeroepen in Februari 2013 van:

< http://www.theregister.co.uk/2012/08/17/community_hadoop/>.

[4] COX, R. Hortonworks shows out at OpenStack summit. Sillicon Angle, 2013.

Opgeroepen in April 2013 van:

<http://siliconangle.com/blog/2013/04/17/hortonworks-shows-out-at-openstack-summit-while-cloudera-stays-at-

home/>

[5] CROLS, J. Storm is coming: are you ready for big data? Ferranti Computer Systems. Belgium, p. 8. 2012.

[6] DATA SCIENCE SERIES. Scoping out your Big Data analytics project. Datameer. 2013.

Opgeroepen in April 2013 van:

<http://info.datameer.com/rs/datameer/images/Project_plan.pdf?mkt_tok=3RkMMJWWfF9wsRokv6rIZKXon

jHpfsX56egrWaa1lMI%2F0ER3fOvrPUfGjI4FRMpjI%2BSLDwEYGJlv6SgFSrbEMaJn2bgIUhE%3D>.

[7] DEAN. Facing the challenges of Big Data. YARC, 2013.

Opgeroepen in April 2013 van:

< http://yarcdata.com/blog/?p=413/>.

[8] HOWARD, P. Sybase IQ 15.4. Bloor Research. USA, p. 17. 2012.

[9] IBM. What is Big Data. Bringing big data to the enterprise, 2012.

Opgeroepen in Oktober 2012 van:

<http://www-01.ibm.com/software/data/bigdata/>.

[10] IBM CORPORATION. Recognize the many faces of fraud. IBM Corporation. USA, p. 8. 2010.

[11] IBM CORPORATION. Understanding Big Data. IBM Corporation. USA, p. 166. 2011.

[12] IBM GLOBAL BUSINESS SERVICES. Analytics: The real-world use of big data. IBM Institute for Business Value.

USA, p. 22. 2012.

[13] JERNEVAD, M. Trends that empower. Projectplace International. Stockholm, p. 13. 2012.

[14] LEI, S. Setting Up a Hadoop Cluster. National University of Signapore. Signapore, p. 6. 2009.

Page 48: Thesis Big Data

Natan Meekers Thomas More 42

[15] DEUTSCHER, M. Big Data deep dive conclusion: the future of analytics. Sillicon Angle, 2013.

Opgeroepen in April 2013 van:

< http://siliconangle.com/blog/2013/03/28/big-data-deep-dive-conclusion-the-future-of-analytics//>.

[16] MCKINSEY. The next frontier for innovation, competition and productivity. McKinsey Global Institute. [S.l.], p.

156. 2011.

[17] NUCLEUS RESEARCH. Big Data: Beyond the buzzwords. Nucleus Research. USA, p. 3. 2011.

[18] OFFERMAN, A. Hadoop: raamwerk voor de grote jongens. Tweakers, 21 fev. 2012.

Opgeroepen in Oktober 2012 van:

<http://tweakers.net/reviews/2475/2/hadoop-raamwerk-voor-de-grote-jongens-wat-is-hadoop.html>

[19] RAMAMURTHY, B. MapReduce & Hadoop Distributed File System. University Buffalo. Buffalo, p. 39. 2012.

[20] SAS INSITUTE. Banks, Big Data and High-Performance Analytics. SAS Institute. USA, p. 16. 2012.

[21] SAS INSTITUTE. Big Data for the Next Big Idea in Financial Services. SAS Institute. USA, p. 13. 2012.

[22] SAS INSTITUTE. High Performance Analytics at the speed of right. Sas Institute. USA, p. 32. 2012.

[23] THE APACHE SOFTWARE FOUNDATION. What is Hadoop. Hadoop Apache, 3 20 2012.

Opgeroepen in Oktober 2012 van:

<http://hadoop.apache.org/>.

[24] TURNER, J. Hadoop: What it is, how it works, and what it can do. O'Reilly Radar, 12 jan. 2011.

Opgeroepen in Oktober 2012 van:

<http://radar.oreilly.com/2011/01/what-is-hadoop.html>.

[25] URBANI, J. Reasoning-Hadoop. Vrije Universiteit - Faculty of Sciences. Amsterdam, p. 87. 2009.

[26] EVELSON, B. Advanced Data Visualization Platforms. SAS Institue, 2012.

Opgeroepen in Maart 2013 van:

<http://radar.oreilly.com/2011/01/what-is-hadoop.html>.

[27] ZWANENVELD, A. Big Data: Misdaadpreventie Memphis Police Dept. , Juli 2012.

Opgeroepen in November 2012 van:

<http://www.webanalisten.nl/big-data-voorbeeld-misdaadpreventie-memphis-police-dept>.

[28] BADGER, E. How to catch a criminal with data. , Maart 2012.

Opgeroepen in November 2012 van:

<http://www.theatlanticcities.com/technology/2012/03/how-catch-criminal-data/1477/>.

[29] HONAN, D. The 2012 Election: A big win for Big Data , Nov 2012.

Opgeroepen in November 2012 van:

<http://bigthink.com/think-tank/the-2012-election-a-big-win-for-big-data>.

[30] HOWARD, A. In the 2012 election, Big Data-driven analysis & campains were the winners. O'Reilly, Nov 2012.

Opgeroepen in November 2012 van:

<http://strata.oreilly.com/2012/11/2012-election-big-data-journalism-obama-data-campaign.html>.

Page 49: Thesis Big Data

Natan Meekers Thomas More 43

[31] LYNCH, M. Barack Obama's Big Data won the US election. Computerworld, Nov 2012.

Opgeroepen in November 2012 van:

<http://www.computerworld.com/s/article/9233587/Barack_Obama_39_s_Big_Data_won_the_US_election>.

[31] SILVER, N. Five Thirty Eight (538). NY Times , Nov 2012.

Opgeroepen in November 2012 van:

<http://fivethirtyeight.blogs.nytimes.com/>

[32] HARDING, L. Numbers nerd Nata Silver’s forcasts prove all right on election night. Guardian, Nov 2012.

Opgeroepen in November 2012 van:

<http://www.guardian.co.uk/world/2012/nov/07/nate-silver-election-forecasts-right>

[33] ECONOMIST, T. Big Data: Chrunching the numbers. The Economist, Mei 2012.

Opgeroepen in November 2012 van:

<http://www.economist.com/node/21554743>

[34] SIMS, D. Big Data thwarts fraud. Strata O'Reilly, Feb 2011.

Opgeroepen in November 2012 van:

<http://strata.oreilly.com/2011/02/big-data-fraud-protection-payment.html>

[35] IBM. Vestas Wind Systems turn to IBM Big Data Analytics for smarter wind energy. IBM, Okt 2011.

Opgeroepen in November 2012 van:

<http://www-03.ibm.com/press/us/en/pressrelease/35737.wss>

[36] IBM. IBM helps Vestas turn cliate Big Data into Capital. IBM, Okt 2011.

Opgeroepen in November 2012 van:

<http://www.ibmbigdatahub.com/video/ibm-helps-vestas-turn-climate-big-data-capital>

[37] LAMONICA, M. IBM's Big Data helps Vestas wind turbines crank. CNET News, Okt 2011.

Opgeroepen in November 2012 van:

<http://news.cnet.com/8301-11128_3-20125284-54/ibms-big-data-helps-vestas-wind-turbines-crank/>

[38] HARISH & VIJAY, Introduction to Big Data & Hadoop Ecosystem Part 1-2-3. Cloudstory.in, Apr 2012.

Opgeroepen in November 2012 van:

<http://cloudstory.in/2012/04/introduction-to-big-data-hadoop-ecosystem-part-1-2-3/>

[39] GARTNER. 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So. Gartner, 2013.

Opgeroepen in Maart 2013 van:

<http://www.gartner.com/newsroom/id/2366515>

[40] HORTONWORKS. Modern Data Architecture and Hadoop. Hortonworks, 2013:

Opgeroepen in Maart 2013 van:

<http://hortonworks.com/hadoop-modern-data-architecture>

[41] HUNT, I. The CIA on Big Data. SiSense, 2013.

Opgeroepen in April 2013 van:

<www.sisense.com/blog/bruno/2013/03/27/recaps-gigaom-structure-data-gartner-bi-and-analytics-summit>

Page 50: Thesis Big Data

Natan Meekers Thomas More 44

[42] IE. Big Data Innovation Summit. Innovation Enterprise, 2013.

Opgeroepen in Mei 2013 van:

<theinnovationenterprise.com/summits/big-data-innovation-summit-april-2013-san-francisco/schedule>

[43] INTEL. Getting started with Big Data. Intel, 2013.

Opgeroepen in Mei 2013 van:

<http://www.intel.com/content/dam/www/public/us/en/documents/guides/getting-started-with-hadoop-

planning-guide.pdf

[44] JEDRAS, J. SAS takes aim at SAP with in-memory analytics. IT World Canada, 2013.

Opgeroepen in Mei 2013 van:

<http://www.itworldcanada.com/news/sas-takes-aim-at-sap-with-in-memory-analytics/147049

[45] KELLY, J. The Hadoop Wars: Cloudera and Hortonworks’ Death Match for Mindshare. Wikibon, 2013.

Opgeroepen in Mei 2013 van:

<http://wikibon.org/wiki/v/The_Hadoop_Wars:_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mind

share>

[46] KELLY, K. Big Data vs. Tradition Business Intelligence. SmartDataCollective, 2012.

Opgeroepen in Mei 2013 van:

<http://smartdatacollective.com/node/84546>

[47] MEHRA, G. Using Big Data to Prevent Ecommerce Fraud. Practical eCommerce, 2013.

Opgeroepen in Mei 2013 van:

<http://www.practicalecommerce.com/articles/4031-Using-Big-Data-to-Prevent-Ecommerce-Fraud>

[48] VAN NIEUWENHUYSE, D. (2011). Performance Management. Leuven: LannooCampes.

[49] PITTMAN, D. Friday Data Flick: Uses of Big Data and Hadoop as Data Warehouse. IBM Big Data Hub, 2013.

Opgeroepen in Mei 2013 van:

<http://www.ibmbigdatahub.com/blog/friday-data-flick-uses-big-data-and-hadoop-data-

warehouse?utm_source=feedly&utm_medium=feed&utm_campaign=Feed:+netezza/allblogs+(Netezza+Blogs+-

+All+Posts)>

[50] RADDING, A. Big Data Drives surging interest in Business Intelligence. BigFatFinancialBlog, 2013.

Opgeroepen in Mei 2013 van:

<http://bigfatfinanceblog.com/2013/02/21/big-data-drives-surging-interest-in-business-intelligence/>

[51] WALLACE, D. Big Data management for retail banks. SAS Institute, 2012.

Opgeroepen in Mei 2013 van:

<http://www.sas.com/knowledge-exchange/risk/integrated-risk/big-data-management-for-retail-banks>

Page 51: Thesis Big Data

Natan Meekers Thomas More 45

1 8 A U T E U R

Meekers Natan Vennestraat 26, B-1980 Zemst-Laar

MOBIEL: +32 498 08 78 90 EMAIL: [email protected] Natan Meekers

@NatanMeekers

http://natan.meekers.eu

EXTERNE PROMOTOR Manager & Big Data consultant at DataCrunchers

Van Landeghem Geert Steenweg van Grembergen 27, B-9200 Dendermonde

MOBIEL: +32 477 75 95 33 EMAIL: [email protected] Geert Van Landeghem

@gvanlandeghem