Visie op Big Data Architectuur Zonder de hypes › files › Visie_op_Big_Data_Architectuur.pdf ·...

Post on 25-Jun-2020

2 views 0 download

Transcript of Visie op Big Data Architectuur Zonder de hypes › files › Visie_op_Big_Data_Architectuur.pdf ·...

Visie op Big Data ArchitectuurZonder de hypes

4 april 2016

Hugo Koopmans en Rogier Werschkull

Is dit architectuur? Nee

2

Een veel voorkomende realiteit…

3

Maar ook architectuur moet toch agile zijn?

4

Ja, maar wat is AGILE ook al weer? (http://agilemanifesto.org/)

Manifesto for Agile Software Development

‘Individuals and interactions over processes and tools’:

‘Working software architecture over comprehensive documentation’:

‘Customer collaboration over contract negotiation’:

‘Responding to change over following a plan’:

That is, while there is value in the items onthe right, we value the items on the left more.

5

De meest belangrijke: Working software architecture

• Snel resultaten kunnen laten zien essentieel.– Door meer bouw te automatiseren.

– Verhoogt ook de kwaliteit

• Meerdere manieren van informatie producerentoelaten – Een verschillende snelheid van produceren

– Met verschillende niveaus van kwaliteit

– En verschillende governance modellen

6

Governance: bewegen tussen…

Systematisch

‘Geordend, volgens een vast of logisch patroon…’

EN

Opportunistisch

‘Als je je handelingen laat bepalen door dat waar je het meeste voordeel uit haalt’

Zie ook Ronald Damhof’s DQM

7

‘Een basaal plan, dat zich aan kan passen aan de vraag’

8

The Data Lake Library Manifesto - versie 1

In order to better serve the broad usage of data we need a ‘data first’ architecture.

The foundation of this will be a Data Library. In developing this we value:

https://www.linkedin.com/pulse/data-library-manifesto-drowning-lake-rogier-werschkull

9

The Data Library Manifesto-1

1. Cataloging data & preventing duplicates OVER dumping it in a cluttered closet.

2. Immediate data provenance OVER ‘we don’t need metadata right now…’

3. The potential of every source OVER ‘this XYZ system is what makes my company’

4. Having too much data now OVER having too little in retrospective

5. Being able to store incoming data directly OVER failing to squeeze it in a rigid structure straight away

10

The Data Library Manifesto-2

6. Storing all history OVER moaning about storage costs

7. Being flexible about data delivery / acceptance OVER ‘please comply with my 100 page SLA’

8. Original source data OVER sources that have already gone through processing steps

9. Verifying the bare data quality OVER ‘it is your problem now, user’

10. Supporting the further generic use of data OVER duplicating logic

That is, while there is value in the items onthe right, we value the items on the left more.

11

En verder…

• Dit zou de BASIS voor de architectuur eisen van een goed Data Lake kunnen zijn!

• Uit dit manifest kunnen functionals /non functionals voortvloeien vooreen concrete Data Architectuur die past bij de eigen organisatie

• Dan pas kijken naar technologische invulling

• En in relatie hiermee verder uitwerken naar ontwikkelstandaarden etc…

12

Samenvattend…

13

Tenslotte: Werkt een bibliotheek wel voor de Data Scientist?

14

De focus zal toch hier moeten liggen…

15

‘En hoe zit het met de bovenkant?’

16