igDataLab De Techniek van Big Data - BI-Podium...De techniek van Big Data: Agenda igDataLab Het is...
Transcript of igDataLab De Techniek van Big Data - BI-Podium...De techniek van Big Data: Agenda igDataLab Het is...
igDataLab
DeTechniekvanBigData
GerritSlot
BigDataLabB.V.
igDataLabDetechniekvanBigData:Agenda
HoekrijgjehettechnischvoorelkaarHetisgewoonBIalleenmetmeerdata
CMMenbeheersbaarheidIntegra@evanon-premisecompu@ngmetcloud
SchalenvantoepassingenGezondheidenouderenzorg
igDataLabEenkleinequiz:
• WiedenktdatBigDataomTECHNIEKgaat?
• WiedenktdatBigDataomDATAgaat?
• WiedenktdatBigDataoverMENSENgaat?
igDataLabAgendarevisited
• Hoezijnwijgekomenwaarwijzijn?• DebetekenisvanBigDatavooronsallemaal• DerolvantechniekinBigData• DegovernancevanBigData
igDataLabBelangrijke mijlpalen in de evolutie
igDataLabVuur
igDataLabGereedschap
igDataLabOrganisatie en infrastructuur
igDataLabCommunicatie
igDataLabKennisdeling
igDataLabStandaardisatie en industrialisatie
igDataLabGlobalisering
igDataLabDemocratisering
igDataLab
igDataLabDe consequentie van onze evolutie? DepiramidevanMaslow:
• BasisbehoeMesingevuld:• Wereldgezondheidwasnognooitzohoog• Wereldvoedselschaarstewasnognooitzolaag
• Bestaanszekerheidgaran@esdoor:• Democra@sering• Sociaalrechtsstelsel• Socialesolidariteit
• SocialebehoeMeswordensteedsmeeringevuld:• Socialecontactenwordenopwereldschaalonderhouden• KennisisnaarbehoeMebeschikbaar• Dewerkvloeriseensocialewerkplaats
• Erkenningwiejebent:• Discrimina@ewordthardbevochten• Ongelijkebehandelingvanmannenenvrouwenis“not-done”• Sexuelevoorkeurenzijninhetnieuws
igDataLabZelfontwikkelingstaatinbeginstadiumVelevragen:• WatiserkenningbijhetontstaanvanMachineIntelligen@e?• Hoezithetmetkennisdeling?• Standaardisa@ealseinddoel?• Watishetblijvendeffectvanglobaliseringendemocra@sering?• WatisderolvanKunstma@geintelligen@eenvirtualisa@e• DebetekenisvanBigData:Socialisa@eenHemelvaart(Ascension)?
igDataLabExponenAelegroeidoorstapeleffecten
igDataLabHoelangduurthetomdeAmsterdamArenAvoltelatenlopenalselkesecondehetaantaldruppelswaterverdubbelt?
28-10-2016
igDataLabWatbetekentBigData?
• Onzeinterac@eisveranderd• Directensimplificerend• Context,normenenwaardenzijnimpliciet
• Organiserendvermogenisexplosiefgegroeidengebaseerdop:• Verantwoordelijkheid• Delegeren• Vertrouwen
• Hetcreërenvanwaardeuitdatastaatcentraal• Ziepresenta@evanErwinenLevie
• Zoekdemenselijkheidineensamenlevingmetintelligentesystemen• Ziepresenta@evanJenny
igDataLabDe“stateoftheart”vanBigData• Steedscomplexerebouwblokken(switches,assembler,hogereprogrammeertalen,lisp,objec@veprogramming,nonlinearprogramming,neuralenetwerken)
• Domainspecificlanguages,Modeldrivenarchitecture/programming,SOA,Micro-services
• DevOpslanguages:automa@seringvandeautoma@sering(non-procedural(statedriven):puppet,ansible,andproceduralchef,salt)
• Databasetheorieen:• ACID• CAPtheorema• BASE
• Voortschrijdendestandaardisa@eenmogelijkheidvankennisdeling(sequen@alfile,dbms,rdbms,NoSQL:paradigmaGraphDatabases)
• Machinelearningendeeplearning(domain(a-)specificalgorithms)• Robo@caenIoT• Kunstma@geintelligen@e(IQ,EQenSQ)
igDataLabVeelData!Schaalbaarheid
(sources:RandyBias/EMC
igDataLabInvalshoek databases: CAP theorema
• Eisenvoorgedistribueerdedata:1. Consisten@ebehoud:naeen
opera@eisdatanogsteedsconsistent
2. Beschikbaarheid:dataisal@jdbeschikbaar
3. Par@@etoleran@e:bijonbetrouwbareverbindingenblijMhetsysteemfunc@oneren
28-10-2016
igDataLabACID vs BASE
ACID(RDBMS) BASE (NoSQL)Atomic BasicallyAvailable
Consistency SoMstate Isola@on EventualconsistencyDurable
VoorbeeldenvanBASEsystemen:BigTable,Cassandra,SimpleDB
igDataLabGoogle’ssolu@ons:Hadoop
igDataLabHDFS
HadoopDistributedFilesystem:
" Brengtdedatabijdenodediehetverwerkt
" Rela@vehighlatency" Notop@mizedforsmallfiles
igDataLabHDFS
HadoopDistributedFilesystem:
" canbedeployedoncommodityhardware" Sizecangrowon-the-flybyaddingnewnodes" op@mizedforstreaming(writeonce,readmany@mes)" faulttolerantbyreplica@ngdatan@mes(defaultn=3)
" Rela@vehighlatency" Notop@mizedforsmallfiles
igDataLabHDFSBlocks
• HDFSvolumeisdividedintoblocks.• Blocksizeissta@cbutconfigurable(default128Mb)
(source:HadoopforDummies)
igDataLabAanleiding MapReduce
• Hoekanjeeenveelheidvantakenparallelverdelen?• Googlevoorbeeld:“indexeerhetinternet”
1. Gaallewebsitesaf2. Iden@ficeerentelallewoordenperURL
3.GroepeerperwoordenvermelddeURL’swaarzetevindenzijn4.SorteerdeURL’sinvolgordevanaantal/belangrijkheid
“Map”
“Reduce”
igDataLabMapReduceworkflow
• Nogmeer
(source:DianaMacLean/AVeryBriefIntroduc@ontoMapReduce
igDataLabMapReducepros&cons
Pro
" Gemaaktvoorparallellisa@e
" Gebruiktdatalokaal" Robuust
Con
" Flinkeleercurvealsprogrammeeromgeving
" Startlangzaamop,flinkeoverhead
" Batch-processingonly
igDataLabVanHadoop1.0naar2.0Introduc@evanYARN
igDataLabHadoop: de toolkit
• Pig–verlaagtdeleercurvevoorMapReduce• ApacheHive–BrengtSQLnaarHDFS• Flume/Storm–Verwerkingvanreal@medata
• Ranger–DataManagement• Kerberos–Security• Spark–BrengtStreamingenSta@s@csnaarHadoop
28-10-2016
igDataLabApacheHiveWhatisHive?• ApacheHiveisadatawarehouseinfrastructurebuiltontopofHDFSthattranslatesSQLqueriesintoMapReducejobstotakeadvantageofHadoop’sdistributedprocessingcapabili@es.
WhyHive?• AllowsyoutousethestrengthsofHadoopthroughafamiliarinterface.
igDataLabApacheSparkWhatisSpark?• ApacheSparkisafastclustercompu@ngengineforlarge-scaledataprocessing
WhySpark?• In-memorydataprocessing(advantageforitera@veprocessing
• SparkStreaming©(supportforcon@nuousstreamprocessing)
igDataLabSparkperformance
igDataLabSparkcomponents
(source:TUMRABigDataScience)
igDataLabSpark:Detoekomst?
28-10-2016
(source:Datanami)
igDataLabErvaringenenresultatenmet“massiveparallelprocessing”
Detechnischetoolboxhebbenwijbesproken:• NoSQL• Hadoop• Spark
Daarnaastnognodig:• Ontwerpvanintelligentealgoritmenenmodellen(DataScien@sts)• DataWranglingtools• Visualisa@etools
Nognietbesprokenelementen:• Agileontwikkelmethodenhebbenhunwaardebewezen
• LeanenSCRUMopmicroniveau• Spo@fymodelopmacroniveau
• DevOps:BehoeMeaanautoma@seringvandeployment
igDataLabAgileontwikkelen:Scrummethode
28-10-2016
igDataLabSpoAfyorganisaAemodel
28-10-2016
igDataLabDevOps:Thesimpleview
28-10-2016
igDataLabDevOps:Everythingiscode(virtualisaAe)
28-10-2016
Autoscaling• Scaleup• Scaledown
igDataLabSamenva]ng:Hoekrijgjehetwerkend?• DeGovernancevanBigData
• Focusophetprobleemdatjegaatoplossenmetalsvoornaamstefactoren:• Bedrijfsmodel,• Concurren@eposi@e• Privacy,• Security,• IntegriteitenPR• Ziepresenta@evanErwinenLieve
• Hoemanagejededata?• Ziepresenta@eDonnaBurbank
• Voortbrengingsproces:Projectaanpakvolgensagilemethoden• 4fasen:
• Innova@e• Explora@e• Ontwikkeling• Produc@e
• Spo@fymodeloporganisa@eniveau• Scrumalsontwikkelmodel
igDataLabSamenva]ng:Hoekrijgjehetwerkend?• TechniekenAnaly@cszijnhulpmiddelen
• Geenprimairprocesbehalvewaardomeinkennisisvereist
• DataScienceiseennieuwe,opzichzelfstaandediscipline• Eigenspecialisa@es• Somsmetensomszonderdomeinkennis
• DataEngineeringontwikkelingengaanrazendsnel• Hetisingewikkeldomhetopera@oneeltehouden
• Hadoopclustersvoorbatchanalysezijnheeldynamischenkortlevend• Real-@meinrich@ngenzijnsta@schermitsautoma@schschalend• Securityinrich@ngiscomplex
• Houaanslui@ngbijdeOpenSourcecommunity• Buybeforemake
• StayAgile• Klacht:hetlandschapisverwarrendendatklopt.Hetzalvoorlopignietsimpelerworden• Distribu@eszijnnietallemaalhetzelfde
• HortonworksishetdichtstbijOpenSource• MapR,Cloudera,Azure,IBMbaserenzichopopensource
• Vendorsvoegenproprietaryelemententoe• Eenmooionderwerpvooreenanderekeer
28-10-2016
igDataLabLastbutnotleast:ScopeisEverything
28-10-2016