Hadoop voor niet-technici

22
SARA Reken- en Netwerk Diensten 13-09-11 Heel snel klaar Met heel veel data Evert Lammerts, eScience & Cloud Services

description

(This one's in Dutch!)Deze presentatie geeft een overzicht van Hadoop voor niet-technici.

Transcript of Hadoop voor niet-technici

Page 1: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Heel snel klaarMet heel veel data

Evert Lammerts, eScience & Cloud Services

Page 2: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Er was eens...… een bedrijf met de ambitie het hele internet te indexeren… snel… en goedkoop

Er dus bedachten zij...… een systeem waarmee dat kan… MapReduce en het Google File System… en schreven er over (S. Ghemawat et al., 2004)

Page 3: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

In 2006, zonder veel lawaai...… was Doug Cutting klaar met de eerste OS implementatie… voor de crawler van de Apache Nutch zoekmachine

En het ging snel...… toen Yahoo! Doug Cutting in dienst nam… het Apache Hadoop project uit Nutch voortkwam… en het systeem in 2008 schaalde naar Petabytes data

Page 4: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

In 2009: Winnaar Jim Gray's Sort

Page 5: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

In 2011: Winnaar Jeopardy!

Page 6: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

En wat blijkt?

Het voldoet ook voor anderen!

Page 7: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Daar komt ook...

… de academische wereld achter!… al dan niet schoorvoetend

… langzaam maar zeker...

Page 8: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Hadoop blijkt namelijk...

… een nuttige aanvulling… op bestaande rekeninfrastructuur

… vanwege haar rekenmodel en bestandssysteem… dat data parallelisme zelf regelt… dat erg goed is in I/O intensieve rekentaken… en dat bijzonder tolerant is t.o.v. fouten

Page 9: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Page 10: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Data parallelisme is wanneer...

En taak parallelisme is wanneer...… processoren samenwerken… om een enkele taak te voltooien

… processoren tegelijkertijd dezelfde taak uitvoeren… met andere parameters

Page 11: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Het Hadoop DFS...

En MapReduce...… kan een bestand dan verwerken… door op elk van die nodes… dezelfde taak uit te voeren

… faciliteert data parallelisme… door elk bestand op te knippen in X blokken… en al die blokken te distribueren over verschillende nodes

Page 12: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Zoiets dus...

En dit is echt anders...… want ineens is daar data lokaliteit… en ingebakken parallelisme… wat door MapReduce weer gebruikt wordt

Page 13: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Want we doen het niet zo...

Page 14: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Dat heeft als voordeel...

Bovendien is dit kosten-efficient...… want er is geen dure netwerk apparatuur nodig… en daarbij is Hadoop fout tolerant… en dus zijn er geen dure redundantie mechanismen nodig

… dat er geen data over het netwerk hoeft… en dus is de I/O snelheid gelijk aan dat van de disks… en je weet altijd hoeveel blokken er zijn… dus is de graad van parallelisme makkelijk te bepalen

Page 15: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Maar de wereld is groter...

… zo is er bijvoorbeeld...… Apache Hbase, een in-memory key / value store… Apache Pig, om queries uit te voeren… Giraph, voor graph processing… HCatalog, table and storage management… Oozie, a workflow manager

… want er zijn allemaal leuke tools ontwikkeld… die weer allemaal met Hadoop werken

Page 16: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Wat verder bijzonder is...

Wat je daar mee kan...… is applicaties bouwen die met het system praten… vanaf een client computer, of een server… en dat is dan weer eScience… toch?

… zijn de Hadoop APIs… die stabiel zijn… en goed onderhouden worden, met versioning en al,… en dat is in onze wereld wel heel erg nieuw

Page 17: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Page 18: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

En wij doen mee...

Met daarbij...… Apache Pig… Hive… Hbase (in test)… Hue

… sinds december 2010, met een prototype cluster… van zes nodes… met 20 cores voor MapReduce… en 100 TB voor HDFS

Page 19: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Page 20: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Dit doen mensen uit...

Wat ze dan doen is...… allerlei kwantitatieve methoden toepassen… op ongestructureerde teksten met natuurlijke taal… op sensordata… op semi-gestructureerde informatie (tags e.d.)… op grafisch materiaal (video's en foto's)

… de sociale wetenschappen… de informatica… de econometrie

Page 21: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Hoe we nu verder gaan...

En dan gaan we...… een service neerzetten met een aantal extensies… als Hbase, Pig, Giraph, Oozie en Hive… en we ontwikkelen mee aan Hadoop zelf… en aan applicaties daarop

… is via BiG Grid… met een nieuw cluster… met 528 cores en 528 TB… hopelijk vanaf januari

Page 22: Hadoop voor niet-technici

SARA Reken- en Netwerk Diensten 13-09-11

Maar om te beginnen...

En uiteindelijk...… rekenen we nog lang en gelukkig

… organiseren we 30 november een twee daagse cursus… met SIKS, en Jimmy Lin, als het meezit… en gaan we de bioinformatici te helpen met Biodoop… en moet er weer een hackathon komen