Databases in hadoop
-
Upload
steven-goris -
Category
Software
-
view
164 -
download
0
Transcript of Databases in hadoop
Data opslaan op HBASE vs HDFS
HBASE
● Lage latency
● Snelle random lees- en schrijfoperaties
● Geeft snel toegang tot één enkele rij
HDFS
● Gemaakt voor batch processing
● Snelle sequentiële lees- en schrijfoperaties
HBase
Belangrijkste features
● Column family store
o Linear & modular scalability
o Automatic sharding & replication
o Versioning
● Automatic failover
● Werkt met HDFS als filesystem
● Hadoop integratie
Column family store
● Schema-less
● Scalability
● Cellen met lege waarden kunnen weggelaten worden
● family -- column name = key -- value
● Tabellen worden opgeslagen per column family
o ↳hierdoor moet bij queries op familie niet alles
worden gescand
o Kolommen kunnen één keer voorkomen per familie
● Families zorgen ervoor dat er verder gedenormaliseerd
kan worden dan in klassieke SQL
Column family storeOpslagformaat
Versioning
standaard worden 3 versies
bijgehouden,
geïdentificieerd met een
timestamp
Column family storeResultaat
rowid User:
name
User:
Social:
friend
Social:
friend
Social:
classmate
u1 Ricky [email protected] u10 u13
u2 Sam u10 u15
Opmerking: dubbele kolommen niet mogelijk in HBASE
➜ bij het toevoegen van een al bestaande kolom wordt de bestaande waarde
vervangen
HBase in HUE
● Column family storeo Per rij de kolommen en de celdata zelf
o Rows kunnen verschillen in kolommen
o Elke kolom heeft een familie
One row:
HStore
Beperkt aantal regions/
RegionServer (~100) om
werkgeheugen te sparen
(~2MB/family/region zonder
data)
HStore
HStore HStore
HStore HStore
HStore HStore
StartupMaster assigns regions to
regionservers
HStore HStore
HStore HStore
HStore HStore
HStore HStore
Automatic sharding
Regions worden gesplitst en
herverdeeld door de master
als ze te groot worden
Load balancing
Accumulo features
● Afkomstig van NSA
● Column family store
● Realtime analytics
● ACL (acces control list) op elke rijo Included in HBase 0.98
● User database voor authenticatieo Hbase: Kerberos (protocol using secret-key
cryptografie)
● Auto sharding
Apache Giraph
● Graph processing tool
● Map-only job in hadoop
● Alle berekeningen gebeuren in memory
PageRank
3. elke vertex telt de waardes die hij binnen
krijgt op, en dit wordt zijn nieuwe waarde
1
1,5
0,5
PageRank
n. dit wordt herhaald tot dat de wijzigingen
aan de PageRank zo klein is dat het niet meer
uitmaakt
PageRank met MapReduce
● sorteert bij elke iteratie al de vertexes
● schrijft elke iteratie weg naar de harde schijf
● en leest ze dan weer in...