Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 ·...

34
Grid: van wetenschap naar e-Science David Groep, NIKHEF Graphics: Real Time Monitor, Gidon Moont, Imperial College London, see http://gridportal.hep.ph.ic.ac.uk/rtm/ Jan Just Keijser, Nikhef [email protected] Unix Professionals Lezing 4 Oktober 2010

Transcript of Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 ·...

Page 1: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Grid: van wetenschap naar e-Science

• David Groep, NIKHEF

Graphics: Real Time Monitor, Gidon Moont, Imperial College London, see http://gridportal.hep.ph.ic.ac.uk/rtm/

Jan Just Keijser, [email protected]

Unix Professionals Lezing4 Oktober 2010

Page 2: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

• Werkzaam in de ICT sinds 1989 (Pink Elephant!)• Vanaf 2005 in dienst bij Nikhef:

Nationaal Instituut voor Kern- en Hoge Energie Fysica

• Eerst als 'System Integrator' voor het VL-e project: Virtual Laboratory for e-Science

• Tegenwoordig 'Grid Systems Architect' voor het BiG Grid project

• BIG = 'Budget voor Investeringen in Grootschalige onderzoeksfaciliteiten'

• Gebruiker en voorstander van Open Source software sinds 1994

Voordat ik begin...

Page 3: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid
Page 4: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Slide courtesy: GridCafe.org and Bob Jones, EGEE (www.eu-egee.org)

Page 5: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

“If the customer calls it a grid, it is a grid”

Page 6: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

• De naam “Grid” is gekozen vanwege de analogie met het electriciteits- netwerk (“power grid”) (Foster & Kesselman 1997)

• Visie: “rekenkracht uit de muur”, net zoals je de stekker van een broodrooster in het stopcontact stopt

• Dit idee is al vrij oud:

‘distributed computing’,‘metacomputing’

• Gebaseerd op : ‘Web 2.0’, ‘Virtualisation’, ‘Cloud Computing’

Page 7: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Waarom hebben een Grid nodig?

Referentie: de Bijbel 5 MByte

X-ray image 5 MByte/image

Functional MRI 1 GByte/day

Bio-informatics databases 500 GByte elk

Refereed journal papers 1 TByte/jr

Satellite world imagery 5 TByte/jr

US Library of Congress 20 TByte

Internet Archive 1996-2002 100 TByte

Particle Physics 2005 1 PByte/jr

Particle Physics Today: LHC 20 PByte/jr

Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

meetgegevens per experiment neemt exponentieel toe

1 Petabyte = 1 000 000 000 Megabyte

Page 8: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Van wetenschap naar e-Science

• Het gebruik van computers en IT binnen experimenten neemt nog steeds toe

• Sommige experimenten zouden zonder computers niet eens mogelijk zijn

• Doordat IT een integraal onderdeel van het experiment wordt verandert het experiment zelf ook

Wetenschap wordt e-Science

Page 9: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

CERN, Where the web was born …

• Bij vorige HEP experimenten waren honderden wetenschappers en duizenden technici betrokken, lokaal en op afstand

• Gebruikers op het CERN, opgericht in 1954 als de eerste internationale organisatie in Europa, wilden wereldwijd gegevens met elkaar delen

• Deze behoefte bracht Tim Berners-Lee op het idee om het ‘World Wide Web’ te creëren in 1989/1990 (nu 20 jr geleden!)

Page 10: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

LHC Computing

Large Hadron Collider• ‘the worlds largest

microscope’

• Zoektocht naar de fundamentele bouwstenen van de natuurkunde

• 27 km omtrek

• CERN, Genèveatom

10-15 m

nucleus

quarks

~ 20 PByte data per jaar, ~ 60 000 moderne PCs

Page 11: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

De ATLAS detector

!

Page 12: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

• Signal/Background 10-9

• Data volume● (hoge frequentie) X

(groot aantal kanalen) X (4 experimenten)

20 PetaBytes nieuwe data per jaar

• Rekenkracht● (event complexiteit) X

(aantal events) X (duizenden gebruikers)

60.000 processoren

Concorde(15 Km)

Ballon(30 Km)

Stapel CDs met1 jaar LHC data!(~ 20 Km)

Mt. Blanc(4.8 Km)

Page 13: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

The GRID: networked data processing centres and ”middleware” software as the “glue” of resources (computers, disks, mass storage).

Work regardless of geographical location, interact with colleagues, share and access data

Scientific instruments, libraries and experiments provide huge amounts of data

based on: [email protected]

Voorbij het Web: Grids en e-Science

Page 14: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid
Page 15: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Hoe werkt het Grid?

• Gebaseerd op geavanceerde Grid Middleware

• Deze middleware zoekt automatisch de gegevens op die de wetenschapper nodig heeft, en de rekenkracht om deze gegevens te analyseren.

• De middleware verdeelt ook de taken over de verschillende resources en regelt de beveiliging, accounting, monitoring en nog veel meer.

Slide courtesy: GridCafe.org and Bob Jones, EGEE (www.eu-egee.org)

Page 16: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Grids in e-Science

Grid betekent ‘meer dan één'

Meer dan één computer

Meer dan één lokatie

Meer dan één wetenschapsgebied Meer dan …

Page 17: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Meer dan één organisatie

National Grid Initiatives & European Grid Initiative• Op nationaal niveau worden een grid infrastructuur aangeboden voor nationale

en internationale gebruikers door de NGI's• Het 'European Grid Initiative' coördineert de inspanningen van de verschillende

NGI's en bewaakt de interoperabiliteit• Circa 40 Europese NGI's aangesloten, met links naar Zuid Amerika en Taiwan• Hoofdkantoor van EGI staat op het Science Park in Amsterdam

Page 18: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Cross-domain en globale e-Science grids

De gemeenschappen die tezamen het grid vormen:• Worden niet centraal/hierarchisch beheerd,• Werken (tijdelijk) samen om een specifiek probleem op te lossen,• Nemen voor deze samenwerking (een deel van) hun resources mee,• En delen deze resources naar eigen inzicht en op hun eigen voorwaarden.

Page 19: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Grid Infrastructuur

Om deze doelen te realiseren is een persistente infrastructuur nodig, gebaseerd op standaarden

Hardwareclusters, supercomputers, databases, mass storage, visualisatie, netwerken

Softwareexecution services, workflow, resource information systems, database access, storage management, meta-data

Applicationsuser support, ICT experts met domein kennis

Beveiliging en AAA authentication, authorization, accounting, billing en beveiliging

Page 20: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Nikhef (NDPF)

2500 processor cores2000 TByte disk160 Gbps netwerk

SARA (GINA+LISA)

4800 processor cores1800 PByte disk2000 PByte tape160 Gbps netwerk

RUG-CIT (Grid)

120 processor cores8800 GByte disk10 Gbps netwerk

Philips Research Ehv

1600 processor cores100 TByte disk1 Gbps netwerk

Page 21: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Authenticatie: Grid certificates

• Grid infrastructuur maakt geen gebruik van usernames en passwords• Voor authenticatie wordt gebruik gemaakt van een Public Key Infrastructure (PKI)

met X.509 certificates: grid certificates• In Nederland worden grid certificaten uitgegeven en beheerd door DutchGrid:

• Enkele onderzoeksinstituten zijn aangesloten bij TERENA: Trans-European Research and Education Networking Association

• TERENA is een 'web of trust' waarbij aangesloten instituten elkaars logins vertrouwen

• Via de 'TERENA Online Certificate Store' wordt dan een (geautomatiseerd) vertaalslag gemaakt van de gebruikersnaam en wachtwoord van de medewerker van een instituur naar een grid certificate.

• Dit vergemakkelijkt het beheer van grid certificates aanzienlijk

Page 22: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Authenticatie: Grid proxies

• Soms is het nodig om login gegevens (credentials) door te geven aan een dienst• Gebruikers delegeren hun credentials met behulp van een grid proxy • Een grid proxy(RFC3820, RFC5820) is een “verwaterde” versie van een grid

certificaat met een zeer beperkte geldigheid (12 uur tot maximaal 1 week)• Een grid proxy wijkt een tikkeltje af van een normaal X.509 certificaat:

– Normaliter zijn alleen certificaten getekend door Certificate Authorities (CA's) geldig. Bij een grid proxy tekent de gebruiker zelf een nieuw, tijdelijk certificaat. De grid middleware moet hiermee overweg kunnen

– De naam van een grid proxy moet afgeleid zijn van de naam van het grid certifcaat van de gebruiker, bijv

subject  : /O=dutchgrid/O=users/O=nikhef/CN=Jan Just Keijser/CN=proxy

issuer   : /O=dutchgrid/O=users/O=nikhef/CN=Jan Just Keijser

identity : /O=dutchgrid/O=users/O=nikhef/CN=Jan Just Keijser

type     : full legacy globus proxy

strength : 1024 bits

path     : /tmp/x509up_u7651

timeleft : 11:59:40

Page 23: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Authenticatie: Robot certificaten

• Voor bepaalde diensten kunnen ook robot certificates gebruikt worden.• Gebruikers krijgen dan een gebruikersnaam en wachtwoord voor een Grid Portal• Deze portal maakt gebruik van een hardware security device voor de

authenticatie richting het grid• Hierbij worden alle gebruikers van de portal vertaald naar een enkel grid

certificate. Daarom mag slechts een beperkt aantal diensten (programma's) aangeboden worden via een portal

• Dutchgrid/Nikhef was één van de eerste organisaties die robot certificaten ondersteunen:

– Op basis van Aladdin eToken

– Beschikbaar voor Linux, Windows en Mac OS

– Zowel voor robot certificaten als voor gebruikers

Page 24: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Authorisatie: Virtual Organisations

• Om gebruik te maken van een grid infrastructuur dient een wetenschapper (gebruiker) lid te zijn van een Virtual Organisation (VO)

• VO's kunnen op nationale en internationale schaal bestaan• Internationale VO's:

– /atlas

– /lhcb

– /enmr.eu

– /ops

• Nationale VO's:

– /lsgrid

– /ncf

– /vlemed

• Binnen een VO bestaan meerdere rollen en groepen

– /Role=VO-admin  : voor VO administratie

– /Role=SGM : om software installaties uit te kunnen voeren

– /lsgrid/Nijmegen

– /lsgrid/Wageningen

Page 25: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Hoe draai ik een programma op het grid

Page 26: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Hoe draai ik een programma op het grid

NL

BE

UK

ComputeElement

Workload Management

System Grid cluster

1

Grid Information

System

Gebruiker delegeert credentials & submit job

Page 27: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Hoe draai ik een programma op het grid

NL

BE

UK

ComputeElement

Workload Management

System Grid cluster

Grid Information

System

2 3

WMS haalt info uit information system & “bemiddelt” voor de job

Page 28: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Hoe draai ik een programma op het grid

NL

BE

UK

ComputeElement

Workload Management

System Grid cluster

Grid Information

System

4

5

WMS stuurt job naar een siteCE stuurt job naar een lokaal cluster

Page 29: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Hoe draai ik een programma op het grid

NL

BE

UK

ComputeElement

Workload Management

System Grid cluster

Grid Information

System

7

6

8

Job status gaat terug naar CE, WMSGebruiker vraagt job status op en haalt output op

Page 30: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Virtual Laboratory for e-Science

Avian Alert en FlySafeWillem Bouten et al.UvA Institute for Biodiversity Ecosystem Dynamics, IBED

Data integration voor genomics, proteomics, etc.

analysisTimo Breit et al.Swammerdam

Institute ofLife Sciences

Medical Imaging en fMRISilvia Olabarriaga et al.AMC and UvA IvI

Molecular Cell Biology en 3D Electron Microscopy

Bram Koster et al.LUMC

Microscopic Imaging group

Image sources: VL-e Consortium Partners

Page 31: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

BiG GridImage sources: BiG Grid Consortium Partners

SCIAMACHYWim Som de Cerff et al.KNMI

LOFAR:LOw Frequency

ARray radio telescoopMPI Nijmegen:

Psycholinguistics

Page 32: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Uitdagingen: schaalvergroting

Grid betekent vooral schaalvergroting:• Gedistribueerd rekenen op vele, verschillende computers,• Gedistribueerde opslag van gegevens,• Grote hoeveelheden data (Giga-, Tera-, Petabytes)• Grote aantallen bestanden (miljoenen).

Dit levert “leuke” problemen op:• “even” inloggen op afstand is er op het grid niet altijd bij,• Het debuggen van een programma is een uitdaging,• Gewone filesystems verslikken zich in miljoenen bestanden,• Gegevens opslaan is één ding, gegevens zoeken en

terugvinden blijkt echter nog lastiger.

Page 33: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

Uitdagingen: beveiliging

Waarom is beveiliging zo belangrijk in een wetenschappelijk grid?

• Als beheerder van een grid site laat je toe dat relatief onbekenden programma's op jouw computers draaien,

• Al deze computers zijn verbonden aan het internet met supersnelle netwerken,

Hierdoor is het grid een potentieel erg gevaarlijke dienst op internet

Page 34: Grid: van wetenschap naar e-Sciencejanjust/presentations/UnixProfs... · 2010-10-04 · Wetenschappers hebben behoefte aan meer en meer rekenkracht en data-opslag. De hoeveelheid

http://www.biggrid.nl/http://www.nikhef.nl/grid/