PhD presentation

53
Herconfigureerbare optische interconnectie-netwerken voor multiprocessor-architecturen met gedeeld geheugen Wim Heirman Promotoren: prof. Jan Van Campenhout en prof. Dirk Stroobandt Publieke doctoraatsverdediging – 9 juli 2008

Transcript of PhD presentation

Page 1: PhD presentation

Herconfigureerbare optische interconnectie-netwerken voor

multiprocessor-architecturen met gedeeld geheugen

Wim HeirmanPromotoren: prof. Jan Van Campenhout

en prof. Dirk Stroobandt

Publieke doctoraatsverdediging – 9 juli 2008

Page 2: PhD presentation

2

Enkele jaren terug…‘computer’: iemand die berekeningen uitvoert

Page 3: PhD presentation

3

Sneller resultaten: parallellisme

• Meerdere mensen werken tegelijk (in parallel) samen aan één taak

Page 4: PhD presentation

4

Communicatie: dichtste buur• Communicatie van invoergegevens,

tussenresultaten, …

Page 5: PhD presentation

5

Communicatie: lange afstand

?

• Lange-afstandscommunicatie: via tussenstappen

Page 6: PhD presentation

6

Communicatie: directe verbindingen

• Met meer technologie: (beperkt aantal) directe verbindingen

Page 7: PhD presentation

Communicatie beperkt prestaties

• Meerdere rekenaars nodig voor voldoende prestaties

• Communicatie beperkt prestaties– Trage communicatie = lange wachttijd

voordat het resultaat beschikbaar is– Deelname in communicatie van anderen

• Meer rekenaars = kleinere deelproblemen = meer communicatie = meer vertraging…

7parallellismepr

esta

ties

Page 8: PhD presentation

Computers worden steeds sneller

• Gebruiker wil meer details in games, betere weersvoorspellingen

• Processor (rekeneenheid) wordt sneller: meer bewerkingen (+, -, ×, ÷, …) per seconde

8

Page 9: PhD presentation

9

Nood aan parallelle verwerking

• Sinds 1960: één enkele processor niet genoeg voor sommige toepassingen

• Supercomputers: Cray, SGI, IBM (weersvoorspelling, fysische simulaties)

• Servers: IBM, Sun (Internet servers, databanken)

Page 10: PhD presentation

10

Nood aan parallelle verwerking

• 2005: mogelijke verbeteringen per processor raken uitgeput, hogere prestatie enkel nog mogelijk met meerdere processors

• Multicore: meerdere processors op één chip (Intel Core2 Duo)

• Multiprocessing– nu: desktops, laptops– straks: PDA’s, GSM’s, …

Page 11: PhD presentation

11

Het communicatienetwerkProcessoren en geheugenelementen, verbonden via een communicatienetwerk

Communicatienetwerk

CPU MEM

NetIFCPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

Page 12: PhD presentation

12

Netwerktopologie

boom rooster

• All-to-all technologisch niet mogelijk• Beperkt aantal ‘buren’ per processor• Vorm van het netwerk (‘topologie’):

vaste, regelmatige structuur

Page 13: PhD presentation

13

Gedeeld geheugen: de ‘netwerkkloof’

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

Netwerk maakt deel uit van de geheugenhiërarchie

cache

instructie: 0.5 nscache: 5 ns

DDR: 50 ns

netwerk: 500 ns

Enorme prestatie-invloed van niet-uniforme toegangstijd

Moeilijk door de programmeur in te schatten!

Page 14: PhD presentation

14

Communicatiepatronenkunnen sterk verschillen

Tussen programma’s onderlingweersvoorspelling:

dichtse buurgalactische simulatie:

all-to-all

Page 15: PhD presentation

15

Communicatiepatronenkunnen sterk verschillen

Tijdens één programmaFast Fourrier Transform: variabel

Page 16: PhD presentation

16

NetwerkvereistenNiet-uniforme belasting in tijd en ruimte

Kunnen we het netwerk op elk moment aanpassen aan het huidige verkeerspatroon?

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

time

load

Link #6

time

load

Link #10

time

load

Link #28

Page 17: PhD presentation

Onderzoeksvraag

Hoe kunnen we een herconfigureerbaar netwerk maken, en welke prestaties

kunnen we hiervan verwachten?

17

• De optimale topologie hangt af van het communicatiepatroon

• Communicatiepatroon verandert (tussen applicaties, tijdens één applicatie)

• Binnen de context van herconfigureerbare optische verbindingen met bestaande en verwachte componenten

Page 18: PhD presentation

18

Optische verbindingen• Nu: elektrische verbindingen

over koper• Nieuwe toepassingen

vereisen steeds meer bandbreedte

• Elektrische verbinding: meer vermogen nodig voor hoge bandbreedte / lange afstand

• Alternatief: overdracht van gegevens via licht

Page 19: PhD presentation

19

• Verliezen nagenoeg onafhankelijk van de lengte en de bandbreedte

• Nodige conversiestappen:

Optische verbindingen in elektronische systemen

elektrischelektrisch

laser fotodiodeoptisch

Page 20: PhD presentation

20

Optisch of elektrisch?

Cho, H., Kapur, P., and Saraswat, K. C. (2004). Power comparison between high-speed electrical and optical interconnects for interchip communication. IEEE/OSA Journal of Lightwave Technology, 22(9):2021–2033.

Page 21: PhD presentation

21

Optische communicatie: over steeds kortere

afstanden

©2005 IBM

Page 22: PhD presentation

22

Optische herconfiguratie

WDM (golflengtemultiplexering)– tunable lasers / selective detectors– passive broadcast elementA

B

C

A

B

C

x

C A

A B

B C

B A

C B

A C

Page 23: PhD presentation

23

Optische herconfigureerbare componenten

optische crossbar(photonic crystal)

MEMSswitches

afstembare VCSEL laser

Page 24: PhD presentation

24

Mogelijke implementatie met goedkope componenten

CPU 1

CPU 2

...

CPU n

Broadcast element

Fiber Links

Processor nodes

Tunable lasers

CPU 1

CPU 2

...

CPU n

Photodetectors

‘Selectief’ broadcast element (VUB/TONA)

1-naar-9 broadcast: elke knoop maakt 1 extra verbinding, keuze uit 9 bestemmingen

I. Artundo, L. Desmet, W. Heirman, C. Debaes, J. Dambre, J. Van Campenhout, H. Thienpont. Selective Optical Broadcast Component for Reconfigurable Multiprocessor Interconnects. IEEE Journal on Selected Topics in Quantum Electronics: Special Issue on Optical Communication. Vol. 12 (4). 2006.

Page 25: PhD presentation

25

Bijdragen van dit werk

• Een herconfigureerbare netwerkarchitectuur

• Methoden voor snellere evaluatie• Prestatie-evaluatie

Page 26: PhD presentation

26

Herconfigureerbare optische netwerken

• Herconfigureerbaar optisch netwerk past zich aan doorheen de tijd– Aan de verkeerspatronen

van verschillende applicaties– Aan de verschillende patronen

binnen één programma• Vrije parameters:

– Mogelijke topologieën– Herconfiguratiesnelheid

Page 27: PhD presentation

27

Extra verbindingen: de ‘mobiele brigade’

• Vast basisnetwerk, + extra verbindingen

• Basisconnectiviteit, gegarandeerde prestatie

• Extra bandbreedte waar/wanneer nodig, ‘kortere’ verbindingen (minder tussenknopen)

• Eenvoudige routering, configuratie

Page 28: PhD presentation

28

Tijdsschaal van herconfiguratie

1 ns 1 μs 1 ms 1 s

(goedkope) componenten

1 vraag+antwoord

patronen binnen programma’s

verschillende programma’s

Page 29: PhD presentation

29

Transparante herconfiguratie

tijd

Opmeten netwerkverkeer

Topologie bepalenHerconfiguratieNuttig gebruikvan de nieuwe

configuratieTopologie bepalen

Herconfiguratie

Opmeten netwerkverkeer

Nuttig gebruikvan de nieuwe

configuratie

herc

onfig

urat

ie-in

terv

al

herconfiguratie-interval

lokaliteit in netwerkverkeer

selectie- en herconfiguratietijden« «

Selectietijd (algoritme, rekenkracht)Herconfiguratietijd (componenten)

Page 30: PhD presentation

30

Evaluatiemethodiek

Onderzoek op systeemniveau:– Specifieke eigenschappen hardware nog

niet gekend– Wel: nuttige eigenschappen voor onze

toepassing bepalen, resultaten terugkoppelen naar onderzoek naar de componenten

+ 1 implementatie (selectieve broadcast)

Page 31: PhD presentation

31

Nood aan snelle evaluatie• Wat is de prestatie van elk netwerk?• Gedetailleerde simulatie: uren/dagen• De ontwerpruimte: combinatie van

technologieën, componenten, parameterwaarden

• ‘Exploratie van de ontwerpruimte’: snel evalueren welke combinaties voordelig zijn, gegeven de prestatievereisten en de te verwachten werklast

• Zéér veel mogelijke combinaties…

Page 32: PhD presentation

32

Parameters

cpu_speedcpu_ooo

l1d_size

l1d_assoc

l1i_hit_latencyl1i_size

l1i_assoc

l1d_hit_latency

l2_size

l2_assoc

l2_hit_latency

dir_linesize

dir_latencydir_alloc

dir_interleave l1_wb

net_flitsize

net_flitdelay

net_routerdelay

net_topology

reconf_interval

reconf_fanout

reconf_n_elinks

cpu_count

Page 33: PhD presentation

33

Methodes voor snelle evaluatie

• Bestaande methodes voor snelle netwerkevaluatie:– sterke vereenvoudiging van het

netwerkverkeer– ‘trage dynamica’ wordt meestal

weggelaten– maar dat is juist waarop

herconfiguratie steunt• Nood aan nieuwe methodes!

Page 34: PhD presentation

34

Bijdragen van dit werk

• Een herconfigureerbare netwerkarchitectuur

• Methoden voor snellere evaluatie• Prestatie-evaluatie

Page 35: PhD presentation

35

Prestatieschatteréén gedetailleerde

simulatiecommunicatiepatroon

Pres

tatie

scha

tter

Bepaal posities extra verbindingen

Schat geheugen-toegangstijden

Voorspel prestatie

voor elkeparameter-combinatie

Bepaal posities extra verbindingen

Schat geheugen-toegangstijden

Voorspel prestatie

(uren)

(minuten)

W. Heirman, J. Dambre, I. Artundo, C. Debaes, H. Thienpont, D. Stroobandt, J. Van Campenhout. Predicting the performance of reconfigurable optical interconnects in distributed shared-memory systems. Photonic Network Communications. Vol. 15 (1). 2008.

Page 36: PhD presentation

36

PrestatieschatterBepaal posities van extra verbindingen

Parameters: herconfiguratie-interval (Δt), aantal extra verbindingen (n), plaatsingsalgoritme

tijd

Δt = 1n = 2

Δt = 2n = 3

Page 37: PhD presentation

37

PrestatieschatterSchat de nieuwe

geheugentoegangstijden

Geen verandering Verminderdetoegangstijd

Page 38: PhD presentation

0%2%4%6%8%

10%12%14%16%18%20%

Netwerktype (n = 2, 4, 8, prisma)

Pres

tatie

verb

eter

ing

Gemeten Geschat Gecalibreerd 38

PrestatieschatterVoornamelijk relatieve

nauwkeurigheid,voor het vergelijken van netwerken

100 μs 1 ms 10 ms

Page 39: PhD presentation

39

Congestiemodel• Congestie: wachttijden

wanneer meerdere processors één verbinding tegelijk willen gebruiken

• Toevoegen van verbindingen beïnvloedt congestie!

• 2e prestatiemodel brengt dit effect in rekeningW. Heirman, J. Dambre, J. Van Campenhout. Congestion Modeling for

Reconfigurable Inter-Processor Networks. Proceedings of the 2006 International Workshop on System Level Interconnect Prediction (SLIP). 2006.

Page 40: PhD presentation

40

Model van het netwerk:wachtrijen en servicestations

Netwerkknoop

XLink

Link

Link

• Netwerkknopen bevatten buffers (wachttijen)

• Verbindingen verzorgen de ‘service’: verzending over een traag kanaal

• Wachtlijntheorie voorspelt de wachttijden

Σtotaletransmissietijd

Page 41: PhD presentation

41

Congestiemodel

020406080

100120140160180

geen 4 8 12 16

Aantal extra verbindingen

Gem

idde

lde

wac

httij

d

Gemeten Geschat

Page 42: PhD presentation

42

Synthetisch netwerkverkeer• Laat toe alle netwerkeigenschappen te evalueren• Evenaart het gedrag van echt netwerkverkeer• Zonder de complexiteit van het simuleren van de

applicatie, OS, processors, caches, …

ApplicationOSCPU

Caches

Reconfigurablenetwork

netwerkverkeer

simulator

Synthetictraffic generator

Reconfigurablenetwork

simulator

simulatietijd ÷10

W. Heirman, J. Dambre, J. Van Campenhout. Synthetic Traffic Generation as a Tool for Dynamic Interconnect Evaluation. Proceedings of the 2007 International Workshop on System Level Interconnect Prediction (SLIP). 2007.

Page 43: PhD presentation

43

Generatie van realistisch synthetisch netwerkverkeer

• Eén volledige simulatie• Verkeersprofiel wordt

vele keren herbruikt

ApplicationOSCPU

CachesSynthetic

traffic generator

Reconfigurablenetwork

netwerkverkeer

Parameterextractie

Statistisch profiel

×1 ×n

Page 44: PhD presentation

44

Synthetisch netwerkverkeer: resultaten

150170190210230250270290310

geen 2 4 8 prisma

Aantal extra verbindingen

Gem

idde

lde

toeg

angs

tijd

Gemeten Geschat

Page 45: PhD presentation

45

Synthetisch netwerkverkeer: variabiliteit bij kortere

simulaties

trace-driven +profiling* exec-driven* assuming traffic profile is re-used 100 times

synthetisch verkeer volledige simulatie

Page 46: PhD presentation

46

Evaluatiemethodes

snelheid

nauwkeurigheid

prestatieschatter

synthetisch netwerkverkeercongestiemodel

simulatie

Scala aan methodes met verschillende afweging in snelheid vs. nauwkeurigheid

Page 47: PhD presentation

47

Bijdragen van dit werk

• Een herconfigureerbare netwerkarchitectuur

• Methoden voor snellere evaluatie• Prestatie-evaluatie

Page 48: PhD presentation

48

Case-study: selectieve broadcast

• Prestatie van de implementatie met selectieve broadcast (i.s.m. VUB)

• Invloed van de technologische beperkingen?

• Evaluatie met eigen technieken

W. Heirman, I. Artundo, L. Desmet, J. Dambre, C. Debaes, H. Thienpont, J. Van Campenhout. Speeding up multiprocessor machines with reconfigurable optical interconnects. Proceedings of SPIE, Optoelectronic Integrated Circuits VIII, Photonics West. Vol. 6124. 2006.

Page 49: PhD presentation

Case-study: selectieve broadcast

• 16 processors, 16 extra verbindingen

• Technologische beperkingen:– Slechts 1 extra verbinding per

processor– Volledige vs. selectieve broadcast– Lengte van het herconfiguratie-

interval

400

500

600

700

800

900

1000

Basis Willekeurig Fanout=1 Selectief (1 ms) Selectief (10 ms)

Gem

idde

lde

toeg

angs

tijd

49

Page 50: PhD presentation

50

1

10

100

1000

1000

0 24

816

320%

10%

20%

30%

40%

50%

60%

Pres

tatie

verb

eter

ing

Herconfiguratie-interval (μs)

Aantalextra

verbindingen

Exploratie van de ontwerpruimte met

synthetisch netwerkverkeer

W. Heirman, I. Artundo, J. Dambre, C. Debaes, T. Pham Doan, K. Bui Viet,

H. Thienpont, J. Van Campenhout. Performance Evaluation of Large Reconfigurable Interconnects for Multiprocessor Systems. Proceedings of the International Symposium on Electrical - Electronics Engineering (ISEE). 2007.

Page 51: PhD presentation

51

Herconfigureerbare netwerken: toekomst

• Optische verbindingen worden verwacht binnen enkele jaren

• Mogelijks reeds aanwezige herconfiguratie (bv. foutrobuustheid) nuttig te gebruiken

• ‘Trage’ herconfiguratie, met reeds aanwezige componenten, geeft goedkope prestatiewinst

Page 52: PhD presentation

52

Herconfigureerbare netwerken: verder

onderzoek• Nu toegepast op ‘gedeeld geheugen’ (impliciete communicatie) en ‘transparante’ herconfiguratie

• Wat als de programmeur/compiler controle krijgt over herconfiguratie?

• ‘Snelle’ herconfiguratie met nieuwe componenten

• Toepassingsmogelijkheden in andere architecturen (videokaarten, spelconsoles, …)

Page 53: PhD presentation

Herconfigureerbare optische interconnectie-netwerken voor

multiprocessor-architecturen met gedeeld geheugen

Wim HeirmanPromotoren: prof. Jan Van Campenhout

en prof. Dirk Stroobandt

Publieke doctoraatsverdediging – 9 juli 2008