PhD presentation

Post on 16-Apr-2017

1.137 views 0 download

Transcript of PhD presentation

Herconfigureerbare optische interconnectie-netwerken voor

multiprocessor-architecturen met gedeeld geheugen

Wim HeirmanPromotoren: prof. Jan Van Campenhout

en prof. Dirk Stroobandt

Publieke doctoraatsverdediging – 9 juli 2008

2

Enkele jaren terug…‘computer’: iemand die berekeningen uitvoert

3

Sneller resultaten: parallellisme

• Meerdere mensen werken tegelijk (in parallel) samen aan één taak

4

Communicatie: dichtste buur• Communicatie van invoergegevens,

tussenresultaten, …

5

Communicatie: lange afstand

?

• Lange-afstandscommunicatie: via tussenstappen

6

Communicatie: directe verbindingen

• Met meer technologie: (beperkt aantal) directe verbindingen

Communicatie beperkt prestaties

• Meerdere rekenaars nodig voor voldoende prestaties

• Communicatie beperkt prestaties– Trage communicatie = lange wachttijd

voordat het resultaat beschikbaar is– Deelname in communicatie van anderen

• Meer rekenaars = kleinere deelproblemen = meer communicatie = meer vertraging…

7parallellismepr

esta

ties

Computers worden steeds sneller

• Gebruiker wil meer details in games, betere weersvoorspellingen

• Processor (rekeneenheid) wordt sneller: meer bewerkingen (+, -, ×, ÷, …) per seconde

8

9

Nood aan parallelle verwerking

• Sinds 1960: één enkele processor niet genoeg voor sommige toepassingen

• Supercomputers: Cray, SGI, IBM (weersvoorspelling, fysische simulaties)

• Servers: IBM, Sun (Internet servers, databanken)

10

Nood aan parallelle verwerking

• 2005: mogelijke verbeteringen per processor raken uitgeput, hogere prestatie enkel nog mogelijk met meerdere processors

• Multicore: meerdere processors op één chip (Intel Core2 Duo)

• Multiprocessing– nu: desktops, laptops– straks: PDA’s, GSM’s, …

11

Het communicatienetwerkProcessoren en geheugenelementen, verbonden via een communicatienetwerk

Communicatienetwerk

CPU MEM

NetIFCPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

12

Netwerktopologie

boom rooster

• All-to-all technologisch niet mogelijk• Beperkt aantal ‘buren’ per processor• Vorm van het netwerk (‘topologie’):

vaste, regelmatige structuur

13

Gedeeld geheugen: de ‘netwerkkloof’

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

CPU MEM

NetIF

Netwerk maakt deel uit van de geheugenhiërarchie

cache

instructie: 0.5 nscache: 5 ns

DDR: 50 ns

netwerk: 500 ns

Enorme prestatie-invloed van niet-uniforme toegangstijd

Moeilijk door de programmeur in te schatten!

14

Communicatiepatronenkunnen sterk verschillen

Tussen programma’s onderlingweersvoorspelling:

dichtse buurgalactische simulatie:

all-to-all

15

Communicatiepatronenkunnen sterk verschillen

Tijdens één programmaFast Fourrier Transform: variabel

16

NetwerkvereistenNiet-uniforme belasting in tijd en ruimte

Kunnen we het netwerk op elk moment aanpassen aan het huidige verkeerspatroon?

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

CPU MEMNetIF

time

load

Link #6

time

load

Link #10

time

load

Link #28

Onderzoeksvraag

Hoe kunnen we een herconfigureerbaar netwerk maken, en welke prestaties

kunnen we hiervan verwachten?

17

• De optimale topologie hangt af van het communicatiepatroon

• Communicatiepatroon verandert (tussen applicaties, tijdens één applicatie)

• Binnen de context van herconfigureerbare optische verbindingen met bestaande en verwachte componenten

18

Optische verbindingen• Nu: elektrische verbindingen

over koper• Nieuwe toepassingen

vereisen steeds meer bandbreedte

• Elektrische verbinding: meer vermogen nodig voor hoge bandbreedte / lange afstand

• Alternatief: overdracht van gegevens via licht

19

• Verliezen nagenoeg onafhankelijk van de lengte en de bandbreedte

• Nodige conversiestappen:

Optische verbindingen in elektronische systemen

elektrischelektrisch

laser fotodiodeoptisch

20

Optisch of elektrisch?

Cho, H., Kapur, P., and Saraswat, K. C. (2004). Power comparison between high-speed electrical and optical interconnects for interchip communication. IEEE/OSA Journal of Lightwave Technology, 22(9):2021–2033.

21

Optische communicatie: over steeds kortere

afstanden

©2005 IBM

22

Optische herconfiguratie

WDM (golflengtemultiplexering)– tunable lasers / selective detectors– passive broadcast elementA

B

C

A

B

C

x

C A

A B

B C

B A

C B

A C

23

Optische herconfigureerbare componenten

optische crossbar(photonic crystal)

MEMSswitches

afstembare VCSEL laser

24

Mogelijke implementatie met goedkope componenten

CPU 1

CPU 2

...

CPU n

Broadcast element

Fiber Links

Processor nodes

Tunable lasers

CPU 1

CPU 2

...

CPU n

Photodetectors

‘Selectief’ broadcast element (VUB/TONA)

1-naar-9 broadcast: elke knoop maakt 1 extra verbinding, keuze uit 9 bestemmingen

I. Artundo, L. Desmet, W. Heirman, C. Debaes, J. Dambre, J. Van Campenhout, H. Thienpont. Selective Optical Broadcast Component for Reconfigurable Multiprocessor Interconnects. IEEE Journal on Selected Topics in Quantum Electronics: Special Issue on Optical Communication. Vol. 12 (4). 2006.

25

Bijdragen van dit werk

• Een herconfigureerbare netwerkarchitectuur

• Methoden voor snellere evaluatie• Prestatie-evaluatie

26

Herconfigureerbare optische netwerken

• Herconfigureerbaar optisch netwerk past zich aan doorheen de tijd– Aan de verkeerspatronen

van verschillende applicaties– Aan de verschillende patronen

binnen één programma• Vrije parameters:

– Mogelijke topologieën– Herconfiguratiesnelheid

27

Extra verbindingen: de ‘mobiele brigade’

• Vast basisnetwerk, + extra verbindingen

• Basisconnectiviteit, gegarandeerde prestatie

• Extra bandbreedte waar/wanneer nodig, ‘kortere’ verbindingen (minder tussenknopen)

• Eenvoudige routering, configuratie

28

Tijdsschaal van herconfiguratie

1 ns 1 μs 1 ms 1 s

(goedkope) componenten

1 vraag+antwoord

patronen binnen programma’s

verschillende programma’s

29

Transparante herconfiguratie

tijd

Opmeten netwerkverkeer

Topologie bepalenHerconfiguratieNuttig gebruikvan de nieuwe

configuratieTopologie bepalen

Herconfiguratie

Opmeten netwerkverkeer

Nuttig gebruikvan de nieuwe

configuratie

herc

onfig

urat

ie-in

terv

al

herconfiguratie-interval

lokaliteit in netwerkverkeer

selectie- en herconfiguratietijden« «

Selectietijd (algoritme, rekenkracht)Herconfiguratietijd (componenten)

30

Evaluatiemethodiek

Onderzoek op systeemniveau:– Specifieke eigenschappen hardware nog

niet gekend– Wel: nuttige eigenschappen voor onze

toepassing bepalen, resultaten terugkoppelen naar onderzoek naar de componenten

+ 1 implementatie (selectieve broadcast)

31

Nood aan snelle evaluatie• Wat is de prestatie van elk netwerk?• Gedetailleerde simulatie: uren/dagen• De ontwerpruimte: combinatie van

technologieën, componenten, parameterwaarden

• ‘Exploratie van de ontwerpruimte’: snel evalueren welke combinaties voordelig zijn, gegeven de prestatievereisten en de te verwachten werklast

• Zéér veel mogelijke combinaties…

32

Parameters

cpu_speedcpu_ooo

l1d_size

l1d_assoc

l1i_hit_latencyl1i_size

l1i_assoc

l1d_hit_latency

l2_size

l2_assoc

l2_hit_latency

dir_linesize

dir_latencydir_alloc

dir_interleave l1_wb

net_flitsize

net_flitdelay

net_routerdelay

net_topology

reconf_interval

reconf_fanout

reconf_n_elinks

cpu_count

33

Methodes voor snelle evaluatie

• Bestaande methodes voor snelle netwerkevaluatie:– sterke vereenvoudiging van het

netwerkverkeer– ‘trage dynamica’ wordt meestal

weggelaten– maar dat is juist waarop

herconfiguratie steunt• Nood aan nieuwe methodes!

34

Bijdragen van dit werk

• Een herconfigureerbare netwerkarchitectuur

• Methoden voor snellere evaluatie• Prestatie-evaluatie

35

Prestatieschatteréén gedetailleerde

simulatiecommunicatiepatroon

Pres

tatie

scha

tter

Bepaal posities extra verbindingen

Schat geheugen-toegangstijden

Voorspel prestatie

voor elkeparameter-combinatie

Bepaal posities extra verbindingen

Schat geheugen-toegangstijden

Voorspel prestatie

(uren)

(minuten)

W. Heirman, J. Dambre, I. Artundo, C. Debaes, H. Thienpont, D. Stroobandt, J. Van Campenhout. Predicting the performance of reconfigurable optical interconnects in distributed shared-memory systems. Photonic Network Communications. Vol. 15 (1). 2008.

36

PrestatieschatterBepaal posities van extra verbindingen

Parameters: herconfiguratie-interval (Δt), aantal extra verbindingen (n), plaatsingsalgoritme

tijd

Δt = 1n = 2

Δt = 2n = 3

37

PrestatieschatterSchat de nieuwe

geheugentoegangstijden

Geen verandering Verminderdetoegangstijd

0%2%4%6%8%

10%12%14%16%18%20%

Netwerktype (n = 2, 4, 8, prisma)

Pres

tatie

verb

eter

ing

Gemeten Geschat Gecalibreerd 38

PrestatieschatterVoornamelijk relatieve

nauwkeurigheid,voor het vergelijken van netwerken

100 μs 1 ms 10 ms

39

Congestiemodel• Congestie: wachttijden

wanneer meerdere processors één verbinding tegelijk willen gebruiken

• Toevoegen van verbindingen beïnvloedt congestie!

• 2e prestatiemodel brengt dit effect in rekeningW. Heirman, J. Dambre, J. Van Campenhout. Congestion Modeling for

Reconfigurable Inter-Processor Networks. Proceedings of the 2006 International Workshop on System Level Interconnect Prediction (SLIP). 2006.

40

Model van het netwerk:wachtrijen en servicestations

Netwerkknoop

XLink

Link

Link

• Netwerkknopen bevatten buffers (wachttijen)

• Verbindingen verzorgen de ‘service’: verzending over een traag kanaal

• Wachtlijntheorie voorspelt de wachttijden

Σtotaletransmissietijd

41

Congestiemodel

020406080

100120140160180

geen 4 8 12 16

Aantal extra verbindingen

Gem

idde

lde

wac

httij

d

Gemeten Geschat

42

Synthetisch netwerkverkeer• Laat toe alle netwerkeigenschappen te evalueren• Evenaart het gedrag van echt netwerkverkeer• Zonder de complexiteit van het simuleren van de

applicatie, OS, processors, caches, …

ApplicationOSCPU

Caches

Reconfigurablenetwork

netwerkverkeer

simulator

Synthetictraffic generator

Reconfigurablenetwork

simulator

simulatietijd ÷10

W. Heirman, J. Dambre, J. Van Campenhout. Synthetic Traffic Generation as a Tool for Dynamic Interconnect Evaluation. Proceedings of the 2007 International Workshop on System Level Interconnect Prediction (SLIP). 2007.

43

Generatie van realistisch synthetisch netwerkverkeer

• Eén volledige simulatie• Verkeersprofiel wordt

vele keren herbruikt

ApplicationOSCPU

CachesSynthetic

traffic generator

Reconfigurablenetwork

netwerkverkeer

Parameterextractie

Statistisch profiel

×1 ×n

44

Synthetisch netwerkverkeer: resultaten

150170190210230250270290310

geen 2 4 8 prisma

Aantal extra verbindingen

Gem

idde

lde

toeg

angs

tijd

Gemeten Geschat

45

Synthetisch netwerkverkeer: variabiliteit bij kortere

simulaties

trace-driven +profiling* exec-driven* assuming traffic profile is re-used 100 times

synthetisch verkeer volledige simulatie

46

Evaluatiemethodes

snelheid

nauwkeurigheid

prestatieschatter

synthetisch netwerkverkeercongestiemodel

simulatie

Scala aan methodes met verschillende afweging in snelheid vs. nauwkeurigheid

47

Bijdragen van dit werk

• Een herconfigureerbare netwerkarchitectuur

• Methoden voor snellere evaluatie• Prestatie-evaluatie

48

Case-study: selectieve broadcast

• Prestatie van de implementatie met selectieve broadcast (i.s.m. VUB)

• Invloed van de technologische beperkingen?

• Evaluatie met eigen technieken

W. Heirman, I. Artundo, L. Desmet, J. Dambre, C. Debaes, H. Thienpont, J. Van Campenhout. Speeding up multiprocessor machines with reconfigurable optical interconnects. Proceedings of SPIE, Optoelectronic Integrated Circuits VIII, Photonics West. Vol. 6124. 2006.

Case-study: selectieve broadcast

• 16 processors, 16 extra verbindingen

• Technologische beperkingen:– Slechts 1 extra verbinding per

processor– Volledige vs. selectieve broadcast– Lengte van het herconfiguratie-

interval

400

500

600

700

800

900

1000

Basis Willekeurig Fanout=1 Selectief (1 ms) Selectief (10 ms)

Gem

idde

lde

toeg

angs

tijd

49

50

1

10

100

1000

1000

0 24

816

320%

10%

20%

30%

40%

50%

60%

Pres

tatie

verb

eter

ing

Herconfiguratie-interval (μs)

Aantalextra

verbindingen

Exploratie van de ontwerpruimte met

synthetisch netwerkverkeer

W. Heirman, I. Artundo, J. Dambre, C. Debaes, T. Pham Doan, K. Bui Viet,

H. Thienpont, J. Van Campenhout. Performance Evaluation of Large Reconfigurable Interconnects for Multiprocessor Systems. Proceedings of the International Symposium on Electrical - Electronics Engineering (ISEE). 2007.

51

Herconfigureerbare netwerken: toekomst

• Optische verbindingen worden verwacht binnen enkele jaren

• Mogelijks reeds aanwezige herconfiguratie (bv. foutrobuustheid) nuttig te gebruiken

• ‘Trage’ herconfiguratie, met reeds aanwezige componenten, geeft goedkope prestatiewinst

52

Herconfigureerbare netwerken: verder

onderzoek• Nu toegepast op ‘gedeeld geheugen’ (impliciete communicatie) en ‘transparante’ herconfiguratie

• Wat als de programmeur/compiler controle krijgt over herconfiguratie?

• ‘Snelle’ herconfiguratie met nieuwe componenten

• Toepassingsmogelijkheden in andere architecturen (videokaarten, spelconsoles, …)

Herconfigureerbare optische interconnectie-netwerken voor

multiprocessor-architecturen met gedeeld geheugen

Wim HeirmanPromotoren: prof. Jan Van Campenhout

en prof. Dirk Stroobandt

Publieke doctoraatsverdediging – 9 juli 2008