Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties...

41
dr. Patrick De Causmaecke r, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer- agentinteracties dr. Patrick De Causmaecker

Transcript of Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties...

Page 1: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

1

AgententechnologieLes 6: meer-agentinteracties

dr. Patrick De Causmaecker

Page 2: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

2

Er bestaan geen één-agentsystemen

Page 3: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

3

Belangrijke factoren

• Communicatie

• Invloedssferen

• Conflicterende belangen

Page 4: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

4

Nuttigheidsgraden en voorkeuren

• Twee agenten : i en j• Elke agent heeft zijn eigen voorkeuren en

verlangens in verband met de wereld : zelf-interesse. (self-interested)

• Er is een verzameling mogelijk resulterende toestanden als gevolg van de acties van de agenten: = {1, 2, 3,…}

Page 5: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

5

“Utilities” en “Preferences”

• Om de voorkeuren van de twee agenten weer te geven gebruiken we een nuttigheidsfunctie u:– ui : – uj :

• Deze functies induceren een voorkeurs-ordening : i’ ui () ui (’)

>i’ ui () >ui (’)

• De ordening is reflexief, transitief en volledig

Page 6: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

6

Wat is nuttigheidsgraad (utility)

• Kost (geld)

• Eventueel relatief

• Subjectieve voorkeur

• Zie voorbeelden

Page 7: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

7

Ontmoetingen tussen agenten

• Veronderstellingen:– Twee agenten– Voeren simultaan een actie uit– Het resultaat is één van de toestanden uit .– Slechts twee mogelijke acties: C en D (van co-

operate (samenwerken) en defect (verraden))– Ac={C,D} : Ac Ac

Page 8: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

8

Ontmoetingen tussen agenten

• Bijvoorbeeld: (D,D)=1,(D,C)=2,(C,D)=3,(C,C)=4

– (D,D)=1,(D,C)=1,(C,D)=1,(C,C)=1

(D,D)=1,(D,C)=2,(C,D)=1,(C,C)=2

• Het eerste voorbeeld is het meest algemene geval. Veronderstel dat we de volgende nuttigheden kunnen toekennen:– ui( 1)=1, ui(2)=1, ui(3)=4,ui(4)=4

– uj( 1)=1, uj(2)=4, uj(3)=1,uj(4)=4

Page 9: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

9

Ontmoetingen tussen agenten

• We vereenvoudigen de notatie:– ui(D,D)=1, ui(D,C)=1, ui(C,D)=4,ui(C,C)=4

– uj(D,D)=1, uj(D,C)=4, uj(C,D)=1,uj(C,C)=4

• En noteren:– C,C i C,D i D,C i D,D

• Wat zou je doen, als je agent i was in deze situatie?

Page 10: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

10

Ontmoetingen tussen agenten

• Bekijk nu de volgende situatie:– ui(D,D)=4, ui(D,C)=4, ui(C,D)=1,ui(C,C)=1

– uj(D,D)=4, uj(D,C)=1, uj(C,D)=4,uj(C,C)=1

• En noteren:– D,D i D,C i C,D i C,C

• Wat zou je nu doen, als je agent i was in deze situatie?

Page 11: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

11

De opbrengsten matrix (payoff)

i verraad (D) i werkt mee (C)

j verraad (D) 4

4

1

4

j werkt mee (C) 4

1

1

1

opbrengst i

opbrengst j

Page 12: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

12

Dominantie

• De reden waarom de voorgaande problemen zo gemakkelijk op te lossen waren was dat beide agenten over dominante strategieën beschikten:– Een verzameling toestanden 1 is (sterk)

dominant ten opzichte van een andere verzameling 2 a.s.a. elke toestand 1 1 te verkiezen is boven elke toestand 2 2

– In symbolen: c1 ,2 2 : 1 > 2

Page 13: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

13

Dominante strategieën

• We noemen acties nu strategieën. De uitkomst s* van een stategie s is de verzameling toestanden die kunnen resulteren uit het spelen van s.

• Een stategie s domineert een strategie s’ a.s.a. s* dominant is ten opzichte van s’*.

• Als s dominant is t.o.v. s’ zal een rationele agent steeds s spelen.

• Dit laat toe dat we ons beperken tot niet gedomineerde strategieën, en de gedomineerde weglaten

Page 14: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

14

Zwakke dominantie

• Als we de strikte ongelijkheid verlaten, en gelijkheid toelaten spreken we van zwakke dominantie– In symbolen: 1 1 ,2 2 : 1 2

• Zwak gedomineerde strategieën kunnen nog rationele keuzes zijn.

• We kunnen ze dus niet zonder meer weglaten

Page 15: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

15

Nash evenwicht

• Rijden we links of rechts? Vieren we nieuwjaar op 1 januari of op 31 juli? Werkt de vrouw of werkt de man?

• Twee strategieën s en s’, zijn in Nash evenwicht a.s.a– In de veronderstelling dat agent i s speelt, kan j

niet beter doen dan s’ te spelen EN– In de veronderstelling dat agent j s’ speelt, kan i

niet beter doen dan s te spelen.

Page 16: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

16

Nash evenwicht

• Door het wederzijdse karakter van het evenwicht kan geen van beide agenten afwijken. Geen van de agenten heeft een reden om het evenwicht te verlaten.

• Spijtig genoeg:– Niet elke interactie heeft een Nash evenwicht– Sommige interacties hebben meer dan één Nash

evenwicht

Page 17: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

17

Competitieve spelen en som nul spelen

• Stel dat de twee spelers diametraal tegenover mekaar staan: ,’ : >i’ a.s.a. ’>j

• Een dergelijke interactie noemen we strikt competitief

• Een som nul spel is een interactie waarvoor: :ui() + u j() = 0

• Som nul spelen zijn strikt competitief. Het zijn de hardste spelen die er kunnen bestaan.

• Schaken, dammen,… vallen eronder. Er is discussie of die zich in de werkelijkheid voordoen

• Er is immers meestal een hoger belang dat uiteindelijk door beide spelers erkend wordt (bijvoorbeeld nucleaire oorlog)

Page 18: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

18

The Prisoners Dilemma

Twee mannen zijn beschuldigd van een misdaad en zitten in afzondering

Men zegt ze dat

1. Indien één van hen bekent en de andere niet, dan komt degene die bekent vrij, en de ander gaat in de cel voor 3 jaar

2. Indien beide bekennen gaan ze in de cel voor 2 jaar.

Ze weten dat, indien geen van hen bekent, ze allebei voor 1 jaar in de cel gaan.

Page 19: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

19

Speltheorie

• Bekennen is verraad, niet bekennen is samenwerken. Wat zou jij doen indien je één van de misdadigers was?

Page 20: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

20

4 uitkomsten: utility matrixi verraad (D) i werkt mee (C)

j verraad (D) 2

2

0

5

j werkt mee (C) 5

0

3

3

D,C >i C,C >i D,D >i C,D

C,D >j C,C >j D,D >j D,C

Page 21: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

21

Nash evenwicht

• Wat mijn tegenstrever ook kiest, ik bereik …

• In het voorbeeld is het Nash evenwicht (verraad,verraad) (controleer)

• Dit is niet helemaal in overeenstemming met ons gevoel voor moraliteit

• Dit optimaliseert ook niet het totale gevoel van welzijn.

Page 22: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

22

Moraliteit?

• De enige manier om tot samenwerking te komen is “irrationaliteit”?!

• Alternatieven:– In de werkelijkheid zien we meerdere vormen van

altruïsme. Is deze werkelijkheid dat niet goed beschreven door speltheorie?

– Tweelingenparadox

– Rationaliteit?

– De schaduw van de toekomst

Page 23: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

23

Werkelijkheid

• Er zijn voorbeelden van gedrag dat niet uit “zelf-oriëntatie” schijnt voort te spruiten– Het opstaan op de bus voor een oudere of voor

een vrouw met een kind• Hier is sprake van een sociale bonus of een straf

ingeval men zelfzuchtig gedrag vertoont.

– Het eerlijk betalen op de bus, zonder controle• Dit kan werken, maar het betekent niet dat de

“bedrieger” niet beter af is

Page 24: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

24

De tweelingenparadox

• “De andere speler is mijn tweelingbroer, hij zal op dezelfde manier redeneren als ik”– cfr Fermi’s paradox: “Where is everybody”

• Het probleem hier is dat we het dilemma niet echt spelen. Als we onze tweelingbroer kunnen laten denken wat we willen door het zelf te denken is er slechts één speler.

Page 25: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

25

Rationaliteit?

• In sommige gevallen is het niet zo erg om te verliezen. Betalen op de bus is geen onoverkomelijke aangelegenheid, we kunnen het evengoed doen als de bussen erdoor langer en beter blijven rijden, ook al zijn er profiteurs.

• In het geval dat het er echt op aan komt handelen we wel rationeel en kiezen we voor verraad– Homo Homini Lupus (Plautus, ca 200 vC. )

Page 26: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

26

Page 27: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

27

De schaduw van de toekomst

• “Iterated Prisoners Dilemma”– Het spel wordt verschillende keren gespeeld,

verschillende “ronden”.

• Laten we veronderstellen “zeer lang” of in mathematische termen “oneindig lang”.– Als ik nu verraad, dan kan mijn tegenstrever me

“straffen” door straks ook te verraden.– Als ik nu eens probeer, door mee te werken, dan kan ik

niet zo heel veel verliezen, en misschien komen we tot samenwerking.

Page 28: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

28

De toekomst

• Als we het spel oneindig lang spelen is samenwerking een rationele uitkomst.

• Maar wat als we veel, maar niet oneindig lang spelen?– Wat doen we de laatste ronde? Verraad is hier het

meest rationeel.– Hierdoor wordt de op één na laatste ronde effectief de

laatste. Wat doen we hier? Verraad.– …– Verraad is de rationele strategie!

Page 29: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

29

In de werkelijkheid?

• Er is altijd een “waarschijnlijkheid” dat we opnieuw zullen spelen.Het eindig aantal keer spelen is dus niet realistisch.

• Samenwerken kan dus wel rationeel zijn.

Page 30: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

30

De wedstrijd van Axelrod• 1984: Robert Axelrod, politieke wetenschappen,

wil uitvinden hoe samenwerken tot stand kan komen tussen zelf-geörienteerde agenten.

• Hij lanceert een wedstrijd:– Zend een programma in dat het “iterated prisoners

dilemma” speelt– Elk programma weet enkel wat de tegenstrever in de

voorgaande zetten gedaan heeft– Het komt 5 keer uit tegen elke tegenstrever, elke keer

voor 200 ronden– De winnaar is degene met de beste totale score

Page 31: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

31

Voorbeelden van inzendingen

• ALT-D: verraad altijd (de “optimale” strategie)

• RANDOM: kies C of D at random, elke keer

• TIT-FOR-TAT:– C in de eerste ronde, en dan– Wat de tegenstrever deed in de vorige ronde

Page 32: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

32

Voorbeelden van inzendingen

• TESTER: een beetje uitproberen, of er een straf kwam, zo ja TIT-FOR-TAT, anders twee keer C en weer D…

• JOSS: probeert ook zwakke tegenstrevers uit te buiten. TIT-FOR-TAT met 10% keuze voor D ipv C.– Wat is de theoretisch beste keuze?– Wat zou jij indienen?

Page 33: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

33

De winnaar

• TIT-FOR-TAT, het bleek tevens het eenvoudigste programma te zijn.

• De reden is dat het het beste scoorde bij alle programma’s, waaronder een aantal zwakkere. Het verloor natuurlijk van ALT-D, maar kon profiteren van andere programma’s die op samenwerking ingesteld waren.

Page 34: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

34

De redenen van Axelrod

• TIT-FOR-TAT won omdat– Het zonder naijver was– Het nooit als eerste verraad pleegde– Samenwerking en verraad zijn exact gelijk aanwezig in

de reacties van TIT-FOR-TAT– Probeer niet te slim te zijn.

• Sommige strategieën probeerden een model op te bouwen van de tegenstrever, daar bij vergetend dat het model mee bepaald werd door hun eigen gedrag.

• Vergevingsgezindheid loont• Zorg dat de tegenstrever je gedrag kan begrijpen

Page 35: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

35

Na 20 jaar:

• The Prisoner's Dilemma Competition • http://www.prisoners-dilemma.com/competition.html

Page 36: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

36

Andere 2x2 interacties

• Er zijn juist 24 verschillende spelen, die ontstaan uit de 24 mogelijke volgordes van het type– D,C > C,C > D,D > C,D

• Veel van deze spelen zijn triviaal door dominantie van een strategie:– C,C > C,D > D,C > D,D– D,D > D,C > C,D > C,C

Page 37: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

37

Page 38: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

38

Andere voorbeelden

• Hertenjacht:– Twee jagers hebben de keuze tussen de jacht op een hert,

gezamenlijk, of de jacht op een konijn (individueel). Hertenjacht is moeilijk, samenwerking is nodig. Het brengt het meeste op, maar vraagt verstandhouding.

i D i C

j D 7

7

8

0

j C 8

0

10

10

Page 39: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

39

Andere voorbeelden• Kiekenspel

– Start met 2 wagens op 500 meter van de rand van de rots. Blijf op gelijke hoogte. Wie het eerst afwijkt verliest. (Rebel without a cause)

i D (oorrijden) i C (afwijken)

j D (oorrijden) 0

0

1

3

j C(afwijken) 3

1

2

2

Page 40: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

40

Afhankelijkheidsrelaties• Er zijn andere benaderingen, gebaseerd op

afhankelijkheid:– Onafhankelijkheid– Unilaterale afhankelijkheid– Wederzijdse afhanklijkheid– Wederkerige afhankelijkheid

• Met als onderscheid: lokaal geloof, wederzijds geloof.

• DepNet (Sichman et al, 1994) gebruikt een redneersysteem om deze afhankelijkheden af te leiden.

Page 41: Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

41

Uitbreidingen

• Geitereerde Prisoners Dilemma– De beste strategie is de eerste keer mee te werken en

vervolgens te doen wat je partner deed (variatie:uitwisseling van geld en prijs)

• Geïtereerde Prisoners Dilemma in een groep– Individuen die niet meewerken doen het slecht– Een klein percentage vergevingsgezindheid doet goed

tegen valkuilen

• Geïtereerde PD met een eindig aantal iteraties (op voorhand bekend) Wat is het Nash evenwicht?