Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties...

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

1

AgententechnologieLes 6: meer-agentinteracties

dr. Patrick De Causmaecker


2

Er bestaan geen één-agentsystemen


3

Belangrijke factoren

• Communicatie

• Invloedssferen

• Conflicterende belangen


4

Nuttigheidsgraden en voorkeuren

• Twee agenten : i en j• Elke agent heeft zijn eigen voorkeuren en

verlangens in verband met de wereld : zelf-interesse. (self-interested)

• Er is een verzameling mogelijk resulterende toestanden als gevolg van de acties van de agenten: = {1, 2, 3,…}


5

“Utilities” en “Preferences”

• Om de voorkeuren van de twee agenten weer te geven gebruiken we een nuttigheidsfunctie u:– ui : – uj :

• Deze functies induceren een voorkeurs-ordening : i’ ui () ui (’)

>i’ ui () >ui (’)

• De ordening is reflexief, transitief en volledig


6

Wat is nuttigheidsgraad (utility)

• Kost (geld)

• Eventueel relatief

• Subjectieve voorkeur

• Zie voorbeelden


7

Ontmoetingen tussen agenten

• Veronderstellingen:– Twee agenten– Voeren simultaan een actie uit– Het resultaat is één van de toestanden uit .– Slechts twee mogelijke acties: C en D (van co-

operate (samenwerken) en defect (verraden))– Ac={C,D} : Ac Ac


8


• Bijvoorbeeld: (D,D)=1,(D,C)=2,(C,D)=3,(C,C)=4

– (D,D)=1,(D,C)=1,(C,D)=1,(C,C)=1

(D,D)=1,(D,C)=2,(C,D)=1,(C,C)=2

• Het eerste voorbeeld is het meest algemene geval. Veronderstel dat we de volgende nuttigheden kunnen toekennen:– ui( 1)=1, ui(2)=1, ui(3)=4,ui(4)=4

– uj( 1)=1, uj(2)=4, uj(3)=1,uj(4)=4


9


• We vereenvoudigen de notatie:– ui(D,D)=1, ui(D,C)=1, ui(C,D)=4,ui(C,C)=4

– uj(D,D)=1, uj(D,C)=4, uj(C,D)=1,uj(C,C)=4

• En noteren:– C,C i C,D i D,C i D,D

• Wat zou je doen, als je agent i was in deze situatie?


10


• Bekijk nu de volgende situatie:– ui(D,D)=4, ui(D,C)=4, ui(C,D)=1,ui(C,C)=1

– uj(D,D)=4, uj(D,C)=1, uj(C,D)=4,uj(C,C)=1

• En noteren:– D,D i D,C i C,D i C,C

• Wat zou je nu doen, als je agent i was in deze situatie?


11

De opbrengsten matrix (payoff)

i verraad (D) i werkt mee (C)

j verraad (D) 4

4

1

4

j werkt mee (C) 4

1

1

1

opbrengst i

opbrengst j


12

Dominantie

• De reden waarom de voorgaande problemen zo gemakkelijk op te lossen waren was dat beide agenten over dominante strategieën beschikten:– Een verzameling toestanden 1 is (sterk)

dominant ten opzichte van een andere verzameling 2 a.s.a. elke toestand 1 1 te verkiezen is boven elke toestand 2 2

– In symbolen: c1 ,2 2 : 1 > 2


13

Dominante strategieën

• We noemen acties nu strategieën. De uitkomst s* van een stategie s is de verzameling toestanden die kunnen resulteren uit het spelen van s.

• Een stategie s domineert een strategie s’ a.s.a. s* dominant is ten opzichte van s’*.

• Als s dominant is t.o.v. s’ zal een rationele agent steeds s spelen.

• Dit laat toe dat we ons beperken tot niet gedomineerde strategieën, en de gedomineerde weglaten


14

Zwakke dominantie

• Als we de strikte ongelijkheid verlaten, en gelijkheid toelaten spreken we van zwakke dominantie– In symbolen: 1 1 ,2 2 : 1 2

• Zwak gedomineerde strategieën kunnen nog rationele keuzes zijn.

• We kunnen ze dus niet zonder meer weglaten


15

Nash evenwicht

• Rijden we links of rechts? Vieren we nieuwjaar op 1 januari of op 31 juli? Werkt de vrouw of werkt de man?

• Twee strategieën s en s’, zijn in Nash evenwicht a.s.a– In de veronderstelling dat agent i s speelt, kan j

niet beter doen dan s’ te spelen EN– In de veronderstelling dat agent j s’ speelt, kan i

niet beter doen dan s te spelen.


16

Nash evenwicht

• Door het wederzijdse karakter van het evenwicht kan geen van beide agenten afwijken. Geen van de agenten heeft een reden om het evenwicht te verlaten.

• Spijtig genoeg:– Niet elke interactie heeft een Nash evenwicht– Sommige interacties hebben meer dan één Nash

evenwicht


17

Competitieve spelen en som nul spelen

• Stel dat de twee spelers diametraal tegenover mekaar staan: ,’ : >i’ a.s.a. ’>j

• Een dergelijke interactie noemen we strikt competitief

• Een som nul spel is een interactie waarvoor: :ui() + u j() = 0

• Som nul spelen zijn strikt competitief. Het zijn de hardste spelen die er kunnen bestaan.

• Schaken, dammen,… vallen eronder. Er is discussie of die zich in de werkelijkheid voordoen

• Er is immers meestal een hoger belang dat uiteindelijk door beide spelers erkend wordt (bijvoorbeeld nucleaire oorlog)


18

The Prisoners Dilemma

Twee mannen zijn beschuldigd van een misdaad en zitten in afzondering

Men zegt ze dat

1. Indien één van hen bekent en de andere niet, dan komt degene die bekent vrij, en de ander gaat in de cel voor 3 jaar

2. Indien beide bekennen gaan ze in de cel voor 2 jaar.

Ze weten dat, indien geen van hen bekent, ze allebei voor 1 jaar in de cel gaan.


19

Speltheorie

• Bekennen is verraad, niet bekennen is samenwerken. Wat zou jij doen indien je één van de misdadigers was?


20

4 uitkomsten: utility matrixi verraad (D) i werkt mee (C)

j verraad (D) 2

2

0

5

j werkt mee (C) 5

0

3

3

D,C >i C,C >i D,D >i C,D

C,D >j C,C >j D,D >j D,C


21

Nash evenwicht

• Wat mijn tegenstrever ook kiest, ik bereik …

• In het voorbeeld is het Nash evenwicht (verraad,verraad) (controleer)

• Dit is niet helemaal in overeenstemming met ons gevoel voor moraliteit

• Dit optimaliseert ook niet het totale gevoel van welzijn.


22

Moraliteit?

• De enige manier om tot samenwerking te komen is “irrationaliteit”?!

• Alternatieven:– In de werkelijkheid zien we meerdere vormen van

altruïsme. Is deze werkelijkheid dat niet goed beschreven door speltheorie?

– Tweelingenparadox

– Rationaliteit?

– De schaduw van de toekomst


23

Werkelijkheid

• Er zijn voorbeelden van gedrag dat niet uit “zelf-oriëntatie” schijnt voort te spruiten– Het opstaan op de bus voor een oudere of voor

een vrouw met een kind• Hier is sprake van een sociale bonus of een straf

ingeval men zelfzuchtig gedrag vertoont.

– Het eerlijk betalen op de bus, zonder controle• Dit kan werken, maar het betekent niet dat de

“bedrieger” niet beter af is


24

De tweelingenparadox

• “De andere speler is mijn tweelingbroer, hij zal op dezelfde manier redeneren als ik”– cfr Fermi’s paradox: “Where is everybody”

• Het probleem hier is dat we het dilemma niet echt spelen. Als we onze tweelingbroer kunnen laten denken wat we willen door het zelf te denken is er slechts één speler.


25

Rationaliteit?

• In sommige gevallen is het niet zo erg om te verliezen. Betalen op de bus is geen onoverkomelijke aangelegenheid, we kunnen het evengoed doen als de bussen erdoor langer en beter blijven rijden, ook al zijn er profiteurs.

• In het geval dat het er echt op aan komt handelen we wel rationeel en kiezen we voor verraad– Homo Homini Lupus (Plautus, ca 200 vC. )


26


27

De schaduw van de toekomst

• “Iterated Prisoners Dilemma”– Het spel wordt verschillende keren gespeeld,

verschillende “ronden”.

• Laten we veronderstellen “zeer lang” of in mathematische termen “oneindig lang”.– Als ik nu verraad, dan kan mijn tegenstrever me

“straffen” door straks ook te verraden.– Als ik nu eens probeer, door mee te werken, dan kan ik

niet zo heel veel verliezen, en misschien komen we tot samenwerking.


28

De toekomst

• Als we het spel oneindig lang spelen is samenwerking een rationele uitkomst.

• Maar wat als we veel, maar niet oneindig lang spelen?– Wat doen we de laatste ronde? Verraad is hier het

meest rationeel.– Hierdoor wordt de op één na laatste ronde effectief de

laatste. Wat doen we hier? Verraad.– …– Verraad is de rationele strategie!


29

In de werkelijkheid?

• Er is altijd een “waarschijnlijkheid” dat we opnieuw zullen spelen.Het eindig aantal keer spelen is dus niet realistisch.

• Samenwerken kan dus wel rationeel zijn.


30

De wedstrijd van Axelrod• 1984: Robert Axelrod, politieke wetenschappen,

wil uitvinden hoe samenwerken tot stand kan komen tussen zelf-geörienteerde agenten.

• Hij lanceert een wedstrijd:– Zend een programma in dat het “iterated prisoners

dilemma” speelt– Elk programma weet enkel wat de tegenstrever in de

voorgaande zetten gedaan heeft– Het komt 5 keer uit tegen elke tegenstrever, elke keer

voor 200 ronden– De winnaar is degene met de beste totale score


31

Voorbeelden van inzendingen

• ALT-D: verraad altijd (de “optimale” strategie)

• RANDOM: kies C of D at random, elke keer

• TIT-FOR-TAT:– C in de eerste ronde, en dan– Wat de tegenstrever deed in de vorige ronde


32

Voorbeelden van inzendingen

• TESTER: een beetje uitproberen, of er een straf kwam, zo ja TIT-FOR-TAT, anders twee keer C en weer D…

• JOSS: probeert ook zwakke tegenstrevers uit te buiten. TIT-FOR-TAT met 10% keuze voor D ipv C.– Wat is de theoretisch beste keuze?– Wat zou jij indienen?


33

De winnaar

• TIT-FOR-TAT, het bleek tevens het eenvoudigste programma te zijn.

• De reden is dat het het beste scoorde bij alle programma’s, waaronder een aantal zwakkere. Het verloor natuurlijk van ALT-D, maar kon profiteren van andere programma’s die op samenwerking ingesteld waren.


34

De redenen van Axelrod

• TIT-FOR-TAT won omdat– Het zonder naijver was– Het nooit als eerste verraad pleegde– Samenwerking en verraad zijn exact gelijk aanwezig in

de reacties van TIT-FOR-TAT– Probeer niet te slim te zijn.

• Sommige strategieën probeerden een model op te bouwen van de tegenstrever, daar bij vergetend dat het model mee bepaald werd door hun eigen gedrag.

• Vergevingsgezindheid loont• Zorg dat de tegenstrever je gedrag kan begrijpen


35

Na 20 jaar:

• The Prisoner's Dilemma Competition • http://www.prisoners-dilemma.com/competition.html


36

Andere 2x2 interacties

• Er zijn juist 24 verschillende spelen, die ontstaan uit de 24 mogelijke volgordes van het type– D,C > C,C > D,D > C,D

• Veel van deze spelen zijn triviaal door dominantie van een strategie:– C,C > C,D > D,C > D,D– D,D > D,C > C,D > C,C


37


38

Andere voorbeelden

• Hertenjacht:– Twee jagers hebben de keuze tussen de jacht op een hert,

gezamenlijk, of de jacht op een konijn (individueel). Hertenjacht is moeilijk, samenwerking is nodig. Het brengt het meeste op, maar vraagt verstandhouding.

i D i C

j D 7

7

8

0

j C 8

0

10

10


39

Andere voorbeelden• Kiekenspel

– Start met 2 wagens op 500 meter van de rand van de rots. Blijf op gelijke hoogte. Wie het eerst afwijkt verliest. (Rebel without a cause)

i D (oorrijden) i C (afwijken)

j D (oorrijden) 0

0

1

3

j C(afwijken) 3

1

2

2


40

Afhankelijkheidsrelaties• Er zijn andere benaderingen, gebaseerd op

afhankelijkheid:– Onafhankelijkheid– Unilaterale afhankelijkheid– Wederzijdse afhanklijkheid– Wederkerige afhankelijkheid

• Met als onderscheid: lokaal geloof, wederzijds geloof.

• DepNet (Sichman et al, 1994) gebruikt een redneersysteem om deze afhankelijkheden af te leiden.


41

Uitbreidingen

• Geitereerde Prisoners Dilemma– De beste strategie is de eerste keer mee te werken en

vervolgens te doen wat je partner deed (variatie:uitwisseling van geld en prijs)

• Geïtereerde Prisoners Dilemma in een groep– Individuen die niet meewerken doen het slecht– Een klein percentage vergevingsgezindheid doet goed

tegen valkuilen

• Geïtereerde PD met een eindig aantal iteraties (op voorhand bekend) Wat is het Nash evenwicht?

Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties...

Documents

Transcript of Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties...