Optimale bedieningsstrategieën in wachtlijnen met niet...

98
Karel Boone niet-verwaarloosbare koststructuur Optimale bedieningsstrategieën in wachtlijnen met Academiejaar 2010-2011 Faculteit Ingenieurswetenschappen en Architectuur Voorzitter: prof. dr. ir. Herwig Bruneel Vakgroep Telecommunicatie en Informatieverwerking operationeel onderzoek Master in de ingenieurswetenschappen: bedrijfskundige systeemtechnieken en Masterproef ingediend tot het behalen van de academische graad van Begeleiders: Dieter Claeys, dr. ir. Koenraad Laevens Promotor: prof. dr. ir. Herwig Bruneel

Transcript of Optimale bedieningsstrategieën in wachtlijnen met niet...

Page 1: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Karel Boone

niet-verwaarloosbare koststructuurOptimale bedieningsstrategieën in wachtlijnen met

Academiejaar 2010-2011Faculteit Ingenieurswetenschappen en ArchitectuurVoorzitter: prof. dr. ir. Herwig BruneelVakgroep Telecommunicatie en Informatieverwerking

operationeel onderzoekMaster in de ingenieurswetenschappen: bedrijfskundige systeemtechnieken en

Masterproef ingediend tot het behalen van de academische graad van

Begeleiders: Dieter Claeys, dr. ir. Koenraad LaevensPromotor: prof. dr. ir. Herwig Bruneel

Page 2: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen
Page 3: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Karel Boone

niet-verwaarloosbare koststructuurOptimale bedieningsstrategieën in wachtlijnen met

Academiejaar 2010-2011Faculteit Ingenieurswetenschappen en ArchitectuurVoorzitter: prof. dr. ir. Herwig BruneelVakgroep Telecommunicatie en Informatieverwerking

operationeel onderzoekMaster in de ingenieurswetenschappen: bedrijfskundige systeemtechnieken en

Masterproef ingediend tot het behalen van de academische graad van

Begeleiders: Dieter Claeys, dr. ir. Koenraad LaevensPromotor: prof. dr. ir. Herwig Bruneel

Page 4: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Toelating tot bruikleen

De auteur geeft de toelating deze masterproef voor consultatie beschikbaar te stellen en delenvan de masterproef te kopiëren voor persoonlijk gebruik.Elk ander gebruik valt onder de beperkingen van het auteursrecht, in het bijzonder metbetrekking tot de verplichting de bron uitdrukkelijk te vermelden bij het aanhalen van resul-taten uit deze masterproef.

6 juni 2011

i

Page 5: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Voorwoord

Ik zou van dit voorwoord graag gebruik maken om mijn dank te betuigen aan alle mensendie deze masterproef mogelijk maakten.

Eerst en vooral wil ik mijn promotor, prof. dr. ir. H. Bruneel, bedanken voor de mogelijkheiddie ik heb gekregen om dit onderzoek te verrichten. Verder wil ik ook mijn begeleiders, dr. ir.K. Laevens en lic. D. Claeys, bedanken voor hun onaflatende steun en vakkundig advies bijdeze masterproef. Ze waren elke week beschikbaar om mij verder te helpen, en daar ben ikhen zeer dankbaar voor.

Ook T. Cassandra, docent aan St. Edward’s University, verdient een dankwoord voor zijnheldere uitleg over POMDPs nadat ik hem via Facebook contacteerde.

Verder wil ik ook mijn familie, en meer bepaald mijn ouders bedanken voor alle kansen die zemij hebben gegeven om mijn studies te voltooien. Tenslotte wil ik alle vrienden en kennissenbedanken die mij hebben gesteund en die vol begrip waren toen ik voor de zoveelste keer opeen late avond nog aan het werken was aan deze masterproef.

Karel Boone

A problem well stated is a problem half solved

- Charles F. Kettering

ii

Page 6: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Overzicht

Optimale bedieningsstrategieën in wachtlijnen metniet-verwaarloosbare koststructuur

door Karel Boone

SamenvattingIn wachtlijntheoretische studies wordt traditioneel enkel de bufferbezetting of doorlooptijdbestudeerd zonder kosten in rekening te brengen. In deze masterproef bestuderen we discrete-tijd wachtlijnsystemen met een koststructuur. We kennen kosten toe aan gebeurtenissen zoalsbediening, opslag, omschakeling en verlies van een klant vanwege een volle buffer. Danbepalen we de strategie zodat de totale verwachte kost minimaal is. Hiervoor gebruiken weMarkov beslissingsprocessen (MDPs).We bestuderen twee modellen met één bedieningseenheid en deterministische bedieningstij-den. Het eerste model is één waarbij de bedieningseenheid kan uitgeschakeld worden om zode bedieningskost uit te sparen (denk bijvoorbeeld aan energiebesparing). Voor wachtlijnenmet een eindige wachtruimte vinden we dat de optimale strategie (onder bepaalde voor-waarden) een drempelwaardestrategie is. We bestuderen een dergelijke strategie ook voorhet model met een oneindige wachtruimte, en bekomen een uitdrukking voor de optimaledrempelwaarde voor eenvoudige aankomstprocessen.Het tweede model is één waarbij de bedieningseenheid een aantal slots vakantie kan nemen,en daarvoor beloond wordt (bijvoorbeeld omdat dan bepaalde hulpbronnen vrij komen).Verder bepalen we de invloed van correlatie in het aankomstproces op de optimale bedie-ningsstrategie. We tonen tenslotte hoe men deze modellen kan uitbreiden met partiëleobserveerbaarheid van het aankomstproces, met behulp van partieel observeerbare Markovbeslissingsprocessen (POMDPs).

Trefwoorden: Wachtlijn, koststructuur, MDP, strategie, POMDP

iii

Page 7: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Optimal service strategies in queueing systems withnon-negligible cost structures

Karel Boone

Supervisor(s): Herwig Bruneel, Dieter Claeys, Koenraad Laevens

Abstract—In this dissertation, we study discrete-time queueing systemswith a cost structure. We assign costs to service, storage and loss of a cus-tomer and switching costs, and then look for the optimal strategy for theservice of the customers. We study two single-server models: one with on-and-off modes, and one with server vacations. These are applied to finitequeueing systems by using MDPs, Markov Decision Processes. An analysisof the on-and-off model for an infinite queueing system is also incorporated.Finally, we analyze the effect of correlation in and partial observability ofthe arrival process.

Keywords—queueing, MDP, cost structure, POMDP, strategy, optimal

I. INTRODUCTION TO MDPS

MARKOV Decision Processes (MDPs)[1] are an extensionto Markov chains. They offer the possibility of taking ac-

tions in between state transitions. These actions (together withthe current state) influence both costs and transition probabili-ties. This way we can design an optimal strategy for a Markovchain, instead of just analyzing a strategy. These are the compo-nents of a MDP:• State space• Action space: in each state, a certain set of actions can betaken• Transition probabilities: each combination of state and actioninfers a transition probability• Cost structure: each combination of state and action infers acertain cost• Discount factor: α costs are discounted with a certain factorto make sure the total cost over an infinite horizon is finite

We define the optimal strategy (or policy) as the strategy thatminimizes the expected discounted cost over an infinite horizon.Several solution methods exist to find this optimal strategy: li-near programming, policy iteration and value iteration. We usethe latter because it is the fastest of the three[2].

II. ON-AND-OFF MODEL

First, we study a queueing system with one server, with deter-ministic service times of one slot. The arrival process is uncor-related. The probability of n arrivals during a slot is denoted ase(n). The server can decide to shut itself down at the beginningof a slot. Then no customers can be served. The server has topay a cost for the service of a customer (cs), for making a cus-tomer wait (storage cost ch), for switching between the on andoff mode (cc) and for losing a customer (cl) when the queue ofcapacity N is full.

A. MDP model

In each slot, the state of the system is characterized by themode of the previous slot (m) to incorporate switching costs

and the number of customers in the system at the beginning ofthe slot (u).• State space:

S = (m,u)|m ∈ OFF,ON, u ∈ 0, 1, . . . , N (1)

• Action space:D = OFF,ON (2)

• Cost structure:

cm,u,OFF = chu+ ccIm 6=OFF

+ cl

∞∑

j=1

e(N − u+ j)j (3)

cm,u,ON = cs + ch(u− 1)+ + ccIm 6=ON

+ cl

∞∑

j=1

e(N + j − (u− 1)+)j (4)

• Transition probabilities:

p(m′, u′|m,u,OFF )

=

∑∞k=N e(k − u) ,m′ = OFF, u′ = N

e(u′ − u) ,m′ = OFF, u′ ≥ u, u′ 6= N

0 , otherwise(5)

p(m′, u′|m,u,ON)

=

∑∞k=N e(k − (u− 1)+) ,m′ = ON, u′ = N

e(u′ − (u− 1)+) ,m′ = ON, u′ ≥ (u− 1)+, u′ 6= N

0 , otherwise(6)

B. Optimal strategy

The optimal strategy turns out to be a threshold strategy: wait(OFF) until the system has reached a certain number of custo-mers (θ) and then keep working (ON) until the system is empty.In Figure 1 we can see that using such a strategy can reduce theexpected discounted cost significantly.

C. Infinite system

We analyze the system with infinite buffer capacity with athreshold strategy as explained above. To optimize the thres-hold, we try to find an expression for the expected cost per slotas a function of the threshold. The only costs considered noware storage costs (ch) and change-over costs (cc). Costs for ser-ving and losing a customer are not relevant in this case becauseevery customer has to be served and costs are not discounted.

iv

Page 8: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

0 5 10 15 20

30

35

40

45

Threshold θ

Exp

ecte

ddi

scou

nted

cost

cs = 8cs = 6

ch = 1cc = 5cl = 400

λ = 0.4α = 0.9

Fig. 1. Using a threshold strategy with θ > 1 can be a significant improvementto the standard strategy of serving a customer when available (θ = 1)

To find an expression in closed form, we study two arrivalprocesses. For geometrically distributed arrival processes, theoptimal threshold is given by (with ζ = cc

ch):

θ∗ = argminθ∈N

1

2

θ(θ + 1)

θ + λ+ 1+ 2ζ

λ(1− λ)θ + λ+ 1

(7)

For Bernoulli distributed arrival processes, the optimal thres-hold is:

θ∗ = argminθ∈N

θ

2+ 2ζ

λ(1− λ)θ + 1

(8)

III. VACATION MODEL

In this model the server can decide to take vacations (of morethan one slot). It is rewarded for taking such vacations, becausethen for example some resources are free to be used by anothersystem.

A. MDP model

• States are now characterized by the number of customers pre-sent in the system at the beginning of the slot (u), the number ofvacation slots remaining (h) and the mode of the system in theprevious slot (m). Not all combinations of u, h,and m are use-ful. If the system decided to work in the previous slot (m = 1)then the number of remaining vacation slots h cannot be posi-tive.• If h = 0, then we can choose between service (w) or taking avacation of some number of slots (vs). If h > 0, then there is nochoice but to stay in vacation for another h slots (vh).• The biggest difference in the cost structure is the reward func-tion for s slots of vacation (r(s)) and the switching costs, whichcan be different for coming out of (cw)/going into (cv) vacation:

cu,h,m,vs = chu+ cvIm=1 − r(s)Ih=0

+ cl

∞∑

j=1

e(N − u+ j)j (9)

cu,h,m,w = cs + ch(u− 1)+ + cwIm=0

+ cl

∞∑

j=1

e(N + j − (u− 1)+)j (10)

• Transition probabilities:

p(u′, s− 1, 0|u, h,m, vs) =∑∞k=N e(k − u) , u′ = N

e(u′ − u) , u ≤ u′ < N(11)

p(u′, 0, 1|u, 0,m,w) =∑∞

k=N e(k − (u− 1)+) , u′ = N

e(u′ − (u− 1)+) , (u− 1)+ ≤ u′ < N(12)

Other combinations have a probability of zero.

B. Optimal strategy

We find an optimal strategy in which the server takes vacati-ons when the system is empty. When the number of customerspresent increases, the number of vacation slots to take, diminis-hes. When the number of customers reaches a threshold, theserver starts to work until the system is empty.

IV. CORRELATION

We extend the previous models with a two-state Markov mo-dulated (MM) arrival process: in one state the arrival intensityis low (A), in the other it is high (B).

A. On-and-off model

For the on-and-off model we find an optimal strategy that con-sists of two threshold strategies: one for each arrival state. In thelow state, the threshold is higher than the one in the high state.Both these thresholds decline when the correlation between thetwo arrival states rises. This can be attributed to the increasedvariance in the amount of arrivals in the long run.

B. Vacation model

When we extend the vacation model with a 2-state MM arrivalprocess, we find again a combination of two strategies: one foreach arrival state. The number of vacation slots to take is higherin the low arrival state. In the high state we find that the optimalnumber of vacation slots decreases with increasing correlationin the arrival process; in the low state it increases.

C. Partial observability

If the state of the arrival process cannot be observed directly,but only through the number of arrivals, the optimal strategy canbe found by extending the model to a POMDP.

V. CONCLUSIONS

In the design of queueing systems, one can minimize the ex-pected cost by finding the optimal strategy to serve the custo-mers, given the cost structure. In a simple on-and-off model,this boils down to following a threshold strategy. Using sucha strategy instead of always serving a customer when possible,can lead to a significant drop in expected (discounted) cost.

REFERENCES

[1] Wayne L. Winston, Operations Research. Applications and Algorithms,Brooks/Cole, 4th edition, 2004.

[2] Eric Denardo, Dynamic Programming: Models and Applications, Prentice-Hall, Englewood Cliffs, N.J., 1982.

v

Page 9: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Inhoudsopgave

Toelating tot bruikleen i

Voorwoord ii

Overzicht iii

Uitgebreide abstract iv

Inhoudsopgave vi

Lijst van symbolen en afkortingen ix

1 Inleiding 11.1 Markov-ketens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.1 Wachtlijnsysteem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.2 GI-D-1 wachtlijnsysteem . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Markov beslissingsprocessen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.1 Structuur van een MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.2 Discontering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.3 Strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.4 Oplossingsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.5 Voor- en nadelen van MDPs . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Gedeeltelijk observeerbare Markov beslissingsprocessen . . . . . . . . . . . . 101.3.1 Toestandsschatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.2 Strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.3 Strategiebomen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.4 Waarde-iteratie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.5 “Getuige”-algoritme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Wachtlijnen met aan/uit-modus 152.1 MDP model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1.1 Toestandsruimte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.2 Acties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.3 Overgangsprobabiliteiten . . . . . . . . . . . . . . . . . . . . . . . . . . 16

vi

Page 10: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Inhoudsopgave vii

2.1.4 Koststructuur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Optimale strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.1 Bepalen van de optimale strategie . . . . . . . . . . . . . . . . . . . . . 182.2.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3 Performantie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.4 Oneindige wachtlijnsystemen met een drempelwaardestrategie . . . . . . . . 31

2.4.1 Bufferanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.4.2 Geometrisch verdeeld aankomstproces . . . . . . . . . . . . . . . . . . 362.4.3 Bernoulli verdeeld aankomstproces . . . . . . . . . . . . . . . . . . . . 392.4.4 Vergelijking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.5 Stochastische bediening . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452.6 Conclusie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3 Wachtlijnen met vakantieperioden 483.1 MDP model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1.1 Toestandsruimte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.1.2 Acties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.1.3 Koststructuur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.1.4 Overgangsprobabiliteiten . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2 Optimale strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.3 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.3.1 Bedieningskost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.3.2 Opslagkost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.3.3 Verlieskost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.3.4 Vakantie- en omschakelkost . . . . . . . . . . . . . . . . . . . . . . . . . 533.3.5 Aankomstproces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.3.6 Disconteringsfactor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.3.7 Vakantiebeloning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.4 Performantie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.5 Oneindige buffercapaciteit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.6 Conclusie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4 Gecorreleerde aankomstprocessen 604.1 Markov gemoduleerd aankomstproces . . . . . . . . . . . . . . . . . . . . . . . 614.2 Aan/uit-model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.2.1 Aanpassingen aan het model . . . . . . . . . . . . . . . . . . . . . . . . 624.2.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.3 Vakantiemodel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.3.1 Aanpassingen aan het model . . . . . . . . . . . . . . . . . . . . . . . . 664.3.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.4 Gedeeltelijke observeerbaarheid . . . . . . . . . . . . . . . . . . . . . . . . . . 684.4.1 ML-schatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Page 11: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Inhoudsopgave viii

4.4.2 POMDP model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.5 Conclusie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5 Toepassingen 735.1 Communicatiebuffer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745.2 Productie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.3 Server applicatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6 Conclusies 786.1 Resultaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.1.1 Aan/uit-model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.1.2 Vakantiemodel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.1.3 Gecorreleerd aankomstproces . . . . . . . . . . . . . . . . . . . . . . . . 80

6.2 Evaluatie van de gebruikte methoden . . . . . . . . . . . . . . . . . . . . . . . 81

Bibliografie 82

Lijst van figuren 85

Page 12: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Lijst van symbolen en afkortingen

Hoofdstuk 1

Prob[X = x] De probabiliteit dat de stochastische variabele X de waarde x aanneemtFCFS First Come, First Served: klanten worden bediend in de volgorde waarin ze

toekomenα Disconteringsfactoru Bufferbezetting bij het begin van een slotS ToestandsruimteD Actieruimtecid Verwachte kost bij het nemen van decisie d in toestand ip(j|i, d) De kans op een transitie naar j als decisie d wordt genomen in toestand i∆ Verzameling met elke mogelijke strategieδ Strategie δ beeldt toestand s af op actie δ(s)Vδ(i) Verwachte gedisconteerde totale kost gedurende een oneindig aantal slots, als

het systeem in het eerste slot in toestand i is en de strategie δ wordt gevolgdδ∗ Optimale strategieΩ Verzameling observatiesO(s′, a, o) De probabiliteit op observatie o nadat men actie a nam en in toestand s′ landdeb(s) Geloofstoestand b geeft een kans b(s) aan toestand sMDP Markov beslissingsproces (Eng.: Markov Decision Process)POMDP Gedeeltelijk observeerbaar Markov beslissingsproces (Eng.: Partially Observable

Markov Decision Process)

Hoofdstuk 2

m Modus van het systeem (actief/passief)θ Drempelwaarde: de kleinste waarde voor uk waarvoor opnieuw gewerkt

wordt als mk−1 = 0θ∗ De optimale drempelwaarde: θ∗

e(n) Kans op n aankomsten in een slotλ Aankomstintensiteit: λ = E[e] =

∑∞n=0 e(n)n

ch Opslagkostcc Omschakelkostcl Verlieskostcs BedieningskostIx Indicatorfunctie: 1 als x waar is, 0 andersN Buffergrootte

ix

Page 13: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Lijst van symbolen en afkortingen x

θ Drempelwaarde: de grootste waarde voor uk waarvoor het systeem passiefblijft als mk−1 = 0

ζ Kostratio: omschakelkost ten opzichte van opslagkostr Resterend aantal slots bedieningR Bovengrens op bedieningstijds(n) Kans op een bedieningstijd van n slots

Hoofdstuk 3

h Resterend aantal slots vakantie bij het begin van een slotM + 1 Maximaal aantal slots vakantievs “Neem s slots vakantie”w “Werk”cv Omschakelkost om in vakantie te gaancw Omschakelkost om uit vakantie te komenr(s) Beloning om s slots vakantie te nemenf(u) Het aantal slots vakantie dat men neemt bij bufferbezetting u in de passieve

toestand

Hoofdstuk 4

γ Correlatiefactorψ Toestand aankomstprocesΨij Transitieprobabiliteiten aankomstprocesφ ΨAA

β ΨBB

πA De kans dat men zich in regime in toestand A bevindtπB De kans dat men zich in regime in toestand B bevindtf Aantal aankomsten in het vorige slotEmax Het maximum aantal aankomsten per slotML Meest aannemelijke (schatting) (Eng.: Maximum Likelihood (estimation))

Hoofdstuk 5

SMED Single Minute Exchange of Die: methode om omschakeltijden te reduceren

Page 14: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1

Inleiding

In traditionele studies rond wachtlijntheorie worden bedieningsstrategieën uitgewerkt dieeen bepaalde performantiemaat van het systeem optimaliseren. Zo kan men onder andere degemiddelde bufferbezetting, de gemiddelde doorlooptijd, of de verlieskans minimaliseren.Daarbij houdt men geen rekening met de koststructuur van het systeem. Men gaat er vanuitdat een bediening van een klant of een omschakeling niets kost, en wil de klanten zo weinigmogelijk laten wachten. Men kan zich situaties voorstellen waarbij het de moeite loont debedieningseenheid tijdelijk uit te schakelen, als het ware in een stand-by-modus te zetten,wanneer er slechts weinig klanten in het systeem aanwezig zijn.

Mogelijke toepassingen kunnen zich bijvoorbeeld situeren in mobiele apparatuur waarbijmen wil besparen op energieverbruik, of logistiek waar men vrachtwagens pas laat rijden alser voldoende cargo aanwezig is.

Om deze systemen te bestuderen maken we gebruik van Markov beslissingsprocessen. Diezijn gebaseerd op Markov-ketens, en minimaliseren de verwachte totale gedisconteerde kostover oneindige horizon. Dit wil zeggen dat we alle toekomstige kosten in rekening brengen,niet enkel die in een beperkt tijdsinterval.

In deze inleiding zetten we eerst de theoretische achtergrond rond Markov-ketens uiteen,alsook een toepassing op een eenvoudig discrete-tijd wachtlijnsysteem (GI-D-1). Daarna volgteen beschrijving van Markov beslissingsprocessen en mogelijke oplossingsmethoden ervan.Tenslotte bespreken we een uitbreiding onder de vorm van partieel observeerbare Markovbeslissingsprocessen. Die kunnen gebruikt worden als men bijvoorbeeld het aankomstprocesniet volledig kan observeren.

1

Page 15: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 2

1.1 Markov-ketens

Een discrete-tijd stochastisch proces is een rij van stochastische variabelen die we zullenaanduiden met X0, X1, X2, ... Markov-ketens van orde n zijn stochastische processen waarbijde kansverdeling van een toestand op tijdstip k + 1 (Xk+1) enkel afhangt van de toestand optijdstippen k − n+ 1 tot en met k (Xk−n+1, ...,Xk).

Definitie 1. Een discrete-tijd stochastisch proces is een Markov-keten van orde n als, voor k = 0, 1, 2...en voor alle toestanden geldt:

Prob[Xk+1 = ik+1|Xk = ik,Xk−1 = ik−1, ...,X0 = i0]= Prob[Xk+1 = ik+1|Xk = ik,Xk−1 = ik−1, ...,Xk−n+1 = ik−n+1] (1.1)

Voor eerste orde Markov-ketens (n = 1) geldt dus:

Prob[Xk+1 = ik+1|Xk = ik,Xk−1 = ik−1, ...,X0 = i0] = Prob[Xk+1 = ik+1|Xk = ik] (1.2)

We zullen verder enkel eerste orde Markov-ketens beschouwen. De Markov-ketens die wezullen hanteren zijn bovendien stationair: voor alle toestanden is Prob[Xk+1 = ik+1|Xk = ik]onafhankelijk van k. Vaak zijn we geïnteresseerd in de regimedistributie van de toestanden:limk→∞ Prob[Xk = ik].

1.1.1 Wachtlijnsysteem

Markov-ketens worden veel gebruikt in wachtlijntheorie, de studie van wachtlijnsystemen.

Structuur

De algemene structuur van een wachtlijnsysteem is de volgende: klanten die een bedieningnodig hebben komen het systeem binnen in de wachtlijn of buffer. Deze buffer kan een eindigeof oneindige capaciteit hebben. Klanten in de wachtlijn kunnen op een gegeven momentbediend worden door de bedieningseenheid of server. De volgorde waarin ze bediend wordennoemt men de wachtlijndiscipline. Wij zullen enkel FCFS disciplines beschouwen, dit wilzeggen dat klanten bediend worden in de volgorde waarin ze toekomen. Een klant verlaathet systeem nadat zijn bediening is voltooid.

Server

Wachtlijn of buffer

Klanten Bediende klanten

Figuur 1.1: Structuur van een wachtlijnsysteem

Bij een discrete-tijd wachtlijnsysteem beschouwen we het systeem op zogenaamde slotgren-zen. We zullen in elke analyse uitgaan van een systeem met late aankomsten. Dit wil zeggendat nieuwe klanten die toekomen in slot k ten vroegste bediend kunnen worden in slot k + 1.

Page 16: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 3

Verkorte notatie

Een discrete-tijd wachtlijnsysteem kunnen we verkort noteren als A−B − c− d waarin A dedistributie van het aantal aankomsten per slot aanduidt, B de distributie van de bedienings-tijden, c het aantal bedieningseenheden en d de buffercapaciteit.

Veel gebruikte notaties voor distributies zijn:

• D: Deterministisch, constante toevalsgrootheid

• Bern: Bernoulli verdeeld

• Geom: Geometrisch verdeeld

• GI: Een algemene distributie waarin de betrokken toevalsgrootheden onderling onaf-hankelijk zijn

Voor een systeem met een oneindige buffercapaciteit wordt d vaak weggelaten.

1.1.2 GI-D-1 wachtlijnsysteem

Om het gebruik van Markov ketens te illustreren, modelleren we het discrete-tijd GI-D-1wachtlijnsysteem aan de hand van een Markov-keten en bepalen de evenwichtsdistributie.Het GI-D-1 wachtlijnsysteem is een systeem met een algemeen ongecorreleerd aankomstpro-ces, een vaste bedieningstijd (één slot) en één bedieningseenheid.

We kunnen dit systeem modelleren als een Markov-keten door een slot als tijdseenheidte gebruiken en het aantal klanten in het systeem op slotgrenzen als toestand (uk). Het isduidelijk dat aan de Markov-eigenschap is voldaan. De kans dat men zich op een bepaaldtijdstip in een bepaalde toestand bevindt, hangt namelijk enkel af van de vorige toestand (hetaantal klanten dat bij het begin van het vorig slot aanwezig was). De voorgeschiedenis diebepaalt hoe die klanten zijn toegekomen is van geen belang meer.

De evenwichtsdistributie kunnen we uitdrukken aan de hand van de massafunctie pu(n) =limk→∞ Prob[uk = n]. In veel gevallen is het echter handiger om te werken met de genere-rende functie: U(z) =

∑∞n=0 pu(n)zn.

Het aantal aankomsten in slot k noteren we met ek en voor de genererende functie gebruikenwe Ek(z). De bufferbezetting bij het begin van slot k noteren we als uk en de bijhorendegenererende functie als Uk(z).

De bufferbezetting bij het begin van slot k + 1 is gelijk aan de som van het aantal klanten datis aangekomen in slot k en het aantal dat aanwezig was bij het begin van slot k, min één als ereen klant is bediend:

uk+1 = (uk − 1)+ + ek (1.3)

= vk + ek (1.4)

Page 17: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 4

waarbij de notatie A+ staat voor max(A, 0).

De genererende functie Vk(z) van vk kunnen we als volgt bepalen:

Vk(z) =∞∑n=0

Prob[vk = n]zn

=∞∑n=0

Prob[(uk − 1)+ = n]zn

=∞∑n=0

Prob[uk = n+ 1]zn + Prob[uk = 0]

= 1z

∞∑n=1

Prob[uk = n]zn + Prob[uk = 0]

= 1z

(Uk(z)− Uk(0)) + Uk(0)

= Uk(z) + (z − 1)Uk(0)z

(1.5)

waarbij gebruik werd gemaakt van volgende eigenschap: Uk(0) = Prob[uk = 0].

Aangezien vk en ek onafhankelijk zijn, volgt:

Uk+1(z) = Uk(z) + (z − 1)Uk(0)z

Ek(z) (1.6)

In stochastisch regime verandert de kansverdeling van de toestanden niet meer en is dusUk+1(z) = Uk(z) = U(z). Verder gaan we er van uit dat het aantal aankomsten per slotonafhankelijk is in de tijd: Ek(z) = E(z). Gebruik makend van de gelijkheid U(1) = 1 vindenwe volgende uitdrukking voor de evenwichtsdistributie:

U(z) = (1− λ)(1− z)E(z)E(z)− z (1.7)

waarbij λ = E[ek], het gemiddeld aantal aankomsten per slot.

Uit deze genererende functie kan men dan bepaalde performantiematen berekenen, zoals degemiddelde bufferbezetting in regime:

E[u] = U ′(1) = λ+ E′′(1)2(1− λ) (1.8)

= λ

2 + var[ek]2(1− λ) (1.9)

Page 18: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 5

1.2 Markov beslissingsprocessen

Markov-ketens zijn zeer nuttig om systemen met een bepaalde strategie te analyseren en teevalueren. Om de optimale strategie voor het systeem in kwestie te vinden, hebben we echtereen uitbreiding nodig op gewone Markov-ketens. Hiervoor gebruiken we Markov beslis-singsprocessen (in het Engels: Markov Decision Processes, afgekort als MDPs). MDPs latenons toe de optimale strategie te vinden zonder de structuur ervan op voorhand vast te leggen.In dat opzicht is deze aanpak beter dan het vooropstellen van ad hoc controlestructuren.

1.2.1 Structuur van een MDP

Een MDP wordt gekenmerkt door een toestandsruimte, een verzameling acties, overgangs-probabiliteiten en verwachte kosten. Op basis van deze elementen kan men de optimalestrategie zoeken om de kost te minimaliseren. In de volgende secties gaan we hier dieper opin. Deze inleidende uitleg is gebaseerd op het handboek van W. Winston [10].

Toestandsruimte

Bij het begin van elk slot bevindt het MDP zich in een bepaalde toestand i ∈ S. S wordt detoestandsruimte genoemd.

Acties

Voor elke toestand i is er een eindige verzameling met mogelijke acties: D(i).

Overgangsprobabiliteiten

Als een slot in toestand i begint, en actie d ∈ D(i) wordt ondernomen, dan zal het systeemzich in het volgende slot in toestand j bevinden met kans p(j|i, d).

Verwachte kosten

Als een slot in toestand i begint, en actie d ∈ D(i) wordt ondernomen, dan verwacht meneen kost cid. Andere formuleringen zijn mogelijk. Men kan bijvoorbeeld beloningen (rid)gebruiken, of de kosten uitdrukken voor toestandsovergangen (cij).

1.2.2 Discontering

Bij een MDP proberen we een probleem op te lossen over oneindige horizon. Dit wil zeggendat we op voorhand niet vastleggen hoever we in de toekomst kijken, maar oneindig langkosten in rekening brengen. Dit brengt het probleem met zich mee dat de verwachte totalekost meestal oneindig groot wordt. Hiervoor zijn twee oplossingen beschikbaar. Een eerstemogelijkheid is de verwachte kost per tijdsslot te minimaliseren. Als we de toestand optijdstip n noteren als Xn en de regimedistributie van de toestanden bij strategie δ als qi(i ∈ S),dan is de verwachte gemiddelde kost per tijdsslot:

E

[limt→∞

1t

t−1∑n=0

cXnδ(Xn)

]=∑i∈S

ciδ(i)qi (1.10)

Page 19: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 6

Hiervoor bestaan oplossingsmethoden gelijkaardig aan degene die we verderop zullen be-spreken. Wij zullen echter een andere benadering hanteren. Men kan kosten disconteren opbasis van hun tijdswaarde. Hierbij gaat men uit van het principe dat één euro nu, tijdenshet volgende tijdsslot nog slechts α euro waard is (0 < α < 1). Men ziet makkelijk in dat ditervoor zorgt dat de totale verwachte kost eindig wordt. Neem als maximum verwachte kostgedurende een slot M , dan wordt de totale verwachte kost maximaal

M + αM + α2M + ... = M

1− α <∞ (1.11)

Het is deze totale verwachte gedisconteerde kost die we zullen optimaliseren. Deze disconte-ringsfactor is een extra parameter die kan gebruikt worden om de economische tijdswaardevan geld te modelleren. Over het algemeen wordt α dicht bij één genomen. Bovendiengeldt dat voor ergodische MDPs1 de verwachte gemiddelde kost per tijdsslot optimaliserenequivalent is aan de limiet voor α naar één van het model met disconteringsfactor.

1.2.3 Strategie

Een strategie bepaalt welke acties worden ondernomen in elke toestand. We gaan uit van eenstationaire deterministische strategie, dit wil zeggen dat we in een bepaalde toestand altijddezelfde beslissing nemen, onafhankelijk in de tijd. We introduceren volgende notaties:

∆ = verzameling met elke mogelijke strategie

Vδ(i) = verwachte gedisconteerde totale kost gedurende een oneindig aantal slots, als het

systeem in slot 1 in toestand i is en de (stationaire) strategie δ wordt gevolgd

Voor een optimale strategie δ∗ geldt dan:

∀i ∈ S : Vδ∗(i) = minδ∈∆

Vδ(i) (1.12)

We beschouwen enkel deterministische strategieën omdat er altijd een deterministischeoptimale strategie bestaat. Het invoeren van random strategieën zorgt niet voor een betereoplossing (cfr. sectie 1.2.4, Lineair programmeren)

1.2.4 Oplossingsmethoden

Om een optimale strategie te vinden, bestaan er verschillende methoden. De voornaamstezijn een methode gebaseerd op lineair programmeren, strategie-iteratie en waarde-iteratie.

Strategie-iteratie

Strategie-iteratie is een methode die eerst door Howard werd beschreven [4]. Bij strategie-iteratie kiezen we eerst een stationaire strategie δ. Van die strategie bepalen we Vδ(i) doorvolgende set van vergelijkingen op te lossen (δ(i) is de beslissing die genomen wordt in

1Een MDP is ergodisch als voor elke strategie π de Markov-keten geïnduceerd door π ergodisch is. Dit wilzeggen dat elke toestand aperiodisch en positief recurrent is[3].

Page 20: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 7

toestand i):∀i ∈ S : Vδ(i) = ci,δ(i) + α

∑j∈S

p(j|i, δ(i))Vδ(j) (1.13)

In een tweede stap proberen we de huidige strategie te verbeteren. Hiervoor bepalen we voorelke toestand i

Tδ(i) = mind∈D(i)

ci,d + α∑j∈S

p(j|i, d)Vδ(j)

(1.14)

Als Tδ(i) = Vδ(i) voor i = 1, 2, ..., N , dan is δ een optimale strategie. Als voor minstens ééntoestand i geldt dat Tδ(i) < Vδ(i), verander δ dan zodat de actie in elke toestand j de actieis die het minimum bereikt in de vergelijking voor Tδ(j). Dit geeft ons een nieuwe strategieδ′. Met deze strategie gaan we terug naar de eerste stap, tot een optimale strategie bekomenwordt.

Waarde-iteratie

Bij waarde-iteratie gebruiken we een methode van opeenvolgende benaderingen. Stel i isde huidige toestand, dan noteren we de minimale verwachte kost over de volgende t slotsals Vt(i). Via het optimaliteitsprincipe voor dynamisch programmeren kunnen we Vt(i) danrecursief bepalen als volgt (met t als iteratie-index):

V0(i) = 0 (1.15)

Vt(i) = mind∈D(i)

cid + α∑j∈S

p(j|i, d)Vt−1(j)

(1.16)

De te volgen strategie bekomt men als volgt:

dt(i) = arg mind∈D(i)

cid + α∑j∈S

p(j|i, d)Vt−1(j)

(1.17)

δ∗(i) = limt→∞

dt(i) (1.18)

Deze methode heeft een groot voordeel ten opzichte van strategie-iteratie: men moet nooiteen stelsel van vergelijkingen oplossen, zodat elke iteratie snel kan gebeuren. Jammer genoegis er geen makkelijke manier om het aantal iteraties te bepalen dat nodig is om het optimumte bereiken. Toch vindt deze methode doorgaans sneller (een zeer goede benadering van) hetoptimum dan strategie-iteratie (cfr. supra) en lineair programmeren (cfr. infra)[1].

Lineair programmeren

De volgende methode komt uit het handboek van Hillier en Lieberman [3]. Ze is gebaseerdop lineair programmeren. Hiervoor introduceren we eerst een random strategie. Hierbijkennen we probabiliteiten toe aan elke decisie in elke toestand. Het staat dus niet langer vastwelke decisie genomen wordt in elke toestand. We voeren volgende notatie in:

dik = Prob[toestand = i en decisie = k], i = 0, ..., N, k = 1, ...,K (1.19)

Page 21: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 8

De decisievariabelen van het LP noteren we als yik, i = 0, ..., N, k = 1, ...,K. De doelfunctie isals volgt:

Min z =N∑i=0

K∑k=1

cikyik (1.20)

Verder hebben we de initiële toestandsprobabiliteiten βj nodig. Deze zullen de uiteindelijkeoptimale strategie echter niet beïnvloeden. We leggen volgende restricties op:

K∑k=1

yjk − αN∑i=0

K∑k=1

p(j|i, k)yik = βj voor j = 0, ..., N (1.21)

yik ≥ 0 voor i = 0, ..., N ; k = 1, ...,K (1.22)

De optimale strategie kan dan uit het resultaat van het LP worden afgeleid op deze manier:

dik = yik∑Kj=1 yij

(1.23)

yik stelt de gedisconteerde verwachte tijd voor dat men in toestand i is en decisie k neemt.

Als we znik als volgt definiëren:

znik = Prob[toestand = i en decisie = k op tijdstip n], (1.24)

dan geldt:yik = z0

ik + αz1ik + α2z2

ik + . . . (1.25)

Men kan aantonen2 dat de bekomen optimale strategie een deterministische strategie is(dik = 0 of 1), hoewel het probleem niet als integer lineair programma werd gedefinieerd. Hethanteren van een random strategie biedt dus het voordeel dat het integer lineair programmaals een lineair programma kan geformuleerd worden. Op deze manier kan het probleem veelsneller opgelost worden, bijvoorbeeld met behulp van het simplex algoritme.

1.2.5 Voor- en nadelen van MDPs

Het grote voordeel van de modellering als MDP is het feit dat een optimale strategie wordtgevonden zonder dat de structuur van die strategie vooraf wordt vastgelegd. Enkel de moge-lijkheden van het systeem worden gemodelleerd onder de vorm van toestanden en acties.Hoe de optimale strategie er precies uitziet weten we niet op voorhand. Dit staat in schrilcontrast met een klassieke bufferanalyse waarbij systeemvergelijkingen worden opgesteld opbasis van een vooraf gedefinieerde strategie. Op die manier beperkt men zich in de analysetot één (set van) strategie(ën).

Een nadeel van MDPs is dat de rekentijd om de optimale strategie te vinden toeneemt alsde toestandsruimte groter wordt (bijvoorbeeld om een wachtlijn met grotere buffercapaciteitte bestuderen), als de verzameling acties toeneemt. Bovendien wordt het waarde-iteratie

2Uit de betekenis van yik volgt dat ∀i ∈ S : ∃k ∈ D(i) : yik > 0. Tezamen met het feit dat de uiteindelijkeoplossing N + 1 basisvariabelen yik ≥ 0 bevat, volgt hieruit dat dik = 0 of 1

Page 22: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 9

algoritme ook trager als de disconteringsfactor stijgt.

De achilleshiel van deze techniek is de analyse van het resultaat. Een MDP model voorzietgeen mogelijkheid om te bestuderen welke parameters precies de keuze van de optimalestrategie bepalen. Men moet terugvallen op een numerieke analyse waarbij men zelf para-meters laat variëren om de sensitiviteit van het resultaat te onderzoeken. Op dit punt heefteen theoretische analyse een streepje voor: als een uitdrukking kan gevonden worden voorde optimale strategie is meteen duidelijk wat de invloed is van de verschillende parametersin die uitdrukking. Daarom zullen we in de volgende hoofdstukken proberen het beste vanbeide technieken te combineren.

Een alternatieve methode om een optimale bedieningsstrategie te vinden is om de wacht-lijn te simuleren aan de hand van Monte-Carlo simulatie. Dergelijke simulaties bieden demogelijkheid om de optimale strategie te vinden als de structuur van de strategie vooraf isvastgelegd. Als men een strategie δµ bijvoorbeeld kan representeren aan de hand van éénwaarde µ, dan kan men via verschillende simulaties µ optimaliseren. Via deze techniek zijnsommige uitbreidingen zoals partiële observeerbaarheid echter moeilijk te onderzoeken.

TechniekMDPs Numerieke

methodeAnalytischemethode

Simulatie

Structuur van de strategiemoet niet vooraf vastgelegdworden

ja nee nee nee

Rekentijd is onafhankelijk vanbuffercapaciteit

nee nee ja ja

Invloed van parameters is afte lezen uit het model

nee nee ja nee

Tabel 1.1: Een vergelijking van verschillende technieken om een optimale bedieningsstrategiete vinden

Als de bedieningsstrategie is vastgelegd kan men de regimeprobabiliteiten van de Markov-keten ook numeriek bepalen, in plaats van een simulatie te gebruiken. Monte-Carlo simulatieszijn dus voornamelijk handig als men een ingewikkelde wachtlijn (met grote buffercapaciteit)of een netwerk van wachtlijnsystemen beschouwt.

Als we de vier technieken (numerieke en analytische methode, simulatie en MDPs) vergelij-ken (zie Tabel 1.1), dan concluderen we dat MDPs uitermate geschikt zijn om de optimalebedieningsstrategie te vinden omdat ze geen structuur van de strategie vooropstellen. Denadelen dat de rekentijd sterk afhankelijk is van de buffercapaciteit en dat een sensitiviteits-analyse omslachtig is, proberen we te omzeilen door het resultaat uit de analyse via MDPsvast te leggen in een bepaalde structuur en die te bestuderen met de analytische methode.

Page 23: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 10

1.3 Gedeeltelijk observeerbare Markov beslissingsprocessen

Markov-ketens en MDPs gaan telkens uit van volledige observeerbaarheid van de toestand.Dit is niet altijd het geval. Soms kan men de toestand enkel schatten aan de hand van obser-vaties. Wanneer men met dergelijke onzekerheid te maken heeft, kan men POMDPs (Eng.:Partially Observable Markov Decision Processes) gebruiken (Figuur 1.2).

Gedeeltelijk

Volledig

Geen Wel

Toestandenobserveerbaar?

Invloed op transitieprobabiliteiten?

Hidden MarkovModel POMDP

Markov proces MDP

Figuur 1.2: Classificatie van Markov modellen

Een POMDP bestaat uit zes onderdelen[6]. De eerste vier omvatten een MDP:

• Toestandsruimte S

• Acties D

• Overgangsprobabiliteiten p(j|i, d) voor i en j ∈ S en d ∈ D

• Koststructuur ci,d voor i ∈ S en d ∈ D

Uniek aan een POMDP zijn:

• Een eindige verzameling observaties: Ω

• Een observatiefunctie O : S ×D → Π(Ω) die voor elke actie en resulterende toestandeen probabiliteitsdistributie geeft over alle mogelijke observaties. De probabiliteit opobservatie o nadat men actie a nam en in toestand s′ landde, noteren we als O(s′, a, o).

Het probleem waarbij de optimale beslissing wordt gezocht kan opgesplitst worden in tweedelen (zie Figuur 1.3). Het systeem observeert de wereld en genereert een actie. Het slaatzijn vorige ervaringen op in een geloofstoestand b. De geloofstoestand neemt de vorm aan vaneen probabiliteitsdistributie over alle toestanden. De kans dat het systeem zich in toestand sbevindt, noteren we als b(s):

Prob[s|b] = b(s) (1.26)

Page 24: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 11

Wereld

Observaties Acties

b

SE π

Figuur 1.3: POMDP Structuur: toestandsschatter (SE) en strategie (π)[6]

De eerste component van een POMDP, de toestandsschatter (SE), houdt deze geloofstoestandup-to-date gebaseerd op de laatste actie, de huidige observaties en de vorige geloofstoestand.De tweede component, de strategie (π), mapt deze geloofstoestand op een actie.

1.3.1 Toestandsschatter

De geloofstoestand wordt gerepresenteerd door een probabiliteitsdistributie over de toe-standsruimte S . De toestandsschatter kan dan als volgt geïmplementeerd worden (met b′ denieuwe geloofstoestand en s′ de nieuwe toestand):

b′(s′) = Prob[s′|o, a, b] = Prob[s′, o, a, b]Prob[o, a, b] = Prob[s′, o|a, b]Prob[a, b]

Prob[o|a, b]Prob[a, b] (1.27)

= Prob[o|s′, a, b]Prob[s′|a, b]Prob[o|a, b] (1.28)

= Prob[o|s′, a]Prob[o|a, b]

∑s∈S

Prob[s′|a, b, s]Prob[s|a, b] (1.29)

= O(s′, a, o)Prob[o|a, b]

∑s∈S

p(s′|s, a)b(s) (1.30)

waarin gebruik werd gemaakt van het feit dat de geloofstoestand geen invloed heeft op dewereld: Prob[o|s′, a, b] = Prob[o|s′, a]

De noemer Prob[o|a, b] kan gezien worden als een normeringsfactor, die niet afhangt van s′.De component die de toestand schat is dus niet moeilijk te implementeren.

1.3.2 Strategie

De andere component, die een optimale strategie moet vinden om de geloofstoestand temappen op een actie, is moeilijker te implementeren. De geloofstoestand is een voldoendestatistiek voor de schattingen uit het verleden, dit wil zeggen dat alle informatie die we nodighebben over die schattingen omvat is in de geloofstoestand[6]. Hierdoor volstaat het om eenMDP met continue toestandsruimte op te lossen die als volgt gedefinieerd wordt:

• Toestandsruimte B, de verzameling van alle geloofstoestanden

• Acties A = D

Page 25: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 12

• Overgangsprobabiliteiten τ(b′|b, a) = Prob[b′|b, a] = Prob[o|b, a] als SE(b, a, o) = b′, 0anders

• Koststructuur κb,a =∑s∈S b(s)cs,a

In het algemeen zijn deze MDPs met continue toestandsruimte zeer moeilijk op te lossen.Voor POMDPs zijn er echter speciale eigenschappen die kunnen uitgebuit worden om het ietsgemakkelijker te maken.

1.3.3 Strategiebomen

Net als in het discrete geval kunnen we de optimale strategie benaderen met waarde-iteratie.Daarvoor hebben we een representatie nodig van een strategie die t slots ver reikt: eenstrategieboom. Dit is een boom van diepte t met één wortelknoop, met de mogelijke actiesals knopen, en met de mogelijke observaties als takken. De boom in Figuur 1.4) bijvoorbeelddrukt de strategie uit waarbij men start met actie a. Daarna maakt men een observatie oi envoert men de actie uit die men vindt door de tak bij oi te volgen. Dit blijft men herhalen totmen de bladeren van de boom heeft bereikt.

a

a

a

a

o1

o2

ok· · ·

· ·· ···

· · ·

· ·· ···

· · ·

· ·· ···

· · ·

a a · · · a

nog t stappen

nog t− 1 stappen

.

.

.

nog 1 stap

Figuur 1.4: Een voorbeeld van een strategieboom

1.3.4 Waarde-iteratie

De verwachte gedisconteerde waarde van het uitvoeren van strategieboom p in toestand s isdan:

Vp(s) = κs,a(p) + α∑s′∈S

T (s′|s, a(p))∑oi∈Ω

O(s′, a(p), oi)Voi(p)(s′) (1.31)

waar a(p) de actie is in de wortelknoop van strategieboom p en oi(p) de subboom met dieptet− 1 die is geassocieerd met observatie oi in het bovenste niveau van de strategieboom p metdiepte t. Voor de verwachte waarde van een strategieboom in een geloofstoestand b middelenwe nog eens uit over alle toestanden:

Vp(b) =∑s∈S

b(s)Vp(s) (1.32)

De optimale waarde in geloofstoestand b, als we t stappen ver kijken, is dan niet anders dan

Vt(b) = minp∈P

Vp(b) (1.33)

Page 26: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 13

waarbij P de verzameling is van alle strategiebomen met diepte t. Wat opvalt is dat dezewaarde-functie stuksgewijs lineair is in b(s). Het is meer bepaald het minimum van eenverzameling stuksgewijs lineaire functies. Het voordeel daarvan is dat deze (continue) functiekan vastgelegd worden met een discreet aantal punten.

Voor een oneindige horizon kunnen we wederom een benadering gebruiken door de optimalestrategie te bepalen voor alsmaar grotere t, en stoppen als de beste waarde niet genoeg meerverandert. Het probleem met de aanpak tot nu toe (het maximum zoeken over P) is dat hettotale aantal strategiebomen van diepte t astronomisch groeit in t:

|P| = |A||Ω|t−1|Ω|−1 (1.34)

In de praktijk hebben we echter niet alle strategiebomen van diepte t nodig. Sommige bomenworden volledig gedomineerd door één of meerdere andere bomen, d.w.z. dat de optimalewaarde dan op geen enkel punt wordt bepaald door deze boom. Op die manier kunnen weop tijdstip t de set van nuttige strategiebomen Vt definiëren: dit is de minimale subset vanalle strategiebomen van diepte t die Vt(b) volledig vastlegt.

Op die manier kunnen we een beter algoritme opstellen om Vt(b) te bepalen dan een completeenumeratie. Voor elke t kunnen we eerst de set van mogelijk nuttige strategiebomen V+

t

bepalen uit Vt−1. Dit doen we door bij de nuttige strategiebomen van diepte t enkel diebomen met nuttige subbomen van diepte t − 1 te beschouwen. De set V+

t kunnen we dansnoeien tot Vt door de gedomineerde bomen eruit te halen.

Dit zou echter nog altijd een tijdscomplexiteit hebben die exponentieel is in |Ω|. Er zijnnamelijk |A||Vt−1||Ω| elementen in V+

t . Kaelbling et al[6] stellen een “getuige”-algoritme voordat in de praktijk relatief snel een POMDP kan oplossen.

1.3.5 “Getuige”-algoritme

Om de complexiteit van het waarde-iteratie algoritme te verbeteren vermijden we de genera-tie van V+

t , maar proberen we de elementen van Vt direct te genereren. Daarvoor berekenenwe voor elke actie a een set Qat van strategiebomen van diepte t met actie a als wortelknoop.Vt wordt dan berekend als de unie van Qat voor alle acties, die wordt gesnoeid zoals in hetvorige stuk.

Het “getuige”-algoritme berekentQat in polynomiale tijd. Het is mogelijk datQat exponentieelgroter is dan Vt (waardoor het algoritme zelf niet in polynomiale tijd verloopt), maar dit komtin de praktijk niet veel voor.

Page 27: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 1. Inleiding 14

De set Qat is de verzameling strategiebomen die de functie Qat (b) representeert:

Qat (b) =∑s∈S

b(s)cs,a + α∑o∈Ω

Prob[o|a, b]Vt−1(SE(b, a, o)) (1.35)

Voor elke actie wensen we een minimale verzameling te vinden die Qat kan representeren.Dit doen we met een verzameling U van strategiebomen, die wordt geïnitialiseerd met eenstrategieboom die optimaal is voor een arbitraire geloofstoestand. We noemen Qat (b) degeschatte waarde van Qat (b) met de strategiebomen uit U .

We zoeken een geloofstoestand b waarvoor Qat (b) verschilt van Qat (b). We noemen dit eengetuige omdat die geloofstoestand zogezegd kan getuigen dat U nog geen perfecte represen-tatie van Qat (b) is.

Een getuige vinden kan via lineair programmeren in polynomiale tijd. Zolang we getuigenvinden kunnen we extra strategiebomen toevoegen aan U . Als er geen getuigen meer zijn isQat = Qat .

Voor een gedetailleerde uitleg over POMDPs en het “getuige”-algoritme verwijzen we delezer graag naar de paper van Kaelbling et al[6]. Zij voorzien ook C-code om dergelijkeproblemen op te lossen.

Page 28: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2

Wachtlijnen met aan/uit-modus

In dit hoofdstuk bestuderen we wachtlijnsystemen met een bedieningseenheid die tijdelijkuitgeschakeld kan worden. We veronderstellen dat het aankomstproces ongecorreleerd is,dat het systeem één bedieningseenheid bevat en dat de bedieningstijd deterministisch gelijkis aan één slot.

In eerste instantie beschouwen we eindige systemen. We hanteren een koststructuur metbedieningskost, opslagkost, verlieskost en omschakelkost. Op basis van deze kosten stellenwe een MDP-model op van het wachtlijnsysteem. Met behulp van waarde-iteratie zoeken wedan de optimale strategie om klanten te bedienen.

Vervolgens analyseren we de impact van de verschillende parameters (kosten, aankomstpro-ces, disconteringsfactor, enz...) op de optimale strategie en proberen de invloed te verklaren.We bekijken ook de performantie van het wachtlijnsysteem met de optimale strategie invergelijking met een traditionele strategie, en stellen vast dat via de optimale strategie eensignificante verbetering mogelijk is.

De resultaten voor eindige systemen, meer bepaald het type strategie, bestuderen we ten-slotte op een analytische wijze voor oneindige systemen. We beschouwen twee eenvoudigeaankomstprocessen en bekomen zo exacte resultaten in verband met de optimale strategie.

15

Page 29: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 16

2.1 MDP model

2.1.1 Toestandsruimte

De toestand van het systeem wordt gekarakteriseerd door het aantal klanten in het systeem bijhet begin van het slot (u) enerzijds, en de modus van het systeem (actief/passief) in het vorigeslot anderzijds (m). De modus is nodig als deel van de toestand om de omschakelkosten inrekening te brengen. Het zal ons ook in staat stellen meer zinvolle strategieën te bekomendan wanneer we enkel het aantal klanten in het systeem beschouwen, omdat de strategie kanverschillen voor beide modi. Zonder de modus kan het systeem enkel beslissen op basis vanhet aantal klanten in het systeem. Als het bijvoorbeeld een strategie gebruikt waarbij gewerktwordt van zodra het aantal klanten een drempel overschrijdt, dan zal de buffer altijd ditaantal klanten bevatten van zodra er wordt gewerkt. Met de modus erbij in de toestand kanmen een strategie bekomen waarbij het systeem blijft werken tot de buffer leeg is, hetgeenzinvoller is dan de buffer altijd deels gevuld te laten.

We gebruiken de notatie N voor de buffergrootte. Bij het begin van een slot kan u maximaaldeze waarde aannemen. De toestandsruimte die we gebruiken noteren we als volgt:

S = (m,u)|m ∈ OFF,ON, u ∈ 0, 1, . . . , N (2.1)

2.1.2 Acties

In elke toestand hebben we de keuze tussen twee mogelijke acties: we kunnen het systeemop actief (ON ) of passief (OFF ) zetten. Als het systeem actief is, wordt één klant bediend(indien er aanwezig zijn) en moet de rest wachten, anders moeten alle aanwezige klantenwachten.

D(m,u) = OFF,ON (2.2)

2.1.3 Overgangsprobabiliteiten

De overgangsprobabiliteiten naar (m′, u′) zijn afhankelijk van de vorige toestand (m,u), debeslissing d die genomen wordt, en het aantal klanten dat toekomt in het systeem tijdens hettijdsslot. De kans dat er n klanten toekomen tijdens een slot noteren we als e(n). Dan geldt:

p(m′, u′|m,u,OFF ) =

∑∞k=N e(k − u) ,m′ = OFF, u′ = N

e(u′ − u) ,m′ = OFF, u′ ≥ u, u′ 6= N

0 , elders

(2.3)

p(m′, u′|m,u,ON) =

∑∞k=N e(k − (u− 1)+) ,m′ = ON, u′ = N

e(u′ − (u− 1)+) ,m′ = ON, u′ ≥ (u− 1)+, u′ 6= N

0 , elders

(2.4)

Page 30: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 17

2.1.4 Koststructuur

In de koststructuur houden we rekening met de volgende kosten:

De opslagkost: ch Het laten wachten van een klant in het systeem gedurende één tijdsslotgaat gepaard met deze kost. We zullen een lineaire opslagkost beschouwen: als er xklanten wachten, dan rekenen we chx aan als kost.

Omschakelkost: cc Deze kost wordt in rekening gebracht als het systeem van actief naarpassief schakelt, of vice versa (en is dus symmetrisch).

Verlieskost: cl Als het systeem volzet is en er klanten moeten worden geweigerd, rekenenwe deze verlieskost aan per verloren klant.

Bedieningskost: cs Dit is de kost verbonden aan het actief zijn van de bedieningseenheid.We zullen veronderstellen dat de kost om in standby te staan nul is. Dit gaat niet tenkoste van de algemeenheid van onze oplossing:

Lemma 1.c′id = cid + ε, ∀i ∈ S, d ∈ D(i) ⇒ δ′∗(i) = δ∗(i), ∀i (2.5)

Bewijs. We lossen het gewijzigde probleem op met waarde-iteratie:

∀i : V ′0(i) = 0 = V0(i) (2.6)

V ′1(i) = mind∈D(i)

c′id + α∑j∈S

p(j|i, d)V ′0(j)

(2.7)

= mind∈D(i)

cid + ε+ α∑j∈S

p(j|i, d)V0(j)

= V1(i) + ε (2.8)

V ′2(i) = mind∈D(i)

c′id + α∑j∈S

p(j|i, d)V ′1(j)

(2.9)

= mind∈D(i)

cid + ε+ α∑j∈S

p(j|i, d)(V1(j) + ε)

(2.10)

= mind∈D(i)

cid + (1 + α)ε+ α∑j∈S

p(j|i, d)V1(j)

= V2(i) + (1 + α)ε (2.11)

. . . (2.12)

Page 31: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 18

V ′t (i) = mind∈D(i)

cid + α∑j∈S

p(j|i, d)Vt−1(j) + εt−1∑n=0

αn

(2.13)

⇒ d′t(i) = arg mind∈D(i)

cid + α∑j∈S

p(j|i, d)Vt−1(j) + εt−1∑n=0

αn

(2.14)

= arg mind∈D(i)

cid + α∑j∈S

p(j|i, d)Vt−1(j)

= dt(i) (2.15)

⇒ δ′∗(i) = limt→∞

d′t(i) = limt→∞

dt(i) = δ∗(i), ∀i ∈ S (2.16)

Als we nu een kost toekennen aan het actief zijn (c1) en aan het passief zijn (c0), dan kunnenwe de koststructuur omvormen zodat cs = c1 − c0 zonder daarmee de optimale strategie tebeïnvloeden.

We kunnen de koststructuur dan als volgt samenvatten:

cm,u,OFF = chu+ ccIm 6=OFF + cl

∞∑j=1

e(N − u+ j)j (2.17)

cm,u,ON = cs + ch(u− 1)+ + ccIm 6=ON + cl

∞∑j=1

e(N + j − (u− 1)+)j (2.18)

waarbij Ix gelijk is aan 1 als x waar is, en gelijk is aan 0 als x vals is.

2.2 Optimale strategie

2.2.1 Bepalen van de optimale strategie

Nu bepalen we de optimale strategie van het systeem in functie van de verschillende kosten.We analyseren een wachtlijnsysteem met een buffergrootte van 20, disconteringsfactor van 0.9en een Poisson aankomstproces. We zoeken de optimale strategie aan de hand van waarde-iteratie. Deze methode is enerzijds vrij eenvoudig te implementeren, en anderzijds is ze in depraktijk ook sneller dan de twee andere methoden die eerder werden besproken. Alleen voorkleine buffergroottes (N < 20) kan strategie-iteratie misschien een snelheidsvoordeel bieden.

Page 32: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 19

2.2.2 Analyse

De optimale strategie blijkt telkens een strategie te zijn waarbij het systeem passief blijft totop een bepaalde drempelwaarde (θ0), waarna het systeem blijft werken tot het terug gezakt isnaar een tweede drempelwaarde (θ1 ≤ θ0):

δ∗(OFF, u) =

OFF , u < θ0

ON , u >= θ0(2.19)

δ∗(ON, u) =

OFF , u < θ1

ON , u >= θ1(2.20)

In de meeste gevallen is de tweede drempelwaarde gelijk aan nul. Men kan dit intuïtief inziendoor een oneindige buffer te beschouwen. Voor een oneindige buffer zal het niet lonen omdeze drempelwaarde groter dan nul te nemen. Dit zou er namelijk op neer komen dat menin regime nooit minder klanten in het systeem kan hebben dan deze drempelwaarde. Alsde opslagkost groter is dan nul zal het dus altijd lonen om te blijven werken tot het systeemhelemaal leeg is.

We beschouwen die oplossingen waarvoor die tweede drempelwaarde nul is. Dit zijn strate-giën waarbij het systeem passief blijft tot er een bepaald aantal klanten in het systeem (i.e.de drempelwaarde) aanwezig is, waarna het blijft werken tot het systeem terug leeg is. Voorsommige combinaties van de parameters (de kosten, de aankomstintensiteit, enz...) ligt dedrempelwaarde op 1 (i.e. de standaardstrategie) of op N + 1 (i.e. nooit werken). We zijngeïnteresseerd in die gevallen waarbij de drempelwaarde tussen 1 en N ligt. Een dergelijkestrategie wordt in de literatuur een N-strategie (Eng.: N-policy) genoemd [7],[9].

δ∗(m,u) =

OFF , u = 0 of m = OFF, u < θ

ON , elders(2.21)

We vinden dat de optimale drempelwaarde vaak bepaald wordt door een dominante omscha-kelkost of verlieskost. Bij een dominante omschakelkost bedoelen we dat het systeem hetliefst altijd zou bedienen indien mogelijk (omdat de opslagkost bijvoorbeeld relatief grootis ten opzichte van bedieningskost), maar toch het moment uitstelt waarop het begint tewerken omdat er anders te veel omschakelingen zouden zijn. Bij een dominante verlieskostwil het systeem liefst nooit werken (omdat een bediening te duur is bijvoorbeeld) maar omdatvanaf een bepaalde bufferbezetting de verwachte verlieskost te groot wordt begint het toch tewerken.

We zoeken met behulp van een numeriek algoritme de waarden voor de verschillende kostenwaarvoor de optimale drempelwaarde θ∗ één eenheid stijgt. Op die manier kunnen we hetverband tussen de optimale drempelwaarde en de verschillende parameters onderzoeken.

Page 33: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 20

Bedieningskost

De invloed van de bedieningskost op de optimale drempelwaarde (Figuur 2.1) is zoals ver-wacht. Een hogere bedieningskost levert een grotere drempelwaarde op. Wat wel opvaltis dat de drempelwaarde almaar sneller toeneemt naarmate de bedieningskost dichter bijeen bepaalde limietwaarde komt. Als de bedieningskost groter is dan deze waarde (in ditgeval 10), dan wordt de tweede drempelwaarde zoals eerder vermeld, groter dan nul. Ditkomt omdat de verlieskost dan niet groot genoeg meer is ten opzichte van de bedieningskost,en het systeem dus liever klanten ziet verloren gaan dan de laatste klanten te bedienen. Dedominante kost is in dit geval de verlieskost: het systeem werkt omdat de bufferbezettinganders oploopt en de verwachte verlieskost te groot zou worden.

Voor een lage omschakelkost (cc = 1) en relatief lage bedieningskost is de optimale strategiede standaardstrategie. Voor cc = 5 en een relatief lage bedieningskost vinden we een optimalestrategie waarbij het systeem altijd actief blijft, ook als het leeg is. Dit komt uiteraard door derelatief hoge omschakelkost.

0 2 4 6 8 100

5

10

15

20

ch = 1cl = 400λ = 0.4

Bedieningskost cs

Opt

imal

edr

empe

lwaa

rde

cc = 1cc = 5

Figuur 2.1: Invloed van de bedieningskost op de optimale drempelwaarde: een hogere be-dieningskost zorgt voor een grotere drempelwaarde. Boven een bepaalde limiet prefereerthet systeem om klanten te verliezen dan om de laatste te bedienen. Voor een lage bedie-ningskost en relatief hoge omschakelkost gaat het systeem nooit in standby, waardoor dedrempelwaarde daar niet gedefinieerd is.

Page 34: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 21

Opslagkost

Op Figuur 2.2 zien we de invloed van de opslagkost op de optimale drempelwaarde. Dedrempelwaarde neemt exponentieel af bij een stijgende opslagkost. Voor een lage opslagkostprimeert de bedieningskost en zal het systeem langer wachten met bedienen. Het is namelijkrelatief goedkoop om klanten te laten wachten. Voor een hoge opslagkost zal het systeembeginnen werken van zodra er een klant is toegekomen, omdat het uiteindelijk goedkoper ishem te bedienen dan hem te laten wachten.Wat we hieruit kunnen afleiden is dat het niet loont af te wijken van de standaardstrategie(een klant bedienen van zodra hij beschikbaar is) als de kosten direct verbonden aan debufferbezetting relatief groot zijn.

1 1.5 2 2.5 3 3.5 40

2

4

6

8

10

12

14

16

18

20

cc = 5cl = 400λ = 0.4

Opslagkost ch

Dre

mpe

lwaa

rde

cs = 9.7cs = 4.85

Figuur 2.2: Invloed van de opslagkost op de optimale drempelwaarde: die neemt exponentieelaf bij een stijgende opslagkost.

Als men beslist een klant te laten wachten kan men de bedieningskost uitstellen. Aangeziende kosten gedisconteerd worden is dit een besparing. Maar de extra opslagkost weegt almaarminder op tegen deze besparing als ch groter wordt.

Page 35: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 22

Omschakelkost

Figuur 2.3 toont de invloed van de omschakelkost op de optimale drempelwaarde. Die stijgtnaarmate de omschakelkost stijgt. Het systeem zal namelijk langer wachten met omschakelenals de omschakelkost groot is, waardoor de drempelwaarde stijgt. Een grotere drempelwaardegeeft namelijk een langere gemiddelde tijd tussen twee omschakelingen.

0 2 4 6 8 10 12 14 16 18 200

2

4

6

8

10

12

14

16

18

20

ch = 1cl = 400λ = 0.4

Omschakelkost cc

Dre

mpe

lwaa

rde

cs = 9.7cs = 4.85

Figuur 2.3: Invloed van de omschakelkost op de optimale drempelwaarde: een hogereomschakelkost zorgt voor later omschakelen en dus een grotere drempelwaarde.

Page 36: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 23

Verlieskost

Bij een stijgende verlieskost daalt de optimale drempelwaarde bij benadering lineair op eenlogaritmische schaal (Figuur 2.4) omdat bij een Poisson aankomstproces het verwacht aantalverloren klanten nagenoeg exponentieel stijgt in functie van het aantal klanten in het systeem(Figuur 2.5)

102 103 104 105 106 10710

12

14

16

18

Verlieskost cl

Dre

mpe

lwaa

rde

cs = 9.7cs = 9.4

ch = 1cc = 5λ = 0.4

Figuur 2.4: Invloed van de verlieskost op de optimale drempelwaarde: de drempelwaardedaalt bij benadering lineair op een logaritmische schaal.

0 2 4 6 8 10 12 14 16 18 2010−31

10−25

10−19

10−13

10−7

10−1

Aantal klanten in het systeem

Verw

acht

aant

alve

rlor

enkl

ante

n

λ = 0.6λ = 0.4

N = 20

Figuur 2.5: Het verwacht aantal verloren klanten in een systeem met een Poisson aankomst-proces stijgt ongeveer exponentieel met het aantal klanten in het systeem.

Page 37: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 24

Aankomstproces

Als de drempelwaarde voornamelijk bepaald wordt door de verlieskost (d.w.z. het systeembegint opnieuw te werken omdat de verwachte verlieskost te groot wordt), dan daalt deoptimale drempelwaarde naarmate de aankomstintensiteit toeneemt (zie Figuur 2.6). Ditkomt door de stijging in het verwacht aantal verloren klanten (en bijhorende kost) en inmindere mate door de opslagkost voor de extra klanten in het systeem.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

2

4

6

8

10

12

14

16

18

20

cs = 9.7ch = 1cc = 5cl = 400

Aankomstintensiteit λ

Opt

imal

edr

empe

lwaa

rde

PoissonGeometrisch

Figuur 2.6: Invloed van het aankomstproces op de optimale drempelwaarde: een grotereaankomstintensiteit geeft een kleinere drempelwaarde als de dominerende kost de verlieskostis. De drempelwaarde is lager voor een geometrisch aankomstproces dan voor een Poissonproces

Als de omschakelkost dominant is (d.w.z. dat het systeem het moment uitstelt waarop hetbegint te werken omdat er anders teveel omschakelingen zouden zijn), dan is de optimaledrempelwaarde maximaal voor λ ' 1

2 . Merk op dat in deze situatie, waarbij de verlieskostniet bepalend is, dit systeem ook als een oneindig systeem kan gemodelleerd worden. Theo-retische resultaten voor het oneindig systeem volgen verderop, en bevestigen de resultatenuit Figuur 2.7.

Page 38: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 25

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

1

2

3

4

5

6

cs = 15ch = 1cc = 10cl = 50α = 0.99

Aankomstintensiteit λ

Opt

imal

edr

empe

lwaa

rde

PoissonGeometrisch

Figuur 2.7: Invloed van de aankomstintensiteit op de optimale drempelwaarde: de optimaledrempelwaarde wordt maximaal als de aankomstintensiteit rond 1

2 ligt, als de dominerendekost de omschakelkost is.

We stellen vast op Figuur 2.6 en 2.7 dat een geometrisch aankomstproces aanleiding geefttot een optimale strategie met lagere drempelwaarde dan een Poisson aankomstproces metgelijke aankomstintensiteit. Dit kunnen we verklaren door de grotere variantie van de ge-ometrische distributie (λ(1 + λ)) in vergelijking met de Poisson distributie (λ). Een groterevariantie zorgt ervoor dat de kans op een relatief groot aantal aankomsten tijdens één slottoeneemt. Hierdoor neemt niet alleen de verwachte verlieskost substantieel toe, maar ditzorgt ook voor een toename in de verwachte toekomstige opslagkost. Dit zorgt ervoor dat ersneller moet worden bediend.

Voor kleine λ is een kleinere drempelwaarde interessant omdat in de passieve modus deweinige klanten die in het systeem aanwezig zijn anders zeer lang zouden moeten wachtentot de drempelwaarde bereikt wordt, waarna ze bediend worden. Voor grote λ is een kleineredrempelwaarde ook interessant omdat de kans dat de bufferbezetting snel daalt tot een lagedrempelwaarde zeer klein is, waardoor er minder moet worden omgeschakeld.

Page 39: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 26

Disconteringsfactor

De disconteringsfactor α speelt ook een grote rol in de optimale strategie, zoals te zien is opFiguur 2.8. Een grote disconteringsfactor betekent dat we veel belang hechten aan de toekom-stige kosten. We zullen dan de drempelwaarde lager moeten nemen omdat de opslagkost enverlieskost in de toekomst belangrijker worden. Het resultaat is een exponentieel dalend ge-drag van de drempelwaarde in functie van de disconteringsfactor. Als de disconteringsfactornaar 1 gaat, nadert de optimale drempelwaarde tot een bepaalde limietwaarde.

0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 10

2

4

6

8

10

12

14

16

18

20

Disconteringsfactor α

Dre

mpe

lwaa

rde

cs = 8cs = 9.7

ch = 1cc = 5cl = 400λ = 0.4

Figuur 2.8: Invloed van de disconteringsfactor op de optimale drempelwaarde: bij een grotedisconteringsfactor is een kleinere drempelwaarde optimaal.

Dit toont aan dat men de disconteringsfactor zorgvuldig moet kiezen. Men kan zich daarvoorbest baseren op de economische context van het probleem.

Page 40: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 27

Buffergrootte

Als we de optimale drempelwaarde relatief uitdrukken tegenover de buffergrootte, kunnenwe dit uitzetten zoals in Figuur 2.9.

Op de figuur zien we dat voor een lage bedieningskost de optimale drempelwaarde constantblijft met toenemende buffergrootte en dus procentueel naar nul gaat. Dit komt namelijkomdat daar de verlieskost geen invloed heeft op de drempelwaarde. Het zijn de anderekosten die er voor zorgen dat het op een gegeven moment goedkoper wordt om te bedienen.Aangezien de buffergrootte enkel een rechtstreekse invloed heeft op de verlieskost blijftdaardoor de optimale drempelwaarde constant.

10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Buffergrootte

Dre

mpe

lwaa

rde

(%va

nde

buff

ergr

oott

e)

cs = 9.7cs = 6

ch = 1cc = 5cl = 400λ = 0.4

Figuur 2.9: Invloed van de buffergrootte op de optimale drempelwaarde: bij een lage bedie-ningskost blijft de drempelwaarde constant, bij een hoge bedieningskost blijft het verschiltussen buffergrootte en drempelwaarde constant.

We zien ook het omgekeerde effect. Voor een hoge bedieningskost wordt de optimale drempel-waarde bepaald door de verlieskost. Het systeem zal beginnen werken omdat de verlieskostanders te hoog wordt. Hierdoor blijft het verschil tussen buffergrootte en de optimale drem-pelwaarde constant, en dus nadert de drempelwaarde procentueel naar één.

Page 41: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 28

2.3 Performantie

Voorlopig hebben we enkel gezocht naar de optimale strategie. We willen echter ook wetenhoeveel beter deze strategie is dan pakweg de standaardstrategie. Dit is de strategie metdrempelwaarde één, een klant die toekomt in een leeg systeem wordt dus altijd onmiddelijkbediend. Daarvoor onderzoeken we de performantie van een drempelwaardestrategie infunctie van de drempelwaarde. Hiervoor vergelijken we de totale verwachte gedisconteerdekost voor een ledig systeem in passieve modus.

We stellen vast op Figuur 2.10 dat een drempelwaardestrategie wel degelijk een grote verbe-tering kan zijn ten opzichte van de standaardstrategie. De optimale strategie is echter nietzeer gevoelig voor de exacte drempelwaarde. Men kan gerust een iets grotere of kleineredrempelwaarde gebruiken als dit beter zou uitkomen (bijvoorbeeld om de doorlooptijd niette hoog te laten oplopen).

0 2 4 6 8 10 12 14 16 18 2028

30

32

34

36

38

40

42

44

46

48

Drempelwaarde

Tota

leve

rwac

hte

gedi

scon

teer

deko

st

cs = 8cs = 6ch = 1cc = 5cl = 400λ = 0.4

Figuur 2.10: De performantie van het systeem in functie van de drempelwaarde: de optimalestrategie kan veel beter zijn dan de standaardstrategie (drempelwaarde 1). De performantieis niet zeer gevoelig voor de exacte drempelwaarde.

Om de performantie te bestuderen, definiëren we de efficiëntie η van een strategie als volgt:

η = limt→∞ V∗t (OFF, 0)

limt→∞ Vt(OFF, 0) (2.22)

waarbij Vt(s) de totale verwachte gedisconteerde kost is als men in toestand s begint, en V ∗t (s)dezelfde kost is voor de optimale strategie.

De efficiëntie is dan niets anders dan de minimale totale verwachte gedisconteerde kost ten

Page 42: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 29

opzichte van de totale verwachte gedisconteerde kost voor die strategie. η is één voor eenoptimale strategie en kleiner dan één voor een sub-optimale strategie. In Figuur 2.10 is deefficiëntie van de standaardstrategie 74% voor cs = 8 en 76% voor cs = 6.

Buffergrootte

Op Figuur 2.11 en Figuur 2.12 is de totale verwachte gedisconteerde kost uitgezet voor ver-schillende buffergroottes.

In Figuur 2.11 is de dominante kost de omschakelkost. In dat geval blijft de optimale drempel-waarde in absolute waarde constant voor stijgende buffergroottes. Procentueel ten opzichtevan de buffergrootte daalt de drempelwaarde uiteraard.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 126

28

30

32

34

36

38

40

N = 20

N = 40

N = 60

N = 80

Drempelwaarde (%)

Tota

leve

rwac

hte

gedi

scon

teer

deko

st

cs = 6ch = 1cc = 5cl = 400λ = 0.4

Figuur 2.11: Invloed van de buffergrootte op de performantie: de optimale drempelwaardeblijft constant op θ = 4. De kost van de optimale en standaardstrategie blijven gelijk.

Page 43: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 30

In Figuur 2.12 is de verlieskost dominant. De optimale drempelwaarde stijgt nu mee met debuffergrootte: het verschil N − θ blijft constant.

We merken in beide figuren op dat de totale verwachte gedisconteerde kost van zowel destandaardstrategie als de optimale strategie nagenoeg gelijk blijft voor verschillende buf-fergroottes. De kost van de standaardstrategie blijft gelijk omdat daar de invloed van deverlieskost verwaarloosbaar is en dus de buffergrootte geen invloed heeft op die kost. De kostvan de optimale strategie blijft gelijk omdat, zoals reeds eerder uitgelegd, de optimale drem-pelwaarde ofwel bepaald wordt door bedienings-, opslag-, en omschakelkost (Figuur 2.11)ofwel door de verlieskost (Figuur 2.12). In beide gevallen heeft de buffergrootte geen invloedop de kost van de optimale strategie omdat ofwel de verlieskost verwaarloosbaar is ofwelomdat het verschil tussen buffergrootte en optimale drempelwaarde constant blijft (en deverlieskost dus gelijk blijft).

Voor N = 20 en een grote drempelwaarde merken we in beide figuren een stijging in totaleverwachte gedisconteerde kost, die we niet kunnen verklaren.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

36

38

40

42

44

46

48

50

52

54

N = 20

N = 40

N = 60

N = 80

Drempelwaarde (%)

Tota

leve

rwac

hte

gedi

scon

teer

deko

st

cs = 9.7ch = 1cc = 5cl = 400λ = 0.4

Figuur 2.12: Invloed van de buffergrootte op de performantie: het verschil tussen de buffer-grootte en de optimale drempelwaarde blijft constant op N − θ = 3. De kost van de optimaleen standaardstrategie blijven gelijk.

Page 44: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 31

2.4 Oneindige wachtlijnsystemen met een drempelwaardestrategie

In de vorige secties vonden we dat de optimale strategie om klanten te bedienen meestal eendrempelwaardestrategie is. In dit deel analyseren we analoge oneindige wachtlijnsystemenmet dergelijke strategieën. Door opnieuw kosten toe te kennen aan bepaalde gebeurtenissenproberen we de optimale drempelwaarde te bepalen.

In tegenstelling tot de vorige analyses, optimaliseren we nu de verwachte kost per slot, omdatdeze kost relatief eenvoudig kan afgeleid worden uit de regimedistributie van de bufferbe-zetting. Dit komt overeen met het limietgeval voor α naar één. Daardoor kunnen we deresultaten uit deze analyse vergelijken met die voor het systeem met eindige buffercapaciteit.

De koststructuur voor oneindige wachtlijnsystemen bevat uiteraard geen verlieskosten (wantalle klanten worden bediend). Bovendien zijn er geen bedieningskosten nodig in onze analyse:elke klant moet namelijk bediend worden en door het gebrek aan discontering is dit dus eenvaste kost.

Hier is nog niet veel onderzoek naar gedaan. Hernández-Díaz en Moreno [2] hebben eensoortgelijke analyse gedaan, maar er zijn enkele belangrijke verschillen: ze gaan uit vaneen strategie waarbij klanten het systeem verlaten in het begin van een slot en ze voorzienuitgangsonderbrekingen en omschakeltijden.

2.4.1 Bufferanalyse

Het doel van deze analyse is tot een uitdrukking te komen voor de gemiddelde kost per slot infunctie van de drempelwaarde van de gebruikte strategie. Op die manier kan dan de optimaledrempelwaarde bepaald worden. Hiervoor stellen we eerst de systeemvergelijkingen op,bepalen dan de genererende functie van de bufferbezetting en de overblijvende constanten.Het resultaat daarvan gebruiken we om de kost uit te drukken.

Systeemvergelijkingen

De toestand van het systeem op tijdstip k is (mk−1, uk), met mk−1 de modus van het systeemin het vorige slot en uk de bufferbezetting bij het begin van slot k. Het aantal aankomsten inslot k noteren we als ek. Voor een drempelwaardestrategie (met drempelwaarde θ) kunnenwe dan volgende vergelijkingen opstellen1:

uk+1 = uk + ek −mk (2.23)

mk =

0 ,mk−1 = 0, 0 ≤ uk ≤ θ of mk−1 = 1, uk = 01 , elders

(2.24)

1In de vorige secties was de drempelwaarde gedefinieerd als de kleinste waarde voor uk waarvoor opnieuwgewerkt wordt als mk−1 = 0. Hier is de drempelwaarde de grootste waarde voor uk waarvoor het systeempassief blijft als mk−1 = 0, omdat deze definitie de analyse minder complex maakt. We gebruiken in dit stukdaarom de notatie θ om het onderscheid te maken.

Page 45: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 32

Bufferbezetting

We zullen volgende notaties gebruiken:

e(n) = limk→∞

Prob[ek = n] (2.25)

E(z) =∞∑n=0

e(n)zn (2.26)

λ = E′(1) = limk→∞

E[ek] (2.27)

pi,j = limk→∞

Prob[mk−1 = i, uk = j] (2.28)

Pi(z) =∞∑j=0

pi,jzj (2.29)

P (x, z) =1∑i=0

∞∑j=0

pi,jxizj = P0(z) + xP1(z) (2.30)

U(z) = limk→∞

∞∑j=0

Prob[uk = j]zj = P0(z) + P1(z) (2.31)

Θ(z) =θ∑j=0

p0,jzj (2.32)

We proberen nu P (x, z) op een andere manier te schrijven in functie van P0(z) en P1(z). Alswe dan de coëfficiënten van de machten van x in beide uitdrukkingen gelijkstellen, kunnenwe de partiële genererende functies P0(z) en P1(z) bepalen. Daaruit kunnen we dan U(z)berekenen.

P (x, z) = limk→∞

E[xmkzuk+1 ] = limk→∞

E[xmkzuk+ek−mk ]

= E(z)×limk→∞

Prob[mk−1 = 0]E[(x

z

)mkzuk |mk−1 = 0] (2.33)

+ limk→∞

Prob[mk−1 = 1]E[(x

z

)mkzuk |mk−1 = 1]

(2.34)

Page 46: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 33

We werken beide termen, (2.33) en (2.34), apart uit als volgt:

(2.33) = limk→∞

Prob[mk−1 = 0]1∑i=0

∞∑j=0

Prob[mk = i, uk = j|mk−1 = 0](x

z

)izj

= limk→∞

1∑i=0

∞∑j=0

Prob[mk = i|mk−1 = 0, uk = j]Prob[mk−1 = 0, uk = j](x

z

)izj

= limk→∞

θ∑j=0

Prob[mk−1 = 0, uk = j]zj + x

z

∞∑j=θ+1

Prob[mk−1 = 0, uk = j]zj

=θ∑j=0

p0,jzj + x

z

∞∑j=0

p0,jzj −

θ∑j=0

p0,jzj

= Θ(z) + x

z[P0(z)−Θ(z)] (2.35)

Analoog vinden we voor de tweede term:

(2.34) = limk→∞

Prob[mk−1 = 1]1∑i=0

∞∑j=0

Prob[mk = i, uk = j|mk−1 = 1](x

z

)izj

= limk→∞

1∑i=0

∞∑j=0

Prob[mk = i|mk−1 = 1, uk = j]Prob[mk−1 = 1, uk = j](x

z

)izj

= limk→∞

Prob[mk−1 = 1, uk = 0] + x

z

∞∑j=1

Prob[mk−1 = 1, uk = j]zj

= P1(0) + x

z[P1(z)− P1(0)] (2.36)

Dus kunnen we P (x, z) als volgt schrijven:

P (x, z) = E(z)

Θ(z) + x

z[P0(z)−Θ(z)] + P1(0) + x

z[P1(z)− P1(0)]

(2.37)

= P0(z) + xP1(z) (2.38)

P0(z) = E(z) [P1(0) + Θ(z)]P1(z) = E(z)

z [P1(z)− P1(0) + P0(z)−Θ(z)](2.39)

⇒ P1(z) = E(z)E(z)− 1z − E(z) [P1(0) + Θ(z)]

⇒ U(z) = P0(z) + P1(z) = E(z) z − 1z − E(z) [P1(0) + Θ(z)] (2.40)

De probabiliteiten p0,n (0 ≤ n ≤ θ) kunnen we als volgt (recursief) bepalen:

Als in slot k de modus 1 is, dan moet uk = 0 om in slot k + 1 de modus op 0 te krijgen. Dekans dat er in slot k+1 dan n klanten in het systeem aanwezig zijn, is de kans dat er n klantenin slot k zijn toegekomen.

Page 47: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 34

Als mk = 0, dan wordt de kans dat uk+1 = n gegeven door de kans dat er n− uk klanten zijntoegekomen in slot k.

Prob[uk+1 = n,mk = 0] = Prob[uk = 0,mk−1 = 1]Prob[ek = n]

+n∑i=0

Prob[uk = i,mk−1 = 0]Prob[ek = n− i], 0 ≤ n ≤ θ (2.41)

In regime wordt dit:

p0,n = e(n)p1,0 +n∑i=0

p0,ie(n− i) (2.42)

Als we π0,n (0 ≤ n) definiëren door deze recursieve relatie, dan geldt:

π0,n = e(n)p1,0 +n∑i=0

π0,ie(n− i) (2.43)

Definiëren we nu

Π(z) =∞∑n=0

π0,nzn (2.44)

en vermenigvuldigen we (2.43) met zn en sommeren over n, dan volgt:

Π(z) = p1,0

∞∑n=0

e(n)zn +∞∑n=0

n∑i=0

π0,ie(n− i)zn

= P1(0)∞∑n=0

e(n)zn +∞∑i=0

∞∑n=i

π0,ie(n− i)zn

= E(z)P1(0) +∞∑i=0

π0,izi∞∑n=0

e(n)zn

= E(z)P1(0) + E(z)Π(z)

⇒ Π(z) = E(z)P1(0)1− E(z) (2.45)

Merk op dat vanwege (2.44) de eerste θ + 1 termen van Π(z) net Θ(z) vormen. Door eeninverse transformatie van Π(z) kunnen we dus p0,n (0 ≤ n ≤ θ) bepalen. p1,0 kunnen we viade normeringsvoorwaarde bepalen:

U(1) = 1

⇒ (P1(0) + Θ(1)) limz→1

z − 1z − E(z) = 1

p1,0 +θ∑

n=0p0,n

11− λ = 1

⇒ p1,0 = 1− λ−θ∑

n=0p0,n (2.46)

Page 48: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 35

Uit vergelijking (2.39) volgt dan de probabiliteit op een omschakeling in regime pswitch:

P0(1) =∞∑n=0

p0,n = P1(0) +θ∑

n=0p0,n (2.47)

⇒ P1(0) = p1,0 =∞∑

n=θ+1

p0,n (2.48)

⇒ pswitch = limk→∞

Prob[uk = 0,mk−1 = 1] +∞∑

n=θ+1

Prob[uk = n,mk−1 = 0]

= p1,0 +∞∑

n=θ+1

p0,n = 2p1,0 (2.49)

De gemiddelde totale kost kunnen we dan zo schrijven:

E[cost] = ch limk→∞

E[uk] + cc

p1,0 +∞∑

n=θ+1

p0,n

= chU

′(1) + 2ccp1,0 (2.50)

Page 49: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 36

2.4.2 Geometrisch verdeeld aankomstproces

We werken dit resultaat verder uit voor twee eenvoudige aankomstprocessen: de geometri-sche en Bernoulli distributie. Voor een geometrisch verdeeld aankomstproces geldt:

E(z) = 11− λ(z − 1) (2.51)

⇒ Π(z) = P1(0) 1λ(1− z) = P1(0)

λ

∞∑n=0

zn (2.52)

⇒ π0,n = P1(0) 1λ

(2.53)

⇒ Θ(z) = P1(0)λ

zθ+1 − 1z − 1 (2.54)

Met dit resultaat kunnen we de bufferbezetting in regime bepalen:

U(z) = P1(0)1− λz

(1 + zθ+1 − 1

λ(z − 1)

)(2.55)

U(1) = 1⇒ P1(0) = λ(1− λ)θ + λ+ 1

(2.56)

U(z) = λ(1− λ)θ + λ+ 1

11− λz

(1 + zθ+1 − 1

λ(z − 1)

)(2.57)

De gemiddelde bufferbezetting is dan:

U ′(1) = λ

1− λ + 12θ(θ + 1)θ + λ+ 1

(2.58)

Voor θ = 0 komt dit neer op de gemiddelde bufferbezetting voor de standaardstrategie(vergelijking 1.8):

E[u] = λ+ E′′(1)2(1− λ) = λ

1− λ (2.59)

Uiteindelijk bepalen we de gemiddelde totale kost als:

E[cost] = ch

λ

1− λ + 12θ(θ + 1)θ + λ+ 1

+ 2cc

λ(1− λ)θ + λ+ 1

(2.60)

De optimale drempelwaarde wordt gegeven door

θ∗ = arg minθ∈N

E[cost]

= arg minθ∈N

12θ(θ + 1)θ + λ+ 1

+ 2ζ λ(1− λ)θ + λ+ 1

(2.61)

met ζ = ccch

.

Page 50: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 37

Analyse

Als we de bekomen uitdrukking voor de gemiddelde kost bestuderen (zie Figuur 2.13),merken we op dat de gemiddelde opslagkost bij benadering recht evenredig is met de drem-pelwaarde. De gemiddelde omschakelkost is omgekeerd evenredig met de drempelwaarde.De totale kost bereikt hierdoor een minimum voor een bepaalde drempelwaarde θ.

0 5 10 15 20 25 300

5

10

15

20

25

30

35

ch = 1cc = 100λ = 0.5

Drempelwaarde θ

Gem

idde

lde

kost

Totale kostOpslagkost

Omschakelkost

Figuur 2.13: De gemiddelde kost per slot in functie van de drempelwaarde bij een oneindigwachtlijnsysteem met een geometrisch verdeeld aankomstproces. De opslagkost is bij bena-dering recht evenredig met de drempelwaarde. De omschakelkost is omgekeerd evenredigmet de drempelwaarde.

Op Figuur 2.14 merken we op dat de optimale drempelwaarde maximaal is voor een aan-komstintensiteit rond 1

2 , omdat dan het systeem het meest moet omschakelen.De kans dat men in een toestand zit waar omgeschakeld wordt, is nl. de volgende:

pswitch = 2P1(0) = 2 λ(1− λ)θ + λ+ 1

(2.62)

Deze uitdrukking wordt maximaal als λ = 12 .

Dit is in overeenstemming met de resultaten uit de vorige sectie voor systemen met eeneindige buffercapaciteit, waar de omschakelkost dominant is ten opzichte van de verlieskost.We stellen ook vast op Figuur 2.15 dat de optimale drempelwaarde toeneemt met stijgendekostratio ζ. Als het omschakelen namelijk duurder wordt, dan neemt men best een groteredrempelwaarde zodat men minder moet omschakelen.

Page 51: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 38

0 0.2 0.4 0.6 0.8 10

2

4

6

8

10

12

14

Aankomstintensiteit λ

Opt

imal

edr

empe

lwaa

rdeθ∗

ζ = 150ζ = 100ζ = 50

Figuur 2.14: Invloed van de aankomstintensiteit op de optimale drempelwaarde bij een on-eindig wachtlijnsysteem met een geometrisch verdeeld aankomstproces: de drempelwaardebereikt een maximum voor een aankomstintensiteit rond 0.5

0 20 40 60 80 100 120 140 160 180 2000

2

4

6

8

10

12

14

Kostratio ζ

Opt

imal

edr

empe

lwaa

rdeθ∗

λ = 0.05λ = 0.20λ = 0.35λ = 0.50

Figuur 2.15: Invloed van de koststructuur op de optimale drempelwaarde bij een oneindigwachtlijnsysteem met een geometrisch verdeeld aankomstproces: de drempelwaarde stijgtnaarmate de omschakelkost toeneemt t.o.v. de opslagkost.

Page 52: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 39

2.4.3 Bernoulli verdeeld aankomstproces

Voor een Bernoulli verdeeld aankomstproces geldt:

E(z) = 1− λ+ λz (2.63)

⇒ Π(z) = P1(0)1− λ+ λz

λ(1− z) (2.64)

= P1(0)(

1− λλ

∞∑n=0

zn +∞∑n=1

zn)

= P1(0)λ

(1− λ+

∞∑n=1

zn)

⇒ π0,0 = P1(0)1− λλ

(2.65)

⇒ π0,n = P1(0) 1λ, n ≥ 0 (2.66)

⇒ Θ(z) = P1(0)λ

(1− λ+ zθ+1 − z

z − 1

)(2.67)

Met dit resultaat kunnen we de bufferbezetting in regime bepalen:

U(z) = 1− λ+ λz

λ(1− λ)zθ+1 − 1z − 1 P1(0) (2.68)

U(1) = 1⇒ P1(0) = λ(1− λ)θ + 1

(2.69)

U(z) = 1− λ+ λz

θ + 1zθ+1 − 1z − 1 (2.70)

De gemiddelde bufferbezetting is dan:

U ′(1) = λ+ θ

2 (2.71)

Voor θ = 0 komt dit neer op de gemiddelde bufferbezetting voor de standaardstrategie(vergelijking 1.8):

E[u] = λ+ E′′(1)2(1− λ) = λ (2.72)

Uiteindelijk bepalen we de gemiddelde totale kost als:

E[cost] = ch

(λ+ θ

2

)+ 2cc

λ(1− λ)θ + 1

(2.73)

Page 53: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 40

De optimale drempelwaarde wordt gegeven door

θ∗ = arg minθ∈N

E[cost]

= arg minθ∈N

θ

2 + 2ζ λ(1− λ)θ + 1

(2.74)

met ζ = ccch

.

Door de uitdrukking voor de gemiddelde kost af te leiden naar θ en gelijk te stellen aan nul,bekomen we een uitdrukking voor de optimale drempelwaarde2:

∂θE[cost] = 1

2 − 2ζ λ(1− λ)(θ + 1)2

= 0 (2.75)

⇔ θ = −1 + 2√ζλ(1− λ) (2.76)

Analyse

We stellen opnieuw vast dat de totale gemiddelde kost voor kleine drempelwaarden bepaaldwordt door de omschakelkost, terwijl voor grote drempelwaarden de opslagkost domineert(Figuur 2.16).

We merken ook opnieuw op dat de uitdrukking voor de optimale drempelwaarde symme-trisch is in de aankomstintensiteit, en maximaal wordt voor λ = 0.5 (Figuur 2.17). Dit stemtweer overeen met de resultaten voor het systeem met eindige capaciteit.

Verder is ook duidelijk dat de optimale drempelwaarde toeneemt naarmate de omscha-kelkost toeneemt t.o.v. de opslagkost (Figuur 2.18). Uit de uitdrukking die we hierbovenhebben afgeleid zien we namelijk dat de optimale drempelwaarde recht evenredig is met devierkantswortel van de kostratio.

2Deze uitdrukking levert uiteraard niet altijd een natuurlijk getal op en moet dus nog gepast worden afgerond.Bovendien kan ze negatief worden. In dat geval is θ∗ = 0.

Page 54: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 41

0 5 10 15 20 25 300

10

20

30

40

50

ch = 1cc = 100λ = 0.5

Drempelwaarde θ

Gem

idde

lde

kost

Totale kostOpslagkost

Omschakelkost

Figuur 2.16: De gemiddelde kost per slot in functie van de drempelwaarde bij een onein-dig wachtlijnsysteem met een Bernoulli verdeeld aankomstproces. De opslagkost is rechtevenredig met de drempelwaarde. De omschakelkost is omgekeerd evenredig met de drem-pelwaarde.

0 0.2 0.4 0.6 0.8 10

2

4

6

8

10

12

Aankomstintensiteit λ

Opt

imal

edr

empe

lwaa

rdeθ∗

ζ = 50ζ = 100ζ = 150

Figuur 2.17: Invloed van de aankomstintensiteit op de optimale drempelwaarde bij eenoneindig wachtlijnsysteem met een Bernoulli verdeeld aankomstproces: de optimale drem-pelwaarde bereikt een maximum rond λ = 0.50

Page 55: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 42

0 20 40 60 80 100 120 140 160 180 2000

2

4

6

8

10

12

14

Kostratio ζ

Opt

imal

edr

empe

lwaa

rdeθ∗

λ = 0.05λ = 0.20λ = 0.35λ = 0.50

Figuur 2.18: Invloed van de koststructuur op de optimale drempelwaarde bij een oneindigwachtlijnsysteem met een Bernoulli verdeeld aankomstproces: de drempelwaarde stijgtnaarmate de omschakelkost toeneemt t.o.v. de opslagkost.

2.4.4 Vergelijking

We stellen vast op Figuur 2.19 dat voor λ = 12 de gemiddelde opslagkost per slot altijd

groter is voor een geometrisch aankomstproces. Voor θ = 0 is het verschil in gemiddeldeopslagkost per slot namelijk ch λ2

λ−1 , terwijl voor θ →∞ het verschil 12ch

λ(3λ−1)1−λ is. Dus voor

λ > 13 is de gemiddelde opslagkost altijd groter voor een geometrisch aankomstproces. Voor

λ < 13 wordt het geometrisch aankomstproces goedkoper vanaf een bepaalde drempelwaarde.

0 2 40

1

2

3

4

Drempelwaarde θ

Gem

idde

lde

opsl

agko

st

BernoulliGeometrisch

(a) λ = 0.2

0 10 20 300

5

10

15

20

Drempelwaarde θ

Gem

idde

lde

opsl

agko

st

BernoulliGeometrisch

(b) λ = 0.5

Figuur 2.19: Een vergelijking van de gemiddelde opslagkost per slot in functie van de drempel-waarde bij een oneindig systeem voor Bernoulli en geometrisch verdeelde aankomstprocessen.ch = 1, cc = 100

Page 56: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 43

Voor de gemiddelde omschakelkost per slot (Figuur 2.20) is het Bernoulli aankomstprocesaltijd duurder. Bij θ = 0 is het verschil 2ccλ2 1−λ

1+λ . Voor θ →∞ gaat het verschil naar nul, zoalsop de figuur te zien is.

10 20 300

2

4

6

8

10

Drempelwaarde θ

Gem

idde

lde

omsc

hake

lkos

t

BernoulliGeometrisch

(a) λ = 0.2

10 20 300

2

4

6

8

10

Drempelwaarde θG

emid

deld

eom

scha

kelk

ost

BernoulliGeometrisch

(b) λ = 0.5

Figuur 2.20: Een vergelijking van de gemiddelde omschakelkost per slot in functie van dedrempelwaarde bij een oneindig systeem voor Bernoulli en geometrisch verdeelde aankomst-processen. ch = 1, cc = 100

De gemiddelde totale kost per slot is voor lage drempelwaardes hoger voor het Bernoulliproces door de duurdere omschakelkost (zie Figuur 2.21). Voor λ > 1

3 wordt de gemiddeldeomschakelkost voor beide processen bijna gelijk naarmate de drempelwaarde stijgt, waardoorhet geometrisch proces duurder wordt vanwege de hogere opslagkost. Voor λ < 1

3 blijft hetgeometrisch aankomstproces goedkoper.

0 10 20 300

20

40

Drempelwaarde θ

Gem

idde

lde

tota

leko

st BernoulliGeometrisch

(a) λ = 0.2

0 10 20 300

20

40

Drempelwaarde θ

Gem

idde

lde

tota

leko

st BernoulliGeometrisch

(b) λ = 0.5

Figuur 2.21: Een vergelijking van de gemiddelde kost per slot in functie van de drempel-waarde bij een oneindig systeem voor Bernoulli en geometrisch verdeelde aankomstprocessen.ch = 1, cc = 100

Page 57: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 44

Opmerkelijk is ook dat de optimale drempelwaarde bij een zelfde kostratio ζ en aankomstin-tensiteit λ lager is voor een geometrisch aankomstproces (zie Figuur 2.22). Naar analogie metde analyse uit het eindig model kunnen we dit verklaren door de grotere variantie van hetgeometrisch aankomstproces in vergelijking met het Bernoulli proces. Het verschil tussen detwee aankomstprocessen wordt ook groter naarmate ζ toeneemt.

0 50 100 150 2000

2

4

6

8

Kostratio ζ

Opt

imal

edr

empe

lwaa

rdeθ∗ Bernoulli

Geometrisch

(a) λ = 0.05

0 50 100 150 2000

5

10

15

Kostratio ζ

Opt

imal

edr

empe

lwaa

rdeθ∗ Bernoulli

Geometrisch

(b) λ = 0.5

Figuur 2.22: Vergelijking van de optimale drempelwaarde bij een oneindig systeem voorgeometrisch en Bernoulli verdeeld aankomstproces: de optimale drempelwaarde is lagervoor een geometrisch proces. Een mogelijke verklaring is de grotere variantie ten opzichtevan het Bernoulli aankomstproces.

Page 58: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 45

2.5 Stochastische bediening

Het model dat we in dit hoofdstuk hebben opgesteld is een relatief eenvoudig model. Hetbevat één bedieningseenheid, bedieningstijden zijn deterministisch gelijk aan één slot, aan-komsten zijn ongecorreleerd, enz...

We stellen nu kort voor hoe men het model kan uitbreiden tot een meer algemeen wachtlijn-systeem met variabele bedieningstijden. In de volgende hoofdstukken gaan we vervolgensdieper in op twee andere uitbreidingen: vakanties en een gecorreleerd aankomstproces.

Tot nu toe waren bedieningstijden deterministisch gelijk aan één slot. We kunnen dit uitbrei-den naar variabele bedieningstijden. Daarvoor moeten we op de slotgrenzen het resterendaantal slots bediening (r) meenemen in de toestandsruimte. u betekent bovendien niet langerhet aantal klanten in het systeem, maar enkel in de buffer. Tot nu toe waren deze twee gelijkop slotgrenzen omdat er dan geen klant in de bedieningseenheid aanwezig was.

S = (m,u, r)|m ∈ OFF,ON, u ∈ 0, 1, . . . , N, r ∈ 0, . . . , R− 1 (2.77)

Omdat de toestandsruimte eindig moet zijn om een van de voorgestelde oplossingsmethodente kunnen gebruiken, moet er een bovengrens zijn op de bedieningstijd (R).

De transitieprobabiliteiten veranderen uiteraard ook. We noteren de kans op een bedienings-tijd van n slots als s(n). De overgangsprobabiliteiten als men beslist om niet te bedienen zijndan:

p(m′, u′, r′|m,u, r,OFF ) =

∑∞k=N e(k − u) , r′ = r = 0,m′ = OFF, u′ = N

e(u′ − u) , r′ = r = 0,m′ = OFF, u′ ≥ u, u′ 6= N

0 , elders(2.78)

Merk op dat deze formulering geen preëmptie toestaat: tijdens een bediening blijft het systeemwerken. We verwachten namelijk niet dat de optimale strategie preëmptie zal vereisen omdatde bufferbezetting tijdens een bediening enkel toeneemt en er bovendien een omschakelkostin rekening wordt gebracht. Om preëmptie toch toe te laten volstaat het om de actie OFF toete laten voor elke r = r′.

Als men beslist om wel te bedienen is de transitieprobabiliteit de volgende:

p(m′, u′, r′|m,u, r,ON) =

s(r′ + 1)∑∞k=N e(k − (u− 1)+) , r = 0,m′ = ON, u′ = N

s(r′ + 1)e(u′ − (u− 1)+) , r = 0,m′ = ON, u′ ≥ (u− 1)+, u′ 6= N∑∞k=N e(k − u) , r > 0, r′ = r − 1,m′ = ON, u′ = N

e(u′ − u) , r > 0, r′ = r − 1,m′ = ON, u′ ≥ u, u′ 6= N

0 , elders

(2.79)

Page 59: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 46

Merk hier op dat een klant de buffer verlaat en naar de bedieningseenheid gaat als r = 0 enu > 0. Als r > 0 dan gaat de huidige bediening voort.

De koststructuur moet aangepast worden als volgt:

cm,u,r,OFF = chu+ ccIm 6=OFF + cl

∞∑j=1

e(N − u+ j)j (2.80)

cm,u,r,ON = cs + ch(u− Ir=0)+ + ccIm 6=ON + cl

∞∑j=1

e(N + j − (u− Ir=0)+)j (2.81)

Met deze aanpassingen kan men wachtlijnsystemen bestuderen met een variabele bedienings-tijd. Een kleine kanttekening hierbij is wel dat de toestandsruimte toeneemt met een factorR, waardoor het analyseren van zulke wachtlijnen aan de hand van MDPs computationeelmoeilijker wordt.

Page 60: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 2. Wachtlijnen met aan/uit-modus 47

2.6 Conclusie

In dit hoofdstuk hebben we eindige wachtlijnen bestudeerd met één bedieningseenheid dietijdelijk uitgeschakeld kan worden. Het aankomstproces was ongecorreleerd en de bedie-ningstijd deterministisch gelijk aan één slot. Door het systeem als een MDP te modelleren,vonden we dat de optimale strategie een drempelwaardestrategie is (als de opslagkost positiefis). Het systeem wacht best met werken tot er een bepaald aantal klanten is toegekomen, enbegint dan met bedienen tot er geen klanten meer in het systeem zijn.

We vonden dat de optimale drempelwaarde (θ∗) toeneemt als de bedieningskost stijgt, omdatdoor de discontering het systeem bedienen liever uitstelt. Voor een stijgende opslagkostdaalde θ∗ exponentieel, terwijl θ∗ ongeveer recht evenredig was met de omschakelkost. Vooreen toenemende verlieskost stelden we vast dat θ∗ bij benadering lineair daalt op een loga-ritmische schaal. Als de kost direct gerelateerd aan de bufferbezetting (i.e. de opslagkost)relatief groot is, is er geen reden om van de traditionele standaardstrategie (θ = 1) af te wijken.

Als de verlieskost domineert in de beslissing van het systeem om opnieuw te beginnenwerken, dan daalt de optimale drempelwaarde met toenemende aankomstintensiteit. Als deomschakelkost dominant is (met andere woorden: het systeem stelt het moment uit waarophet opnieuw bedient omdat er anders te veel omschakelingen zouden zijn), dan toont θ∗

ongeveer een symmetrisch verloop in λ, met een maximum rond λ ' 12 . De optimale drem-

pelwaarde is bovendien lager voor een aankomstproces met meer variantie in het aantalaankomsten per slot.

We bepaalden de performantie van een drempelwaardestrategie en stelden vast dat eenstrategie hanteren met drempelwaarde θ∗ significant beter kan zijn dan de standaardstrategie(θ = 1). De performantie blijkt niet zeer gevoelig voor de exacte waarde van θ∗, een drempel-waarde rond θ∗ is ook goed.

Voor het oneindige systeem bestudeerden we geometrisch en Bernoulli verdeelde aankomst-processen en bepaalden een gesloten uitdrukking voor de gemiddelde kost per tijdsslot. Uitdie uitdrukking kan een optimale drempelwaarde bepaald worden. We stelden een zelfdeinvloed van de aankomstintensiteit vast als voor het eindig systeem waarbij de verlieskostniet bepalend is. De optimale drempelwaarde was ook lager voor het geometrisch aankomst-proces, net zoals in het eindig systeem.

Tenslotte gaven we aan hoe het model kan uitgebreid worden tot een meer algemeen modelmet variabele bedieningstijden.

Page 61: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3

Wachtlijnen met vakantieperioden

In dit hoofdstuk breiden we het model verder uit. We gaan weer uit van een systeem met éénbedieningseenheid, ongecorreleerd aankomstproces en een deterministische bedieningstijdvan één slot.

Deze keer willen we echter een systeem bestuderen dat niet alleen kan beslissen tussen aanen uit, maar ook meerdere slots vakantie kan nemen, en daarvoor beloond wordt. Dit kanbijvoorbeeld toegepast worden als het wachtlijnsysteem bepaalde middelen moet delen metandere systemen (e.g. processortijd, geheugenruimte, machinetijd, etc...).

We modelleren de wachtlijn wederom als een MDP en bepalen de optimale strategie viawaarde-iteratie. Vervolgens bestuderen we de impact van de verschillende parameters op deoptimale strategie, en proberen we er een verklaring voor te geven.

48

Page 62: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 49

3.1 MDP model

In dit stuk stellen we een MDP model op voor discrete-tijd wachtlijnen waarbij de bedienings-eenheid meerdere slots vakantie kan nemen. Om een dergelijke wachtlijn als een MDP temodelleren bestaan er verschillende mogelijkheden. We zouden het systeem enkel kunnenbekijken op die momenten waarop het in vakantie gaat en uit vakantie komt. Hier treedtdan wel het probleem op dat de tijd tussen deze momenten niet altijd gelijk is, waardoorde interpretatie van de disconteringsfactor verloren gaat. We zullen het dan ook andersaanpakken. We bekijken het systeem opnieuw op de slotgrenzen. Dit heeft als gevolg dat deactieruimte niet gelijk is voor elke toestand, in tegenstelling tot het vorige hoofdstuk waarelke toestand dezelfde actieruimte had. Voor bepaalde toestanden zal het systeem bovendienslechts één mogelijke actie hebben, waardoor beslissen op die momenten triviaal wordt.

3.1.1 Toestandsruimte

De toestand van het systeem wordt gekarakteriseerd door het aantal klanten in het systeem(u), het aantal resterende slots vakantie bij het begin van het huidig slot (h) en de modusvan het systeem in het vorig slot (actief, m = 1 of passief, m = 0). De eerste twee zijn omevidente redenen deel van de toestand. De modus is nodig als deel van de toestand omomschakelkosten in rekening te brengen.

Niet alle combinaties van u, h en m zijn zinvol. Zo geldt bijvoorbeeld:

m = 1⇒ h = 0 (3.1)

Het is namelijk zo dat als er in het vorige slot beslist werd om te bedienen, dan kan het aantalresterende slots vakantie niet positief zijn. De omgekeerde implicatie geldt niet want als hetsysteem in het vorig slot heeft beslist om één slot vakantie te nemen, dan is h = 0 (er zijngeen resterende slots vakantie meer) en m = 0.

3.1.2 Acties

Als er geen resterende slots vakantie zijn (ofwel omdat het systeem net heeft bediend, ofwelomdat de vakantieperiode gedaan is) hebben we de keuze tussen bedienen (w) of s slotsvakantie nemen (vs), waarbij s ook te kiezen is. Om een eindig aantal toestanden en acties tehebben, stellen we de maximum vakantielengte op M + 1 slots (M ∈ N).Als h > 0, moet het systeem op vakantie blijven en is de enige mogelijke actie vh.

D(u, 0,m) = vs|s ∈ 1, 2, ..,M + 1 ∪ w (3.2)

D(u, h,m) = vh, h > 0 (3.3)

3.1.3 Koststructuur

De koststructuur is grotendeels gelijk aan die uit het vorige hoofdstuk, met enkele extrakosten en beloningen:

Page 63: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 50

Opslagkost: ch Het laten wachten van een klant in het systeem gedurende één tijdsslot gaatgepaard met deze kost.

Vakantiekost: cv Deze kost wordt in rekening gebracht als het systeem van actief naar passief(i.e. op vakantie) gaat.

Omschakelkost: cw Deze kost wordt in rekening gebracht als het systeem van passief naaractief gaat (i.e. uit vakantie komt).

Verlieskost: cl Als het systeem volzet is en er een klant moet worden geweigerd, rekenen wedeze verlieskost aan.

Bedieningskost: cs Dit is de kost verbonden aan het actief zijn van de bedieningseenheid.We zullen veronderstellen dat de kost om in standby te staan nul is. Dit gaat niet tenkoste van de algemeenheid van onze oplossing (zie 2.1.4).

Vakantiebeloning: r(s) Dit is de beloning die het systeem krijgt om s slots vakantie tenemen. Deze beloning kan bijvoorbeeld de volgende vorm aannemen: r(s) = rvs

β .Deze beloning wordt uitgereikt op het moment dat de vakantie start.

We kunnen de koststructuur dan als volgt samenvatten (N is opnieuw de buffergrootte)1:

cu,h,m,vs = chu+ cvIm=1 − r(s)Ih=0 + cl

∞∑j=1

e(N − u+ j)j (3.4)

cu,h,m,w = cs + ch(u− 1)+ + cwIm=0 + cl

∞∑j=1

e(N + j − (u− 1)+)j (3.5)

3.1.4 Overgangsprobabiliteiten

De overgangsprobabiliteiten naar (u′, h′,m′) zijn afhankelijk van de vorige toestand (u, h,m),de beslissing die genomen wordt d en het aantal klanten dat toekomt in het systeem tijdenshet tijdsslot. De kans dat er k klanten toekomen tijdens een slot noteren we opnieuw als e(k).Dan geldt:

p(u′, s− 1, 0|u, h,m, vs) =

∑∞k=N e(k − u) , u′ = N

e(u′ − u) , u ≤ u′ < N(3.6)

p(u′, 0, 1|u, 0,m,w) =

∑∞k=N e(k − (u− 1)+) , u′ = N

e(u′ − (u− 1)+) , (u− 1)+ ≤ u′ < N(3.7)

Andere combinaties van toestanden en acties hebben overgangsprobabiliteit 0.

1Wijzigingen ten opzichte van het vorige hoofdstuk zijn vet aangeduid.

Page 64: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 51

3.2 Optimale strategie

De optimale strategie blijkt in het verlengde te liggen van wat we in het vorige hoofdstukhebben waargenomen. Als bediening te duur is en opslag en verlies relatief goedkoop, danwordt er nooit bediend.

Als het systeem een stimulans heeft om op een gegeven moment te beginnen werken (debediening is bijvoorbeeld relatief goedkoop ten opzichte van de opslag, of de verwachteverlieskost wordt te groot) en als de vakantiebeloning niet te groot wordt, dan is de optimalestrategie één waarbij lange vakanties worden genomen als er weinig klanten in het systeemzijn.

Vanaf een bepaalde waarde voor u wordt er gewerkt tot het systeem opnieuw leeg is:

δ∗(u, 0, 1) =

vf(0) , u = 0w , u > 0

(3.8)

δ∗(u, 0, 0) =

vf(u) , f(u) > 0w , f(u) = 0

(3.9)

waarbij de strategie dan verder bepaald wordt door de dalende functie f(u) en niet langeréén drempelwaarde zoals in het vorige hoofdstuk.

Merk op dat we voor

f(u) =

1 , u < θ

0 , u ≥ θ(3.10)

een drempelwaardestrategie krijgen zoals in het vorige hoofdstuk waarbij de actie OFFvertaald werd naar een vakantie van één slot.

Page 65: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 52

3.3 Analyse

In dit stuk analyseren we analoog aan het vorige hoofdstuk de invloed van verschillendeparameters op de functie f(u) en dus op de optimale strategie. Deze keer wordt de optimalestrategie niet meer gekenmerkt door één waarde. Daarom bestuderen we het verband tussenparameter en optimale strategie aan de hand van enkele waarden voor de parameter in plaatsvan een volledig interval zoals in het vorig hoofdstuk.

3.3.1 Bedieningskost

0 5 10 15 2005

101520

u

f(u

)

(a) cs = 7

0 5 10 15 2005

101520

u

f(u

)

(b) cs = 8

0 5 10 15 2005

101520

u

f(u

)

(c) cs = 9

Figuur 3.1: Invloed van de bedieningskost op de optimale strategie: het systeem begint tewerken bij alsmaar grotere u voor een stijgende bedieningskost.N = M = 20, λ = 0.7, ch = 1, cw = cv = 5, cl = 400, r(s) = s, Poisson aankomsten

Een hogere bedieningskost zorgt ervoor dat het systeem best langere vakanties neemt, maarvooral dat het punt waarop het opnieuw begint te werken langer uitgesteld dient worden,zoals we kunnen vaststellen op Figuur 3.1. Door de discontering kan het systeem besparendoor een bediening uit te stellen. Als de bedieningskost stijgt, loont het daarom om het puntwaarop men opnieuw begint te werken alsmaar langer uit te stellen.

3.3.2 Opslagkost

0 5 10 15 2005

101520

u

f(u

)

(a) ch = 1

0 5 10 15 2005

101520

u

f(u

)

(b) ch = 1.25

0 5 10 15 2005

101520

u

f(u

)

(c) ch = 1.5

Figuur 3.2: Invloed van de opslagkost op de optimale strategie: bij een lagere opslagkost kanhet systeem langere vakanties nemen.N = M = 20, λ = 0.7, cs = 8, cw = cv = 5, cl = 400, r(s) = s, Poisson aankomsten

Op Figuur 3.2 zien we dat het systeem beter minder lange vakanties neemt als de opslagkoststijgt.

Page 66: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 53

3.3.3 Verlieskost

0 5 10 15 2005

101520

u

f(u

)

(a) cl = 102

0 5 10 15 2005

101520

u

f(u

)

(b) cl = 103

0 5 10 15 2005

101520

u

f(u

)

(c) cl = 104

Figuur 3.3: Invloed van de verlieskost op de optimale strategie: het aantal slots vakantie daaltlineair met een exponentieel toenemende verlieskost.N = M = 20, λ = 0.7, cs = 9, ch = 1, cw = cv = 5, r(s) = s, Poisson aankomsten

Analoog aan de resultaten uit het vorige hoofdstuk vinden we op Figuur 3.3 terug dat hetaantal slots vakantie in de optimale strategie lineair daalt met een exponentieel toenemendeverlieskost.

3.3.4 Vakantie- en omschakelkost

Figuren 3.4 en 3.5 tonen een gelijkaardige invloed voor de vakantiekost en de omschakelkost.Dit is te verwachten aangezien beide kosten éénmaal per vakantie in rekening wordengebracht. We zien dat het punt waarop het systeem opnieuw begint te werken langeruitgesteld wordt als deze kost groot is, omdat dan het aantal omschakelingen kleiner is. Voorde omschakelkost is dit effect iets groter dan voor de vakantiekost omdat de disconteringervoor zorgt dat deze kost minder doorweegt op het moment dat er vakantie wordt genomen.

0 5 10 15 2005

101520

u

f(u

)

(a) cv = 1

0 5 10 15 2005

101520

u

f(u

)

(b) cv = 5

0 5 10 15 2005

101520

u

f(u

)

(c) cv = 50

Figuur 3.4: Invloed van de vakantiekost op de optimale strategie:N = M = 20, λ = 0.7, cs = 8, ch = 1, cw = 5, cl = 400, r(s) = s, Poisson aankomsten

Page 67: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 54

0 5 10 15 2005

101520

u

f(u

)

(a) cw = 1

0 5 10 15 2005

101520

u

f(u

)

(b) cw = 5

0 5 10 15 2005

101520

u

f(u

)

(c) cw = 50

Figuur 3.5: Invloed van de omschakelkost op de optimale strategie:N = M = 20, λ = 0.7, cs = 8, ch = 1, cv = 5, cl = 400, r(s) = s, Poisson aankomsten

3.3.5 Aankomstproces

Als er veel klanten in het systeem aankomen kan het systeem zich niet permitteren om langevakanties te nemen. Voor een lage aankomstintensiteit kan het dat wel, zoals we zien opFiguur 3.6. De variantie van het aankomstproces speelt ook een grote rol. Figuur 3.7 toontdat men beter minder lange vakanties neemt als de variantie in aantal aankomende klantengroot is. In vergelijking met het Poisson aankomstproces (var[e] = λ) heeft de Bernoullidistributie een lage variantie (var[e] = λ(1 − λ)) en de geometrische verdeling een grotespreiding (var[e] = λ(1 + λ)).

0 5 10 15 200

10

20

u

f(u

)

(a) λ = 0.3

0 5 10 15 200

10

20

u

f(u

)

(b) λ = 0.5

0 5 10 15 200

10

20

u

f(u

)

(c) λ = 0.7

Figuur 3.6: Invloed van de aankomstintensiteit op de optimale strategie:N = M = 20, ch = 1, cs = 8, cw = cv = 5, cl = 400, r(s) = s, Poisson aankomsten

Page 68: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 55

0 5 10 15 200

10

20

u

f(u

)

(a) Bernoulli aankomstproces

0 5 10 15 200

10

20

u

f(u

)

(b) Poisson aankomstproces

0 5 10 15 200

10

20

u

f(u

)

(c) Geometrisch aankomstproces

Figuur 3.7: Invloed van de distributie van het aankomstproces op de optimale strategie: eenlagere variantie in het aantal aankomende klanten laat het systeem toe om langere vakantieste nemen.N = M = 20, λ = 0.7, ch = 1, cs = 8, cw = cv = 5, cl = 400, r(s) = s

3.3.6 Disconteringsfactor

Opnieuw is de keuze van de disconteringsfactor van cruciaal belang. Een hoge discon-teringsfactor betekent namelijk dat toekomstige kosten zwaar doorwegen, waardoor debedieningseenheid zich minder lange vakanties kan veroorloven.

0 5 10 15 2005

101520

u

f(u

)

(a) α = 0.9

0 5 10 15 2005

101520

u

f(u

)

(b) α = 0.92

0 5 10 15 2005

101520

u

f(u

)

(c) α = 0.95

Figuur 3.8: Invloed van de disconteringsfactor op de optimale strategie: een hoge disconte-ringsfactor zorgt ervoor dat toekomstige kosten meer doorwegen en dus neemt het systeembest minder lang vakanties.N = M = 20, λ = 0.7, cs = 8, ch = 1, cw = cv = 5, cl = 400, r(s) = s, Poisson aankomsten

Page 69: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 56

3.3.7 Vakantiebeloning

Tot nu toe hebben we telkens een lineaire vakantiebeloning verondersteld. Maar men kanlangere vakanties ook extra gaan belonen (elk extra slot brengt meer op dan het vorige),of juist minder (elk extra slot vakantie brengt minder op). We zullen de optimale strategievergelijken voor de beloningsfuncties getoond in Figuur 3.10 die beide situaties kenmerken.

5 10 15 200

20

40

60

80

100

s

r(s)

s

s1.25

e0.2(s−1)

(a) Sneller stijgend dan een lineaire functie

5 10 15 200

5

10

15

20

sr(s)

s

s0.75

1 + ln(s)

(b) Trager stijgend dan een lineaire functie

Figuur 3.9: Verschillende functies voor de vakantiebeloning: de beloning r(s) die het systeemontvangt om s slots vakantie te nemen.

0 5 10 15 200

10

20

u

f(u

)

(a) r(s) = s0.75

0 5 10 15 200

10

20

u

f(u

)

(b) r(s) = s

0 5 10 15 200

10

20

u

f(u

)

(c) r(s) = s1.25

0 5 10 15 200

10

20

u

f(u

)

(d) r(s) = 1 + ln(s)

0 5 10 15 200

10

20

u

f(u

)

(e) r(s) = e0.2∗(s−1)

Figuur 3.10: Invloed van de vakantiebeloning op de optimale strategie: een vakantiebeloningdie trager stijgt dan de lineaire beloning zorgt ervoor dat het systeem verkiest om vakantiesvan 1 slot te nemen. Een sneller stijgende beloning zorgt voor langere vakanties.N = M = 20, λ = 0.7, cs = 8, ch = 1, cs = 8, cw = cv = 5, cl = 400, Poisson aankomsten

We zien op Figuur 3.10 dat een vakantiebeloning die trager stijgt dan de lineaire beloningervoor zorgt dat het systeem verkiest om vakanties van 1 slot te nemen. Op die manier heeft

Page 70: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 57

het meer flexibiliteit om te beginnen werken indien nodig, en een extra slot vakantie brengtniet genoeg op om op te wegen tegen deze mogelijkheid.

Een sneller stijgende beloning zorgt voor langere vakanties, maar voor een exponentieelstijgende beloning begint men wel sneller opnieuw te werken. Het is namelijk lucratiever omwat te werken en omschakelkosten te betalen en daarna zeer een lange vakantie te nemen,dan regelmatig kortere vakanties na elkaar te nemen.

3.4 Performantie

In dit deel bestuderen we hoeveel beter de optimale strategie is dan de standaardstrategie.Daarom definiëren we de efficiëntie van een strategie als de verhouding van de totale ver-wachte gedisconteerde kost bij een ledig systeem voor de optimale strategie tot die voor destandaardstrategie:

η = limt→∞ V∗t (0, 0, 0)

limt→∞ Vt(0, 0, 0) (3.11)

Voor de standaardstrategie nemen we volgende definitie:

δs(u, 0,m) =

w , u > 0v1 , u = 0

(3.12)

We onderzoeken nu de efficiëntie van de standaardstrategie (ηs) in functie van de opslagkost.Onze koststructuur was in voorgaande analyses namelijk telkens genormeerd op de opslag-kost (ch = 1). De opslagkost is in die gevallen een graadmeter voor de rol die de anderekosten (bedieningskost, omschakelkost, enz...) spelen.

1 1.1 1.2 1.3 1.4 1.50.5

0.6

0.7

0.8

0.9

1

N = M = 20λ = 0.7cs = 8cw = cv = 5cl = 400r(s) = s

Opslagkost ch

Effic

iënt

iest

anda

ards

trat

egieη s cs = 8

cs = 9

Figuur 3.11: De performantie van de optimale strategie van het vakantiemodel: voor eenstijgende opslagkost nadert de totale verwachte gedisconteerde kost van de optimale strategietot die van de standaardstrategie.

Page 71: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 58

Op Figuur 3.11 zien we dat voor ch = 1 en cs = 8 de totale verwachte gedisconteerde kostbij een ledig systeem voor de optimale strategie slechts 72.8% is van de kost voor de stan-daardstrategie. De optimale strategie is daar dus duidelijk beter dan de standaardstrategie.Naarmate de opslagkost stijgt, neemt het belang van de andere kosten af en wordt dus meeren meer enkel rekening gehouden met de bufferbezetting, waardoor de performantie van deoptimale strategie nadert tot de standaardstrategie.

We concluderen dat een strategie met langere vakanties vooral zinvol is als de additionelekosten relatief groot zijn ten opzichte van de kost verbonden aan de bufferbezetting. Als diekosten relatief klein zijn nadert de optimale strategie tot de standaardstrategie en wordt hetverschil in totale verwachte gedisconteerde kost klein.

3.5 Oneindige buffercapaciteit

We zouden een bufferanalyse van het systeem met oneindige buffercapaciteit kunnen probe-ren analoog aan die uit het vorige hoofdstuk. Door de structuur van de optimale strategiewordt het echter moeilijk om dergelijke analyse uit te voeren.

De systeemvergelijkingen voor een bufferanalyse van het systeem met oneindige buffer-capaciteit en een strategie gekenmerkt door de functie f(u) zouden de volgende kunnenzijn:

uk+1 = uk + ek −mk (3.13)

hk+1 =

hk − 1 ,mk = 0, hk > 0f(uk)− 1 ,mk = 0, hk = 00 ,mk = 1

(3.14)

mk =

1 , hk = 0, Imk−1=0If(uk)=0 + Imk−1=1Iuk>0 = 10 , elders

(3.15)

Omdat deze analyse al snel zeer ingewikkeld wordt, hebben we deze piste niet verderonderzocht.

Page 72: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 3. Wachtlijnen met vakantieperioden 59

3.6 Conclusie

In dit hoofdstuk hebben een wachtlijnsysteem bestudeerd met één bedieningseenheid, onge-correleerd aankomstproces en deterministische bedieningstijden van één slot. De bedienings-eenheid beschikt over de mogelijkheid om een aantal slots vakantie te nemen, en wordt daarvoor beloond.

We kozen ervoor om het systeem te bekijken op slotgrenzen. De toestand was een combinatievan het aantal klanten in het systeem en het resterende aantal slots vakantie in het begin vanhet huidig slot, en de modus in het vorige slot. In tegenstelling tot het vorige hoofdstuk wasde actieruimte nu niet gelijk voor elke toestand.

We bepaalden de optimale strategie via waarde-iteratie. Die strategie bleek in het verlengde teliggen van het vorige hoofdstuk. Het systeem neemt langere vakanties als er weinig klantenaanwezig zijn. Het te nemen aantal slots vakantie daalt als de bufferbezetting stijgt. Vanafeen bepaalde waarde wordt er opnieuw gewerkt tot het systeem leeg wordt.

De bedieningskost bleek vooral een invloed te hebben op het moment waarop opnieuw wordtgewerkt: dat nam toe bij een stijgende bedieningskost. Als de opslagkost stijgt, daalt hetaantal slots vakantie in de optimale strategie. Bovendien wordt er sneller opnieuw bediend.Analoog met het vorige hoofdstuk daalde het aantal slots vakantie met exponentieel toe-nemende verlieskost. Grotere omschakelkosten zorgen er ook voor dat men beter langerwacht met opnieuw te bedienen. Een stijgende aankomstintensiteit resulteert in minder langevakanties in de optimale strategie. Ook de variantie in het aankomstproces speelt een rol: bijeen kleinere variantie kan het systeem zich langere vakanties veroorloven.

Als de vakantiebeloning minder snel stijgt dan een lineaire functie, neemt men best vakantiesvan één slot; als ze sneller stijgt dan een lineaire functie worden de vakanties alsmaar langer.Voor zeer sterk stijgende functies zijn er dan weer minder klanten vereist om de bedieningte starten. Dit komt omdat het lucratiever is om kort te werken (en de omschakelkosten tebetalen) en zeer lange vakanties te nemen, dan om regelmatig korte vakanties na elkaar tenemen.

We bestudeerden ook de invloed van de koststructuur op de performantie van de optimalestrategie. Als waardemeter voor de koststructuur namen we de opslagkost waarop we deandere kosten voorheen normeerden. Als die opslagkost stijgt, en dus de andere kostenalmaar minder significant worden, dan stijgt de efficiëntie van de standaardstrategie. Hetis m.a.w. vooral zinvol een speciale strategie te gebruiken als de additionele kosten relatiefgroot zijn, en de kost verbonden aan de bufferbezetting dus relatief klein is.

Page 73: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4

Gecorreleerde aankomstprocessen

In de vorige modellen gingen we telkens uit van ongecorreleerde aankomstprocessen. Webreiden ze nu uit met correlatie in de aankomstprocessen. Daarvoor hanteren we een Markovgemoduleerd aankomstproces met twee toestanden. In de ene toestand is er een lage aan-komstintensiteit, in de andere een hoge.

We tonen hoe we het MDP-model uitbreiden voor zowel het aan/uit-model als het vakantie-model. Vervolgens bestuderen we de structuur van de resulterende optimale strategie en deinvloed van de correlatiefactor erop.

Tenslotte bespreken we ook enkele mogelijkheden om gedeeltelijke observeerbaarheid in hetmodel te voorzien. Als men de toestand van het aankomstproces niet kent kan men enkelterugvallen op een schatting ervan. Men kan zelf de toestand schatten en dan de beslissingnemen die de optimale strategie in geval van complete observeerbaarheid voorschrijft. Alsalternatief kan men het model uitbreiden tot een POMDP. We tonen een mogelijke oplossingom het model op die manier uit te breiden.

60

Page 74: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 61

4.1 Markov gemoduleerd aankomstproces

Tot nu toe was het aankomstproces telkens ongecorreleerd van slot tot slot. Daardoor kondenwe het eenduidig definiëren door een distributie van het aantal aankomsten per slot. Als erechter correlatie is in het aantal aankomsten per slot, volstaat dit niet meer om het aankomst-proces vast te leggen. Een methode om een dergelijk proces te modelleren is via een Markovgemoduleerd aankomstproces.

Bij een Markov gemoduleerd aankomstproces is de distributie van het aantal aankomstenper slot afhankelijk van een achterliggende toestand, die gestuurd wordt door een stationairMarkov proces met een discrete toestandsruimte. In onze analyse zullen we ons beperkentot een proces met twee toestanden: A en B. Een voorbeeld met twee toestanden vind je opFiguur 4.1.

Om de modellen uit de vorige hoofdstukken uit te breiden met deze correlatie moeten we detoestand van het aankomstproces toevoegen aan de toestandsruimte. Ook de transitieproba-biliteiten en gemiddelde verlieskost per slot wijzigen. De toestand van het aankomstprocesin slot k zullen we noteren als ψk.

De transitieprobabiliteiten van het Markov gemoduleerd proces noteren we als volgt:

Prob[ψk+1 = j|ψk = i] = Ψij (4.1)

ΨAA = φ (4.2)

ΨAB = 1− φ (4.3)

ΨBA = 1− β (4.4)

ΨBB = β (4.5)

A B

1− φ

φ

1− β

β

Figuur 4.1: Markov gemoduleerd aankomstproces met twee toestanden, A en B

In toestand A zijn de aankomsten per slot verdeeld volgens een probabiliteitsdistributie metgenererende functie EA(z) en aankomstintensiteit λA, in toestand B analoog met EB(z) enλB . φ en β stellen de probabiliteiten voor dat men in toestand A respectievelijk B blijft. Dekans dat men zich (in regime) in toestand A of B bevindt, noteren we met πA respectievelijkπB . We zullen het proces echter karakteriseren aan de hand van twee andere grootheden:de aankomstintensiteit λ en de correlatiefactor1 γ. Volgend verband legt deze groothedeneenduidig vast:

1 γ is de correlatiefactor tussen de twee toestanden van de Markov-keten, en niet tussen het aantal aankomstenin een slot

Page 75: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 62

λ = λAπA + λBπB (4.6)

πA = 1− β2− φ− β (4.7)

πB = 1− φ2− φ− β (4.8)

γ = φ+ β − 1 (4.9)

We bestuderen verder systemen waarbij de aankomsten in een slot binomiaal verdeeld zijn: intoestand A met een lage aankomstintensiteit λA, in toestand B met hoge aankomstintensiteitλB . We zullen toestand A dan ook de lage toestand noemen, en toestand B de hoge toestand.

EA(z) = (1− λAEmax

+ λAEmax

z)Emax (4.10)

EB(z) = (1− λBEmax

+ λBEmax

z)Emax (4.11)

met Emax het maximum aantal aankomsten in een slot.

We kunnen voor de eenvoud ook φ = β nemen zodat:

λ = λA + λB2 (4.12)

φ = β = γ + 12 (4.13)

4.2 Aan/uit-model

4.2.1 Aanpassingen aan het model

Om deze veranderingen in het aankomstproces in ons MDP model te brengen moeten we detoestandsruimte uitbreiden, de overgangsprobabiliteiten herdefiniëren en de koststructuuraanpassen.

De toestandsruimte breiden we uit met een extra dimensie ψ ∈ A,B. We gebruiken eψ(n)als notatie voor het aantal klanten dat toekomt in een slot waar de toestand van het aankomst-proces ψ is.

De nieuwe overgangsprobabiliteiten definiëren we als volgt (waarbij dk de actie genomen inslot k aanduidt):

p′(m′, u′, ψ′|m,u, ψ, d) = Prob[mk = m′, uk+1 = u′, ψk+1 = ψ′|mk−1 = m,uk = u, ψk = ψ, dk = d](4.14)

= p(m′, u′|m,u, d)Ψψψ′ (4.15)

Page 76: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 63

De nieuwe koststructuur neemt de toestand van het aankomstproces mee in rekening bij deverlieskost2:

cm,u,ψ,OFF = chu+ ccIm 6=OFF + cl

∞∑j=1

eψ(N − u+ j)j (4.16)

cm,u,ψ,ON = cs + ch(u− 1)+ + ccIm6=ON + cl

∞∑j=1

eψ(N + j − (u− 1)+)j (4.17)

4.2.2 Analyse

Onder dezelfde voorwaarden als voorheen (hoge verlieskost tegenover bedienings- en opslag-kost), vinden we dat de optimale strategie nu een tweevoudige drempelwaardestrategie is: intoestand A van het aankomstproces hanteert men best een drempelwaarde θA, in toestand Been drempelwaarde θB .

δ∗(m,u, ψ) =

OFF , u = 0 of m = OFF, u < θψ

ON , elders(4.18)

Als we de invloed van de correlatiefactor γ bestuderen op deze drempelwaarden (Figuur 4.2)zien we dat de drempelwaarde in de hoge toestand (θB) afneemt naarmate de correlatie grootwordt. De kans neemt dan namelijk toe dat het aankomstproces de volgende slots ook intoestand B zal zijn, en de verwachte aankomstintensiteit zal dus stijgen.

−1 −0.5 0 0.5 10

5

10

15

20

Correlatiefactor γ

Opt

imal

edr

empe

lwaa

rdeθ∗

θAθB

(a) λA = 0.3, λB = 0.7

−1 −0.5 0 0.5 10

5

10

15

20

Correlatiefactor γ

θAθB

(b) λA = 0.1, λB = 0.9

Figuur 4.2: Invloed van de correlatiefactor op de optimale drempelwaarde.N = 20, n = 5, cs = 7, ch = 1, cc = 10, cl = 400

In de lage toestand A is de omgekeerde redenering geldig: een grotere correlatiefactor zorgtervoor dat er in het volgende slot waarschijnlijk ook een lage aankomstintensiteit zal zijn.Toch zien we geen verhoging van de drempelwaarde in toestand A. In tegendeel, op Fi-guur 4.3 zien we ook een daling van de drempelwaarde in toestand A als γ stijgt.

2Wijzigingen ten opzichte van het model zonder correlatie zijn in het vet aangeduid

Page 77: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 64

−1 −0.5 0 0.5 110

12

14

16

18

20

Correlatiefactor γ

Opt

imal

edr

empe

lwaa

rdeθ∗

θAθB

(a) λA = 0.2, λB = 0.8

−1 −0.5 0 0.5 10

5

10

15

20

Correlatiefactor γ

θAθB

(b) λA = 0.2, λB = 1.4

Figuur 4.3: Invloed van de correlatiefactor op de optimale drempelwaarde.N = 20, n = 5, cs = 9.4, ch = 1, cc = 5, cl = 400

Dit effect kunnen we verklaren door het feit dat een grotere γ zorgt voor een grotere variantieop het aantal aankomsten in de volgende slots. Om dit te aan te tonen, definiëren we volgendepartiële genererende functies:

D(n)i|j (z) = E[z# aankomsten in n slots × I<ψk+n=i>|ψk = j] (4.19)

=∞∑m=0

Prob[# aankomsten in slot k t.e.m. k + n− 1 = m,ψk+n = i|ψk = j]zm

(4.20)

Die voldoen aan volgende vergelijkingen

D(n)A|A(z) D

(n)A|B(z)

D(n)B|A(z) D

(n)B|B(z)

=[

φEA(z) (1− β)EB(z)(1− φ)EA(z) βEB(z)

]D(n−1)A|A (z) D

(n−1)A|B (z)

D(n−1)B|A (z) D

(n−1)B|B (z)

(4.21)

en deze conventie: D(0)A|A(z) D

(0)A|B(z)

D(0)B|A(z) D

(0)B|B(z)

=[1 00 1

](4.22)

Daaruit volgt (via spectrale decompositie):

Page 78: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 65

D(n)A|A(z) D

(n)A|B(z)

D(n)B|A(z) D

(n)B|B(z)

=[

φEA(z) (1− β)EB(z)(1− φ)EA(z) βEB(z)

]n(4.23)

= ψ1(z)n

ψ1(z)− ψ2(z)

[φEA(z)− ψ2(z) (1− β)EB(z)(1− φ)EA(z) βEB(z)− ψ2(z)

]

− ψ2(z)n

ψ1(z)− ψ2(z)

[φEA(z)− ψ1(z) (1− β)EB(z)(1− φ)EA(z) βEB(z)− ψ1(z)

](4.24)

met ψ1(z) en ψ2(z) de eigenwaarden van de transitiematrix. Die eigenwaarden voldoen aanvolgende eigenschappen3:

ψ1(z) + ψ2(z) = φEA(z) + βEB(z) (4.25)

ψ1(z)ψ2(z) = (φβ − (1− φ)(1− β))EA(z)EB(z) = γEA(z)EB(z) (4.26)

⇒ ψ1(1) = 1 (4.27)

ψ2(1) = γ (4.28)

ψ′1(1) = πAλA + πBλB = λ (4.29)

ψ′2(1) = γ(πBλA + πAλB) (4.30)

ψ′′1(1) = πAE′′A(1) + πBE

′′B(1) + 2γπAπB

1− γ (λB − λA)2 (4.31)

We definiëren D(n)|A als D(n)

A|A +D(n)B|A, D(n)

|B analoog en D(n) = πAD(n)|A + πBD

(n)|B .

Dan wordt de verwachte waarde van het aantal aankomsten gegeven door:

E[D(n)|A ] = E[D(n)

A|A] + E[D(n)B|A] = nλ− 1− γn

1− γ γπB(λB − λA) (4.32)

E[D(n)|B ] = nλ+ 1− γn

1− γ γπA(λB − λA) (4.33)

⇒ E[D(n)] = nλ (4.34)

De variantie is de volgende:

V ar[D(n)] = n(πAV ar[EA] + πBV ar[EB]) + πaπB(λA − λB)2

1− γ (n(1 + γ)− 2γ 1− γn

1− γ ) (4.35)

Voor n 1 (en −1 < γ < 1) is

V ar[D(n)] ≈ V ar[D(n)|A ] ≈ V ar[D(n)

|B ] (4.36)

≈ n(πAV ar[EA] + πBV ar[EB]) + nπaπB(λA − λB)2 1 + γ

1− γ (4.37)

Dus de variantie in het verwachte aantal aankomsten in de komende n slots stijgt met γ voorvaste πA, πB en vaste aankomstprocessen EA(z) en EB(z), zowel als we ons in toestand A als

3De som van de eigenwaarden is gelijk aan het spoor van de matrix, en het product is gelijk aan de determinant

Page 79: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 66

B bevinden. Uit sectie 2.2.2 weten we dat een grotere variantie in het aankomstproces eenlagere optimale drempelwaarde tot gevolg heeft. Bijgevolg daalt de optimale drempelwaardezowel in A als B.

Nog een vaststelling in Figuur 4.2 is dat de verlaging in drempelwaarde groter is naarmate deaankomstintensiteiten λA en λB verder uit elkaar liggen. Dit is uiteraard te verwachten: hoeverder de aankomstintensiteiten uit elkaar liggen, hoe groter het effect is van een stijgendecorrelatiefactor op de verwachte aankomstintensiteit in het volgende slot.

4.3 Vakantiemodel

4.3.1 Aanpassingen aan het model

We passen ook het model uit Hoofdstuk 3 aan. De toestandsruimte breiden we wederom uitmet een extra dimensie ψ ∈ A,B. De nieuwe overgangsprobabiliteiten definiëren we danals volgt (dk is de actie genomen in slot k):

p′(u′, h′,m′, ψ′|u, h,m, ψ, d)= Prob[uk+1 = u′, hk+1 = h′,mk = m′, ψk+1 = ψ′|uk = u, hk = h,mk−1 = m,ψk = ψ, dk = d]

(4.38)

= p(u′, h′,m′|u, h,m, d)Ψψψ′ (4.39)

Ook nu moeten we de koststructuur aanpassen zodat de toestand van het aankomstprocesmee in rekening wordt gebracht bij de verlieskost:

cu,h,m,ψ,vs = chu+ cvIm=1 − r(s)Ih=0 + cl

∞∑j=1

eψ(N − u+ j)j (4.40)

cu,h,m,ψ,w = cb + ch(u− 1)+ + cwIm=0 + cl

∞∑j=1

eψ(N + j − (u− 1)+)j (4.41)

Page 80: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 67

4.3.2 Analyse

Analoog aan het model met aan/uit modus, vinden we dat de optimale strategie nu bestaatuit een combinatie van twee strategieën zoals we die in Hoofdstuk 3 vonden als optimalestrategie, één voor elke toestand van het aankomstproces:

δ∗(u, 0, 1, ψ) =

vfψ(0) , u = 0w , u > 0

(4.42)

δ∗(u, 0, 0, ψ) =

vfψ(u) , fψ(u) > 0w , fψ(u) = 0

(4.43)

waarbij fB(u) ≤ fA(u).

Op Figuur 4.4 zien we de invloed van de correlatiefactor op de optimale strategie. In de hogetoestand B neemt men beter alsmaar minder lange vakanties, naarmate de correlatiefactortoeneemt. De verwachte aankomstintensiteit in het volgende slot neemt er namelijk toe alsde γ stijgt. In de lage toestand A is het effect net omgekeerd: daar neemt men beter langerevakanties als de correlatiefactor toeneemt. Voor een grote correlatiefactor verwacht mennamelijk om in A te blijven, waardoor men weinig klanten verwacht in het volgende slot.

0 2 4 60

2

4

6

8

u

Slot

sva

kant

ief ψ

(u)

ψ = Aψ = B

(a) γ = −0.7

0 2 4 60

2

4

6

8

u

ψ = Aψ = B

(b) γ = 0

0 2 4 60

2

4

6

8

u

ψ = Aψ = B

(c) γ = 0.7

Figuur 4.4: Invloed van de correlatiefacor op de optimale strategie (vakantiemodel).N = 20,M = 20, n = 5, cb = 5, ch = 1, cv = cw = 5, r(s) = s, cl = 400

Page 81: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 68

4.4 Gedeeltelijke observeerbaarheid

Voorlopig gingen we er van uit dat we de toestand van het Markov gemoduleerd aankomst-proces telkens kenden op het ogenblik dat we beslisten, dat we met andere woorden completeobserveerbaarheid hebben van de toestanden. Wat als dit niet het geval is? Dan moetenwe in ons model de toestand van het aankomstproces schatten aan de hand van het aantalaankomsten in een slot (wat we wel kunnen observeren).

4.4.1 ML-schatter

Men zou als oplossing hiervoor de toestand kunnen schatten (aan de hand van een schatter) endan de actie uitvoeren die de optimale strategie in het geval van complete observeerbaarheidvoorschrijft.We zouden bijvoorbeeld een ML-schatter kunnen gebruiken (Eng: Maximum-Likelihood). Dit iseen schatter waarbij de geschatte toestand die is waarvoor de kans op de observatie het grootstis. We kiezen met andere woorden de toestand waarvoor de kans dat we n aankomsten zagenin het vorig slot het grootst is. De kans dat we n aankomsten zagen in het vorig slot, als hetaankomstproces in het huidig slot in toestand a is, kunnen we als volgt bepalen:

Prob[ek−1 = n|ψk = a]= eA(n)Prob[ψk−1 = A|ψk = a] + eB(n)Prob[ψk−1 = B|ψk = a] (4.44)

= eA(n)Prob[ψk+1 = A|ψk = a] + eB(n)Prob[ψk+1 = B|ψk = a] (4.45)

= eA(n)ΨaA + eB(n)ΨaB (4.46)

=

eA(n)φ+ eB(n)(1− φ) , a = A

eA(n)(1− β) + eB(n)β , a = B(4.47)

waarbij gebruik gemaakt werd van het tijdsomkeerbaar karakter van het aankomstproces4.

Een ML-decisieregel kiest dan toestand A als:

eA(n)φ+ eB(n)(1− φ) ≥ eA(n)(1− β) + eB(n)β (4.48)

⇔ γeA(n) ≥ γeB(n) (4.49)

eA(n) ≥ eB(n) , γ > 0eA(n) < eB(n) , γ < 0

(4.50)

en B anders.

4De transitieprobabiliteiten van de omgekeerde Markov keten zijn dezelfde als die van de gewone keten(Prob[ψk−1 = b|ψk = a] = Prob[ψk+1 = b|ψk = a]) omdat πiΨij = πjΨji,∀i, j

Page 82: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 69

De decisie kan dus opgesplitst worden in twee delen. Eerst schatten we de toestand van hetaankomstproces in het vorige slot (ψML,k−1) aan de hand van het aantal aankomsten dat weobserveerden.

Bij een positieve correlatie (γ > 0) schatten we de huidige toestand van het aankomstproces alsψML,k = ψML,k−1. Voor γ < 0 resulteert de regel in de andere toestand: ψML,k = ¬ψML,k−1waarbij ¬ de toestand omkeert (A wordt B en vice versa). Merk op dat voor γ = 0 er geencorrelatie is waardoor het model dan herleid wordt tot één uit de vorige delen.

0 2 4 6 8 100

5 · 10−2

0.1

0.15

0.2

0.25

0.3

0.35

n

e a(n

)

ψk−1 = Aψk−1 = B

ψML,k−1 = A

ψML,k−1 = B

Figuur 4.5: Voorbeeld van een ML-schatter ψML,k−1 voor twee Poisson verdeelde aankomst-processen met λA = 2 en λB = 5. Als er 3 aankomsten of minder zijn, dan resulteert deML-schatter in toestand A. Voor n ≥ 4 is ψML,k−1 = B. Merk op dat voor Poisson verdeeldeaankomstprocessen met λA < λB < 1 een ML-schatter de toestand A schat als er geenaankomsten zijn, en B als er wel zijn.

Deze methode heeft als voordeel dat ze eenvoudig is. We houden echter geen rekening met deonzekerheid die het systeem heeft over het niet-observeerbare deel van de toestand. Daarommodelleert men dit probleem best aan de hand van POMDPs.

Page 83: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 70

4.4.2 POMDP model

In deze sectie doen we een poging om de gedeeltelijke observeerbaarheid in een POMDPmodel te gieten. Een POMDP bestaat uit een MDP aangevuld met een verzameling vanobservaties en voor elke toestand en actie een probabiliteitsdistributie over deze observaties(zie sectie 1.3). We nemen dus het MDP-gedeelte uit de vorige delen, en vullen die aan metdeze twee elementen:

• Observaties Ω = ω ∈ N : ω ≤ Emax, waarbijEmax het maximum aantal aankomsten isper slot. We observeren het aantal aankomsten in het vorige slot. Om de gangbare algo-ritmes te kunnen gebruiken om een POMDP op te lossen, moet |Ω| eindig zijn. Daaromhebben we in het vorige deel gekozen om een binomiaal verdeeld aankomstproces tebeschouwen, in plaats van een Poisson-proces.

• De probabiliteit op observatie o na actie d wanneer men in toestand s′ aankomt:O(s′, d, o). In ons model kunnen we dit als volgt formuleren:

O(s′, d, ω) = Prob[ω|s′, d] (4.51)

=∑s∈S

Prob[ω, s|s, s′, d] (4.52)

=∑s∈S

Prob[ω|s, s′, d]Prob[s|s′, d] (4.53)

Het eerste deel van deze uitdrukking kunnen we bijvoorbeeld voor het aan/uit-modelverder uitwerken:

Prob[ω|s, s′, d] = Prob[ek−1 = ω|uk−1 = u,mk−2 = m,ψk−1 = a,

uk = u′,mk−1 = m′, ψk = a′, dk−1 = d] (4.54)

=

1 , ω = u′ − u+ Id=ON,u>0 en d = m′

0 , elders(4.55)

Het tweede deel van de uitdrukking (Prob[s|s′, d]) is echter minder eenvoudig te bepa-len. Een voor de hand liggende uitwerking gaat als volgt:

Prob[s|s′, d] = Prob[sk = s|sk+1 = s′, dk = d] (4.56)

= Prob[sk = s, sk+1 = s′, dk = d]Prob[sk+1 = s′, dk = d] (4.57)

= Prob[sk+1 = s′|sk = s, dk = d]Prob[sk = s, dk = d]Prob[sk+1 = s′, dk = d] (4.58)

= p(s′|s, d) Prob[sk = s, dk = d]Prob[sk+1 = s′, dk = d] (4.59)

Om dit verder uit te werken in regime bijvoorbeeld, zijn de regimeprobabiliteitenlimk→∞ Prob[sk = s, dk = d] en limk→∞ Prob[sk+1 = s′, dk = d] nodig. Die zijn echterafhankelijk van de uiteindelijke strategie, die we proberen te bepalen. Dus op dezemanier kunnen we O(s′, d, ω) niet vastleggen.

Page 84: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 71

Een mogelijke oplossing is om het aantal aankomsten in het vorige slot (f ) mee te nemen inde toestand. Op die manier kan O(s′, d, ω) gemakkelijk uitgedrukt worden als:

O(s′, d, ω) = Prob[ω|s′, d] (4.60)

= If ′=ω (4.61)

De transitieprobabiliteiten moeten dan aangepast worden als volgt:

p(s′|s, d) = p(u′,m′, ψ′, f ′|u,m,ψ, f, d) (4.62)

= p(u′,m′, ψ′|u,m,ψ)If ′=u′−u+Id=ON (4.63)

Op deze manier wordt de toestandsruimte echter weer met een factor Emax + 1 vergroot.Bovendien zijn POMDPs veel moeilijker op te lossen dan MDPs (cfr. sectie 1.3). Hierdoorwordt een analyse van de optimale strategie voor zelfs zeer beperkte buffergroottes moeilijk.

Page 85: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 4. Gecorreleerde aankomstprocessen 72

4.5 Conclusie

In dit hoofdstuk hebben we de modellen uit de vorige hoofdstukken uitgebreid met eenMarkov gemoduleerd aankomstproces. Aan de hand van een toestand met hoge en een metlage aankomstintensiteit hebben we de invloed van correlatie in het aankomstproces op destructuur van de optimale strategie bestudeerd. We hebben aangetoond hoe we de MDPshebben uitgebreid om deze aanpassing te voorzien.

Voor het aan/uit-model hebben we gevonden dat de optimale strategie nu een tweevou-dige drempelwaardestrategie was: voor beide toestanden van het aankomstproces is er eenoptimale drempelwaarde waarop het systeem begint te werken tot het leeg is. Voor beidetoestanden daalt de optimale drempelwaarde bij een stijgende correlatiefactor. Dit kunnenwe toeschrijven aan de stijging in de variantie van het aantal aankomsten in de volgende slots.

Ook voor het vakantiemodel bestaat de optimale strategie nu uit een combinatie van tweestategieën zoals we die in Hoofdstuk 3 vonden als optimale strategie, één voor elke toestandvan het aankomstproces. In de lage toestand neemt men beter langere vakanties als decorrelatie toeneemt, terwijl in de hoge toestand net minder lange vakanties aangewezen zijn.

Tenslotte bespraken we ook twee methoden om gedeeltelijke observeerbaarheid van hetaankomstproces in het model op te nemen. Men kan zelf de toestand schatten en dande beslissing nemen die de optimale strategie in geval van complete observeerbaarheidvoorschrijft. Maar op die manier neemt men de onzekerheid over de toestand van hetaankomstproces niet mee in rekening bij de beslissing. Daarom is er een beter alternatief,namelijk het model uitbreiden tot een POMDP. We hebben een mogelijke oplossing getoondom het model op die manier uit te breiden.

Page 86: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 5

Toepassingen

Als laatste hoofdstuk presenteren we enkele toepassingen uit verschillende domeinen zoalsproductie en telecommunicatie. We schetsen enkele (denkbeeldige) situaties en passen detechnieken en resultaten uit de vorige hoofdstukken toe.

Een eerste eenvoudig voorbeeld is een model van een communicatiebuffer met een koststruc-tuur. Vanwege het energieverbruik en de overhead door een handshake-protocol, loont hetde moeite om de bedieningseenheid soms ook uit te schakelen als er pakketten in het systeemaanwezig zijn.

De tweede toepassing die we voorstellen is een productieomgeving waarin men omschakel-kost afweegt tegenover opslagkost om de optimale (drempelwaarde)strategie te bepalen. Hetvoorbeeld toont aan dat men kosten kan besparen door de drempelwaarde te verhogen, endat zelfs een suboptimale drempelwaarde een significante verlaging kan betekenen in kost.

Tenslotte modelleren we een server applicatie als een wachtlijnsysteem dat beloond wordtom vakanties te nemen, omdat op die manier processortijd en geheugenruimte vrij komt.

73

Page 87: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 5. Toepassingen 74

5.1 Communicatiebuffer

Een eerste eenvoudig voorbeeld van een toepassing is een buffer in een communicatienet-werk1. Stel dat de buffer kan gemodelleerd worden als een Geom-D-1-20 wachtlijn, d.w.z. dathet aantal aankomsten in één slot geometrisch verdeeld is, dat de verwerkingstijd constant isen gelijk aan één slot (1ms), dat er één bedieningseenheid is en dat de buffer een opslagcapa-citeit van 20 pakketten heeft.

De koststructuur van de buffer is als volgt: een pakket gedurende één slot opslaan kost 1eenheid2. Als er pakketten worden verzonden (i.e. de bedieningseenheid is actief) wordener 10 eenheden per slot aangerekend wegens het energieverbruik. Het systeem kan de be-dieningseenheid echter tijdelijk uitschakelen om energie te besparen. Zo’n omschakelingkost 10 eenheden door overhead veroorzaakt door een handshake-protocol. Het systeemmoet namelijk opnieuw de communicatie op gang brengen als het actief wordt. Daarvoormoet het enkele berichten verzenden om de nodige afspraken te maken. Een pakket moe-ten weigeren vanwege een volle buffer kost het systeem 50 eenheden. We kiezen ervoorom toekomstige kosten weinig te benadelen, en nemen dus een hoge disconteringsfactor: 0.99.

Deze buffer kunnen we modelleren als een MDP zoals in sectie 2.1. Als we het Markovbeslissingsprobleem oplossen, vinden we dat de optimale drempelwaarde schommelt tussen1 en 3, en ongeveer symmetrisch is t.o.v. λ = 1

2 , zoals gebruikelijk als het aankomstprocesgeometrisch is en de drempelwaarde voornamelijk bepaald wordt door de omschakelkost.Als men de aankomstintensiteit niet kent, kan men een strategie gebruiken waarbij men paspakketten begint te verzenden als er 2 of meer in de buffer zijn toegekomen.

0 0.2 0.4 0.6 0.8 10

2

4

6

8

Aankomstintensiteit λ

Opt

imal

edr

empe

lwaa

rde

Figuur 5.1: Toepassing 1: de optimale drempelwaarde schommelt tussen 1 en 3 en is ongeveersymmetrisch t.o.v. λ = 1

2

1Dit is een uitbreiding van een eenvoudig voorbeeld uit een boek van Woodward[11]2We kiezen ervoor om geen munteenheid te gebruiken omdat reële kosten moeilijk in te schatten vallen

Page 88: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 5. Toepassingen 75

5.2 Productie

Stel dat we de optimale strategie zoeken voor een machine in een productieomgeving. Demachine heeft genoeg ruimte om alle halfafgewerkte producten die toekomen op te slaan.Ze verwerkt producten één voor één (FCFS3), met een vaste verwerkingstijd van 1 uur. Inhet bedrijf werken drie ploegen elk acht uur per dag, zodat de machine altijd kan bediendworden. Per jaar worden 250 dagen gewerkt.

Elk uur heeft de operator van de machine de mogelijkheid om te schakelen. Omdat demachinebediende andere taken moet onderbreken om de machine om te schakelen, rekenenwe een opportuniteitskost van 50 euro per omschakeling aan. De onderneming heeft deomschakelingen geoptimaliseerd met een SMED-methode4, waardoor de omschakeltijdenverwaarloosbaar zijn in vergelijking met de verwerkingstijd.

Gemiddeld worden er 18 producten per dag verwerkt, of 0.75 per uur. Het aantal half-afgewerkte producten dat per uur toekomt aan de machine is geometrisch verdeeld enmag ongecorreleerd worden verondersteld. De firma rekent per product een voorraadkostaan van 12000 euro per jaar, waarvan de helft wordt toegeschreven aan de machine in kwestie.

Tot nu toe heeft de onderneming altijd producten verwerkt zodra ze beschikbaar waren. Defirma wenst de gemiddelde kost (bestaande uit opslagkost en omschakelkost) te minimalise-ren. De firma wenst ook te onderzoeken of een optimalisatie van het proces vòòr de machinein kwestie (waardoor het aankomstproces Bernoulli verdeeld wordt) nuttig is (geschatte kost:10000 euro per jaar)

De opslagkost ch per product is:

ch = 12

12000 euro/jaar250 dagen/jaar× 24 uren/dag

= 1 euro/uur (5.1)

Uit sectie 2.4.2 weten we dat

E[cost] = ch

λ

1− λ + 12θ(θ + 1)θ + λ+ 1

+ 2cc

λ(1− λ)θ + λ+ 1 (5.2)

In de huidige situatie is θ = 0, dus de gemiddelde kost per uur is 13.70 euro. In tabel 5.1a isde verwachte kost per uur uitgezet voor enkele drempelwaardes. Optimaal is om te beginnenwerken als er 4 of 5 producten zijn toegekomen, wat nog 8 euro per uur kost: een verbeteringvan bijna 42%, of 34200 euro per jaar.

Als men de drempelwaarde lager wil (om de doorlooptijd niet te veel te laten oplopen bij-voorbeeld), kan men nog altijd een winst boeken van bijna 36% door pas om te schakelen alser 2 producten zijn toegekomen.

3First Come, First Served4Single Minute Exchange of Die[8]: een methode om omschakeltijden te reduceren

Page 89: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 5. Toepassingen 76

Indien het aankomstproces Bernoulli verdeeld is, dan wordt de verwachte kost gegeven door:(zie sectie 2.4.3

E[cost] = ch

(λ+ θ

2

)+ 2cc

λ(1− λ)θ + 1 (5.3)

In tabel 5.1b vinden we dat men optimaal omschakelt nadat er 5 producten zijn aangekomen,zodat de kost daalt tot 6.375 euro per uur. Dat levert een vermindering op van (8− 6.375)×24 × 250 = 9750 euro per jaar. Het loont dus niet de moeite om het aankomstproces teveranderen, als dat 10000 euro per jaar kost.

θ E[cost] (euro/uur)0 13.711 10.182 8.803 8.214 8.005 8.006 8.13

(a) E ∼ Geom(0.75)

θ E[cost] (euro/uur)0 19.501 10.632 8.003 6.944 6.505 6.386 6.43

(b) E ∼ Bernoulli(0.75)

Tabel 5.1: De gemiddelde kost per uur voor verschillende drempelwaardes

Page 90: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 5. Toepassingen 77

5.3 Server applicatie

Als toepassing op het model met vakanties modelleren we een server applicatie als een wacht-lijnsysteem met een koststructuur. De applicatie (bijvoorbeeld een webserver of tijdsserver)ontvangt verzoeken die het afhandelt op een FCFS-basis.

De lengte van het tijdsslot nemen we gelijk aan de verwerkingstijd van een verzoek, namelijk1ms. We veronderstellen dat het aantal inkomende verzoeken per slot Poisson verdeeld ismet λ = 0.8. De applicatie houdt een buffer bij waarin plaats is voor 30 verzoeken.

De kost om een verzoek te verwerken nemen we gelijk aan vijf eenheden. Een verzoek gedu-rende één slot in de buffer laten wachten kost één eenheid. Een verzoek moeten weigeren(omdat de buffer vol is), kost 30 eenheden.

De applicatie kan ervoor kiezen om een aantal slots te slapen (maximaal vijf slots per keer).Op die manier komt er processortijd en geheugen vrij, waarvoor de applicatie beloond wordtaan tien eenheden per slot vakantie. Als de applicatie uit vakantie komt is er een initialisatienodig die vijf eenheden kost.

Als we het MDP model opstellen zoals in Hoofdstuk 3, en de optimale strategie bepalen viawaarde-iteratie, vinden we dat de volgende strategie optimaal is:

1. Neem vijf slots vakantie (het maximum) als er minder dan twee klanten in het systeemaanwezig zijn in de passieve modus

2. Begin te werken van zodra deze drempel is overschreden (en de eventuele vakantie isafgelopen)

3. Blijf bedienen tot het systeem leeg is

Page 91: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 6

Conclusies

In deze masterproef hebben we wachtlijnen bestudeerd met een koststructuur. Traditio-neel worden bij een wachtlijn enkel performantiematen zoals bufferbezetting en doorlooptijdbestudeerd. Wij hebben verschillende kosten toegekend aan gebeurtenissen omtrent de wacht-lijn. Aan de hand van die koststructuur hebben we telkens de optimale bedieningsstrategiebepaald met behulp van Markov beslissingsprocessen.

6.1 Resultaten

6.1.1 Aan/uit-model

Een eerste type wachtlijn dat we hebben bestudeerd was één met één bedieningseenheid dietijdelijk uitgeschakeld kan worden. Het aankomstproces was ongecorreleerd en de bedie-ningstijd deterministisch gelijk aan één slot. Door het systeem als een MDP te modelleren,vonden we dat de optimale strategie een drempelwaardestrategie is. Het systeem wacht bestmet bedienen tot er een bepaald aantal klanten is toegekomen, en begint dan met werken toter geen klanten meer in het systeem zijn.

We bestudeerden de invloed van de verschillende kosten op de optimale strategie. Eenbelangrijke vaststelling was dat het enkel loont om af te wijken van de traditionele standaard-strategie als de kosten direct gerelateerd aan de bufferbezetting (i.e. opslagkost) relatief kleinzijn.

We bepaalden de performantie van een drempelwaardestrategie en stelden vast dat eenstrategie hanteren met drempelwaarde θ∗ significant beter kan zijn dan de standaardstrategie.De performantie blijkt niet zeer gevoelig voor de exacte waarde van θ∗, een drempelwaarderond θ∗ is ook goed.

Voor het oneindige systeem bestudeerden we geometrisch en Bernoulli verdeelde aankomst-processen en bepaalden een gesloten uitdrukking voor de gemiddelde kost per tijdsslot. Uitdie uitdrukking kan een optimale drempelwaarde bepaald worden. We stelden een zelfdeinvloed van de aankomstintensiteit vast als voor het eindig systeem waarbij de verlieskostniet bepalend is. De optimale drempelwaarde was ook lager voor het geometrisch aankomst-proces, net zoals in het eindig systeem.

78

Page 92: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 6. Conclusies 79

Voor het geometrisch verdeelde aankomstproces wordt de optimale drempelwaarde gegevendoor (ζ = cc

ch):

θ∗ = arg minθ∈N

12θ(θ + 1)θ + λ+ 1

+ 2ζ λ(1− λ)θ + λ+ 1

(6.1)

Voor het Bernoulli verdeelde aankomstproces is de optimale drempelwaarde:

θ∗ = arg minθ∈N

θ

2 + 2ζ λ(1− λ)θ + 1

(6.2)

6.1.2 Vakantiemodel

Vervolgens hebben we een wachtlijnsysteem bestudeerd dat beschikt over de mogelijkheidom een aantal slots vakantie te nemen, en het wordt daarvoor beloond. De optimale strategiebleek in het verlengde te liggen van het eerste model. Het systeem neemt langere vakantiesals er weinig klanten aanwezig zijn. Het te nemen aantal slots vakantie daalt als de bufferbe-zetting stijgt. Vanaf een bepaalde waarde wordt er opnieuw gewerkt tot het systeem leeg is.

We hebben opnieuw de invloed van de verschillende kosten op de optimale strategie gea-nalyseerd. De bedieningskost bleek vooral een invloed te hebben op het moment waaropopnieuw wordt gewerkt: dat nam toe bij een stijgende bedieningskost. Als de opslagkoststijgt, daalt het aantal slots vakantie in de optimale strategie. Bovendien wordt er snelleropnieuw bediend. Grotere omschakelkosten zorgen er voor dat men beter langer wacht metopnieuw te bedienen. Een stijgende aankomstintensiteit resulteert in minder lange vakantiesin de optimale strategie. Ook de variantie in het aankomstproces speelt een rol: bij eenkleinere variantie kan het systeem zich langere vakanties veroorloven.

Als de vakantiebeloning minder snel stijgt dan een lineaire functie, neemt men best vakantiesvan één slot; als ze sneller stijgt dan een lineaire functie worden de vakanties alsmaar langer.Voor zeer sterk stijgende functies zijn er dan weer minder klanten vereist om de bedieningte starten. Dit komt omdat het lucratiever is om kort te werken (en de omschakelkosten tebetalen) en zeer lange vakanties te nemen, dan om regelmatig korte vakanties na elkaar tenemen.

We bestudeerden ook de invloed van de koststructuur op de performantie van de optimalestrategie. Als waardemeter voor de koststructuur namen we de opslagkost waarop we deandere kosten voorheen normeerden. Als die opslagkost stijgt, en dus de andere kostenalmaar minder significant worden, dan stijgt de efficiëntie van de standaardstrategie. Hetis met andere woorden vooral zinvol een speciale strategie te gebruiken als de additionelekosten relatief groot zijn, en de kost verbonden aan de bufferbezetting dus relatief klein is.

Page 93: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 6. Conclusies 80

6.1.3 Gecorreleerd aankomstproces

Vervolgens hebben we de twee modellen uitgebreid met een Markov gemoduleerd aankomst-proces. Aan de hand van een toestand met hoge en een met lage aankomstintensiteit hebbenwe de invloed van correlatie in het aankomstproces op de structuur van de optimale strategiebestudeerd. We hebben aangetoond hoe we de MDPs hebben uitgebreid om deze aanpassingte voorzien.

Voor het aan/uit-model hebben we gevonden dat de optimale strategie nu een tweevou-dige drempelwaardestrategie is: voor beide toestanden van het aankomstproces is er eenoptimale drempelwaarde waarop het systeem begint te werken tot het leeg is. Voor beidetoestanden daalt de optimale drempelwaarde bij een stijgende correlatiefactor. Dit kunnenwe toeschrijven aan de stijging in de variantie van het aantal aankomsten in de volgende slots.

Ook voor het vakantiemodel bestaat de optimale strategie nu uit een combinatie van tweestategieën zoals we die in Hoofdstuk 3 vonden als optimale strategie, één voor elke toestandvan het aankomstproces. In de lage toestand neemt men beter langere vakanties als decorrelatie toeneemt, terwijl in de hoge toestand net minder lange vakanties aangewezen zijn.

We hebben twee methoden besproken om gedeeltelijke observeerbaarheid van het aankomst-proces in het model op te nemen. Men kan zelf de toestand schatten en dan de beslissingnemen die de optimale strategie in geval van complete observeerbaarheid voorschrijft. Maarop die manier neemt men de onzekerheid over de toestand van het aankomstproces niet meein rekening bij de beslissing. Daarom is er een beter alternatief, namelijk het model uitbreidentot een POMDP. We hebben een mogelijke oplossing getoond om het model op die manier uitte breiden.

Tenslotte gaven we enkele voorbeelden van toepassingen voor de bestudeerde wachtlijnen.

Page 94: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Hoofdstuk 6. Conclusies 81

6.2 Evaluatie van de gebruikte methoden

Het grote voordeel van de modellering als MDP is het feit dat een optimale strategie wordtgevonden zonder dat de structuur van die strategie vooraf wordt vastgelegd. Enkel de moge-lijkheden van het systeem worden gemodelleerd onder de vorm van toestanden en acties.Hoe de optimale strategie er precies uitziet weten we niet op voorhand. Dit staat in schrilcontrast met een klassieke bufferanalyse waarbij systeemvergelijkingen worden opgesteld opbasis van een vooraf gedefinieerde strategie. Op die manier beperkt men zich in de analysetot één (set van) strategie(ën).

Een nadeel van MDPs is dat de rekentijd om de optimale strategie te vinden toeneemt alsde toestandsruimte groter wordt (bijvoorbeeld om een wachtlijn met grotere buffercapaciteitte bestuderen), als de verzameling acties toeneemt. Bovendien wordt het waarde-iteratiealgoritme trager als de disconteringsfactor stijgt. Daarom hebben we enkel wachtlijnen metkleine buffercapaciteit beschouwd om de analyses op uit te voeren.

De achilleshiel van deze techniek is de analyse van het resultaat. Een MDP model voorzietgeen mogelijkheid om te bestuderen welke parameters precies de keuze van de optimalestrategie bepalen. Men moet terugvallen op een numerieke analyse waarbij men zelf kostenlaat variëren om de sensitiviteit van het resultaat te onderzoeken. Op dit punt heeft eentheoretische analyse een streepje voor: als een uitdrukking kan gevonden worden voor deoptimale strategie is meteen duidelijk wat de invloed is van de verschillende parameters indie uitdrukking.

Het is om deze redenen dat we het beste van beide technieken hebben gecombineerd bij hetaan/uit-model. We hebben via MDPs de optimale strategie bepaald en onderzocht welkestructuur deze aannam (een drempelwaardestrategie). Dergelijke strategieën hebben we danverder onderzocht in een klassieke bufferanalyse. Op die manier vonden we een geslotenuitdrukking voor de optimale drempelwaarde voor eenvoudige aankomstprocessen.

Page 95: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Bibliografie

[1] Eric Denardo. Dynamic Programming: Models and Applications. Prentice-Hall, EnglewoodCliffs, N.J., 1982.

[2] Alfredo G. Hernández-Díaz and Pilar Moreno. Analysis and optimal control of a discrete-time queueing system under the (m,N)-policy. 2006.

[3] Frederick S. Hillier and Gerald J. Lieberman. Introduction to Operations Research . McGraw-Hill Science/Engineering/Math, 7th edition, 2002.

[4] Ronald A. Howard. Dynamic Programming and Markov Processes. MIT Press, Cambridge,MA, 1960.

[5] Li Jun. Learning average reward irreducible stochastic games: Analysis and applications. PhDthesis, University of South Florida, 2003.

[6] Leslie Pack Kaelbling, Michael L. Littman, and Anthony R. Cassandra. Planning andacting in partially observable stochastic domains. Artif. Intell., 101:99–134, May 1998.

[7] A. Krishnamoorthy and T. G. Deepak. Modified N-policy for M/G/1 queues. Comput.Oper. Res., 29:1611–1620, October 2002.

[8] Shigeo Shingo. A Revolution in Manufacturing: The Smed System. Productivity Press, 1985.

[9] A.J.J. Talman. A simple proof of the optimality of the best N-policy in the M/G/1queueing control problem with removable server. Technical report, 1979.

[10] Wayne L. Winston. Operations Research. Applications and Algorithms. Brooks/Cole, 4thedition, 2004.

[11] Michael E. Woodward. Communication and Computer Networks: Modelling with discrete-timequeues. Wiley-IEEE Computer Society Press, 1993.

82

Page 96: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Lijst van figuren

1.1 Structuur van een wachtlijnsysteem . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Classificatie van Markov modellen . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3 POMDP Structuur: toestandsschatter en strategie . . . . . . . . . . . . . . . . 11

1.4 Een voorbeeld van een strategieboom . . . . . . . . . . . . . . . . . . . . . . . 12

2.1 Invloed van de bedieningskost op de optimale drempelwaarde . . . . . . . . 20

2.2 Invloed van de opslagkost op de optimale drempelwaarde . . . . . . . . . . . 21

2.3 Invloed van de omschakelkost op de optimale drempelwaarde . . . . . . . . . 22

2.4 Invloed van de verlieskost op de optimale drempelwaarde . . . . . . . . . . . 23

2.5 Het verwacht aantal verloren klanten in een systeem met een Poisson aan-

komstproces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.6 Invloed van het aankomstproces op de optimale drempelwaarde . . . . . . . 24

2.7 Invloed van de aankomstintensiteit op de optimale drempelwaarde . . . . . . 25

2.8 Invloed van de disconteringsfactor op de optimale drempelwaarde . . . . . . 26

2.9 Invloed van de buffergrootte op de optimale drempelwaarde . . . . . . . . . . 27

2.10 De performantie van het systeem in functie van de drempelwaarde . . . . . . 28

2.11 De performantie in functie van de drempelwaarde voor verschillende buffer-

groottes (dominante omschakelkost) . . . . . . . . . . . . . . . . . . . . . . . . 29

2.12 De performantie in functie van de drempelwaarde voor verschillende buffer-

groottes (dominante verlieskost) . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.13 De gemiddelde kost per slot in functie van de drempelwaarde bij een oneindig

systeem (geometrisch aankomstproces) . . . . . . . . . . . . . . . . . . . . . . 37

2.14 Invloed van de aankomstintensiteit op de optimale drempelwaarde bij een

oneindig systeem (geometrisch aankomstproces) . . . . . . . . . . . . . . . . . 38

2.15 Invloed van de koststructuur op de optimale drempelwaarde bij een oneindig

systeem (geometrisch aankomstproces) . . . . . . . . . . . . . . . . . . . . . . 38

83

Page 97: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen

Lijst van figuren 84

2.16 De gemiddelde kost per slot in functie van de drempelwaarde bij een oneindig

systeem (Bernoulli aankomstproces) . . . . . . . . . . . . . . . . . . . . . . . . 41

2.17 Invloed van de aankomstintensiteit op de optimale drempelwaarde bij een

oneindig systeem (Bernoulli aankomstproces) . . . . . . . . . . . . . . . . . . 41

2.18 Invloed van de koststructuur op de optimale drempelwaarde bij een oneindig

systeem (Bernoulli aankomstproces) . . . . . . . . . . . . . . . . . . . . . . . . 42

2.19 Een vergelijking van de gemiddelde opslagkost per slot bij een oneindig sys-

teem voor Bernoulli en geometrisch verdeelde aankomstprocessen . . . . . . 42

2.20 Een vergelijking van de gemiddelde omschakelkost per slot bij een oneindig

systeem voor Bernoulli en geometrisch verdeelde aankomstprocessen . . . . 43

2.21 Een vergelijking van de gemiddelde kost per slot bij een oneindig systeem voor

Bernoulli en geometrisch verdeelde aankomstprocessen . . . . . . . . . . . . . 43

2.22 Vergelijking van de optimale drempelwaarde bij een oneindig systeem voor

geometrisch en Bernoulli verdeeld aankomstproces . . . . . . . . . . . . . . . 44

3.1 Invloed van de bedieningskost op de optimale strategie (aantal slots vakantie). 52

3.2 Invloed van de opslagkost op de optimale strategie (aantal slots vakantie). . . 52

3.3 Invloed van de verlieskost op de optimale strategie (aantal slots vakantie). . . 53

3.4 Invloed van de vakantiekost op de optimale strategie (aantal slots vakantie). . 53

3.5 Invloed van de omschakelkost op de optimale strategie (aantal slots vakantie). 54

3.6 Invloed van de aankomstintensiteit op de optimale strategie (aantal slots va-

kantie). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.7 Invloed van de distributie van het aankomstproces op de optimale strategie

(aantal slots vakantie). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.8 Invloed van de disconteringsfactor op de optimale strategie (aantal slots va-

kantie). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.9 Verschillende functies voor de vakantiebeloning . . . . . . . . . . . . . . . . . 56

3.10 Invloed van de vakantiebeloning op de optimale strategie (aantal slots vakantie). 56

3.11 De performantie van de optimale strategie van het vakantiemodel . . . . . . . 57

4.1 Markov gemoduleerd aankomstproces met twee toestanden, A en B . . . . . 61

4.2 Invloed van de correlatiefactor op de optimale drempelwaarde . . . . . . . . 63

4.3 Invloed van de correlatiefactor op de optimale drempelwaarde . . . . . . . . 64

4.4 Invloed van de correlatiefactor op de optimale strategie (vakantiemodel) . . . 67

4.5 Voorbeeld van een ML-schatter voor twee Poisson verdeelde aankomstprocessen 69

5.1 Toepassing 1: communicatiebuffer . . . . . . . . . . . . . . . . . . . . . . . . . 74

Page 98: Optimale bedieningsstrategieën in wachtlijnen met niet ...lib.ugent.be/fulltxt/RUG01/001/805/242/RUG01-001805242_2012_0001_AC.pdf · het model met een oneindige wachtruimte, en bekomen