Download - 第9章混合モデルとEM 第10章近似推論法bin.t.u-tokyo.ac.jp/summercamp2015/document/prml9_shoji.pdf · 14 ¦ K j j n j j k n k k nk ... 第9章混合モデルとEM 第10章

9EM

2015

B4

9 EM

9.1 K-means

9.1.1

9.2

9.2.1

9.2.2 EM

9.3 EM

9.3.1

9.3.2 K-means

9.3.3

9.3.4 EM

9.4 EM

2

1. K-means EM

K-means

3EM

※ ※

2. K-means 4

3. 5

K

k

kkk Np1

)()( Σ,μ|xx π

3. 6

KK-means

K-means

N

n

K

k

kkkk NXp1 1

),|(ln)|(ln ΣμxΣμ,π, π

3. 7

∵ n

)()(2

11

2

1)()(

2

1exp

)2(

1

),|(

0 1

2/3

1

2/1

1

knk

T

kn

k

k

kk

knk

T

knD

N

nK

j

jjnj

k

N

μxΣμxΣ

ΣΣΣ

μxΣμx

Σμxπ

π

π

3. 9

Tkkk

k

1

ΣΣΣ

Σ Tk

T

knknk

11 ))(( ΣμxμxΣ

T

knkn

N

nK

j

jjnj

kknk

N

nK

j

jjnj

kknk

k

N

N

N

N))((

),|(

),|(

),|(

),|(

1

1

11

1

μxμx

Σμx

Σμx

Σμx

ΣμxΣ

π

π

π

π

Tkk

11 ΣΣ

3.

π 1)

10

λ

π

N

nK

j

jjnj

kkn

N

N

1

1

),|(

),|(0

Σμx

Σμx

K

k

k

N

n

K

k

kknk

K

k

k NXpL11 11

1),|(ln1)|(ln πλππλ ΣμxΣμ,π,

11

K

k

kπ

K

k

k

N

nK

j

jjnj

kknk

N

N

1 1

1

),|(

),|(0 π

π

π

Σμx

Σμx

πk

k

Nλk

N

nK

j

jjnj

kknk N

N

Nπ

π

π

1

1

),|(

),|(0

Σμx

Σμx

3. 11

k

N

nK

j

jjnj

kknk N

N

Nπ

π

π

1

1

),|(

),|(0

Σμx

Σμx

)}({

),|(

),|(0 1

1

1

knk

N

nK

j

jjnj

kknk

N

NμxΣ

Σμx

Σμx

π

πn

N

nK

j

jjnj

kknk

N

nK

j

jjnj

kknk

k

N

N

N

Nx

Σμx

Σμx

Σμx

Σμxμ

1

11

1

),|(

),|(

),|(

),|(

1

π

π

π

π

T

knkn

N

nK

j

jjnj

kknk

N

nK

j

jjnj

kknk

k

N

N

N

N))((

),|(

),|(

),|(

),|(

1

1

11

1

μxμx

Σμx

Σμx

Σμx

ΣμxΣ

π

π

π

π

N

nK

j

jjnj

kknkk

N

N

N 1

1

),|(

),|(1

Σμx

Σμx

π

ππ

3. 12

K

j

jjnj

kknknk

N

Nz

1

),|(

),|()(

Σμx

Σμx

π

πγ

n

N

n

nkN

n

nk

k z

z

xμ

1

1

)(

)(

1γ

γ

T

knkn

N

n

nkN

n

nk

k z

z

))(()(

)(

1

1

1

μxμxΣ

γ

γ

N

n

nkk zN 1

)(1γπ

γ

⇒

3. 13

γ

3. 14

K

j

jjnj

kknknk

N

Nz

1

),|(

),|()(

Σμx

Σμx

π

πγ n

N

n

nkN

n

nk

k z

z

xμ

1

1

)(

)(

1γ

γ

T

knkn

N

n

nkN

n

nk

k z

z

))(()(

)(

1

1

1

μxμxΣ

γ

γ

N

n

nkk zN 1

)(1γπ

MステップEステップ

対数尤度計算

収束判定

4. EM

Expectation-Maximization algorithm

E M

15

→ …

5. 16

kkzp π )1(

K 2 z

1-of-K K 1, 0

義を満たす．であり，確率の値の定π，π※πの定義より， 1101

K

k

kk

K

k

z

kkp

1

)( πz

K

k

z

kkkNp

1

)()|( Σ,μ|xzx)()1|( kkk Nzp Σ,μ|xx

K

k

kkk

z

Nppp1

)()|()()( Σ,μ|xzxzx π

Zk=1なる事象の事前確率

5. 17

K

j

jjj

kkk

K

j

jj

kkk

N

N

zpzp

zpzpzp

11

),|(

),|(

)1|()1(

)1|()1()|1(

Σμx

Σμx

x

xx

π

π

)()1|( kkk Nzp Σ,μ|xx

K

k

kkk

z

Nppp1

)()|()()( Σ,μ|xzxzx π

kkzp π )1(

Xを観測したときの対応する事後確率

＝混合要素kがxの観測を説明する度合を表す「負担率」と解釈できる．

)|()()|()( zxzxzx pppp ※

5. 18

以上，混合ガウス分布での示唆より，

EMアルゴリズムは，

「潜在変数の事後分布」に着目してつくられた簡易計算法なのでは？

と考えられる．

混合ガウス分布から拡張し，EMアルゴリズムの一般的な利用を見てみる．

4. EM 19観測変数Xと潜在変数Zの同時分布p(X,Z|θ)が与えられていて，パラメータθで支配されているとする．アルゴリズムの目的は尤度関数p(X|θ)をθに関して最大化することである．

1: パラメタの初期値θ(old)を選ぶ．

2(Eステップ): 事後確率p(Z|X,θ(old))を計算する．

3(Mステップ): 上で求めた事後確率を所与として尤度関数を最大化するθ(new)を求める．

4: 尤度関数またはパラメタ値が収束条件を満たしていない場合θ(old)にθ(new)を代入し2へ！

4. EM 20

z

oldold

oldnew

ppQ

Q

)|(ln),|(),(

),(maxarg

θθθθ

θθθθ

ZX,XZ

⇒なぜ期待値を最大化してるのか？

3(Mステップ): 上で求めた事後確率を所与として尤度関数を最大化するθ(new)を求める．

完全データ対数尤度の期待値

)|(ln)||(

)()|(ln)(

),|(lnln)(

)()|(ln),|(ln)(

)(

)|,(ln)(),(

θ

θθ

θθ

θθ

X

ZXZ

XZZ

ZXXZZ

Z

ZXZ

ppqKL

qpq

pq

qppq

q

pqqL

ZZ

Z

Z

4. EM 21

z

pp )|()|( θθ ZX,X

これが最適化困難であるときどうするか．

代入

)|(ln)|(ln)|,(ln θθθ XX,ZZX ppp 確率の連鎖律より

と定義してこれを計算

=1

Z q

pqpqKL

)(

),|(lnln)()||(

Z

XZZ

θ

4. EM 22

に関して

これはq(Z)と事後分布p(Z|X,θ)の

カルバック-ライブラーダイバージェンス（KLダイバージェンス），

つまり相対エントロピーである．

0)(ln)(

)(ln)()||(

xxxx

xx dqd

p

qppqKL一般型

規格化条件）※　 (1)( xx dq

∵関数-lnxが凸関数

4. EM 23Eステップ解説

)|(ln)||(),( oldold ppqKLqL θθ X

以下を，q(Z)について最大化

≧0 q(Z)には依存しない

)|()(0)||( oldpqpqKL θX,ZZ

のとき最大である！

4. EM 24Mステップ解説 )|(ln)||(),( θθ XppqKLqL

q(Z)を固定し，θについて下界を最大化

)|(ln oldp θX

),( oldqL θ

)|(ln newp θX

),( newqL θ

0)||( pqKL

)||( pqKL

⇒lnp(X|θ)の増加量はL(q,θ)の増加量よりも大きい

4. EM 25Mステップ解説

)|()( oldpq θX,ZZ

.),(

),|(ln),|()|,(ln),|(

),|(

)|,(ln),|(

)(

)|,(ln)(),(

constQ

pppp

p

pp

q

pqqL

old

old

Z

old

Z

old

Zold

old

Z

θθ

θθθθ

θ

θθ

θθ

XZXZZXXZ

XZ

ZXXZ

Z

ZXZ

L(q,θ)を最大化するとき，実際は「完全データ対数尤度の期待値」を最大化することになる．

変数θは対数の中のみに表れている→最適化容易

4. EM 26パラメータ空間での図解

)|(ln θXp

),( θqL

oldθ newθ※下界はパラメタの凸関数

27

EM Kmeans

⇒Kmeans EM

Q, Kmeans EM

A, →

→

※

Download - 第9章 混合モデルとEM 第10章 近似推論法bin.t.u-tokyo.ac.jp/summercamp2015/document/prml9_shoji.pdf · 14 ¦ K j j n j j k n k k nk ... 第9章 混合モデルとEM 第10章

Download - 第9章混合モデルとEM 第10章近似推論法bin.t.u-tokyo.ac.jp/summercamp2015/document/prml9_shoji.pdf · 14 ¦ K j j n j j k n k k nk ... 第9章混合モデルとEM 第10章