9EM
2015
B4
9 EM
9.1 K-means
9.1.1
9.2
9.2.1
9.2.2 EM
9.3 EM
9.3.1
9.3.2 K-means
9.3.3
9.3.4 EM
9.4 EM
2
1. K-means EM
K-means
3EM
※ ※
2. K-means 4
3. 5
K
k
kkk Np1
)()( Σ,μ|xx π
3. 6
KK-means
K-means
N
n
K
k
kkkk NXp1 1
),|(ln)|(ln ΣμxΣμ,π, π
3. 7
∵ n
1. 8
)()(2
11
2
1)()(
2
1exp
)2(
1
),|(
0 1
2/3
1
2/1
1
knk
T
kn
k
k
kk
knk
T
knD
N
nK
j
jjnj
k
N
μxΣμxΣ
ΣΣΣ
μxΣμx
Σμxπ
π
π
3. 9
Tkkk
k
1
ΣΣΣ
Σ Tk
T
knknk
11 ))(( ΣμxμxΣ
T
knkn
N
nK
j
jjnj
kknk
N
nK
j
jjnj
kknk
k
N
N
N
N))((
),|(
),|(
),|(
),|(
1
1
11
1
μxμx
Σμx
Σμx
Σμx
ΣμxΣ
π
π
π
π
Tkk
11 ΣΣ
3.
π 1)
10
λ
π
N
nK
j
jjnj
kkn
N
N
1
1
),|(
),|(0
Σμx
Σμx
K
k
k
N
n
K
k
kknk
K
k
k NXpL11 11
1),|(ln1)|(ln πλππλ ΣμxΣμ,π,
11
K
k
kπ
K
k
k
N
nK
j
jjnj
kknk
N
N
1 1
1
),|(
),|(0 π
π
π
Σμx
Σμx
πk
k
Nλk
N
nK
j
jjnj
kknk N
N
Nπ
π
π
1
1
),|(
),|(0
Σμx
Σμx
3. 11
k
N
nK
j
jjnj
kknk N
N
Nπ
π
π
1
1
),|(
),|(0
Σμx
Σμx
)}({
),|(
),|(0 1
1
1
knk
N
nK
j
jjnj
kknk
N
NμxΣ
Σμx
Σμx
π
πn
N
nK
j
jjnj
kknk
N
nK
j
jjnj
kknk
k
N
N
N
Nx
Σμx
Σμx
Σμx
Σμxμ
1
11
1
),|(
),|(
),|(
),|(
1
π
π
π
π
T
knkn
N
nK
j
jjnj
kknk
N
nK
j
jjnj
kknk
k
N
N
N
N))((
),|(
),|(
),|(
),|(
1
1
11
1
μxμx
Σμx
Σμx
Σμx
ΣμxΣ
π
π
π
π
N
nK
j
jjnj
kknkk
N
N
N 1
1
),|(
),|(1
Σμx
Σμx
π
ππ
3. 12
K
j
jjnj
kknknk
N
Nz
1
),|(
),|()(
Σμx
Σμx
π
πγ
n
N
n
nkN
n
nk
k z
z
xμ
1
1
)(
)(
1γ
γ
T
knkn
N
n
nkN
n
nk
k z
z
))(()(
)(
1
1
1
μxμxΣ
γ
γ
N
n
nkk zN 1
)(1γπ
γ
⇒
3. 13
γ
3. 14
K
j
jjnj
kknknk
N
Nz
1
),|(
),|()(
Σμx
Σμx
π
πγ n
N
n
nkN
n
nk
k z
z
xμ
1
1
)(
)(
1γ
γ
T
knkn
N
n
nkN
n
nk
k z
z
))(()(
)(
1
1
1
μxμxΣ
γ
γ
N
n
nkk zN 1
)(1γπ
MステップEステップ
対数尤度計算
収束判定
4. EM
Expectation-Maximization algorithm
E M
15
→ …
5. 16
kkzp π )1(
K 2 z
1-of-K K 1, 0
義を満たす.であり,確率の値の定π,π※πの定義より, 1101
K
k
kk
K
k
z
kkp
1
)( πz
K
k
z
kkkNp
1
)()|( Σ,μ|xzx)()1|( kkk Nzp Σ,μ|xx
K
k
kkk
z
Nppp1
)()|()()( Σ,μ|xzxzx π
Zk=1なる事象の事前確率
5. 17
K
j
jjj
kkk
K
j
jj
kkk
N
N
zpzp
zpzpzp
11
),|(
),|(
)1|()1(
)1|()1()|1(
Σμx
Σμx
x
xx
π
π
)()1|( kkk Nzp Σ,μ|xx
K
k
kkk
z
Nppp1
)()|()()( Σ,μ|xzxzx π
kkzp π )1(
Xを観測したときの対応する事後確率
=混合要素kがxの観測を説明する度合を表す「負担率」と解釈できる.
)|()()|()( zxzxzx pppp ※
5. 18
以上,混合ガウス分布での示唆より,
EMアルゴリズムは,
「潜在変数の事後分布」に着目してつくられた簡易計算法なのでは?
と考えられる.
混合ガウス分布から拡張し,EMアルゴリズムの一般的な利用を見てみる.
4. EM 19観測変数Xと潜在変数Zの同時分布p(X,Z|θ)が与えられていて,パラメータθで支配されているとする.アルゴリズムの目的は尤度関数p(X|θ)をθに関して最大化することである.
1: パラメタの初期値θ(old)を選ぶ.
2(Eステップ): 事後確率p(Z|X,θ(old))を計算する.
3(Mステップ): 上で求めた事後確率を所与として尤度関数を最大化するθ(new)を求める.
4: 尤度関数またはパラメタ値が収束条件を満たしていない場合θ(old)にθ(new)を代入し2へ!
4. EM 20
z
oldold
oldnew
ppQ
Q
)|(ln),|(),(
),(maxarg
θθθθ
θθθθ
ZX,XZ
⇒なぜ期待値を最大化してるのか?
3(Mステップ): 上で求めた事後確率を所与として尤度関数を最大化するθ(new)を求める.
完全データ対数尤度の期待値
)|(ln)||(
)()|(ln)(
),|(lnln)(
)()|(ln),|(ln)(
)(
)|,(ln)(),(
θ
θθ
θθ
θθ
X
ZXZ
XZZ
ZXXZZ
Z
ZXZ
ppqKL
qpq
pq
qppq
q
pqqL
ZZ
Z
Z
4. EM 21
z
pp )|()|( θθ ZX,X
これが最適化困難であるときどうするか.
代入
)|(ln)|(ln)|,(ln θθθ XX,ZZX ppp 確率の連鎖律より
と定義してこれを計算
=1
Z q
pqpqKL
)(
),|(lnln)()||(
Z
XZZ
θ
4. EM 22
に関して
これはq(Z)と事後分布p(Z|X,θ)の
カルバック-ライブラーダイバージェンス(KLダイバージェンス),
つまり相対エントロピーである.
0)(ln)(
)(ln)()||(
xxxx
xx dqd
p
qppqKL一般型
規格化条件)※ (1)( xx dq
∵関数-lnxが凸関数
4. EM 23Eステップ解説
)|(ln)||(),( oldold ppqKLqL θθ X
以下を,q(Z)について最大化
≧0 q(Z)には依存しない
)|()(0)||( oldpqpqKL θX,ZZ
のとき最大である!
4. EM 24Mステップ解説 )|(ln)||(),( θθ XppqKLqL
q(Z)を固定し,θについて下界を最大化
)|(ln oldp θX
),( oldqL θ
)|(ln newp θX
),( newqL θ
0)||( pqKL
)||( pqKL
⇒lnp(X|θ)の増加量はL(q,θ)の増加量よりも大きい
4. EM 25Mステップ解説
)|()( oldpq θX,ZZ
.),(
),|(ln),|()|,(ln),|(
),|(
)|,(ln),|(
)(
)|,(ln)(),(
constQ
pppp
p
pp
q
pqqL
old
old
Z
old
Z
old
Zold
old
Z
θθ
θθθθ
θ
θθ
θθ
XZXZZXXZ
XZ
ZXXZ
Z
ZXZ
L(q,θ)を最大化するとき,実際は「完全データ対数尤度の期待値」を最大化することになる.
変数θは対数の中のみに表れている→最適化容易
4. EM 26パラメータ空間での図解
)|(ln θXp
),( θqL
oldθ newθ※下界はパラメタの凸関数
27
EM Kmeans
⇒Kmeans EM
Q, Kmeans EM
A, →
→
※
X /
28
N
n
K
k
kkkk NXp1 1
),|(ln)|(ln ΣμxΣμ,π, π
nknkz
kkk
N
n
K
k
z
k NZXp ),|()|,(1 1
ΣμxΣμ,π,
π
⇒
N
n
K
k
kkkk NXp1 1
),|()|( ΣμxΣμ,π, π
N
n
K
k
kkkknk NzZXp1 1
),|(lnln)|,(ln ΣμxΣμ,π, π
Top Related