統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  ·...

20
統計的データ解析 2014 2014.10.29 林田 (大阪大学大学院理学研究科)

Transcript of 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  ·...

Page 1: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

統計的データ解析 2014

2014.10.29林田 清

(大阪大学大学院理学研究科)

Page 2: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

Excelを利用したフィティングの演習

Excelでソルバーを利用してχ2の最小値を求める。

サンプルExcelファイル http://133.1.160.249/~hayasida/Class/Class2010/m1m2se

minar/20101117_fitting.xlsx

Page 3: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

正規分布について 平均値µ、標準偏差σの正規分布で値xが -σ<x-µ<σにくる確率68.3% -2σ<x-µ<2σにくる確率95.5% -3σ<x-µ<3σにくる確率99.7% -1.96σ<x-µ<1.96σにくる確率95% -2.58σ<x-µ<2.58σにくる確率99% -1.64σ<x-µ<1.64σにくる確率90%

ExcelではNORMDIST,NORMINVで計算できる

Page 4: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

統計的検定(statistical test) xの10回の測定の平均値が�̅�𝑥 =0.45、標準

偏差が0.05だったとする

仮説H:(例)母集団の平均値µは0.5である 対立仮説H’:”母集団の平均値µは0.5でない”

本当はこれを示したいので、Hを帰無仮説ともいう。

平均値µ =0.5、標準偏差σ = 0.05の母集団から10個の標本をサンプルした場合に、平均値�̅�𝑥が0.05以上ずれる(�̅�𝑥 ≤ 0.45あるいは�̅�𝑥 ≥ 0.55になる)確率Pは?

Pが定められた危険率(有意水準)αより 小さい:仮説Hは誤り。 Hが正しい可能性を棄て

る危険性αを伴って。

大きい:仮説Hは棄却できない。

危険率(有意水準)=significance level

例1

両側検定

0.550.45

Null hypotesis

Page 5: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

統計的検定(statistical test) 仮説H:(例)母集団の平均値は0.5である

対立仮説H’を”母集団での平均値は0.5より小さい”と設定することもある。

今回測定した標本が何らかの理由により、0.5より小さな値であることを示したいとい意図が背景にある場合。

平均値µ =0.5、標準偏差σ = 0.05の母集団から10個の標本をサンプルした場合に、平均値が�̅�𝑥 ≤0.45である確率Pは?

Pが定められた危険率(有意水準)αより 小さい:仮説Hは誤り。 Hが正しい可能性を棄てる危険

性αを伴って。 大きい:仮説は否定できない。

例2

片側検定

0.550.45

真の結果(不明)

𝜇𝜇 = 0.5 𝜇𝜇 < 0.5

検定結果

Hを採択(Hを棄却しない) 正しい判断 第2種の過誤

H’を採択(Hを棄却する) 第1種の過誤 正しい判断

ここで紹介している(一般に使われる)のは、第1種の過誤をおかす危険率を考慮して、Hを棄却するか、否かという検定。

Page 6: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

χ2分布

2

2 2

2 2

2 2 /2 1 /2 /2

22

2

2

2 2( )

0 1

( ) {( ) } / 2 ( / 2)

( )

( ) 2

i

i

x x

n

n

Ve

x

n

E

ν χ νν

χ

χ ν χ

χ χ

χ

ν

µ

χ

µ σ χσ

ν χ ν

− −

=

= Γ

= =

n

i=1

n

i=1

平均値 ,標準偏差 の正規分布

に従う変

自由度 の (カイ

数 の自乗和  

が従う分布を自由度 の 分布と呼ぶ。  一般に自由度 の 分布は

f

平均値 ,標準

期待値  分散 

偏差 の正規分布に従う  も自

二乗)

由度

 

分布

22

2

2 2 2

2

( ) 1ix x n

m lm l

χσ

χ χ χ

χ

−−

+

∑n

i=1

布、 

はしかし自由度 の 分布

分布の加算:自由度 の 分布に従う変数と自由度の 分布に従う

変数の和は、自由度 の 分布に従う。

0

0.1

0.2

0.3

0.4

0.5

0 5 10 15

P(χ2 )

χ2

χ2 distribution

dof=1 dof=2

dof=4 dof=6

Page 7: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

カイ二乗分布の確率分布の積分あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

• 最小二乗フィットによりモデルパラメータを最適化した際のχ2値を求める

• 上記のχ2値(以上の

値)を得る確率を表から調べる。

• 確率があまりにも小さければ何か間違っている。(例えばモデルが適当でない)

reduced-χ2の値の表(対応するχ2の値を超える確率Pと自由度νの関数として表示されている)

Page 8: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.htmlにも同様の表(但しreduced chi-squaredではなくchi-squaredの値)が掲載されている。

• ExcelならCHIDIST,CHIINV

Page 9: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

フィットのよさに関するカイ二乗検定 [問題例] 7組の測定データ(xi ,yi) (i=1,..,7)で、Xの誤差は無視できるほど小さく、yiの誤差はσiとする。これをy=ax+bの直線モデルを仮定し、a,bをフリーパラメータとしてカイ二乗フィットする。 自由度は7-2=5。 χ2

minの値によって、どのような判断をするか? 例えば、χ2

min=15.1を得た場合 自由度5のχ2分布で15.1以上の値を得る確率は0.99% 結論例1: “危険率1%(以上)でこのモデルは棄却される” 結論例2: “危険率0.5%ではこのモデルは棄却されない”

χ2min=6.0を得た場合

自由度5のχ2分布で6.0以上の値を得る確率は31% 結論例: “(危険率10%では)このモデルは棄却されない”

χ2min=0.55を得た場合

自由度5のχ2分布で0.55以下の値を得る確率は1% 結論例: “χ2

minの値が小さすぎる(と危険率1%で結論できる)。誤差の評価が不適当である可能性が大きい。”

確率の期待値はExcelではCHIDIST,CHIINVで計算できる

Page 10: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

いろいろな検定

母平均の検定:正規分布

母集団の分散σ2が既知でない場合->t分布

母平均の差の検定->t分布

母分散の検定:χ2分布

母分散の比の検定:F分布

相関の有無の検定:相関係数の表

Page 11: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

区間推定

) /

- ( / 2) ( / 2)

x

z

z x z

x z x z

µ σ

µ σ

µ

αα µ σ α

α σ µ α σ

≤ − ≤

≤ ≤ +

例)

平均値 、標準偏差 の正規分布に従う母集団

から、1回の測定で測定値 を採取する操作を

考える。 の真の値は知らず、 は何らかの方法で

推定できていたとする(例えば測定誤差に等しい

など)。 の存在する範囲はどのように推定できるか?  

を平均0、標準偏差1の正規分布に従う変数だとして、

確率1- となる区間は

- ( /2) ( ( /2)

変形して

100 (1- )α µ×が %信頼係 での数 の信頼区間

1-α

α/2

( / 2)z α+- ( / 2)z α

信頼区間=confidence interval、信頼係数=confidence level

z

( )p z

Page 12: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

信頼区間の推定

正規分布の場合

-σ<x-µ<σにくる確率68.3% -2σ<x-µ<2σにくる確率95.5% -3σ<x-µ<3σにくる確率99.7% -1.96σ<x-µ<1.96σにくる確率95% -2.58σ<x-µ<2.58σにくる確率99% -1.64σ<x-µ<1.64σにくる確率90%

ExcelではNORMDIST,NORMINVで計算できる

Page 13: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

パラメータの推定誤差

2 22

1

22 2

21

1 1

1

n

a ii i i

ni

b ii i i

ay

xby

σ σσ

σ σσ

=

=

∂= = ∂ ∆

∂= = ∂ ∆

∑ ∑

∑ ∑

最適化したパラメータはあくまでもパラメータの真の値の推定値。 必ず推定誤差がある。

直線モデルの場合、誤差伝播側より計算できる

2 2

2

2 2 2 2

2

2 2 2

2 2

2

2

2 2

2

1 1

2

2

0, 0

,

1 1

1

1

( )

( , )

i i i i

i i i i

n ni i i

i i i i i

i i i i

i i

i i i

i

i ii i

a b

x y x ya

x y x x

y y

y

x y ax b

P a b

b

x x

χ χ

χ

σ σ σ σ

σ σ σ

χσ σ

σ

σ σ σ

χ= =

∂ ∂= =

∂ ∂

= − ∆

= − ∆

∆ = −

− − −≡ =

∑ ∑ ∑ ∑

∑ ∑ ∑

∑ ∑

a b

から を最小

を最大にする

にす

= を最小にす

とし

ただ

る て

2

∑ ∑

Page 14: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

任意関数の最小二乗(カイ二乗)フィット

22

1

2 2

2 22min

22min 2min

( )

( )

1

ni i

i i

y x

y y x

m n m

a

a a a a a

a

χ

χ χ

χσ

χ ν χ

χ χ

χ

=

+ −

−≡

∆ = + ∆ − ∆

任意の関数形 をモデルに採用した場合でも

を最小にするようパラメータを決定する。

パラメータの数を として は自由度 = の 分布に従うことが期待される。

パラメータの誤差の推定:

を最小にするパラメータ値 に対して、 を1だけ増加させる

( ) の値、 、 を探す。

の誤差範囲(1パ 2min 2mina a a aχ χ− +− ∆ + ∆ラメータ68%信頼水準)は から 。

Page 15: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

カイ二乗フィットのパラメータ推定誤差11 1 , 1

1

1

( , ),...., ( ) ,....,

,...,( ; ,..., )

( ,..., )

n n n

n

p

p

x y x y y y

f x a a

a a

σ σ1

n回の測定でデータの組 が得られたとし、 の測定誤差

(ただし正規分布するランダム誤差)を とする。これらのデータ点は、

p個のパラメータで指定されるモデル に、正規分布に従う誤差が

付加されたデータで構成される母集団から採取されたと仮定する。

パラメータの真の値(これは不可知)を と仮定

( )2

; 11 2

1

2; 12 2 2

1

1 1

( ,..., )1( ,..., ) exp22

( ,..., )exp

ˆ ˆ( ,..., ) ( ,..., )

ni i p

pi ii

ni i p

i i

p p

y f x a aP a a

y f x a an

P a a a a

σσ π

χ χ χσ

=

=

− = −

− ≡

すると尤度

(データ点の組が得られる確率は)は

の中身を と定義する。 は自由度 の 分布に従う。

一方 を最大にするようなパラメータの組(=最適パラメータ)を と

2; 12 2

min1

2min

2

ˆ ˆ( ,..., )

-

ni i p

i i

y f x a a

pn p

χ χσ

χ

χ

=

− =

∑るとこれは の最小値 を与える。

はp個のパラメータによって調整して最小化を行ったので自由度が 減って、

自由度 の 分布に従う。

Page 16: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

カイ二乗フィットのパラメータ推定誤差2

( )

( )( ) ( )( ) ( )

2; 1 1 1

2 2

2; 1 ; 122

1 1

2

1 1

ˆ ˆ,..., ,..., ( ,..., )

ˆ ˆ,..., ,...,ˆ

1

1( ,..., ) ( ,..., )2

i p p p

pn i i p i i pj j j

i ji

j j

p pj j

f x a a a a a a

y f x a a y f x a aA a a

a A

P a a F a a

χ

χσ

χ δ

δ π

= =

=

− − −∆ = −

∂∆=

= ×

∑ ∑

j

が の線形関数の場合、 が の最小値を与えることに

注意すると

という形にかけるはず( =0)。 とすると

を含まない関数( )

( )

2

21

2 2 2 2min

; 1 1

2 2 2 2min

ˆexp

2

,..., ,...,

pj j

j

i p p

a a

f x a a a a

δ

χ χ χ χ

χ χ χ χ

− −

∆ ≡ −

∆ ≡ −

これから は自由度pの 分布に従うことがわかる。

が の線形関数でない場合は、このような形にはかけないが

は自由度pの 分布で近似する。

Page 17: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

カイ二乗フィットのパラメータ誤差推定(パラメータの数による信頼区間の違い)

Numerical Recipes in C, 技術評論社より転載。上の表で自由度とは(注目する)パラメータの数。

パラメータa1,a2それぞれのの68%信頼区間はΔχ2=1であるが、(a1,a2)の組の68%信頼区間はΔχ2=2.3の楕円で囲まれた領域になる。

Page 18: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

最小二乗(カイ二乗)フィットのまとめ

最尤法が根拠。 ただし、測定値yのモデル点からのばらつきが正規分布で近似できる場合に限定。

χ2を最小にするパラメータが最良推定値。

あてはめの良さ、モデルの妥当性はχ2の値が自由度n-mに近いかどうかで評価できる。

パラメータの誤差(信頼区間)は∆ χ2から推定できる。

Page 19: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

相関が0でない例 ラインスペクトルをガウシアンモデルでフィットする。

( )2

2

2 22 2 2

( ) exp2

, , ,, ,

,

2

(

A B C

I A B

x CF x A

B

A B CA B C

I A B

I IA B

G x

σ σ σ

π

σ σ σ

− = −

= × ×

∂ ∂ = + ∂ ∂

モデルとして次の形式のガウシアン関数を仮定

して   をフィッティングにより求める。

フィッティングプログラムは の最適値と

その誤差 , を出力してくれる。

このラインの積分強度は

共分散を無視して と計算すると、

誤差を過大評価する恐れがある。

( )2

2) exp22

x CIBBπ

− = −

というモデル式を使えば、このような問題は回避できる

サンプルデータはhttp://133.1.160.249/~hayasida/Class/Class2008/gaussian.txt

Page 20: 統計的データ解析2014 - Osaka Universityhayasida/Class/Class2014/...2014/10/29  · 統計的検定 (statistical test) xの10回の測定の平均値が𝑥𝑥 =0.45、標準

宿題B 次回11/11まで1. Gaussian Fitで二通りのモデル(1ページ前を参照のこと)で積分強

度とその誤差を求め比較せよ。(金)2. デルタカイ2乗=1がパラメータの推定誤差になることをy(x)=bの

モデルの例で示せ。(今谷)3. xspecのフィッティングの出力結果に関して、具体的な例を使い、ど

のような定義の値がかかれているか説明せよ。4. xspec(エラーコマンド),qdp,gnuplotで出力される各種パラメータ誤

差は、それぞれ何%信頼限界か? (久留飛)5. また、この資料p17のパラメータの数による誤差の違いに関して説

明せよxにも誤差がある場合どのように扱うべきか?x,yが独立で、それぞれ正規分布に従う誤差をもっているとして、直線モデルの場合を例にとって考えよ。(ヒント:下の式) ()

( ) ( )

( )

( ) ( )

2 2

2 2

2 2

2 2

ˆ ˆ1 1ˆ( , ; , , , ) exp exp2 22 2

ˆ ˆ ˆ ˆ,

ˆ ˆ1ˆ( , ; , , , ) exp exp2 2 2

i ii i xi yi

xi yixi yi

i i i ii i xi yi

xi yi xi yi

x x y yP a b x y dx

x y y ax b

x x y ax b y axP a b x y dx

σ σσ σπσ πσ

σ σπσ σ σ σ

− − = − −

= +

− − − − − = − − ∝ −

ただし は であらわされる直線モデル上の点

 ( )( )

2

2 2 22 xi yi

ba σ σ

+