統計的データ解析2015 - Osaka Universityhayasida/Class/Class2015/...統計的検定...

統計的データ解析２０１５

2015.10.20林田清

（大阪大学大学院理学研究科）

グラフの書き方、フィッティングの練習

gnuplot インターネットで参照できる日本語のマニュアルもあり

http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot-intro/

http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot/

qdp Excelを利用した最小二乗フィット

サンプルのデータ直線モデル用その１ xye.dat 次のページ

直線モデル用http://133.1.160.249/~hayasida/Class/Class2008/xsx_ysy.txt

ガウシアンモデル用http://133.1.160.249/~hayasida/Class/Class2008/gaussian.txt

http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot-intro/

http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot/

http://133.1.160.249/%7Ehayasida/Class/Class2008/xsx_ysy.txt

gnuplotの練習

データファイル

（例えば）xye.datを用意する。

1.0 2.2 0.22.0 2.9 0.13.0 4.3 0.34.0 5.0 0.15.0 5.8 0.3

端末でgnuplotとうつと起動する。続いて以下の操作を試してみる。

plot "xye.dat" using 1:2:3 with yerrorbars set xrange[0.0:7.0] set yrange[0.0:7.0] f(x)=a*x+b fit f(x) "xye.dat" using 1:2:3 via a,b （ここで表示されるフィット結果を理解せよ）

replot f(x) 次に、各点の誤差を無視した（重みづけなしの）フィットを

比較のためやってみると

g(x)=c*x+d fit g(x) "xye.dat" using 1:2 via c,d replot f(x),g(x)

qdpによるグラフ表示、フィットの練習

データの用意、gnuplot用のxye.datを使用する。ただし、3列目がyのエラーであることを指定するために、ファイルの先頭にread serror 2という一行を追加する。

端末で（常深研標準の設定している場合）headasとうつ qdp ファイル名でグラフ表示されるはず表示範囲を指定したい場合は r x 0.0 7.0とか。詳しくはマニュ

アル参照のこと。（xspecのplotコマンドとほとんど同じ） http://heasarc.gsfc.nasa.gov/ftools/others/qdp/qdp.html

直線モデルによるフィットは model linr cons パラメータの初期値入力 fit

今回は省略

Excelを利用したフィティングの演習

Excelでソルバーを利用してχ2の最小値を求める。

サンプルExcelファイル http://133.1.160.249/~hayasida/Class/Class2010/m1m2se

minar/20101117_fitting.xlsx

これやりました

統計的検定(statistical test) xの10回の測定の平均値が�̅�𝑥 =0.45、標準

偏差が0.05だったとする

仮説H：(例）母集団の平均値µは0.5である対立仮説H’：”母集団の平均値µは0.5でない”

本当はこれを示したいので、Hを帰無仮説ともいう。

平均値µ =0.5、標準偏差σ = 0.05の母集団から10個の標本をサンプルした場合に、平均値�̅�𝑥が0.05以上ずれる（�̅�𝑥 ≤ 0.45あるいは�̅�𝑥 ≥ 0.55になる）確率Pは？

Pが定められた危険率(有意水準）αより小さい：仮説Hは誤り。 Hが正しい可能性を棄て

る危険性αを伴って。

大きい：仮説Hは棄却できない。

危険率（有意水準）=significance level

例１

両側検定

0.550.45

Null hypotesis

統計的検定(statistical test) 仮説H：(例）母集団の平均値は0.5である

対立仮説H’を”母集団での平均値は0.5より小さい”と設定することもある。

今回測定した標本が何らかの理由により、0.5より小さな値であることを示したいとい意図が背景にある場合。

平均値µ =0.5、標準偏差σ = 0.05の母集団から10個の標本をサンプルした場合に、平均値が�̅�𝑥 ≤0.45である確率Pは？

Pが定められた危険率(有意水準）αより小さい：仮説Hは誤り。 Hが正しい可能性を棄てる危険

性αを伴って。大きい：仮説は否定できない。

例2

片側検定

0.550.45

真の結果（不明）

𝜇𝜇 = 0.5 𝜇𝜇 < 0.5

検定結果

Hを採択(Hを棄却しない）正しい判断第2種の過誤

H’を採択(Hを棄却する）第１種の過誤正しい判断

ここで紹介している（一般に使われる）のは、第１種の過誤をおかす危険率を考慮して、Hを棄却するか、否かという検定。

χ2分布

2

2 2

2 2

2 2 /2 1 /2 /2

22

2

2

2 2( )

0 1

( ) {( ) } / 2 ( / 2)

( )

( ) 2

i

i

x x

n

n

Ve

x

n

E

ν χ νν

χ

χ ν χ

χ χ

χ

ν

µ

χ

µ σ χσ

ν χ ν

− −

=

= Γ

−

= =

∑

∑

n

i=1

n

i=1

平均値 ,標準偏差の正規分布

に従う変

自由度の（カイ

数の自乗和　

が従う分布を自由度の分布と呼ぶ。　一般に自由度の分布は

f

平均値 ,標準

期待値　分散　

偏差の正規分布に従う　も自

二乗）

由度

　

の

分布

分

22

2

2 2 2

2

( ) 1ix x n

m lm l

χσ

χ χ χ

χ

−−

+

∑n

i=1

布、　

はしかし自由度の分布

分布の加算：自由度の分布に従う変数と自由度の分布に従う

変数の和は、自由度の分布に従う。

0

0.1

0.2

0.3

0.4

0.5

0 5 10 15

P(χ2 )

χ2

χ2 distribution

dof=1 dof=2

dof=4 dof=6

カイ二乗分布の確率分布の積分あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

• 最小二乗フィットによりモデルパラメータを最適化した際のχ2値を求める

• 上記のχ2値（以上の

値）を得る確率を表から調べる。

• 確率があまりにも小さければ何か間違っている。（例えばモデルが適当でない）

ｒeduced-χ2の値の表（対応するχ2の値を超える確率Pと自由度νの関数として表示されている）

• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.htmlにも同様の表（但しreduced chi-squaredではなくchi-squaredの値）が掲載されている。

• ExcelならCHIDIST,CHIINV

http://cluster.f7.ems.okayama-u.ac.jp/%7Eyan/jscscd/table/chi.html

フィットのよさに関するカイ二乗検定 [問題例] ７組の測定データ(xi ,yi) （i=1,..,7）で、Xの誤差は無視できるほど小さく、yiの誤差はσiとする。これをy=ax+bの直線モデルを仮定し、a,bをフリーパラメータとしてカイ二乗フィットする。自由度は7-2=5。 χ2

minの値によって、どのような判断をするか？例えば、χ2

min=15.1を得た場合自由度5のχ2分布で15.1以上の値を得る確率は0.99% 結論例１： “危険率1%（以上）でこのモデルは棄却される” 結論例２： “危険率0.5%ではこのモデルは棄却されない”

χ2min=6.0を得た場合

自由度5のχ2分布で6.0以上の値を得る確率は31% 結論例： “（危険率10%では）このモデルは棄却されない”

χ2min=0.55を得た場合

自由度5のχ2分布で0.55以下の値を得る確率は1% 結論例: “χ2

minの値が小さすぎる（と危険率1%で結論できる）。誤差の評価が不適当である可能性が大きい。”

確率の期待値はExcelではCHIDIST,CHIINVで計算できる

いろいろな検定

母平均の検定：正規分布

母集団の分散σ2が既知でない場合->t分布

母平均の差の検定->t分布

母分散の検定：χ2分布

母分散の比の検定：F分布

相関の有無の検定：相関係数の表

宿題次回まで

1. デルタカイ２乗＝１がパラメータの推定誤差になることを説明せよ。もし一般的な説明が難しい場合は、ｙ(x)＝ｂのモデルの例で示すことで代替してもよい。（越本）

パラメータの推定誤差

2 22

1

22 2

21

1 1

1

n

a ii i i

ni

b ii i i

ay

xby

σ σσ

σ σσ

=

=

∂= = ∂ ∆

∂= = ∂ ∆

∑ ∑

∑ ∑

最適化したパラメータはあくまでもパラメータの真の値の推定値。必ず推定誤差がある。

直線モデルの場合、誤差伝播側より計算できる

2 2

2

2 2 2 2

2

2 2 2

2 2

2

2

2 2

2

1 1

2

2

0, 0

,

1 1

1

1

( )

( , )

i i i i

i i i i

n ni i i

i i i i i

i i i i

i i

i i i

i

i ii i

a b

x y x ya

x y x x

y y

y

x y ax b

P a b

b

x x

χ χ

χ

σ σ σ σ

σ σ σ

χσ σ

σ

σ σ σ

χ= =

∂ ∂= =

∂ ∂

= − ∆

= − ∆

∆ = −

− − −≡ =

∑ ∑ ∑ ∑

∑ ∑ ∑

∑ ∑

∑

∑

a b

からを最小

を最大にする

にす

＝を最小にす

とし

ただ

る

るて

し

2

∑ ∑

任意関数の最小二乗（カイ二乗）フィット

22

1

2 2

2 22min

22min 2min

( )

( )

1

ni i

i i

y x

y y x

m n m

a

a a a a a

a

χ

χ χ

χσ

χ ν χ

χ χ

χ

=

+ −

−≡

−

∆ = + ∆ − ∆

∑

任意の関数形をモデルに採用した場合でも

を最小にするようパラメータを決定する。

パラメータの数をとしては自由度 = の分布に従うことが期待される。

パラメータの誤差の推定:

を最小にするパラメータ値に対して、を１だけ増加させる

（）の値、、を探す。

の誤差範囲（１パ 2min 2mina a a aχ χ− +− ∆ + ∆ラメータ68%信頼水準）はから。

カイ二乗フィットのパラメータ推定誤差１1 1 , 1

1

1

( , ),...., ( ) ,....,

,...,( ; ,..., )

( ,..., )

n n n

n

p

p

x y x y y y

f x a a

a a

σ σ1

ｎ回の測定でデータの組が得られたとし、の測定誤差

（ただし正規分布するランダム誤差）をとする。これらのデータ点は、

p個のパラメータで指定されるモデルに、正規分布に従う誤差が

付加されたデータで構成される母集団から採取されたと仮定する。

パラメータの真の値（これは不可知）をと仮定

( )2

; 11 2

1

2; 12 2 2

1

1 1

( ,..., )1( ,..., ) exp22

( ,..., )exp

ˆ ˆ( ,..., ) ( ,..., )

ni i p

pi ii

ni i p

i i

p p

y f x a aP a a

y f x a an

P a a a a

σσ π

χ χ χσ

=

=

− = −

− ≡

∏

∑

すると尤度

（データ点の組が得られる確率は）は

の中身をと定義する。は自由度の分布に従う。

一方を最大にするようなパラメータの組（=最適パラメータ）をと

す

2; 12 2

min1

2min

2

ˆ ˆ( ,..., )

-

ni i p

i i

y f x a a

pn p

χ χσ

χ

χ

=

− =

∑るとこれはの最小値を与える。

はp個のパラメータによって調整して最小化を行ったので自由度が減って、

自由度の分布に従う。

カイ二乗フィットのパラメータ推定誤差２

( )

( )( ) ( )( ) ( )

2; 1 1 1

2 2

2; 1 ; 122

1 1

2

1 1

ˆ ˆ,..., ,..., ( ,..., )

ˆ ˆ,..., ,...,ˆ

1

1( ,..., ) ( ,..., )2

i p p p

pn i i p i i pj j j

i ji

j j

p pj j

f x a a a a a a

y f x a a y f x a aA a a

a A

P a a F a a

χ

χσ

χ δ

δ π

= =

=

− − −∆ = −

∂∆=

∂

= ×

∑ ∑

j

がの線形関数の場合、がの最小値を与えることに

注意すると

という形にかけるはず( =0)。とすると

を含まない関数( )

( )

2

21

2 2 2 2min

; 1 1

2 2 2 2min

ˆexp

2

,..., ,...,

pj j

j

i p p

a a

f x a a a a

δ

χ χ χ χ

χ χ χ χ

− −

∆ ≡ −

∆ ≡ −

∏

これからは自由度pの分布に従うことがわかる。

がの線形関数でない場合は、このような形にはかけないが

は自由度pの分布で近似する。

統計的データ解析2015 - Osaka Universityhayasida/Class/Class2015/...統計的検定...

Documents

Transcript of 統計的データ解析2015 - Osaka Universityhayasida/Class/Class2015/...統計的検定...