日経平均株価 算出要領...GB-101-J-20200615 日経平均株価 算出要領 株式会社 日本経済新聞社 ・本資料は日本経済新聞社(以下「日経」という)が算出・公表を行ってい
統計的データ解析2015 - Osaka Universityhayasida/Class/Class2015/...統計的検定...
Transcript of 統計的データ解析2015 - Osaka Universityhayasida/Class/Class2015/...統計的検定...
統計的データ解析 2015
2015.10.20林田 清
(大阪大学大学院理学研究科)
グラフの書き方、フィッティングの練習
gnuplot インターネットで参照できる日本語のマニュアルもあり
http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot-intro/
http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot/
qdp Excelを利用した最小二乗フィット
サンプルのデータ 直線モデル用その1 xye.dat 次のページ
直線モデル用http://133.1.160.249/~hayasida/Class/Class2008/xsx_ysy.txt
ガウシアンモデル用http://133.1.160.249/~hayasida/Class/Class2008/gaussian.txt
gnuplotの練習
データファイル
(例えば)xye.datを用意する。
1.0 2.2 0.22.0 2.9 0.13.0 4.3 0.34.0 5.0 0.15.0 5.8 0.3
端末でgnuplotとうつと起動する。続いて以下の操作を試してみる。
plot "xye.dat" using 1:2:3 with yerrorbars set xrange[0.0:7.0] set yrange[0.0:7.0] f(x)=a*x+b fit f(x) "xye.dat" using 1:2:3 via a,b (ここで表示されるフィット結果を理解せよ)
replot f(x) 次に、各点の誤差を無視した(重みづけなしの)フィットを
比較のためやってみると
g(x)=c*x+d fit g(x) "xye.dat" using 1:2 via c,d replot f(x),g(x)
qdpによるグラフ表示、フィットの練習
データの用意、gnuplot用のxye.datを使用する。ただし、3列目がyのエラーであることを指定するために、ファイルの先頭にread serror 2という一行を追加する。
端末で(常深研標準の設定している場合)headasとうつ qdp ファイル名でグラフ表示されるはず 表示範囲を指定したい場合は r x 0.0 7.0とか。詳しくはマニュ
アル参照のこと。(xspecのplotコマンドとほとんど同じ) http://heasarc.gsfc.nasa.gov/ftools/others/qdp/qdp.html
直線モデルによるフィットは model linr cons パラメータの初期値入力 fit
今回は省略
Excelを利用したフィティングの演習
Excelでソルバーを利用してχ2の最小値を求める。
サンプルExcelファイル http://133.1.160.249/~hayasida/Class/Class2010/m1m2se
minar/20101117_fitting.xlsx
これやりました
統計的検定(statistical test) xの10回の測定の平均値が�̅�𝑥 =0.45、標準
偏差が0.05だったとする
仮説H:(例)母集団の平均値µは0.5である 対立仮説H’:”母集団の平均値µは0.5でない”
本当はこれを示したいので、Hを帰無仮説ともいう。
平均値µ =0.5、標準偏差σ = 0.05の母集団から10個の標本をサンプルした場合に、平均値�̅�𝑥が0.05以上ずれる(�̅�𝑥 ≤ 0.45あるいは�̅�𝑥 ≥ 0.55になる)確率Pは?
Pが定められた危険率(有意水準)αより 小さい:仮説Hは誤り。 Hが正しい可能性を棄て
る危険性αを伴って。
大きい:仮説Hは棄却できない。
危険率(有意水準)=significance level
例1
両側検定
0.550.45
Null hypotesis
統計的検定(statistical test) 仮説H:(例)母集団の平均値は0.5である
対立仮説H’を”母集団での平均値は0.5より小さい”と設定することもある。
今回測定した標本が何らかの理由により、0.5より小さな値であることを示したいとい意図が背景にある場合。
平均値µ =0.5、標準偏差σ = 0.05の母集団から10個の標本をサンプルした場合に、平均値が�̅�𝑥 ≤0.45である確率Pは?
Pが定められた危険率(有意水準)αより 小さい:仮説Hは誤り。 Hが正しい可能性を棄てる危険
性αを伴って。 大きい:仮説は否定できない。
例2
片側検定
0.550.45
真の結果(不明)
𝜇𝜇 = 0.5 𝜇𝜇 < 0.5
検定結果
Hを採択(Hを棄却しない) 正しい判断 第2種の過誤
H’を採択(Hを棄却する) 第1種の過誤 正しい判断
ここで紹介している(一般に使われる)のは、第1種の過誤をおかす危険率を考慮して、Hを棄却するか、否かという検定。
χ2分布
2
2 2
2 2
2 2 /2 1 /2 /2
22
2
2
2 2( )
0 1
( ) {( ) } / 2 ( / 2)
( )
( ) 2
i
i
x x
n
n
Ve
x
n
E
ν χ νν
χ
χ ν χ
χ χ
χ
ν
µ
χ
µ σ χσ
ν χ ν
− −
=
= Γ
−
= =
∑
∑
n
i=1
n
i=1
平均値 ,標準偏差 の正規分布
に従う変
自由度 の (カイ
数 の自乗和
が従う分布を自由度 の 分布と呼ぶ。 一般に自由度 の 分布は
f
平均値 ,標準
期待値 分散
偏差 の正規分布に従う も自
二乗)
由度
の
分布
分
22
2
2 2 2
2
( ) 1ix x n
m lm l
χσ
χ χ χ
χ
−−
+
∑n
i=1
布、
はしかし自由度 の 分布
分布の加算:自由度 の 分布に従う変数と自由度の 分布に従う
変数の和は、自由度 の 分布に従う。
0
0.1
0.2
0.3
0.4
0.5
0 5 10 15
P(χ2 )
χ2
χ2 distribution
dof=1 dof=2
dof=4 dof=6
カイ二乗分布の確率分布の積分あてはめの良さの検定
Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より
• 最小二乗フィットによりモデルパラメータを最適化した際のχ2値を求める
• 上記のχ2値(以上の
値)を得る確率を表から調べる。
• 確率があまりにも小さければ何か間違っている。(例えばモデルが適当でない)
reduced-χ2の値の表(対応するχ2の値を超える確率Pと自由度νの関数として表示されている)
• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.htmlにも同様の表(但しreduced chi-squaredではなくchi-squaredの値)が掲載されている。
• ExcelならCHIDIST,CHIINV
フィットのよさに関するカイ二乗検定 [問題例] 7組の測定データ(xi ,yi) (i=1,..,7)で、Xの誤差は無視できるほど小さく、yiの誤差はσiとする。これをy=ax+bの直線モデルを仮定し、a,bをフリーパラメータとしてカイ二乗フィットする。 自由度は7-2=5。 χ2
minの値によって、どのような判断をするか? 例えば、χ2
min=15.1を得た場合 自由度5のχ2分布で15.1以上の値を得る確率は0.99% 結論例1: “危険率1%(以上)でこのモデルは棄却される” 結論例2: “危険率0.5%ではこのモデルは棄却されない”
χ2min=6.0を得た場合
自由度5のχ2分布で6.0以上の値を得る確率は31% 結論例: “(危険率10%では)このモデルは棄却されない”
χ2min=0.55を得た場合
自由度5のχ2分布で0.55以下の値を得る確率は1% 結論例: “χ2
minの値が小さすぎる(と危険率1%で結論できる)。誤差の評価が不適当である可能性が大きい。”
確率の期待値はExcelではCHIDIST,CHIINVで計算できる
いろいろな検定
母平均の検定:正規分布
母集団の分散σ2が既知でない場合->t分布
母平均の差の検定->t分布
母分散の検定:χ2分布
母分散の比の検定:F分布
相関の有無の検定:相関係数の表
宿題 次回まで
1. デルタカイ2乗=1がパラメータの推定誤差になることを説明せよ。もし一般的な説明が難しい場合は、y(x)=bのモデルの例で示すことで代替してもよい。(越本)
パラメータの推定誤差
2 22
1
22 2
21
1 1
1
n
a ii i i
ni
b ii i i
ay
xby
σ σσ
σ σσ
=
=
∂= = ∂ ∆
∂= = ∂ ∆
∑ ∑
∑ ∑
最適化したパラメータはあくまでもパラメータの真の値の推定値。 必ず推定誤差がある。
直線モデルの場合、誤差伝播側より計算できる
2 2
2
2 2 2 2
2
2 2 2
2 2
2
2
2 2
2
1 1
2
2
0, 0
,
1 1
1
1
( )
( , )
i i i i
i i i i
n ni i i
i i i i i
i i i i
i i
i i i
i
i ii i
a b
x y x ya
x y x x
y y
y
x y ax b
P a b
b
x x
χ χ
χ
σ σ σ σ
σ σ σ
χσ σ
σ
σ σ σ
χ= =
∂ ∂= =
∂ ∂
= − ∆
= − ∆
∆ = −
− − −≡ =
∑ ∑ ∑ ∑
∑ ∑ ∑
∑ ∑
∑
∑
a b
から を最小
を最大にする
にす
= を最小にす
とし
ただ
る
る て
し
2
∑ ∑
任意関数の最小二乗(カイ二乗)フィット
22
1
2 2
2 22min
22min 2min
( )
( )
1
ni i
i i
y x
y y x
m n m
a
a a a a a
a
χ
χ χ
χσ
χ ν χ
χ χ
χ
=
+ −
−≡
−
∆ = + ∆ − ∆
∑
任意の関数形 をモデルに採用した場合でも
を最小にするようパラメータを決定する。
パラメータの数を として は自由度 = の 分布に従うことが期待される。
パラメータの誤差の推定:
を最小にするパラメータ値 に対して、 を1だけ増加させる
( ) の値、 、 を探す。
の誤差範囲(1パ 2min 2mina a a aχ χ− +− ∆ + ∆ラメータ68%信頼水準)は から 。
カイ二乗フィットのパラメータ推定誤差11 1 , 1
1
1
( , ),...., ( ) ,....,
,...,( ; ,..., )
( ,..., )
n n n
n
p
p
x y x y y y
f x a a
a a
σ σ1
n回の測定でデータの組 が得られたとし、 の測定誤差
(ただし正規分布するランダム誤差)を とする。これらのデータ点は、
p個のパラメータで指定されるモデル に、正規分布に従う誤差が
付加されたデータで構成される母集団から採取されたと仮定する。
パラメータの真の値(これは不可知)を と仮定
( )2
; 11 2
1
2; 12 2 2
1
1 1
( ,..., )1( ,..., ) exp22
( ,..., )exp
ˆ ˆ( ,..., ) ( ,..., )
ni i p
pi ii
ni i p
i i
p p
y f x a aP a a
y f x a an
P a a a a
σσ π
χ χ χσ
=
=
− = −
− ≡
∏
∑
すると尤度
(データ点の組が得られる確率は)は
の中身を と定義する。 は自由度 の 分布に従う。
一方 を最大にするようなパラメータの組(=最適パラメータ)を と
す
2; 12 2
min1
2min
2
ˆ ˆ( ,..., )
-
ni i p
i i
y f x a a
pn p
χ χσ
χ
χ
=
− =
∑るとこれは の最小値 を与える。
はp個のパラメータによって調整して最小化を行ったので自由度が 減って、
自由度 の 分布に従う。
カイ二乗フィットのパラメータ推定誤差2
( )
( )( ) ( )( ) ( )
2; 1 1 1
2 2
2; 1 ; 122
1 1
2
1 1
ˆ ˆ,..., ,..., ( ,..., )
ˆ ˆ,..., ,...,ˆ
1
1( ,..., ) ( ,..., )2
i p p p
pn i i p i i pj j j
i ji
j j
p pj j
f x a a a a a a
y f x a a y f x a aA a a
a A
P a a F a a
χ
χσ
χ δ
δ π
= =
=
− − −∆ = −
∂∆=
∂
= ×
∑ ∑
j
が の線形関数の場合、 が の最小値を与えることに
注意すると
という形にかけるはず( =0)。 とすると
を含まない関数( )
( )
2
21
2 2 2 2min
; 1 1
2 2 2 2min
ˆexp
2
,..., ,...,
pj j
j
i p p
a a
f x a a a a
δ
χ χ χ χ
χ χ χ χ
− −
∆ ≡ −
∆ ≡ −
∏
これから は自由度pの 分布に従うことがわかる。
が の線形関数でない場合は、このような形にはかけないが
は自由度pの 分布で近似する。