SaaS の現状分析 - 日本大学法学部 山田正雄 ...SaaS の現状分析~企業 における 活用術~ 1 はじめに わが国は 、低廉 な価格で 高速インターネット
主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf ·...
Transcript of 主成分分析 Principal Component Analysisstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2017-10.pdf ·...
第 回10 データマイニング特講 1
主成分分析Principal Component Analysis
データマイニング特論
第10回
第 回10 データマイニング特講 2
本日の内容
主成分分析
他の手法との組み合わせ (hybrid methods) 回帰分析(regression analysis) クラスター分析(clustering)
第 回10 データマイニング特講 3
セグメンテーション
低次元空間への布置により、分類の単純化を行う
次元縮約(dimension reduction) 総合指標(Comprehensive index)
ホテルの料金
ICからの距離部屋の広さ
温泉
ホテルのグレードなどの総合的な指標
第 回10 データマイニング特講 4
主成分分析
顕在変量顕在変量
・どの程度説明できているか?(寄与率)・いくつの変量で全体をどの程度説明できるか?(主成分数)
顕在変量顕在変量
Existence variable
潜在変量潜在変量
Potential variable
第 回10 データマイニング特講 5
q 変数で説明
主成分(Principal components)線形結合(linear combination)
pppppp
pqppqqq
pp
pp
xaxaxaz
xaxaxaz
xaxaxazxaxaxaz
+++=
+++=
+++=
+++=
2211
211
22221212
12121111
)()()( 21 pzVarzVarzVar >>>
は互いに無相関pzzz ,,, 21
第 回10 データマイニング特講 6
主成分分析の実施の選択項目
共分散行列か相関行列か
そのままの尺度と標準化した尺度
主成分数
寄与率: 80%が目安
固有値: 1以上
スクリープロット: なだらなになる前まで
解釈可能: 意味のある軸
第 回10 データマイニング特講 7
0
1
2
3
4
0 1 2 3 4 5 6
スクリープロット急坂からなだらかに変わる前までを採用
第 回10 データマイニング特講 8
主成分分析の手順
分析する変数の指定
データのタイプ
共分散行列(Covariance).. そのままの単位で
相関行列(Correration)..単位の違いをなくすため標準化
主成分数(number of PC)の決定
固有値・寄与率など
第 回10 データマイニング特講 9
結果の利用
解釈
主成分によりデータの構造を説明する
変数変換
主成分得点を他の解析に利用
第 回10 データマイニング特講 10
「データ加工」「主成分」
H11sake.xls
第 回10 データマイニング特講 11
練習)酒類購入データの主成分分析
H11sake.xls
主成分数の決定
相関 or 共分散
第 回10 データマイニング特講 12
結果(H11sake)
第 回10 データマイニング特講 13
主成分数の決定(number of PC)
累積寄与率が80%超え
第 回10 データマイニング特講 14
結果(iris)
ターゲット変数で塗り分け
第 回10 データマイニング特講 15
主成分の解釈
主成分得点・因子負荷量(係数)
決定木による要因分析
回帰分析による要因分析
DMニューラル
主成分分析のスコアを用いて、一般化線形モデルによる予測(ニューラルネットで構成)
第 回10 データマイニング特講 16
第 回10 データマイニング特講 17
主成分分析と他の統計手法
主成分分析の結果をクラスタリングする
恣意的なグルーピング=>自動化
主成分スコアをもとに決定木を作る
相関構造のある場合の合成変数の作成として
主成分回帰
主成分分析で相関構造を把握
変数選択では重要な変数を落としてしまう可能性
第 回10 データマイニング特講 18
データマイニングにおいては
目的指向の分析である因子分析はあまり用いられていない
分析ツールに解析が導入されていない
因子分析を実施し、そのスコアを解析する可能性
主成分分析
構造を考えず、単純に取り扱う変数の数を絞りたい場合に適している
分析はゴールではなく、スタート
スコアをデータとして扱う
第 回10 データマイニング特講 19
参考図書
多変量統計解析法
田中 豊、脇本和昌著,現代数学社
多変量統計解析法入門
永田 靖、棟近雅彦著、サイエンス社
竹内啓、前川眞一『SASによる多変量データの解析』東京大学出版会