統計的モデル選択 - データが選ぶ良いモデルとは？ · 2009-04-22 ·...

統計的モデル選択-データが選ぶ良いモデルとは？ -

東京大学大学院工学系研究科

　後藤正幸

統計的モデル選択とは

得られたn個のデータから、良い統計モデルを選ぶこと

何らかの規準で良いモデル

モデルの集合

評価規準

データ

統計的推測の原理

母集団

統計モデル

( )θ|xp

n個のデータ

nxxxx ,,,, 321 Λ

推測（推定・予測）θ ：パラメータ

推定と予測

統計的推定：

　データから、母集団の確率構造に関する何らか　の値を推定すること

統計的予測：

　過去のデータと統計モデルを使って、母集団か　　ら次に出てくるデータを予測すること

簡単な例題

機械A

機械B

102,98,95,105,100 　　　　

1µ平均値：

2µ平均値：

108,104,101,111,106 　　　　

100算術平均：

106算術平均：

２つの仮説

２台の機械で平均は同じ： 21 µµµ ==仮説１：

0.103ˆ: =µ推定量　

統計モデル１

２台の機械で平均は異なる： 21 µµ ≠仮説２：

0.106ˆ,0.100ˆ: 21 == µµ 　推定量　

統計モデル２

サンプル数と推定精度推定精度

サンプル数が増えると推定精度も上がる

サンプル（データ）数

２つのモデルと推定精度

• 同じサンプル数のとき、モデル１と２では？

102,98,95,105,100 　　　　108,104,101,111,106 　　　　

10個のデータ数

モデル２

0.103ˆ =µ

0.106ˆ,0.100ˆ 21 == µµ 　

モデル１

データ10個から推定

それぞれデータ5個から推定

パラメータ数と推定精度

データがGiven →　サンプル数一定　ならば

推定精度

パラメータ数

どこで最大値を取るのか？

　　→　１番いいモデル

・母集団の確率構造

・サンプル数

　　　に依存する

統計的モデル選択の一般論

技術的見地からは適合するモデル

仮説（候補の確率モデル）

母集団

モデル1： ),|( 11 θmxp

),|( 22 θmxp

),|( MMmxp θ

・・・・

・・・

確率構造を持つ対象を仮定する

モデル2：

モデルM：

現実問題と統計モデル

主に予測やモデル化を目的とするような問題

多変量解析や時系列解析

• 重回帰モデル• 判別モデル• 分類木（決定木）• 自己回帰モデル• 移動平均自己回帰モデル• ニューラルネットワークモデル　　　　　　

例えば,,,

重回帰モデル

pXXX ,,, 21 Λ

説明変数:関係をモデル化

目的変数:

ε+++++= pp XbXbXbbY Λ22110

①独立性

②不偏性

③当分散性

④正規性

ε はをみたす誤差（確率変数）

判別モデル

pp XbXbXbbZ ++++= Λ22110

10 => YZ 　ならば　

00 =≤ YZ 　ならば　

説明変数:

目的変数：

（質的変数）

pXXX ,,, 21 Λ

Y関係をモデル化

ただし、目的変数が質的変数

分類木

pXXX ,,, 21 Λ

説明変数: 説明変数が離散変数のとき

関係をモデル化目的変数:

{ }1,0,,, 21 ∈pXXX Λ

{ }1,0∈Y

例えば

0,1は便宜上の値で数値自体に意味はない

分類木の例

2X 10 01

3X 0 1

1X 0 1

各葉ノードにYの確率分布を記述する

ニューラルネット

説明変数:

目的変数:

pXXX ,,, 21 Λ

Yただし、

　・構造が分からない

　・非線形

Y非線形

ブラックボックス

何でもいいから関係をモデル化して予測に使いたい！

関係をモデル化

ニューラルネットモデル

・・・

非線形関数

Μ　2

時系列モデル時系列データ：為替レートの例

Apr-89

Apr-90

Apr-91

Apr-92

Apr-93

Apr-94

Apr-95

Apr-96

Apr-97

Apr-98

為替レート（円）

図．89年から98年までの対US$の為替レートの推移

自己回帰モデル

ΛΛΛΛΛ ,,,,,,, 21012 tXXXXXX −−

時間軸

次のARモデルp

ttptttt XXXX εααα ++++= −−− Λ2211

過去の値の線形和で予測

一般化：階層モデル族

階層モデル族

モデルm1モデルm2

モデルm3

また簡単な例で（１）

21 µµ =モデル１： 21,µµ

モデル２：

は異なっても良い

２台の機械の例

また簡単な例で（２）

εββ ++= 110 XY1次の重回帰

2次の重回帰

重回帰モデルの例

εβββ +++= 22110 XXY

また簡単な例で（３）

ttt XbX ε+= −11

1次のARモデル2次のARモデル

ARモデルの例

tttt XbXbX ε++= −− 2211

良い統計モデルとは？

• 解析の目的（何のための解析なのか?）を明確にせよ．

データ解析の目的

・構造解析

・仮説の検証

・予測

　・・・・・・

大まかに分類して

推定と予測

理論的展開

統計的モデル化の目的

目的に見合った評価関数（損失関数）

一般には、真のモデル（仮定）との何らかの意味での距離

真のモデルが分からないと最小化できない何らかの規準で評価関

数を最大にする統計モデルを最良とする

損失関数の分類真のモデルの推定が目的の場合

予測が目的の場合

)ˆ,( mmL 真のモデル

推定したモデルmm

ˆ の間に

損失関数

xx̂)ˆ,( xxL 実現値

予測値の間に

損失関数

損失関数の種類

• 0-1損失• 絶対誤差損失• 二乗誤差損失• 対数損失• α損失　など

離散変数間の問題で一般的

連続変数間の問題で一般的

確率分布間の問題で一般的

統計的モデル選択の基準

• AIC(Akaike Infromation Criteria)• BIC(Bayesian Information Criteria)• MDL(Minimum Description Length)• Cross Validation• FPE(Final Prediction Error)など

AIC(Akaike Information Criterion)

• 目的→予測• 損失関数→予測の対数損失関数

の最尤推定量：モデル　　　　　

のパラメータ数モデル　ただし、

mkkmxpmAIC

)ˆ,|(log +−=

これを最小化するmを最適なモデルとする

BIC(Bayesian Information Criterion)

• 目的→真のモデルの推定• 損失関数→モデル間の0-1損失関数

ベイズの事後確率を最大化するモデルの選択

( ) nkmxpmBIC mm

n log2

)ˆ,|(log +−= θ

MDL(Minimum Description Length)

• MDL原理→解析データを最も圧縮できる確率モデルが最良であるとする原理

•目的→データの圧縮•損失関数→解析データの対数損失関数

( ) nkmxpmMDL mm

n log2

)ˆ,|(log +−= θ

Cross Validation• 目的→予測• 損失関数→何でも良い

データを２つのグループに分割

一方のデータのみでモデルを推定し、他方のデータを予測する

最も予測精度の高かったモデルを

最良のモデルとする

具体例

実務レベルの注意点

• 規準が同程度のモデルが複数存在したら？　　→複数のモデルの平均で予測する方法

　　→技術的な考察に基づきモデルの選択する方法　など

• 重回帰モデル等における多重共線性　　→制御できる変数を取り込む方法　など

• 候補のモデル族が適切でないと意味がない　　→モデル選択規準の前に、候補のモデル族に対して十分　　な考察を行う必要がある

　　→何のためにデータ解析を行うのか、その目的を明確に　　する必要がある

まとめ

• 本編では統計的モデル選択の概略について述べた

• モデル選択は本質的に階層モデル族の入れ子構造に起因する問題である

モデル選択規準は、その目的や背景を理解して用いないと誤った解釈に陥るので注意が必要である

統計的モデル選択 - データが選ぶ良いモデルとは？ · 2009-04-22 ·...

Documents

Transcript of 統計的モデル選択 - データが選ぶ良いモデルとは？ · 2009-04-22 ·...

－近接性モデルと方向性モデルの考察－ · 持獲得を競うゲームとして選挙を演繹的に分析する学派がある。これは投票の空間理論アプロ

（2）目的別の交通手段選択モデルの作成149 （2）目的別の交通手段選択モデルの作成 交通手段選択モデルの概念 アンケート調査結果より、目的別（通勤通学、私用）の交通手段選択モデルを作成した。なお、

閾値自己回帰モデルの生産者製品在庫率指数の€¦ · 閾値自己回帰モデルの生産者製品在庫率指数の変化率への応用とモデル選択―ベイジアン

MILS用モデルから HILS用モデルへの自動変換 - … · ②hils用モデルへ変換する. 車体モデルを選択. hils用モデル自動作成スクリプト使用手順

ベイズ型アトラクター選択モデルと線形回帰を用い …...VN 設計アルゴリズムの入力として利用 3 Osaka University ベイズ推定にもとづくVN

分布型流出モデルとWRF気象モデルのNoah地表面モデルとの双 … · 2020-01-15 · while coupling the atmospheric, land surface and hydro-logical models. One method

第4章 モデル・クラスターのマスタープランと アク …第4 章 モデル・クラスターのマスタープランとアクションプラン 4.1 モデル・クラスター振興計画策定の手順

ヒット現象の数理モデルによる AKB 選抜総選挙の解析 2010-2014 · Proceedings of ARG WI2 図 3 AKB選抜総選挙（2009〜2014年）における立 候補者と投票数の推移

Title Doc URL - HUSCAP · ポアソン回帰とモデル選択の復習 2 2. モデル選択と検定を比較してみよう 5 3. Deviance 差を調べる尤度比検定 6 4. 二種類の過誤と統計学的検定の非対称性

TLCスキャナーシステム ViewPixシリーズTLCスキャナーシステム ViewPixシリーズ 2モデル4機種からニーズに沿ったモデルをお選び頂けます。定性、定量解析を必要とさ

JamVOX Effect guide...1 A. アンプ・モデルA. アンプ・モデル 最初に、素晴しいサウンドを誇る数々のアンプの中からJamVOXのために特別に選んだ19種類のアンプ・モデルについて説明します。モデルとなるアンプを選択するには、

改正省エネ基準対応・機器選定支援ツール€¦ · 改正省エネ基準対応・機器選定支援ツール 3 本プログラムのモデル建物法への対応 モデル建物法とは

第4.2回 モデル選択 - jakou.comfieldnote.jakou.com/seminar/stats/stats4.2.pdf仮説検定とモデル選択 5 仮説検定：帰無仮説のもとで注目するモデル（より極端な結果）が得られ

vol. 64 i-DRIVE全15モデル フルラインナップ!!...i-DRIVE全15モデル フルラインナップ!! 「裏山鹿」インプレも再収録 i-DRIVEはGTフルサスの全モデルにラインナップされる。各モデルの特徴とともに

発明発想モデルと、アイデアノートの使用方法 - PatentIslandの と と の

UMLの概要 - TUISnagai/OO/UML1_2009.pdf1 UMLの概要 • モデリングとモデル •UMLとは •UMLの主要モデル –UML1.4 –UML2.1 モデリングとモデル • モデリング

大規模な統計分析と機械学習 - sas.com · モデル構築..... 6 モデルの評価と選択 ... ラル・ネットワークを用いた学習 手法の確立は、1958年にまで遡ります。また、sas

海馬と記憶モデル 松岡佑磨

UMLの概要 - TUISnagai/SYS/UML1_2009.pdf1 UMLの概要 • モデリングとモデル •UMLとは •UMLの主要モデル –UML1.4 –UML2.1 モデリングとモデル • モデリング

直接効用モデルを利用した パッケージサイズ選択行 …21 河塚 悠「直接効用モデルを利用したパッケージサイズ選択行動の分析」 たりすることで製品価値を決めている場合が多い。

（2）目的別の交通手段選択モデルの作成149 （2）目的別の交通手段選択モデルの作成交通手段選択モデルの概念アンケート調査結果より、目的別（通勤通学、私用）の交通手段選択モデルを作成した。なお、

第4章モデル・クラスターのマスタープランとアク …第4 章モデル・クラスターのマスタープランとアクションプラン 4.1 モデル・クラスター振興計画策定の手順

ヒット現象の数理モデルによる AKB 選抜総選挙の解析 2010-2014 · Proceedings of ARG WI2 図 3 AKB選抜総選挙（2009〜2014年）における立候補者と投票数の推移

JamVOX Effect guide...1 A. アンプ・モデルA. アンプ・モデル最初に、素晴しいサウンドを誇る数々のアンプの中からJamVOXのために特別に選んだ19種類のアンプ・モデルについて説明します。モデルとなるアンプを選択するには、

改正省エネ基準対応・機器選定支援ツール€¦ · 改正省エネ基準対応・機器選定支援ツール 3 本プログラムのモデル建物法への対応モデル建物法とは

第4.2回モデル選択 - jakou.comfieldnote.jakou.com/seminar/stats/stats4.2.pdf仮説検定とモデル選択 5 仮説検定：帰無仮説のもとで注目するモデル（より極端な結果）が得られ

vol. 64 i-DRIVE全15モデルフルラインナップ!!...i-DRIVE全15モデルフルラインナップ!! 「裏山鹿」インプレも再収録 i-DRIVEはGTフルサスの全モデルにラインナップされる。各モデルの特徴とともに

発明発想モデルと、アイデアノートの使用方法 - PatentIslandのととの

大規模な統計分析と機械学習 - sas.com · モデル構築..... 6 モデルの評価と選択 ... ラル・ネットワークを用いた学習手法の確立は、1958年にまで遡ります。また、sas

海馬と記憶モデル松岡佑磨

直接効用モデルを利用したパッケージサイズ選択行 …21 河塚悠「直接効用モデルを利用したパッケージサイズ選択行動の分析」たりすることで製品価値を決めている場合が多い。