Tokyor35 人工データの発生

Post on 28-May-2015

1.468 views 2 download

Transcript of Tokyor35 人工データの発生

人工データの発生@yokkuns: 里 洋平

yohei0511@gmail.com2013.11.09 第35回Tokyo.R

「Rによるやさしい統計学」第18章

2013年11月9日土曜日

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

里 洋平 (@yokkuns)

■元Webエンジニアのデータサイエンティスト■TokyoRの主催者

2013年11月9日土曜日

執筆しました

2013年11月9日土曜日

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

なぜ人工データを発生させるのか?統計学やデータ解析自体の研究•学習の際に特定の条件を満たすようなデータが欲しい

・シミュレーション実験・例題用の仮想データ ⇒ 勉強会とか執筆とか・データ解析手法を試すために都合の良いデータ ...

2013年11月9日土曜日

どんな人工データが作れるのか

特定の母集団からの無作為標本

① 母集団分布を指定した1変量データ② 母集団分布を指定した多変量データ③ 統計モデルを指定した多変量データ 例: 回帰分析モデル、因子分析モデル、etc...

2013年11月9日土曜日

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

確率分布に従う乱数の生成

乱数を生成する関数一覧

確率分布 関数名 引数としてしていする母数正規分布 rnorm mean, sd一様分布 runif min, maxベータ分布 rbeta shape1, shape2, ncp二項分布 rbiom size, probコーシー分布 rcauchy location, scaleカイ二乗分布 rchisq df, ncp指数分布 rexp rateF分布 rf df1, df2, cnp

ガンマ分布 rgamma prob... ... ...

2013年11月9日土曜日

実行例: 正規分布

rnorm関数

2013年11月9日土曜日

実行例: 一様分布

runif関数

2013年11月9日土曜日

実行例: 任意の離散的確率分布runif関数による乱数とcut関数を用いて

任意の離散的確率分布の人工データを生成する

2013年11月9日土曜日

統計学の法則・定理の検証統計学を勉強してると謎の法則とか定理が出てくる

人工データを使ってこれを検証してみる

http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86

http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87

2013年11月9日土曜日

大数の法則とはある母集団から無作為抽出された標本データの平均はサンプルサイズを大きくすると真の平均に近づく

http://www.seiho.or.jp/data/billboard/introduction/content03/2013年11月9日土曜日

正規分布によるシミュレーションrnorm関数でサンプルサイズを変化させ

標本平均と母平均を比較する

2013年11月9日土曜日

二項分布によるシミュレーションrbiom関数でサンプルサイズを変化させ

標本平均と母平均を比較する

2013年11月9日土曜日

中心極限定理とは標本平均と真の平均との誤差は

サンプルサイズを大きくすると、近似的に正規分布に従う

http://www.clg.niigata-u.ac.jp/~medimg/practice_medical_imaging/roc/2signifi/index.htm

2013年11月9日土曜日

正規分布によるシミュレーション

母集団の作成

2013年11月9日土曜日

正規分布によるシミュレーション100個の標本を100回作成標本平均の分布を見る

2013年11月9日土曜日

正規分布によるシミュレーション100個の標本を1,000回作成標本平均の分布を見る

2013年11月9日土曜日

正規分布によるシミュレーション100個の標本を10,000回作成標本平均の分布を見る

2013年11月9日土曜日

二項分布によるシミュレーション

母集団の作成

2013年11月9日土曜日

二項分布によるシミュレーション100個の標本を100回作成標本平均の分布を見る

2013年11月9日土曜日

二項分布によるシミュレーション100個の標本を10,000回作成標本平均の分布を見る

2013年11月9日土曜日

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

相関関係

http://mcn-www.jwu.ac.jp/~kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM

2013年11月9日土曜日

任意の母相関を持つ2変数データの生成(方法1)分散の等しい母集団から独立に無作為抽出された

2変数を用いて任意の母相関を持つ2変数データを生成

2013年11月9日土曜日

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

線形回帰分析とは

観測変数間の直線関係を分析する手法

http://www.tuins.ac.jp/~ham/tymhnt/analysis/e/tahenryo/sa/sa8.html2013年11月9日土曜日

線形回帰分析の仮定

線形回帰モデルの残差は正規分布していると仮定されている

http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html

2013年11月9日土曜日

回帰分析モデルに基づく人工データの生成回帰係数と切片を固定し、xとeを乱数で生成する事で回帰分析モデルに基づく人工データを生成する

2013年11月9日土曜日

人工データに対して回帰分析を実行

2013年11月9日土曜日

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

http://www.japanr.org/information/2013/11/03/lt/■ LT募集しています!

2013年11月9日土曜日

AGENDA

■人工データの発生■自己紹介

■人工データ■母集団分布に従う1変量データ■母集団分布に従う多変量データ■統計モデルに基づいた人工データ

■最後に2013年11月9日土曜日

ご清聴ありがとうございました!

2013年11月9日土曜日