<TR1分析 の道具と方法の -...

12
Behavioral Economics <1> by S. Yane 本日の課題 R & Rstudio 自主トレ 演習用教材 by 矢根 真二 ([email protected]資料URL http://rio.andrew.ac.jp/~yane/class/S34/ < TR1 分析の道具と方法のイメージ > 統計学R知らない完全初心者用 2016年版 イメージがある方には,いきなり<TR2>が効率的かも? ■ 探偵気分になりきれれば,誰でも6日でデータマイニング? ○便益: インストール,統計必要性・考え方から解説 ○費用: 石田基広(2015)『新米探偵,データ分析に挑む』 キンドル版,¥2160 数日の知的努力 Slide 基本コンセプト と メリット R計量経済学・統計学知識不要でも, 1. 物語を読めば,科学的分析が掴める 2. 特にインストールデータ読み込みから 躓くPC初心者にも,読みやすい 3. 帰無仮説有意水準を知らない統計学初 心者にも,分析の考え方がイメージできる 4. それでも自分で回帰分析をできる等演習には十分実用的な共通教養を修得可能 ∴ 開講時には,全員俵太君レベルでスタート 2

Transcript of <TR1分析 の道具と方法の -...

Page 1: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

本日の課題

R & Rstudio 自主トレ演習用教材 by 矢根 真二 ([email protected]

資料URL http://rio.andrew.ac.jp/~yane/class/S34/

< TR1 分析の道具と方法のイメージ >

統計学もRも知らない完全初心者用2016年版 イメージがある方には,いきなり<TR2>が効率的かも?

■ 探偵気分になりきれれば,誰でも6日でデータマイニング?

○便益: インストール,統計やRの必要性・考え方から解説

○費用: 石田基広(2015)『新米探偵,データ分析に挑む』

キンドル版,¥2160 + 数日の知的努力

Slide

基本コンセプト と メリット

Rや計量経済学・統計学の知識が不要でも,

1. 物語を読めば,科学的分析が掴める

2. 特にインストール・データ読み込みから

躓くPC初心者にも,読みやすい

3. 帰無仮説・有意水準を知らない統計学初心者にも,分析の考え方がイメージできる

4. それでも自分で回帰分析をできる等,本

演習には十分実用的な共通教養を修得可能

∴ 開講時には,全員俵太君レベルでスタート

2

Page 2: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide 3

以下の理解度診断の自主トレ6課題の目次

前頁の石田(2015)を読みながらこなす<6>課題

0. 番外編を読む R と RStudioのインストール

1. 事件ファイル01を読む 1 サイコロ と ヒストグラム

2. 事件ファイル02を読む 2 コイン と t検定

3. 事件ファイル03を読む 3 分割表 と χ2検定

4. 事件ファイル04を読む 4 散布図 と 単回帰分析

5. 事件ファイル05を読む 5 主成分得点 と 単回帰

6. 事件ファイル06を読む 6 ロジスティック回帰

Slide

1日目 サイコロ と ヒストグラム4

サイの目の

平均値の

期待値はいくら?

Page 3: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

1日目の 理解度診断 10分間チェック

1. PCにサイコロを 1 回振らせてみた時の出目は?

2. サイコロを10回振らせてみた時,すべての出目が出た?

3. サイコロを10回振らせた時と,1万回振らせた時の度数分布表やヒストクラムを作れる? 読み取れる相違は?

4. 前問3の各々の期待値は? いずれが理論値に近い?

5. 前問4の10回振った期待値を1万回繰り返し記録した場合

のヒストグラムを作ると,何が分かる?

5

Slide

Rのコード例 と 補足

解答のためのRのコード (テキストファイル)

サイの目は確率変数 相対度数分布(ヒストグラム)は確率分布

3分間補足: 確率 と 行動経済学・ゲーム理論

1. ルーレットの結果を4回見ていたら,黒,赤、赤,赤という結果,アナタなら次はどっちに賭ける?

ギャンブラーの錯誤 カーネマン (15) 『ファスト&スロー』

2. アナタなら3万円のサイコロの賭(pp.51-55)にのる? セントピーターズバーグの逆説 期待効用仮説

6

Page 4: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

2日目 コイン と t 検定7

ヒストグラム(度数分布図)や散布図( 4)の実際の使用例

自主トレでのデータ保存フォルダ(Project or WD)の作成例

1. Rをインストールすると,ドキュメントの下にRフォルダが自動的に作成

確認: C: ¥ユーザー ¥(ユーザー名) ¥ドキュメント ¥R

2. このRフォルダの下に,自主トレ用の TR1 フォルダを作成します

ココに保存したデータcoin.csvは,”~/R/TR1/coin.csv“ でアクセス

Slide

2日目の 理解度診断 10分間チェック8

1. PCにコインを20回トスさせた場合の表(0)と裏(1)の数の比率を直感的に確かめるために,表やグラフで作れる?

2. 200回トスさせた場合には,その比率はどう変化?

3. 友人が彼のコインで20回トスしたら,2coin.csvに見られるように,表(0)が7回,裏(1)が14回出た。このコインは歪みがない(という

帰無仮説が5%の有意水準で棄却できない)フェアーな硬貨?

2coin.csv ファイルのトス結果の変数名: toss

4. 2coin2.csvのtoss2のように,200回中裏が140回出る場合は?

Page 5: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

Rのコード例 と 補足

解答のためRのコード (テキストファイル)

大数の法則 サンプル数が 20 と 200 では大違い?

3分間補足: データの保存場所とそのデータの3読み込み法

1. Rstudioなら,右上の Import Dataset のクリックでOK さらに,From Text File をクリック OK

2. coin <- read.csv(file.choose()) は,Rでも使える

3. ドキュメントの下のRの下,TR1フォルダを作って保存した場合

coin <- read.csv(“~/R/TR1/2coin.csv")

9

Slide

3日目 分割表 と χ2 検定

データ作成の基礎: エクセルでのデータ作成の基本形

3sex.xlsx 第1行に変数名: id, sex, smoke

id は個体識別の通し番号,sexとsmokeは質的データhead() 文字,str() factor, summary()

データ利用の基礎: エクセルからCSVファイルを作成

1. エクセルで開いたファイルを,名前を付けて保存する時に,

2. ファイルの種類で CSVを選択 はい,でOK

3. 準備: 3sex.xlsx と 3sex2.xlsx をCSVで保存しよう

10

Page 6: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

3日目の 理解度診断 10分間チェック

1. CSVにした 3sex.csv と 3sex2.csvをRに読み込み,それぞれ dats と dats2 という名(の行列)にしよう

2. dats と dats2 の分割表(クロス表)を作成し,男女や喫煙者の比率を比べると?

3. それぞれの分割表において,男女間で喫煙パターンの相違がない(という帰無仮説を5%の有意水準で棄却できない)と言える? カイ二乗(独立性)検定によって説明しよう

11

Slide

Rのコード例 と 補足

解答のためRのコード (テキストファイル)

大数の法則 サンプル数が増えるほど精度も上がる

3分間補足: データ(行列) dats からの変数 sex, smoke の指定

table()にdats データの2列目のsexと3列目のsmokeを使う

1. 名前を指定 table(dats$sex,dats$smoke)

2. 個々の列を指定 table(dats[c(2,3)])

3. 列から列までを指定 table(dats[c(2:3)])

12

Page 7: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

4日目 散布図 と 回帰分析13

アイスが売れれば

事故が増える?

Slide

4日目の 理解度診断 10分間チェック

1. 4ice.csv を読み込み,要約(summary)して,日本語の変数名が表示できるか確かめましょう( 番外編に説明)

2. 販売数,気温,水難事故数の散布図や相関係数は?どのような相関関係や因果関係がある?

3. 販売数や水難事故数を気温で単回帰した結果(回帰係数,t値,有意性,決定係数)は? 水難事故数を販売数で回帰してもフィットは悪くないのに,なぜ有意味でない?

14

Page 8: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

Rのコード例 と 補足

解答のためRのコード (テキストファイル)

Rstudioで日本語を使うには,ホームディレクトリにRprofileを置く

3分間補足: 回帰分析結果を見るポイント

1. 変数間の因果関係を説明する理論・仮説は明確か?

2. 全体の説明力 決定係数×100 %

3. 各変数の有意性 t値は約2以上で5%有意か?

4. 散布図と回帰直線 曲線の方がフィットが良い?

外れ値(アウトライヤー)が多い特徴はないか?

15

Slide

小休止: 「勉強」から「研究」へ

ここまできたら(1-4日目),サクセス!

分析の方法(統計学)と道具(R)の具体的イメージができた?

研究: これらの道具を使って,何か面白い問題を主張できる?

例: 内閣支持に関する「TVの街角20人アンケート」はあてになる?

∴ これからは(5-6日目),自分の研究に使える道具箱を整備

すべてを広く均等にではなく,自分に必要な道具を深く練習興味がわき研究に使えそうなパッケージや手法中心に学習

例: テキストマイニング や WEBスクレイピング ?

16

Page 9: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

5日目 主成分得点 を使った単回帰

様々なパッケージと手法のうち,次の3つの黄色部分の練習

1. グラフ(ggplot2)やデータ処理(dplyr)

2. テキストマイニングやWEBスクレイピング

3. 主成分分析,クラスター分析,コレスポンデンス分析

3道具のここでの選択理由

1. 主成分分析 説明変数が多い場合に利用するため

2. dplyr 俵太君の,パイプやselectの使い方を理解するため

3. ggplot2 俵太君の,グラフの微修正を理解するため

17

Slide

5日目の 理解度診断 10分間チェック

1. 世界191カ国のdale(平均余命)に関するデータ5who.csv を読み込み,内容をチェック(head や summary. str)しよう

2. daleと他の量的変数 hexp(保健支出), hsc3(教育), gdpc(1人当たり所得), hgini(不平等度)との相関係数や

散布図を使って要約・視覚化すると?

3. 3変数 hexp, hsc3, gdpc の第1主成分とその寄与度は?

4. この第1主成分得点PCを使って,daleを単回帰できる?このPCを元データに加えた5whoPC.csvを書き出しておこう

18

Page 10: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

Rのコード例 と 補足

解答のためRのコード (テキストファイル)

どのパッケージがお気に入り? 興味 練習 技術

3分間補足: 主成分分析の「結果」を利用して分析を続ける

「 結果 <- prcomp(データ) 」 等の分析を行うと, summary(結果) で,結果の要約を確認できる

結果という名前の下に,自動的に分析結果が格納される

1. 結果$rotation 主成分

2. 結果$x 主成分得点

x の第1列 x[,1] を指定する: 第1主成分得点

19

Slide

6日目 データ処理とロジスティック回帰分析

様々なパッケージと手法のうち,次の3つの黄色部分の練習

1. グラフ(ggplot2)やデータ処理(dplyr)

2. テキストマイニングやWEBス例ピング

3. 主成分分析,クラスター分析,コレスポンデンス分析

3道具のここでの選択理由

1. 主成分分析 説明変数が多い場合に利用するため

2. dplyr 俵太君の,パイプやselectの使い方を理解するため

3. ggplot2 俵太君の,グラフの微修正を理解するため

20

Page 11: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

6日目の 理解度診断 10分間チェック

1. 6baby.csvを読み込み,low(赤子の低体重),smoke(喫煙), ptl(早産経験),ht(高血圧),ui(子宮過敏)が1(Yes)か0(No)の値し

かとらず,量的変数はage(年齢)とlwt(体重)のみなことを確かめよう

2. lowを他の全変数でロジスティック回帰すると,5%有意な要因のうち最も危険な要因は?

3. ageとlwtも0と1のカテゴリ変数(例:軽い・重い)に変換して,上記のロジスティック回帰をできる?

4. これらのデータを書き出せば,何に使える?

21

Slide

Rのコード例 と 補足

解答のためRのコード (テキストファイル)

3分間補足: 学習成果を今後の研究に活用するポイント

1. ExcelやCSVデータを読み込めるようになった?

2. Yesなら,たいていのコードをコピペで動かせる!

3. ただし,好みのデータ・変数に置き換えられる? データや変数の指定の仕方の理解が最も重油になります

4. さらに,加工した変数をCSVデータで書き出せる? RStudioでprojectを保存する人には,不要かもしれませんが。

22

Page 12: <TR1分析 の道具と方法の - rio.andrew.ac.jprio.andrew.ac.jp/~yane/class/S34/Training1.pdf · 例:テキストマイニングやWEBスクレイピング? 16. BehavioralEconomics

Behavioral Economics <1> by S. Yane

Slide

お疲れ様! の効果?23

1. 俵太君の学習姿勢をまねることが最も大事!

分からないことは質問,分かれば要約,そして積極的に実践

初めてのこともホウレンソウができればスキルアップ

2. 論文・発表のテーマは原則自由 but 分析方法は共有

Rによる科学的分析方法の基礎は,互いに共有できたハズ

実際にいかに使えるかを報告し合うことで創造力アップ

3. その中核になる効率性測定のためには,皆でTR2 に挑戦!