20 11 年度 統計学講義内容

24
2011 年年 年年年年年年年 年年年 年年年年 E-mail [email protected]

description

20 11 年度 統計学講義内容. 担当者 河田正樹 E-mail [email protected]. このスライドの内容. 統計学とはどのようなものか   データの収集、分析をおこなう統計学は、学問として存在しているばかりでなく、日常生活の中で無意識のうちにその考え方が用いられているものである。 経済学と統計学   経済学部という文系の学部で、統計学という数学のようなものはあまり関係ないように思われる。しかし、経済学を学ぶ上で、統計学は非常に重要なものであり、現実経済の把握や将来の予測には統計学が必ず用いられる。. 統計学とはどのようなものか. - PowerPoint PPT Presentation

Transcript of 20 11 年度 統計学講義内容

Page 1: 20 11 年度 統計学講義内容

2011 年度統計学講義内容

担当者 河田正樹E-mail   [email protected]

Page 2: 20 11 年度 統計学講義内容

このスライドの内容

• 統計学とはどのようなものか  データの収集、分析をおこなう統計学は、学問とし

て存在しているばかりでなく、日常生活の中で無意識のうちにその考え方が用いられているものである。

• 経済学と統計学  経済学部という文系の学部で、統計学という数学の

ようなものはあまり関係ないように思われる。しかし、経済学を学ぶ上で、統計学は非常に重要なものであり、現実経済の把握や将来の予測には統計学が必ず用いられる。

Page 3: 20 11 年度 統計学講義内容

• われわれは経験から数多くのことを学び、われわれをとりまくさまざまな環境に、適切に対処することができるようになってきた。

• 日常生活においては、このような経験は通常、おおまかに、直感的に観察され、数量化することはあまり意識されない。

  (例) 今年は暑い日が多かった。      今日はバスの時間がやたらとかかる。

• このような経験が、数量的に把握されるということは、たとえば次のようなものである。

  (例) 今年は最高気温 35℃ 以上の猛暑日が 32 日と、観測史上最多であった。    今日は通常 15 分で駅まで到着するバスが、 25 分かかった。

このような数量化は、直観的であいまいな観察に、客観性を与えてくれる。

統計学とはどのようなものかa)  統計学の考え

Page 4: 20 11 年度 統計学講義内容

• ところで、バスが「通常 15 分で駅まで到着する」ということは、どのようにして得られるのであろうか?⇒  バスの所要時間に関して、数多くの観察をおこなった結果、

得られたものである。

• この観察をおこなうときに、それらのバスの所要時間の「時間帯」、「時期」、「曜日」、「天候」などについても同時に観察することも考えられよう。

• これらのデータの間にから何を見出せるのであろう?⇒  (例) 雨の日は通常より時間がかかる      夕方は日中より時間がかかる   など

• われわれは、得られたデータ間に見いだされた関係から、将来より効率的に行動するために、何を学びうるであろうか?

   ⇒ (例)雨の日や夕方のバスに乗るときには、所要時間が多くかかることを予測し、行動することが効率的である。

Page 5: 20 11 年度 統計学講義内容

• 「経験」を効率的に整理する ( 少ない経験で、豊富な経験と同等の知識を持つ ) ためには、統計学の助けが必要不可欠である。

• 統計学とは、分析目的に対応してデータを収集し、分析することによって、予測や意思決定のための材料を提供する学問である。

データの収集

分析予測・

意思決定分析目的

統計学

Page 6: 20 11 年度 統計学講義内容

 データを収集し、分析する統計学の立場には次の 2 種類が考えられる。

• まず、得られたデータの特徴を何らかの数値(例えば平均)や表・グラフにまとめたりすることが考えられる。

  ⇒ 記述統計(または統計的記述)という。

• 次に、データの記述にもとづき、そのデータを生成した集団や構造(これを母集団という)についての推論をおこなうことが考えられる。

  ⇒ 推測統計という。

b)  記述統計と推測統計

Page 7: 20 11 年度 統計学講義内容

1)  記述統計の例

あるクラスのテストの点数が次のようになっていたとする。

39, 22, 67, 60, 43, 20, 46, 47, 20, 3063, 69, 78, 88, 73, 20, 58, 87, 47, 7544, 69, 34, 20, 17, 63, 36, 7, 27, 2144, 66, 33, 54, 34, 69, 60, 23

このような数字の羅列だけでは、このクラスの特徴をとらえることは難しい。そのため、このクラスの特徴を何らかの数値であらわしたり、表・グラフにまとめたりする、記述統計の助けが必要である。

Page 8: 20 11 年度 統計学講義内容

階 級 階級値 度数0 - 9 5 110 - 19 15 120 - 29 25 830 - 39 35 640 - 49 45 650 - 59 55 260 - 69 65 970 - 79 75 380 - 89 85 290 - 100 95 0

クラスの特徴を、特性値(統計量ともいう)といわれる数値であらわしたり、度数分布表とヒストグラムといった表やグラフにまとめてみる。

テストの点数

0

2

4

6

8

10

5 15 25 35 45 55 65 75 85 95

点数

度数

度数分布表 ヒストグラム

平均点 46.66最高点 88最低点 7

特性値(統計量)

Page 9: 20 11 年度 統計学講義内容

• そのほか、今まで見慣れている、さまざまなグラフをとりあげる。どのような場合にどのグラフが有効であるか、再整理する。

出典:総務省統計局『労働力調査』

0

0.5

1

1.5

2

2.5

3

3.5

1人 2人 3人 4人 5人

家族の人数

度数

仮想データから作成

3

3.5

4

4.5

5

5.5

62007

年01月

2007

年03月

2007

年05月

2007

年07月

2007

年09月

2007

年11月

2008

年01月

2008

年03月

2008

年05月

2008

年07月

2008

年09月

2008

年11月

2009

年01月

2009

年03月

2009

年05月

2009

年07月

2009

年09月

2009

年11月

2010

年01月

2010

年03月

2010

年05月

2010

年07月

(%)

年・月

完全失業率の推移(男女計・季節調整値)

学年別の割合

40%

40%

20%

2年3年4年

3年齢 階級別総人口の推移

0% 20% 40% 60% 80% 100%

2005

1990

1970

1950

1930

0-14歳15-64歳65 -歳

折れ線グラフ 棒グラフ

円グラフ

出典:総務省統計局『国勢調査』

仮想データから作成

帯グラフ

Page 10: 20 11 年度 統計学講義内容

母平均 μ

母比率 p

標本平均

標本比率

推論 x

母数  θ 標本統計量 t

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

    ×

  ×    ×

    ×  

母集団(個体数N )

標本(個体数n )

母集団 - 知りたい対象の集まり標本 - 母集団から抜き出されたその一部

全数調査 - 母集団の全てについて調査をおこなうこと標本調査 - 母集団から抜き出された一部について調査をおこなうこと

2)  推測統計の例

標本統計量をもとに、母数についての推論をおこなうのが推測統計である。

Page 11: 20 11 年度 統計学講義内容

 晴れた日の夕方のバスの所要時間を知りたいとする。 晴れた日の夕方に走るすべてのバスについて、所要時間

のデータを収集することは不可能である。このとき、たとえば 10 日間に乗ったバスを標本(サンプル)として考える。

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

   ×

  ×    

母集団(晴れた日の夕方のバス全体)

標本(乗ったバス 10回) 

平均所要時間 x平均所要時間 μ

推論

少ない「経験」をもとに、多くを経験した場合のことを推論する。

Page 12: 20 11 年度 統計学講義内容

• 標本から得た母集団についての情報は、誤差を持っている。

• たとえば、晴れた平日の夕方に A さんと B さんがそれぞれ別の日にバスに乗ってデータ収集をおこなう。

– A さんは 10回乗ったところ、目的地まで平均 15 分でついた。– B さんは運の悪い人で、乗ったバスが信号に何度もつかま

り、 10回乗ったところ平均時間は 20 分であった。

3)  推測統計の注意点

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

   ×

  ×    

母集団(晴れた日の夕方のバス全体)

標本 1 ( A さんの乗ったバス 10回) 平均 15 分

  ×

   ×    

標本 2 ( B さんの乗ったバス 10回) 平均 20 分

Page 13: 20 11 年度 統計学講義内容

 ⇒ 選んだ標本 (サンプル ) から求めた平均所要時間には誤差がある。

 ⇒ 標本誤差(標本の偏り)の問題  ※ 内閣発足直後、新聞各社は支持率調査をおこなうが、各社ごとにその

結果が異なる。それはこの標本誤差(標本の偏り)の問題による。

• 推測統計では、標本から得られる情報にもとに、確率を用いて、誤差の大きさを評価し、母集団についての情報を推論する。

Page 14: 20 11 年度 統計学講義内容

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

   ×

  ×    

母集団(有権者 1億人) 標本 1 (朝日 1088

人)  60%

   ×

  ×    

  ×

   ×       ×

  ×    

  ×

   ×    

標本 2 (読売 1057人)  64%

標本 3 (毎日 1018人)  66%

標本 4 (日経 888 人)  68%

標本 5 (共同 1021人)  61%

2010 年 6月 10 日付の朝刊各紙に掲載された菅内閣支持率を見ると、異なった結果になっている。

同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。

これが、標本の偏りである。

<菅内閣発足直後の支持率の例>

Page 15: 20 11 年度 統計学講義内容

推測統計の例 -視聴率-• ドラマやスポーツなどのテレビ番組の視聴率は、ビデオリサーチ社が調査している。

• 全国を各地区に分け、視聴率を調べているが、新聞などで大きく取り上げられるのは、関東地区の結果である。

• 関東地区の場合、約 1580万世帯のうち、 600世帯を標本(サンプル)として選び調査している。

      ×

   ×      ×

      ×     ×

   ×      ×

      ×

    ×

  ×    ×

    ×  

母集団( 1580万世帯)

標本( 600世帯)

Page 16: 20 11 年度 統計学講義内容

(例) 2011 年 4月 1 日放送の「ミュージックステーション SP 」の視聴率は 18.5% であった。

– テレビ局の論理  1580万世帯 ×0.185 = 292万世帯が視聴している。 視聴率が 1%増えるということは、関東地区だけで  1580万世帯 ×0.01 = 15万世帯増加 全国では 4700万世帯 ×0.01 = 47万世帯(その世帯

に住む人数を考えると約 100万人の増加)

⇒  標本誤差を考慮せず、標本から求めた視聴率が母集団から求めた視聴率に等しいとしている。

Page 17: 20 11 年度 統計学講義内容

– 統計学の論理 標本の 600世帯 ×0.185 = 111世帯が視聴していると

いうこと。 視聴率が 1%増えるということは、 600世帯 ×0.01

= 6世帯がたまたまその番組を見ていたことである。  1%程度の視聴率は標本誤差によって変わる可能性

がある。

Page 18: 20 11 年度 統計学講義内容

• では、標本調査で 36.4% という結果を得た場合、母集団の視聴率はどの程度なのだろうか?

  ⇒ これに答えるのが統計的推定

• 視聴率 35% 以上の番組を作った場合、プロデューサーの査定にプラスになるという内規があったとする。しかし、この番組は本当に 35%を超えたのだろうか?

  ⇒ これに答えるのが統計的検定※  2003 年 10月に発覚した、視聴率操作事件をおこした日本テレビプロデューサーは、視聴率のわずかな差にこだわっていたが、統計学の立場からすると、わずかな差にこだわるのはバカバカしい。

Page 19: 20 11 年度 統計学講義内容

経済学と統計学

• 経済学を学ぶ場合、マクロ経済学やミクロ経済学などの経済理論を学ぶとともに、それらが現実経済と一致するかを検証しなくてはならない。

経済理論 現実経済一致 ?

Page 20: 20 11 年度 統計学講義内容

• 現実経済の状態を把握するために、記述統計が用いられる。– 完全失業率を算出する– 株価の動きをグラフ化する– 所得税減税効果と、消費増大の関係について、回帰分

析をおこなう。 → 所得税を○○%引き下げることによって、消費

が△△%増大する

• さらに、現状把握をもとに予測し、意思決定をおこなうためには、推測統計が用いられる。

Page 21: 20 11 年度 統計学講義内容

– 完全失業率は、これは日本全国 15歳以上(1億人)から 10万人を標本として選んだ調査の結果である。この数値が前月と比べて 0.1%増えたところで、誤差の範囲内ではないだろうか?

– 所得税を○○%引き下げることによって、消費が△△%増大することが回帰分析によってわかった。しかし、この分析は標本にもとづいて分析されたものであり、実際には ± □% の誤差がある。

 ⇒ 誤差をふまえたうえでの意思決定が必要

Page 22: 20 11 年度 統計学講義内容

マーケティングと統計学

• マーケティングと統計学は密接な関係がある。– コンビニなどの POSシステムのデータは、天候、

時間、年齢、性別などによってどのような商品が売れるのかを解析するために用いられている。

– 市場調査のためにアンケートをおこなう場合には、調査対象者をどのぐらいの規模でどのようにして選ぶかなどには統計学の知識が必要不可欠である。(統計的推定に含まれるサンプリング (標本抽出法 )の話)

Page 23: 20 11 年度 統計学講義内容

スポーツと統計学

• スポーツの戦術、トレーニング方法などを科学的に解明する場合、統計学の助けが必要となる。– 野球の戦術において、打率、防御率などはどの選手をどのよう

に起用するか(打順、登板順など)に用いられるし、投手の配球を読む上で統計学は非常に役に立つ。選手の起用に際して、メジャーリーグのアスレチックスを起源とするでは「セイバーメトリクス」という統計的分析手法が出てきており、 OPS( On-base Plus Slugging )という出塁率+長打率で求められる指標が、得点との関連が高いことがいわれている。

– トレーニングの面では、 2 つのトレーニング方法があった場合、どちらがより効果的なトレーニング方法であるかなどは、統計的検定によって検証される。

Page 24: 20 11 年度 統計学講義内容

講義内容

第 1章 記述統計の復習

第 2章 確率と確率分布

第 3章 統計的推定

第 4章 統計的検定

第 5章 回帰分析入門