第 4 章 推測統計の基礎
description
Transcript of 第 4 章 推測統計の基礎
第 4 章 推測統計の基礎
統計学基礎 2012 年度
目次Ⅰ 全数調査と標本調査
1) 標本調査のメリット2) 標本抽出法3) 標本調査における誤差
Ⅱ 確率の基礎1) 確率の計算2) 確率分布3) 確率の定義
ⅰ ) 先験的確率ⅱ ) 経験的確率ⅲ ) 主観的確率
Ⅲ 統計的推論入門
Ⅰ 全数調査と標本調査 「社会生活統計指標 - 都道府県の指標 -2011 」の
ページには、数多くの都道府県別データがある。 基礎データのところを見ると、中には、人口総数
(A1101) のように、調査によってすべて数え上げたものがある。一方で、消費支出 ( 勤労者世帯 )(L3211)† のように、県内の一部の世帯について調査をおこなって求めた推計値もある。
† 消費支出は県内のすべての世帯について調査し、その平均をとったものではない。一部の世帯の調査結果から推計したものである。
ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。
1) 標本調査のメリット
×
××
×
×
××
×
××
母集団(個体数N )
標本(個体数n )
標本調査の例として次のようなものが挙げられる。
労働力調査(完全失業率はこの調査の結果求められる)
⇒ 全国の 15 歳以上 ( 約 1 億 1 千万人 ) の母集団から、約 10 万人を標本として選ぶ調査
内閣支持率調査などの世論調査 ⇒ 全国の有権者 (20 歳以上の日本国民 )( 約 1
億人 ) の母集団から、約 1000 人 ( 新聞社のおこなう内閣支持率調査の場合 )
その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。
標本調査をおこなうメリットとして、次のようなことが挙げられる。
費用・時間の削減→ 調査票を配布回収する調査では、調査票の印刷費、集計
にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。
得られる情報の増加、精度の向上→ 調査には調査員が使われることが多いが、ベテランの調
査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。
全数調査が不可能な場合にも調査可能→ ガラスの耐久性についての品質管理を調査するなどの場
合、全数調査をおこなうことは不可能である。
2) 標本抽出法
母集団から標本を抜き出す方法を標本抽出法という。英語ではサンプリング (sampling) であり、マーケティングなどに出てくるこの言葉は、標本抽出法を指している。
標本抽出法は、次の2つに大別できる。
有意抽出法選ばれた標本が母集団の縮図となるように、調査をおこなう人が主観的に選ぶ方法である。街を歩く人 ( ただし典型的と思われる人 ) にアンケートをとるなどの方法であり、抜き出された標本の誤差 ( 後述 ) には、統計理論でコントロールすることができないほどの偏りが生じることがある。
無作為抽出法母集団の中から無作為(ランダム)に標本を抜き出す方法。具体的に次のような方法がある。
単純無作為抽出法 - 母集団の中からくじ引きの原理によって標本を抜き出す。
系統抽出法 - 始めに 1 つ選び、そこから等間隔で選んでいく。電話帳などのリストに有効
3) 標本調査における誤差
標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の 2 つの種類のものが組み合わさったものである。
1. 非標本誤差 - 調査もれ、無回答、記入ミスなど ⇒ 全数調査でも起こりうる 統計理論によりコントロール不可能2. 標本誤差 - 標本の偏りによるもの ⇒ 標本調査に固有のもの 無作為抽出であれば、統計理論によりコントロール可
能であるが、有意抽出の場合には、統計理論でコントロールできない標本の偏りが存在する可能性がある。
無作為抽出で得られた標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題
※ 統計理論でコントロールできない標本の偏りの例
1936年のアメリカ大統領選挙 <候補者>
› F ・ルーズベルト(民主党)現職› A ・ランドン(共和党)
どちらの候補を支持するかの世論調査リテラリー・ダイジェスト (週刊誌 )
過去 5 回の大統領選挙の予測を的中 200 万人以上の回答から、ランドン候補が 57% の得票率で勝利と予想
アメリカ世論研究所 ( ジョージ・ギャラップ率いる研究所 ) 世論調査を始めたばかり 3000 人の回答から、ルーズベルト候補が 54% の得票率で勝利と予想
結果は、ルーズベルト候補が 60% の得票を得て勝利
なぜ、回答数の多いリテラリー・ダイジェストが外れ、回答数の少ない、ギャラップの方が的中したか?
⇒ 標本抽出の方法の差
リテラリー・ダイジェスト自誌の購読者(大恐慌の最中になお雑誌購読を続けられる裕福
な人たち)を対象に、それから自動車保有者と電話利用者の名簿を使って 1000 万人もの対象者に郵便を送り、返送された200 万以上の回答をただ積み上げた。
ジョージ・ギャラップ率いる研究所 「収入中間層・都市居住者・女性」「収入下位層・農村部居住
者・男性」のように互いに重ならないグループに分け、それぞれのグループに対して決まった割合で対象を抽出した。
×
××
×
×
××
×
××
母集団(個体数N ) 標本(個体数
n )
リテラリー・ダイジェスト
×
××
×
×
××
×
××
母集団(個体数N ) 標本(個体数
n )
ギャラップの研究所
×
※ 無作為抽出の例 袋の中に、赤球 5 個、白球 5 個の計 10 個の球が入っている。こ
の袋から 2 個球を取り出すとき、袋の中の割合と同じように、赤球と白球が 1 個ずつとなる確率を考えてみよう。
赤球 2個
赤球 1 個、白球 1 個
白球 2個
母集団 標本
これは、 10 人の母集団から 2 人を標本として選ぶことと同じである。ここで、赤球を「内閣支持」白球を「内閣不支持」と考えると、母集団の内閣支持率は 50% であるが、標本について計算した内閣支持率は、 100%や 0% になることもありうる。
29
59
29
×
× ×
× ×
× ×
×
×
×
母集団(有権者 1 億人) 標本 1 (朝日 1051
人) 53%
×
×
×
× ×
×
×
×
標本 2 (読売 1100人) 65%
標本 3 (毎日 1001人) 56%
標本 4 (日経 954人) 67%
標本 5 (共同 1014人) 62%
2011年 9月 4 日付の朝刊各紙に掲載された野田内閣支持率を見ると、異なった結果になっている。
同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。
これが、標本の偏りである。
<野田内閣発足直後の支持率の例>
Ⅱ 確率の基礎 (問題) 袋の中に、赤球 5 個、白球 5 個の計 10 個の球が入ってい
る。この袋から 2 個球を取り出すとき、袋の中の割合と同じように、赤球と白球が 1 個ずつとなる確率を考えてみよう。
(解答) 求める確率は次のようになる。
A という事象のおこる確率(Probability)をこのようにあらわす。この場合は、「取り出した球が、赤球と白球が 1 個ずつとなる」が事象A である。
10 個の球から 2 個の球を選ぶ場合の数。すなわち全部で何通りあるかをこのようにあらわす。
取り出した 2 個の球が、赤球と白球 1個ずつとなる場合の数。すなわち事象A に該当するものが何通りあるかをこのようにあらわす。
1) 確率の計算
𝑃 ( 𝐴)=𝑎𝑛
まず、 10 個の球から 2 個の球を選ぶ選び方が何通りあるかを考える。
①②③④⑤①②③④⑤› 最初に選ぶ球は、この 10 個のうちの 1 つであるので、 10通
りとなる。› たとえば最初に①を選んだとしよう。このとき、次に選ぶ球
は、 ②③④⑤①②③④⑤の 9 個の中の 1 つであるので、 9通りとなる。
› 選び方は 10(通り )×9(通り )=90通りとなるが、この 90通りの中には①③と選んだ場合と、③①と選んだ場合の両方が含まれるなど、全部の組み合わせについて、ダブりが 1 つずつある。
› よって求める場合の数は 90÷2=45(通り ) である。 すなわち 10 個の中から 2 個を選ぶ組み合わせは10 個の球から 2 個の球を選ぶとき、
順番も考えて何通りあるか。
①③ と③① のように、同じ組み合わせで何通りの順番ができるか。
10×92×1
=902
=45(通り)
𝐶𝑥𝑛❑ =
𝑛× (𝑛−1 )×⋯× (𝑛−𝑥+1 )× (𝑛−𝑥 )×⋯×2×1𝑥× (𝑥−1 )×⋯×2×1× (𝑛−𝑥 )×⋯×2×1
=𝑛× (𝑛−1 )×⋯× (𝑛−𝑥+1 )𝑥× (𝑥−1 )×⋯×2×1
x 個
x 個
x 個
x個
𝐶𝑥𝑛❑ =
𝑛!𝑥 ! (𝑛−𝑥 )!
𝑛× (𝑛−1 )×⋯× (𝑛−𝑥+1 )𝑥× (𝑥−1 )×⋯×2×1
x 個
𝑛× (𝑛−1 )×⋯× (𝑛−𝑥+1 )
𝑃 𝑥𝑛❑ =
𝑛 !(𝑛−𝑥 ) !
𝐶𝑥𝑛❑ =
𝑃𝑥𝑛❑
𝑥 !
次に、取り出した 2 個の球が、赤球と白球 1 つずつとなる組み合わせが何通りあるかを考える。
①②③④⑤①②③④⑤› 最初に赤球を選び、次に白球を選ぶ†ことにする。› 赤球は①②③④⑤のいずれかから選ぶので、 5通りとなる。› 白球も同様に①②③④⑤のいずれかから選ぶので、 5通りと
なる。› よって選び方は 5(通り )×5(通り )=25通り‡となる。
よって求める確率は
である。† 順番は関係ないので、このように決めても構わない。順番を考慮するなら、最初に赤球の場合と最初に白球の場合の両方を考えなくてはならない。
‡ 他の場合として、取り出した 2 個の球がともに赤球の場合と、ともに白球の場合がある。その組み合わせの数はともに (通り ) となるので、 45-10×2=25(通り ) と求めることもできる。
𝑃 ( 𝐴)=𝑎𝑛
=2545
=59
(例) 袋の中に、赤球 5 個、白球 5 個の計 10 個の球が入っている。この袋から 2 個球を取り出すとき、 2 個とも赤球である確率を考えてみよう。
赤球 2個
※ 条件付き確率
10 個の球から 2 個の球を選ぶ場合の数
5 個の赤球から 2 個の球を選ぶ場合の数
𝐶25❑
𝐶210❑ =
5×42×110×92×1
=1045
=29
• この確率は、次のような計算で求めることもできる。
• 事象 A がおこることを条件として、事象 B がおこることを、 (Aを条件とする )B の条件つき確率といい、であらわす。
• この場合、事象 A ・・・ 1 個目の球が赤球である。事象 B ・・・ 2 個目の球が赤球である。
とすると、 となる。
赤球 2個
袋から同時に 2 個球を取り出すことは、球を戻さずに続けて 2 個球を取り出すことと同じである。そのとき、
A と B が同時に起こる確率であり、 A と B の同時確率といわれる。1 個目も 2 個目も赤球である確率。
1 個目の球が赤球であったという条件のもとで、 2 個目の球も赤であるという条件付き確率
1 個目の球が赤球である確率
1 個目の球が赤球である確率
1 個目の球が赤球であったという条件のもとで、 2 個目の球も赤であるという条件付き確率
510×49=29
次に、下のような例を考えてみる。
(例) コインを 2枚投げて、 2枚とも表になる確率を考えてみよう。
• この場合、事象 A ・・・ 1枚目のコインが表になる。事象 B ・・・ 2 枚目のコインが表になる。
とすると、 となる。
• 袋から 2 個同時に球を取り出す場合、 であった。• コインの例ではではなく、となっているが、良いのであろうか? ⇒ この場合、 1枚目のコインが表になろうが、裏になろうが、 2枚目のコインが表になる確率に影響を与えない。
• すなわち、この例の場合 である。• このとき、「事象 A と事象 B は独立である。」という。
1枚目も 2枚目も表になる確率
1枚目のコインが表になる確率
2枚目のコインが表になる確率
2) 確率分布
確率分布は、いくつかの種類に分類することができる。› 離散型確率分布
2項分布、ポアソン分布、負の 2項分布、超幾何分布、・・・› 連続型確率分布
正規分布、 t 分布、カイ 2乗分布、・・・
中でも、左右対称のつりがね型 (bell curve) をして正規分布は、数学的に望ましい性質を持った分布であり、良く用いられる。
身長や知能指数などがこの分布にしたがうといわれている。 正規分布にしたがう確率変数は、標準化することによって、標準
正規分布にしたがうことになる。
標準正規分布
00.050.1
0.150.2
0.250.3
0.350.4
0.45
- 3.5 - 3 - 2.5 - 2 - 1.5 - 1 - 0.5 0 0.5 1 1.5 2 2.5 3 3.5
テストの点数などは、正規分布にしたがっていると仮定される。
英語が平均 80 、標準偏差 10 の正規分布、数学が平均50 、標準偏差 20 の正規分布にそれぞれしたがうとする。
このとき、英語は 70点から 90点のあいだに全体の 68.3% が分布しており、数学は 30点から 70点のあいだに全体の 68.3% が、10点から 90点のあいだに全体の 95.4% が分布していると考えられる。
英語と数学の成績の分布
0
0.01
0.02
0.03
0.04
0.05
0 10 20 30 40 50 60 70 80 90 100
点数
f(x)
数学英語
3) 確率の定義 ⅰ ) 先験的確率(古典的確率、数学的確率などともいう)の定義
ⅱ) 経験的確率
𝑃 ( 𝐴)=12
経験的確率の考え方を用いることによって、おこりうる結果が同様に確からしいとはいえない場合や、すべての結果がわからない場合でも確率を求めることができる。
しかし、同じ条件のもとで繰り返し十分大きい観察が不可能な事象については、経験的確率の定義を用いることはできない。
今後おこるであろう、不確実なことがらについて、「確率」という言葉を用いることがあるが、これは不適切なのであろうか? ( 例 ) スポーツの戦術において、「確率の高い方を選ぶ」
これらは、主観的確率の定義には合致する。› 事象 A に対する個人の確信の度合いを数値で表したもの P(A) を事象 A の主観的確率という。
ⅲ) 主観的確率
(例) WBC(World Baseball Classic) 第 1 ラウンドにおいて、日本がキューバに勝つ確率は 60% である。
⇒ 野球などのスポーツにおいて、同じ条件のもとで、繰り返し十分な観察をすることは不可能である。 (過去の対戦とは、選手、調子、試合間隔、開催場所などの条件が異なっており、同一条件とはいえない。 )
主観的確率は個人の確信によって定まるので、同じ事象に対しても確率の評価は異なる。
⇒ このことから賭けがはじめて成立する。
( 例 ) 日本シリーズで日本ハムと巨人のどちらが勝つか。 日本ハムに賭ける人 - 日本ハムが勝つ確率 ( 主観的確率 ) が高い。 巨人に賭ける人 - 巨人が勝つ確率 ( 主観的確率 ) が高い。
この両者が存在することによって、初めて賭けが成立する。全員が「日本ハムが勝つ確率が高い」と思っていたら賭けは成立しない。しかし、勝つ確率が低い方に賭けることもある。それは当たった時にもらえる金額が多くなるからである。 ⇒ 期待値の大きさで判断している。
主観的確率
経験的確率
先験的確率
×
××
×
×
××
×
母集団(個体数N )
(例) 赤球 5 個、白球 5 個の計 10 個の球が入った袋から、 2 個球を取り出すことは、 10 個の母集団から 2 個の標本を選ぶことと同じことである。
赤球 2個
赤球 1 個、白球 1 個
白球 2個
母集団 標本
Ⅲ 統計的推論入門
××
標本(個体数n )
赤球 2個
××
赤球 1個白球 1個
××
白球 2個
××
赤球 1個白球 1個
・・
・
赤球
2
個の標本の個数は全体の
29
29
59
29
この例において、標本に含まれる赤球の個数を x とすると、 xの値と確率の対応関係は下のようになる。
この x の分布は、標本の個体数 n が大きくなる時、正規分布に近づく。
⇒ 中心極限定理
0
0.1
0.2
0.3
0.4
0.5
0.6
0 1 2
xの分布
0
0.01
0.02
0.03
0.04
0.05
0.06
0
0.01
0.02
0.03
0.04
0.05
0.06
母集団(大きさ N) 標本(大きさ n)
標本比率
母比率 p
× ×
×
× ×
× ×
× × ×
× ×
p̂
内閣支持率などの比率の調査において、 標本比率 の標本分布を考える。
は母比率を中心とする正規分布になる。
よって、 として、 からどの程度異なる値が出てくるかがわかる。
×
× ×
× ×
× ×
×
×
×
母集団(有権者 1 億人) 標本(約 1000
人)
母比率 p=0.6
標本比率
有権者のうち、 1000 人を標本として選ぶ調査で、母集団の内閣支持率が 0.6 であったとすると、 0.57 と 0.63 のあいだにの95% が分布する。
⇒ この性質を用いて、たとえば という結果が得られたなら、この値から、母比率が含まれるであろう区間を推定できる。
(区間推定)詳しくは「統計学」で
0.57 0.63p=0.6
95%
の分布
×0.61
標本から求められた内閣支持率は、標本誤差があり、母比率をピタリと当てることは難しい。
そこで、母比率 p が含まれるであろう区間を考え、推定する。
※ その他の例として、次のようなものが考えられる。