130509, 130609, 110225 統計学講義 - u-toyama.ac.jpA]-2019... · r e q u e n c y-10 -5 0 5 10...

66
科目コード 130509, 130609, 110225 統計学 講義 1/2 2019 4 16 日(火)6/7 担当教員: 唐渡 広志(からと・こうじ) 研究室: 経済学研究棟4432号室 email: [email protected] website: http://www3.u-toyama.ac.jp/kkarato/ 1

Transcript of 130509, 130609, 110225 統計学講義 - u-toyama.ac.jpA]-2019... · r e q u e n c y-10 -5 0 5 10...

科目コード 130509, 130609, 110225統計学 講義

第 1/2 回

2019 年 4 月 16 日(火)6/7 限担当教員: 唐渡 広志(からと・こうじ)研究室: 経済学研究棟4階432号室email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/

1

2

受講上の注意開講曜限は火曜 6 限 + 7 限平方根√ が計算できる電卓を毎回持参する。

総合情報基盤センターの ID や pass を確認しておく。平成30年度の入学生第1タームに「統計学A」(2単位),第2ターム「統計学B」(2単位)を原則としてどちらも履修

平成29年度以前の入学生前学期に「統計学」(4単位)を履修

参考書宮川公男 [2015]『基本統計学第4版』有斐閣,ISBN 464116455X, ¥3024.白砂堤津耶 [2015]『例題で学ぶ初歩からの統計学第2版』日本評論社,ISBN 453555790X, ¥2700.大屋幸輔 [2011]『コア・テキスト統計学第2版』新世社,ISBN 4883840506, ¥2100.山本庸平 [2017]『統計学 15講』新世社,ISBN: 4883842673, ¥2000.鳥居泰彦 [1994]『はじめての統計学』日本経済新聞社,ISBN 4532130743, ¥2233.神林博史・三輪哲 [2011]『社会調査のための統計学 -生きた実例で理解する-』技術評論社,ISBN: 4774146803,¥2138.日本統計学会 (編集) [2012]『日本統計学会公式認定 統計検定2級対応 統計学基礎』東京図書,ISBN 4489021224,¥2376.日本統計学会 (編集) [2012]『日本統計学会公式認定 統計検定3級対応データの分析』東京図書,ISBN 4489021321,¥2376.

3

評価対象と成績平成30年度の入学生統計学A(第1ターム,4月16日6限~6月11日6限,15回)

• 演習問題の提出 40%• 試験(6月11日6限) 60%統計学B(第2ターム,6月11日7限~7月30日7限,15回)

• 演習問題の提出 40%• 試験(8月第2週) 60%

平成29年度以前の入学生(前学期,4月16日6限~ 7月30日7限,30回)

• 演習問題の提出 40%• 試験(6月11日6限) 30%• 試験(8月第2週) 30%

成績評価の目安: ≥ 90 > ≥ 80 > ≥ 70 > ≥ 60 >4

講義日程統計学A 統計学B

#1 4月16日 6限 イントロダクション #1 6月11日 7限 中心極限定理#2 4月16日 7限 データの種類と整理1 #2 6月18日 6限 標本平均の分布#3 4月23日 6限 データの種類と整理2 #3 6月18日 7限 区間推定1#4 4月23日 7限 母集団と標本 #4 6月25日 6限 区間推定2#5 5月7日 6限 データの変動と相関 #5 6月25日 7限 区間推定3#6 5月7日 7限 和の記号 #6 7月2日 6限 仮説検定1#7 5月14日 6限 データの変換 #7 7月2日 7限 仮説検定2#8 5月14日 7限 階級別データの整理 #8 7月9日 6限 仮説検定3#9 5月21日 6限 確率変数とその分布1 #9 7月9日 7限 仮説検定4#10 5月21日 7限 確率変数とその分布2 #10 7月16日 6限 独立性の検定1#11 5月28日 6限 確率変数とその分布3 #11 7月16日 7限 独立性の検定2#12 5月28日 7限 確率変数とその分布4 #12 7月23日 6限 回帰分析1#13 6月4日 6限 標準正規分布1 #13 7月23日 7限 回帰分析2#14 6月4日 7限 標準正規分布2 #14 7月30日 6限 回帰分析3#15 6月11日 6限 *中間試験 #15 7月30日 7限 まとめ

期末試験

5

統計的思考と推測

6

度数分布表とヒストグラム

番号 身長1 1772 1743 1764 1735 1646 175...

102 168103 168104 171

7

20XX年度統計学受講者の身長 [男性] 104名

身長 度数150-155cm 0155-160 || 2160-165 |||||||||| 10165-170 ||||||||||||||||||||||| 23170-175 |||||||||||||||||||||||||||||||||||| 36175-180 |||||||||||||||||||| 20180-185 |||||||||||| 12185-190 | 1190-195 0

合計 104人

身長 [cm]

Freq

uenc

y155 160 165 170 175 180 185 190

010

2030

40

度数分布表

ヒストグラム

170~175cmの人は36人いる

観測データ表

8

統計的(常識的)な判断 (1)【例】ある部屋に2人の大人がいる

身長150cmぐらいの人 (A)身長180cmぐらいの人 (B)

(A) さんは男性だろうか?女性だろうか?(B) さんは男性だろうか?女性だろうか?

9

男性の身長分布

身長(cm)

頻度

140 150 160 170 180 190 200

0100002000030000400005000060000

0.16%

150cm以下の割合

10

女性の身長分布

身長(cm)

頻度

130 140 150 160 170 180

0100002000030000400005000060000

0.009%

180cm以上の割合

統計的(常識的)な判断 (2)統計的思考

蓄積された経験に基づいて常識的な判断を下すこと。

100%確実とは言い切れないが,可能性の問題としてありうる事柄について判断を下すこと。

【例】

東京は札幌よりも暑い。

このやかんでコップ1杯のお湯を沸かすと 2 分後に沸騰する。自宅から学校まで歩いて 10 分かかる。

11

8月の最高気温の比較

12

東京の最高気温 年(2007-2011 )

気温 度 [ ]

Freq

uenc

y

15 20 25 30 35 40

010

20

札幌の最高気温 年(2007-2011 )

気温 度 [ ]

Freq

uenc

y

15 20 25 30 35 40

010

20

東京と札幌の気温差

最高気温の差 東京 札幌: ―

Freq

uenc

y

-10 -5 0 5 10 15 20

05

1015

2025

8月中,札幌の方が暑い日が5年間で13日(8.4%)あった。

31日×5年

13

統計的推測経験だけでは判断できないケース

【例】ある市長選挙における当選者の予測

投票者数は10万人候補者は現役市長を含めて4人選挙当日に投票所で出口調査(100人に聞き取り)100人中40人が現役市長に投票したと回答可能性の問題として現役市長は当選確実と考えてよいだろうか?

類似の例

開票率わずか 1% 未満で「当確」情報が出るのはなぜ?

開票率1% (1):実験

14

開票終了後の得票状態(開票率 100%)

候補者 得票 得票率A(現職市長) 39,000 39%B 30,000 30%C 17,000 17%D 14,000 14%合計 100,000 100%

20人分だけ開票有権者番号 投票した候補者

1 B2 A3 B4 B5 B6 C7 C8 C9 D

10 A11 A12 B13 B14 C15 B16 B17 B18 B19 A20 C

A B C D得票数 4 10 5 1

20人分の集計結果

B候補者がトップ得票

すべて開票するまでこの結果はわからない

開票率1% (2):実験

15

20人分だけ開票する場合,20人の中でA氏がトップ(最多得票)になる可能性はどの程度か?100カ所の投票所で20票だけ調べることができるものとしよう( 10万票の中から「無作為」に 20 票だけ抜き出す作業を100回繰り返す実験)。

A B C D A氏が得票最多のとき * A氏の得票率

投票所-1 4 10 5 1 0.20 投票所-2 13 2 5 0 * 0.65 投票所-3 2 11 4 3 0.10

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.投票所-99 14 5 1 0 * 0.70 投票所-100 7 6 5 2 * 0.35 最多得票の投票所数 66 29 2 3

この実験では100カ所中 66 の投票所でAがトップ得票であった(20票だけ調べる場合,A氏がトップである可能性は 66%)。10万票のうちの20票なので開票率は0.02%である。30, 50, 100票, それ以上の場合はどうか?

10万票中何票開票すれば「当確」が出せるか?

開票率1% (3):実験

16

20人開票でのA氏の得票率分布(100か所の投票所の集計)

真の得票率 39%

開票数 = 20

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

020

4060

80

開票率1% (4):実験

17

A B C D投票所-1 10 7 4 9 *投票所-2 9 7 9 5 *投票所-3 8 13 4 5投票所-4 10 14 4 2投票所-5 12 8 6 4 *・・・

投票所-99 11 10 5 4 *投票所-100 14 10 3 3 *最多得票の投票所数 77 22 1 0

30人分だけ開票する場合,30人の中でA氏がトップになる可能性はどの程度か?100カ所の投票所で調べることができるものとしよう。

10万票の中から「無作為」に 30 票だけ抜き出す作業を100回繰り返す。

開票数 = 30

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

010

2030

4050

真の得票率 39%100カ所中 77 の投票所でAがトップ得票30 人分調べる場合,A氏がトップである可能性は 77%(開票率は10万分の30票 = 0.03%)* 印は A がトップの投票所を示す。

開票率1% (5):実験

A B C D投票所-1 20 17 5 8 *投票所-2 14 13 12 13 *投票所-3 29 7 7 7 *投票所-4 17 14 6 13 *投票所-5 13 20 12 5・・・

・・・

・・・

・・・

・・・

投票所-99 20 14 7 9 *投票所-100 18 15 7 10 *最多得票の投票所数 83 17 0 0

18

50人分だけ開票する場合,50人の中でA氏がトップになる可能性はどの程度か?100カ所の投票所で調べることができるものとしよう。

10万票の中から「無作為」に 50 票だけ抜き出す作業を100回繰り返す。

100カ所中 83 の投票所でAがトップ得票50 人分調べる場合,A氏がトップである可能性は 83%(開票率は10万分の50票 = 0.05%)* 印は A がトップの投票所を示す。

開票数 = 50

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

010

2030

4050

開票率1% (6):実験結果の集計

開票数(10万票中) 開票率

A氏がトップの投票所数(100箇所中)

当選確実の可能性

20 0.02% 66 0.6630 0.03% 77 0.7750 0.05% 83 0.83

100 0.1% 81 0.81150 0.15% 89 0.89200 0.2% 93 0.93250 0.25% 96 0.96300 0.3% 99 0.99500 0.5% 100 1

1000 1% 100 1

19

開票数を増やしていけば(当然ながら)当確予想の精度は上昇するが,10万票すべてを開票しなくても,誰がトップになるかどうかはたかだか 0.5%の開票で答えは明らかになる。

開票率1% (7)

20

開票数 = 20

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

開票数 = 50

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

開票数 = 100

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

開票数 = 150

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

開票数 = 250

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

開票数 = 500

氏の得票率A

Freq

uenc

y

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

開票数を増やしていくと,A氏の得票率の分布の中心は「真の得票率」0.39に近づいていく。この性質を利用すると,開票率がわずかでも十分な予測になる。

開票率0.5%

統計学の目的データを整理・要約して,データが示す傾向や性質を明らかにする(記述統計)。

関心のある対象(母集団)の中から一部分(標本)を抽出して対象の傾向や性質を確率的・統計的に推測する(推測統計)。

統計学で理解すべき内容

データの傾向や性質を示す指標の計算方法や意味

データの傾向や性質を示す図表の作成方法や見方

確率変数とその分布

標本を利用して母集団の性質を推定または検定する方法

二つ以上の事柄の関係性を明らかにする方法

21

統計学の目的一部の情報だけを利用して全体の構造を予測

すべての情報を観測・利用することができないケースがある。

調査・実験・観察における時間的,金銭的制約がある。

統計学ではデータがどのような仕組みで生じたのか,その背後にあるものに思いをめぐらす。

22

観察対象の全体構造

一部の情報

全体構造の予測「推定・検定」

一部分を利用「標本抽出」

(標本)

母集団

23

統計学はどこで使われているか実験・調査・観察によって得られた「データ」の分析に利用

データ・サイエンス

各学問分野における理論(仮説)の検証

医学,疫学,経済学,経営学,心理学,生物学,教育学,社会学,工学など

• 文学 計量文献学 Bibliometrics• 経済学 計量経済学 Econometrics• 法学 計量法学 Jurimetrics• 生物学 生物統計学 Biometrics文系・理系の区別なく必須。あらゆる学問の基礎になっている。

社会,企業経営,スポーツなどにおける意思決定(新聞記事[1]-[9]を参照)。

[1] すかいらーく、「ガスト」アプリ分析――仮説と検証作業1週間で。2015/03/23 日経産業新聞

同じ店舗でも時間帯ごとに、同じ時間帯でも店の立地ごとに、それぞれ客層は異なる。モーニングメニューのクーポンでも、高齢者層の多い店か女性層が中心かによってクーポンを出し分ける。さらに高齢者だからあっさりの和食、と単純に考えず、「たまの外食だから洋食に関心があるのでは」と仮説を立てて検証する。

中略

神谷ディレクターは「クラウドやスマホの普及で、データを集めて分析するハードルは下がった。重要になるのはデータを解釈する能力だ」と話す。仮説を立てるには事業の課題を理解する能力、結果を読み解くには統計学の知識など、IT(情報技術)にとどまらない多様なスキルが必要になる。こうした多様な能力が、これからのマーケティング担当者には求められると強調する。

24

[2] 「データサイエンティスト」起業続々、日経NETWORK編集長山田剛良、ビッグデータ、現場に生かす(先読みウェブワールド)2015/03/23 日経MJ(流通新聞)

いわゆる「ビッグデータ分析」ブームをけん引した著名なデータサイエンティスト(分析専門技術者)が次々と独立起業している。企業のマーケティングや経営判断に統計分析を活用する機運の高まりに呼応し、使いやすい分析サービスの提供を目指している。

中略

「統計分析で成果が出るのは明らかなのに手を付けていない企業が実に多い」と酒巻氏は起業の理由を話す。同社は顧客企業へのコンサルティングと受託分析が当面は業務の中心。特に分析基盤の構築支援を重視する。「やる気はあるのに分析対象のデータを適切に集められていない企業を助けたい」(酒巻氏)。

以下略

25

[3] ソフトバンク・テクノロジー――広告の最適配分提案、統計モデルから効果測定(テクノフォーカス)2015/05/13 日経産業新聞

テレビCMやインターネット、雑誌向けなどの広告出稿は、消費者向け製品・サービスを手がける企業にとって顧客に特徴やブランドイメージを直接アピールできる重要な接点だ。ただ広告出稿が売り上げにどう貢献し、媒体別にどう配分することが最も効果的なのかを知るのは難しい。ソフトバンク・テクノロジーは実績豊富な分析官が統計学を活用し、科学的に割り出すサービスを始めた。

中略

まず顧客企業から対象製品の売り上げと、媒体別の広告出稿額などのデータを提示してもらう。その上で売り上げをベースとなる額と、例えば「夏になるとビールが売れる」といった季節要因、広告による要因などに大別。専門の分析官が貢献度を割り出すための複雑な数式から成る統計モデルを考える。

以下略

26

[4] 日産初の女性専務執行役員、星野朝子氏――国内市場、データ分析で新風(フォーカス)2015/05/15 日本経済新聞 夕刊

日産自動車で初となる女性の専務執行役員だ。市場調査を担当する常務執行役員から昇格し、4月から国内営業とマーケティングの両本部を指揮する。男性中心といわれがちな自動車販売の業界だが、データ分析の知見を織り交ぜ、国内市場に新たな風を起こそうと奔走している。

日本債券信用銀行(現あおぞら銀行)を経て、米ノースウエスタン大学ケロッグ経営大学院に自費留学した。マーケティングを学んだ後、日本の調査会社に入った。統計学を取り入れた客観性の高い市場分析は食品や金融など各業界で評判を呼び、2001年に役員へ抜てきされた。

以下略

27

[5] 地震どう予測するの?――活断層や古文書から周期つかむ(ニッキィの大疑問)2015/06/08 日本経済新聞 夕刊

最近、地震や火山活動が活発になっている気がするわ。大地震の前触れだったら心配だわ。地震予測の精度って高まっているのかしら。地震予測をテーマに、飯塚三枝子さん(46)と広瀬真理名さん(26)が久保田啓介編集委員に話を聞いた。

中略地震予測はどのようにしているのですか。「阪神大震災後、政府は一部地域を除いて予知を諦め、長期的な予測に切り替えました。政府の地震調査委員会が活断層やプレート境界ごとに『今後10~50年間に地震が起きる確率は○%』などと公表しています。地震には周期性があり、発生間隔と直近の地震の年代がわかれば、統計学の手法で確率を計算できます。地震が起きた直後の確率はゼロに近く、周期上の“満期”になれば約50%、それを超えると100%に近づくという考え方です」

以下略

28

[6] 「コーヒーに健康効果」の裏側は――疫学、病気予防に生かす、信頼度は手法ごとに差。2015/06/28 日本経済新聞 朝刊

コーヒーを1日にたくさん飲む人は、飲まない人に比べて心臓病や脳卒中などで死亡するリスクが大きく下がることがわかった。研究をしたのは日本を代表する国立がん研究センターや東京大学などだ。コーヒーの愛飲者にとっては朗報だが、実はこの結果は疫学研究という手法で出てきた。コーヒーは本当に体にいいのか。疫学研究のカラクリを探ってみた。

中略コレラもかっけも原因菌や物質が突き止められたのは疫学研究よりも後になる。原因は分からないものの予防法を見いだすというのは疫学の強みともいえそうだ。ただ、日本の疫学研究の体制は欧米に比べると脆弱であると専門家は指摘する。予算の規模も小さいほか、医師以外にも統計学などの専門知識を持った人が必要だが不足している。20~30年も追跡調査をして初めて結果が出てくるものも多いため、5年程度で結果を求められる現状の日本の研究支援の枠組みにそぐわず、研究者が育ちにくいという指摘もある。

29

[7] デロイトトーマツ系、統計学に基づき、企業の訴訟支援。2015/12/21 日本経済新聞 朝刊

デロイトトーマツファイナンシャルアドバイザリー合同会社(東京・千代田)は、日本企業の訴訟などを支援するコンサルティングを強化する。このほど米国公認会計士や統計学の専門家で構成するチームを結成。訴訟で経済学や統計学に基づいた損害賠償額の算定や意見書の作成をする。

特許侵害などの知的財産訴訟では、本来得られたはずの利益に基づく損害額の算定や、専門家の証言をする。企業再編関連では、合併が市場価格に与える影響などを分析して意見書を作成。公正取引委員会の審査が円滑に進むように支援する。

30

[8] 米NFL低迷のブラウンズ、統計学で最下位脱却へ、「マネーボール」の手法導入。2016/01/09 日本経済新聞 夕刊

米プロフットボール、NFLで低迷が続くブラウンズに、米大リーグで旋風を巻き起こした「マネーボール」の手法が導入される。戦略責任者に大リーグのメッツで育成部門の幹部だったポール・デポデスタ氏(43)の就任が決まった。名門ハーバード大卒で、野球に統計学を持ち込んだことで有名になったデポデスタ氏は「私の経験と考えを注ぎたい」と語り、3勝13敗で5季連続の地区最下位に沈んだチームの再建に意欲を示した。

2000年代前半に、詳細なデータを用いて選手の能力や成績を分析する「セイバーメトリクス」で好成績を残したアスレチックスで、ビリー・ビーン・ゼネラルマネジャー(GM)の右腕として働いた。その躍進ぶりを描いたベストセラー書籍「マネーボール」は、ブラッド・ピット主演で映画化もされた。

以下略

31

[9] 関西経済特集――健康・医療産業、止まらぬ革新、データ活用一丸で。2016/03/07 日本経済新聞 朝刊

関西経済の成長のけん引役として期待が高まっているのが「健康・医療」産業だ。産官学の連携が進み、iPS細胞など画期的な研究開発が進む。ロボット技術などのイノベーションも相次ぎ生まれており、高齢化に向かう中でも経済に新たな活力を与えようとしている。

中略

人材育成について、産官学それぞれの役割を果たすことも確認した。三菱総合研究所の稲垣公雄関西センター長は「人材不足も問題だ」と指摘。医学知識に加えてデータ分析に必要な統計学に精通した人材の育成を産官学でやるべきだとした。医療用ロボットを開発する川崎重工業の河野行伸執行役員は「工学的知識も必要」と述べ、大阪大学の澤芳樹教授は「人材育成は大学の使命。企業などと協力体制をつくり貢献したい」と話した。

以下略

32

データの種類と整理1

33

34

データの収集(例)既婚女性の就業状況に関するアンケート調査:調査時点 ○○年○月

a. 年齢b. 現在仕事をしているか?(1.はい,2.いいえ)c. 現在の仕事に満足しているか?(1. 満足,2. どちらともいえない,3. 不満足)d. 現在の職種(1.事務 2.経理 3.営業 4.販売・・・)e. 18歳未満の子供の数f. 夫の年収[万円]g. 婚姻した時期(西暦年)・・・・・・

ワークシートの作成(データの整理)a b c d e f g

個体番号 年齢 就業

状況仕事の満足度 職業 18歳未満

の子供の数夫の年収[万円]

婚姻時期[年]

1 39 1 2 1 0 530 20042 30 1 3 5 2 460 20073 52 2 . . 0 880 19874 36 1 2 5 2 750 20025 44 1 3 2 1 480 19976 66 2 . . 0 230 19717 27 1 2 3 0 390 20088 29 2 . . 3 540 19999 54 1 1 4 0 650 1986

10 25 1 1 5 1 340 2009

35

データの種類 (1)データは質的なものと量的なものに大別できる。データを数値として扱うときの目盛りを「尺度 scale」とよぶ

質的データ (Qualitative data / Categorical data)

名義尺度 Nominal scale数値が分類番号としての意味しか持たないデータ[例] b. 就業状況(2個のカテゴリー), d. 職種(5個のカテゴリー)

順序尺度 Ordinal Scale数値が大小関係や強弱関係を示すデータ[例] c. 仕事の満足度(3個のカテゴリー)

36

データの種類 (2)量的データ (Quantitative data / Numerical data)

間隔尺度データ Interval Scale数値の比に意味はないが,差に意味があるデータ(ゼロや原点に意味がない)[例] g. 婚姻時期

比尺度データ Ratio Scale数値の比と差に意味があるデータ(ゼロや原点に意味がある)[例] a. 年齢, e. 18歳未満の子供の数,f. 夫の年収

37

離散と連続離散データ Discrete data区切りのあるデータ(計数データ,count data)例. e. 18歳未満の子供の数 0,1,2,⋯連続データ Continuous data区切りのないデータ

例. g. 婚姻時期 時間の区切り方は無限にある

38

39

クロスセクション・データと時系列データクロスセクション・データ Cross-section data同じ期間・時期に発生した情報を個体ごと(個人,世帯,企業,地域など)に並べたもの。並べ方(個体番号)に意味はない。横断面データともいう。

時系列データ Time series data時間の順序にしたがって並べられた情報時間の単位:年,四半期(3ヶ月),月,週,日,時間,分,秒,ミリ秒・・・

パネル・データ Panel dataクロスセクション・データと時系列データを合わせたデータ。

時系列データの例年次 名目GDP 政府債務

残高消費者物価指数

単位 1兆円 10億円 2015年 = 1002008 509 955,074.5 98.6 2009 492 984,109.0 97.2 2010 499 1,039,993.4 96.5 2011 494 1,091,354.4 96.3 2012 494 1,133,490.4 96.2 2013 507 1,169,727.8 96.6 2014 518 1,213,100.8 99.2 2015 533 1,230,274.8 100.0 2016 537 1,268,721.4 99.9 2017 547 1,298,998.7 100.4

40

• フローデータ(GDP)一定期間を単位として,当該時点または期間中に発生した値。

• ストックデータ(債務残高)過去から蓄積された値。

• 指数データ(物価指数)基準時点の値に対する比較時点の値。(例)各年の物価を2015年の価格に対する比で示す 2015年の価格指数はちょうど100になる。

桁区切りと小数点(米英式)【例】政府債務残高(単位:10億円)

1,298,998.7 1298兆9987億円桁数が大きい場合,3桁ごとの区切りにカンマ Comma [,] を使うことが多い。

小数点の区切りにはドット [dot, point, period] を使うことが多い。国によってカンマとドットが逆のケースもある(イタリア,ドイツ,EUの統計など)

この授業での使い方

i. 正 0.65%誤 0、65% 0,65%

ii. 正 425,689円誤 425.689円

41

質的データの加工と集計 (1)

42

b個体番号

就業状況 (仕事を?) 2値変数

データ1 1 している 12 1 している 13 2 していない 04 1 している 15 1 している 16 2 していない 07 1 している 18 2 していない 09 1 している 1

10 1 している 1合計 - - 7平均 - - 0.7

←就業している人の数←就業している人の割合

【2値変数】(2項変数)ある特定のカテゴリー(番号)のときに 1,そうでない場合に 0 となるデータのこと。仕事をしている → 1仕事をしていない→ 0

計算処理が可能となるような「符号化」を行うことをコーディングとよぶ。

2値変数の合計はカテゴリーに該当する数を示し,平均は該当する割合(比率)を示す。

注. 割合とパーセンテージ 0.7 ≠ 0.7% ×0.7 = 70% ○

質的データの加工と集計 (2)2値変数を集計することで「度数分布」,「相対度数分布」を作る。

集計された値を図で表示する(棒グラフ,円グラフ,帯グラフ)。

43

就業状況 度数 相対度数

仕事をしている 7 710 = 0.7 (= 70%)仕事をしていない 3 310 = 0.3 (= 30%)合計 10 1

0

1

2

3

4

5

6

7

8

仕事をしている 仕事をしていない

度数

70%

30%

仕事をしている仕事をしていない

仕事をしている, 7

仕事をしていない,

3

0 2 4 6 8 10度数

44

質的データの加工と集計 (2)5個のカテゴリーに対応した2値変数データ

職種1. 事務2. 経理3. 営業4. 販売5. 開発

個体 職種 職種1 職種2 職種3 職種4 職種5番号 事務 経理 営業 販売 開発

1 1 1 0 0 0 02 5 0 0 0 0 14 5 0 0 0 0 15 2 0 1 0 0 07 3 0 0 1 0 09 4 0 0 0 1 0

10 5 0 0 0 0 1合計 1 1 1 1 3平均 1/7 1/7 1/7 1/7 3/7

45

練習問題 (1): 2値変数のコーディング個体番号 血液型 A型 B型 O型 AB型

1 B 02 A 13 A 14 O 05 A 16 O 07 A 18 B 09 AB 0

10 O 0合計 - 4平均 - 4/10

量的データのカテゴリー化a

個体番号 年齢

(40歳以上か否か) 2値変数

1 39 未満 02 30 未満 03 52 以上 14 36 未満 05 44 以上 16 66 以上 17 27 未満 08 29 未満 09 54 以上 1

10 25 未満 0合計 4平均 0.4

46

←40歳以上の人の数←40歳以上の人の割合

20 30 40 50 60 70年齢

02468

40歳未満 40歳以上

度数

年齢

クロス集計表 (1)二つのデータのカテゴリーを交差させた集計表

47

個体番号

X就業状況

Y年齢

1 1 02 1 03 0 14 1 05 1 16 0 17 1 08 0 09 1 1

10 1 0合計 7 4平均 0.7 0.4

クロス集計表年齢

40歳以上

40歳未満 合計

就業状況(仕事を?)

している 2 5 7していない 2 1 3合計 4 6 10

クロス集計表年齢

40歳以上

40歳未満 合計

就業状況(仕事を?)

している 2 7していない合計 4 10

仕事をしている場合1,それ以外は 0

年齢が40歳以上の場合1,それ以外は 0

2行2列 (2 × 2) のクロス集計表クロス項目(4マス)において必要な情報は 1 マス

クロス集計表 (2)就業状況(2カテゴリー)と年齢(3カテゴリー)のクロス集計表年齢のカテゴリーを以下のように定義する:

40歳未満40歳以上60歳未満60歳以上

2行3列 (2 × 3) のクロス集計表クロス項目(6マス)において必要な情報は 2 マス

48

年齢

40歳未満 40歳以上60歳未満 60歳以上 合計

就業状況(仕事を?)

している 5 2 7していない合計 6 3 10

K行L列 × のクロス集計表において必要な情報は − 1 × − 1 マス

クロス集計表 (3)

49

a b a1 a2 b1 a1 = 1 & b1 =1 a2 = 1 & b1 =1個体番号 年齢 就業

状況 40歳未満 40歳以上60歳未満

仕事をしている

40歳未満で仕事をしている

40-60歳で仕事をしている

1 39 1 1 0 1 1 02 30 1 1 0 1 1 03 52 2 0 1 0 0 04 36 1 1 0 1 1 05 44 1 0 1 1 0 16 66 2 0 0 0 0 07 27 1 1 0 1 1 08 29 2 1 0 0 0 09 54 1 0 1 1 0 1

10 25 1 1 0 1 1 0合計 6 3 7 5 2

項目 a1 :項目 a(年齢)が40歳未満のとき 1, それ以外は 0項目 a2 :項目 a(年齢)が40歳以上60歳未満のとき 1, それ以外は 0

練習問題 (2) 通学手段と性別のクロス集計

50

id 通学手段 性別1 徒歩 男性2 鉄道 男性3 鉄道 女性4 徒歩 男性5 鉄道 男性6 徒歩 女性7 自転車 男性8 徒歩 女性9 自転車 男性

10 徒歩 女性11 自転車 女性12 鉄道 男性

鉄道 自転車 徒歩 合計男性女性合計 12

度数分布表 (1)境界値を設定して階級(***以上***未満)を作成する。各階級に入るデータの数(度数)を数える。

51

f 2値変数個体番号

夫の年収[万円] 300万円未満 300万円以上

500万円未満500万円以上700万円未満

700万円以上900万円未満

1 530 0 0 1 02 460 0 1 0 03 880 0 0 0 14 750 0 0 0 15 480 0 1 0 06 230 1 0 0 07 390 0 1 0 08 540 0 0 1 09 650 0 0 1 0

10 340 0 1 0 0合計 5250 1 4 3 2平均 525 0.1 0.4 0.3 0.2

度数分布表 (2)「階級」class と「度数」 frequency からなるデータのことを階級別データとよび,これを表形式で示したものを「度数分布表」,(長方形で敷き詰めた)棒グラフをヒストグラムとよぶ。

もともとの「夫の年収[万円]」を生データとよぶ。

52

「夫の年収」の度数分布表

階級 度数

階級1 300万円未満 230 1

階級2 300万円以上500万円未満 340, 390, 460, 480 4

階級3 500万円以上700万円未満 530, 540, 650 3

階級4 700万円以上900万円未満 750, 880 2

全度数(合計) 10夫の年収[万円]

度数

01

23

40 300 500 700 900

ヒストグラム

53

練習問題 (3)

階級 度数

0点以上 20点未満20 − 4040 − 6060 − 80

80 − 100100点全度数

統計学期末試験の得点結果(20人)54 65 60 65 8544 53 35 40 3075 15 32 52 7640 60 95 57 57

54

練習問題 (3): ヒストグラムの作成

0 20 40 60 80 100

02

46

8

得点

度数

階級の数の目安(境界値の決め方)ヒストグラムの「棒」は何本ぐらいが適切か?わかりやすさを重視する:区切りの良い値を境界値とする。

手順

1. 全度数 を求める

2. 階級の数 の目安を求める

(スタージェス Sturges, H. A. の公式)= 1 + log ( は全度数)

3. 最小値と最大値を求める4. 観測値の範囲 [= 最大値 − 最小値]を求める

5. 階級の幅 = [範囲/階級の数]を計算する

55

N 1 + log20 5.3230 5.9150 6.64

100 7.64250 8.97

1,000 10.972,000 11.974,000 12.97

10,000 14.29

log 32 = 5log 64 = 6log 128 = 7log 256 = 8

*対数= 2 は,底を 2 とする の指数関数とよばれている。

指数関数を について解いたものを の 2 を底とする対数 [log] と定義する: log =

56

-1 0.5-0.5 0.707

0 10.5 1.414

1 22 43 84 16

0.5 -11 02 13 1.5844 25 2.3226 2.5857 2.8078 3⋮ ⋮

16 4

-1 0 1 2 3 4

26

1014

x

y

0 5 10 15

-20

24

y

log2

y

例. 2 = 8なので,log 8 = 3

= 2 = log

相対度数度数を全度数で割った値を「相対度数」とよぶ(全度数に対する割合)。つまり,その階級にあてはまるデータの割合を示す。

相対度数の合計は必ず1になる。相対度数を [%] (百分率,パーセント)で表現してもよい。

57

階級 度数 相対度数 相対度数 (%)0点以上 20点未満 1 0.05 5

20 − 40 3 0.15 1540 − 60 8 0.4 4060 − 80 6 0.3 30

80 − 100 2 0.1 10合計 20 1 100

累積度数,累積相対度数度数の累積値を累積度数,相対度数の累積値を累積相対度数とよぶ。

【例】

• 階級2の累積度数は,階級1の度数 + 階級2の度数• 階級3の累積度数は,階級1の度数 + 階級2の度数 + 階級3の度数• 階級4の累積相対度数 0.9 = 0.05 + 0.15 + 0.4 + 0.3

58

度数 累積度数 相対度数 累積相対度数階級1 0点以上 20点未満 1 1 0.05 0.05階級2 20 − 40 3 4 0.15 0.2階級3 40 − 60 8 12 0.4 0.6階級4 60 − 80 6 18 0.3 0.9階級5 80 − 100 2 20 0.1 1

合計 20 1

累積度数,累積相対度数ヒストグラム

得点

Freq

uenc

y

02

46

8

0 20 40 60 80 100

累積度数グラフ

得点

Freq

uenc

y

0 20 40 60 80 100

05

1015

20

59

0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

累積相対度数

得点

累積相対度数

5%20%

60%90%

練習問題 (4)男性就業者の年間給与所得の分布について問いに答えなさい(出所:国税庁「平成29年民間給与実態統計調査」)

【問】

[1] 年間給与所得が300万円未満の就業者の割合を求めなさい。

[2] 年間給与所得が1000万円以上の就業者の割合を求めなさい。

60

給与所得 相対度数 (%)0~100万円 3.2 100~200 6.7 200~300 11.8 300~400 17.8 400~500 17.7 500~600 13.3 600~700 8.9 700~800 6.3 800~900 4.4 900~1000 2.9 1000~1500 5.1 1500~2000 1.0 2000~2500 0.5 2500万円~ 0.4 合計 100

61

まとめデータは量的データと質的データに分けられる。また,4つの尺度に分類できる。

一時点における複数の個体の集まりのデータ(クロスセクション・データ)と時間の順序に従って並べられるデータ(時系列データ)がある。

経済データにはフローデータ,ストックデータ,指数データなどがある。

データの種類に応じた加工方法がある。

二つの質的データのカテゴリーを交差させた表をクロス集計表とよぶ。

データの特徴を把握するために,度数分布表とヒストグラムを利用する。

度数を全度数で割った値を「相対度数」とよぶ。

度数の累積値を累積度数,相対度数の累積値を累積相対度数とよぶ。

Excel自習 (1)練習問題 (1) IF関数• IF 関数の利用(質的情報を2値変数に変換)• sheet (1) D3番地に次を入力:

=if(C3="A",1,0)

意味:「C3番地のセルの内容が A である」という論理式が真の場合 1 ,そうでなければ 0 とする。• D3番地のセル右下の■(フィルハンドル)をクリックしたままドラッグすると,D3番地以下のセルでも同様の計算を実行する。

62

フィルハンドル

Excel自習 (2)練習問題 (2)ピボットテーブル• ピボットテーブルを利用してクロス集計表が作成できる。

• sheet (2) B2からD14番地まで選択状態にする。

• 挿入タブのピボットテーブルをクリック

• 「ピボットテーブルのフィールド」の行に「性別」フィールドを,「列」に「通学手段」フィールドを,「Σ値」に「性別」フィールド(他のものでもよい)をドラッグ。

• クロス集計を行うには,「Σ値」の値フィールドが「個数」(度数の計算)になっていればよい。

63

Excel自習 (3)練習問題 (3) FREQUNCY関数

• FREQUNCY関数を利用して,設定した階級上限値に対応する度数を計算できる。

• sheet (3) F3番地に次を入力:=frequency(B3:B22,E3:E8)

• 0点以上20点未満の度数が確定する。

64

Excel自習 (4)練習問題 (3) FREQUNCY関数

• いま計算したF3番地も含めてこれから計算する予定のF8番地まで選択状態にする。

• 配列コピーを行う。つまり,数式バーの左端をクリックして ctrl + shift を押したまま Enter

• それぞれの階級の度数が計算される

65

数式バークリック ctrl + shift + Enter

Excel自習 (5)

66

練習問題 (4)• 累積相対度数を計算する。

• D3番地において左隣のC3番地の値 (3.2%)を参照する。

• D4番地において =D3+C4を計算する。

• D4番地のフィルハンドルを「2500万円~」の階級までドラッグする。

• 問[1]の答えはD5番地で計算されている。• 問[2]の答えは =100-D13で求められる。