中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ –...

45
学3 ×大学ゼミ 大学 大学 2018 11 2 ( ) 小森 (成蹊大学) 中学3年生×大学ゼミ 2018 11 2 () 1 / 41

Transcript of 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ –...

Page 1: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

中学3年生×大学ゼミ–大学での統計科学–

小森 理情報科学科

場所:成蹊大学日時:2018年 11月 2日 (金)

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 1 / 41

Page 2: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

本日の内容

.

. .1 データサイエンス

.

. .

2 高校での統計科学

.

. .

3 大学での統計科学

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 2 / 41

Page 3: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

データサイエンス

データサイエンスとは?

データを科学 (サイエンス) する,または調理する学問.

見えなかった (気づかなかった) ものを見えるようにする学問.新たな価値の創生.

ビックデータ時代に急速に必要性が認識されてきた.膨大なデータの中から価値のある情報を取り出すことが主な目的.

データマイニング (data mining) もその1つ.

データの不確実性 (ランダム性) を扱う統計学と確率論と密接な関係がある.

.

データ分析とデータサイエンス,柴田里程著

.

.

.

. ..

.

.

データは現象の放つ光である

この光を適切に捉え,背後にあるメカニズムを明らかにする.そのためには数学,統計科学,コン

ピュータ科学を駆使する必要がある.もともとは 1997年の C. F. Jeff Wu教授がミシガン大学での

就任演説 (Statistics=Data Science?) が始まりだとされている.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 3 / 41

Page 4: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

データサイエンス

データサイエンスとは?

データを科学 (サイエンス) する,または調理する学問.

見えなかった (気づかなかった) ものを見えるようにする学問.新たな価値の創生.

ビックデータ時代に急速に必要性が認識されてきた.膨大なデータの中から価値のある情報を取り出すことが主な目的.

データマイニング (data mining) もその1つ.

データの不確実性 (ランダム性) を扱う統計学と確率論と密接な関係がある.

.

データ分析とデータサイエンス,柴田里程著

.

.

.

. ..

.

.

データは現象の放つ光である

この光を適切に捉え,背後にあるメカニズムを明らかにする.そのためには数学,統計科学,コン

ピュータ科学を駆使する必要がある.もともとは 1997年の C. F. Jeff Wu教授がミシガン大学での

就任演説 (Statistics=Data Science?) が始まりだとされている.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 3 / 41

Page 5: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

データサイエンス

データサイエンスとは?

データを科学 (サイエンス) する,または調理する学問.

見えなかった (気づかなかった) ものを見えるようにする学問.新たな価値の創生.

ビックデータ時代に急速に必要性が認識されてきた.膨大なデータの中から価値のある情報を取り出すことが主な目的.

データマイニング (data mining) もその1つ.

データの不確実性 (ランダム性) を扱う統計学と確率論と密接な関係がある.

.

データ分析とデータサイエンス,柴田里程著

.

.

.

. ..

.

.

データは現象の放つ光である

この光を適切に捉え,背後にあるメカニズムを明らかにする.そのためには数学,統計科学,コン

ピュータ科学を駆使する必要がある.もともとは 1997年の C. F. Jeff Wu教授がミシガン大学での

就任演説 (Statistics=Data Science?) が始まりだとされている.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 3 / 41

Page 6: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

近世実証科学「自然という書物は我々の前に開かれている.それは我々のアルファベットとは違った文字で書かれている.その文字は三角形や角や円や球である.」(Galileo Galilei, 1564-1642)

Galileo Galilei: 質量によって落下速度は変わらないことを実証「落下の法則」.緻密な観測によりアリストテレスの自然哲学体系を覆す.

Johannes Kepler: Tycho Braheが残した膨大で精密な天体観測データをもとに,惑星の運動は楕円運動であることを発見「Keplerの惑星運動法則」.地動説を確立.天動説を覆す.

Isaac Newton: Keplerの惑星運動法則を力学的に解明「万有引力の法則」.Newton力学,微積分法を創始.

「現代の自然科学は自然(データ)を緻密に観察し,規則性を発見することから始まった」

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 4 / 41

Page 7: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

機械学習(パターン認識)

パターン認識とは「計算機アルゴリズムを使い,膨大なデータに潜在する規則性(モデル)をうまく学習すること」.機械学習の枠組みに含まれ,統計科学の新しい一分野として位置づけられている.

人間が五感(視覚,聴覚,触覚,嗅覚,味覚)を使い行っている複雑な情報処理をコンピュータを使い工学的に実現することを目指す.文字認識、音声認識、顔認識など.

現在では医療,心理,自然言語処理など幅広い応用範囲を持つ.

判別に重要な情報抽出(特徴抽出)と判別の2段階からなる学習方法.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 5 / 41

Page 8: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

病院の腫瘍のデータ(実例)

• 灰色: 良性の腺腫瘍

• 黒色: 悪性の腺腫瘍

「機械学習の手法であるブースティングを用い,良性と悪性の腫瘍を特徴づける規則性を抽出したい」

「ROCの下側面積 (AUC)注目し,それを最大化するブースティングの手法を提案 (Komori, 2011)」

PSA

0.1 0.3 0.5 0.7 1.0 1.5 2.0 2.5 3.0

510

1520

0.1

0.3

0.5

0.7

F/T ratio

TZ vol.

020

4060

80

5 10 15 20

1.0

1.5

2.0

2.5

3.0

0 20 40 60 80

NBx

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 6 / 41

Page 9: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

AUCBoost

4つの弱判別機の集合

診断

悪性腫瘍

良性腫瘍

重み

PSA, F/T ratio, TZ vol と NBx を使った AUCBoost.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 7 / 41

Page 10: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

4つのマーカーのスコアプロット

5 10 15 20

PSA

02

46

8

F(PS

A)

0.2 0.4 0.6

F/T ratio

02

46

8

F(F/

T ra

tio)

0 20 40 60 80 100

TZ vol

02

46

8

F(TZ

vol

)

1 2 3

NBx

02

46

8

F(N

Bx)

4つのマーカーがどのように判別に効いているかを読み取ることができる.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 8 / 41

Page 11: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

PSAのノモグラム (Kanao et al. 2014)

患者ごとに最適な PSA の閾値を導出. 括弧内は95%信頼区間

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 9 / 41

Page 12: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

世界の水産資源の予測

海の生態系の健全性を漁獲量,魚の基本情報から適切に予測する.

枯渇に瀕するごく少数の魚種の同定 (分布の非対称性)

クラスラベル有りのデータと無しのデータの活用 (半教師データ解析)

漁獲量のトレンドを考慮したブースティングの適用.非対称性を考慮したブースティング,MCMCによる混合効果モデル,非対称ロジスティック回帰モデルの提案 (Komori et al., in

revision). R package “marine”で全てのプログラムを公開予定

(Worm et al. (2006), Science)

year

aver

age

of co

llaps

e pr

obab

ility

0.05

0.10

0.15

1980 1990 2000 2010

logistic asymmetric

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 10 / 41

Page 13: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

生物多様性パターン予測

β-Maxentによる珊瑚の生息分布予測

πβ(x, λ) ={1+ βλ⊤ f (x)

} 1β

Zβ(λ),

where Zβ(λ) =∑

x∈X{1+ βλ⊤ f (x)}1/β.

βエントロピー最大化分布による Maxentの拡張

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 11 / 41

Page 14: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

日本でのデータサイエンス Iデータサイエンスはこれからますます重要になってくる.データサイエンスとは?https://www.youtube.com/watch?v=J60nT185sioキーワード

ビックデータ

分析,モデリング,予測

料理 (素材,いろんなレシピ,一工夫)

データから価値を創り出す

データを学習する.

さまざまな分野に活用されている.ビジネス,マーケティング,天文学,医療,生物学,ロボット,自動車産業,...データサイエンスで必要なこと

理論的な思考力 ⇒数学

データを扱える能力,情報処理⇒ コンピュータサイエンス,計算機科学

探究心,データと対話する力⇒真摯な研究姿勢

データに内在する不確実性を捕らえる ⇒ 統計学,確率論

いろいろな解析手法 ⇒ 統計学

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 12 / 41

Page 15: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

日本でのデータサイエンス II

どこで学べるの?

統計数理研究所:統計数理の日本の拠点(立川市),大学院教育もしている.http://www.ism.ac.jp/

滋賀大学:日本で最初のデータサイエンス学部https://www.ds.shiga-u.ac.jp/

横浜市立大学:岩崎学先生 (去年まで成蹊大学の先生)https://www.yokohama-cu.ac.jp/academics/ds/index.html

成蹊大学:2020 年にデータサイエンスコース誕生?.文系理系だれでも受講可能.https://tinyurl.com/ycvtsg52

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 13 / 41

Page 16: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

武蔵野市人口データ I

武蔵野市の人口データを使う.https://tinyurl.com/ycwqr4mw武蔵野市の 51 の地域の世帯数と,男女それぞれの年齢ごとの人口のデータである (平成 29 年 10月 1 日現在).

データにはどのような特徴があるか?

世帯数が一番多い地域は?

特徴的な地域はどこ?

統計解析ソフトが有用.データサイエンティストの大工道具.シェフの調理器具.

.

統計ソフト R

.

.

.

. ..

.

.

>source("jinkou_plot.R")

>ls()

[1] "jinkou_plot"

>jinkou_plot()  

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 14 / 41

Page 17: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

武蔵野市人口データ II

0 20 40 60 80 100

020

40

60

年齢

人口

中中町町33丁丁目目 ::世世帯帯数数== 22992266

0 20 40 60 80 100

020

40

60

年齢

人口

西西久久保保33丁丁目目 ::世世帯帯数数== 22775588

0 20 40 60 80 100

020

40

60

年齢

人口

西西久久保保22丁丁目目 ::世世帯帯数数== 22556600

0 20 40 60 80 100

020

40

60

年齢

人口

緑緑町町22丁丁目目 ::世世帯帯数数== 22554422

0 20 40 60 80 100

020

40

60

年齢

人口

吉吉祥祥寺寺東東町町22丁丁目目 ::世世帯帯数数== 22553322

0 20 40 60 80 100

020

40

60

年齢

人口

中中町町22丁丁目目 ::世世帯帯数数== 22449999

0 20 40 60 80 100

020

40

60

年齢

人口

境境南南町町22丁丁目目 ::世世帯帯数数== 22446611

0 20 40 60 80 100

020

40

60

年齢

人口

境境55丁丁目目 ::世世帯帯数数== 22225500

0 20 40 60 80 100

020

40

60

年齢

人口

吉吉祥祥寺寺本本町町44丁丁目目 ::世世帯帯数数== 22110000

0 20 40 60 80 100

020

40

60

年齢

人口

境境22丁丁目目 ::世世帯帯数数== 22006677

0 20 40 60 80 100

020

40

60

年齢

人口

境境11丁丁目目 ::世世帯帯数数== 22006633

0 20 40 60 80 100

020

40

60

年齢

人口

中中町町11丁丁目目 ::世世帯帯数数== 22005511

年齢と人口のグラフ

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 15 / 41

Page 18: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

東京都の地図の描画 I

日本の地図情報を使ってコロプレス図 (階級区分図) を描いてみる.コロプレス図とは人口などの統計データに合わせて地域を塗り分けた地図のこと

.

統計ソフト R

.

.

.

. ..

.

.

>source("choropleth.R")

>ls()

[1] "choropleth"

>choropleth()  

プログラムを少し修正すると,他の県の地図も描けるので試してください.

.

プログラムの修正

.

.

.

. ..

.

.

>fix(choropleth)  

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 16 / 41

Page 19: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

東京都の地図の描画 II

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 17 / 41

Page 20: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

赤池弘次先生からのメッセージ

知識・経験・常識(直感)を客観的に評価できる尺度を提案した(Akaike Information Criterion).

現実世界 (自然界,産業界,人間社会)と数理の世界 (モデル)の結びつきの重要性を説かれた.統計数理研究所の基本理念.

常に現場の方たちと関わり,実際の問題の解決に尽力された(船舶の制御,セメント工場の制御など).

「現場の人達が直面している問題,望んでいることを的確に把握し,実際に役に立つ仕事をしなさ

い.やっぱり統計に携わる者は実際の問題に触れなきゃいかん.」(赤池弘次,統計科学を語る)

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 18 / 41

Page 21: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

本日の内容

.

. .1 データサイエンス

.

. .

2 高校での統計科学

.

. .

3 大学での統計科学

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 19 / 41

Page 22: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

高等学校学習指導要領

数学 II データの整理と分析

⋆ 平均値,中央値,最頻値,分散,標準偏差について理解し,データの傾向を把握する.

I データの相関⋆ 散布図や相関係数の意味を理解し,2つのデータの相関を理解把握する.

数学BI 確率分布

⋆ 確率変数及び確率分布について理解し,確率変数の平均,分散及び標準偏差を用いて確率分布の特徴をとらえる.

I 正規分布⋆ 正規分布と二項分布の関係

I 統計的推測⋆ 母集団と標本

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 20 / 41

Page 23: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

データの分析の実例

.

ナイチンゲールの言葉

.

.

.

. ..

.

.

神の御心を知るには統計学を学ばなくてはならない.

イギリスの看護師,近代看護教育の生みの親.クリミア戦争に看護師として従軍し,兵士の死亡データを集計・分析した.その結果をもとにそれまで劣悪だった戦地の病院の環境を改善したところ,負傷した兵士の死亡率が大きく下がった.

フローレンス・ナイチンゲール(1820年~1910年)

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 21 / 41

Page 24: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

データのちらばり「データをじっくり観察し,概要を把握することが大事.」

.

例 1 (21名の読書時間のデータ (単位:時間))

.

.

.

. ..

.

.

x={3,10,7,14,5,9,15,0,13,18,0,8,11,10,15,19,6,23,9,7,8}

平均値は

x =121

(3+10+7+· · ·+7+8) =21021= 10.

データを小さい順に並び変えると{0,0,3, . . . , 8,8, 9,9,10,10,11, . . . , 18,19,23}.中央値は

x = 9

05

10

15

20

箱形図

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 22 / 41

Page 25: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

Galton(1822-1911)による相関のデータ

.

定義 1 (相関係数)

.

.

.

. ..

.

.

r =

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2√∑n

i=1(yi − y)2

はじめて「相関」という考え方が示された.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 23 / 41

Page 26: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

Karl Pearson(1851-1936)

Francis Galtonの弟子.イギリスの数理統計学者    

統計学は科学の文法「The grammer of science」

相関係数,カイ二乗適合度検定,ヒストグラム,標準偏差    

母集団という概念の提示

その後R. A. Fisherにより母集団に対する推定の理論と仮説検定の基礎が構築される.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 24 / 41

Page 27: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

R. A. Fisher(1890-1962)

近代統計学(統計的推測)の創設者,頻度論者,ベイズ流の恣意性(パラメータに対して確率構造を考える)を強く批判.

「仮説的無限母集団」を想定し,母集団と標本の違いを明確化.

推定方式の良さの基準として一致性,有効性,十分性の概念を考案し,それらをすべて満たす最尤法を確立した(ただし不偏性は保証されない).

良い標本を得るためにはどうするか?⇒実験計画法構築される.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 25 / 41

Page 28: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

田口玄一 (1924-2012)

品質管理工学の創始者.設計段階でバラツキが小さくなることを重視.そのあと目標値に近づけることを行う(2段階設計法).制御因子(材質,加工方法,長さ,角度,重さ,厚さなど)と誤差因子(設計の段階でうまく制御できないもの.ノイズ.温度,湿度,振動など).

バラツキの指標として SN比 (signal to ratio ratio)を用いる.実験の組み合わせを減らすため直交表を用いる.EDA(Exploratory Data Analysis)の先駆け.統計学は実学.はじめアメリカの産業界で業績が評価.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 26 / 41

Page 29: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

Jeff Wu(1949-), W. S. Cleveland(1943-)

Jeff Wu W. S. Cleveland

データサイエンスの提唱.統計科学,情報科学,人工知能,コンピュータサイエンス,機械学習を包括する学問.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 27 / 41

Page 30: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

母集団と標本10歳の男児の身長の分布を考えよう.通常全ての10歳の男児の身長を調べるにはかなりの時間と労力がかかる.そこで一部の10歳の男児の身長のみを測ることになる.ここで10歳の男児の全体が母集団であり,実際に選び出された調査対象の男児が標本である.

母集団と標本の概念図

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 28 / 41

Page 31: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

標本 (データ)x

x

Dens

ity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

標本 xのヒストグラム

x = (−2.1,1.1,−0.5,0.8,−0.4,0.1,0.1,0.9,0,0.4,1.6,0.0,−0.6,2.4,0.2,1.0,0,−1.1,−1.7,0.8)

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 29 / 41

Page 32: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

標本平均 x,標本分散 s2

x

Dens

ity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

標本 xのヒストグラム

x =120

(−2.1+ 1.1− 0.5 . . . ,+1− 1.7+ 0.8) = 0.15

s2 =120

{(−2.1− 0.15)2 + (1.1− 0.15)+ . . . ,+(−1.7− 0.15)2 + (0.8− 0.15)2

}= 1.14

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 30 / 41

Page 33: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

確率分布(正規分布)

x

Dens

ity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

標本 xのヒストグラムと xの確率密度関数 f (x)(赤い曲線)

.

正規分布 N(µ, σ2)の確率密度関数

.

.

.

. ..

.

.

f (x) =1√

2πσexp

[− (x− µ)2

2σ2

], (−∞ < x < ∞, σ > 0).

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 31 / 41

Page 34: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

本日の内容

.

. .1 データサイエンス

.

. .

2 高校での統計科学

.

. .

3 大学での統計科学

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 32 / 41

Page 35: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

数理統計学「確率モデルを想定することによりデータに潜在する構造を探索」

母集団の概念I 数字のカラクリ・データの真実(NHK)「心筋梗塞で死亡した人の“95%”が、この食べ物を摂取していた」.この食べ物は禁止すべきか?

確率変数と確率分布I 誤差を記述する分布,稀少な事象を記述する分布.

検定I プロ野球のホームラン数の増加は偶然か否か (NHK)?

回帰分析I 身長から体重を予測するには?売上に影響しているのは値段,品揃え,立地条件?

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 33 / 41

Page 36: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

統計学を学ぶ目的とは

高校での統計学の復習をし,さらに一歩進んだ統計学を知ってほしい.統計学

の持つ実用性,応用範囲の広さ,楽しさを実感してもらうとともに,データの

正しい見方,扱い方,客観的で論理的な結論の導き方を学習してもらいたい.

今日の情報化社会においてや統計学は必須の教養(データリテラシー)である

ため,専門分野を問わず勉強することを勧める.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 34 / 41

Page 37: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

最尤法データ x = (x1, . . . , xn)の確率関数を f (x, θ)とする.このとき f (x, θ)を θの関数とみたものを尤度関数という.

.

定義 2 (尤度関数)

.

.

.

. ..

.

.

L(θ) = f (x, θ)

よって最尤推定量 θはθ = argmax

θL(θ)

となる.

.

例 2 (コイン投げ(二項分布))

.

.

.

. ..

.

.

表の出る確率を pとし,n回コインをなげ x回表が出たとする.このときの尤度関数は

(nx

)px(1− p)n−xとなり,

logL(p) = x log p+ (n− x) log(1− p) + log

(nx

).

微分して解くと p = x/n.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 35 / 41

Page 38: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

統計ソフト「R」

Rを立ち上げたときの画面

統計解析のためのソフト.前身は AT&Tベル研究所が開発した S言語.ベクトルや行列の処理が容易にでき,データ整備やデータ解析に適している.また様々な解析に対応した packageが豊富に用意されており,統計解析の研究者で広く使われている.プログラムコードは C言語に似ている.Excelより便利.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 36 / 41

Page 39: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

哺乳類の脳と体の重さのデータ

0 1000 2000 3000 4000 5000 6000

010

0020

0030

0040

0050

00

body.wt

brain

.wt

Asian elephant

Giraffe

Human

African elephant

25個体の陸上動物のデータ (cow, wolf, goat, pig, horse, monkey,...).統計ソフトウェア Rの MASS packageから引用    

横軸:体重 (kg),縦軸:脳の重さ (g)

一見体重と脳の重さには関係性は見られない.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 37 / 41

Page 40: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

哺乳類の脳と体の重さのデータ (再描画)

−4 −2 0 2 4 6 8

02

46

8

log(body.wt)

log(b

rain.

wt)

Asian elephant

Cat

Human

Kangaroo

Mouse

Rat

両軸に対数軸を取って再描画.直線関係が見られる.

log(脳の重さ)=α + β log(体重)+ϵの関係を想定する.ここで ϵは誤差の分布 (正規分布)を仮定する.

線形回帰モデルを当てはめる.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 38 / 41

Page 41: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

Rによる解析結果 (最尤法)

0 5 10

02

46

8

log(body.wt)

log(b

rain.

wt)

Guinea pig

Dipliodocus

Giraffe

Human

African elephant

Kangaroo

Mouse

Brachiosaurus

脳の重さ ≈ 8.58×体重 0.75

Call:lm(formula = log(brain.wt) log(body.wt))Coefficients:Estimate Std. Error t value Pr(> |t|)(Intercept) 2.15041, 0.20060, 10.72, 2.03e-10 ***log(body.wt) 0.75226, 0.04572, 16.45, 3.24e-14 ***

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 39 / 41

Page 42: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

統計学の応用範囲

実験計画法:農学研究において作物の品種が収穫にどのように影響するかを調べる手法.現代統計学の確立者であるR. A. Fisherが 1920年頃に発展させた.

品質工学:実験計画法の考えを工学の分野で進展させた.安定した製品の製造を実現.統計学の実用性が認められる.田口玄一氏の業績.

医学,薬学:新薬の有効性の検証.または疾病とリスクとの関係を明らかにする.「煙草を吸うと肺ガンのリスクが高まるのか?」

計量言語学:文学作品を数値的に解析.文学作品において使われている言葉,表現から言葉の仕組みを解明する.名作とは何か?

標本調査:社会の営みを客観的に調査する.時間と費用をできるだけ抑えた効率的な調査方法とは?

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 40 / 41

Page 43: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

データサイエンス (復習)

データサイエンスとは?

データを科学 (サイエンス) する,または調理する学問.

見えなかった (気づかなかった) ものを見えるようにする学問.新たな価値の創生.

ビックデータ時代に急速に必要性が認識されてきた.膨大なデータの中から価値のある情報を取り出すことが主な目的.

データマイニング (data mining) もその1つ.

データの不確実性 (ランダム性) を扱う統計学と確率論と密接な関係がある.

.

データ分析とデータサイエンス,柴田里程著

.

.

.

. ..

.

.

データは現象の放つ光である

この光を適切に捉え,背後にあるメカニズムを明らかにする.そのためには数学,統計科学,コン

ピュータ科学を駆使する必要がある.もともとは 1997年の C. F. Jeff Wu教授がミシガン大学での

就任演説 (Statistics=Data Science?) が始まりだとされている.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 41 / 41

Page 44: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

データサイエンス (復習)

データサイエンスとは?

データを科学 (サイエンス) する,または調理する学問.

見えなかった (気づかなかった) ものを見えるようにする学問.新たな価値の創生.

ビックデータ時代に急速に必要性が認識されてきた.膨大なデータの中から価値のある情報を取り出すことが主な目的.

データマイニング (data mining) もその1つ.

データの不確実性 (ランダム性) を扱う統計学と確率論と密接な関係がある.

.

データ分析とデータサイエンス,柴田里程著

.

.

.

. ..

.

.

データは現象の放つ光である

この光を適切に捉え,背後にあるメカニズムを明らかにする.そのためには数学,統計科学,コン

ピュータ科学を駆使する必要がある.もともとは 1997年の C. F. Jeff Wu教授がミシガン大学での

就任演説 (Statistics=Data Science?) が始まりだとされている.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 41 / 41

Page 45: 中学3年生×大学ゼミ 大学での統計科学 - SEIKEI · 中学3年生×大学ゼミ – 大学での統計科学– 小森 理 情報科学科 場所:成蹊大学 日時:2018

データサイエンス (復習)

データサイエンスとは?

データを科学 (サイエンス) する,または調理する学問.

見えなかった (気づかなかった) ものを見えるようにする学問.新たな価値の創生.

ビックデータ時代に急速に必要性が認識されてきた.膨大なデータの中から価値のある情報を取り出すことが主な目的.

データマイニング (data mining) もその1つ.

データの不確実性 (ランダム性) を扱う統計学と確率論と密接な関係がある.

.

データ分析とデータサイエンス,柴田里程著

.

.

.

. ..

.

.

データは現象の放つ光である

この光を適切に捉え,背後にあるメカニズムを明らかにする.そのためには数学,統計科学,コン

ピュータ科学を駆使する必要がある.もともとは 1997年の C. F. Jeff Wu教授がミシガン大学での

就任演説 (Statistics=Data Science?) が始まりだとされている.

小森 理 (成蹊大学) 中学3年生×大学ゼミ 2018 年 11 月 2 日 (金) 41 / 41