Download - データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

Transcript

Page 1: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

データ解析例（教師あり学習）※バージョン情報Python: 3.7.3, pandas: 0.24.2, scikit-learn: 0.20.3

Page 2: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

Pythonとは可読性の⾼いプログラミング⾔語でデータ分析で有⽤なライブラリや開発環境が提供されています．

• 豊富なライブラリ群数値計算：NumPy, SciPyグラフ描画：Matplotlib, seaborn, Bokehデータ処理：Pandas機械学習：scikit-learn, gensim深層学習：TensorFlow, PyTorch

• Jupyter NotebookPythonのインタラクティブな開発環境．⼀連のデータ分析過程を簡単に編集・保存出来，再利⽤性も⾼くデータ分析結果の共有に有⽤です．

2

Page 3: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

データ分析プロセス例

3

データ前処理

データ可視化

データ分析結果の可視化レポーティング

データ読込

Pandas

scikit-learn, gensim,TensorFlow, Keras

Pandas, NumPy

Matplotlib

MatplotlibJupyter Notebook

Jupyter Notebook⼀連のプロセスを作成・実⾏・管理

Page 4: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

タイタニックの⽣存分析データの取得先：https://www.kaggle.com/c/titanic/data本講義ではtrain.csvをdata.csvにリネームし訓練データとテストデータに分割します．

タイタニックデータには以下の情報が含まれます．⽣存情報Survivedの分析を⾏います．• PassangerID: 乗船者ID• Survived: ⽣存情報 (0=死亡,１＝⽣存)• Pclass: チケットのクラス (1=1st, 2=2nd , 3=3rd)

• Name / Sex / Age: 名前 / 性別 / 年齢• SibSp / Parch: 乗船している兄弟・配偶者 / 親⼦の⼈数• Ticket / Fare / Cabin : チケット番号 / 運賃 /キャビン番号• Embarked: 乗船場所 (C = Cherbourg, Q = Queenstown, S = Southampton)

Python, Jupyter Notebookを⽤いたデータ分析を体験してみましょう．4

https://www.kaggle.com/c/titanic/data

Page 5: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

データの確認Python + Jupyter notebookでデータの読み込みと中⾝の確認をします．

⽋損値（NaN）があることも分かります．

5

Page 6: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

データの概要を確認データの基本的な統計量等を確認します．

count: データ件数，mean: 平均値，std: 標準偏差，min: 最⼩値，max: 最⼤値，25%, 50%, 75%: 1/4分位数，中央値，3/4分位数．

6

Page 7: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

データの前処理各特徴のデータ型と⽋損値の数を確認します．

Age, Cabin, Embarkedが⾏数と整合せず⽋損しています．今回の分析ではCabinは⽋損件数が多いので列を削除し，Cabin, Embarkedについては⽋損している⾏を削除します．

7

※ isnull().sum()でも⽋損値の確認が出来ます．

Page 8: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

データの前処理- 予測に無関係な列を消去します．

IDや名前を⽤いた予測は汎化しない事に注意しましょう．

- カテゴリ変数をダミー変数に変換します．

8

列削除後の特徴

ダミー変数に変換後の特徴

Page 9: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

訓練データとテストデータの分割dataを8:2に分割しそれぞれ訓練データ，テストデータとします．訓練データで学習をしテストデータで分析⼿法の評価をします．

※ Kaggleで配布されているテスト⽤ファイルはその予測値をKaggleに送信して評価するためのものであり正解ラベルを含みません．そのため，今回の講義では配布された訓練⽤データを実際の訓練⽤とテスト⽤に分割します．

9

Page 10: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

データの標準化データを標準化（各列の平均を0，分散を1）します．標準化のための変換⽅法は訓練データでの平均・分散から定めます．テストデータについては⼀般に訓練データの平均・分散で代⽤した標準化を⾏います（訓練データと同等の変形を担保するため）．

fit_transformは与えられたデータの平均・分散の計算と標準化をします．transformではfit_transformで計算された平均・分散を⽤いた標準化を与えられたデータに対し実⾏します．

10

Page 11: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

ロジスティック回帰による分類正則化係数は5-交差検証で決定します．

GridSearchCVではfitで交差検証が⾏われ選ばれたモデルがデフォルトに設定されています．

11

Page 12: データ解析例（教師あり学習）...東京学数理・情報教育研究センター反篤史2020 CC BY-NC-SA データ解析例（教師あり学習） ※バージョン情報

東京⼤学数理・情報教育研究センター⼆反⽥篤史 2020 CC BY-NC-SA

混同⾏列の描画Matplotlibライブラリは豊富なグラフ描画機能を提供し分類結果の混同⾏列も次のように描画出来ます．

Jupyter Notebook内に図が表⽰され，グラフィカルなレポートを作成出来ます．Notebookでデータ分析結果の共有し課題解決に向けた提案の材料にしましょう．

12

Top Related

資料5-2 高等教育の将来構想に関する都道府県別基 …...2017/08/07 · 地域産業に関する基礎データ高等教育に関する基礎データ大学学部に関する基礎データ

資料5-2 高等教育の将来構想に関する都道府県別基 …...2017/08/07 · 地域産業に関する基礎データ高等教育に関する基礎データ大学学部に関する基礎データ

奈良教育大学教師力サポートオフィス教職ノート - nara …奈良教育大学教師力サポートオフィス教職ノート学生プロファイル専修学生氏名

奈良教育大学教師力サポートオフィス教職ノート - nara …奈良教育大学教師力サポートオフィス教職ノート学生プロファイル専修学生氏名

从数学教育到科学教育

基本データ...教員一人当たり学生数単位：人学部専任教員数学生数教員一人当たり学生数経営学部 21 1,099 52.3 人文学部 12 691 57.6 心理学部

基本データ...教員一人当たり学生数単位：人学部専任教員数学生数教員一人当たり学生数経営学部 21 1,099 52.3 人文学部 12 691 57.6 心理学部

广州城市职业学院外语系公共英语教研室 Unit 1 Practical English, Book II 教学内容教学目的教学重、难点学时分配教学参考书目教学过程作业

广州城市职业学院外语系公共英语教研室 Unit 1 Practical English, Book II 教学内容教学目的教学重、难点学时分配教学参考书目教学过程作业

2021 年度立教大学...JAPAN e-Portfolio「学びのデータ」について 2021年度入試において、立教大学はJAPAN e-Portfolioを活用しません。「学びのデータ」の提出は不要

2021 年度立教大学...JAPAN e-Portfolio「学びのデータ」について 2021年度入試において、立教大学はJAPAN e-Portfolioを活用しません。「学びのデータ」の提出は不要

教育要項¹´度教養...東京医科歯科大学教養部 2019 教育要項－教養教育－医学部医学科2・3年歯学部歯学科2・3年目次 2019年度医歯学融合教育（教養教育）

教育要項¹´度教養...東京医科歯科大学教養部 2019 教育要項－教養教育－医学部医学科2・3年歯学部歯学科2・3年目次 2019年度医歯学融合教育（教養教育）

Languages

Pages

Legal

Copyright © 2022 FDOCUMENT