データサイエンスの全体像

39
Copyright 2016, Financial Engineering GroupIncAll Rights Reserved1 データサイエンスの 全体像 2016年6月15日 株式会社 金融エンジニアリング・グループ 創業者 チーフデータサイエンティスト 中林三平 データサイエンティスト協会 2016年第一回勉強会資料

Transcript of データサイエンスの全体像

Page 1: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1

データサイエンスの 全体像

2016年6月15日

株式会社 金融エンジニアリング・グループ

創業者 チーフデータサイエンティスト

中林三平

データサイエンティスト協会 2016年第一回勉強会資料

Page 2: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 2

本日のアジェンダ

Ⅰ.「情報」、「分析」、「データサイエンティスト」

データサイエンスとデータサイエンティスト

データサイエンティストとは何者か

気軽に使っている言葉は、皆が共通の意味で使っているのか

Ⅱ.「分析」に関わる技術の簡単な紹介

伝統的統計分析とデータマイニング

ホワイトボックスからブラックボックスへ

Deep Learning への進化

Ⅲ.データサイエンティストの育成方法

データサイエンティストとしての自己教育

「競う」、「共に学ぶ」

Page 3: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ.「情報」、「分析」、「データサイエンティスト」

ここでは、データサイエンティストに要求される3つのスキルセットのうち「データサイエンス力」に焦点を当てる

データサイエンス力は、「情報」を「分析」する力と言い換えることができるが、気軽に使っている「情報」、「分析」という言葉にも実際には様々なレベルがあることを示し、技術的な研究開発が最も盛んである “Predictive Analytics” の基本的な手法群を

概観する

3

Page 4: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

0.まず初めに

質問:状況によって話すことの内容を若干調整します

① Rまたは Python を使ったことのある人は?

② Kaggle や KDD CUP などに参加したことのある人は?

4

Page 5: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ-1 データサイエンスとデータサイエンティスト(1)

1960年代に「データサイエンス」という言葉の使用が開始された

「コンピュータサイエンス」という言葉が、どちらかと言えば、H/Wに関する研究を指していたのに対して、コンピュータが扱う情報の分析に関わる研究分野を総称する言葉として使われていた

しかし、現時点では少し様相が異なって来ている

• 「データサイエンティスト」という職種が徐々に社会的に認知されてきた

• データサイエンティストの担うべき仕事、備えるべきスキルは、過去の「データサイエンス」が意味していたものより、格段に範囲が広い

• 現在では、データサイエンスは、データサイエンティストの行う仕事を指し示すという、若干自己撞着的な意味でつかわれることもある

• しかし、データを分析する技術者の中には、『どこがサイエンスなのだ』として自分をデータサイエンティストと呼ぶのを嫌う人も少なくない

• また、データサイエンティスト協会による、データサイエンティストに要求されるスキルの中には「データサイエンス力」というものがあり、これは伝統的な情報を分析する力に他ならない

ということで、データサイエンスは様々な範囲を示しながら、言葉として流通している

5

Page 6: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ-2 データサイエンティストとは(1)

データサイエンティストの役割は、世の中に溢れるデータから、ビジネスなどに役にたつ情報を引き出すことである

Wikiの英文記事を取りまとめて図示すると以下のような3つのエリアにまたがるスキルが求められるとしている

6

Hacking Skill Math/Stat

Substantive

Expertise

Page 7: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ-2 データサイエンティストとは(2)

データサイエンティスト協会では、以下のように必要なスキルセットを定義しなおしている

この3つの力は、どのような局面で必要とされるのだろうか

• 基本的には、ビジネスの現場で、情報を活用することにより、課題を解決することを想定している

7

Page 8: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ-2 データサイエンティストとは(3)

Wikiの定義とデータサイエンティスト協会のスキルセットは似ているが、若干異なってもいる

データエンジニアリング力より ”Hacking Skill“ の方が、範囲としては狭いがより本質的なスキルを表現している

データサイエンス力は、伝統的な “Math/Stats” の枠組みではとらえきれない、新しい分析技術を含むものとしてのメッセージ力がある

ビジネス力と “Substantive Expertise” は、ビジネスにフォーカスするのか、それ以外の現場応用力も重視するのかという違いがある

本日の課題のデータサイエンスについては、「情報を分析する」という点に関しては、双方の定義はほぼ一致していると考えて良いだろう

しかし、「情報」といった時に、各人のイメージする「情報」が同じようなものを指しているとは限らない

同様に、「分析」といった時にも、人によって様々な「分析」のイメージがあるだろう

• 実際に、ネット上に示された各種の記事を読み合わせて、自分なりの解釈をすることを「分析」と呼ぶ人もいる

8

Page 9: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ-3 情報の様々なレベル(1)

H.A.Simon(1916-2001:1978 ノーベル経済学賞受賞)は、企業の意思決定に関する論文の中で、「情報」を以下のようなレベルに分けている(実際には News から Information まで)

9

NEWS

FACT

DATA

Information

Intelligence

・新鮮さ、即時性、話題性

・事実であるニュース

・可搬性のある事実の集合体

・データを目的に沿って表現

・Knowledge をいかに現実に適用するか

Knowledge ・INFO から隠れたパターンを抽出

出所) H.A..Simon 原案を中林が拡張

Page 10: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ-3 情報の様々なレベル(2)

データサイエンティストに求められる3つのスキルは、この情報のレベルの各段階に比較的うまく対応している

Data → Info, Info → Knowledge, Knowledge → Intelligence

10

NEWS

FACT

DATA

Information

Intelligence

Knowledge

Data Engineering

Data Science

Business Problem Solving

Page 11: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ-4 分析の様々なレベル(1)

一般にデータをハンドリングする作業を「分析」と呼ぶことが多いが、「分析」に関しても、いくつかのレベルが存在する

Descriptive Analytics: (Data Engineering)

• 現状把握のための各種の集計であり、モデル構築は行わない

• BIツールで行えるのはこの範囲

• 必要なデータの収集・蓄積のためのインフラが重要

• 基本的には分析というより集計作業に近い

Predictive Analytics: (Data Science)

• 確率的な予測を行うモデルを構築する

• 分析技術が問われるが、モデルの実装力も必要

Prescriptive Analytics: (Business Problem Solving)

• 構築されたモデルから最適な方策を立案する

• モデルの予測などをビジネスの現場に導入し、戦略決定を支援

注)多分、Lithium Technologies の Dr.Michael Wu が最初にこの分類を言い出したと思う

11

Page 12: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅰ-4 分析の様々なレベル(2)

Predictive Analytics に適用する分析ステップとして、以下のような分析のプロセスが提唱されている

KDD Process (KDD: Knowledge Discovery in Databases)

1994年の第一回KDDカンファレンスで提唱され、現在でも分析の基本的な体系として認められている

12

Page 13: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ.「分析」に関わる技術の簡単な紹介 ここでは、主として Predictive Analytics で利用されている手法の体系と概要を示す 手法自体は、Datamining や Machine Learning の領域から発生したものが多いため、各種の用語についてもこれらの領域で使用されているものに従う

13

Page 14: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-1 伝統的統計分析とデータマイニング

データ分析というと、統計の勉強からスタートするというイメージがある

これは、決して効果的とは言えない方法である

• 本格的な大規模データの分析は「データマイニング」という考え方や手法群が整うことによりスタートした

• マイニング手法の多くは、伝統的統計学が暗黙の前提としていた事柄を否定することを基礎としている

• 例えば、誤差が正規分布で近似できるとか、データ全体を記述するのに平均値が役に立つとか、平均値への回帰が観察されるとか、変数間の交差効果は無視できるほど小さいとか...

• これらの前提は実際の社会現象においては成立していないことが多い

統計的手法は分析対象とするデータが少なく、偏りのない推計により全体の姿を推し量ることが極めて重要であった時代に発達してきた

• 現在は、大量にあるデータから精度の高い分析を行うのが目的となった

統計的な手法の勉強が不要というわけではない

• 基礎的な概念を知っておくことは必要であるが、「区間推定」や「検定」に非常に詳しくなったとしても実際に使うことはほとんどないであろう

14

Page 15: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-2 データ分析手法の概要

ここでは、以下の体系により手法群を分野分けし、各分野に属する手法の概要を述べる

手法を選択する場合の最初の選択肢は、分析しようとする問題が「教師あり」なのか、「教師なし」なのかという点である

• 「教師あり」とは、推定すべき指標が定義されており、分析対象とするデータに含まれている場合である

• 「教師なし」はそれ以外の場合である

15

ML Algorithms

Unsupervised Learning Supervised Learning

Clustering Anomaly Detection Regression Classification

Page 16: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-3 「教師あり」と「教師なし」の学習

「教師なし」学習と「教師あり」学習について、簡単に説明する

「教師あり」の場合には、分析のターゲットとする変数が明確に決まっており、過去のデータからターゲット変数を予測することが分析の目標となる

「教師なし」の場合は、ターゲット変数は存在しない(または、ターゲットを利用する意味がない)

16

V1 V2 V3 V4 ・・ VmC1C2C3C4C5C6C7:Cn

顧客行動データ

V1 V2 V3 V4 ・・ Vm FLGC1 0C2 0C3 1C4 0C5 1C6 0C7 0:Cn 1

顧客行動データ

教師なしデータ 教師ありデータ

Page 17: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-4 「教師なし」学習を適用する局面

通常の分析では、「教師あり」に属する問題が圧倒的に多いが、いくつかの場合には「教師なし」学習の手法を適用する場合もある

教師なし学習の手法が用いられる代表的な事例は、以下のようなタイプである

①クラスタリング:属性・行動プロファイルが似たものを寄せ集めていくつかのグループにまとめる

• 金融行動をもとにした顧客のグループ化など

• ただし、クラスタリングだけで問題解決に至ることは稀であり、顧客クラスターごとの行動の特徴をモデリングするステップにつながるのが普通である

②異常値検出:「普通」とは異なる行動を示す人を発見する

• 犯罪行為の摘出など

• 犯罪行為は極めて稀な事象であると同時に、手口が変化し続け、特定手口を発見するモデルはすぐ陳腐化するため、過去の犯罪事例を教師とすることは困難である

• 「普通ではない」行動を犯罪のシグナルと仮定する

17

Page 18: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-5 クラスタリング手法の概要

クラスタリングには大きく分けて2つの手法がある

①階層型クラスタリング:

• 従来の統計学的手法が該当するが、個々のサンプル間の類似性を計算するため、大規模データの場合には計算コストが非常に大きい

• 数千万件のレコードの階層型クラスタリングは非現実的である

②非階層型クラスタリング(k-means 法とそのバリエーション)

• 極めて単純な発想に基づく手法であるが、有用性は高い

• k-means 法の場合には、K個のクラスターに分けることになるが、最適なKの決め方に苦労する

• Observation のクラスタリングだけでなく、Variable のクラスタリングに用いることもある

双方の手法に共通して言えるのは、推定されたクラスタを定義するモデルはかなり不安定な場合が多いということである

• また、サンプル間の類似性のみを分析対象とするため、分析結果として示されたクラスタの解釈に苦しむこともある

18

Page 19: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-6 異常値検出手法の概要

異常値検出に関しては、観測する対象となる変数の数が少なかったり、変数間の独立性が高い場合には、面倒なモデルを作る必要はない

「見ればわかる」という状態であったり、個々の変数の値を個別に評価すれば済む場合もある

しかし、変数が数百あり、かつ、変数の組み合わせにより正常か異常かの判断が変わる場合にはモデルを構築した方が良い

【事例】:機密文書の電子ファイルによる社外流出防止

• 社員Aが、ファイルBにアクセスし、出力を行った

• これが、機密の流出につながるかどうかを判定する

• 上記の行動が社員A(および類似した権限・職務を持つ社員群)の通常行動の範囲に属するかどうかを確率的に推計するモデルを構築する

我々は One-Factor Support Vector Machine という手法を利用し、成果を挙げることができた

19

Page 20: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-7 「教師あり」学習を適用する局面

「教師あり」分析の手法を分類する場合の伝統的な考え方は、被説明変数(ターゲット)がカテゴリー(クラス)なのか、連続量なのかで分けるというものである

ターゲットがカテゴリーの場合には Classifier と呼ばれ、連続量の場合には Regression と呼ばれる

• しかし、この分野で大きな業績を残してきている J.Friedmanが Breiman と発表した手法は、CART(Classification and Regression Tree) と呼ばれるものであり、どちらにも対応できる

• 近年発表されている手法も、どちらにも対応できるものが多い

また、伝統的には、判別分析(Discriminant Analysis) は、各サンプルがどのクラスに属するのかを推定するが、実際の利用にあたっては、各クラスへの所属確率で解を得た方が使いやすいため、良く使う Classifier ではクラス所属確率を出力するのが一般的である

Regression に関しては、通常の線形・非線形の回帰だけではなく、説明変数が非常に多いケースに対応するための、Lasso/Ridge/Elastic-Net と呼ばれる手法が発展してきており、新しい展開を見せている

20

Page 21: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-8 Decision Tree の技術的な発展(1)

Decision Tree は典型的な教師あり学習のアルゴリズムである

原型は CART(1984, Breiman et.al) や ID3(1986, Quinlan) が開発したものであり、下図のようなツリーを生成する

• 2分木とする場合が多いが、n分木も扱うことが可能である

21

母集団(P=0.1)

NODE1 (P=0.05)

V4>XX?

NODE2 (P=0.20)

V3>YY? V8>ZZ?

NODE3 (P=0.02)

NODE4 (P=0.08)

NODE5 (P=0.12)

NODE6 (P=0.28)

Page 22: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-8 Decision Tree の技術的な発展(2)

Decision Tree の手法は、枝分かれを追加することにより対象データの分析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)

その結果として、分析対象データ(Training Set)での精度は高いが検証用データ(Validation Set)での精度は低いという現象(Over Fitting)が発生しやすく、これを避けるために以下のような工夫が行われている

22

Original Data

Training Set

Validation Set

Model

Error

# of Partition

Validation

Training

Optimal 70%

30%

Random Sampling

Build

Valid

Page 23: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-8 Decision Tree の技術的な発展(3)

モデルの安定性を高めるために、Cross Validation という方法が一般に使われている

Cross Validation の機能を埋め込んであるパッケージも多い

23

Original

Data

ランダムにN分割

Training Set

Validation

Set

Model #1

Model #2

Model #3

Model #N

アンサンブル モデル

Page 24: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-8 Decision Tree の技術的な発展(4)

Cross Validation を導入することにより、明らかにモデルの安定性は向上する

これを更に拡大したのが Random Forest(2001, L.Breiman)である

24

Column

Sampling

Row

Sampling

Training

Set

大量の繰り返し(数千回)

Model アンサンブル

Page 25: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-8 Decision Tree の技術的な発展(5)

Random Forest は、ツリーを並列に生やしたものと言える

これに対して、ツリーを直列に生やしたものもあり、Gradient Boosting Machine(2001, J.Friedman)などと呼ばれている

Boosting は、ツリーなどの精度を上げていくために開発された手法であるが、GBM は直前に生成されたツリーの「誤差」を次のツリーで説明するという考え方に基づき、極めて多数のツリー(数千本)を生成していく

これに改良を加えたものが Xgboost(eXtreme Gradient Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の手法である

25

Page 26: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-8 Decision Tree の技術的な発展(6)

Xgboost により、高速・高精度・高安定性という条件をかなり満足させるモデルの構築が可能となっている

その裏で犠牲になったもののある

• CART の時代には、生成されたツリーを見れば、特定のサンプルが「なぜ」このような評価を受けたのかが完全に理解できた

• しかし、Random Forest にしろ、GBM や Xgboost にしろ、数千本のツリーを生成する場合があり、個々のサンプルが「なぜ」そう評価されたのかを説明することは実質的にできない

• ビジネスでモデルを利用する場合には、Accountability を求められることが多くあり、手法を選択する場合には考慮すべき大きなファクターとなる

26

Page 27: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-9 Feature Engineering(1)

Xgboost のような手法を使い、同一のデータからモデルを構築したとしても、同一の精度・安定性が得られるわけではない

オリジナルのデータセットに含まれる変数群をそのまま使ってモデルを構築したとしたら、「分析コンペ」では下位に停滞したままになるであろう

変数を加工したり、組み合わせたりして適切な「特徴量」を生成する作業を Feature Engineering と呼ぶ

この作業には決まった手順や定石があるわけではなく、データサイエンティストの感性・創造力が問われる部分である

• Data Scientist は Artist でもある

27

Page 28: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅱ-9 Feature Engineering(2)

しかし、特徴量を定義するのが非常に難しい問題もある

下図は、kaggle というコンペ・サイトで出題されている Digital Recognizer と名付けられた手書き数字の自動認識問題のサンプルである(入門問題であり、現在も継続中である)

0~9の数字にも様々な癖のある書き方があり、適切な特徴量を定義するのは極めて困難である

このコンペで上位にいる人達が使っているのは Deep Learning と呼ばれる手法であり、現在急速に発展している

28

Page 29: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ.データサイエンティストの育成方法

データサイエンティストを育成するのには、時間がかかる。

また、多くの場合、3つのスキルセットを1人で十分なレベルで具備することは困難なことが多い

解決策はチームで3つのスキルセットを持つことができるような体制を作ることである

その中で育成が比較的難しいのは、「データサイエンス力」を持つ人材の育成である

FEG社での育成方法を紹介する

29

Page 30: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-1 データサイエンティストの育成(1)

バックグラウンドについて

経験的には「理系」でも「文系」でも、優秀なデータ分析技術者になれる

• 例えば、「統計学」の知識が限られていたとしても、データを分析していくうえで純粋な統計学の知識が要求されることはほとんどない

• もちろん、全体の知識体系の中に含まれている「常識」を持っていることは貴重ではあるが、必要条件ではない

修士と学卒の間にも、実質的な差異はない(博士課程の場合には差がある)

• 当社では、入社時に持っている知識のレベルは問わない(余程のデータ分析経験者でない限り、新しくトレーニングを受ける人たちと大差はない)

• ただし、修士の方が課題に対して、全体像を掴み、一つの結果を取りまとめるという経験を持っているということが即戦力に育ちやすい

• さらに、修士の方が学問としての体系(各種の理論間の関係)をある程度までは学んでいるため、全体像を把握する訓練は受けている

性差については全くないと言ってよい

• あえて言えば、女性の方が分析に向いている可能性があるが、性差よりも個人差の方が経験的には大きい

30

Page 31: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-1 データサイエンティストの育成(2)

FEGでの新卒データ分析技術者の教育は以下のようなものである

①ビジネス常識(特別なことは何もなし)

②言語教育(WPS[SAS系]、R、Python など)

③金融業界常識教育(特に銀行業務、関連金融業界業務)

④過去の実施プロジェクトの内容教育

⑤プレゼン・レポーティング

⑥企画書作成トレーニング

⑦データ分析コンペへの参加

上記を概ね4月~6月の間に終了し、その後のスキルアップは基本的に各自に任せている

ただし、「コーチ」が最低一年は付くため、プロジェクト上の疑問への解決法やスキルアップのための指導などはコーチが面倒を見る

7月以降は、プロジェクトに参加し、常用する分析手法や、最も大事な「汚いデータへの対応」、「業務に対応した Feature Engineering」などはOJTで勉強していくことになる

31

Page 32: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-1 データサイエンティストの育成(3)

データサイエンスの分野は、技術の進歩が極めて早いため、勉強を続けていない限りはあっという間に「時代遅れ」になってしまう

実プロジェクトで利用する分析手法は、ある程度有効性が確認されたものを顧客が望むため、あまり冒険的なものは利用できない

これを補うための大きな機会は「社内勉強会」であり、週一度程度、夕方から夜にかけて開催されている

• 勉強会は誰でも好きな時に好きなテーマで開催できる

• 開催したいテーマを持つ場合には、グループウェア上で開催を告知し、一定の人数が集まれば、日時を調整の上、正式に開催する

• 正式な勉強会であれば、必要なテキストなどは全て会社が補助する

勉強会のテーマとしては以下のようなものがある

①統計検定一級・二級取得のための勉強会

②Python(Scikit-Learn) の勉強会

③因果推論(Causal Inference)勉強会

④Deep Learning 勉強会

32

Page 33: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-2 育成のためのトレーニンング(1)

分析者としてのスキルをアップするためには、「実際の問題」に取り組むことがベストである

玩具の問題(Toy Problem)をいくら扱ってみても、現実の問題に対応できるようなスキルは中々身につかない

• 玩具の問題に利用されるデータは、多くの場合、小規模であったり、ノイズを含まなかったりして、新しいアルゴリズムの検証などには妥当であろうがスキルを高めるのに最も必要な部分のトレーニングができない

• 実問題を解くうえで、下記のようなデータを吟味し、加工し、選択するプロセスが、分析時間の70~80%を占めている

• この部分を現実的なデータを扱うことで身に付けていくことがトレーニングの非常に重要な部分となる

33

Feature Engineering

Data Cleaning

Data Profiling

Data Shaping

Feature Generation

Page 34: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-2 育成のためのトレーニンング(2)

実データの分析と言っても、社内で簡単に適切な問題が入手できるとは限らない

FEGでトレーニングのために重要視しているのか、ネット上で開催されている「分析コンペティション」への参加である

• 様々なコンペの概要や功罪に関しては以下の論文を参照して頂きたい

http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf

• FEGで推奨しているのは「分析技術に特化した」コンペであり、「こんなデータがあるので、それを活用するアイデアを提出してほしい」というスタイルのコンペは推奨していない

• 新人研修の中での「コンペへの参加」というのは、毎年開催される KDD Conference と同時に行われる KDD CUP への参加である

• KDD Conference はデータマイニングの分野では最大・最古の学会であり、KDD CUP にはかなり手強い問題が出題される

• 新人には荷が重いが、このコンペには全社で(時間の取れる人が)参加しており、慣れた人たちのスキルを実際に見る良いチャンスとなっている

• FEGにとっても、ここでチャンピオンになるのが目標である(2009 年と2015年に2位となっている)

34

Page 35: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-3 KDD CUP 2016 @Sydney

2位でも嬉しいものです

35

Page 36: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-4 Kaggle について(1)

参加者が多いのは kaggle (https://www.kaggle.com/competitions)であり、ここで出題される問題はスポンサーから提出された課題であり、実データの分析が対象となっている

このサイトでは、常に数問の課題(チュートリアルなどを除く、コンペ問題)が出されている(例えば、下の問題)

36

Page 37: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-4 Kaggle について(2)

前ページの問題は、「パンの需要予測と収益最大化」が課題である

現時点で、約2ヶ月の継続期間が残っており、取り組んでみるには適切な課題であろう

コンペの問題なので、賞金がかかっており、総額2万5千ドルである

データは非常に汚く、例えば顧客IDが重複している場合などもがある

• 例えば、上記の重複IDなどをどのようにクリーニングするかは、分析者のスキルに任されている

• 学習用のデータ中に存在しない製品が、予測用のデータ中に存在したりする(新製品が出た場合など)

• スポンサー( “Grupo BIMBO” )がメキシコの会社であることもデータが整っていない原因の一つであるが、日本のデータであっても「欠損値」や「異常値」が発見されることは良くある

予測対象が「パン」であることによる特殊要因が関わってくるが(在庫可能期間など)、実際のビジネスでも頻繁に発生する問題である

• 数量を予測するタイプの問題は、通常データ量が少なく、このコンペのデータもアーカイブされた状態で400MB程度である

37

Page 38: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-5 コンペ参加の面白さ(1)

「日経BigData」の記事を下に示す

コンペの最優秀モデルが、これまでの「プロ」の予測より15%精度を向上させたというもので、現場に採用された事例である

38

Page 39: データサイエンスの全体像

Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.

Ⅲ-5 コンペ参加の面白さ(2)

Kaggle にしろ、前出の豆腐の需要予測を行ったオプト社のサイト “DeepAnalytics” (https://deepanalytics.jp/compelist) にしろ、参加者には成績に応じてポイントが与えられる

Kaggle には現在世界中から57万人が登録しており、自分がその中で何番目程度かを知ることができる(ちなみに私は1700番目程度であり、全く大したことない順位である)

• Kaggle の場合には、一定の条件(コンペの上位10人に入るなど)を達成すると Kaggle Master の称号を得る

Kaggle の最大のメリットは、各コンペごとに “Forum” が開かれており、そこで参加者が自由に討議できることである

• 「これは何も分かってないな」から「ふーん、なるほど」や「おー、これはすごい」に至る様々なコメントが記載されており、本当に勉強になる

と言ったところで、コンペに参加してみたらいかがですか

39