Amazon...

JAWS DAYS 2016 The Next Cloud#jd2016_nextclouds

Amazon ML（あるいは他社のサービス）の簡単なデモレベルはやったことあるけど、それっきりってエンジニアに聞いてほしいですね s

自己紹介Mr. T大学で、文学、心理学、哲学をやってるうちにコンピュータの思考に興味。

夢はインターネット上の言葉を覚えさせておしゃべりすること。

好きな AWS: SimpleDB

はじめまして

QAmazon ML 触ったことは？何かしらソリューションにしたチュートリアルやった

マネジメントコンソールを開いたCLIで aws mach[TAB]と打った

何もしていない

GOAL触ったことはある。もしくは全く触ったことがない。そんな人が、これなら自分にも出来る。けど、今日はビールが待ってるから、出来ないけど明日から本気出すと思ってくれる事。

実際にはここにいる 40％くらいがやってくれれば十分です。

10%before

40%after

このセッションの目的

Amazon

MachineLearning

Amazon Machine Learning は、どのスキルレベルの開発者でも、機械学習テクノロジーを簡単に使用できるようになるサービス

Amazon Machine Learning をちゃんと知るAbout Amazon Machine Learning

Amazon ML 4つの概念About Amazon Machine Learning

ML ModelsDatasourcesのデータを使って、機械学習のモデルを作成する。

Datasources

機械学習に利用するデータを用意する。S3、 RedShift、 (RDS)に入っている必要がある。このデータは学習にも検証にも使われる。

Evaluations

Datasourcesのデータを利用して、モデルの精度を検証する。

Prediction作成されたML Modelを利用して

予測を行う。バッチと APIでのリアルタイムの 2

種類が行える。

Datasource作成：ただのデータのままではなくて、機械学習で扱える形で保存する。ML Modelの作成： Datasourceのデータの特徴を見つけ出し、利用できる形にする。

Evalution: ML Modelの精度をテストデータを用いて検証する。Prediction: ML Modelを使って予測を行う。

Amazon ML 利用の流れ

Datasource

S3

from

Redshift

from

RDSfrom

DatasourceS3,Redshift,RDSに格納されているデータに、 MLとしての型 (Type)を付ける事と予測の対象 (Target)を

指定することで、MLで使える形とする。

From RDSRDSからクエリで取り出す(Management Consoleには無い )

From RedshiftRedshiftからクエリで取り出す。

From S3S3にあるデータを利用する。

Datasourceの作成About Amazon Machine Learning

Datasource 4つのColumn TypeAbout Amazon Machine Learning

Categorical数値や文字列のように、不特定多数の値ではなく、特定多数 (少数 )の値が入ってくる。型は文字列でも数値でも可。

Text文字列のデータ予測の対象 (Target)には使えない。

Binary2種類のみ許される。(Yes or No)

Numeric数値型のデータ

ML model typeAmazon Machine Learningでは3種類の予測モデルを作成出来る。

1. Regression(Numeric)2. Multiclass

Classification(Categorical)3. Binaryclass Classificatoion (Binary)

Datasourceの Targetの Typeによって自動で変わる。

ML Modelの作成About Amazon Machine Learning

ML ModelAbout Amazon Machine LearningRegression

数値型の予測Targetが Numericの時に作られるモデル。

use caseビールの売上予測

判断基準

売上

湿度

Aug 9 - 2015

Aug 30 - 2015

TO DONE

[ Binary | Multiclass ] Classifier

ML ModelAbout Amazon Machine Learning

正解データ

予測値1

予測値2

モデルの検証正解のデータを利用して、予測値と正解の値を比較。

Evaluation ModelAbout Amazon Machine Learning

RMSE

Regression の検証About Amazon Machine Learning - Evaluation

Macro average F1 score

Mulcticlass Clasification の検証About Amazon Machine Learning - Evaluation

Binaryclass Classification の検証About Amazon Machine Learning - Evaluation



Datasources


Evaluations








ML Modelのチューニング

Maximum number of data passesRegularization [type | ammount ]Recipe

チューニング方法チューニングの方法About Amazon Machine Learning - tuning

Amazon ML でのチューニング

特徴を検出する回数モデルを作成するにあたり、何回もこの関連性が強いかな ?どうかな ?みたいな事をする。基本多い方が正確に

1

収束したらそこで終了あるところで、あ、これだみたいなしっくり来るところがある。それを検知した場合自動で終了

2

Maximum number of data passes Amazon Machine Learning

L1

None 正則化複雑すぎるモデルを使うと、訓練用のデータの癖に影響を受けやすい。それをさらっといい感じにする。

L2

Regularization Type | AmmountAbout Amazon Machine Learning

Recipeを制する者はAmazon Machine Learningを制す

RecipeAmazon Machine Learning

日本初

JSON形式で指定

RecipeのフォーマットAmazon Machine Learning {

groups:{},

assignments:{},

outputs:{}}

groups:

RecipeのフォーマットAmazon Machine Learning

groups:{ “group1”: ”group(var1,var2)”}

ALL_TEXT, ALL_NUMERIC,ALL_CATEGORICAL,ALL_BINARY

groups:

RecipeのフォーマットAmazon Machine Learning groups:{

“group2”: ”group(ALL_CATEGORICAL,ALL_BINARY)”, “group3”: “group_remove(ALL_CATEGORICAL,title,subject)"}

assignments:

RecipeのフォーマットAmazon Machine Learning "assignments": {

"binned_age": "quantile_bin(age,30)", "c_g_interaction": "cartesian(country, gender)"

Data Transformations

RecipeのフォーマットAmazon Machine Learning ngram(var1, 3)

osb(var1, 5)lowercase(var1)no_punct(var1)normalize(ALL_NUMERIC)

outputs:

RecipeのフォーマットAmazon Machine Learning "outputs": [

"ALL_NUMERIC" , “group1”, “lowercase(var2), var3

]

recipe

RecipeのフォーマットAmazon Machine Learning

{ "groups": { "NUMERIC_VARS_QB_100": "group('RecordID')", "NUMERIC_VARS_QB_20": "group('CostBeforeTax', 'UsageQuantity','TotalCost','BlendedRate','TaxAmount')", "NUMERIC_VARS_QB_10": "group('RateId')" },

"assignments": {},

"outputs": [ "ALL_CATEGORICAL", "quantile_bin(NUMERIC_VARS_QB_100,100)", "quantile_bin(NUMERIC_VARS_QB_20,20)", "quantile_bin(NUMERIC_VARS_QB_10,10)", "ALL_TEXT” ]}



Datasources


Evaluations








REAL TIME PREDICTION

API経由でのその場での Prediction実行1BATCH PREDICTION

S3においてあるファイルからのバッチ実行日次などで一気に予測したい場合に有用

THANK YOU FOR YOUR ATTENTION

Amazon...

Technology

Transcript of Amazon...