大規模な統計分析と機械学習 - sas.com · モデル構築..... 6...

12
大規模な統計分析と機械学習 機械学習をビッグデータに適用するための最新テクノロジー CONCLUSIONS PAPER

Transcript of 大規模な統計分析と機械学習 - sas.com · モデル構築..... 6...

大規模な統計分析と機械学習機械学習をビッグデータに適用するための最新テクノロジー

CONCLUSIONS PAPER

ii

目次はじめに .........................................................................................................1

大規模な統計分析と機械学習の定義 .................................................................1

機械学習と統計分析の違い .................................................................................... 2

規模との関連性 .................................................................................................... 2

機械学習アルゴリズムのタイプ .........................................................................3

教師あり学習 ........................................................................................................ 3

教師なし学習 ........................................................................................................ 3

半教師あり学習 ..................................................................................................... 4

強化学習 .............................................................................................................. 4

機械学習アプリケーションに使用するモデルの作成、評価、選定 ............................ 5

モデル構築 ........................................................................................................... 6

モデルの評価と選択 .............................................................................................. 7

機械学習の活用例 ...........................................................................................7

製造プロセスの最適化 ........................................................................................... 7

機械学習向けのSAS®アナリティクス・ソリューション ........................................... 8

SAS® Visual Data Mining and Machine Learning ............................................ 8

SAS® Enterprise Miner ...................................................................................... 9

結論 ...............................................................................................................9

コンテンツ提供者 本稿はSASデータ・サイエンス・テクノロジー部門担当マネージャーであるウェイン・トンプソン(Wayne Thompson)による複数のプレゼンテーションを基に構成されています。トンプソンは、これまでデータマイニングおよび機械学習に関するさまざまな講演を行っており、この分野の実務を兼ねたリーダー、またイノベーターとして広く知られています。SASでのキャリアは既に25年に及び、SASのアナリティクス・ソリューションの市場投入において多大な貢献を果たしているほか、データ分析において顧客が抱える高度な課題の解決に取り組んでいます。

1

はじめに クルマに乗り込んで「職場まで」と言えば、あとは自動運転に任せて朝刊をゆっくり読みながら通勤できる状況を想像してみてください。こうした世界が現実になる日は、そう遠くありません。フォードなどの自動車メーカーは、2020年後半にも自動運転車の量産を開始することを計画しています。

とはいえ、自動運転はあくまで機械学習の一例にすぎません。不正行為の予測、テロリストの特定をはじめ、顧客のニーズに合った商品のタイムリーな提案や、的確な処方を行うための症状の特定など、機械学習の用途は数え切れないほどの広がりを見せています。

機械学習という概念は、既に数十年前からありました。ただし、膨大なデータに適用可能となった現在では、状況が当初と大きく異なります。データ・ストレージの低価格化、分散処理の普及、コンピューターの処理能力の向上、利用できる分析手法の高度化により、機械学習システムに対する関心は飛躍的に高まっています。この他にも、インメモリで活用するためにリファクタリングされた手法とアルゴリズムの成熟化、コンピューティング・コストの低減、コンピューターの学習処理に利用できるデータの充実など、機械学習の普及を後押しする環境は着実に整いつつあります。

本稿は、過去数年間にわたるプレゼンテーションの内容を基に構成されています。SASデータ・サイエンス・テクノロジー部門担当マネージャーであるウェイン・トンプソンが、機械学習の主な概念、統計分析と機械学習の関係、そして大規模な機械学習を実現するSAS®ソリューションを紹介します。

大規模な統計分析と機械学習の定義 ビッグデータを手にした企業や組織は今、そこから知識と意味を引き出すための数理科学やコンピューター・サイエンスといった幅広い分野のテクノロジーに強い関心を示しています。「データ・サイエンス」と呼ばれるこの領域は、統計分析、データマイニング、機械学習、人工知能といったさまざまな分野から新たな手法や理論を取り入れながら、日々進化してきました。

データ・サイエンスの世界における機械学習とは、明示的にプログラミングすることなくコンピューターを機能させることをテーマとしています。その狙いは、インタラクティブな学習アルゴリズムを基盤とする分析モデルの構築を自動化することにあります。より優れたモデルを選択することで、人の介入を要することなく、時間の経過とともに分析結果を継続的に改善できるのです。そのため、このようなモデルは意思決定における信頼性と再現可能性の向上に活用することができます。

「機械学習が目標とするのは、見込まれる報酬の最適化や損失関数の最小化といったパフォーマンス関数を、データを活用した学習処理を通じて改善できるシステムを構築および研究することです。その目的は、データ資産から深い洞察をより迅速に導き出し、知識の抽出精度を高め、最終損益の改善とリスクの軽減を実現することです」(トンプソン)

機械学習という概念は、既に数十年前からありました。パーセプトロン・アルゴリズムと呼ばれるニューラル・ネットワークを用いた学習手法の確立は、1958年にまで遡ります。また、SAS DISCRIMプロシジャは1979年以来、K近傍法判別分析に使用されてきました。(この初期の機械学習プロシジャは、SASの共同創業者およびCEO(最高経営責任者)であるジム・グッドナイトが作成したものです。)ニューラル・ネットワークの研究など、自動化された機械学習の手法は、1990年代初頭までほとんど進展が見られませんでしたが、コンピューター・サイエンスと統計分析の相乗効果によって人気が高まってきたのです。

機械学習とは、明示的に プログラミングすることなく コンピューターを 機能させることをテーマと しています。その狙いは、 インタラクティブな 学習アルゴリズムを 基盤とする分析モデルの 構築を自動化することに あります。

2

機械学習と統計分析の違い 統計分析と機械学習には非常に多くの共通点があり、いずれもデータにもとづく汎化/普遍化(または予測)を研究対象としています。統計分析が長年担ってきた役割を知ることで、機械学習についての理解がより深まるはずです。

統計分析を行う目的はさまざまですが、中でも重要なのは、統計モデリングを通じてデータの属性間の関係性を規定することです。モデリングの段階では、統計分析と機械学習に特有の共通点があります。データの関係性を最も的確に規定できるモデルを使用して、データを理解するという点がどちらも同じなのです。

次に相違点も確認してみましょう。推計統計学は、現実世界の事象をより簡潔に理解するための仮説を立て、仮説検定はサンプルよりも大きな母集団の統計的性質を推測します。また統計分析では、ランダムな成分を含む経験データを理解する際に、パラメータ推定値、誤差率、分布仮定などに注目します。

この点が機械学習とは対照的で、機械学習ではすべての特殊な分布を指定する必要がありません。また、統計分析は属性数やデータ量が比較的少量のデータを使用する環境に適しているといえます。一方、機械学習は膨大な観測データを用いた自動化に重点を置き、ランダムフォレストや勾配ブースティングなど、欠損値の処理や交互作用の発見などを自動化するアルゴリズムを重視します。

機械学習の根幹をなすのは、反復処理(イテレーション)を通じてアルゴリズム自体がデータから学習していくという考え方です。「パフォーマンスが向上しているかどうかを測定するためには、損失関数の最小化など、客観的な関数に着目します。アルゴリズムは、収束規準に達するまでデータの反復処理を行います。また、過学習(過剰適合)かどうかの判断には、入力データを使用するのが一般的です」(トンプソン)

規模との関連性 「規模」が意味するもの

同じ企業や組織の中でも、規模の解釈は人によってさまざまです。統計分析と機械学習の世界では、より多くのデータ、属性、変数への対応力と見なすことができます。また規模とは、モデルをより高速に処理する能力を指すこともあります。あるいは多様な手法を駆使した大容量データや発生頻度の高いデータ処理や、より多くのモデルを構築する技術を指す場合もあるかもしれません。年度によって、モデルを50件しか作成しなかったり、3,000件以上も必要になることも考えられます。さらに、より優れたカスタマー・エクスペリエンスを提供し、対象を的確に絞り込んだオファーを提示するといった場合にも、細分化されたデータ・セグメントの分析が欠かせません。これらの課題は、大規模な処理への対応力がいかに重要であるかを示唆しています。つまり、たとえ膨大なデータや複雑なモデルにもとづいて意思決定を行う場合であっても、スピードを犠牲にしないということです。

機械学習の根幹をなすのは、 反復処理(イテレーション)を 通じてアルゴリズム自体がデータから学習していくという 考え方です。

3

機械学習アルゴリズムのタイプ 機械学習のアルゴリズムは、4つのタイプに分類されます。この分類はアルゴリズムに求める結果の種類や、学習処理に利用できる入力の種類にもとづいています。「機械学習で使われる用語は統計分析の用語とは異なります。例えば、機械学習ではターゲットをラベルと呼びますが、統計分析ではこれを従属変数と呼びます」(トンプソン)

機械学習は大きく次の4種類に分類できます。

• 教師あり学習

• 教師なし学習

• 半教師あり学習

• 強化学習

教師あり学習 多くの専門家の推定によると、機械学習全体の約70%において教師あり学習が使用されています。このタイプのアルゴリズムでは、望ましい出力が分かっているラベル付きの手本を使って学習処理を行います。教師あり学習は一般に、過去のデータにもとづき想定される将来の事象を予測する用途に使われます。

例えば、クレジットカード取引に不正の疑いがある事例や、保険契約において保険金請求を行う可能性が高い顧客を特定することが可能です。不正の事例の場合、過去に不正があった顧客を除外した取引データを、学習データとして利用します。学習アルゴリズムは、入力とそれに対応する正しい出力のセットを受け取り、自分(アルゴリズム)の出力結果と正しい出力を比較して誤りを検出し、その誤りの内容に応じてモデルを修正します。

この入力は機械学習では特徴と呼ばれ、不正事例の場合は、口座残高や日次取引回数などが特徴として挙げられます。教師あり学習では、分類、回帰、予測、勾配ブースティングなどの手法により、こうした入力を用いてラベルの値を予測します。モデルを新しいケースに適用してそれが不正かどうかを分類する処理は、スコアリングと呼ばれます。

教師なし学習 機械学習全体の約10~20%にあたるタイプが、急速に発展しつつある教師なし学習です。教師なし学習とは、ラベルなしの実例を処理対象とするタイプの機械学習です。この手法では、システムに正解を与えるのではなく、アルゴリズムを駆使してラベルなしのデータから隠れた構造や多様性を発見することを試みます。この手法のアルゴリズムに与えられる実例には、各入力に対するターゲット出力も報酬信号の関連付けも明示しません。

「教師なし学習の目標は、データを探索し、そこに潜む本質的な構造をクラスタリングや次元削減などの手法を用いて明らかにすることです。教師なし学習は、トランザクション・データの処理に最適です」(トンプソン)

本質的なデータ構造とそれに関連する教師なし学習の具体的な手法は、データの性質によって異なります。例として、ユークリッド空間内のデータは確率密度によって構造をモデル化することができ、その次元削減にはk平均法クラスタリング、ガウス混合、主成分分析(PCA)などの手法を使用することができます。また、テキスト、画像、ソーシャルメディアのデータを対象とした教師なし学習では、構造モデルとして行列分解、トピックモデル、グラフがよく使われます。

4

半教師あり学習 半教師あり学習は、教師あり学習と同じ用途に使われます。ただしこの手法では、ラベル付きデータとラベルなしデータの両方を取り入れて学習を行います。典型的なのは、少量のラベル付きデータと大量のラベルなしデータを使うケースです。

この学習手法は、分類、回帰、予測などの手法と組み合わせて利用できます。半教師あり学習は、ラベル付きデータのみでは学習処理コストが高くなるものの、比較的低コストでラベルなしデータを収集できる場合に有効です。

半教師あり学習には、少なくとも2種類の解釈があります。第1の解釈では、ラベルなしのデータを用いて、(主目的と考えられている)教師あり学習に適したデータの構造情報をアルゴリズムに知らせます。この方法では、ラベル付けが不十分な場合に、教師あり学習の効果を高める補足的な情報としてラベルなしデータを利用します。第2の解釈は、教師なし学習(クラスタリングなど)を主目的とする方法です。この場合、ラベルはアルゴリズムが適切な固有のデータ構造を見つけ出すための付随情報(クラスタリングの場合はクラスター指標)とみなされます。こうしたラベルが特に役立つのは、本質的なデータ構造が不明確で、単純な教師なし学習手法では処理が難しいケースです。

半教師あり学習の初期の実例としては、画像分析(例:Webカメラ映像における顔認識)、テキスト分析、疾患検出などがあります。

強化学習 強化学習では、アルゴリズム自体が試行錯誤を通じて、どの行動が最大の報酬を生み出すかを突き止めます。強化学習は主に3つの要素で構成されています。

1. エージェント:学習または意思決定の主体

2. 環境:エージェントとの相互作用を伴うあらゆる要素

3. 行動:エージェントが取りうる行動

エージェントにとっての目標は、限られた一定の期間で見込まれる報酬を最大化するための行動を選ぶことです。エージェントは優れたポリシーに従うほど迅速に目標を達成できるため、最良のポリシーを学ぶことが強化学習の目的となります。強化学習は、ロボット工学やナビゲーションの分野で利用されています。

強化学習は、最適制御、統計分析、オペレーションズ・リサーチなどの領域と密接に関係しています。強化学習で広く使われているモデルとしては、マルコフ決定過程(MDP)があります。MDPでは、環境の状態をエージェントが完璧に観察できることを前提としています。完璧な観察が難しい場合には、より汎用的な部分観測マルコフ決定過程(POMDP)と呼ばれるモデルを使って不確定状態を解決するためのポリシーを発見し、長期的な報酬を最大化することができます。

5

機械学習アプリケーションに使用する モデルの作成、評価、選定 どのような学習手法を使用する場合も、未知の事例やタスクを正確に処理できるモデルを実現することが目標であるという点は共通しています。これにより機械が、時間の経過とともに学習を通じてモデル精度を向上することが可能になります。

「データに当てはまる適切なモデルを開発するのは、ゴルディロックス(心地よい適温状態)と似ています。過剰でも不足でもない、ちょうど適合する状態を見つけるのが理想です」(トンプソン)。図1は学習不足/適合不足(アンダーフィッティング)の例であり、予測変数が単純すぎるためパターンの突出を捉えきれていません。これでは将来の実例の解決に役立つとは言えません。「条件がごく少ない倹約型のモデルで済むのならよいのですが、それでもこのモデルでは当てはめの効果がほとんど見られません」(トンプソン)

図1:学習不足/適合不足(アンダーフィッティング)

図2は過学習/過剰適合(オーバーフィッティング)の例で、予測変数が複雑すぎます。「このモデルでは、新しい母集団をスコアリングしようとしても、うまく汎化できません。パラメータを減らし、おそらくペナルティ関数またはホールドアウト関数を使って、データへの適合度が高いモデルを見つける必要があります」(トンプソン)

データ・サイエンティストがモデルの過学習/過剰適合を測定する際には、一般的に入力データの平均二乗誤差や誤判別率が使用されます。しかし、「機械学習の中には、モデル自体を調べ、変数が多すぎないかを判定し、モデルを自動調整して変数を減らすアルゴリズムもあります」(トンプソン)

6

図2:過学習/過剰適合(オーバーフィッティング)

モデル構築 データ・サイエンティストは、どのような複雑なデータでも分析対象とし、そのデータサイズに適合するモデルを構築できる必要があります。正確なモデルを作成するためには、データの全体、あるいは少なくとも一部を利用できなければなりません。

強力な機械学習アルゴリズムの一例としてランダムフォレストがあり、データマイニングにおいて活用されています。ランダムフォレストでは、決定木を数多く組み合わせます。システムに与えられた新たな入力値がすべての決定木をたどり、そのすべての終端ノードの平均または加重平均が結果として出力されます。

「私がランダムフォレストを用いてフィッティングを行う場合は、多くのランダムなデータ・サブセットについて決定木を作成し、その結果を平均して最終モデルを構築します。また、決定木を作成する際は、個々の分岐点で変数を分割します。100個の変数がある場合なら、個々の分岐点ではランダムに10個の変数だけを検討します。これにより、オブザベーション(観測対象)だけでなく、データも入れ替えることになります」(トンプソン)。決定木が1つのみの場合は大きなばらつきやバイアスの悪影響を受けかねませんが、このように平均すれば極値の間でバランスをとることができます。

インメモリ・アナリティクスなどの最新テクノロジーでは、コンピューターのランダム・アクセス・メモリ(RAM)上のデータに対してクエリーを実行し、かつ、分散コンピューティング環境で複数のコンピューターに処理を分担させることが可能になっています。つまり、データ・サイエンティストは、以前とは比べ物にならない速さでランダムフォレストを構築できるということです。

機械学習モデルをデータマイニングのビジネス・アプリケーションに適用する場合、「顧客対応の取り組みに関する想定利益や想定コストを把握できていないユーザー企業は少なくありません。私がSAS® Enterprise Miner™を予測モデリングに使用するときには、利益や収益を最大化するモデルを選ぶように心掛けます。例えば、ある顧客への対応について意思決定を行う際には、イエスかノーの単純な判断ではなく、その意思決定の結果として見込まれる収益を確認したいのです。こうした要素をモデルに追加することが非常に重要です」(トンプソン)

7

モデルの評価と選択 モデルを構築したら、効果的な予測を行えるかどうか、モデルを検証する必要があります。データ・サイエンティストは一般に、学習用のデータセットを用いてモデルを開発し、その後、既知の実データから取り出したサンプルを使ってモデルをテストします。データの量が不十分で、その一部をテスト用として確保するのが難しい場合には、データのランダム部分サンプリング、またはランダム層別部分サンプリングを行うのが一般的です。また、k分割クロス・バリデーションや、Leave-One-Out(LOO)法クロス・バリデーションなどの手法も利用できます。

しかし、次の点に注意が必要です。「もし、100万個のオブザベーションがあり、事象の発生率が1%であるような場合は、その事象を分類または予測できるかを理解するためにすべてのデータを評価するのが有効でしょう。事象の発生率が小さい不正などのケースでは、オーバーサンプリングを用いて元データセットのバイアスを訂正し、かつ、まれな事象に着目することに比重を置いた生体サンプルを開発すれば、より優れたモデルを導き出せるようです」(トンプソン)

モデルの中には、データベース・マーケティングにおいて顧客をスコアリングするために開発されるものがあります。例えば、マーケティング担当者は特別なオファーの対象とする顧客を絞り込むために、ある商品を購入する可能性が高い顧客を把握しなければなりません。また、マーケティングの取り組みではイベント発生率(一般に反応率と呼ばれます)がかなり小さい傾向があり、多くの場合は1%程度です。「データベース・マーケティングで使うモデルを評価する場合、私なら、リフト値に着目した統計情報か、そのモデルがファイルの特定の深さでどの程度効果的に機能するかを基準にします。モデルの総合的な誤判別率には関心を示さないかも知れません。反応率が1%しかないのであれば、空(null)のモデルでも99%の精度ということになります。ですから、私なら、最初に予測を作成し、リフト値に関する予測プロファイルを生成し、ファイルの深さにおいてリフト値が最大化するモデルを選択するでしょう」(トンプソン)

機械学習の活用例 機械学習は、これまで長く予測分析に用いられてきました。典型的な用途としては、解約の防止、不正行為の特定、リスクの低減などがあり、これらの技術は消費者ニーズの予測、次に提示すべき最良のオファーの推奨、製造工程の上流における不具合の検出にも適用されています。サイバーセキュリティや治療効果の向上を図るバイオイメージング分析の分野においても、機械学習の適用に高い関心が集まりつつあります。

製造プロセスの最適化 ハイテク製造の現場では多くのロボット工学が用いられており、ストリーミング・センサーや画像データは不具合が発生しやすい場所とタイミングを特定する上で重要な役割を担います。最新の半導体製造工程では、チップの生産に3Dプリント技術が使用されています。半導体部品のデジタルプリントにおいて、液滴の欠陥率が10億分の1という統計は一見悪くないように思えますが、1秒間に5千万回の吐出が可能である点を考慮すると、20秒に1回不具合が生じることになります。

では、大手グローバル半導体メーカーがどのようにSASの機械学習手法(特にパターン検出)を用いてウエハーの生産性を向上しているかを見ていきましょう。まず、ウエハーの良品を機械に学習させることから始まります。ウエハーとは細くスライス加工された半導体材料で、集積回路の製造に用いられます。各ウエハーに対しては9万を超える測定が行われ、ウエハーの画像からデータが収集されます。均一で滑らかな表面(良品)には、全体に同じ値のピクセル数が並ぶ一方、この基準値からの逸脱は表面に凹凸があり均一でない(不良品)ことを表します。画像処理を活用することで、不具合のパターンが特定されたのです。

大手グローバル 半導体メーカーでは、 SAS®の機械学習手法 (特にパターン検出)を用いて ウエハーの生産性を 向上しています。

8

どのような状態が不具合であるかをコンピューターが認識した後は、パターン検出を駆使して新たなウエハーを不具合のパターンと照合させることで、不良品が自動的に検出されます。最新技術と機械学習の活用によって、製造分野における品質管理はこれからも向上し続けるはずです。

機械学習向けの SAS®アナリティクス・ソリューション SASには、汎用的な統計の分野における長い歴史と実績があります。1976年、米国農務省向けに土壌、天候、種子が収穫量に与える影響を分析するための統計ソフトウェアの開発およびリース事業を主軸として設立されました。長年にわたって記述的アナリティクス、予測的アナリティクス、処方的アナリティクスの分野におけるリーダーとして認められ、世界のアナリティクス市場においてトップのシェアを獲得しています。

SASはデスクトップからエンタープライズまでさまざまな分析ソリューションを提供し、予測やオペレーションズ・リサーチなど、特定の分析手法における多様なオプションと業界に特化したソリューションも用意しています。データマイニングおよび機械学習向けとしては、以下の2つのソリューションを開発しました。

SAS® Visual Data Mining and Machine Learning SAS Visual Data Mining and Machine Learningは、先進のマルチテナント・パフォーマンス、弾力性、復元力を備えた統合インメモリ・アナリティクス処理を実現します。極値の勾配ブースティング、ファクタライゼーション・マシンなど、最新の機械学習アルゴリズムを搭載しています。特徴エンジニアリングとデータ削減の手法によって、潜在的な予測変数の特定、大規模なデータセットの次元削減、元データからの新たな特徴の作成が可能になるため、分析結果の信頼性が向上します。

さらに、特定の機械学習モデルにおける自動チューニング機能は、モデル精度の最大化と効率の向上に最適なパラメータ設定を迅速かつ容易に特定します。SAS Visual Data Mining and Machine Learningのアルゴリズムと機能は、Java、R、Python、Luaなどの言語でコーディングし、REST APIを通じてサードパーティ製アプリケーションから呼び出すことが可能です。

SAS® Visual Data Mining and Machine Learningは、以下の機能を提供します。

• 対話操作型のWebベースのプログラミング環境

• 拡張性の高いインメモリ分析処理

• 分析データの準備

• データ探索、特徴エンジニアリング、次元削減

• 最新の統計/データマイニング/機械学習アルゴリズムによるモデル開発

• 統合テキスト分析

• モデルの評価とスコアリング

このソリューションは、SASの次世代プラットフォーム「SAS® Viya™ エンジン」を採用しています。マルチパスのアナリティクス計算処理に最適化されたSAS Viyaは、メモリ内のデータへの同時アクセスを可能にする安全なマルチユーザー環境を提供します。そのため、多くのユーザーがコラボレーションに参加して、同じデータを探索したり、モデル構築を同時に行ったりすることが可能です。データと分析負荷に関するオペレーションが単一サーバーのコア群、または大規模コンピューティング・クラスターのノード群に自動的に分散されるため、極めて高速な並列処理の利点を最大限に活用できます。すべてのデータ、テーブル、オブジェクトが必要に応じてメモリ内に保持され、効率的なインメモリ処理を実現します。また、標準装備のフォールト・トレランス機能とメモリ管理機能により、高度なワークフローをデータに適用して、プロセスを常に確実に完了させることが可能です。

9

SAS® Enterprise Miner SAS®9ベースのプロセスフローGUIを採用したSAS Enterprise Minerでは、ドラッグアンドドロップ方式でタスク指向のアイコンを操作し、ウィザードに従ってデータマイニングや機械学習のアルゴリズム(ともに教師あり/教師なし)を利用することができます。

決定木分析、バギングおよびブースティング、時系列データマイニング、ニューラル・ネットワーク、記憶ベース推論(MBR)、階層的クラスタリング、線形およびロジスティック回帰分析、アソシエーション分析、シーケンス分析、Webパス分析など、定番のアルゴリズムはすべて含まれています。クレジット・スコアリングなど業種に特化したアルゴリズムも含まれているほか、勾配ブースティングや部分最小二乗法(PLS)といった最新の分析手法も利用できます。

また、データ準備手法、変数選択方法、テキストマイニングの各種手法、モデル評価など、幅広いタスクが用意されています。こうした数々の機能により、SAS Enterprise Minerでは、データマイニングや機械学習の反復アプローチを極めて簡便に実行できるようになっています。タスクの実行結果の確認後、タスクのプロパティ設定やパラメータ値を変更するだけで、関連するタスクを再実行することができます。

SAS Enterprise Minerのプロセスフローに直接SAS Viyaコードを投入して実行することで、高可用性、高速インメモリ処理、多様な画像データタイプ、クラウドのネイティブ・サポートなど、SAS Viyaがもたらす強力な機能をSASプラットフォーム上で効果的に活用することもできます。また、R言語、Python言語で書かれたコードをSAS Enterprise Minerのプロセスフロー・ダイアグラム(PFD)に簡単に統合することが可能です。これにより、データの変換と探索や、教師あり/教師なしモデルのトレーニングとスコアリングを他のプログラミング言語で行うことができます。その後は、結果を統合することや、独自のRモデルまたはPythonモデルを評価してSAS Enterprise Minerで作成したモデルと比較することで、最もパフォーマンスの高いモデルを突き止めることが可能です。

結論 利用できるデータ量がますます増大していることから、膨大なデータ分析に対応した機械学習の手法が注目を集めています。

SASのソリューションを採用することで、データ・サイエンティストは機械学習の手法を利用し、最先端のインメモリ分散コンピューティング・プラットフォームの利点を活かしてビッグデータに潜む洞察を導き出すことができます。これらのソリューションには、統計担当者やデータ・サイエンティストが対話操作でデータを確認し、高度な分析モデルを作成するためのさまざまなツールが用意されています。これにより快適な作業環境で、信頼性に優れたSASアルゴリズムと最新の機械学習手法を効果的に活用できるようになります。

データをその場で修正し、稼動中の分析モデルに対しても調整を行えるSASのソリューションでは、人間の思考に近いプロセスで機械学習の手法を活用することができます。同時に優れた処理能力を活用し、これまでにない速さで洞察を生み出せるのです。

データをその場で修正し、 稼動中の分析モデルに 対しても調整を行える

SAS®のソリューションでは、 人間の思考に近いプロセスで機械学習の手法を 活用することができます。

このカタログに記載された内容は、改良のため予告なく仕様・性能を変更する場合があります。あらかじめご了承ください。SAS、SASロゴ、その他のSAS Institute Inc.の製品名・サービス名は、米国およびその他の国におけるSAS Institute Inc.の登録商標または商標です。その他記載のブランド名および製品名は、それぞれの会社の商標です。Copyright©2017, SAS Institute Inc. All rights reserved. JP2017CP_SMLaS_SE

SAS Institute Japan株式会社 www.sas.com/jp [email protected]本社 〒106-6111 東京都港区六本木6-10-1 六本木ヒルズ森タワー 11F Tel: 03 6434 3000 Fax: 03 6434 3001大阪支店 〒530-0004 大阪市北区堂島浜1-4-16 アクア堂島西館12F Tel: 06 6345 5700 Fax: 06 6345 5655