StatWorks/V5機械学習編における開発のねらいと概要 ·...

/27

StatWorks/V5機械学習編における開発のねらいと概要

株式会社日本科学技術研修所数理事業部犬伏秀生

1StatWorks/V5機械学習編製品説明会(2019/8/2,5)資料

(c)The Institute of JUSE , 2019

StatWorks/V5機械学習編製品説明会(2019/8/2,5)資料

/27

はじめに弊社ではJUSE-StatWorks/V5シリーズの新製品「JUSE-

StatWorks/V5機械学習編」を下記のとおりに発売しました．

本日の製品説明会では，StatWorks/V5機械学習編の概要，機能，商品・サービスについてご説明します．

本日のご説明内容は，2019年8月時点での情報となります．今後断りなく変更する場合がありますので，予めご了承下さい．



2

JUSE-StatWorks/V5 機械学習編スタンドアロン版 2019年4月25日発売ネットワーク版 2019年6月27日発売

/27

ご説明項目1. 開発のねらいと概要 StatWorksの概要，機械学習編開発の背景・ねらい等

2. 搭載手法の概要搭載手法一覧，各搭載手法の概要等

3. 多変量解析手法との関連多変量解析手法との対応，機械学習手法の主な特徴等

4. 機械学習編の分析手順 lasso回帰の分析手順



3

/27

開発のねらいと概要



4

/27

JUSE-StatWorksとは「統計解析業務パッケージ JUSE-StatWorks」（以下，StatWorks）は，弊

社が開発・販売を行っている統計解析ソフトウェアです．最新のバージョンは「JUSE-StatWorks/V5」になります．

StatWorksは次の特徴を持ちます；1. 日本のSQC教育に準拠 StatWorksは，(一財)日本科学技術連盟において，「品質管理セミナーベー

シックコース」を始めとした各種SQC（Statistical Quality Control：統計的品質管理）セミナーの教材としてご使用いただいています．このため，StatWorksは，日本のSQC教育に沿った機能・用語になっており，日本の製造業でSQCに関わる方に特に使い易い統計解析ソフトウェアとなっています．

2. 製造業の多くの企業様が導入済 StatWorksは，製造業の様々な分野（自動車，鉄鋼，電機など）の多くの主

要な企業様にご導入いただいています．3. サポート・顧客要望への対応が充実 StatWorksは開発・販売を弊社で行っており，サポートや要望対応などの面

もご評価いただいています．



5

/27

StatWorksの製品構成StatWorks/V5機械学習編製品説明会(2019/8/2,5)資料


6

総合編プレミアム

総合編

品質管理手法編

品質工学

因果分析

SEM因果分析編

多変量解析信頼性解析

時系列解析品質工学編

実験計画法回帰分析

QC七つ道具編

QC七つ道具新QC七つ道具工程分析

機械学習

機械学習編

製品手法群

新規追加

/27

機械学習編開発の背景近年，情報システムの整備や，工場等でのIoT（Internet of

Things：モノのインターネット）の導入などにより，製造業では以前よりも大量のデータを利用できる環境が整いつつあります．

大量のデータを用いて統計解析を行う場合，SQC（統計的品質管理）でこれまで使用されてきた統計手法ではうまく対処できなかったり，手間がかかる等の問題が生じることがあります．このため，品質管理分野でも，機械学習・AIの活用が注目され始めています．

このような背景の下，StatWorksのユーザー様より，”JUSE-StatWorks/V5に機械学習手法を搭載してほしい”との強い要望が寄せられました．

以上の経緯より，弊社ではJUSE-StatWorks/V5 機械学習編の開発に着手し，この度の発売に至りました．



7

/27

機械学習編のねらい(1)1. 製造業の品質管理分野で有用な機械学習手法を搭載 (一財)日本科学技術連盟の「モノづくりにおける問題解決

のためのデータサイエンス入門コース」セミナーで教えられている機械学習手法を搭載

画像や波形データの識別ではなく，主として従来のSQCで扱われている課題に対して適用することを想定した機械学習手法を搭載

内部処理がブラックボックスではなく（ディープラーニング等），ある程度理解できる機械学習手法を搭載

SQCでよく用いられる多変量解析との対比で理解でき，予測だけではなく，要因の分析を目的とした分析も一部行うことができる機械学習手法を搭載

ただし，搭載された機械学習手法は汎用的であり，品質管理分野以外の分野でも有効である



8

/27

機械学習編のねらい(2)2. 品質管理に関わる現場の技術者が問題解決や課題達

成のために手軽に使用できるサーバーやクラウドへの接続が不要で，単体のPC上で動

作する※1 ．スクリプトの記述は不要で，GUI（グラフィカル・ユー

ザ・インターフェース）で操作できる．最終的な分析結果のみを出力するのではなく，分析の過程

に沿った分析結果を出力する機能構成とする．主要な分析結果はグラフにより視覚的に確認できる．社内で多くの方が使用する状況でも導入しやすい価格体系

とする．機械学習の結果画面は，StatWorks/V5の既存製品の結果

画面と同様のレイアウト・操作性とする．



9

※1 ネットワーク版（後述）の場合は，ライセンスを管理するためのサーバーが必要です．

/27

機械学習編の機能上の特徴1. 稼働保証OSはWindows10(64bit)のみとなります．2. 解析可能なデータサイズは100,000サンプル(行)×1,000変数

(列)以内となります．3. データの入力・編集は既存の製品と同じStatWorks/V5本体

上で行います．一方，機械学習の解析は，StatWorks/V5本体とは別の，機械学習専用のモジュール上で行われます．

4. StatWorks/V5の既存製品（総合編プレミアム等）と機械学習編を同一のPCにインストールするとメニューが統合され，一体で使用できます（下図）．



10

【総合編プレミアム＋機械学習編】【総合編プレミアム】

【機械学習編】同じフォルダーにインストール

/27

機械学習分析ツールの比較StatWorks/V5機械学習編製品説明会(2019/8/2,5)資料


11

No 分類ツールサーバー・クラウド不要

スクリプトの記述不要特徴

1 オープンソース

R ● × 解析機能は豊富であるが，スクリプトの記述が必要となる．

2 Python ● ×3 商用ソフ

トウェアIBM SPSS Modeler ▲ ● 解析機能が豊富で使い勝手も良いが，

高価である．また，サーバーが必要なケースが多い．4 JMP Pro ● ●

5 DataRobot × ●6 StatWorks/V5

機械学習編 ● ●解析機能や解析可能なデータ量は限られるが，使い勝手が良い．サーバーは不要※1．

7 クラウドサービス

Microsoft Azure × ● 大量データの処理を想定しており，使用するための敷居が高い．

8 AWS × ×

※1 ネットワーク版（後述）の場合はライセンス管理のためにサーバーが必要になります

代表的な機械学習分析ツールの特徴は次のようになります．※本比較は弊社の独自な調査に基づいており，情報の正確性は保証しません．

/27

品質管理分野での機械学習の活用場面1. 異常検知

機械学習手法の高い予測能力を使って精度良く異常を検出することが強く期待されています．画像に基づく異常検知として「ディープラーニング」が有名ですが，数値データに基づく異常検知であればStatWorks/V5機械学習編に搭載された機械学習手法で行うことができます．

2. 品質安定化のための予測品質安定化のためには，製造条件と品質特性との関係を把握し，品質特性が

望ましい状態になるように製造条件を調整する必要があります．品質特性に対する予測式の構築を機械学習手法で行うことにより，製造条件の調整をより精度良く行うことができることが期待できます．

3. 目的変数に影響を与えている要因の検討「要因の検討」は機械学習手法の本来の使い方（機械学習手法は予測が目

的）には反しますが，機械学習手法は多くの変数で構成されるデータを比較的容易に分析できるため，目的変数に影響を与えている要因の当たりを付ける目的で機械学習手法を活用したいとのニーズは強くあります．



12

/27

機械学習編の活用場面1. 機械学習手法の教育

現場の技術者も含め，社内で広く機械学習手法を活用することを目指す場合は，機械学習手法の教育から始める必要があります．StatWorks/V5機械学習編は，操作性や稼働環境（PC単体で稼働など）の面で教育でも使用しやすい製品になっています．

2. 中規模データの分析 StatWorks/V5機械学習編は，1,000変数×100,000サンプル以内の

データであれば分析可能です．

3. ビッグデータの分析モデルの検討 StatWorks/V5機械学習編は，分析上の試行錯誤がし易い機能構成に

なっておりますので，ビッグデータの分析モデルの検討段階でビッグデータから抽出した中規模データを用いてモデルの検討を行う目的でも有効に活用できます．



13

/27

出力画面イメージStatWorks/V5機械学習編製品説明会(2019/8/2,5)資料


14

JUSE-StatWorks/V5ワークシート

（全製品共通）機械学習編モジュール

手法群「機械学習」

データの入力・編集

機械学習手法による解析

/27

搭載手法の概要



/27

搭載手法一覧16StatWorks/V5機械学習編製品説明会(2019/8/2,5)資料


No ｸﾞﾙｰﾌﾟ解析手法概要・特徴1 ﾃﾞｰﾀ

ｸﾘｰﾆﾝｸﾞデータクリーニング欠測の確認・処置や外れ値の確認・処置など

解析前のデータの整理を行うことができます2 データ

可視化濃淡散布図，密度プロット，等高線図

サンプル数が多い場合でも，データの分布を視覚的に確認することができます．

3 情報要約

カーネル主成分分析通常の主成分分析よりも，サンプルをより“良く”層別できる場合があります．

4 層別混合ガウス分布データの分布を複数の正規分布の重ね合わせで近似し，層別を行うことができます．

5 正則化回帰

リッジ回帰，lasso回帰，Elastic Net

正則化項の導入により，重回帰分析よりも予測精度が良い予測式を得ることができます．

6 分類・予測

ｻﾎﾟｰﾄﾍﾞｸﾀﾏｼﾝ(SVM) “マージン最大化”と“カーネル法”により，精度が良い予測結果を得ることができます．

7 ランダム・フォレスト

複数の決定木を用いて予測を行うことにより，精度が良い予測結果を得ることができます．

8 外れ値検出

1クラスSVM 学習データとは傾向が異なるサンプルを検出するための識別関数を得ることができます．

9 因果分析

glasso 変数間の関連を視覚的に確認できます．また，サンプル・変数の異常度も得られます．

/27


混合ガウス分布17

解析手法「混合ガウス分布」では，データの分布を複数の正規分布の重ね合わせで近似し，重ね合わせた正規分布に基づいてクラスタリングを行うことができます．

分析データ混合ガウス分布の当てはめと層別


/27

正則化回帰の概要18

手法群「正則化回帰」では，目的変数（量的変数）を複数の説明変数（量的変数・質的変数）から予測するための式を得ることができます．

予測式予測結果実測値vs予測値の散布図（学習データの予測精度）

lasso回帰による予測式



/27

ｻﾎﾟｰﾄﾍﾞｸﾀｰﾏｼﾝ(SVM)19

解析手法「ｻﾎﾟｰﾄﾍﾞｸﾀｰﾏｼﾝ(SVM)」では，目的変数(質的変数)を複数の説明変数（量的変数）から予測することができます．

中略

分析データ

識別境界※グラフで確認できるのは説明変数が2個の場合のみ



誤判別表

/27

ランダム・フォレスト20

解析手法「ランダム・フォレスト」では，目的変数（量的変数・質的変数）を複数の説明変数（量的変数・質的変数）から予測することができます．

また，手法群「ランダム・フォレスト」では決定木の分析結果も確認することができます．

決定木ランダムフォレストに対する正誤表※本出力例の目的変数（質的変数）は「塗装たれ不良（あり/なし）」



/27

1クラスSVM21

解析手法「1クラスSVM」では分析対象データ（学習データ）と異なる傾向を持つサンプルを検出することができます．

解析手法「1クラスSVM」の分析対象データには，目的変数（教師）は含みません．

識別境界※グラフで確認できるのは説明変数が2個の場合のみ

予測結果新たなデータに対する予測結果



/27

glasso22

偏相関グラフサンプル異常度

変数異常度

※乗用車(ガソリン車)のモデルを基に算出された乗用車(ハイブリッド車)のサンプル異常度の例

※乗用車(ガソリン車)のモデルを基に算出された軽乗用車の変数異常度の例

解析手法「glasso」では，変数間の関連(モデル)を視覚的に確認することができます．また，分析対象データ（学習データ）に対して得られた変数間の関連(モデル)を基に，新たなデータに対する「サンプル異常度」や「変数異常度」を確認することもできます．



/27

多変量解析手法との関連



/27

多変量解析手法との対応24

No 機械学習手法(A) 対応する多変量解析手法(B) B→Aの主な拡張点1 ｶｰﾈﾙ主成分分析主成分分析・カーネル法の導入2 混合ガウス分布非階層的クラスター分析

(k-means)・正規分布の重ね合せを仮定

3 リッジ回帰，lasso回帰，Elastic Net

重回帰分析・数量化Ⅰ類・正則化項の導入

4 ｻﾎﾟｰﾄﾍﾞｸﾀﾏｼﾝ(SVM)

判別分析・数量化Ⅱ類・カーネル法の導入・識別境界の決め方の変更・罰則項の導入・分布の仮定の撤廃

5 ﾗﾝﾀﾞﾑ・ﾌｫﾚｽﾄ多段層別分析(AID) ・バギングの導入6 1クラスSVM MT法・カーネル法の導入

・識別境界の決め方の変更・分布の仮定の撤廃

7 glasso ｸﾞﾗﾌｨｶﾙﾓﾃﾞﾘﾝｸﾞ(GM) ・正則化項の導入



/27

機械学習手法の主なポイント25

機械学習手法における予測能力向上の主なポイントは次のようになります．

StatWorks/V5機械学習編製品説明会(2019/8/2,5)資料①


No ポイント概要1 カーネル法カーネル法は，学習データを高次元空間に写像し，高次元空間上で識別

境界などを設定する方法を指します．このとき，写像先の高次元空間でのサンプル間の内積を表すカーネル関数のみを定義すれば分析できます．

代表的なカーネル関数は“ガウスカーネル”，“多項式カーネル”です．ガウスカーネルのパラメータσ，多項式カーネルの次数pは，「ハイ

パーパラメーター」と呼ばれ，クロスバリデーション等により，データに合わせて適切に決めることが推奨されます．

2 正則化項・罰則項

正則化項・罰則項は，学習データへのオーバーフィッティングを避けるために，損失関数（最適化対象の式）に導入する項のことを指します．

正則化項・罰則項の重み（重視する程度）は，「ハイパーパラメーター」と呼ばれ，クロスバリデーション等により，データに合わせて適切に決めることが推奨されます．

3 バギングバギングは，学習データからブートストラップ法により複数のデータセットを生成し，それらのデータセットから得られる複数のモデルを使用して予測を行うことを指します．

複数のモデルを用いて予測することにより，1つのモデルで予測するよりも平均的に精度よく予測することができます．

ランダム・フォレストでは，バギングと併せて，ノード毎に分岐条件で使用する変数の候補をランダムに絞り込むことも行っています．

/27

機械学習編の分析手順

26StatWorks/V5機械学習編製品説明会(2019/8/2,5)資料①


/27

データファイル

基本的な分析手順(lasso回帰)StatWorks/V5機械学習編製品説明会(2019/8/2,5)資料①


27

ワークシート読み込み

ｺﾋﾟｰ&ﾍﾟｰｽﾄ解析対象の変数の指定

変数指定

「データ」グループ

解析対象データの

確認

設定ダイアログ「モデル選択」グループ

分析に関する各種設定

初期分析結果の出力

ハイパーパラメータの調整

「予測」タブ

メニュー選択

「残差の検討」グループ

モデルの評価予測

「モデル」グループ

採択されたモデルの確認

本著作物は原著作者の許可を得て，株式会社⽇本科学技術研修所（以下弊社）が掲載しています．本著作物の著作権については，制作した原著作者に帰属します．原著作者および弊社の許可なく営利・⾮営利・イントラネットを問わず，本著作物の複製・転⽤・販売等を禁⽌します．所属および役職等は，公開当時のものです．

■お問い合わせ先 (株)⽇科技研数理事業部パッケージサポート係

■公開資料ページ弊社ウェブページで各種資料をご覧いただけます http://www.i-juse.co.jp/statistics/jirei/

http:/www.i-juse.co.jp/statistics/support/contact.html

StatWorks/V5機械学習編における開発のねらいと概要 ·...

Documents

Transcript of StatWorks/V5機械学習編における開発のねらいと概要 ·...

StatWorks/V5機械学習編 における開発のねらいと概要 ·...

Documents

Transcript of StatWorks/V5機械学習編 における開発のねらいと概要 ·...

StatWorks/V5機械学習編における開発のねらいと概要 ·...

Transcript of StatWorks/V5機械学習編における開発のねらいと概要 ·...