「専修学校版デュアル教育」 教育効果測定の手引き...「2 効果測定の考え方」では、デュアル教育におけ る効果測定の基本的な考え方と、効果測定の分析・活用事例を示す。次に「3
材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output...
Transcript of 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output...
材料データプラットフォームの構築:材料計測データの
高効率収集と自動可読化
統合型材料開発・情報基盤部門(MaDIS)
材料データプラットフォームセンター
吉川 英樹
1
機能から物質を探索 材料の実用化を加速
データを作り、貯め、活用する
Materials Research Bank (MRB)「物質・材料データプラットフォームの構築」
2014年10月〜2015年7月〜
2017年4月〜
内閣府SIP「革新的構造材料」マテリアルズインテグレーション
JSTイノベーションハブ構築事業情報統合型物質・材料開発
イニシアティブ
統合型材料開発システムの
実現
2
物質・材料研究機構におけるマテリアルズ・インフォマティクスへの展開
Materials Research Bank (MRB)– 材料データプラットフォームセンターのミッション–
3
データ駆動型リポジトリからデータパブリッシュ
データ収集と高付加価値化
文献からのAIを使ったデータマイニング機械学習手法を取り入れた先進的データベース
高機能物質・材料データベース
解析サーバ
連携・共同研究
民間利用Physical model of micro-
structure
Visualization of materials information
Selection of candidate materials
先進データベース
実験装置からのデータの高効率収集, IoT計測機器メーカーと連携したデータの可読化
日本の大型研究施設からメタ情報とトレーサビリティ
SIP-MI 統合システムによる利用技術の活用
学術利用
材料情報統合データプラットフォーム ツールや
アプリケーション
4
日本の主要企業の6割が人工知能(AI)運用に欠かせないデータ活用
で課題を抱えていることが分かった。製品やサービスの開発、事業開拓などAIの用途は新たな分野に広がりつつある。だが必要なデータが不足していたり、データ形式が不ぞろいで使えなかったりと、AIの導入に戸惑う事例も多い。欧米を中心に企業のAI活用が急拡大するなか、「動かないAI」が増え続ければ世界競争に出遅れかねない。
AI、データ不足6割 「動かない頭脳」続出の恐れ大手113社の活用状況、日経と「xTECH」が調査
2018年9月30日 日本経済新聞 電子版
引用:https://www.nikkei.com/article/DGKKZO3593221030092018MM8000/
6
(1)計測データとそのメタデータを,他者が理解したり,他者が使う(計測装置に付属する専用ソフトウェア以外の)AIを含む多様なソフトウェアで処理&解析できるように整理して登録するのに手間をかけられない
(2)データ整理に必須のメタデータをどのように記述すれば良いか? で悩むメタデータを記述するひな形(テンプレート)をどうするか?メタデータを記述する専門用語(語彙)として何を使うべきか?
(3)計測者個人にとって,他者のために計測データを整理して登録するインセンティブが無い
R&D部門において計測データを共通プラットフォーム上に登録する際の研究者側の事情と悩み
7
(1)組織内の計測データの(AIも使った)有効活用を目的として,日々生成されるデータをどのように共有資産化すれば良いか? で悩む
(2)(1)の実現方法が多様で,かつデータの共用資産化がもたらす事業メリットの予測が難しいため,(1)の取り組みに予算と人材をあまり投入できない
(3)組織内の計測データが蓄積されたとしても,AIも駆使したデータの有効活用ができる人材が組織内に乏しい
R&D部門において計測データを共通プラットフォーム上に登録する際の管理者側の事情と悩み
8
R&D部門において計測データを共通プラットフォーム上に登録する際の悩みに対する対応策
悩みに対する対応策は . . . (1)データの収集と可読化の効率化
◆ 計測データの収集,可読化(用語の整理,メタデータの記述),登録の自動化◆ その自動可読化を実現するツールの開発
(2)計測者自らがデータの高付加価値化を効率的に行う仕組みを作る◆ 計測データにAI技術を適用するための専門家(数理統計研究者,DB技術者,
プログラマー,キュレーター等)チームの存在◆ それら専門家チームの技術のツール化と一般計測者への普及
上記の対応策を低コストで実現するためには . . . ◆「各種ツール」と「各種ツールに組み込む材料データシート」を広く共用するプラット
フォームが必要◆ツールの製作は,1機関の努力だけでは困難で,計測装置メーカーを含む多機関
の連携が必要
9実験装置実験装置メーカー 実験者 キュレーター
実験装置 実験者 キュレーター
データ整理・登録
データ整理・登録
データ/メタデータ
データ/メタデータ
データ/メタデータ
データ/メタデータ
実験装置が出力するデータファイルの書式と語彙の情報を教えて頂く
各機関内に閉じた従来の一般的なデータ登録のフロー
(装置メーカーを含む)多機関連携
に基づく新しいデータ登録のフロー データ整理の作業をできるだけ研究者の手から離し,作業を自動化する
登録が面倒ミスの混入あり
登録の手間なし,ミスなし整理済みのデータを見る
データ翻訳
情報提供の協力
10
機械可読性を高める計測データのメタ情報抽出ツールの公開プラットフォーム
・機械固有のバイナリーデータから人間可読かつ相互運用・再利用可能なデータへ・計測データのスペクトルなどによる可視化
変換 ~Convert~
抽出 ~Extract~
出力~XML Output~
AIや機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に
・メタ情報を付与した主要パラメータのXML形式の出力
・再現測定などに必須となる最小限度の計測条件を「主要パラメータ」として抽出・計測装置独自の用語を一般的な用語に共通化した主要パラメータの再定義
https://www.nims.go.jp/MaDIS/about/M-DaC.htmlダウンロードサイト
11
がカバーする計測データの可読化と高付加価値化のフロー
12
実験装置が出力するデータの可読化と高付加価値化のXPSでの実例
バイナリの生データ
テキストファイル
計測装置メーカーからご提供頂いたテキスト変換プログラム
フォーマット変換後の数値行列データ(人による可読性に優れる)
フォーマット変換後の数値行列データを解読してグラフ化するPythonプログラム(パーサ)
グラフ
NIMSで自作した可読化のための用語(語彙)及びフォーマットの変換プログラム
用語(語彙)が可読化された後にXML形式で記録されたメタデータ
可読化されたデータNi3p
ユーザーによるフォーマットのカスタマイズが可能な
Schema on Read型のデータ登録
自動でスパース化されたデータ
2種類のデータベースの構造(スキーマ)
Schema-on-Read型 Schema-on-Write型
コンセプトデータを無加工または最低限の加工を経て記録データを読み出す時までに個別のスキーマおよびパーサを与える
データを保存する際にデータベースとして統一された共通スキーマに合うようにデータを加工して記録
データ蓄積工程 平易(個別スキーマの決定や修正は容易)
難(共通スキーマの確立や修正に時間を要する)
スキーマのメンテナンス 平易 非常に重要
データの種別 非構造化データ(画像/音声/動画等のデータも保存可能) 構造化データ
データベースの管理 NoSQL(非リレーショナル) SQL(リレーショナルデータベース)拡張性 平易 可
定型的な活用 定型的な活用には処理が必要 定形的な活用に適しているデータ提供者の負荷 軽い 重い
13
X線光電子分光法(XPS)とX線回折法(XRD)の2種の計測法
● XPS アルバック・ファイ社 Quantera SXM シリーズ
● XRD リガク社 SmartLab シリーズ
今後もご協力頂ける計測メーカーを広げるとともに, XRDやXPSに限定せず,対応する装置
や対象とする計測技術分野の拡大を図っていく予定
14
が対応する計測手法と装置(2019年1月30日現在)
謝辞:アルバック・ファイ社,リガク社に深く感謝いたします