材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output...

13
材料データプラットフォームの構築: 材料計測データの 高効率収集と自動可読化 統合型材料開発・情報基盤部門(MaDIS) 材料データプラットフォームセンター 吉川 英樹 1

Transcript of 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output...

Page 1: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

材料データプラットフォームの構築:材料計測データの

高効率収集と自動可読化

統合型材料開発・情報基盤部門(MaDIS)

材料データプラットフォームセンター

吉川 英樹

1

Page 2: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

機能から物質を探索 材料の実用化を加速

データを作り、貯め、活用する

Materials Research Bank (MRB)「物質・材料データプラットフォームの構築」

2014年10月〜2015年7月〜

2017年4月〜

内閣府SIP「革新的構造材料」マテリアルズインテグレーション

JSTイノベーションハブ構築事業情報統合型物質・材料開発

イニシアティブ

統合型材料開発システムの

実現

2

物質・材料研究機構におけるマテリアルズ・インフォマティクスへの展開

Page 3: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

Materials Research Bank (MRB)– 材料データプラットフォームセンターのミッション–

3

データ駆動型リポジトリからデータパブリッシュ

データ収集と高付加価値化

文献からのAIを使ったデータマイニング機械学習手法を取り入れた先進的データベース

高機能物質・材料データベース

解析サーバ

連携・共同研究

民間利用Physical model of micro-

structure

Visualization of materials information

Selection of candidate materials

先進データベース

実験装置からのデータの高効率収集, IoT計測機器メーカーと連携したデータの可読化

日本の大型研究施設からメタ情報とトレーサビリティ

SIP-MI 統合システムによる利用技術の活用

学術利用

材料情報統合データプラットフォーム ツールや

アプリケーション

Page 4: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

4

日本の主要企業の6割が人工知能(AI)運用に欠かせないデータ活用

で課題を抱えていることが分かった。製品やサービスの開発、事業開拓などAIの用途は新たな分野に広がりつつある。だが必要なデータが不足していたり、データ形式が不ぞろいで使えなかったりと、AIの導入に戸惑う事例も多い。欧米を中心に企業のAI活用が急拡大するなか、「動かないAI」が増え続ければ世界競争に出遅れかねない。

AI、データ不足6割 「動かない頭脳」続出の恐れ大手113社の活用状況、日経と「xTECH」が調査

2018年9月30日 日本経済新聞 電子版

引用:https://www.nikkei.com/article/DGKKZO3593221030092018MM8000/

Page 5: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

6

(1)計測データとそのメタデータを,他者が理解したり,他者が使う(計測装置に付属する専用ソフトウェア以外の)AIを含む多様なソフトウェアで処理&解析できるように整理して登録するのに手間をかけられない

(2)データ整理に必須のメタデータをどのように記述すれば良いか? で悩むメタデータを記述するひな形(テンプレート)をどうするか?メタデータを記述する専門用語(語彙)として何を使うべきか?

(3)計測者個人にとって,他者のために計測データを整理して登録するインセンティブが無い

R&D部門において計測データを共通プラットフォーム上に登録する際の研究者側の事情と悩み

Page 6: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

7

(1)組織内の計測データの(AIも使った)有効活用を目的として,日々生成されるデータをどのように共有資産化すれば良いか? で悩む

(2)(1)の実現方法が多様で,かつデータの共用資産化がもたらす事業メリットの予測が難しいため,(1)の取り組みに予算と人材をあまり投入できない

(3)組織内の計測データが蓄積されたとしても,AIも駆使したデータの有効活用ができる人材が組織内に乏しい

R&D部門において計測データを共通プラットフォーム上に登録する際の管理者側の事情と悩み

Page 7: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

8

R&D部門において計測データを共通プラットフォーム上に登録する際の悩みに対する対応策

悩みに対する対応策は . . . (1)データの収集と可読化の効率化

◆ 計測データの収集,可読化(用語の整理,メタデータの記述),登録の自動化◆ その自動可読化を実現するツールの開発

(2)計測者自らがデータの高付加価値化を効率的に行う仕組みを作る◆ 計測データにAI技術を適用するための専門家(数理統計研究者,DB技術者,

プログラマー,キュレーター等)チームの存在◆ それら専門家チームの技術のツール化と一般計測者への普及

上記の対応策を低コストで実現するためには . . . ◆「各種ツール」と「各種ツールに組み込む材料データシート」を広く共用するプラット

フォームが必要◆ツールの製作は,1機関の努力だけでは困難で,計測装置メーカーを含む多機関

の連携が必要

Page 8: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

9実験装置実験装置メーカー 実験者 キュレーター

実験装置 実験者 キュレーター

データ整理・登録

データ整理・登録

データ/メタデータ

データ/メタデータ

データ/メタデータ

データ/メタデータ

実験装置が出力するデータファイルの書式と語彙の情報を教えて頂く

各機関内に閉じた従来の一般的なデータ登録のフロー

(装置メーカーを含む)多機関連携

に基づく新しいデータ登録のフロー データ整理の作業をできるだけ研究者の手から離し,作業を自動化する

登録が面倒ミスの混入あり

登録の手間なし,ミスなし整理済みのデータを見る

データ翻訳

情報提供の協力

Page 9: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

10

機械可読性を高める計測データのメタ情報抽出ツールの公開プラットフォーム

・機械固有のバイナリーデータから人間可読かつ相互運用・再利用可能なデータへ・計測データのスペクトルなどによる可視化

変換 ~Convert~

抽出 ~Extract~

出力~XML Output~

AIや機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

・メタ情報を付与した主要パラメータのXML形式の出力

・再現測定などに必須となる最小限度の計測条件を「主要パラメータ」として抽出・計測装置独自の用語を一般的な用語に共通化した主要パラメータの再定義

https://www.nims.go.jp/MaDIS/about/M-DaC.htmlダウンロードサイト

Page 10: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

11

がカバーする計測データの可読化と高付加価値化のフロー

Page 11: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

12

実験装置が出力するデータの可読化と高付加価値化のXPSでの実例

バイナリの生データ

テキストファイル

計測装置メーカーからご提供頂いたテキスト変換プログラム

フォーマット変換後の数値行列データ(人による可読性に優れる)

フォーマット変換後の数値行列データを解読してグラフ化するPythonプログラム(パーサ)

グラフ

NIMSで自作した可読化のための用語(語彙)及びフォーマットの変換プログラム

用語(語彙)が可読化された後にXML形式で記録されたメタデータ

可読化されたデータNi3p

ユーザーによるフォーマットのカスタマイズが可能な

Schema on Read型のデータ登録

自動でスパース化されたデータ

Page 12: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

2種類のデータベースの構造(スキーマ)

Schema-on-Read型 Schema-on-Write型

コンセプトデータを無加工または最低限の加工を経て記録データを読み出す時までに個別のスキーマおよびパーサを与える

データを保存する際にデータベースとして統一された共通スキーマに合うようにデータを加工して記録

データ蓄積工程 平易(個別スキーマの決定や修正は容易)

難(共通スキーマの確立や修正に時間を要する)

スキーマのメンテナンス 平易 非常に重要

データの種別 非構造化データ(画像/音声/動画等のデータも保存可能) 構造化データ

データベースの管理 NoSQL(非リレーショナル) SQL(リレーショナルデータベース)拡張性 平易 可

定型的な活用 定型的な活用には処理が必要 定形的な活用に適しているデータ提供者の負荷 軽い 重い

13

Page 13: 材料データプラットフォームの構築: 材料計測データの 高効 …...XML Output ~ AI や機械学習で利用しやすい計測データの創出・蓄積・共有をより効率的に,より簡便に

X線光電子分光法(XPS)とX線回折法(XRD)の2種の計測法

● XPS アルバック・ファイ社 Quantera SXM シリーズ

● XRD リガク社 SmartLab シリーズ

今後もご協力頂ける計測メーカーを広げるとともに, XRDやXPSに限定せず,対応する装置

や対象とする計測技術分野の拡大を図っていく予定

14

が対応する計測手法と装置(2019年1月30日現在)

謝辞:アルバック・ファイ社,リガク社に深く感謝いたします