表形式仕様書からの ソフトウェア情報の自動抽出について

46
表表表表表表表表表 表表表表表表表表表表表表表表表表表 土土 土土 土土土土土土土土 () 土土 土土 土土土土土土土 M1 土土 16 土 12 土 4 土 土 124 土 WAAP 土土 土土土土土土土土土 (:)

description

表形式仕様書からの ソフトウェア情報の自動抽出について.   土田 賢省 (東洋大学工学部)   塩野 康徳 (東洋大学大学院 M1 ) 平成 16 年 12 月 4 日 第 124 回 WAAP (於:日本大学文理学部). 本日の発表内容. 1 背景 2 目標 3 関連研究 4  KEYAKI の既存研究 5 まとめ 「既存システムのデモ」 (by 塩野). 1. 背景. 1. 1  電子文書化の加速 e- ビジネスの展開・発展 「 e 文書法」 XBRL ebXML 電子帳票のツールや支援システム開発・商用化 - PowerPoint PPT Presentation

Transcript of 表形式仕様書からの ソフトウェア情報の自動抽出について

Page 1: 表形式仕様書からの ソフトウェア情報の自動抽出について

表形式仕様書からのソフトウェア情報の自動抽

出について  土田 賢省 (東洋大学工学部)  塩野 康徳 (東洋大学大学院M1 )

平成 16 年 12 月 4 日 第 124 回 WAAP

(於:日本大学文理学部)

Page 2: 表形式仕様書からの ソフトウェア情報の自動抽出について

2

本日の発表内容1 背景 2 目標3 関連研究4  KEYAKI の既存研究5 まとめ

「既存システムのデモ」(by 塩野)

Page 3: 表形式仕様書からの ソフトウェア情報の自動抽出について

3

1. 背景1. 1  電子文書化の加速

e- ビジネスの展開・発展 「 e 文書法」 XBRL ebXML 電子帳票のツールや支援システム開発・商用化

1. 2 ソフトウェア仕様書、 XML

Page 4: 表形式仕様書からの ソフトウェア情報の自動抽出について

4

「 e 文書法」 【電子文書法】デンシブンショホウ 別名 : 民間事業者等が行う書面の保存等における

情報通信の技術の利用に関する法律 2004 年 11 月に制定。施行は 2005 年 4 月。

 帳票類や財務諸表、取締役会の議事録など、商法や税法などで企業に保存が義務付けられている文書について、電子化された文書ファイルでの保存を認める。

紙の文書をスキャナで読み取った画像データも一定の要件を満たせば原本として認められる。

Page 5: 表形式仕様書からの ソフトウェア情報の自動抽出について

5

「 e 文書法」(続き) e- 文書法が実施されることにより、税務関係書類の 50 %から 90 %

近くを電子保存できると試算されており、保有コストの大幅な軽減が見込まれる。

税務研究会が発行する「週間税務通信( No.2827 )」に掲載された企業からのヒアリングによる負担軽減効果の試算によると、以下のように 95 %以上の保存書類の軽減が見込まれている。

 ・金融サービス会社: 37 万箱中 36 万箱が電子保存可能(保存量97 %減)

 ・メーカー: 5.9 万箱中 5.6 万箱電子保存可能(保存量 95 %減)

 ・流通会社: 75.4 万箱中 75.3 万箱が電子保存可能(保存量 99 %減)

( http://nikkeibp.jp/wcs/leaf/CID/onair/smbit/infra/344691 より抜粋)

Page 6: 表形式仕様書からの ソフトウェア情報の自動抽出について

6

XBRL

財務情報・事業報告等を記述するための XMLベースの言語

海外で資金調達する金融機関は、2007年から XBRL による報告が義務付けられる(バーゼル銀行監督委員会での合意による。BIS 規定)

XBRL Japan が 2001 年 4 月発足し、   2004 年 2 月末時点で73社が加盟。 XⅡ : XBRL の策定、普及活動団体 ( http://www.wbrl.org)

Page 7: 表形式仕様書からの ソフトウェア情報の自動抽出について

7

ebXML(Electronic Business XML)

全世界的な BtoB 電子商取引の取り引きを可能とするために、 XML のスキーマ、ボキャブラリ、通信方法、取り引き情報記述法などの、世界唯一の標準を提供することを目的とした団体。 UN/CEFACT と、 OASIS が中心となって ebXML を推進しており、 1999 年 11 月に設立された。

 ( http://www.atmarkit.co.jp/aig/01xml/ebxml.html より抜粋)

(注) 同団体によって規定される技術標準も指す。

Page 8: 表形式仕様書からの ソフトウェア情報の自動抽出について

8

電子帳票のツールや支援システム開発・商用化 下記の展示会より2例第 13 回 ソフトウエア開発環境展 SODEC (ソデ

ック)13th Software Development Expo & Conference in

Tokyo2004 年 7 月 7 日(水) ~  2004 年 7 月 9 日(

金)  10:00 ~ 17:00東京ビッグサイト

118 社

Page 9: 表形式仕様書からの ソフトウェア情報の自動抽出について

9

NeoCore XML Management System ( XMS )

三井物産株式会社

システム構成図

Page 10: 表形式仕様書からの ソフトウェア情報の自動抽出について

10

NeoCore XML Management System ( XMS )(続き)

活用例1Web コンテンツ管理

Page 11: 表形式仕様書からの ソフトウェア情報の自動抽出について

11

NeoCore XML Management System ( XMS )(続き)

活用例2帳票管理

Page 12: 表形式仕様書からの ソフトウェア情報の自動抽出について

12

XRFseries(XRF Designer, XRF Composer, XRF Reader) 、 JointBase

株式会社プリズム

全体構成図

Page 13: 表形式仕様書からの ソフトウェア情報の自動抽出について

13

1. 2 ソフトウェア仕様書、 XML

表形式のソフトウェア仕様書 作成・参照・管理・教育などの使用目的に適してい

る 様々の分野のソフトウェア仕様書に表形式が採用  例.組み込みソフトの EXCEl 形式の仕様書(日立)

XML の普及 XML とドキュメント標準化 XML とデータベース

Oracle , Microsoft SQL Server , Xindice ,・・・

Page 14: 表形式仕様書からの ソフトウェア情報の自動抽出について

14

1. 2 ソフトウェア仕様書、 XML (続き) XML のソフトウェア仕様書への利用における問題

仕様書のチェック、情報抽出・格納は人為的作業に依存  ヒューマンエラーの内包、膨大な工数

仕様書作成の支援機能が不十分

XML をそのまま利用した単純な検索のみ

ドキュメント内容に図・表があまり扱われていない

Page 15: 表形式仕様書からの ソフトウェア情報の自動抽出について

15

2 . 研究の目標

◎ 表形式仕様書を入力とし、グラフ文法による統一的な定式化に基づき、構文解析ならびにソフトウェア情報の抽出を行い、さらに抽出したデータを WEB データベースに登録する一連のプロセス全体の自動化を目指す。

手書き書面も含めた紙ベースの大量の表形式仕様書の光学的な手段による入力も考慮

WEB データベースはソフトウェア開発支援向けの検索・管理機能を具備

Page 16: 表形式仕様書からの ソフトウェア情報の自動抽出について

16

2 . 研究の目標(続き)

DB用データ生成・登録

属性グラフ文法2(表の構造解析 ,

ソフトウェア情報抽出)

マーク付きグラフ

XMLファイル

構文解析

属性評価

表形式仕様書画像認識

導出木

WEBデータベース

情報検索・管理(ソフトウェア開発支援用)

属性グラフ文法1(表画像認識)

入力:表形式仕様書

システム全体構成図-1型

Page 17: 表形式仕様書からの ソフトウェア情報の自動抽出について

17

2 . 研究の目標(続き)

DB用データ生成・登録

属性グラフ文法(表の構造解析 ,

ソフトウェア情報抽出)

マーク付きグラフ

XMLファイル

構文解析

属性評価

商用OCR・表解析ソフト

導出木

WEBデータベース

情報検索・管理(ソフトウェア開発支援用)

入力:表形式仕様書

システム全体構成図-2型

Page 18: 表形式仕様書からの ソフトウェア情報の自動抽出について

18

3.  関連研究 表の構造認識

渡邉 他,“帳票文書の構造認識のための書式構造知識の自動獲得”,信学論( D-Ⅱ ), J76-D-Ⅱ , 3 , 534-545, 1993 年 3 月

天野 他,” Graph Grammar Based Analysis System of Complex Table Form Document”, Proc. 7th ICDR, 916-920, 2003 年

會澤,中村 他,” Parsing of two-dimensional images represented by quadtree adjoining grammars”, Pattern Recognition 32(2), 277-294, 1999 年            

Page 19: 表形式仕様書からの ソフトウェア情報の自動抽出について

19

3.  関連研究(続き)

XML のソフトウェア情報 DB 化への利用 “プログラム解析情報の XML データベース化”,

(山中,大畑,井上(大阪大学),コンピュータ ソフトウェア , Vol. 19, No.1, 39-43, 2002 年)

           

Page 20: 表形式仕様書からの ソフトウェア情報の自動抽出について

20

4 . KEYAKI の既存研究[全国大会 ][1] 有田,冨山,夜久,宮寺,杉田,土田 , “NCEグラフ文法による図

表の構文的処理” , 電子情報通信学会情報・システムソサイエティ大会講演 , D3-3, 2000年

[2] 仲川,有田,冨山,夜久,宮寺,土田,“ A Syntax Directed Environment for Tabular Form Processing” ,電子情報通信学会総合大会 ,

立命館大学 , D-3-7 , 2001 年 3 月 28日[3] 井上,有田,夜久,土田,“属性 edNCEグラフ文法による表の XM

L表現”,電子情報通信学会総合大会 , 立命館大学 , D-3-8, 2001年 3 月 28日

[4] 坂井,山口,杉田,夜久,土田,“ソフトウェア仕様書の XMLによるデータベース化”,電子情報通信学会総合大会 , 東北大学 , D-3-4,

2003 年 3 月

           

Page 21: 表形式仕様書からの ソフトウェア情報の自動抽出について

21

4 . KEYAKI の既存研究(続き)[ 研究会 ][1] 有田,冨山, “ An Arribute Precedence Graph Grammar and Tabular Forms” ,「計算機科学の基礎理論: 21 世紀の計算パラダイムを目指して」研究集会,数理解析研究所講究 1148 (no. 5), 23-28 , 2000年 4 月

[2] 冨山,有田,夜久,土田,“属性 edNCEグラフ文法による表の構文的編集”,信学技法 Vol.100 No.471, (SS2000-23), 1-7, 2000年 11 月 20日

[3] 井上,仲川,有田,夜久,土田,“形式的文書操作のための表形式用 XMLビューア”,ソフトウェアサイエンス研究会 信学技法, SS2001-43, 31-38, 2002年1月

[4] T. Arita, S. Nakagawa, K. Tsuchida, and T.yaku, “FXL : A Form Exchange Language fo Modular Form for Program Specification Documents”,第 5回プログラミングおよび応用のシステムに関するワークショップSPA ’02 , 2002年 3 月

Page 22: 表形式仕様書からの ソフトウェア情報の自動抽出について

22

4 . KEYAKI の既存研究(続き)[ 国際会議 ][1] T. Arita, K. Tomiyama, T. Yaku, Y. Miyadera, K. Sugita and K. Tsuchida, “Synt

actic processing of diagrams by graph grammars”, Proc. 16th IFIP World Computer Congress Internat. Conf. Software (ICS2000), 145 - 151, 2000.

[2] T. Arita, K. Sugita, K. Tsuchida and T. Yaku, Syntactic Tabular Processing by Precedence  Attribute Graph Grammars, Proc. of the IASTED Inter. Conf. APPLIED INFORMATICS, Innsbruck Austria,

637-642, 2001. 2 [3] T. Arita, Y. Miyadera, S. Nakagawa, K. Tomiyama, K. Tsuchida and T. Yaku,

“Syntax directed environmont for tabular form design”, IEEE CS-ACM Internat. Conf. Software Engin. 2001 (ICSE2001), Poster Session, Tronto, Canada, 2001

[4] O. Inoue, K. Tsuchida, S. Nakagawa, T. Arita and T. Yaku, “An XML Viewer for Tabular Forms for Use with Mechanical Documentation”, presented at IASTED Inter. Conf. APPLIED INFORMATICS, 2002. 2

(Proc. of IASTED Inter. Conf. APPLIED INFORMATICS, 1284-1289, 2003. 2)

Page 23: 表形式仕様書からの ソフトウェア情報の自動抽出について

23

4 . KEYAKI の既存研究(続き)[論文誌 ]

[1] T. Arita, K. Tomiyama, K. Tsuchida and T. YAKU,“Application of Attribute NCE Graph Grammars to Syntactic Editing of Ta

bular Forms”, Electronic Notes in Theoretical Computer Science, Vol. 50, No. 3, 7 P (Proc. GT-VMT01, pp.284 – 290), Elsevier Science, 2001. 7

Page 24: 表形式仕様書からの ソフトウェア情報の自動抽出について

24

4 . KEYAKI の既存研究(続き)[ 卒論/修士論文 ](日本大学文理学部情報システム解析学科夜久研)

[1] 有田友和,“ An edNCE graph grammar for modular tabular forms” , H11 年度 修士論文[2] 泉 博貴,「グラフ文法による構文的プログラム仕様書処理系の実現」,

  H12年度 卒業論文

[3] 冨山聖宣 ,” Syntactic editing of modular tabular forms” ,   H12年度 修士論文[4] 仲川俊一,“ File Structures for Modular Form Processing Systems” , H13 年度 修士論文

Page 25: 表形式仕様書からの ソフトウェア情報の自動抽出について

25

4 . KEYAKI の既存研究(続き)[ 卒論/修士論文 ](東洋大学工学部情報工学科土田研)

[1] 井上 理,「属性 edNCEグラフ文法による表の XML表現表示」,  H13 年度 修士論文,(東洋大学校友会学生研究奨励賞受賞)[2] 新見卓也,「 XMLによるプログラム仕様書のデータベース」,  H14 年度 卒業論文[3] 坂井美紀,「ソフトウェア仕様書の XMLによるデータベース化」,  H15 年度 修士論文[4] 片山由紀,「 XML に基づくHiform 入力システムの開発」,  H15 卒業論文,(東洋大学校友会学生研究奨励賞受賞)[5] 磯脇 綾,「 XMLに基づく仕様書 DB問い合わせシステムの開

発」,  H15 年度 卒業論文

Page 26: 表形式仕様書からの ソフトウェア情報の自動抽出について

26

4 . KEYAKI の既存研究(続き)

DB用データ生成・登録

属性グラフ文法(表のレイアウト情報 ,

XMLソース生成)

マーク付きグラフ

XMLファイル

構文解析

属性評価

表形式仕様書画像認識

導出木

データベース(MySQL)

仕様書DB問い合わせシステム

入力:表形式仕様書

[有田 ]

[井上 ]

XMLファイル

XSLT変換[新見 ]

[坂井 ]

[片山 ]

[磯脇 ]

対話型 Hiformエディタ

[塩野? ]

本研究と既存研究( 人)との関係

Page 27: 表形式仕様書からの ソフトウェア情報の自動抽出について

27

4 . KEYAKI の既存研究(続き) XML に基づく Hiform 仕様書データベースシス

テム ( H15 年度、坂井、片山、磯脇)

仕様書作成の支援機能を備えた入力

データを自動的に既存の RDB に格納

ソフトウェア仕様書特有の問い合わせ

対象は図を含むドキュメント

Page 28: 表形式仕様書からの ソフトウェア情報の自動抽出について

28

Hiform仕様書データベースシステム( 続き)

Hiform の例( A1. プログラム概要書)

Page 29: 表形式仕様書からの ソフトウェア情報の自動抽出について

29

Hiform仕様書データベースシステム( 続き)

Hiform入力システム

変換システム( XML→MySQLテーブル)

MySQL

仕様書 DB問い合わせシステム

____________________

XML<?xml…..>

システム全体の構成図

Page 30: 表形式仕様書からの ソフトウェア情報の自動抽出について

30

Hiform仕様書データベースシステム ( 続き)

[入力] Hiform 仕様書

表の枠組み中にテキスト・図の記述が可能

[出力] XML ファイル MySQL テーブル

Page 31: 表形式仕様書からの ソフトウェア情報の自動抽出について

31

Hiform仕様書データベースシステム ( 続き)

Hiform入力システム

変換システム

仕様書 DB問い合わせシステム

Page 32: 表形式仕様書からの ソフトウェア情報の自動抽出について

32

Hiform入力システム

対話的に仕様書の必要項目を入力→ 仕様書の構文に適合するかチェック

Hiform に対応する XML ファイルを生成 スタイルシートは定義されている

開発言語: Java

Page 33: 表形式仕様書からの ソフトウェア情報の自動抽出について

33

Hiform入力システム(続き)

新規・修正選択画面

Page 34: 表形式仕様書からの ソフトウェア情報の自動抽出について

34

Hiform入力システム(続き)

Hiform 様式選択画面

Page 35: 表形式仕様書からの ソフトウェア情報の自動抽出について

35

Hiform入力システム(続き)

入力画面

Page 36: 表形式仕様書からの ソフトウェア情報の自動抽出について

36

Hiform入力システム(続き)

生成された XML ファイルのソース

Page 37: 表形式仕様書からの ソフトウェア情報の自動抽出について

37

Hiform入力システム(続き)

生成された仕様書

Page 38: 表形式仕様書からの ソフトウェア情報の自動抽出について

38

Hiform入力システム(続き)

SVG ファイルのソース

Page 39: 表形式仕様書からの ソフトウェア情報の自動抽出について

39

変換システム DB 用データの生成:

  XML ファイルから自動的に DB 用データを生成

表示: 汎用の Webブラウザ( IE など)が利用可

開発言語: PHP 開発ツール: PXBASE* ( PHP 用ライブラリ)

* PXBASE• フリーソフト ― 作者:田中 秀哉 http://www18.tok2.com/home/koumori27/xml/

Page 40: 表形式仕様書からの ソフトウェア情報の自動抽出について

40

変換システム(続き)

XML ファイル選択画面

Page 41: 表形式仕様書からの ソフトウェア情報の自動抽出について

41

変換システム(続き)

XML ファイルに対応する MySQL テーブル

Page 42: 表形式仕様書からの ソフトウェア情報の自動抽出について

42

仕様書 DB 問い合わせシステム データベース: MySQL

オープンソースデータベース SQL 関数の利用が可能

仕様書特有の問い合わせ機能 更新履歴

表示: 汎用の Webブラウザ( IE など)

開発言語: PHP

Page 43: 表形式仕様書からの ソフトウェア情報の自動抽出について

43

仕様書 DB 問い合わせシステム(続き)

MySQL における問い合わせ結果表示

Page 44: 表形式仕様書からの ソフトウェア情報の自動抽出について

44

仕様書 DB 問い合わせシステム(続き)

更新履歴の結果表示

Page 45: 表形式仕様書からの ソフトウェア情報の自動抽出について

45

Page 46: 表形式仕様書からの ソフトウェア情報の自動抽出について

46

仕様書 DB 問い合わせシステム(続き)

あるプロジェクトの変更履歴