表形式仕様書からの ソフトウェア情報の自動抽出について
description
Transcript of 表形式仕様書からの ソフトウェア情報の自動抽出について
表形式仕様書からのソフトウェア情報の自動抽
出について 土田 賢省 (東洋大学工学部) 塩野 康徳 (東洋大学大学院M1 )
平成 16 年 12 月 4 日 第 124 回 WAAP
(於:日本大学文理学部)
2
本日の発表内容1 背景 2 目標3 関連研究4 KEYAKI の既存研究5 まとめ
「既存システムのデモ」(by 塩野)
3
1. 背景1. 1 電子文書化の加速
e- ビジネスの展開・発展 「 e 文書法」 XBRL ebXML 電子帳票のツールや支援システム開発・商用化
1. 2 ソフトウェア仕様書、 XML
4
「 e 文書法」 【電子文書法】デンシブンショホウ 別名 : 民間事業者等が行う書面の保存等における
情報通信の技術の利用に関する法律 2004 年 11 月に制定。施行は 2005 年 4 月。
帳票類や財務諸表、取締役会の議事録など、商法や税法などで企業に保存が義務付けられている文書について、電子化された文書ファイルでの保存を認める。
紙の文書をスキャナで読み取った画像データも一定の要件を満たせば原本として認められる。
5
「 e 文書法」(続き) e- 文書法が実施されることにより、税務関係書類の 50 %から 90 %
近くを電子保存できると試算されており、保有コストの大幅な軽減が見込まれる。
税務研究会が発行する「週間税務通信( No.2827 )」に掲載された企業からのヒアリングによる負担軽減効果の試算によると、以下のように 95 %以上の保存書類の軽減が見込まれている。
・金融サービス会社: 37 万箱中 36 万箱が電子保存可能(保存量97 %減)
・メーカー: 5.9 万箱中 5.6 万箱電子保存可能(保存量 95 %減)
・流通会社: 75.4 万箱中 75.3 万箱が電子保存可能(保存量 99 %減)
( http://nikkeibp.jp/wcs/leaf/CID/onair/smbit/infra/344691 より抜粋)
6
XBRL
財務情報・事業報告等を記述するための XMLベースの言語
海外で資金調達する金融機関は、2007年から XBRL による報告が義務付けられる(バーゼル銀行監督委員会での合意による。BIS 規定)
XBRL Japan が 2001 年 4 月発足し、 2004 年 2 月末時点で73社が加盟。 XⅡ : XBRL の策定、普及活動団体 ( http://www.wbrl.org)
7
ebXML(Electronic Business XML)
全世界的な BtoB 電子商取引の取り引きを可能とするために、 XML のスキーマ、ボキャブラリ、通信方法、取り引き情報記述法などの、世界唯一の標準を提供することを目的とした団体。 UN/CEFACT と、 OASIS が中心となって ebXML を推進しており、 1999 年 11 月に設立された。
( http://www.atmarkit.co.jp/aig/01xml/ebxml.html より抜粋)
(注) 同団体によって規定される技術標準も指す。
8
電子帳票のツールや支援システム開発・商用化 下記の展示会より2例第 13 回 ソフトウエア開発環境展 SODEC (ソデ
ック)13th Software Development Expo & Conference in
Tokyo2004 年 7 月 7 日(水) ~ 2004 年 7 月 9 日(
金) 10:00 ~ 17:00東京ビッグサイト
118 社
9
NeoCore XML Management System ( XMS )
三井物産株式会社
システム構成図
10
NeoCore XML Management System ( XMS )(続き)
活用例1Web コンテンツ管理
11
NeoCore XML Management System ( XMS )(続き)
活用例2帳票管理
12
XRFseries(XRF Designer, XRF Composer, XRF Reader) 、 JointBase
株式会社プリズム
全体構成図
13
1. 2 ソフトウェア仕様書、 XML
表形式のソフトウェア仕様書 作成・参照・管理・教育などの使用目的に適してい
る 様々の分野のソフトウェア仕様書に表形式が採用 例.組み込みソフトの EXCEl 形式の仕様書(日立)
XML の普及 XML とドキュメント標準化 XML とデータベース
Oracle , Microsoft SQL Server , Xindice ,・・・
14
1. 2 ソフトウェア仕様書、 XML (続き) XML のソフトウェア仕様書への利用における問題
点
仕様書のチェック、情報抽出・格納は人為的作業に依存 ヒューマンエラーの内包、膨大な工数
仕様書作成の支援機能が不十分
XML をそのまま利用した単純な検索のみ
ドキュメント内容に図・表があまり扱われていない
15
2 . 研究の目標
◎ 表形式仕様書を入力とし、グラフ文法による統一的な定式化に基づき、構文解析ならびにソフトウェア情報の抽出を行い、さらに抽出したデータを WEB データベースに登録する一連のプロセス全体の自動化を目指す。
手書き書面も含めた紙ベースの大量の表形式仕様書の光学的な手段による入力も考慮
WEB データベースはソフトウェア開発支援向けの検索・管理機能を具備
16
2 . 研究の目標(続き)
DB用データ生成・登録
属性グラフ文法2(表の構造解析 ,
ソフトウェア情報抽出)
マーク付きグラフ
XMLファイル
構文解析
属性評価
表形式仕様書画像認識
導出木
WEBデータベース
情報検索・管理(ソフトウェア開発支援用)
属性グラフ文法1(表画像認識)
入力:表形式仕様書
システム全体構成図-1型
17
2 . 研究の目標(続き)
DB用データ生成・登録
属性グラフ文法(表の構造解析 ,
ソフトウェア情報抽出)
マーク付きグラフ
XMLファイル
構文解析
属性評価
商用OCR・表解析ソフト
導出木
WEBデータベース
情報検索・管理(ソフトウェア開発支援用)
入力:表形式仕様書
システム全体構成図-2型
18
3. 関連研究 表の構造認識
渡邉 他,“帳票文書の構造認識のための書式構造知識の自動獲得”,信学論( D-Ⅱ ), J76-D-Ⅱ , 3 , 534-545, 1993 年 3 月
天野 他,” Graph Grammar Based Analysis System of Complex Table Form Document”, Proc. 7th ICDR, 916-920, 2003 年
會澤,中村 他,” Parsing of two-dimensional images represented by quadtree adjoining grammars”, Pattern Recognition 32(2), 277-294, 1999 年
19
3. 関連研究(続き)
XML のソフトウェア情報 DB 化への利用 “プログラム解析情報の XML データベース化”,
(山中,大畑,井上(大阪大学),コンピュータ ソフトウェア , Vol. 19, No.1, 39-43, 2002 年)
20
4 . KEYAKI の既存研究[全国大会 ][1] 有田,冨山,夜久,宮寺,杉田,土田 , “NCEグラフ文法による図
表の構文的処理” , 電子情報通信学会情報・システムソサイエティ大会講演 , D3-3, 2000年
[2] 仲川,有田,冨山,夜久,宮寺,土田,“ A Syntax Directed Environment for Tabular Form Processing” ,電子情報通信学会総合大会 ,
立命館大学 , D-3-7 , 2001 年 3 月 28日[3] 井上,有田,夜久,土田,“属性 edNCEグラフ文法による表の XM
L表現”,電子情報通信学会総合大会 , 立命館大学 , D-3-8, 2001年 3 月 28日
[4] 坂井,山口,杉田,夜久,土田,“ソフトウェア仕様書の XMLによるデータベース化”,電子情報通信学会総合大会 , 東北大学 , D-3-4,
2003 年 3 月
21
4 . KEYAKI の既存研究(続き)[ 研究会 ][1] 有田,冨山, “ An Arribute Precedence Graph Grammar and Tabular Forms” ,「計算機科学の基礎理論: 21 世紀の計算パラダイムを目指して」研究集会,数理解析研究所講究 1148 (no. 5), 23-28 , 2000年 4 月
[2] 冨山,有田,夜久,土田,“属性 edNCEグラフ文法による表の構文的編集”,信学技法 Vol.100 No.471, (SS2000-23), 1-7, 2000年 11 月 20日
[3] 井上,仲川,有田,夜久,土田,“形式的文書操作のための表形式用 XMLビューア”,ソフトウェアサイエンス研究会 信学技法, SS2001-43, 31-38, 2002年1月
[4] T. Arita, S. Nakagawa, K. Tsuchida, and T.yaku, “FXL : A Form Exchange Language fo Modular Form for Program Specification Documents”,第 5回プログラミングおよび応用のシステムに関するワークショップSPA ’02 , 2002年 3 月
22
4 . KEYAKI の既存研究(続き)[ 国際会議 ][1] T. Arita, K. Tomiyama, T. Yaku, Y. Miyadera, K. Sugita and K. Tsuchida, “Synt
actic processing of diagrams by graph grammars”, Proc. 16th IFIP World Computer Congress Internat. Conf. Software (ICS2000), 145 - 151, 2000.
[2] T. Arita, K. Sugita, K. Tsuchida and T. Yaku, Syntactic Tabular Processing by Precedence Attribute Graph Grammars, Proc. of the IASTED Inter. Conf. APPLIED INFORMATICS, Innsbruck Austria,
637-642, 2001. 2 [3] T. Arita, Y. Miyadera, S. Nakagawa, K. Tomiyama, K. Tsuchida and T. Yaku,
“Syntax directed environmont for tabular form design”, IEEE CS-ACM Internat. Conf. Software Engin. 2001 (ICSE2001), Poster Session, Tronto, Canada, 2001
[4] O. Inoue, K. Tsuchida, S. Nakagawa, T. Arita and T. Yaku, “An XML Viewer for Tabular Forms for Use with Mechanical Documentation”, presented at IASTED Inter. Conf. APPLIED INFORMATICS, 2002. 2
(Proc. of IASTED Inter. Conf. APPLIED INFORMATICS, 1284-1289, 2003. 2)
23
4 . KEYAKI の既存研究(続き)[論文誌 ]
[1] T. Arita, K. Tomiyama, K. Tsuchida and T. YAKU,“Application of Attribute NCE Graph Grammars to Syntactic Editing of Ta
bular Forms”, Electronic Notes in Theoretical Computer Science, Vol. 50, No. 3, 7 P (Proc. GT-VMT01, pp.284 – 290), Elsevier Science, 2001. 7
24
4 . KEYAKI の既存研究(続き)[ 卒論/修士論文 ](日本大学文理学部情報システム解析学科夜久研)
[1] 有田友和,“ An edNCE graph grammar for modular tabular forms” , H11 年度 修士論文[2] 泉 博貴,「グラフ文法による構文的プログラム仕様書処理系の実現」,
H12年度 卒業論文
[3] 冨山聖宣 ,” Syntactic editing of modular tabular forms” , H12年度 修士論文[4] 仲川俊一,“ File Structures for Modular Form Processing Systems” , H13 年度 修士論文
25
4 . KEYAKI の既存研究(続き)[ 卒論/修士論文 ](東洋大学工学部情報工学科土田研)
[1] 井上 理,「属性 edNCEグラフ文法による表の XML表現表示」, H13 年度 修士論文,(東洋大学校友会学生研究奨励賞受賞)[2] 新見卓也,「 XMLによるプログラム仕様書のデータベース」, H14 年度 卒業論文[3] 坂井美紀,「ソフトウェア仕様書の XMLによるデータベース化」, H15 年度 修士論文[4] 片山由紀,「 XML に基づくHiform 入力システムの開発」, H15 卒業論文,(東洋大学校友会学生研究奨励賞受賞)[5] 磯脇 綾,「 XMLに基づく仕様書 DB問い合わせシステムの開
発」, H15 年度 卒業論文
26
4 . KEYAKI の既存研究(続き)
DB用データ生成・登録
属性グラフ文法(表のレイアウト情報 ,
XMLソース生成)
マーク付きグラフ
XMLファイル
構文解析
属性評価
表形式仕様書画像認識
導出木
データベース(MySQL)
仕様書DB問い合わせシステム
入力:表形式仕様書
[有田 ]
[井上 ]
XMLファイル
XSLT変換[新見 ]
[坂井 ]
[片山 ]
[磯脇 ]
対話型 Hiformエディタ
[塩野? ]
本研究と既存研究( 人)との関係
27
4 . KEYAKI の既存研究(続き) XML に基づく Hiform 仕様書データベースシス
テム ( H15 年度、坂井、片山、磯脇)
仕様書作成の支援機能を備えた入力
データを自動的に既存の RDB に格納
ソフトウェア仕様書特有の問い合わせ
対象は図を含むドキュメント
28
Hiform仕様書データベースシステム( 続き)
Hiform の例( A1. プログラム概要書)
29
Hiform仕様書データベースシステム( 続き)
Hiform入力システム
変換システム( XML→MySQLテーブル)
MySQL
仕様書 DB問い合わせシステム
____________________
XML<?xml…..>
システム全体の構成図
30
Hiform仕様書データベースシステム ( 続き)
[入力] Hiform 仕様書
表の枠組み中にテキスト・図の記述が可能
[出力] XML ファイル MySQL テーブル
31
Hiform仕様書データベースシステム ( 続き)
Hiform入力システム
変換システム
仕様書 DB問い合わせシステム
32
Hiform入力システム
対話的に仕様書の必要項目を入力→ 仕様書の構文に適合するかチェック
Hiform に対応する XML ファイルを生成 スタイルシートは定義されている
開発言語: Java
33
Hiform入力システム(続き)
新規・修正選択画面
34
Hiform入力システム(続き)
Hiform 様式選択画面
35
Hiform入力システム(続き)
入力画面
36
Hiform入力システム(続き)
生成された XML ファイルのソース
37
Hiform入力システム(続き)
生成された仕様書
38
Hiform入力システム(続き)
SVG ファイルのソース
39
変換システム DB 用データの生成:
XML ファイルから自動的に DB 用データを生成
表示: 汎用の Webブラウザ( IE など)が利用可
開発言語: PHP 開発ツール: PXBASE* ( PHP 用ライブラリ)
* PXBASE• フリーソフト ― 作者:田中 秀哉 http://www18.tok2.com/home/koumori27/xml/
40
変換システム(続き)
XML ファイル選択画面
41
変換システム(続き)
XML ファイルに対応する MySQL テーブル
42
仕様書 DB 問い合わせシステム データベース: MySQL
オープンソースデータベース SQL 関数の利用が可能
仕様書特有の問い合わせ機能 更新履歴
表示: 汎用の Webブラウザ( IE など)
開発言語: PHP
43
仕様書 DB 問い合わせシステム(続き)
MySQL における問い合わせ結果表示
44
仕様書 DB 問い合わせシステム(続き)
更新履歴の結果表示
45
46
仕様書 DB 問い合わせシステム(続き)
あるプロジェクトの変更履歴