有限会社中央商会  Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail:...

15
有有有有有有有有 Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail: info@c huou-shokai.co.jp XML 有有有ママママママママママママママ マママママママママママママママママ マ ママママママママママママ 。(。)。 2001 / 10

description

マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。. XMLドキュメンテーション. ( XML の仕組). 2001 / 10. 有限会社中央商会  Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail: [email protected]. ■ XMLとは ……… ???. コンピュータによる出版や文書データの交換を効率的に行うために考え出された SGML がその母体となっています。. ① 文書の 意味内容 と 表示の仕方 を区分して取り扱う - PowerPoint PPT Presentation

Transcript of 有限会社中央商会  Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail:...

Page 1: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

有限会社中央商会  Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail: [email protected]

( XML の仕組)

マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。

2001 / 10

Page 2: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

■ XMLとは………???

コンピュータによる出版や文書データの交換を効率的に行うために考え出されたSGMLがその母体となっています。

① 文書の意味内容と表示の仕方を区分して取り扱う

② 文書を意味内容で要素別に把握し目印を付けて取り扱う

XML: eXtensible Markup Language

拡張可能な

「拡張可能なテキストへの印(しるし)を付けるためのコンピュータ用の言葉」

Page 3: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

文字コードの基礎

1. コンピュータと文字コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。

2. 文字集合コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。文字集合の例としては、 ISO によって規格化されている "ISO 10646" があります。

3. エンコーディングさて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば文字コードになります。この対応のさせ方を "エンコーディング " と呼びます。一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646 で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。

【XML文書の作成】1)文書構造の解析 ⇒ 要素分解(1)

タイトル

セクション

Page 4: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XML文書の作成】1)文書構造の解析 ⇒ 要素分解(2)

1. コンピュータと文字

コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。

見出し

本 文

コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。

コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを “文字コード”  と呼んでいます。

コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを “文字コード”  と呼んでいます。

段 落

キーワード

Page 5: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XML文書の作成】1)文書構造の解析 ⇒ 階層(ツリー)表示

文書全体

タイトル

セクション

見出し

本 文

段 落

段 落

段 落

キーワード

キーワード

キーワード

セクション

文書を階層構造として把握しそれぞれの要素の関係・意味内容を分析

Page 6: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XML文書の作成】2 )各要素(エレメント)分析 ⇒ DTD作成

DTD: Document Type Definition(文書型定義)

各要素(エレメント)に名前を付ける各要素(エレメント)の階層関係・意味内容・性質を記述する

タグ作成

エレメント定義  etc.

DTD

Page 7: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XML文書の作成】3 )XML文書記述 (“タグ”の挿入)

< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </ キーワード > に変換する必要があるからです。 </ 段落 >< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </ 段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646" があります。 </ 段落></ 本文 ></ セクション > < セクション >< タイトル > 3. エンコーディング </ タイトル >< 本文 >< 段落 > さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば < キーワード >文字コード </ キーワード > になります。この対応のさせ方を " エンコーディング " と呼びます。 </ 段落 >< 段落 > 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >

DTDに基づき“タグ”を挿入します。

<   > でくくられたブルーの部分が“タグ”です。

Page 8: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XSLの適用】1)XSLで閲覧・利用可能な表示へ

XML文書は、そのままではコンピュータが理解するための文書である。

人間が閲覧・利用し易い形式での表示

XSL:  eXtensible Stylesheet Language

タグを利用して、必要な部分を抽出しHTML文書に変換する。

HTML文書として、インターネトのブラウザで閲覧 利用する形式が一・般的です。

XSLは実際には以下の3つの規格の複合です。

XSLT( XSL Transformation) Xpath(XML Path Language) XSL(eXtensible Stylesheet Language)

タグを利用して、閲覧しやすい形式で表示するための指示をします。

Page 9: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XSLの適用】2)XML文書のブラウザ(IE)での表示

XML

XSL

HTML

IE: Internet  Explorer

HTML(Hyper Text Markup Language)  :インターネトの画面表示のための言語・書式

DTD

Page 10: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XSLの適用】3)ブラウザ(IE)での表示例①

< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </ キーワード > に変換する必要があるからです。 </ 段落 >< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </ 段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646"があります。 </ 段落 ></ 本文 ></ セクション > < セクション >< タイトル > 3. エンコーディング </ タイトル >< 本文 >< 段落 > さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば < キーワード > 文字コード </ キーワード > になります。この対応のさせ方を " エンコーディング " と呼びます。 </ 段落 >< 段落 > 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646 で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >

Page 11: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XSLの適用】3)ブラウザ(IE)での表示例②

< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </ キーワード > に変換する必要があるからです。 </ 段落 >< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </ 段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646"があります。 </ 段落 ></ 本文 ></ セクション > < セクション >< タイトル > 3. エンコーディング </ タイトル >< 本文 >< 段落 > さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば < キーワード > 文字コード </ キーワード > になります。この対応のさせ方を " エンコーディング " と呼びます。 </ 段落 >< 段落 > 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646 で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >

Page 12: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

【XSLの適用】3)ブラウザ(IE)での表示例③

< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </ キーワード > に変換する必要があるからです。 </ 段落 >< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </ 段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646"があります。 </ 段落 ></ 本文 ></ セクション > < セクション >< タイトル > 3. エンコーディング </ タイトル >< 本文 >< 段落 > さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば < キーワード > 文字コード </ キーワード > になります。この対応のさせ方を " エンコーディング " と呼びます。 </ 段落 >< 段落 > 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646 で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >

Page 13: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

■ XMLは多目的な文書活用に有効です

< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </キーワード > に変換する必要があるからです。 </ 段落>< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646"があります。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >

ひとつの文書資源をさまざまな切り口で表示(アウトプット)させることで、多目的な活用(マルチユース)が可能となります。

Page 14: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

■ 文書利用形態の検討⇒ DTD作成

エンド・ユーザー(利用者)の文書利用形態の精査エンド・ユーザー(利用者)の要望の検討

文書構造の解析

文書構造の標準化

文書表記の標準化

DTD作成

XSL作成

XML文書作成

タグ付けされた文書に対して検索・抽出・表示を行うXML文書の仕組から、DTDの作成が大変重要なポイントになると考えられます。

利用目的・文書構造に即したDTD作成のために、十分な検討が必要です。

Page 15: 有限会社中央商会  Tel  03-3661-1606/4081/0834  Fax  03-3662-9586  E-mail: info@chuou-shokai.co.jp

■ まとめ(XML文書作成のために)

従来の文書単位での管理に対して、XML文書はタグ付けされた文書要素単位での検索・抽出を行うことで高度な再利用を可能としたものです。

文書単位での管理

XML: タグ付けされた文書要素単位での管理文書のXML化の目的(文書交換・電子配布・データベース化・共同執筆など)をどこ

におくかで、文書構造解析にあたっては以下の2つの方法が考えられます。   ●「章」「節」「項」といった外形的な構造に着目   ●「働き」「機能」といった文書の意味に着目

文書の性質・利用目的の詳細な検討分析が必要となります。

XML化が有効な文書であるかの基本的な検討も必要です。