有限会社中央商会 Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail:...
description
Transcript of 有限会社中央商会 Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail:...
有限会社中央商会 Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail: [email protected]
( XML の仕組)
マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。
2001 / 10
■ XMLとは………???
コンピュータによる出版や文書データの交換を効率的に行うために考え出されたSGMLがその母体となっています。
① 文書の意味内容と表示の仕方を区分して取り扱う
② 文書を意味内容で要素別に把握し目印を付けて取り扱う
XML: eXtensible Markup Language
拡張可能な
「拡張可能なテキストへの印(しるし)を付けるためのコンピュータ用の言葉」
文字コードの基礎
1. コンピュータと文字コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。
2. 文字集合コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。文字集合の例としては、 ISO によって規格化されている "ISO 10646" があります。
3. エンコーディングさて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば文字コードになります。この対応のさせ方を "エンコーディング " と呼びます。一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646 で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。
【XML文書の作成】1)文書構造の解析 ⇒ 要素分解(1)
タイトル
セクション
【XML文書の作成】1)文書構造の解析 ⇒ 要素分解(2)
1. コンピュータと文字
コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。
見出し
本 文
コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。
コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを “文字コード” と呼んでいます。
コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを “文字コード” と呼んでいます。
段 落
キーワード
【XML文書の作成】1)文書構造の解析 ⇒ 階層(ツリー)表示
文書全体
タイトル
セクション
見出し
本 文
段 落
段 落
段 落
キーワード
キーワード
キーワード
セクション
文書を階層構造として把握しそれぞれの要素の関係・意味内容を分析
【XML文書の作成】2 )各要素(エレメント)分析 ⇒ DTD作成
DTD: Document Type Definition(文書型定義)
各要素(エレメント)に名前を付ける各要素(エレメント)の階層関係・意味内容・性質を記述する
タグ作成
エレメント定義 etc.
DTD
【XML文書の作成】3 )XML文書記述 (“タグ”の挿入)
< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </ キーワード > に変換する必要があるからです。 </ 段落 >< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </ 段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646" があります。 </ 段落></ 本文 ></ セクション > < セクション >< タイトル > 3. エンコーディング </ タイトル >< 本文 >< 段落 > さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば < キーワード >文字コード </ キーワード > になります。この対応のさせ方を " エンコーディング " と呼びます。 </ 段落 >< 段落 > 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >
DTDに基づき“タグ”を挿入します。
< > でくくられたブルーの部分が“タグ”です。
【XSLの適用】1)XSLで閲覧・利用可能な表示へ
XML文書は、そのままではコンピュータが理解するための文書である。
人間が閲覧・利用し易い形式での表示
XSL: eXtensible Stylesheet Language
タグを利用して、必要な部分を抽出しHTML文書に変換する。
HTML文書として、インターネトのブラウザで閲覧 利用する形式が一・般的です。
XSLは実際には以下の3つの規格の複合です。
XSLT( XSL Transformation) Xpath(XML Path Language) XSL(eXtensible Stylesheet Language)
タグを利用して、閲覧しやすい形式で表示するための指示をします。
【XSLの適用】2)XML文書のブラウザ(IE)での表示
XML
XSL
HTML
IE: Internet Explorer
HTML(Hyper Text Markup Language) :インターネトの画面表示のための言語・書式
DTD
【XSLの適用】3)ブラウザ(IE)での表示例①
< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </ キーワード > に変換する必要があるからです。 </ 段落 >< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </ 段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646"があります。 </ 段落 ></ 本文 ></ セクション > < セクション >< タイトル > 3. エンコーディング </ タイトル >< 本文 >< 段落 > さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば < キーワード > 文字コード </ キーワード > になります。この対応のさせ方を " エンコーディング " と呼びます。 </ 段落 >< 段落 > 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646 で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >
【XSLの適用】3)ブラウザ(IE)での表示例②
< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </ キーワード > に変換する必要があるからです。 </ 段落 >< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </ 段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646"があります。 </ 段落 ></ 本文 ></ セクション > < セクション >< タイトル > 3. エンコーディング </ タイトル >< 本文 >< 段落 > さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば < キーワード > 文字コード </ キーワード > になります。この対応のさせ方を " エンコーディング " と呼びます。 </ 段落 >< 段落 > 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646 で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >
【XSLの適用】3)ブラウザ(IE)での表示例③
< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </ キーワード > に変換する必要があるからです。 </ 段落 >< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </ 段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646"があります。 </ 段落 ></ 本文 ></ セクション > < セクション >< タイトル > 3. エンコーディング </ タイトル >< 本文 >< 段落 > さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ ( つまりビット列 ) に対応させるかを決めれば < キーワード > 文字コード </ キーワード > になります。この対応のさせ方を " エンコーディング " と呼びます。 </ 段落 >< 段落 > 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。 UCS-4 は、 ISO 10646 で文字に振られた番号を、そのまま 4 バイトのコードにしたものです。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >
■ XMLは多目的な文書活用に有効です
< 文書全体 >< タイトル > 文字コードの基礎 </ タイトル >< セクション >< タイトル > 1. コンピュータと文字 </ タイトル >< 本文 >< 段落 > コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために < キーワード > 文字 </キーワード > に変換する必要があるからです。 </ 段落>< 段落 > コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを " 文字コード " と呼んでいます。 </段落 ></ 本文 ></ セクション >< セクション >< タイトル > 2. 文字集合 </ タイトル >< 本文 >< 段落 > コンピュータが扱う文字を集めたものが " 文字集合 " です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る ( つまり、文字に背番号を付ける ) ことも必要です。 </ 段落 >< 段落 > 文字集合の例としては、 < キーワード > ISO </ キーワード > によって規格化されている "ISO 10646"があります。 </ 段落 ></ 本文 ></ セクション > </ 文書全体 >
ひとつの文書資源をさまざまな切り口で表示(アウトプット)させることで、多目的な活用(マルチユース)が可能となります。
■ 文書利用形態の検討⇒ DTD作成
エンド・ユーザー(利用者)の文書利用形態の精査エンド・ユーザー(利用者)の要望の検討
文書構造の解析
文書構造の標準化
文書表記の標準化
DTD作成
XSL作成
XML文書作成
タグ付けされた文書に対して検索・抽出・表示を行うXML文書の仕組から、DTDの作成が大変重要なポイントになると考えられます。
利用目的・文書構造に即したDTD作成のために、十分な検討が必要です。
■ まとめ(XML文書作成のために)
従来の文書単位での管理に対して、XML文書はタグ付けされた文書要素単位での検索・抽出を行うことで高度な再利用を可能としたものです。
文書単位での管理
XML: タグ付けされた文書要素単位での管理文書のXML化の目的(文書交換・電子配布・データベース化・共同執筆など)をどこ
におくかで、文書構造解析にあたっては以下の2つの方法が考えられます。 ●「章」「節」「項」といった外形的な構造に着目 ●「働き」「機能」といった文書の意味に着目
文書の性質・利用目的の詳細な検討分析が必要となります。
XML化が有効な文書であるかの基本的な検討も必要です。