セマンティック・ウェブのためのRDF/OWL入門読書会
1章&2章
WWWの誕生
CERN(欧州合同原子核研究機構)でティム・バーナーズ=リー
がハイパーテキストを用いた効果的情報交換のためのリンク型情報システムとして提案(今年で25周年)
人・グループ・プロジェクト・文書・コンセプトなど様々な情報の関係性をリンクによって表現することの可能性を指摘
ref. Original proposal of WWW http://www.w3.org/History/1989/proposal.html
余談ですが・・・
ハイパーテキストを用いたシステムはWWWだけじゃないよ
● Guide● AppleのHyperCard● Xanado ・・・etc.
初期の頃の研究はXanadoのテッド・ネルソンやマウスを作ったダグラス・エンゲルバートなどが有名
ウェブのセマンティクス
当初から「意味」のネットワークと機械による自動的な分析を意識していたが、マルチメディア対応の方が先行してしまった
『ウェブにセマンティックを』
機械可読性を上げ、コンピュータの力をより活用することにより、より意味が明確な情報の取得を目指すべき
機械可読性▶XML 意味を持ったリンクの関連表現▶RDF
余談ですが・・・
「意味ネットワーク」って?
人間の記憶のうち、意味記憶の構造を表すためのモデル
概念を表すノードと、〜である・〜をもつなどの関係を表す
リンクで構成される
セマンティック・ウェブの考え方
設計の5原則
分散環境上のユニバーサルメディアを実現する原則
● すべてがURIで識別可能▶意味の明確化
● 部分的な情報▶拘束のない部分的な情報記述からの再構成
● 発展性▶新旧や異質性の混在した状態での整合性
● 最小のデザイン▶シンプルさによる実装容易性と柔軟性の確保
● 信頼のウェブ▶アプリケーションによるコンテクストからの信頼度評価
セマンティック・ウェブへの階梯Semantic Web Road Map(http://www.w3.org/DesignIssues/Semantic.html)で示されたアーキテクチャ構成(レイヤーケーキ)
ref. Tutorial on Semantic Web Technologies http://www.w3.org/2005/Talks/1214-Trento-IH/
※厳密な技術階層ではなく、あくまで実現に必要な要素技術を示すもの
ベースとなる層● URI/Unicode▶基本原則1と国際化対応● XML/Namespaces▶記述と語彙構成への対応
RDF・オントロジー RDF リソースに関するassertionをモデル化する仕組みを提供 assertion:論理学「真偽の判断が可能な主張表明を持った主語述語から成る文」
内容の正しさの保証が必ずしもあるわけではないが、誰かの「主張」であること
● RDF M&S▶どんなモデルに基づくかと具体的な記述構文● RDF Schema▶リソースを記述する語彙を定義● Ontology▶クラスやプロパティの詳細表現、語彙間の関係性 「発展性」の機能提供
推論規則と論理フレームワーク 述語論理や論理プログラミングを用いたクエリ、推論処理の実行(SPARQL,RIF,SWRL...)
● Rules▶クエリや推論規則の一般的な表現定義● Logic framework▶異なる論理システム間の協調手段の提供
証明と署名と信頼● Proof▶推論過程と根拠を提示し、情報の信頼性の判断を可能
にする● Signature/Encryption▶推論処理に関わるすべての正当性を
保証するための電子署名と暗号化
ところでエージェントって
『自律性を持った行動主体』
ここではあくまでAutonomouse Intelligent Agent 単に規則を与えられたエージェント(単純反射)ではなく、 状況に適応し、学習し、判断する
Russell,Norvig 「自己の信念をもとにゴール達成のために行動する」
Nardi,Brachman 「明示的に表現された知識から暗黙的な結論を引き出すことができるシステムの 能力」
メタデータ
「データについてのデータ」 図書館で言えばタイトル、著者、分類などの書誌データ 情報の内容を抽象的に捉えることができるデータ
■セマンティック・ウェブでは
機械可読なウェブリソースなど情報 ただし書誌的なデータだけでなく、多様な語彙が必要 「誰でもボキャボラリを考案でき、宣伝し、売ることができる」
XMLのお父さんことTim Bray(俺、在宅勤務認めてもらえないから Google辞めちゃった)
RDFとウェブリソース
リソース▶「ウェブ上で識別できるもの」と一般化 ネットワーク上のコンテンツだけでなく、人物、書籍、 イベント等の実世界の物事、趣味嗜好や信頼度なども 含む
非環境依存性▶あらゆるアプリケーション、ソフトウェアが処理 可能なリソース表現を行える共通言語
RDFの基本的な考え方
6つの設計目標
1. シンプルで柔軟なデータモデル2. 論理学的な裏付けのあるセマンティックス表現と証明可能
な推論3. URIに基づく拡張可能な語彙の利用4. XMLによる交換構文の採用5. XMLスキーマデータ型によるデータの精密な型付け6. 誰もがどんなリソースについても記述可能
1.▶最小デザインの原則から、シンプルなトリプルを採用
2.▶形式論理のモデル論理に基づく意味からの推論
3.▶分散環境での拡張性確保と確実な一意性の保証
4.▶XMLによる汎用性の確保と、再利用・相互運用性の確保
5.▶XMLスキーマデータ型のサポートによる交換・処理の厳密性 確保
6.▶URIの名前付けの強力さを前提にした多様な語彙定義、 発信の確保
マシンに理解しやすいデータモデル
RDBのテーブル▶誰の(行)何が(列)どんな値(交点)で特定
RDF▶上記の3つの要素でリソースを表現:トリプル
RDBの論理的モデルは多項関係でレコード表現をするのが 本来だが、ここでは行x列=値という関係にのみ注目
W3CではRDB2RDFも検討されている
Mapping: http://www.w3.org/TR/rdb-direct-mapping/ R2RML: http://www.w3.org/TR/r2rml/
RDFのトリプル
文(Statement)= 主語(Subject)+述語(Predicate)+目的語(Object) 「誰の」 「何が」 「どんな値」
主語・述語・目的語の組み合わせがトリプル(Triple) 図示表現としてはラベル付き有向グラフ
主語 述語 目的語
ノード
アーク
述語論理の二項式表現 p(s,o) 主語と目的語の二項関係を 述語で示す
RDFのグラフ
3626
RDFグラフ▶RDFトリプルの集合
同じ識別名を持つ主語・目的語ノードをまとめて グラフを連結可能
http://www.itholdings.co.jp/ 3626 ITホールディングス企業名ホームページ
3626
http://www.itholdings.co.jp/
ITホールディングス企業名
ホームページ
+
目的語は主語に、主語は目的語になりうる
3626
http://www.itholdings.co.jp/
ITホールディングス企業名
ホームページ作成日 2014/06/19
共通するノードを介してグラフを連結することで、複雑なデータを表現することも可能ノードの同一性が識別できれば、異なる文書に記述された内容でも組み合わせることができる
プロパティのURI表現
プロパティ(述語)URI参照表現▶曖昧さの排除と一意性の確保
「題名」「件名」と言った同じ意味で異なる表現を用いている場合でも、両者に共通のURI参照を持たせることで同一の性質を示すものとして認識することができる
件名 題名
title
dc:title
ノードの識別
プロパティと同様に主語・目的語もURI参照で名前付けする ▶抽象的な概念も含めてあらゆるものが表現可能
▶分散した情報断片を結びつけて構成することが可能
目的語の場合はURI参照だけでなく、文字列自身(リテラル)でも可
http://www.itholdings.co.jp/ ITHD Web Pagedc:title
RDFのURI参照とリソース
RDFではHTMLのようにフラグメント識別子がリソースの一部を示すことはない
常にURI全体で一つのリソースを示す名前空間を共有していても、意味的な共通点があるわけではない http://www.example.com/ns/nanika#hoge http://www.example.com/ns/nanika#fuga は全く個別の意味的な関連のない2つのリソースを表す
URI参照の国際化対応
URI仕様を定めたRFC2396準拠の文字以外にRDF URIの場合はUnicodeで定められたいくつかの文字も利用可
「いくつかの」▶URLエンコード後に2396準拠であればOK RFC 3987(IRI)と同等の扱い
例えば日本語の場合記述時にエンコードする必要はなく
http://www.example.com/ns/仕様
と記述してよい
空白ノードと構造化グラフ
空白ノード▶URI参照による名前付けをしない匿名リソース 外部から参照されることはないがグラフを構造化 するときに利用
http://codezine.jp/article/detail/7696
佐伯 純筆者
氏名
メールアドレス
複数のプロパティを構造化してグラフ表現する場合に中間的に用いるそれぞれのプロパティは空白ノードを経由して主語・目的語の関係を構成する
RDFのリテラル定義
文字列や数値は直接リテラル表現可能ただし、表現可能なのは目的語のみで主語・述語は不可
リテラルの種類:2種類
プレーン・リテラル▶文字列そのもので言語タグをオプションで 持てる
型付リテラル▶文字列と特定のデータ型をセットで記述
データ型
字句空間(lexical space)、値空間(value space)、字句ー値写像(lexical-value mapping)の3要素で構成
字句空間▶RDFリテラルとして記述される文字列表現集合
値空間▶文字列が実際に意味する値の集合
字句ー値写像▶字句空間と値空間の対応付け集合
データ型としては rdf:XMLLiteralで定義されているものとXMLスキーマ2で定義されている基本データ型の一部のみ利用可能
Top Related