Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve Arama Makinası Baha Olgun Hayri...
description
Transcript of Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve Arama Makinası Baha Olgun Hayri...
Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve
Arama Makinası
Baha OlgunHayri Sever
Hacettepe ÜniversitesiBilgisayar Mühendisliği BölümüDPT KMBGS Araştırma Birimi
http://www.cs.hun.edu.tr/~km
DPT tarafından desteklenen 97K121330 nolu KMBGS Projesi,
Türkçe belgeleri
• saklayan,
• dizinleyen ve
• sorgulamaya olanak veren
bir Boolean bilgi erişim sisteminin, UNIX ortamında MOTIF ile gerçekleştirimine dayanmaktadır.
KMBGS Araştırma Birimi, Internet kaynaklarının gösterimini ve taranmasını süreç içinde projenin amacına dahil etmiştir.
Genel Bakış
Web üzerinde üç yüz milyon adreslenebilir nesne vardır (Part I of WWW-7 Tutorial Track, 1998, http://www.w3.org).
Cyberspace’de kaybolma: Internet kaynaklarının insanca anlaşılabilir ve makinaca okunabilir olmasından dolayı erişim araçların yetersiz kalması.
• Ad-hoc Çözüm: meta TAKILARIN (TAGS) Gömülmesi
• HTML 4.0 (http://www.w3.org/TR/REC- html40/strict.dtd)• Terim Sözlüğü Oluşturma (ontology): SHOE
(http://www.cs.umd.edu/projects/plus/SHOE )
• KIF (http://logic.stanford.edu/)
• RDF (http://www.w3.org)
Problem ve Çözüm Yolları
Kullanıcısorgusu veyeğlenenleri
Sonuçkümesinintutanakları
Sunucu
Z39.50 sunucusuylabağlantı kur
HTML belgelerigönder
Z39.50 Ağ Geçidi veSunucu
BES’e bağlantı kur
Sonuçlar kümesiniHTML formatındayarat
Kullanıcısorgusu veyeğlenenleri
Sorgusonuçları
İstemci
HTML formunugöster
HTML göster
Isite sistemininIsearch ve Iindexkesimleri
Isite Veritabanı
Sorguyu işlet
Ad-hoc Çözüm: Meta Takılar
Dizinde kullanılan HTML takıları
<P><B>ACADEMY OF THE SACRED HEART, New Orleans <BR></B> Sacred Heart restores shutters and cupola. <BR> <I> Preservation in Print</I> v23 n6 p28, Aug, 1996<BR>
HTML Üstveri Referans Dizinine Eklenmesi
<Subject><B> ACADEMY OF THE SACRED HEART, New Orleans </B> </Subject><Title> Sacred Heart restores shutters and cupola. </Title><Periodical><I>Preservation in Print </Periodical><Volume>p28,</Page><Date>Aug. 1996</Date>
Ad-hoc Çözüm: Meta Takılar
• <HEAD profile=“http://www.w3.org/RDF”>• <!ELEMENT META - O EMPTY> <!ATTLIST META lang %LanguageCode #IMPLIED http-equiv NAME #IMPLIED name NAME #IMPLIED content CDATA #REQUIRED scheme CDATA #IMPLIED
>• <LİNK rel=“…” href=“…”>• PICS etiketleri
<META name=”DC.Author" content=“Hayri Sever"><META scheme=“ISO 8601" name=“DC.Date” content=”13/03/62">
<META name=”DC.Description" lang=”tr" content=”veri madenleme
ve bilgi erişim sistemleri araşt&iwhdot;rma ..."> <META http-equiv="Content-Type" content="text/html; charset=ISO-8859-5">
HTML 4.0: Üstveri Elemanları
SHOE (Simple HTML Ontology Extensions) iki kısımdan oluşmaktadır:
• Ontoloji. Veri Sözlüğü ve Şemanın tanımlandığı belirli bir üstveri modeli
• Üye. İlgili üstveri kullanılarak yapılan iddalar.
SHOE modeli tür, ilişki ve çıkarsama tanımlama olanağı sağlamaktadır. SHOE ile tanımlı Web kaynakları, Expose ile yerel diske yüklenir ve SHOE kütüphanesi aracılığı ile çözümlenir ve PARKA Ontolojisine yerleştirilir.
KIF (Knowledge Interchange Format), “First-Order Predicate Calculus” tabanlı bir üstveri gösterim dilidir.
İfade etme gücü yüksek olan KIF, heterojen Web kaynaklarını bütünleştirmede kolaylık sağlar ve arabulucu mimaride paketleyici dil olan KQML birlikte kullanılır.
SHOE ve KIF
www.cs.hun.edu.tr webadminCreator
RDF Tanımının XML ile Gösterimi
<?xml version="1.0" ?><rdf:RDF
xmlns:rdf="http://www.w3.org/RDF"xmlns:dc="http://purl.org/DublinCore">
<rdf:Description about="http://www.cs.hun.edu.tr"><dc:Creator> webadmin </dc:Creator></rdf:Dexcription></rdf:RDF>
<?xml version="1.0" ?><rdf:RDF
xmlns:rdf="http://www.w3.org/RDF"xmlns:dc="http://purl.org/DublinCore">
<rdf:Description about="http://www.cs.hun.edu.tr"><dc:Creator> webadmin </dc:Creator></rdf:Dexcription></rdf:RDF>
RDF Tanımının Çizge ile Gösterimi
RDF modeli ve DC Üstveri elemanları kullanılarak, elektronik kaynakların içeriklerinin tanımlanmasını sağlayan bir yazılım gerçekleştirilmiştir.
H-DCEdit ile katalog bilgileri modellenmiştir.
Katalog yapısı, RDF/DC sözdizimi temel alınarak SGML tarafından tanımlanmıştır.
SGML belgelerinin özelliği, Türkçe içerik desteği olması ve XML belgesine dönüşmesi kolay bir tanımı olmasıdır.
RDF/DC Editörü: H-DCEdit
SGML Bildirimi
RDF/DC Belge Tür Tanımı
DSSSL BildirimiBiçem Bildirimi
RDF/DC Ayrıştırıcı
SGML Ayrıştırıcı(SP)
SGMLBelgesi
Ayrıştı-rımÇıktısı
DC ElemanlarıEditörü
SG-ML
Belgesi
DSSSL Motoru(Jade)
Yeniden biçimlenmiş belge çıktısı (html, rtf,TeX)
Yerel yardımcıprogramlar(vi, netscape, xview,…)
RDF/DC Biçem Tanımı
Sistem işlev çizgesi
Yazılım Alt Kesimi Programlama Dili Satır Sayısı
SP-1.2 (SGML Ayrıştırıcı) C++ 70000RDF/DC Ayrıştırıcı C++ 800H-DCEdit 1.0 C (MOTIF) 5000JADE1.0.1 (DSSSL Motoru) C++ 52000
Yazılım Mühendisliği Notları
<!SGML "ISO 8879:1986"CHARSET
BASESET "ISO 646-1983//CHARSET International Reference Version(IRV)//ESC 2/5 4/0"
DESCSET 0 9 UNUSED9 2 911 2 UNUSED13 1 1314 18 UNUSED32 95 32127 1 UNUSED
BASESET "ISO Registration Number 148//CHARSET ECMA-128Right Part of Latin Alphabet Nr. 5//ESC 2/13 4/13"
DESCSET 128 32 UNUSED160 95 32255 1 UNUSED
NAMING LCNMSTRT ""UCNMSTRT ""LCNMCHAR "-.:"UCNMCHAR "-.:"
…>
SGML Bildirimi
<!-- Entities For Turkish Support --><!ENTITY Ccedil CDATA "Ç"><!ENTITY ccedil CDATA "ç"><!ENTITY Ouml CDATA "Ö"><!ENTITY ouml CDATA "ö"><!ENTITY Scedil CDATA "Þ"><!ENTITY scedil CDATA "þ"><!ENTITY Idot CDATA "Ý"><!ENTITY iwhdot CDATA "ý"><!ENTITY Uuml CDATA "Ü"><!ENTITY uuml CDATA "ü"><!ENTITY Gbrewe CDATA "Ð"><!ENTITY gbrewe CDATA "ð">
RDF/DC Belge Tür Tanımı
<!-- RDF and DC elements in the same DTD In addition, XML like output is supported RDF Elements --> <!ELEMENT rdf:RDF - - ( rdf:Description )* > <!ATTLIST rdf:RDF xmlns:rdf CDATA "http://www.w3.org/RDF/” xmlns:dc CDATA "http://purl.org/DC/”
<!ENTITY % property "ANY"><!ELEMENT rdf:Description - - %property;><!ATTLIST rdf:Description
ID NMTOKEN #IMPLIED about CDATA #IMPLIED aboutEach CDATA #IMPLIED bagID NMTOKEN #IMPLIED>
RDF/DC Belge Tür Tanımı
<!ENTITY % dccontent "(#PCDATA)">
<!ELEMENT DC:TITLE - - %dccontent; ><!ELEMENT DC:CREATOR - - %dccontent; ><!ELEMENT DC:SUBJECT - - %dccontent; ><!ELEMENT DC:DESCRIPTION - - %dccontent; ><!ELEMENT DC:PUBLISHER - - %dccontent; ><!ELEMENT DC:CONTRIBUTOR - - %dccontent; ><!ELEMENT DC:DATE - - %dccontent; ><!ELEMENT DC:TYPE - - %dccontent; ><!ELEMENT DC:FORMAT - - %dccontent; ><!ELEMENT DC:IDENTIFIER - - %dccontent; ><!ELEMENT DC:SOURCE - - %dccontent; ><!ELEMENT DC:LANGUAGE - - %dccontent; ><!ELEMENT DC:RELATION - 0 %dccontent; ><!ELEMENT DC:COVERAGE - - %dccontent; ><!ELEMENT DC:RIGHTS - - %dccontent; >
RDF/DC Belge Tür Tanımı
<!ATTLIST DC:DATE year CDATA #IMPLIED month CDATA #IMPLIED day CDATA #IMPLIED>
<!ATTLIST DC:RELATION type CDATA #IMPLIED resource CDATA #IMPLIED >
<!-- Added Element for Robots --><!ELEMENT BODY - - %dccontent; ><!ATTLIST BODY
location CDATA #IMPLIED >
RDF/DC Belge Tür Tanımı
sgml.cs.hun.edu.tr
Baha Olgun
SGML Türkiye
Hacettepe Üni.
Hayri Sever
text/sgml
Creator
Title
Publisher
Contributor
Type
Oluşturulan SGML Belgeleri
<!DOCTYPE RDF:RDF PUBLIC "-//Baha Olgun//DTD RDF and DC//EN"> xmlns:rdf="http://www.w3.org/RDF/" xmlns:dc="http://purl.org/DC/"><RDF:Description about="http://sgml.cs.hun.edu.tr"><DC:IDENTIFIER>http://sgml.cs.hun.edu.tr</DC:IDENTIFIER><DC:CREATOR>Baha Olgun</DC:CREATOR><DC:TITLE>SGML Türkiye Kullan&iwhdot;c&iwhdot;lar&iwhdot;</DC:TITLE><DC:SUBJECT>SGML Türkiye</DC:SUBJECT><DC:DESCRIPTION>SGML Türkiye Web Sayfas&iwhdot;</DC:DESCRIPTION><DC:PUBLISHER>Hacettepe Üniversitesi</DC:PUBLISHER><DC:CONTRIBUTOR>Hayri Sever</DC:CONTRIBUTOR><DC:RIGHTS>Her Hakk&iwhdot;
Sakl&iwhdot;d&iwhdot;r</DC:RIGHTS><DC:TYPE>text</DC:TYPE><DC:FORMAT>text/sgml</DC:FORMAT><DC:LANGUAGE>tr</DC:LANGUAGE><DC:DATE year=1998 month=Jan day=01></DC:DATE><DC:RELATION resource="http://www.cs.hun.edu.tr" type=IsReferencedBy></RDF:Description></RDF:RDF>
SGML İle Serileştirme
H-DCEdit Arayüz
DC Elemanları Girişi
Yardımcı Uygulamaları İlişkilendirme
DSSSL Standardında Biçimleme
<HTML><LINK REL=STYLESHEET TYPE="text/css" HREF="dc6.css"><BODY><DIV CLASS=DC:IDENTIFIER> <SPAN CLASS=DC:IDENTIFIER>Identifier:
http://sgml.cs.hun.edu.tr</SPAN></DIV><SPANCLASS=RDF:DESCRIPTION>
</SPAN> <DIV CLASS=DC:CREATOR> <SPAN CLASS=DC:CREATOR>
Creator: Baha Olgun </SPAN> </DIV> <SPAN CLASS=RDF:DESCRIPTION></SPAN> <DIV CLASS=DC:TITLE> <SPAN CLASS=DC:TITLE>Title: SGML Türkiye Kullanıcıları </SPAN> </DIV> … <DIV CLASS=DC:RELATION> <SPAN LASS=DC:RELATION> Relation:IsReferencedBy
http://www.cs.hun.edu.tr </SPAN> </DIV></BODY></HTML>
Süzgeçleme: HTML belgesi
SPAN.RDF:DESCRIPTION { font-family: Times New Roman,serif; font-weight: 500; font-style: normal; font-size: 10pt; color: #000000;}SPAN.DC:RELATION, SPAN.DC:DATE, SPAN.DC:LANGUAGE,SPAN.DC:FORMAT, SPAN.DC:TYPE, SPAN.DC:RIGHTS,SPAN.DC:CONTRIBUTOR, SPAN.DC:PUBLISHER, SPAN.DC:DESCRIPTION,SPAN.DC:SUBJECT, SPAN.DC:TITLE, SPAN.DC:CREATOR,SPAN.DC:IDENTIFIER { font-family: Times New Roman,serif; font-weight: 500; font-style: normal; font-size: 14pt; color: #000000;}DIV.DC:RELATION, DIV.DC:DATE, DIV.DC:LANGUAGE, DIV.DC:FORMAT,DIV.DC:TYPE, DIV.DC:RIGHTS, DIV.DC:CONTRIBUTOR,DIV.DC:PUBLISHER, DIV.DC:DESCRIPTION, DIV.DC:SUBJECT,DIV.DC:TITLE, DIV.DC:CREATOR, DIV.DC:IDENTIFIER { text-align: left; line-height: 12pt; text-indent: 0pt;}
HTML Belgesini Biçimleme
Özet
• DPT KM-BGS Projesi çerçevesinde gerçekleştirilen bir RDF/DC editörü tanıtılmıştır. • Bu editör, takı dizinleme ve sorgulama yapabilen Isite/Isearch arama makinası ile çıktı bazında bütünleştirilmiştir.