ETO-jelzetek posztkoordinált visszakeresése

16
ETO-jelzetek ETO-jelzetek posztkoordinált posztkoordinált visszakeresése visszakeresése Piros Attila Piros Attila T T émavezető: Dr Boda émavezető: Dr Boda István István

description

ETO-jelzetek posztkoordinált visszakeresése. Piros Attila T émavezető: Dr Boda István. Cél. Olyan indexelő és kereső algoritmus és azt megvalósító program kidolgozása, ami lehetővé teszi dokumentumok tartalmi feltárását és visszakeresését az Egyetemes Tizedes Osztályozás felhasználásával. - PowerPoint PPT Presentation

Transcript of ETO-jelzetek posztkoordinált visszakeresése

Page 1: ETO-jelzetek posztkoordinált visszakeresése

ETO-jelzetek ETO-jelzetek posztkoordinált posztkoordinált visszakeresésevisszakeresése

Piros AttilaPiros Attila

TTémavezető: Dr Boda Istvánémavezető: Dr Boda István

Page 2: ETO-jelzetek posztkoordinált visszakeresése

Cél Cél

Olyan indexelő és kereső algoritmus Olyan indexelő és kereső algoritmus és azt megvalósító program és azt megvalósító program kidolgozása, ami lehetővé teszi kidolgozása, ami lehetővé teszi dokumentumok tartalmi feltárását és dokumentumok tartalmi feltárását és visszakeresését az Egyetemes visszakeresését az Egyetemes Tizedes Osztályozás Tizedes Osztályozás felhasználásával.felhasználásával.

Page 3: ETO-jelzetek posztkoordinált visszakeresése

MiMiért az ETO?ért az ETO?

Egyetemes, minden szakterületre Egyetemes, minden szakterületre kiterjedőkiterjedő,, hierarchikus rendszer hierarchikus rendszer0 – Általános tartalmú írásművek.00 – A tudomány és kultúra legáltalánosabb alapjai.004 – Számítástechnika.004.4 – Szoftver. Program.004.42 – Programozás.004.422 – Programok elemei.004.422.3 – Változó.004.422.35 – Változó deklaráció.004.422.352 – Explicit változó deklaráció.

Page 4: ETO-jelzetek posztkoordinált visszakeresése

Miért az ETO?Miért az ETO? Rugalmas Rugalmas

– A hierarchiában nem szereplő fogalmak leírására A hierarchiában nem szereplő fogalmak leírására általános és speciális alosztások rendszere áll általános és speciális alosztások rendszere áll rendelkezésrerendelkezésre 510.6+510.2(075.8)(47+51)=161.1510.6+510.2(075.8)(47+51)=161.1

Matematikai logika és halmazelmélet. Egyetemi tankönyv Matematikai logika és halmazelmélet. Egyetemi tankönyv orosz nyelven.orosz nyelven.

004.451.7:004.7 004.451.7:004.7 Osztott idejOsztott idejű adatfeldolgozás számítógépes hálózatokban.ű adatfeldolgozás számítógépes hálózatokban.

– Névalosztások is használhatókNévalosztások is használhatók 004.655.3 T-SQL 004.655.3 T-SQL

Szabványos lekérdező nyelv (SQL) – T-SQLSzabványos lekérdező nyelv (SQL) – T-SQL 004.912=93C++ 004.912=93C++

C++ -ban írt szövegszerkesztő programC++ -ban írt szövegszerkesztő program

– Bővíthető más osztályozási nyelvből vett Bővíthető más osztályozási nyelvből vett jelzetekkeljelzetekkel

Page 5: ETO-jelzetek posztkoordinált visszakeresése

Miért az ETO?Miért az ETO?

Világszerte elterjedt és használtVilágszerte elterjedt és használt– Egyike a világ két legelterjedtebb osztályozási Egyike a világ két legelterjedtebb osztályozási

rendszerénekrendszerének– A táblázatok legalább 51 nyelvre le vannak fordítvaA táblázatok legalább 51 nyelvre le vannak fordítva– Több, mint száz éve használják (Magyarországon is) Több, mint száz éve használják (Magyarországon is)

dokumentumok tartalmi feltárásáradokumentumok tartalmi feltárására Létező nagy gyűjtemények vannak már feldolgozva veleLétező nagy gyűjtemények vannak már feldolgozva vele Olyan rendszerre van szükségünk, ami már rögzített Olyan rendszerre van szükségünk, ami már rögzített

jelzetek feldolgozására (jelzetek feldolgozására (retrospektretrospektív konverzió) is alkalmasív konverzió) is alkalmas

– Folyamatosan karbantartott és aktualizáltFolyamatosan karbantartott és aktualizált

Page 6: ETO-jelzetek posztkoordinált visszakeresése

Miért az ETO?Miért az ETO?

Online elérhető:Online elérhető:– egyelőre csak 2.600 osztály, 51 nyelven egyelőre csak 2.600 osztály, 51 nyelven

(magyarul is!)(magyarul is!)– UDC Summary (böngészhető) UDC Summary (böngészhető) http://http://

www.udcc.orgwww.udcc.org//udcsummaryudcsummary– UDCS Linked Data, letölthető SKOS UDCS Linked Data, letölthető SKOS

(XML/RDF) formátumban: (XML/RDF) formátumban: http://http://udcdata.infoudcdata.info//

– Minden osztály és alosztás (műveletek is) Minden osztály és alosztás (műveletek is) saját URI-al rendelkeziksaját URI-al rendelkezik

Page 7: ETO-jelzetek posztkoordinált visszakeresése

Eddigi megoldásokEddigi megoldások Csak részmegoldások vannakCsak részmegoldások vannak Ok: az ETO természetes nyelvi jellege, a Ok: az ETO természetes nyelvi jellege, a

szabályainak ebből adódó bonyolultsága és szabályainak ebből adódó bonyolultsága és következetlenségekövetkezetlenségePéldául:Például:– műveletek használhatósága és jelentése műveletek használhatósága és jelentése

táblázatonként változó táblázatonként változó Pl. összekötés, viszonyítás, aposztrófPl. összekötés, viszonyítás, aposztróf

– részjelzetek határa és szerepe nem mindig részjelzetek határa és szerepe nem mindig egyértelműegyértelmű szempont szerinti általánosan közös alosztások és szempont szerinti általánosan közös alosztások és

speciális alosztások speciális alosztások számjelzetes speciális alosztásokszámjelzetes speciális alosztások pont-nullás alosztások (372.814.08 – világnézet alapja pont-nullás alosztások (372.814.08 – világnézet alapja

tantárgy)tantárgy)

Page 8: ETO-jelzetek posztkoordinált visszakeresése

MegoldástípusokMegoldástípusok

Prekoordináció:Prekoordináció: – Jelzetelemek manuális kiemelése. Jelzetelemek manuális kiemelése. – Így működtek az offline szakkatalógusok Így működtek az offline szakkatalógusok

is.is.– Hátrányai:Hátrányai:

Nem automatizálhatóNem automatizálható Intervallumok kezelésére alkalmatlan Intervallumok kezelésére alkalmatlan

(megfelelő kereső algoritmus megoldhatná)(megfelelő kereső algoritmus megoldhatná) Csak a kiemelt jelzetek kereshetők, minden Csak a kiemelt jelzetek kereshetők, minden

más elvész a kereső számáramás elvész a kereső számára Nagy az indexelő felelőségeNagy az indexelő felelősége

Page 9: ETO-jelzetek posztkoordinált visszakeresése

MegoldástípusokMegoldástípusok

Jelzetelemek egyesével történő bevitele:Jelzetelemek egyesével történő bevitele: – A rendszer nem a kész ETO-szám beírását várja A rendszer nem a kész ETO-szám beírását várja

el, hanem az egyes jelzetelemek megadását.el, hanem az egyes jelzetelemek megadását.– Előnye: Előnye:

böngészhetővé tehetők az elemek, ami böngészhetővé tehetők az elemek, ami megkönnyítheti az indexeléstmegkönnyítheti az indexelést

– Hátrányai:Hátrányai: Körülményes a jelzetbevitelKörülményes a jelzetbevitel Nem automatizálhatóNem automatizálható Nem kezeli eléggé az ETO rugalmasságát (több Nem kezeli eléggé az ETO rugalmasságát (több

azonos típusú alosztás, alosztások műveletei stb.)azonos típusú alosztás, alosztások műveletei stb.)

Page 10: ETO-jelzetek posztkoordinált visszakeresése

MegoldástípusokMegoldástípusok

Keresés csonkolással:Keresés csonkolással: – Hátrányai:Hátrányai:

A kereső személyre nagy terhet ró az ETO rugalmassága A kereső személyre nagy terhet ró az ETO rugalmassága miatt (mindig számba kell venni minden lehetőséget, miatt (mindig számba kell venni minden lehetőséget, alaposan ismerni kell az ETO-t és a rendszert (!) is)alaposan ismerni kell az ETO-t és a rendszert (!) is)

nagyon lassúak ezek a keresések, és indexszel sem nagyon lassúak ezek a keresések, és indexszel sem gyorsíthatók gyorsíthatók

intervallumok kezelése lehetetlen (visszahívás sérül)intervallumok kezelése lehetetlen (visszahívás sérül) számok egymáshoz való kapcsolódása (tehát az az számok egymáshoz való kapcsolódása (tehát az az

információ, hogy pl. melyik alosztás melyik részjelzethez információ, hogy pl. melyik alosztás melyik részjelzethez kapcsolódik) elvész (nagy a zaj, a precízió sérül)kapcsolódik) elvész (nagy a zaj, a precízió sérül)

mivel az ETO maga is hierarchikus rendszer, egy kereső mivel az ETO maga is hierarchikus rendszer, egy kereső algoritmusnak ezt csonkolás nélkül is kezelnie kell.algoritmusnak ezt csonkolás nélkül is kezelnie kell.

Page 11: ETO-jelzetek posztkoordinált visszakeresése

CélCél Olyan módszert adni a jelzetek eltárolására és Olyan módszert adni a jelzetek eltárolására és

visszakeresésére, amely a lehető legnagyobb visszakeresésére, amely a lehető legnagyobb pontosságú és teljességű találati listát pontosságú és teljességű találati listát eredményezi anélkül, hogy akár a indexelőtől eredményezi anélkül, hogy akár a indexelőtől akár a keresőtől az elmentendő illetve akár a keresőtől az elmentendő illetve visszakeresendő jelzetek szabályos elkészítésén visszakeresendő jelzetek szabályos elkészítésén vagy kiválasztásán túl bármiféle erőfeszítést vagy kiválasztásán túl bármiféle erőfeszítést igényelne igényelne (mint például a fontosnak vélt jelzetelemek (mint például a fontosnak vélt jelzetelemek kiemelését, a jelzetek csonkolását, permutációját kiemelését, a jelzetek csonkolását, permutációját vagy a szabványos jelzetelemek más karakterrel vagy a szabványos jelzetelemek más karakterrel történő helyettesítését)történő helyettesítését)..

A hatékonyság empirikus vizsgálata.A hatékonyság empirikus vizsgálata.

Page 12: ETO-jelzetek posztkoordinált visszakeresése

TeendőkTeendők

ETO által felvetett kérdések és ETO által felvetett kérdések és problémák elemzése:problémák elemzése:– A jelzeten belül milyen információkat A jelzeten belül milyen információkat

kell figyelembe venni és invertálni kell figyelembe venni és invertálni illetve elmenteniilletve elmenteni

– Mire kell figyelni a jelzetek elemzésekor, Mire kell figyelni a jelzetek elemzésekor, milyen problémák lehetnekmilyen problémák lehetnek

KKész (jöhetnek elő új kérdések, az ETO is ész (jöhetnek elő új kérdések, az ETO is változik)változik)

Page 13: ETO-jelzetek posztkoordinált visszakeresése

TeendőkTeendők Automata elkészítése:Automata elkészítése:

– Véges automata, bemenő jelei az index Véges automata, bemenő jelei az index karakterei, kimenet egy XML, ami reprezentálja karakterei, kimenet egy XML, ami reprezentálja a jelzetet.a jelzetet.

DiagramDiagram kész, kész, implementáció folyamatbanimplementáció folyamatban

XML séma definíció:XML séma definíció:– Elsősorban technikai célt szolgálElsősorban technikai célt szolgál– A UDC Summary URI-ainak segítségével A UDC Summary URI-ainak segítségével

felhasználható a komplex jelzetek felhasználható a komplex jelzetek összekötésére a UDC Linked Data-valösszekötésére a UDC Linked Data-val

A séma definíció készen vanA séma definíció készen van

Page 14: ETO-jelzetek posztkoordinált visszakeresése

TeendőkTeendők

Az adatok adatbázisba mentéseAz adatok adatbázisba mentéseAlapelvek le vannak írvaAlapelvek le vannak írva

Keresés részletes kidolgozása és Keresés részletes kidolgozása és implementálásaimplementálásaAlapelvek le vannak írvaAlapelvek le vannak írva

Page 15: ETO-jelzetek posztkoordinált visszakeresése

IrodalomjegyzIrodalomjegyzékék Adatbázis transzformációalapú kereshetőségjavítása: ETO-kereshetőség a BME OMIKK Aleph rendszerében / Marton Adatbázis transzformációalapú kereshetőségjavítása: ETO-kereshetőség a BME OMIKK Aleph rendszerében / Marton

József; Prokné Palik Mária.- Bp.: TMT, 56. évf. (2009) 2. sz.József; Prokné Palik Mária.- Bp.: TMT, 56. évf. (2009) 2. sz. Egyetemes Tizedes Osztályozás. – Bp.: OSZK-KI, 2005.Egyetemes Tizedes Osztályozás. – Bp.: OSZK-KI, 2005. Az ETO alkalmazása a gépesített dokumentációs és könyvtári munkában / Orosz Gábor. – In: Szöveggyűjtemény az Az ETO alkalmazása a gépesített dokumentációs és könyvtári munkában / Orosz Gábor. – In: Szöveggyűjtemény az

osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988.osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. AAzz ETO az Országos Széchényi Könyvtár számítógépes rendszerében / ETO az Országos Széchényi Könyvtár számítógépes rendszerében / Zöldi Péter. – In: Könyvtári Figyelő, 1993. 3. sz. - Zöldi Péter. – In: Könyvtári Figyelő, 1993. 3. sz. -

http://ki.oszk.hu/kf/1993/10/az-eto-az-orszagos-szechenyi-konyvtar-szamitogepes-rendszerebenhttp://ki.oszk.hu/kf/1993/10/az-eto-az-orszagos-szechenyi-konyvtar-szamitogepes-rendszereben Bevezetés az információkereső nyelvek elméletébe és gyakorlatába. – B. Hajdu Ágnes; Babiczky Béla. – Bp.: Universitas Bevezetés az információkereső nyelvek elméletébe és gyakorlatába. – B. Hajdu Ágnes; Babiczky Béla. – Bp.: Universitas

kiad., 1998kiad., 1998 Észrevételek egy ETO-ról szóló tanulmányhoz / Ungváry Rudolf. – In: Könyvtári Figyelő, 2011. 2. sz. - Észrevételek egy ETO-ról szóló tanulmányhoz / Ungváry Rudolf. – In: Könyvtári Figyelő, 2011. 2. sz. -

http://ki.oszk.hu/kf/2011/07/eszrevetelek-mandy-gabor-tanulmanyahozhttp://ki.oszk.hu/kf/2011/07/eszrevetelek-mandy-gabor-tanulmanyahoz Könyvtári feldolgozó munka : Osztályozás és szakkatalógus szerkesztés / Babiczky Béla – Bp.: Tankönyvkiadó, 1975.Könyvtári feldolgozó munka : Osztályozás és szakkatalógus szerkesztés / Babiczky Béla – Bp.: Tankönyvkiadó, 1975. Könyvtári információkeresés / Ungváry Rudolf, Vajda Erik. – Bp.: Typotex, 2002.Könyvtári információkeresés / Ungváry Rudolf, Vajda Erik. – Bp.: Typotex, 2002. Könyvtári osztályozási segédletek : a segédkönyvtárosképzés céljára / Mándy Gábor. - http://etotanf.x3.huKönyvtári osztályozási segédletek : a segédkönyvtárosképzés céljára / Mándy Gábor. - http://etotanf.x3.hu Kutatási tervezet az ETO-nak mint gépesített referencia-keresőrendszer indexelési nyelvének kiértékelésére / Orosz Kutatási tervezet az ETO-nak mint gépesített referencia-keresőrendszer indexelési nyelvének kiértékelésére / Orosz

Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp.: Tankönyvkiad., 1988. – p. 231-233– p. 231-233

Régi ETO, új ETO / Mándy Gábor. – In: Könyvtári Figyelő, 2011. 2. sz. - http://ki.oszk.hu/kf/2011/07/regi-eto-uj-eto/Régi ETO, új ETO / Mándy Gábor. – In: Könyvtári Figyelő, 2011. 2. sz. - http://ki.oszk.hu/kf/2011/07/regi-eto-uj-eto/ Research Project for the Evaluation of the UDC as the Indexing Language for a Mechanized Reference Retrieval System: Research Project for the Evaluation of the UDC as the Indexing Language for a Mechanized Reference Retrieval System:

Progress Report for the Period July 1, 1965-January 31, 1966 / Pauline Atherton Cochrane; Robert R. FreemanProgress Report for the Period July 1, 1965-January 31, 1966 / Pauline Atherton Cochrane; Robert R. Freeman UDC Summary Linked Data. - UDC Summary Linked Data. - http://udcdata.info/http://udcdata.info/ UDC as Linked Data. – In: UDC Blog, 2012.08.26. - UDC as Linked Data. – In: UDC Blog, 2012.08.26. - http://universaldecimalclassification.blogspot.hu/2012/08/udc-as-http://universaldecimalclassification.blogspot.hu/2012/08/udc-as-

linked-data.htmllinked-data.html UDC Summary. - UDC Summary. - http://www.udcc.org/udcsummary/php/index.phphttp://www.udcc.org/udcsummary/php/index.php Könyvtárosok kézikönyve : 2. kötet / Horváth Tibor; Papp IstvánKönyvtárosok kézikönyve : 2. kötet / Horváth Tibor; Papp István Az Egyetemes Tizedes OsztAz Egyetemes Tizedes Osztályozás (ETO) alapelvei, reviziójának és kiadásának szabályai / Csengődy Eszter. – Budapest: ályozás (ETO) alapelvei, reviziójának és kiadásának szabályai / Csengődy Eszter. – Budapest:

OMIKK, 1983OMIKK, 1983 Szemléletváltozás az ETO jelzetszerkesztésében / Babiczky Béla. – In: Könyvtári Figyelő, 1985. 1. sz.Szemléletváltozás az ETO jelzetszerkesztésében / Babiczky Béla. – In: Könyvtári Figyelő, 1985. 1. sz.

Page 16: ETO-jelzetek posztkoordinált visszakeresése

KKöszönöm a figyelmet.öszönöm a figyelmet.