Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

36
"Szemantikus beszélgetése k" - 2002. november 29., Műegyetem R épület #201 Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei Darányi Sándor Tartalomelméleti Virtuális Kutatócsoport Információ- és Tudásmenedzsment Tanszék, BMGE

description

Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei. Darányi Sándor Tartalomelméleti Virtuális Kutatócsoport Információ- és Tudásmenedzsment Tanszék, BMGE. Információ és jelentés: Gizike és gőzeke. Információ = jelentés vs. információ  jelentés - PowerPoint PPT Presentation

Transcript of Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

Page 1: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

Darányi Sándor

Tartalomelméleti Virtuális Kutatócsoport

Információ- és Tudásmenedzsment Tanszék, BMGE

Page 2: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Információ és jelentés: Gizike és gőzeke

Információ = jelentés vs. információ jelentés Információ1 = hír, újdonság, ritkaság – a.m.

valamilyen tartalom ritkasága Információ2 = a ritkaság valószínűségi mértéke a

rendezetlenségből levezetve (jelentés nélkül); a valószínűség reciproka

Shannon-Weaver; Machlup-Mansfield

Page 3: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Vektortér és szemantika

Információ a vektortérben: átkódolás eredménye (szövegből szám) Érthetetlen, az osztályozás mitől jó (= mitől

szemantikus) Tehát a vektortérben ott kell legyen a szemantika De hol?

A fő válfajok: Wittgenstein / Saussure, Carnap, Bloomfield / Uexküll, Frege / Peirce Trier és a szemantikai mező (1934)

Page 4: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Szójelentés a vektortérben 1

“Meaning is use” (Wittgenstein, PhI [1953]: § 43) [1] (az ún. pragmatikus irány) “Use” = (1) „szövegkörnyezet”, (2) „az említés

gyakorisága”, ismétlés, bevésés Az input mátrix a változók értékeinek előfordulását

ill. együttes előfordulását kódolja Ez megfelel a “use” mindkét értelmének A fogalmi tér W-szemantikus

Page 5: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Szójelentés a vektortérben 2

Saussure: a nyelv = szövet, a szójelentés kontextuális, a struktúrában elfoglalt helytől függ (az ún. strukturalista irány) Jelentés = helyiérték A jel kételemű, forma és szubsztancia egyvelege Ágoston, a skolasztikusok, Hobbes, Locke, Port-

Royal, Hjelmslev, Cassirer, Jakobson… A fogalmi tér S-szemantikus is

Page 6: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Szójelentés a vektortérben 3

Carnap, cf. Lyons: a logikai szemantikában a fogalmak tartalma és terjedelme fordítottan arányos Minél több intenzió, annál kevesebb extenzió Vö. input mátrix, értékek gyakorisága Vö. tezaurusz, BT :: NT A fogalmi tér C-szemantikus is

Page 7: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Szójelentés a vektortérben 4

Bloomfield: inger-ingerület modell A jelentés a következmény A jelentés kételemű (az ún. antimentalista,

behaviourista irány) Vö. vektortér időbeli változásai A fogalmi tér B-szemantikus is

Uexküll: az észlelet mint buborék

Page 8: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Szójelentés a vektortérben 5

Frege / Peirce: az ún. mentalista irány A jel háromelemű (tárgy, hordozó, jelentés /

fogalom) Platón, Arisztotelész, a sztoikusok, Boethius,

Bacon, Leibniz, Husserl, Ogden & Richards, Morris…

Valós vektortéren nem értelmezhető, mert hordozó és hordozott közt nincs minőségi különbség: mindkettő egynemű pont

A komplex fogalmi tér FP-szemantikus is

Page 9: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Szójelentés a vektortérben 6

Ha a vektortér egyszerre W-, S-, C-, B-, FP-szemantikus, akkor a jelentés összetett, a fenti elméletek egysíkúak

Mivel mindet geometrián figyeltük meg, közös tulajdonságuk a mező

A szemantikai mező (Trier 1934) 2-d, emez n-d

A jelentés mezőelmélete?

Page 10: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Információkereső modellek

Boole Valószínűségi Vektortér-alapú Fuzzy Kognitív

Page 11: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Dióhéjban a modellről 1

A vektorteres IR modell a szemantikai differenciál elvén működik (hasonló : nem hasonló = közeli : nem közeli)

A kereső algoritmus a tárgyszóvektor és a dokumentumvektor távolságát minimalizálja

Az eredmények láttatására különböző metaforákat használnak

A metaforák mind visszavezethetők a mezőre

Page 12: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Dióhéjban a modellről 2

A szemantikának van egy arány-oldala: a kifejezések értelme egymáshoz viszonyítható, a skála láttatható, noha sok esetet sok szempontból hasonlítunk össze (Osgood et al. 1957, affektív jelentés)

A sokváltozós osztályozási algoritmusok ilyen skálákat hoznak létre

Page 13: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

BIG SMALL

CARNIVORE

HERBIVORE

..

..

..

.

.

ELEPHANT

HYPPO

MOUSE

GOAT

PIG

CAT

TYRANNOSAURUS

TIGER

Page 14: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

A „főzni” ige szemantikai mezeje (Lehrer 1974)

Page 15: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Figure 2: Beliefs corpus, n=520, semantic field of headings 1-100 (default angle)

Page 16: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Page 17: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Néhány vizualizálási metafora a felhasználói felülethez (GUI)

(Vonalkód, brokkoli, fa, stb.) Csillagászat (galaxis) Térkép

3-d domborzati 2-d rétegvonalas

Háttérsugárzás (= a tartalom mint hő)

Page 18: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Közös tárgyszó- és dokumentumgalaxis a vektortérben (Sophia adatbázis, 1389 dokumentum x 1839 tárgyszó, k = 3 [353] faktor)

Page 19: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Önszervező (Kohonen-) térkép

A dokumentumokat egy felületre vetíti

Metafora:

”földrajzi” szomszédság = a szemantikai tartalom hasonlóságát takarja

(The Websom Project, http://websom.hut.fi)

Page 20: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

ThemeScapesTM

”Topográfiák” – hegycsúcsok mint tartalmi indikátorok

Metafora:

A közelség tartalmi hasonlóságot jelez

A domborzat magassága kontextusban ábrázolja a fontosságot

(SPIRE project, Pacific Northwest National Laboratory, USA )

Page 21: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Szójelentés rétegvonalas térképe (John Old, IUB)

Page 22: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Szójelentés mint domborzat (John Old, IUB)

Page 23: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Kölcsönös idézés mint domborzat (John Old, IUB)

Page 24: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Vektortér mezőábrázolása, 1. változat (Magyar néphit corpus, 1837 tárgyszó x 2706 szöveg, k = 520 faktor, 1:10 vízszintes tömörítés)

Page 25: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Ugyanaz különböző nagyításban

Page 26: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Page 27: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Page 28: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Page 29: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

r o w 9 6 , c o l u m n 2 4 :

1 . 7 0 0 0 0 0 0 e - 0 0 2 - 1 . 5 0 0 0 0 0 0 e - 0 0 2 - 2 . 2 7 0 0 0 0 0 e - 0 0 1 - 2 . 3 8 0 0 0 0 0 e - 0 0 1 2 . 2 7 0 0 0 0 0 e - 0 0 1 4 . 4 8 0 0 0 0 0 e - 0 0 11 . 6 9 0 0 0 0 0 e - 0 0 1 8 . 6 5 0 0 0 0 0 e - 0 0 1 - 6 . 0 0 0 0 0 0 0 e - 0 0 2 - 6 . 8 0 0 0 0 0 0 e - 0 0 2 - 2 . 0 4 0 0 0 0 0 e - 0 0 1 - 1 . 4 1 0 0 0 0 0 e - 0 0 11 . 0 0 0 0 0 0 0 e - 0 0 3 3 . 1 0 0 0 0 0 0 e - 0 0 1 8 . 0 0 0 0 0 0 0 e - 0 0 2 - 5 . 3 3 0 0 0 0 0 e - 0 0 1 - 9 . 1 4 0 0 0 0 0 e - 0 0 1 - 1 . 1 0 0 0 0 0 0 e - 0 0 1 -2 . 1 5 0 0 0 0 0 e - 0 0 1 - 3 . 9 6 0 0 0 0 0 e - 0 0 1 - 6 . 8 0 0 0 0 0 0 e - 0 0 2 8 . 0 0 0 0 0 0 0 e - 0 0 3 1 . 2 4 0 0 0 0 0 e - 0 0 1 3 . 9 0 2 9 0 0 0 e + 0 0 11 . 3 7 0 0 0 0 0 e - 0 0 1 - 4 . 6 8 0 0 0 0 0 e - 0 0 1 - 8 . 1 7 0 0 0 0 0 e - 0 0 1 2 . 8 6 0 0 0 0 0 e - 0 0 1 - 9 . 2 8 0 0 0 0 0 e - 0 0 1 - 1 . 0 9 0 0 0 0 0 e - 0 0 13 . 0 0 0 0 0 0 0 e - 0 0 2 - 1 . 4 0 0 0 0 0 0 e - 0 0 1 - 5 . 2 9 0 0 0 0 0 e - 0 0 1 1 . 2 2 0 0 0 0 0 e - 0 0 1 - 8 . 0 0 0 0 0 0 0 e - 0 0 3 4 . 4 0 0 0 0 0 0 e - 0 0 2 -9 . 8 4 0 0 0 0 0 e - 0 0 1 9 . 9 0 0 0 0 0 0 e - 0 0 2 3 . 7 0 0 0 0 0 0 e - 0 0 2 - 7 . 0 0 0 0 0 0 0 e - 0 0 2 - 1 . 5 7 0 0 0 0 0 e - 0 0 1 - 2 . 2 0 0 0 0 0 0 e - 0 0 2

F A C T 2 4 b e t e g : 1 8 1 & 3 9 . 0 2 9F A C T 2 4 2 9 A j e g y i n g e t e l k e l l t e n n i é h a a g y e r e k b e t e g , a k k o r a z & 0 . 3 2 6 8 1 P é n t e k e n n e m j ó t i s z t a r u h á t f e l v e n n i , m e r t s z e r i n t ü k k i & 0 . 4 3 9 1 2 3 8 T o j á s h é j a t n e m j ó a t ű z b e d o b n i , m e r t b e t e g s é g l e s z a & 0 . 4 3 4 1 4 0 5 H a v a l a k i f e s z ü l e t r e n í z , m e g f á j d ú ' a f e j e . & 0 . 4 9 7 1 4 5 6 A k i é j j e l t ü k ö r b e n é z , g y o m o r f á j ó s l e s z . & 0 . 4 9 7 ( . . . )

Page 30: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Vektortér mezőábrázolása, 2. változat (Magyar néphit corpus, 1837 tárgyszó x 2706 szöveg, k = 520 faktor, 1:10 vízszintes tömörítés)

Page 31: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Forma : tartalom = hordozó : hordozott

Ha kettéválasztjuk a hordozót és a hordozottat, akkor nem írhatja le őket egy sajátállapot Hordozó és hordozott: kettős sajátállapot Modularitás: többes sajátállapot

Van-e a jelentésnek olyan fizikai megfelelője, amilyen az információnak a kétállapotú jelenségek? Van, ha csinálunk Információátvitel helyett tartalomátvitel

Page 32: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Értelmezési és alkalmazási lehetőségek

A geometria mint ismeretábrázolási séma Valós vs. komplex vektortér

Dokumentumkeresés

Nyelvközi keresés

A nyelv mint fizika Szimbólumok téreloszlása A klasszikus mechanika képletei

Page 33: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Valós vs. komplex vektortér

Dokumentumkeresés: komplex tárgyszó, komplex dokumentum Ábrázolja mind a 2-, mind a 3-elemű jelet Cél: zajszűrés Cél: értelmezett háló (Semantic Web)

Nyelvközi keresés: iker-korpuszoktól a különbözőek felé Dokumentum vs. motívum-keresés

Page 34: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Komplex keresés

Miért nem elég a valós koordináta? A tárgyszó második koordinátájára zajszűrés miatt

van szükség A dokumentum második koordinátája a tárgyszó

komplex volta miatt kell Most a keresés értékelése van soron (= mennyire

zajos, vö. munkahipotézis) (Még) nem komplex indexelés

Semantic Web „Értelmező” robot

Page 35: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

A nyelv mint fizika

Szimbólumok tér(idő-)eloszlása Nyelv Osztályozás Közgazdaság

Eloszlások fizikai törvényei Egyedi szimbólum = specifikus fizikai

ismérv, vö. hely, súly (vö. Saussure, helyiérték) Egy lépésben átvitel, bitsorozat helyett

Page 36: Információ és jelentés: a vektorteres információkereső modell értelmezési lehetőségei

"Szemantikus beszélgetések" - 2002. november 29., Műegyetem R épület #201

Gyors tartalomátvitel

Analóg számítástechnikához Nem bit-alapú tartalomátvitel

Az ideografikus írás elve Feleltessük meg a fogalmakat helyeknek

az n-dimenziós térben Kódoljuk ezeket a helyeket pl. színekkel Modem és spektroszkóp

Wawe computing