Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí...

60
Manažment znalostí (3) OBSAH PREDNÁŠKY Ďalšie (alternatívne) modely pre vyhľadávanie informácií Operácie s dopytmi (spätná väzba od používateľa) Indexovanie dokumentov – ďalšie typy indexov Vyhodnocovanie systémov pre vyhľadávanie informácií (IR) Hodnotenie efektívnosti vyhľadávania (spokojnosť používateľa) Presnosť, návratnosť, F miera – hodnotenie výsledkov vyhľadávania bez usporiadania (unranked retrieval set) Grafické znázornenie závislosti presnosti a návratnosti – hodnotenie usporiadaných výsledkov vyhľadávania (ranked retrieval set) Sumarizačné mierky efektívnosti vyhľadávania Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 1

Transcript of Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí...

Page 1: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Manažment znalostí (3)

OBSAH PREDNÁŠKY

• Ďalšie (alternatívne) modely pre vyhľadávanie informácií

• Operácie s dopytmi (spätná väzba od používateľa)

• Indexovanie dokumentov – ďalšie typy indexov

• Vyhodnocovanie systémov pre vyhľadávanie informácií (IR)

• Hodnotenie efektívnosti vyhľadávania (spokojnosť používateľa)

– Presnosť, návratnosť, F miera – hodnotenie výsledkov vyhľadávania bez usporiadania (unranked retrieval set)

– Grafické znázornenie závislosti presnosti a návratnosti – hodnotenie usporiadaných výsledkov vyhľadávania (ranked retrieval set)

– Sumarizačné mierky efektívnosti vyhľadávania

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 1

Page 2: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Alternatívne modely pre IR

1. Množinovo-teoretické• Fuzzy-boolovský

• Rozšírený boolovský

2. Algebraické• Zovšeobecnený vektorový

• Latent Semantic Indexing

• Neurónové siete

3. Pravdepodobnostné• Inferenčná sieť

2Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 3: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Množinovo-teoretické alternatívne modely pre IR

• Fuzzy-boolovský model

– Každý term v dopyte je chápaný ako fuzzy množina každý dokument má potom určitú mieru príslušnosti (≤ 1) do tej - ktorej množiny

• Rozšírený boolovský model

– Kombinuje boolovský typ dopytov s charakteristikami vektorového modelu, ako napr. čiastočná podobnosť

3Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 4: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Algebraické alternatívnemodely pre IR

• Zovšeobecnený vektorový model

– Podmienka nezávislosti indexových termov znamená, že množina

vektorov je lineárne nezávislá a tvorí bázu

priestoru, ktorý nás zaujíma. Často sa ale naviac predpokladá aj

vzájomná ortogonalita, t.j. že platí

– Zovšeobecnený vektorový model upúšťa od tejto podmienky tým,

že zavádza zovšeobecnený vektorový priestor rozmeru 2t, pričom

takto definované vektory tvoria skutočne ortonormálnu bázu

zovšeobecneného vektorového modelu.

• Latentná sémantická indexácia (LSI)

• Neurónové siete

4Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 5: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Latentná sémantická indexácia (1)• LSI prístup je založený na dekompozícii tf-idf matice A podľa

singulárnych hodnôt (SVD)

• s0 je diagonálna matica singulárnych hodnôt a T0, D0 sú

matice ľavých a pravých singulárnych vektorov

5

TDsTA 000

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 5

Page 6: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

• Ak sa singulárne hodnoty v s0 usporiadajú zostupne podľa veľkosti, k najväčších hodnôt možno ponechať a ostatné nahradiť nulami:

6

Latentná sémantická indexácia (2)

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 6

Page 7: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

• Aby bolo možné vypočítať podobnosť medzi dopytom a aproximovaným vektorom dokumentu , je nutné transformovať vektor dopytu do nového priestoru príznakov

7

• Podobnosť medzi dokumentom a dopytom:

Latentná sémantická indexácia (3)

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 7

Page 8: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Latentná sémantická indexácia (4)

8

Pre

no

sný

po

číta

č

LSI d

imen

zia

1

Notebook

LSI dimenzia 2

Prenosný počítač

Notebook

Význam transformácie pôvodného vektorového priestoru dokumentov na priestor LSI

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic) 8

Page 9: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Neurónové siete

• Po prvej vlne šírenia signálov je aktivačná úroveň neurónov dokumentov rovná tej pri klasickom vektorovom modeli

• Pre zlepšenie výkonu vyhľadávania sieť ale pokračuje v šírení signálov (analógia spätnej väzby od používateľa) od vrstvy dokumentov na vrstvu termov v dokumente a naspäť k dokumentom

k1

k2

kt

ki

Termy v dopyte

k1

k2

kt

ki

Termy v

dokumentoch (index)

d1

d2

dN

dj

Dokumenty

Wq,2

Wq,i

W1,2

Wi,j

W2,j

Wi,N

W2,1

Wt,j

9Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 10: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Modely pre prehľadávanie• Ploché prehľadávanie

– Plochá organizácia priestoru dokumentov, napr. ako prvok v jednorozmernom zozname (výsledky z vyhľadávača), alebo v 2-rozmernom priestore (mikrofiše v knižniciach), alebo web stránka bez liniek.

• Štruktúrou riadené prehľadávanie– Dokumenty organizované v štruktúre podobnej adresárovej,

napr. klasifikácia titulov podľa oblastí v knižniciach, alebo elektronická kniha s odkazmi na kapitoly a ich časti.

• Hypertextový model– Organizačná štruktúra textu, ktorá sa dosahuje vkladaním

prepojení (liniek) do textu. Vzniká grafová štruktúra, kde každý z uzlov má asociovanú textovú oblasť.

– Aby sa používateľ v hypertexte nestratil, ten by mal mať buď asociovanú mapu, alebo jednoduchšiu, ľahko zapamätateľnú základnú štruktúru.

10Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 11: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Taxonómia modelov pre IR ešte raz

1. VyhľadávanieA. Klasické modely

• Boolovský

• Vektorový

• Pravdepodobnostný

B. Alternatívne modely

• Množinovo-teoretické (napr. fuzzy-boolovský, rozšírený boolovský)

• Algebraické (napr. zovšeobecnený vektorový, LSI, neurónové siete)

• Pravdepodobnostný (napr. inferenčná sieť)

2. PrehľadávanieC. Modely na prehľadávanie

• Ploché

• Riadené štruktúrou

• Hypertext

11Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 12: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Operácie s dopytmi

• Skúsenosti s vyhľadávaním na webe ukazujú, že úvodnú otázku možno chápať ako prvý, viac menej naivný pokus vyhľadať relevantné informácie

• Preto je potrebné otázku ďalej vylepšovať, a to:a) rozšírením otázky o nové termy a/alebo

b) úpravou váh jednotlivých termov v otázke

• Existujú tri skupiny prístupov k riešeniu tejto úlohy:1. založené na spätnej väzbe od používateľa

2. založené na informácii odvodenej z množiny dokumentov vyhľadanej na pôvodnú otázku (tzv. lokálna množina dokumentov)

3. založené na globálnej informácii odvodenej z celej kolekcie dokumentov

12Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 13: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

1. Spätná väzba od používateľa

• Najpopulárnejšia stratégia, pri ktorej priamo používateľ

vyznačí v odpovedi na svoju otázku tie dokumenty, ktoré

považuje za relevantné

• Z takto označených dokumentov sa odvodia významné termy

a ich váhy sa v pôvodnej otázke zvýšia

• Výhody:

– Chráni používateľa pred detailmi reformulácie otázky

– Proces hľadania rozdeľuje na malé, ľahšie zvládnuteľné kroky

– Poskytuje kontrolovaný proces navrhnutý pre zdôraznenie niektorých

a potlačenie iných termov v otázke

13Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 14: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Aplikácia spätnej väzby od používateľa vo vektorovom modeli (1)

• Cieľom je priblížiť otázku k vektorom tých dokumentov, ktoré označil používateľ ako relevantné– Dr – množina relevantných dokumentov

identifikovaných používateľom spomedzi vrátených

– Dn – množina nerelevantných dokumentov spomedzi vrátených

– Cr – množina relevantných dokumentov spomedzi všetkých dokumentov v kolekcii (ideálna odpoveď)

– , , - vylaďovacie konštanty

14Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 15: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Aplikácia spätnej väzby od používateľa vo vektorovom modeli (2)

• Optimálny váhový vektor otázky by bol:

• Samozrejme Cr nám nie je vopred známe, takže otázku

budeme postupne vylepšovať na základe spätnej väzby

od používateľa (t.j. Dr a Dn), napr. tzv. Standard Rochio:

15Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 16: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Aplikácia spätnej väzby od používateľa vo vektorovom modeli (3)

• Iná možnosť je napr. Ide Regular :

• Nastavenie váh:

– v pôvodnom Standard Rochio bolo = 1

– pri Ide Regular = = = 1

– spravidla

– ak naviac = 0, hovoríme o pozitívnej spätnej väzbe

16Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 17: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

2. Expanzia dotazov lokálnym zhlukovaním

• Tieto stratégie sú založené na rozšírení otázky o termy, ktoré

sú korelované s termami v pôvodnej otázke

• Ide o tie termy, ktoré sa vyskytujú v lokálnych zhlukoch

vytvorených z množiny dokumentov vrátených v odpovedi

na danú otázku

• Používajú sa 3 typy zhlukov:

– Asociačné – založené na frekvencii spoluvýskytov termov (alebo ich

kmeňov) vnútri dokumentu, bez ohľadu na pozíciu ich výskytu

– Metrické – snažia sa zohľadniť vzdialenosť v rámci dokumentu,

s ktorou sa 2 termy spolu vyskytujú

– Skalárne – založené na nepriamom vzťahu – dva termy (kmene slov)

s podobným okolím majú nejaký synonymický vzťah 17Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 18: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

3. Automatická globálna analýza (1)

• Spravidla ide o stratégie, ktoré vychádzajú z podobnosti termov

odvodenej automaticky na základe celej kolekcie dokumentov

• Napr. podobnostný tezaurus je budovaný na základe vzťahov medzi

termami navzájom, nie však z pohľadu ich spolu-výskytov, ale ich

uvažovaním ako konceptov v priestore konceptov

• V priestore konceptov je každý term indexovaný dokumentmi,

v ktorých sa vyskytol (t.j. obrátený pohľad ako v tradičnom priestore

dokumenty – termy)

• Globálny podobnostný tezaurus je budovaný na základe výpočtu

korelačného faktora cu,v pre každý pár indexových termov ku a kv,

čo je síce výpočtovo náročné, ale tento výpočet stačí previesť raz

a potom už len inkrementálne vypočítané hodnoty aktualizovať

18Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 19: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

3. Automatická globálna analýza (2)

• Rozšírenie otázok s použitím podobnostného

tezaura potom funguje nasledovne:

1. Otázka sa premietne do priestoru konceptov, ktorý sa

používa pre reprezentáciu indexových termov

2. Na základe globálneho podobnostného tezaura sa

vypočíta podobnosť otázky q a každého indexového

termu sim(q, kv)

3. Nakoniec sa otázka rozšíri o prvých r indexových

termov z pohľadu ich podobnosti voči otázke sim(q, kv)

19Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 20: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Indexovanie dokumentov – ďalšie typy indexov

• Cieľom indexovania je vytvorenie pomocnej štruktúry, ktorá je nezávislá od databázy textových dokumentov a slúži na rýchle vyhľadávanie dokumentov z nej.

• Na indexovanie sa najčastejšie používajú tieto pomocné štruktúry:1. Invertovaný index (rôznej granularity)

2. Príponové stromy a príponové polia

3. Súbory signatúr

20Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 21: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Invertovaný index (1)

• Invertovaný index (resp. invertovaný súbor) je slovne orientovaný mechanizmus na indexovanie kolekcií textových dokumentov

• Je tvorený dvoma komponentmi:

1. Slovník (vocabulary) – množina všetkých navzájom rôznych slov, ktoré sa vyskytli v textoch

2. Výskyty (occurencies) – pre každé slovo zo slovníka je evidovaný zoznam pozícií v texte, kde sa toto slovo vyskytlo

21Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 22: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Invertovaný index (2)

22

Všetky vložené obrázky sú prebrané z knihy: R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval, Addison Wesley, 1999

Page 23: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Invertovaný index (3)

• Zoznamy výskytov jednotlivých slov môžu adresovať:

a) Presné znakové pozície (viď. predchádzajúci obrázok)

b) Slovné pozície

c) Pozície začiatkov blokov, v ktorých sa slovo vyskytlo (šetrí pamäťový priestor, ale už nie je taký efektívny na vyhľadávanie fráz)

• Veľkosť blokov môže byť stanovená:

– Subjektívne (napr. 64 kB), vzniká ale dodatočný problém s identifikáciou konkrétneho dokumentu

– Po dokumentoch – nedá sa ovplyvniť ich počet, veľkosť je spravidla veľmi nerovnomerná

23Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 24: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Invertovaný index (4)

24Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 25: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Veľkosť invertovaného indexu (1)

• Priestorová zložitosť slovníka invertovaného indexu je O(n), kde

– n je veľkosť textovej databázy a

– konštanta leží medzi 0 a 1 v závislosti od textu, ale obvykle medzi 0.4 a 0.6

• Výskyty zaberajú omnoho viac miesta, lebo výskyt každého slova v kolekcii sa objavuje aj vo výskytoch, čo zodpovedá priestorovej zložitosti O(n)

– V praxi sa veľkosť priestoru na výskyty pohybuje medzi 30% až 40% veľkosti databázy textov

25Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 26: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Veľkosť invertovaného indexu (2)

26Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 27: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Vyhľadávanie v invertovanom indexe

• Pozostáva z troch krokov1. Vyhľadanie izolovaných slov z otázky v slovníku

2. Vyhľadajú sa zoznamy výskytov všetkých nájdených slov

3. Manipulácia s výskytmi podľa charakteru otázky (napr. v prípade fráz, blízkosti alebo boolovských operátorov)• V prípade blokov môže byť nutné ešte priame vyhľadanie textu

v rámci identifikovaných blokov

• Celková časová zložitosť vyhľadávania je O(n), kde záleží od otázky, ale obvykle leží medzi 0.4 a 0.8

1. Pri použití vhodnej štruktúry slovníka (napr. triesy, hashovanie, alebo binárne stromy) možno dosiahnuť časovú zložitosť O(m), kde m je veľkosť otázky, ale pri jednoduchom uložení slov slovníka to bude O(log(n))

2. Výskyty sú lokalizovateľné prakticky okamžite

3. V prípade blokov a zložitejších otázok môže časová zložitosť narásť až na O(n0.85), čo je ale stále sublineárna zložitosť

27Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 28: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Vytvorenie invertovaného indexu• Vybudovať invertovaný index nie je zložité a dá sa to

spraviť s lineárnou časovou zložitosťou O(n)

• Zvykne sa pritom používať štruktúra tries, v ktorej je

uložené každé slovo spolu aj so zoznamom jeho výskytov

(viď. obrázok)

28

Page 29: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príponové stromy (1)• Príponové stromy boli navrhnuté najmä na indexovanie

netextových databáz ako napr. databáz rôznych genómov (t.j. dlhé reťazce znakov)

• Každý indexovaný bod v texte je chápaný ako začiatok textu siahajúceho až do konca (t.j. celý zvyšný text je jeho príponou)

29

Page 30: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príponové stromy (2)

30

Page 31: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Porovnanie časovej a priestorovej zložitosti vyhľadávacích algoritmov

31Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 32: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

32

Page 33: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Vyhodnocovanie systémov pre vyhľadávanie informácií

• Čo by sme radi merali u IR systému je miera spokojnosti jeho používateľov– Tú ovplyvňuje mnoho faktorov (rýchlosť odozvy, rôzne

aspekty GUI, kvalita sumárov a pod.)

• Pod vyhodnotením IR systému ale najčastejšie rozumieme efektívnosť vyhľadávania, meranú ako miera relevancie množiny vrátených dokumentov k informačnej potrebe vyhľadávajúceho

• Pre daný systém IR (resp. jeho konkrétnu vyhľadávaciu stratégiu S) sa kvantifikuje – podobnosť medzi množinou dokumentov vyhľadaných

pomocou S (spravidla označovaných A – answer)

– a množinou dokumentov stanovených ako relevantné k danej otázke expertmi (R – relevant documents)

33

Page 34: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Vyhodnocovanie efektívnosti vyhľadávania

• Pre takéto vyhodnotenie IR systému teda potrebujeme:– Kolekciu dokumentov– Testovaciu množinu informačných potrieb (testovacie dopyty)– Spravidla binárne ohodnotenie dokumentov v kolekcii z pohľadu ich

ne/relevancie ku každému dopytu z testovacej množiny dopytov

• Informačná potreba je teda najprv transformovaná do podoby dopytu, ale relevantnosť je meraná voči informačnej potrebe, nie voči dopytu

– Príklad informačnej potreby: „Chcem zistiť či konzumácia červeného vína efektívnejšie znižuje riziko srdcového infarktu než konzumácia bieleho vína.“

– Dopyt: „víno červené biele srdcový infarkt zníženie rizika“– Z jednoslovného dopytu je pre IR systém veľmi ťažké zistiť informačnú

potrebu, ale používateľ nejakú vždy má („python“?)

34Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 35: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Štandardné testovacie kolekcie pre IR

• Dátové kolekcie pripravované a spravované už dlhé roky NIST (National Institute of Standards and Technology)

– TREC (Text REtrieval Conference) – 1,89 mil. dokumentov, 450 informačných potrieb (zvaných topics – špecifikovaných podrobnými pasážami textu)

– Ohodnotenie top-k dokumentov vrátených nejakým IR systémom, nie všetkých dokumentov v kolekcii

– Gov2 – 25 mil. web stránok, najväčšia testovacia kolekcia (stále však cca. 1000 krát menšia ako indexujú bežné vyhľadávače)

• Reuters-21578 a Reuters-RCV1 – kolekcie novinových článkov používané najmä pre klasifikáciu textov, podobne aj

• 20 Newsgroups – kolekcia Usenet news skupín (1000 článkov z každej)

35Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 36: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Hodnotenie efektívnosti vyhľadávania pre neusporiadanú množinu výsledkov

• Uvažujme celú množinu výsledkov IR naraz (alebo aj unranked retrieval set), pričom:– q je daný dopyt reprezentujúci informačnú potrebu

– R je množina relevantných dokumentov ku q

– |R| je počet relevantných dokumentov ku q

– A je množina dokumentov, ktoré vyhľadávací systém používajúci stratégiu S vráti ako odpoveď na q

– |A| je počet dokumentov vrátených S ako odpoveď na q

– RA je prienik množín R a A

A

RP

APresnosť (precision)

R

RN

ANávratnosť (recall)

36Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 37: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Základné miery efektívnosti trocha ináč

Relevantné

dokumenty

Nerelevantné

dokumenty

Dokumenty vrátené

IR systémom na q true positive (tp) false positive (fp)

Dokumenty, ktoré

neboli v odpovedi

IR systému na q

false negative (fn) true negative (tn)

37Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

)( fptp

tpP

Presnosť (precision)

)( fntp

tpN

Návratnosť (recall)

Page 38: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Prečo nie presnosť klasifikácie?

Relevantné

dokumenty

Nerelevantné

dokumenty

Dokumenty vrátené

IR systémom na q true positive (tp) false positive (fp)

Dokumenty, ktoré

neboli v odpovedi

IR systému na q

false negative (fn) true negative (tn)

38

• Presnosť klasifikácie (accuracy) sa využíva pri klasifikácii, vyjadruje percento správne zaradených príkladov (v tomto prípade dokumentov)

• Pre IR ale nie je vhodná, lebo spravidla 99,9% dokumentov sú nerelevantné

)( fntnfptp

tntpA

Accuracy

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 39: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Závislosť medzi presnosťou a návratnosťou (1)

• Treba si uvedomiť, že presnosť a návratnosť sú v zásade

protichodné požiadavky, t.j. akýkoľvek IR systém sa musí

snažiť o vhodný kompromis medzi nimi

• Návratnosť je neklesajúca funkcia počtu dokumentov

vrátených na daný dopyt

• Presnosť naproti tomu klesá s pribúdajúcim počtom vrátených

dokumentov aj v dobrom IS systéme

• Preto sa zvykne používať aj zložená F miera, ktorá práve

popisuje kompromis medzi presnosťou a návratnosťou;

RP

PR

RP

F

2

2 )1(

1)1(

1

1

12

39Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 40: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Závislosť medzi presnosťou a návratnosťou (2)

• Ak je pre nás rovnako dôležitá presnosť aj návratnosť, potom

treba dať

• Hodnoty β < 1 zdôrazňujú presnosť, hodnoty β > 1 zase

návratnosť

• Presnosť, návratnosť a F miera majú rozsah hodnôt [0,1],

ale môžu sa uvádzať aj v percentách

40

RP

PR

RP

PRF

2)1(2

2

1

12 ],0[]1,0[ kde

15,0

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 41: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

F1 a ďalšie možné odvodené mierky

• Aritmetický priemer (AP) nie je vhodný (napr. ak R = 100% a P = 0,02%, potom AP = 50,01)

• Geometrický priemer (GP) je lepší (pre predchádzajúci prípad GP = 1,41)

• Harmonický priemer (HP) je však najvhodnejší (pre predchádzajúci prípad HP = 0,04)

2

PRFAP

PRFGP .

41

1

2

11

2F

PR

RP

PR

FHP

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 42: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

F1 a ďalšie možné odvodené mierky

42

Combined Measures

0

20

40

60

80

100

0 20 40 60 80 100

Precision (Recall fixed at 70%)

Minimum

Maximum

Arithmetic

Geometric

Harmonic

Page 43: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

• Avšak používateľ obyčajne nevidí celú množinu A (odpoveď na svoj dopyt q) naraz, ale postupne, dokumenty sú usporiadané podľa stupňa relevancie (ranked retrieval set)

• Teda návratnosť a presnosť sa z pohľadu používateľa postupne menia

• Priebeh presnosti, ako funkcie závislej od návratnosti sa zvykne zobrazovať graficky -> tzv. krivka presnosť – návratnosť

43Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Hodnotenie efektívnosti vyhľadávania pre usporiadanú množinu výsledkov

Page 44: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Krivka presnosť – návratnosť

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

Návratnosť

Pre

sn

osť

Interpolovaná presnosť

pinterp(r) = maxr´≥r p(r´)

44Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 45: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (1)

1. d123

2. d84

3. d56

4. d6

5. d8

• Nech množina všetkých relevantných dokumentov R

na dopyt q1 je nasledovná:

R1 = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}

• Odpoveď vyhľadávacej stratégie S obsahuje túto

postupnosť dokumentov:

6. d9

7. d511

8. d129

9. d187

10. d25

11. d38

12. d48

13. d250

14. d113

15. d3

• Zostrojte krivku presnosť – návratnosť pre danú

vyhľadávaciu stratégiu S a otázku q1

45Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 46: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (1) Normovaná krivka presnosť - návratnosť

1. dokument d123

3. dokument d56

6. dokument d9

10. dokument d25

15. dokument d3

46Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 47: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Normovaná krivka presnosť - návratnosť

• Definuje sa 11 normovaných úrovní návratnosti: 0%, 10%, 20%, ..., 100%

• Nech rj , j {0,1,2,…,10} je referencia na j-tu štandardnú úroveň návratnosti (napr. r5 je úroveň návratnosti 50%)

• Potom hodnota P(rj) sa interpoluje podľa vzorca: P(rj) = max rj r rj+1 P(r)

• čo znamená že interpolovaná presnosť na j-tej štandardnej úrovni návratnosti je maximálna známa presnosť pre ľubovoľnú návratnosť z intervalu <rj , rj+1>

47

Page 48: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (2)

1. d123

2. d84

3. d56

4. d6

5. d8

• Nech množina všetkých relevantných dokumentov R2

na dopyt q2 je nasledovná:

R2 = {d3, d56, d129}

• Odpoveď vyhľadávacej stratégie S obsahuje tú istú

postupnosť dokumentov ako v predchádzajúcom

príklade, t.j.:6. d9

7. d511

8. d129

9. d187

10. d25

11. d38

12. d48

13. d250

14. d113

15. d3

• Zostrojte normovanú krivku presnosť – návratnosť

pre danú vyhľadávaciu stratégiu S a otázku q2

48Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 49: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (2) Normovaná krivka presnosť - návratnosť

3. dokument d56 8. dokument d12915. dokument d3

49Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 50: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Vyhodnocovanie efektívnosti vyhľadávania (4)

• Vyhodnotenie vyhľadávacej stratégie S sa však spravidla nerobí na jedinom dopyte q, ale na množine dopytov

• Definuje sa 11 normovaných úrovní návratnosti r: 0%, 10%, 20%, ..., 100%

• Vypočítajú sa presnosti na jednotlivých normovaných úrovniach návratnosti P(r) pre všetky dopyty z testovacej množiny dopytov

• Nech počet dopytov je Nq, potom výsledná krivka bude zachytávať priemerné hodnoty presností pre jednotlivé normované úrovne návratnosti, vypočítané podľa vzorca:

qN

i q

i

N

rPrP

1

)()(

• Kde Pi(r) je presnosť S pri i-tomdopyte na úrovni návratnosti r

50Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 51: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (dobrý výsledok z TREC 8)

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

Recall

Pre

cis

ion

51

Page 52: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (3)Vyhľadávanie založené na ontológii (1)

1. Predpokladáme, že množina konceptov pre daný dopyt je známa

2. Množina konceptov asociovaných s daným dokumentom sa vyberie z databázy

3. Tieto dve množiny sa porovnajú nasledovnou mierkou podobnosti daného dokumentu a dopytu :

0,,

)1,0(

),(

coniDconQifconiDconQ

k

simonto iDQ

QiD

52Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 53: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (3)Vyhľadávanie založené na ontológii (2)

4. Výsledná podobnosť sa vypočíta ako súčin podobnosti založenej na ontológii a podobnosti vypočítanej podľa vektorového modelu, (prípadne LSI modelu)

),(),(),( iii DQDQDQ IDFTFonto simsimsim

53Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 54: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (3) – Použitá kolekcia dokumentov

• Kolekcia nazvaná Cystická fibróza (získaná z databázy

MEDLINE) – Kolekcia pozostáva z 1239 dokumentov

– Minimálna veľkosť dokumentu 0.12 kb, maximálna veľkosť 3.8

kb a priemerná veľkosť 1.045 kb

– Ku kolekcii existuje aj súbor so 100 dopytmi

– Pre každý dopyt je známa množina relevantných dokumentov

– Každý dokument v odpovedi je ohodnotený číslom 0 až 8 (4

nezávislí experti hodnotili mieru relevancie 0-2)

– Existuje 821 konceptov a priemerný počet konceptov

priradených dokumentu je 2.8

– Priemerný počet dokumentov asociovaných s jedným

konceptom je 4.254Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 55: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Príklad (3) – Výsledky

55

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Návratnosť [%]

Pre

sn

os

ť [

%]

TF - IDF

LSI

Koncepty

TF-IDF

LSI

Koncepty

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 56: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Sumarizačné mierky efektívnosti vyhľadávania (1)

1. Priemerná presnosť pri nájdených relevantných dokumentoch (MAP - mean average precision)

– Táto mierka favorizuje vyhľadávacie stratégie, ktoré rýchlo nájdu relevantné dokumenty

56

57.05

3.04.05.066.011

qP 26.03

2.025.033.02

qP

2. R-presnosť (RP) je presnosť vyhľadávacej stratégie S

na |R|-tej pozícii, t.j. pri |R|-tom vrátenom dokumente

– Táto mierka vlastne nie je sumarizačnou, popisuje iba jeden

bod krivky presnosť - návratnosť, prax však ukazuje, že je

vysoko korelovaná s MAP

4.010

41

qRP 33.03

12

qRP

Page 57: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Sumarizačné mierky efektívnosti vyhľadávania (2)

3. Presnostné histogramy sa používajú na porovnanie presnosti dvoch stratégií vyhľadávania (S1 a S2) pre viaceré dopyty i = 1 .. Nq

)()()(2121 /iRPiRPiRP SSSS

4. Štatistiky v sumarizačnej tabuľke – napr. počet otázok, celkový počet vrátených dokumentov, z nich celkový počet relevantných dokumentov, a pod.

57Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 58: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Používateľsky orientované mierky efektívnosti vyhľadávania

5. Pokrytie (coverage) C je definované nasledovne: U

RC

k

6. Novosť (novelty) O je definovaná nasledovne:

A

U

Uk

U

R

R

RR

RO

• U je podmnožina R takých dokumentov, ktoré sú používateľovi už známe

• Rk = A U je množina používateľovi známych dokumentov v odpovedi A

• RU je množina relevantných dokumentov v odpovedi A, ktoré používateľovi neboli predtým známe

58Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 59: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Vysvetlenie významu množín pri používateľsky definovaných

mierkach efektívnosti vyhľadávania

U

RC

k

Uk

U

RR

RO

59

používateľovi už známe dokumenty (U)

RuRk

množina dokumentov vrátených systémom (A)

množina relevantných dokumentov (R)

Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)

Page 60: Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Vylepšovanie bežiaceho IR systému

• Používateľské štúdie sú dobrý nástroj, najmä v čase návrhu,

ale sú časovo náročné a nákladné

• Pre bežiaci IR systém sa najčastejšie používa metóda zvaná A/B test:

– Pre takýto test sa spraví práve jedna zmena (systém B) aktuálneho

systému (systém A), ktorej vplyv chceme ohodnotiť

– Časť používateľských požiadaviek (1 až 10%) sa presmeruje na

zmenený systém B, zvyšné spracúva aktuálne bežiaci systém A

– Porovnajú sa sledované parametre (napr. frekvencia klikaní na prvý

odkaz v zozname) medzi systémami A a B

– Pri dostatočne veľkom počte používateľov možno takýmto

spôsobom lacno a rýchle overiť vplyv navrhovanej zmeny

60Manažment znalostí (3) Ján Paralič (people.tuke.sk/jan.paralic)