Extrakcia športových udalostí z webu

8
Extrakcia športových udalostí z webu Bc. Adrián Feješ FIIT STU Vyhľadávanie informácií

description

Extrakcia športových udalostí z webu. Bc. Adrián Feješ FIIT STU Vyhľadávanie informácií. Opis problému a motivácia. Málo športových aktivít Množstvo informácií o športových udalostiach na webe Nájsť dokumenty obsahujúce informácie Dokumenty obsahujú množstvo nerelevantných informácií - PowerPoint PPT Presentation

Transcript of Extrakcia športových udalostí z webu

Page 1: Extrakcia športových udalostí z webu

Extrakcia športových udalostí z webu

Bc. Adrián FeješFIIT STU

Vyhľadávanie informácií

Page 2: Extrakcia športových udalostí z webu

Opis problému a motivácia

• Málo športových aktivít

• Množstvo informácií o športových udalostiach na webe

• Nájsť dokumenty obsahujúce informácie

• Dokumenty obsahujú množstvo nerelevantných informácií

• Extrahovanie relevantných informácií (čo, kedy, kde, koľko ...)

Page 3: Extrakcia športových udalostí z webu

Existujúce riešenia

• Získanie web stránok (Google Search API, Web crawler, Lucene datastore)

• Indexovania a anotácia (Gate plugin-y)

• Konverzia na text, tokenizácia, regulárne výrazy

• Gazetteer

• GATE (General Architecture for Text Engineering)

Page 4: Extrakcia športových udalostí z webu

Opis riešenia

• Názov, dátum, čas, miesto, cena, opis

• Google Custom Search API (vyhľadávacie stroje)

• Konverzia (X)HTML na text

• Uchovanie základnej štruktúry vo forme mapy (obsah html elementu -> html tag)

• Vytváranie segmentov na základe mapy

Page 5: Extrakcia športových udalostí z webu

Opis riešenia

• Tokenizácia, Regulárne výrazy -> vytvorenie kandidátov

• Definovanie a hľadanie kľúčových slov v blízkosti kandidátov

• Zoradenie segmentov na základe priority

• Spracovanie segmentov (najprv s najvyššou prioritou -> obsahuje najviac relevantných údajov)

Page 6: Extrakcia športových udalostí z webu

Práca s aplikáciou

• Používateľ zadá kľúčové slovo udalosti

• Zobrazia sa údaje, ktoré aplikácia vyhodnotila ako najrelevantnejšie

• Otvorenie web stránky a vyhodnotenie relevantnosti

• Možnosť alternatívnych riešení podľa segmentov

Page 7: Extrakcia športových udalostí z webu

Vylepšenia

• Uchovanie základnej štruktúry stránky (uľahčenie a zefektívnenie ďalšieho spracovania)

• Segmentácia a ich priorita

• Gazetteer a jednoduchá lematizácia

• Možnosť alternatívnych riešení podľa segmentov

Page 8: Extrakcia športových udalostí z webu

VyhodnotenieNázov Dátum Čas Miesto Cena Opis

Získané 20 20 18 16 3 20Relevantné 19 20 19 20 5 20Relevantné

získané - RI17 19 18 8 3 10

Pokrytie =

|RI| / |R|0,894 0,95 0,947 0,4 0,6 0,5

Presnosť =

|RI| / I0,85 0,95 1 0,5 1 0,5