Extrakcia športových udalostí z webu
description
Transcript of Extrakcia športových udalostí z webu
Extrakcia športových udalostí z webu
Bc. Adrián FeješFIIT STU
Vyhľadávanie informácií
Opis problému a motivácia
• Málo športových aktivít
• Množstvo informácií o športových udalostiach na webe
• Nájsť dokumenty obsahujúce informácie
• Dokumenty obsahujú množstvo nerelevantných informácií
• Extrahovanie relevantných informácií (čo, kedy, kde, koľko ...)
Existujúce riešenia
• Získanie web stránok (Google Search API, Web crawler, Lucene datastore)
• Indexovania a anotácia (Gate plugin-y)
• Konverzia na text, tokenizácia, regulárne výrazy
• Gazetteer
• GATE (General Architecture for Text Engineering)
Opis riešenia
• Názov, dátum, čas, miesto, cena, opis
• Google Custom Search API (vyhľadávacie stroje)
• Konverzia (X)HTML na text
• Uchovanie základnej štruktúry vo forme mapy (obsah html elementu -> html tag)
• Vytváranie segmentov na základe mapy
Opis riešenia
• Tokenizácia, Regulárne výrazy -> vytvorenie kandidátov
• Definovanie a hľadanie kľúčových slov v blízkosti kandidátov
• Zoradenie segmentov na základe priority
• Spracovanie segmentov (najprv s najvyššou prioritou -> obsahuje najviac relevantných údajov)
Práca s aplikáciou
• Používateľ zadá kľúčové slovo udalosti
• Zobrazia sa údaje, ktoré aplikácia vyhodnotila ako najrelevantnejšie
• Otvorenie web stránky a vyhodnotenie relevantnosti
• Možnosť alternatívnych riešení podľa segmentov
Vylepšenia
• Uchovanie základnej štruktúry stránky (uľahčenie a zefektívnenie ďalšieho spracovania)
• Segmentácia a ich priorita
• Gazetteer a jednoduchá lematizácia
• Možnosť alternatívnych riešení podľa segmentov
VyhodnotenieNázov Dátum Čas Miesto Cena Opis
Získané 20 20 18 16 3 20Relevantné 19 20 19 20 5 20Relevantné
získané - RI17 19 18 8 3 10
Pokrytie =
|RI| / |R|0,894 0,95 0,947 0,4 0,6 0,5
Presnosť =
|RI| / I0,85 0,95 1 0,5 1 0,5