Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme...
Transcript of Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme...
![Page 1: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/1.jpg)
Jak se vyvíjí fulltext
www.seznam.cz … najdu tam, co neznám !
Jakub Černý, Ph.D.
MFF Praha, 31.3.2010
![Page 2: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/2.jpg)
www.seznam.cz … najdu tam, co neznám !
Co dnes servírujeme?
• Jak funguje fulltext?
• Jak funguje textový signál relevance?
• Jak měřit kvalitu fulltextu?
• Jak se srovnávat s konkurencí?
Jak nastavovat parametry algoritmu hledání?
• Co se vyuţije při vývoji fulltextu?
• Bonus (Technické parametry a statistiky)
Co byste chtěli slyšet vy?
![Page 3: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/3.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak tečou uživatelé internetem?
• Internet a odkazy jsou jako dálnice/sjezdovka
– co dělá běţný uţivatel z pohledu mimozemšťana?
• Kde kaţdý začíná?
– homepage, fulltext, znám adresu
• Máte webový portál, kde sehnat návštěvníky?
– postavit lepší přípojku z dálnice (SEO)
– reklama
![Page 4: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/4.jpg)
www.seznam.cz … najdu tam, co neznám !
Znovu objevení kola
Do roka to bude
řádka s URL v prohlížeči.
![Page 5: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/5.jpg)
www.seznam.cz … najdu tam, co neznám !
Seznam vs. Google
Proč Seznam vydrţí?
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
čas
Seznam
![Page 6: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/6.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak funguje fulltext?
![Page 7: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/7.jpg)
www.seznam.cz … najdu tam, co neznám !
Základní myšlenka
• Analogie s knihou
• Jak zjistíte, na které stránce
se nachází „fulltext“?
![Page 8: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/8.jpg)
www.seznam.cz … najdu tam, co neznám !
Inverted list (index)
Město
Praha
bylo
zaloţeno
….
Ţiju
v
Praze.
Je to
krásné
město.
Kaţdé
město
má
….
být → Doc1[3], Doc3[4]
kaţdý → Doc2[1],
krásný → Doc3[6],
město → Doc1[1], Doc2[2], Doc3[7]
mít → Doc2[3],
Praha → Doc1[2], Doc3[3]
to → Doc3[5],
v → Doc3[2],
zaloţit → Doc1[4],
ţít → Doc3[1],
Doc1
Doc2
Doc3
Inverted list
![Page 9: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/9.jpg)
www.seznam.cz … najdu tam, co neznám !
Hledání v indexu
být → Doc1[3], Doc3[4]
kaţdý → Doc2[1],
krásný → Doc3[6],
město → Doc1[1], Doc2[2], Doc3[7]
mít → Doc2[3],
Praha → Doc1[2], Doc3[3]
to → Doc3[5],
v → Doc3[2],
zaloţit → Doc1[4],
ţít → Doc3[1],
Inverted list
Hledám dotaz „město Praha“
Doc1
Doc3
Výsledky hledání
Nalezení
řetízku pro
slova z dotazu
a vyhodnocení
ala merge.
![Page 10: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/10.jpg)
www.seznam.cz … najdu tam, co neznám !
Příprava
Hledání
Internet
Robot
Jak funguje Fulltext
![Page 11: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/11.jpg)
www.seznam.cz … najdu tam, co neznám !
Robot
• Úkol: procházet web, hledat nové dokumenty
a obnovovat současné
• Detekce jazyka
• Hledáme jen české stránky
• Další formáty (pdf, doc, rtf, ppt,…)
SeznamBot
![Page 12: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/12.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak komunikovat s robotem
• Robots.txt – standardní protokol
pro zakázání přístupu robotů
(www.robotstxt.org)
http://example.com/robots.txt
• Sitemap.xml
http://example.com/sitemap.xml
# comment
User-Agent: *
Disallow: /statistiky
User-Agent: Bot
Disallow: /
… <url>
<loc>http://www.example.com/</loc>
<lastmod>2007-10-30T16:31:04+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url> …
![Page 13: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/13.jpg)
www.seznam.cz … najdu tam, co neznám !
Zvládání zátěže
• Stíháme včas odpovídat 1 milionu uţivatelů.
Co kdyţ chceme uspokojit celou ČR?
(5mil uţivatelů)
• Jak zajistit dostupnost? Tj. aby nám nevadil
výpadek jednoho stroje.
![Page 14: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/14.jpg)
www.seznam.cz … najdu tam, co neznám !
Příprava
Hledání
Internet
Robot
Zvládání zátěže
Hledání
LVS
2 serverovny
![Page 15: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/15.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak zrychlit výdej?
• Disky jsou pomalé. Vše musí být v cache.
• Co s tím?
![Page 16: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/16.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak zrychlit výdej?
Webovka
MetaSearch
BaseSearch
ContentServer
BaseSearch
ContentServer
BaseSearch
ContentServer
MetaSearch
![Page 17: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/17.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak se mixují signály relevance?
![Page 18: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/18.jpg)
www.seznam.cz … najdu tam, co neznám !
Signály relevance
On page Off page User
obecnéDoména, historie,
struktura stránkyPage Rank ???
tématické (k dotazu) TXT Zpětné odkazy ???
![Page 19: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/19.jpg)
www.seznam.cz … najdu tam, co neznám !
Pořadí výsledků
Mixování signálů relevance:
Kdo je lepší? Jak to míchat?
![Page 20: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/20.jpg)
www.seznam.cz … najdu tam, co neznám !
Generace mixování signálů
• 1. generace
Relevance = ∑wi∙Si
• 2. generace
Relevance = ∏ (Si+wi)
• 3. generace
Relevance = ∑wi∙distrib(Si)
• další generace?
Tajné
![Page 21: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/21.jpg)
![Page 22: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/22.jpg)
www.seznam.cz … najdu tam, co neznám !
Textový signál relevance
![Page 23: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/23.jpg)
www.seznam.cz … najdu tam, co neznám !
Textový signál relevance
• Je to názorná ukázka evoluce 1 signálu
• …jak probíhá výzkum
• Uslyšíte, jak funguje hledání v textech
(to můţete na vašich stránkách ovlivnit)
![Page 24: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/24.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Jen slova z dotazu, přesná shoda tvaru
– Jen 50% relevantních dokumentů obsahuje slova z
dotazu.
Příklad: Dotaz „ČNB“, ale relevantní stránka obsahuje jen
„oficiální úroková míra v České národní bance“.
![Page 25: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/25.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Přidání lemmatizace slov
• Různé váhy slov podle výskytiště (H1, URL, Title,
odstavec, bold, …)
• Příklady vtipné lematizace:
– Stát, ţenu, lov lína, barum, jizdní rady, dog
![Page 26: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/26.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Různé váhy slov podle jejich korpusové četnosti
– tf x idf
– vynechávání slov
Příklad dotazů: Petr a Pavel, Jak se odstraňuje vosí
hnízdo?
![Page 27: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/27.jpg)
www.seznam.cz … najdu tam, co neznám !
Otázka pro vás:
3-slovné dotazy: Máme zvýhodňovat
výsledky, kde se slova
z dotazu najdou blíţe
u sebe? Nebo je to
jedno?
![Page 28: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/28.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Proximita a pořadí slov z dotazu
• Příklady:
– Jakub Černý x Černý Jakub
– Václav Klaus video
– Já do lesa nepojedu, já do lesa nepůjdu
• Kolokace
– Velký vůz, černý Petr, Česká republika
![Page 29: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/29.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Předzpracování dotazu
– Poslechnu si uţivatele a přeloţím to do jazyka, ve
kterém fulltext umí vyhledávat.
– Nastavení proximity, …
• Příklady:
– VŠE, MŢP, IE8 (ale i naopak)
– Kdy vyhořelo Národní divadlo?
– (běţné otázky jako na kamaráda)
![Page 30: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/30.jpg)
www.seznam.cz … najdu tam, co neznám !
Po expanzi
Bez expanze
Expanze dotazu
Dotaz „Vysoká škola ekonomická v Praze“
![Page 31: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/31.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Doplňování slov odjinud
– ze zpětných odkazů (bazén podolí)
– anonymní termy
• jméno, datum, místo, video
• pro odpovědi na otázky: Kdo? Kdy? Kde?
• Příklady:
– Václav Klaus video
– Kdy vyhořelo Národní divadlo?
![Page 32: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/32.jpg)
www.seznam.cz … najdu tam, co neznám !
Další okolnosti kolem TXT signálu
• Body text extraction (BTE)
• Site-wide texty (SWT)
– rozpoznání důleţitosti slov podle vzhledu site
– odstranění neopodstatněných nároků na důleţitost
• Všechny texty v H1 apod.
• Různé chování pro různé kategorie dotazů:
– Navigační
– Informační
– Transakční
![Page 33: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/33.jpg)
www.seznam.cz … najdu tam, co neznám !
Další okolnosti kolem TXT signálu
• Desambigulace
– Vyloučení nejednoznačnosti
– Řekněte mi něco o německých tancích?
– Hrách vs. (o počítačových) hrách
![Page 34: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/34.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak měřit úspěch?
![Page 35: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/35.jpg)
www.seznam.cz … najdu tam, co neznám !
Proč? Co chceme?
• Měření kvality vyhledávačů
• Srovnání Seznamu s konkurencí
– Kdo je lepší?
– Na kterých kategoriích?
– Na kterých dotazech?
– Jak popsat skupinu dotazů, kde se to děje?
• Dostaneme tip, co zlepšovat
• Měřitelnost toho, jak jsme se zlepšili (SMART)
![Page 36: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/36.jpg)
www.seznam.cz … najdu tam, co neznám !
Otázka pro vás:
Jak měřit kvalitu výsledků
fulltextového
hledání?
• Čistě pořadí výsledků,
ne rychlost hledání, či
kvalitu webovky, snippetů
![Page 37: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/37.jpg)
www.seznam.cz … najdu tam, co neznám !
Kalibrace
Vital
Usefull
Relevant
Non-relevant
Off-topic
![Page 38: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/38.jpg)
www.seznam.cz … najdu tam, co neznám !
Kalibrace
Vital
Usefull
Relevant
Non-relevant
Off-topic
(navigační výsledek) Dotaz má jasnou interpretaci a
stránka je oficiální stránkou (jedinečnost). q=youtube …
youtube.cz(uţitečný výsledek). Stránka je hodně uspokojující,
vyčerpávající výklad, vysoká kvalita,důvěryhodný zdroj.
q=houby … atlashub.cz
(dobrý výsledek).
q=harry potter … knihy.cz/prodej/harry-potter
(blbý výsledek). Sice je to k tématu, ale není uţitečné
(málo informací, staré info, příliš obecné). q=praha …
zoopraha.cz
(výsledek mimo mísu). Výsledek obsahuje hledaná slova,
ale tématicky je mimo. q=houby … „je to na houby“
(užitečný výsledek) Stránka je hodně uspokojující,
vyčerpávající výklad, vysoká kvalita,důvěryhodný zdroj.
q=houby … atlashub.cz
(dobrý výsledek)
q=harry potter … knihy.cz/prodej/harry-potter
(blbý výsledek) Sice je to k tématu, ale není uţitečné
(málo informací, staré info, příliš obecné). q=praha …
zoopraha.cz(výsledek mimo mísu) Výsledek obsahuje hledaná slova,
ale tématicky je mimo. q=houby … „je to na houby“
![Page 39: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/39.jpg)
www.seznam.cz … najdu tam, co neznám !
Kalibrace
Výběr dotazů
Sociodemo kalibrátorů
•Porozumění dotazu
•Kvalifikace pro zhodnocení kvality
•Muţi vs. ţeny (fotbal x parfémy)
•Puberťáci vs. důchodci (q=hudba)
![Page 40: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/40.jpg)
Tajné
![Page 41: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/41.jpg)
![Page 42: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/42.jpg)
www.seznam.cz … najdu tam, co neznám !
Přínosy
• Moţnost automatického nastavování parametrů
fulltextu
• Rozhodování se na základě reálných dat
• Rychlejší vývoj a testování změn relevance
fulltextu (prototypy úprav).
• Přenesení práce na externí kalibrátory
• Bonzování, co jsou nepovedené dotazy a jejich
následné sledování -- víme na co se zaměřit
• Včas zjistíme, jak se zlepšila konkurence, co
provedli -- můţeme je včas dohnat
![Page 43: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/43.jpg)
www.seznam.cz … najdu tam, co neznám !
Automatické ladění parametrů
fulltextu
![Page 44: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/44.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak nastavit parametry na optimum?
Výdej
výsledků
Data
Data
Data
Data
parametry
![Page 45: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/45.jpg)
www.seznam.cz … najdu tam, co neznám !
Historie ladění parametrů
v Seznamu
• Od oka
– nějak nastavit parametry a pak to nějak zkoumat
– ve více lidech od oka, pak se hádáme
– kaţdý dodá dotazy, kde jsme lepší, horší, beze
změny
• Vyuţití kalibrací a měření kvality fulltextu
– Ručně nastavovat, ale hned vidím kvalitu (i dotazy,
na kterých to drhne)
• Automatické nastavování vah
![Page 46: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/46.jpg)
www.seznam.cz … najdu tam, co neznám !
Nastavovače vah
![Page 47: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/47.jpg)
www.seznam.cz … najdu tam, co neznám !
Nastavovače vah
![Page 48: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/48.jpg)
www.seznam.cz … najdu tam, co neznám !
Otázka pro vás:
Jak odstranit bottle neck?Kdyţ změníme parametry, tak se musíme
pro všechny nakalibrované dotazy zeptat
fulltextu na nové pořadí výsledků. Podle
toho poznáme, jestli jsme si pomohli…
Potřebujeme se ptát mnohem více
neţ stíháme…
Fulltext
Nastavovač
User
80 strojů
dotaz
Parametry+dotaz
![Page 49: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/49.jpg)
www.seznam.cz … najdu tam, co neznám !
Co vše se při návrhu fulltextu
využije?
![Page 50: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/50.jpg)
www.seznam.cz … najdu tam, co neznám !
Pestrý tým vývojářů
• Softwarové inţenýrství
– Práce s velkým objem dat
– Poskytování online výsledků
– Databáze a distribuované systémy
– Optimalizace na výkon, paralelizace
• Strojové učení
– Klasifikátory dotazů
– Klasifikátory stránek
(např. citlivý obsah)
• Statistika, datamining
Je to věda.
![Page 51: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/51.jpg)
www.seznam.cz … najdu tam, co neznám !
Pestrý tým vývojářů
• Lingvistika
– Lemmatizace, syntaxe věty
– Pochopení dotazu
– Zkratky
– Oprava překlepů (např. fonetický přepis)
– Kolokačnost slov
– Desambigulace
• Grafové algoritmy
– Odkazová síť, graf internetu
• Další chytré přístupy
![Page 52: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/52.jpg)
www.seznam.cz … najdu tam, co neznám !
Děkuji za pozornost.
![Page 53: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/53.jpg)
www.seznam.cz … najdu tam, co neznám !
Technické parametry a statistiky
![Page 54: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/54.jpg)
www.seznam.cz … najdu tam, co neznám !
Hardware v provozu
• 4x webovka, metasearch, lemmatizace
– Quad-Core Xeon X3550, 2x2Ghz
– Disky: 2x70G
– Paměť: 3G
• 72x basesearch, content server
– Quad-Core Xeon X3650, 2x2Ghz
– Disky: 6x160G
– Paměť: 16G
• 24x strojů pro Robota a Indexaci
Stroj pro výpočet
PageRanku má
64G RAM.
![Page 55: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/55.jpg)
www.seznam.cz … najdu tam, co neznám !
Zátěž během týdne
• 1/4 zátěţe
• aţ 400 dotazů/s
![Page 56: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/56.jpg)
www.seznam.cz … najdu tam, co neznám !
Doba odezvy během týdne
• Doba odezvy v msec
![Page 57: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/57.jpg)
www.seznam.cz … najdu tam, co neznám !
Úspěšnost query cache
• Úspěšnost cache v %
![Page 58: Jak se vyvíjí fulltext - Univerzita Karlova...–ve více lidech od oka, pak se hádáme –kaţdý dodá dotazy, kde jsme lepší, horší, beze změny • Vyuţití kalibrací](https://reader035.fdocument.pub/reader035/viewer/2022071105/5fdfb8feaaf107079d58b1e6/html5/thumbnails/58.jpg)
www.seznam.cz … najdu tam, co neznám !
Výkon robota
Rychlost stahování > 450 stránek / sec
Průměrná stránka ~11 kB (zdojový kód)
Denní objem ~40 miliónů dokumentů
cca 410 GB dat