Tarcsi Ádám: Keresőportálok működési elve

Post on 23-Dec-2014

1.303 views 5 download

description

 

Transcript of Tarcsi Ádám: Keresőportálok működési elve

KERESŐPORTÁLOK MŰKÖDÉSI ELVEI, INDEXELŐ SZOLGÁLTATÁSOK, RANGSOROLÁSI SZEMPONTOK

Tarcsi Ádám

Keresőportálok csoportosítása

2

Keresők csoportosítása

Klasszikus, általános célú, kulcsszavas keresők

Katalógus, linkgyűjtemény jellegű, tematikus keresők

Web 2.0 keresők Tematikus, speciális adatbázisokra

épített keresők, tudásbázisok Meta vagy szemantikus keresők Vizualizációs keresők Real-time, valósidejű kereső Hibrid

3

Klasszikus, általános célú keresők

A keresők a weblapokat indexelés után veszik fel az adatbázisba.

A legnagyobb keresők (a Google, a Yahoo és a Bing) alapvetően ebbe a kategóriába tartoznak.

4

Katalógus, linkgyűjtemény, tematikus keresők

Felhasználók, vagy szerkesztők által kezelt tartalmak érhetőek el.

Például: Open Directory Project (DMOZ) Yahoo Directory Startlap Lapozz.hu Linkcenter.hu del.icio.us

5

Web 2.0-s keresők

A tartalmat a felhasználók töltik fel, osztják meg.

Youtube.com Flickr.com

6

Tematikus, speciális adatbázisokra épített keresők, tudásbázisok

Adott témára, vagy speciális adatbázisokra épített keresők. Például:

books.google.com Europeana az európai elektronikus

könyvtár www.europeana.eu Wolfram Alpha (wolframalpha.com) -

részben Gyógyszerkereső: agyogyszer.hu Termékkereső: arukereso.hu [Origo] sztaki szótár: szotar.sztaki.hu

7

Meta vagy szemantikus keresők

A weben lévő tartalmakat, adatbázisokat a számítógép számára is értelmezetten le tudjuk írni, ún. metaadatok vagy szemantikák, azaz jelentések, összefüggések megadásával

Néhány szemantikus kereső: Evi: http://evi.com SenseBot: http://www.sensebot.net/ Swoogle: http://swoogle.umbc.edu/ Dbpedia: a wikipedia tartalmára építettek egy

szemantikus adatbázist. Wolfram Alpha: http://wolframalpha.com

8

Szemantikus keresők - evi9

http://www.evri.com/news/for?query=Budapest+sights

DBpedia10

11

Hol voltak ma földrengések?

12

WolframAlpha

http://www.wolframalpha.com/input/?i=all+earthquakes+today

Vizualizációs keresők

Találataik között összefüggéseket állapítanak meg, majd azokat ábrázolják, jellemzően gondolati térképeken hatékonyabb, a gráfok mentén böngészve gyorsabb keresést kínálvaIlyen keresők például:

Quitura: http://www.quintura.com/ Liveplasma: http://www.liveplasma.com/

13

Valósidejű (real time) keresők

Valós idejű keresők, közösségi oldalakon, blogokon, hírfolyamokon használt.

Az adatok szinte valós idejű indexelése, hogy az.

Az internet csak egy kis részét pásztázzák.

Pl.: socialmention.com

14

Hibrid

A legnagyobb keresők valójában ebbe a kategóriába tartoznak.

A Google keresője például nagyrészt a keresőrobotok által talált oldalak tartalmára, valamint azokon talált képekre történő keresésekben segít, ugyanakkor bizonyos szemantikus adatokat is fel tud dolgozni.

15

Keresők működése16

17

Keresők működése

Kereséshez fel kell túrni a homokozót: Web (ro)bot, spider, clawler

Linkeken keresztül járják be a webet

Indexelés Adattisztítás Indexelés, Rangsorolás: A kulcsszavak előfordulását súlyozza az elismertségi

szinttel (PageRank-kel Frissítés (újra bejárás)

A pontos értelmezés: metaadatok szükségesek Matematikai módszerekkel az emberi nyelv nem írható le a helyes

értelmezéshez szükség van az emberre is. Valahol itt született meg a szemantikus web víziója

Az Interneten nem csak emberek "böngésznek", kommunikálnak számítógépek számára is érthető tartalom kell.

PageRank18

Hiperlinkkel összekötött dokumentumhoz egy számot rendel a betöltött szerep alapján.

Hivatkozás = szavazás az oldalra Az a fontos oldal, amire mutatnak.

- i: adott oldal- d: csillapítási tényező- M(i): azon oldalak halmaza, amelyek linkelnek i-re- L(j): j. Oldalról kimenő linkek száma

PageRank, kulcsszó lekérdezők

19

Többféle SEO Toolbar létezik FireFox-hoz http://seopen.com/seopen-tools/pagerank.ph

p http://www.iwebtool.com/pagerank_checker Bejövő linkek ellenőrzése

link: http://www.inf.elte.hu Linkhálózat PageRank elemzése:

http://www.smartpagerank.com/pagerank-backlinks.php

Kulcsszó ajánló, kulcssűrűség vizsgáló: http://www.webconfs.com/ http://www.seotools.hu/

Google20

Googol Google21

1 googol = 10100 = 10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000

1938, Milton Sirotta Googolplex = 10googol – a legnagyobb

saját névvel rendelkező szám – Edward Kasner

Története22

BackRub Larry Page (1971), Sergey Brin (1972),

Stanford University, 1995 1996: BackRub keresőmotor.

Alapja: visszamutató linkek elemzése 1997 – Google: Az egyetemi campuson

üzemel 1998: Első adatközpont – 1 terrabyte Google: 59 000 keresés

másodpercenként

A Google titka23

A legtöbb belinkelt oldal (?) Legtöbb találat több, mint 70-80%-os piaci

rész Egyszerű, átlátható, barátságos Kevés reklám, a szponzorált oldalak nem

kapnak jobb pozíciót Egyéb, kiegészítő szolgáltatások:

Képkeresés Számológép, definíció, US telefonkönyv,

utcatérkép, helyesírás ellenőrző Hasonló lapok, adott site-on keresés, ki

hivatkozik rám, stb. Fizetős szolgáltatások: hirdetési rendszer,

Earth, SketchUp

Keresők piaca24

Keresők piaca: trend25

Keresők piaca: trend

2012 Jan, US

GoogleBingYahooASKAOL

26

comScore January 2012 U.S. Search Engine Rankings

Globális keresőpiac27

http://marketshare.hitslink.com/search-engine-market-share.aspx?qprid=4

Globális keresőpiac28

Mobil keresés29

Keresőmotorok - Magyarország

30

Forrás: http://www.rankings.hu/hu/rankings/search-engines.html

gemiusTraffic kutatás

Keresőmotorok: Magyarország

31

De nem mindenhol a Google az első: Kína

32

2011 Q2 – forrás: http://www.iresearch.cn/

Kína33

Japán34

Oroszország: Yandex35

Volt Szovjet tagállamok36

Világ37

Keresőoptimalizálás38

Keresőoptimalizálás39

Technikailag az első látogató a kereső a "barátainak" majd ő meséli el, mit látott.

Rangsorolás alapján ajánlanak tartalmat, oldalakat a keresett kifejezésre

Linkgyűjtemények szerepe lap.hu, lapozz.hu, linkfarm, stb. Dmoz.org

SEO – Keresőoptimalizálás SEM – Keresőmarketing

Rangsorolás alapja40

Tartalom Oldal fontossága

Látogatottság, Megbízhatóság, A linkhálózatban betöltött szerepe, Szponzoráció, Frissesség, Tartalom eredetisége, Egyéb szempontok,

Top 30 probléma41

A kutatások szerint a keresési lista első 30 helyezettjét nézi át a felhasználók többsége

Egy cégnek létfontosságú lehet a Top 30-ba bekerülés (és bentmaradás)

Keresők – bejárási utak

42

Googlebot

Forrás: http://www.drunkmenworkhere.org

Yahoo! Slurp

MSNbot

Linkszaporítás43

Tematikus keresők, katalógusok Startlap: Lap.hu Linkek.hu Lapozz.hu

Szakmai címlisták Szakmai címtárak DMOZ.org Szakmai kiadványok, szervezetek weblapjai

Google Webmestereszközök44

Google Webmestereszközök 2. Milyen keresőkifejezésekről jutottak el a

weboldalunkra? Milyen kulcsszavakra látja a Google

optimalizálva az oldalunkat? Robots.txt lekérdezése, beállítása Webhelytérkép feltöltése Webhelylinkek megadása Webhelyre mutató linkek Javaslatok Tájékoztatja a webes rendszergazdát

arról, ha a Google úgy észlelte, feltörték weboldalunkat.

Google bot Mobile elemzések

45

Trükkök, irányelvek46

Bőséges, egyedi tartalom, keresőre (kulcsszavakra, kifejezésekre) optimalizálva de ne vigyük túlzásba

Domain név Cím (Title) címke Főcímek (h1,h2,h3...) Szöveget ne képként Képaláírások használata (Alt címke) Linkek szövegében kifelé és befelé mutatókban

egyaránt! Fájlok, könyvtárak nevei Honlap életkora, frissessége is számít Linkhálózat értéke és frissessége

Trükkök, irányelvek – 2.47

Menüvel saját oldalainkra linkelhetünk Sitemap (oldaltérkép) Bloggok, fórumok bejegyzéseiben történő reklám JavaScript, Flash, Framek, képként ábrázolt

szövegek használata nem szerencsés Első 20, 200 szó a legfontosabb Kulcsszótávolság Kulcsszósűrűség Hivatkozások lekérése:

Google: link:elte.hu Yahoo: linkdomain:elte.hu

Formai, tartalmi irányelvek48

Szöveges linkek, minden oldal legyen elérhető link által

Hasznos, információkban gazdag oldal Törött linkek ellenőrzése Dinamikus weboldalak esetén minél

kevesebb paraméter legyen a linkekben Frame-es oldalakban egyes keresők is

elakadnak, de a könyvjelzők, oldal címének megjegyzése is nehézkes

Technikai irányelvek49

Szöveges böngészővel (pl.: Lynx) ellenőrizni az oldalt (a keresőrobot is kb. annyit lát az oldalból) http://lynx.isc.org/ http://csant.info/lynx.htm

A keresőrobot bejárhassa az oldalt session id, vagy egyéb argumentum nélkül is.

Webszerver: "If-Modified-Since" HTTP header (változott-e a tartalom)

URL-ekben kerülendő az &id= argumentum Robots.txt fájl létrehozása (

http://www.robotstxt.org/wc/faq.html) Gyökérben. Ebben adjuk meg, hogy a keresőrobot mit

indexelhet és mit nem. META tageket is használhatunk. Példa:

User-agent: * Disallow: /cgi-bin/ Disallow: /images/

Kulcsszó kiválasztása50

Marketing cél alapján lehet pl.: termék, termékhez kapcsolódó kifejezés

Az oldal tartalmának illeszkedni kell a kiválasztott kulcsszóhoz

Keresési trendek is segíthetnek a kiválasztásban http://www.google.com/trends http://google.com/insights/search/

A látogatottsági adatok alapján formálni kell! Az elkészült oldalon ellenőrizzük le, hogy a

tartalom illeszkedik-e a kulcsszóhoz! https://www.google.com/webmasters/tools/ http://www.webconfs.com/keyword-density-che

cker.php http://www.seotools.hu/keywsuggest.php

Végül...51

Publikálni az oldalt, hogy ráleljen a kereső (is)! fórumok bloggok lap.hu

Oldal bejelentése: http://www.google.com/addurl.html submit.search.yahoo.com/free/request

Folyamatosan figyelni és karbantartani! Az oldal frissessége, aktualitása és múltja

egyaránt számít!

Ha kész az oldal52

Oldaltérkép bejelentésehttp://www.google.com/webmasters/sitemaps/login?hl=en

Oldaltérkép előállítása: http://www.auditmypc.com/site-maps.asp

Ha kész az oldal53

Partneroldalakat értesíteni, hogy on-line elérhető az oldal

Tematikus katalógusokba be kell jelenteni

Wordpress, Drupal, Joomla SEO eszközök

A gyakorlat azt mutatja, hogy a gyakori blog motorokhoz írt SEO pluginek nagyon jól teljesítenek.

Működésük: On-page SEO: a postok elemzése igazítása

a kulcsszóhoz a fenti technikai elvek alapján.

Off-page SEO: linképítés nagy pagerank értékkel rendelkező site-ok segítségével - automatikusan. Ez utóbbi biztosítja azt, hogy szinte azonnal bekerülünk a Google keresési eredményei közé.

54

Wordpress on-page SEO elemzés

55

Merre tartunk?

Szemantikus web?

57

A Web működése okozza a gondot!

A HTML dokumentum leíró és nem információ leíró nyelv.• Metaelemek - sovány vigasz

• <meta name="description" content="Az oldal a … témakörével foglalkozik.">

• <meta name="keywords" content="kulcsszó1, kulcsszó2, kulcsszó3">

• Az oldalak közötti kapcsolatok egyirányúak.• A tartalom az embernek szól.• A HTML5 picit segít ezen

Az emberi nyelv nem formalizálható teljesen a matematika segítségével.

58

Szemantikus web vs. szemantikus keresés

Szemantikus web: gépileg feldolgozható tudás

Szemantikus keresés: értelmezhető keresés, jobb, pontosabb találatok

59

Az adatok a weboldalakba temetve

60

Számítógépnek is értenie kell

Nagyszámú integráció - ad hoc - egyedi

A kapott információk jellemzően túl nagy mennyiségűek áttekintéshez, automatikus keresésre és összekapcsolásra van szükség

A weblapok ember számára „érthetőek”.

A tartalom a számítógép számára „érthetetlen”.

?

Search & Mash-up Engine

010 0 1 1 0

01101

10100 10 0010 01 101 101 01 110 1 10 110 0 1 1 01 0 1 0 0 1 1 0 1 1 1 10 01 101 0 1

Alkalmazások milliói

Mi a „megértés”?

Mit mond egy weblap egy Web robotnak?

" For more information visit <a href=“http://www.ex.org”> my company </a> Web site. . .”

Ebből azt értik, hogy: " blah blah blah blah blah <a

href=“http://www.ex.org”> blah blah blah </a> blah blah. . .”

61

Mit „ért meg” a Google?

Azt érti meg, hogy: [page1] hivatkozik [page2] page2 fontos

Google rendezni tudja a találatokat!Az okosabb találatokhoz okosabb adatleírás kell.

63

Szemantika, kapcsolat, …

Kapcsolat nem weblapok között, hanem tartalmak között.

Szemantika ~ jelentés

Metaadatok szükségesek a leírásra

egér egér

64

Szemantikus web

egér

Állat

Emlős Ragadozó

Macska Egér

sajt

eszik

fél tőle

eszikábrázol

terminológia (szó v. kifejezés) a fogalomra….

vanvan

van

65

Google: Microadatok, microformats, RDFa

Forrás: http://www.google.com/support/webmasters/bin/answer.py?hl=hu&answer=173379

Tulajdonság Leírásname (fn) Kötelező. Az esemény neve.recipeType (tag) Az étel típusa: pl. előétel, főétel, desszert ...photo Az étel készítését ábrázoló fénykép.published A recept közzétételének ideje ISO dátumformátumban.summary Az étel rövid összefoglaló leírása.

review Az étel értékelése. Tartalmazhat beágyazott értékelési információkat.

prepTimeA recept előkészítésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.

cookTimeAz étel megfőzésének/-sütésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.

totalTime (duration)Az étel előkészítésének és megfőzésének/sütésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.

nutrition

A recepttel kapcsolatos tápanyagadatok. A következő gyermekelemeket tartalmazhatja: servingSize, calories, fat, saturatedFat, unsaturatedFat, carbohydrates, sugar, fiber, protein, cholesterol. Ezek az elemek nem kifejezett részei a hRecipe mikroformátumnak, de a Google felismeri őket.

instructionsAz étel elkészítésének lépései. Tartalmazhatja az instruction gyermekelemet, amellyel az egyes lépéseket különböztetheti meg.

yield A recept alapján elkészített étel mennyisége (pl. hány főre, hány adag stb.).

ingredientA receptben használt hozzávaló. Tartalmazhatja a name (a hozzávalók neve) és az amount (mennyiség) gyermekelemeket. Ennek használatával azonosítsa az egyes hozzávalókat.

author A recept szerzője. Tartalmazhat beágyazott, személyre vonatkozó információt.

66

RDFa – RDF with attributes

További információk: http://www.w3.org/TR/xhtml-rdfa-primer/

67

RDFa példa kód

<html xmlns="http://www.w3.org/1999/xhtml"xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#"xmlns:xs="http://www.w3.org/2001/XMLSchema#" ><body><p about="#event1" typeof="cal:Vevent"><b property="cal:summary">Borkóstoló és konferencia</b>:<span property="cal:dtstart" datatype="xs:date">2010-11-25</span>-től<span property="cal:dtend" datatype="xs:date">2010-11-27</span>-ig.További információk<a rel="cal:url"

href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak.

<br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>.

</p></body></html>

68

Az ember számára látható adatok

<html xmlns="http://www.w3.org/1999/xhtml"xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#"xmlns:xs="http://www.w3.org/2001/XMLSchema#" ><body><p about="#event1" typeof="cal:Vevent"><b property="cal:summary">Borkóstoló és konferencia</b>:<span property="cal:dtstart" datatype="xs:date">2010-11-25</span>-től<span property="cal:dtend" datatype="xs:date">2010-11-27</span>-ig.További információk<a rel="cal:url"

href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak.

<br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>.

</p></body></html>

69

Adatok az RDFa ügynöknek

<html xmlns="http://www.w3.org/1999/xhtml"xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#"xmlns:xs="http://www.w3.org/2001/XMLSchema#" ><body><p about="#event1" typeof="cal:Vevent"><b property="cal:summary">Borkóstoló és konferencia</b>:<span property="cal:dtstart" datatype="xs:date">2010-11-25</span>-től<span property="cal:dtend" datatype="xs:date">2010-11-27</span>-ig.További információk<a rel="cal:url"

href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak.

<br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>.

</p></body></html>

70

A kettő metszete: a „lényeg”<html xmlns="http://www.w3.org/1999/xhtml"xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#"xmlns:xs="http://www.w3.org/2001/XMLSchema#" ><body><p about="#event1" typeof="cal:Vevent"><b property="cal:summary">Borkóstoló és konferencia</b>:<span property="cal:dtstart" datatype="xs:date">2010-11-25</span>-től<span property="cal:dtend" datatype="xs:date">2010-11-27</span>-ig.További információk<a rel="cal:url"

href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak.

<br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>.

</p></body></html>

71

Mit tud az RDFa ügynök?

#event1 isA cal:Vevent #event1 cal:summary "Borkóstoló és

konferencia" #event1 cal:dtstart "2010-11-25"

(xs:date) #event1 cal:dtend "2010-11-27" (xs:date) #event1 cal:url <http://infoera.hu/> #event1 cal:location "Füzesgyarmat"

72

Melyek azok a legalább 50 kilométer hosszú folyók, melyek a Rajnába ömlenek?

73

Szemantikus keresés

Seth Grimes a keresés és a szemantika közös megközelítésének 11 módját sorolja fel:

kapcsolódó keresések felajánlása, keresett kifejezések javítása

definíciók, referenciák megjelenítése egy keresett kifejezésre

szemantikailag annotált eredménymegjelenítés, a releváns információk kiemelése

hosszabb szöveg alapú keresés szemantikai/szintaktikai annotációval támogatott keresés fogalmi keresés taxonómiák alkalmazásával ontológia alapú keresés szemantikus web technológiáinak kihasználása előre definiált kategóriák szerinti eredménymegjelenítés eredmények klaszterezett, csoportosított megjelenítése természetes nyelvű kereső kérdések megválaszolása

http://kereses.blog.hu/2010/02/03/mitol_szemantikus_egy_kereso

74

Néhány érdekes példa:

http://www.hakia.com/ http://swoogle.umbc.edu/ http://www.cognitionsearch.com/ http://www.powerset.com/ http://www.kartoo.com/ http://www.quintura.com/ http://iglue.com/ http://www.polymeta.hu http://szorcs.hu/

Vége