WEDT Web Spam (SEO)
-
Upload
imani-mcneil -
Category
Documents
-
view
31 -
download
1
description
Transcript of WEDT Web Spam (SEO)
WUTTWG
2006PageRank cd.
PageRank to nie jest „srebrna kula”
• PR mierzy „ogólną” jakość strony a zatem nie nadaje się do oceny jakości w przypadku specyficznych tematów wyszukiwania
• PR jest stosunkowo łatwo oszukać
• Istnieją inne algorytmy analizujące strukturę grafu WWW• HITS• Hilltop• Topic Specific/Sensitive Page Rank (TSPR)• ...
największy problem
WUTTWG
2006Hilltop• http://www.cs.toronto.edu/~georgem/hilltop/• Bharat, Mihaila, 2001
• Pomysł: wyszukując informacje należy oprzeć się na wiedzy ekspertów – albo przynajmniej na stronach przygotowanych przez ekspertów
• Zbiór stron typu hub, traktowanych jako indeksy „eksperckie”:• Około (~ 5%) całego WWW• Duża liczba hiperpołączeń wychodzących (> wartości granicznej) do niepowiązanych ze sobą
stron• Strony niepowiązane to takie, których autorzy pochodzą z niepowiązanych ze sobą organizacji
• Dla zapytania• Obliczana jest wartość Expert score dla każdej strony „eksperckiej”
• W zależności od liczby hiperpołączeń na stronie pasujących do zapytania• Brane pod uwagę są także strony, mogące składać się z wielu sekcji
• Wybieranych jest N najlepszych stron „eksperckich”• Analizowane są strony, na które wskazują hiperpołączenia ze stron eksperckich i wybierane są z
nich najlepsze (najczęściej „cytowane”) strony wynikowe
WUTTWG
2006Hilltop
WUTTWG
2006Topic Specific Page Rank
• Zamiast mierzyć generyczną „jakość” strony, można próbować mierzyć jakość w odniesieniu do określonego tematu?• Np. zdrowie, technika, rozrywka
• Można zmienić random surfer model • Gdy random surfer się nudzi, wybiera przypadkową stronę• Może wybierać stronę jedynie ze zbioru stron S, związanych z
danym tematem• Zbiór S może zostać utworzony np. jako część katalogu
sieciowego takiego jak Open Directory• Obliczenia takie same jak dla PR, inny sposób inicjalizacji• Nie skaluje się w prosty sposób
WUTTWG
2006Topic Specific Page RankEksperymenty - Haveliwala, 2002 (WWW20002 conf. – www2002.org)
• 16 tematów• zbiory S wg. kategorii DMOZ• np.: arts, business, sports,…
• Testy na ochotnikach• 35 pytań testowych• Wyniki sortowane wg. Page Rank i TSPR najbardziej zbliżonej do zapytania kategorii• np.: dla zapytania „bicycling” zbiór S ustalany na „sports”• W większości wypadków TSPR okazywał się lepszy
Jak stosować?• Metoda naiwna – użytkownik wybiera kategorię z menu...
• lepiej – wykorzystać kontekst zapytania:• klasyfikator przypisujący zapytanie do zbioru kategorii• historia poprzednich zapytań• tematyka strony którą przeglądał użytkownik
• lub „kontekst użytkownika” – zakładki, historię poprzednich zapytań, itd.
• Powyższe jest przyczyną dla której wyszukiwarki starają się zbierać jak najwięcej informacji o naszych poczynaniach w sieci (Google Personalized Home, My Yahoo itd.)
WUTTWG
2006Search engine optimization• Wyszukiwarki internetowe są najważniejszym narzędziem
nawigacyjnym w WWW
• Strona, której nie można znaleźć w wyszukiwarkach w zasadzie nie istnieje z praktycznego punktu widzenia
• W wyszukiwarce warto być na początku listy wyników, dla dowolnego zapytania
• A nuż ktoś kliknie? Kliknięcia użytkowników mogą przynosić wymierne zyski:• reklama internetowa – często płatna „per view”• Strony e-commerce – a nuż jak kliknął to i coś kupi?• Strony „dystrybuujące” malware• Zwiększenie popularności strony / domeny – a nuż ktoś od nas ją odkupi...
WUTTWG
2006Search engine optimization
• Większość powyższych celów wymaga przyciągnięcia użytkownika na stronę, pomimo jej znikomej użyteczności dla użytkownika – podczas gdy wyszukiwarki optymalizują wyniki wyszukiwania według użyteczności
• A zatem konieczna jest sztuczna manipulacja wynikami wyszukiwania – „oszukanie” algorytmów budujących listę wyników
• Zreszta czy wyszukiwarkom komercyjnym można wierzyć? Stąd projekty takie jak Nutch…
WUTTWG
2006SEO = SPAM?
• Manipulowanie wynikami działania wyszukiwarek jest działalnością niepożądaną dla użytkowników WWW – podobnie jak rozsyłanie niechcianych wiadomości email
• A zatem można pokusić się o mówienie o Web Spam – stronach WWW, których jedynym powodem istnienia jest wpływanie na działanie algorytmów wyszukiwarek
• Oczywiście wiele osób może się tutaj nie zgodzić. Należy pamiętać, iż istnieje już cały przemysł SEO – Search Engine Optimization
• Udział stron typu spam w całej sieci WWW to obecnie około 10-15%
WUTTWG
2006Techniki „webspamowe”
Zwiększanie ważności stron (boosting)• Techniki mające na celu sztuczne zawyżanie istotności strony dla
danych wyszukiwarek.• Istotność zawyżona – niezgodna z subiektywną oceną
dokonywaną przez większość użytkowników WWW.• Teoretycznie można sobie zatem wyobrazić etyczne zastosowania
boostingu – do poprawienia błędów w algorytmach wyszukiwarek
Ukrywanie (hiding)• Techniki mające na celu zamaskowanie faktu wykorzystywania
boostingu• Ukrywanie przez ludźmi• Ukrywanie przed robotami sieciowymi
Gyongyi & Garcia-Molina, 2004
WUTTWG
2006Techniki „webspamowe” cd.
Boosting
• Term spammingGenerowanie treści strony WWW tak, aby znalazła się w wyniku
wyszukiwania dla wielu zapytańGenerowana treść jest zwykle sztuczna – tj. zawartość strony nie
ma wartości (informacyjnej) dla człowiekaWynikiem jest pojedyncza strona WWW (lub nawet kod HTML
wysyłany jedynie na żądanie robota sieciowego)
• Link spammingWykorzystanie algorytmów analizy struktury hiperpołączeń tak,
aby zwiększyć istotność danej stronyWymaga stworzenia struktury wielu stron, często na różnych
serwerach
WUTTWG
2006Term Spamming
Repetition• Powtarzanie jednego lub kilku słów kluczowych• Celem jest zaburzenie działania algorytmów skalowania
atrybutów takich jak TF/IDF• Np. „viagra viagra viagra viagra” -> 9120000 wyników
w Google (rok temu było 12800000, dwa lata temu 77300)
Dumping • Umieszczanie w treści strony bardzo dużej liczby
niepowiązanych semantycznie słów• Np. można kopiować całe słowniki, lub części słowników• Można też stosować metody generacji tekstu
WUTTWG
2006Term Spamming
WeavingKopiowanie treści innych stron WWW i wstawianie do środka słów
„spamowych”
Phrase StitchingSklejanie zdań i fragmentów tekstu z różnych źródeł (głównie innych
stron WWW, ale także wyników wyszukiwania np. z Google)
Generowane są być przede wszystkim te elementy strony, które są traktowane jako szczególnie cenne przy ustalaniu tematyki strony, a zatem:• tytuł (<TITLE></TITLE>)• Forma URL• Meta tags• Tekst odwołaniach hiperlinków• ...
WUTTWG
2006Link spammingDla spammera sieć WWW dzieli się na trzy części:
1. Strony niedostępne – nie ma możliwości zmiany ich zawartości
2. Strony dostępne – można częściowo wpływać na ich zawartość np.• komentarze w blogach, fora dyskusyjne, itp.• można umieszczać tam odnośniki do stron własnych
3. Strony własne – można całkowicie kontrolować ich zawartość• mogą znajdować się w kilku (nastu, dziesięciu) różnych domenach• to może być system współdzielony (np. linkor.pl itp.)
WUTTWG
2006Link FarmCelem spammera jest zwiększenie istotności strony s,
obliczanej zwykle algorytmem typu PageRankNależy zatem posiąść możliwie wiele stron i hiperpołączeń,
odwołujących się do strony s – tworzenie bezpośrednich połaczeń jest jednak żmudne i nieefektywne
Przyspieszenie – Link Farm
Internet (strony niedostępne)
Strony dostępne
Strona s
Strony własne
WUTTWG
2006
Czy to może dać jakiś efekt?Niech:
x – przyrost PageRank od stron dostępnychy – PageRank strony s
Link Farm cd.
G)p,q( )q(reedegout
)q(R)1(n/)p(R
PageRank każdej strony z LinkFarm = ε/n+(1- ε)(y/M)
y = ε/n + x + (1- ε)(M*(ε/n+(1- ε)(y/M)))y = x *(1/ ε(2- ε)) + (M/n)((ε-1)/(ε-2))
ε zwykle około 0.2 zatem otrzymujemyy≈2.78*x+0.45 (M/n)
to oczywiście znaczne uproszczenie
WUTTWG
2006
y≈2.78*x+0.45 (M/n)
Osiągamy• Zwielokrotnienie wartości PageRank „wpływającego” ze
stron dostępnych• Zwiększając liczbę stron własnych możemy dowolnie
zwiększać wartość PageRank strony s – (z tym że stron tych musi być rzeczywiście dużo)
Link Farm cd.
Internet (strony niedostępne)
Strony dostępne
Strona s
Strony własne
WUTTWG
2006Ukrywanie• Techniki Web Spamming są aktywnie zwalczane przez firmy obsługujące
największe wyszukiwarki• Nie są to także techniki zbyt dobre z punktu widzenia public relations • Niezbędne jest zatem ukrycie mechanizmów spamowych:
• Content hiding• Ukrywanie treści przed człowiekiem• Najczęściej wykorzystywana technika – użycie tych samych kolorów tła i
tekstu• Cloaking
• Rozpoznawanie rodzaju dostępu do strony (robot / człowiek)• Inna treść przesyłana jest do przeglądarek WWW a inna do robotów
sieciowych• Przekierowania
• Alternatywna metoda typu „cloaking”• Przekierowania są zwykle obsługiwane przez przeglądarki a nie przez roboty
sieciowe
WUTTWG
2006Wykrywanie webspamu
• Term spamming• Jest to zadanie b. podobne do wykrywania
klasycznego (tj. pocztowego) spamu, mogą tu mieć zatem zastosowanie podobne techniki np.
• Analiza tekstu przy wykorzystaniu algorytmów klasyfikacji
• Heurystyki wykrywające „dziwne” wykorzystanie tagów HTML
• Wykrywanie stron podobnych do siebie (near duplicates)• ...
• Link spamming• Tu jest trudniej, jak na razie nie wymyślono
rzeczywiście skutecznych metod• Wpływa bezpośrednio na działanie rankingu
wyszukiwarek – a zatem potencjalnie• Przykład metody – Trust Rank
WUTTWG
2006TrustRank
Pomysł: wyizolować ze wszystkich stron WWW tylko strony „dobre”• Zwykle strony „dobre” nie posiadają połączeń do stron „złych” – czyli
stron webspamu
1. Wybierana jest (mała) próbka stron WWW2. Strony są ręcznie (dlatego próbka musi być mała) klasyfikowane
– spam / nie spam
Te które nie są stronami webspam tworzą zbiór stron wiarygodnych (trusted pages)
Każda strona wiarygodna otrzymuje wartość wiarygodności (trust) równą 1
3. Wiarygodności propagowane są przez sieć hiperlinków (każda strona będzie mieć wartość trust pomiędzy 0 a 1)
4. Strony o wiarygodności niższej niż pewna wartość graniczna uznawane są za webspam
WUTTWG
2006Propagacja wiarygodności
• Wygasanie wiarygodności• Wiarygodność przekazywana od danej strony zmniejsza się wraz z
odległością od tej strony
• Podział wiarygodności• Im większa liczba hiperpołączeń wychodzących ze strony, tym
większe prawdopodobieństwo iż „zakradnie się” pomiędzy nie połączenie do strony złej
• Wartość wiarygodności jest zatem dzielona pomiędzy wszystkie strony wychodzące
• Np. • załóżmy iż każda ze stron wychodzących od strony p, o wiarygodności
t(p), otrzyma wartość wiarygodności t(p)/outdegree(p), 0<<1• załóżmy także, iż wiarygodność jest addytywna
• Główny problem – wybór odpowiedniego zbioru początkowego „wiarygodnych” stron
WUTTWG
2006
Wybór zbioru wiarygodnych stron
• Każda z wybieranych stron musi być oceniona przez eksperta – a zatem lepiej by zbiór początkowy był jak najmniejszy
• Każda istniejąca „dobra” strona powinna otrzymać odpowiednio wysoką wartość wiarygodności, a zatem ścieżka hiperpołączeń prowadząca do niej ze stron w zbiorze początkowym powinna być jak najkrótsza
• Powyższe dwa założenia są cokolwiek sprzeczne...
WUTTWG
2006
• Typowe rozwiązania:
• PageRank• Wybieramy k stron o najwyższej wartości PageRank (mamy
nadzieję, iż będzie wśród nich najwięcej wartościowych stron)
• Inverse PageRank• Wybieramy strony o największej liczbie wychodzących
hiperpołączeń• ...Oraz takie które mają hiperpołączenia wychodzące do stron z
dużą liczbą hiperpołączeń wychodzących (rekurencja)• To można obliczyć w podobny sposób jak PageRank, zmieniając
jedynie kierunek każdej krawędzi w grafie WWW• Wybieramy k stron o najwyższej wartości Inverse Page Rank
Wybór zbioru wiarygodnych stron
WUTTWG
2006
Najważniejsza konferencja dot. WWW
WorldWideWeb Conference
• www2002.org• www2003.org• www2004.org• itd.
Do poczytania