Ecossistema de Ligações da Blogosfera Portuguesa

35
Ecossistema de Liga¸c˜ oes da Blogosfera Portuguesa Jos´ e Lu´ ıs Devezas Faculdade de Engenharia da Universidade do Porto Rua Dr. Roberto Frias, s/n 4200-465 Porto, Portugal [email protected] 22 de Mar¸ co de 2010

Transcript of Ecossistema de Ligações da Blogosfera Portuguesa

Page 1: Ecossistema de Ligações da Blogosfera Portuguesa

Ecossistema de Ligacoesda Blogosfera Portuguesa

Jose Luıs Devezas

Faculdade de Engenharia da Universidade do PortoRua Dr. Roberto Frias, s/n4200-465 Porto, Portugal

[email protected]

22 de Marco de 2010

Page 2: Ecossistema de Ligações da Blogosfera Portuguesa

Conteudos

1 IntroducaoO que e a blogosfera?Estudar a blogosferaEnunciado de tese

2 Conhecer a amostraColeccaoTecnologiasExtraccao e validacao do conjunto de dados

3 Analise de ligacoesEstrutura de dadosPreparacao dos dadosTotal de ligacoes, por dia, ao longo do tempoAgrupamento de bloguesNumero de palavras por entrada, para o grafo simplificadoNumero de palavras por entrada, para o grafo originalNumero de entradas criadas por mes, para o grafo originalNumero mensal de ligacoes p/entrada, para o grafo original

4 ConclusoesPrincipais contribuicoesTrabalho futuro

Page 3: Ecossistema de Ligações da Blogosfera Portuguesa

Introducao

Page 4: Ecossistema de Ligações da Blogosfera Portuguesa

O que e a blogosfera?

Definicao

A blogosfera consiste no conjunto de todos os blogues e suas interligacoes.

A blogosfera e:

Uma rede de blogues;

Um conjunto de textos ricos em imagem e vıdeo;

Um conjunto de entradas cronologicamente ordenadas.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 1 / 17

Page 5: Ecossistema de Ligações da Blogosfera Portuguesa

Estudar a blogosfera

O estudo da blogosfera pode focar-se:

Na evolucao da coleccao;

No conteudo das entradas;

Nos comentarios;

Na estrutura de ligacoes.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 2 / 17

Page 6: Ecossistema de Ligações da Blogosfera Portuguesa

Enunciado de tese

Atraves da analise de ligacoes, identificar e caracterizar conjuntos de blogues, como objectivo de provar que:

Afirmacao

Existe um padrao consistente de variacao de caracterısticas dos blogues com apopularidade.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 3 / 17

Page 7: Ecossistema de Ligações da Blogosfera Portuguesa

Conhecer a amostra

Page 8: Ecossistema de Ligações da Blogosfera Portuguesa

Coleccao

Disponibilizada pelo SAPO;

Entradas escritas em portugues;

Varios domınios, principalmente Blogues do SAPO e Blogger;

Entradas entre 1 de Marco de 2006 e 1 de Outubro de 2009.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 4 / 17

Page 9: Ecossistema de Ligações da Blogosfera Portuguesa

Tecnologias

Base de dados relacional MySQL.

Base de dados chave ⇒ valor Berkeley DB.

Dialecto GraphML para representacao de grafos.

Linguagem e ambiente R para computacao estatıstica e graficos.I Biblioteca ggplot2 para criacao de graficos.I Biblioteca igraph para manipulacao de grafos.

Linguagem Perl.I Extraccao e seleccao de dados.I Processamento e indexacao de conteudos.I Geracao do documento GraphML e tabelas de entrada para o R.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 5 / 17

Page 10: Ecossistema de Ligações da Blogosfera Portuguesa

Extraccao e validacao do conjunto de dados

Dos 17 GB de registos sao seleccionadas as entradas:

Cujo domınio contem “blogs.sapo.pt”;

Datadas entre 1 de Marco de 2006 e 30 de Setembro de 2009.

E feita a indexacao de cada blogue no formato blogue ⇒ entradas:

blogue.blogs.sapo.pt =>http://blogue.blogs.sapo.pt/112.html|2008-02-01 23:45:32\thttp://blogue.blogs.sapo.pt/342.html|2008-05-13 10:27:13\thttp://blogue.blogs.sapo.pt/678.html|2008-11-11 11:13:27

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 6 / 17

Page 11: Ecossistema de Ligações da Blogosfera Portuguesa

Extraccao e validacao do conjunto de dados

Years

Blo

gs

0

100

200

300

400

500

600

700

2006 2007 2008 2009Years

Blo

gs

0

50

100

150

200

2006 2007 2008 2009

Numero de blogues criados por dia ao longo dos anos.

Contagem do numero de blogues e entradas criados por dia.Durante o mes de Setembro de 2009 observa-se um pico anormal.Uma verificacao automatica determina que 42% dos blogues desse mes naoexistem no mes seguinte.Setembro de 2009 e removido do estudo.Crescimento acentudado apos a primeira metade de 2007.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 7 / 17

Page 12: Ecossistema de Ligações da Blogosfera Portuguesa

Analise de ligacoes

Page 13: Ecossistema de Ligações da Blogosfera Portuguesa

Estrutura de dados

Grafo dirigido para representar a rede de blogues.I Vertices ⇔ Blogues.I Arestas ⇔ Ligacoes entre os blogues.

(provenientes de ancoras, imagens e conteudo embebido no HTML das entradas)

Varios atributos associados aos vertices e arestas.

Atributo Exemplo

Bloguesname blog.blogs.sapo.ptdate 2007-10-11 16:22:57hostgraph.outdegree 50.077

Entradas

post.url http://blog.blogs.sapo.pt/1046448.htmlpost.date 2008-09-09 19:14:49post.wordcount 25post.charcount 216

Ligacoesname http://outro.blogs.sapo.pt/25856.htmlsource blog.blogs.sapo.pttarget outro.blogs.sapo.pt

Informacao captada no grafo de blogues.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 8 / 17

Page 14: Ecossistema de Ligações da Blogosfera Portuguesa

Preparacao dos dados

Passar da tabela de entradas, disponıvel na base de dados, ao grafo de bloguesenvolve:

1 Extrair e indexar as ligacoes no formato ligacao ⇒ entradas

http://bit.ly/23a5b =>http://blogue.blogs.sapo.pt/112.html|2008-02-01 23:45:32|50|200\thttp://outro.blogs.sapo.pt/1243.html|2008-05-13 10:27:13|19|101\thttp://outro.blogs.sapo.pt/1122.html|2009-11-11 11:13:27|7|32

2 Agregar por domınio, contabilizando as ligacoes de entrada e de saıda;

3 Remover domınios externos ao Blogues do SAPO e associar a data de criacaoa cada blogue;

4 Gerar um documento GraphML que represente a rede de blogues;

5 Carregar o documento GraphML no R, para ser analisado utilizando abiblioteca igraph.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 9 / 17

Page 15: Ecossistema de Ligações da Blogosfera Portuguesa

Total de ligacoes, por dia, ao longo do tempo

459.737 ligacoes, extraıdas de72.591 blogues.

Taxa media de crescimento mensal:17,88%.

Pico de utilizacao de ligacoesdurante Junho e Julho de 2008.

Resulta no aumento acentuado donumero de ligacoes.

Years

Tota

l Lin

ks

100,000

200,000

300,000

400,000

2006 2007 2008 2009

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 10 / 17

Page 16: Ecossistema de Ligações da Blogosfera Portuguesa

Agrupamento de blogues

Blogues ordenados por popularidade.

Numero de citacoes como criterio de classificacao.

Duas versoes do grafo de blogues:

Grafo original Uma ilustracao crua da realidade da blogosfera ⇔ quantidade;Grafo simplificado Sem multiplicidade de arestas e auto-citacoes, ignorando nos com

menos de duas ligacoes de entrada ou de saida ⇔ variedade.

Grafos de blogues partidos em fatias de 1.000 blogues.

Analise da evolucao do valor medio e mediano de varias caracterısticas, parafatias progressivamente menos populares.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 11 / 17

Page 17: Ecossistema de Ligações da Blogosfera Portuguesa

Numero de palavras por entrada, para o grafo simplificado

Eixo dos XX: ordem da fatia — afatia 0 representa o conjunto dos1.000 blogues mais citados e a fatia9 representa os 1.000 bloguesmenos citados.

Eixo dos YY: media ou mediana donumero de palavras por entrada nosblogues da fatia.

Ordem Media Mediana

0 829 7066 532 3609 762 574 Slice Order

Mea

n an

d M

edia

n P

ost W

ord

Num

ber

400

500

600

700

800

0 2 4 6 8

Mean

Median

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 12 / 17

Page 18: Ecossistema de Ligações da Blogosfera Portuguesa

Numero de palavras por entrada, para o grafo original

Blogues mais citados: media de1.124 palavras por entrada.

Blogues restantes: media entre 135e 749 palavras.

Decrescimo constante, mas naomuito acentudado.

Slice Order

Mea

n an

d M

edia

n P

ost W

ord

Num

ber

200

400

600

800

1000

0 10 20 30 40 50 60 70

Mean

Median

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 13 / 17

Page 19: Ecossistema de Ligações da Blogosfera Portuguesa

Numero de entradas criadas por mes, para o grafo original

Blogues mais citados: media de7.934 novas entradas por mes.

Outras blogues mais citados: mediasuperior a 100 — 594 para asegunda fatia mais citada.

Blogues menos citados: media entre5 e 30 novas entradas mensais.

Slice Order

Mea

n an

d M

edia

n N

ewly

Cre

ated

Pos

ts p

er M

onth

100.5

101

101.5

102

102.5

103

103.5

0 10 20 30 40 50 60 70

Mean

Median

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 14 / 17

Page 20: Ecossistema de Ligações da Blogosfera Portuguesa

Numero mensal de ligacoes p/entrada, para o grafo original

Blogues mais citados sao os queligam mais a outros blogues.

No entanto, em geral, as entradasnao contem um grande numero deligacoes.

A fatia mais citada tem em media1,15 ligacoes por entrada.

As restantes fatias tem uma mediainferior a 0,25 ligacoes por entrada.

Na fatia menos citada e utilizaapenas 1 ligacao por cada 1.000entradas!

Slice Order

Mea

n an

d M

edia

n M

onth

ly L

inks

per

Pos

t

10−3

10−2.5

10−2

10−1.5

10−1

10−0.5

100

0 10 20 30 40 50 60 70

Mean

Median

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 15 / 17

Page 21: Ecossistema de Ligações da Blogosfera Portuguesa

Conclusoes

Page 22: Ecossistema de Ligações da Blogosfera Portuguesa

Principais contribuicoes

Agrupamos blogues utilizando como criterio de popularidade o numero decitacoes.

Blogues populares tem um comportamento distinto dos blogues menospopulares.

Conforme passamos dos blogues mais populares para os menos populares,observamos um padrao de decrescimo:

I Na frequencia de criacao de entradas;I No numero de ligacoes de saıda;I No tamanho das entradas.

Conclui-se que existem efectivamente grupos de blogues com caracterısticasdistintas.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 16 / 17

Page 23: Ecossistema de Ligações da Blogosfera Portuguesa

Trabalho futuro

Estudar a evolucao da popularidade dos blogues.I O que influencia um blogue a tornar-se popular.I Como evolui a classificacao dos blogues mais populares.I Como evoluem as suas caracterısticas.

Estudar as comunidades portuguesas de blogues.I Analisar algoritmos de deteccao de comunidades.I Identificar o factor de uniao dos elementos das comunidades.I Identificar os blogues centrais de cada comunidade.

J. L. Devezas (FEUP) Ecossistema de Ligacoes Marco 2010 17 / 17

Page 24: Ecossistema de Ligações da Blogosfera Portuguesa

Fim

Questoes?

Page 25: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice

Page 26: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice A.1

Metafora de ecossistemaA blogosfera pode ser vista como um ecossistema em que os blogues saoconsiderados organismos que interagem entre si, interligando-se por meio dehiperligacoes, no ambiente da World Wide Web.

Page 27: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice B.1Sapo Blogs A−List Walktrap Communities

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●

● ●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●●●

●●

● ●

●●

●●

● ●●●●●●●●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●●●●●●●●●●●●●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●● ●●

●●●

●●●●●●●●●●●●●

●●

●●

●●

●●

●●

●●

Deteccao de comunidades utilizando o algoritmo Walktrap.

Page 28: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice B.2Sapo Blogs A−List Leading Eigenvector Communities

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●

● ●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●●●

●●

● ●

●●

●●

● ●●●●●●●●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●●●●●●●●●●●●●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●● ●●

●●●

●●●●●●●●●●●●●

●●

●●

●●

●●

●●

●●

Deteccao de comunidades utilizando o algoritmo Leading Eigenvector.

Page 29: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice C.1

0

1

2

3

4

5

6

7

Amostra do grafo de blogues antes dasimplificacao.

Classificacao

Nesta amostra, o no 2 e citado 8vezes e o no 7 e citado 5 vezes. Ono 2 e considerado o mais populardevido a quantidade de ligacoes queapontam para ele.

Page 30: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice C.2

0

1

2

3

4

5

6

7

Amostra do grafo de blogues apos asimplificacao.

Classificacao

Nesta amostra, o no 2 e citado 3vezes e o no 7 e citado 4 vezes. Ono 7 e considerado o mais populardevido a variedade de ligacoes queapontam para ele.

Page 31: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice D.1

In−Degree

Num

ber

of B

logs

100

101

102

103

104●

●●

●●

●●●●

●●●●

●●●●●●●

●●●

●●●●

●●●

●●●●

●●●●●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●

●●●●●●

●●●●

●●●

●●

●●

●●

●●

●●

●●●●●●

●●

●●

●●●

●●

●●●●●

●●●●

●●

●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●

●●●●●●● ●● ●●● ●

100 101 102 103 104

Distribuicao do grau de entrada do grafo de blogues.

Page 32: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice D.2

Out−Degree

Num

ber

of B

logs

100

101

102

103

104

●●

●●

●●

●●●●●

●●●●●●

●●●●●

●●

●●●●●●

●●

●●

●●●●●

●●●●

●●●●●●

●●

●●●●●

●●

●●●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●●

●●

●●●●

●●●●●

●●

●●●●●

●●

●●●●

●●●

●●

●●●

●●●●●●

●●

●●●

●●

●●●●●

●●●●●●●●●●●

●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ● ● ●●●●●●●●●●

100 101 102 103 104

Distribuicao do grau de saıda do grafo de blogues.

Page 33: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice E.1

Grafo original Grafo simplificado

Vertices 72.591 10.937Arestas 459.737 48.399

Densidade 8,72e-5 4,05e-4Reciprocidade 0,31 0,15

Diametro 20 19Ligacoes por blogue (media) 6,33 4,43

Ligacoes por blogue (mediana) 0 2

Page 34: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice F.1

Estudar o comportamento dos blogues dependendo da popularidade permite:I Desenvolver estrategias de mercado para publicitar blogues profissionais;I Melhorar o servico de blogues, adaptando-o aos utilizadores mais activos.

Estudar as comunidades de blogues permite:I Localizar um blogue na sua comunidade;I Fornecer ao autor do blogue a sua vizinhanca;I Determinar os blogues mais centrais de cada comunidade.

Page 35: Ecossistema de Ligações da Blogosfera Portuguesa

Apendice G.1

The Most Important Blogging Analysis Ever:I http://www.viperchill.com/important-blogging-analysis/

The Secret to Building a Popular Blog (and Getting Tons of Readers):I http://www.doshdosh.com/the-secret-to-building-a-popular-blog/

Why is Link Popularity Important?I http://blogs.siliconindia.com/uniquesofts2010/

Why is Link Popularity Important-bid-gJ1zb05l46050252.html