Debates parlamentares Joaquim Sousa Pinto Universidade de Aveiro [email protected].

13
debates parlamentares Joaquim Sousa Pinto Universidade de Aveiro [email protected]

Transcript of Debates parlamentares Joaquim Sousa Pinto Universidade de Aveiro [email protected].

debates parlamentares

Joaquim Sousa PintoUniversidade de [email protected]

Debates Parlamentares

• Trabalho documental realizado:– As actas parlamentares estão organizadas em Actas /

Diários contendo um n.º variável de páginas

– Cada página de texto de cada Acta / Diário:• Microfilmada - preservação• Digitalizada - preservação (tiff) / disponibilização (gif)• Recuperação do texto de cada página - OCR• Corrigido manualmente cada uma das páginas• Catalogada cada página

Pesquisa por texto livre (html)

Publicações por Período Histórico

• Monarquia Constitucional (1821-1910)

• 1ª República (1910-1926)

• Estado Novo (1935-1974)

• 3ª República (1974-...)

Debates Parlamentares

• Organização da Informação:– Catálogos correspondentes a publicações

• Publicações separadas por legislatura, sessão legislativa, número (nas mais recentes)

• Publicações separadas por ano, mês, dia (nas mais antigas)

Diário da Assembleia da República (1975-...)1ª Legislatura, 1ª Sessão Legislativa, Diário n.º 1

Publicações mais recentes

Assembleia Constituinte de 1821Acta de 1821-01-24

Publicações mais antigas

Os Debates Parlamentares

• Principais características:– Pesquisa em documentos não estruturados (texto/html)– Possibilidade de visualização das páginas em modo texto ou em

modo imagem• Permite eliminar dúvidas relativamente ao texto recuperado

– Granularidade do sistema é página

• Normas aplicáveis:– Dublin Core Metadata Initiative (http://www.dublincore.org)

• O facto de a granularidade do sistema ser página torna este sistema diferente da maioria dos existentes, onde a granularidade é normalmente documento.

• Note-se que uma acta referente a uma sessão parlamentar tem em média 36 páginas.

• Hipótese a provar: Esta granularidade é a adequada?

• Se o número médio de páginas visualizado por pesquisa for claramente inferior ao tamanho médio de um documento, a opção é correcta.

• Se o número médio de visualizações por pesquisa for próximo do tamanho médio do documento, esta opção torna o sistema menos usável – porque é necessário fazer a navegação de página para página.

Dublin Core Metadata Initiative - DCMI

• O que é?– Define um conjunto de elementos de classificação

associáveis com um documento• DocAuthor, DocTitle , DocSubject , DocKeywords,

DocCompany, DocCategory, DocRevNumber

• Exemplos ?

DCMI nos Debates Parlamentares

• Modelação de dados no caso dos debates parlamentares portugueses– Período histórico (Monarquia Constitucional, ..., 3ª República)– Publicação (Assembleia Constituinte, Assembleia da República, ...)– Série (I Série, II Série)– Legislatura (I Legislatura, …, IX Legislatura)– Sessão Legislativa (1ª Sessão, …, 4ª Sessão)– Diário/Acta/Brochura (1, …)

• Data da Sessão• Data de Publicação do Diário• Limites

– Página– Tipo de página (sumário, normal)

Ferramentas utilizadas

• Microsoft Internet Information Server– Servidor Web

• Microsoft Index Server– Permite a pré-indexação de documentos do sistema

operativo e de servidores web– Reconhece automaticamente os marcadores Dublin

Core– Permite, através de configuração, a indexação de

marcadores próprios (extensões do Dublin Core)

Interfaces de pesquisa

• Pesquisas por texto livre – no sumário ou no diário todo– Pesquisa por palavras soltas ou pela expressão

completa• Pesquisas entre datas• Pesquisa por diário (número)

Nota:• Qualquer destas pesquisas é sempre feita dentro de um

catálogo/legislatura

contextualização

Geração automática de índices

• A geração automática de índices permite o controlo do material existente no sistema

Estatísticas de utilização - 2003

221.96

0

100

200

300

400

500

600

947.68

0

500

1,000

1,500

2,000

2,500

3,000

Em 2004 os números são superiores:• N.º médio de pesquisas por dia: 322,11• N.º médio de páginas visualizadas por dia : 1.113,33

Estatísticas de utilização - 2003

0

50

100

150

200

250P-AC P-CC P-AN P-DAR P-DARSII P-MC P-R1

0

100

200

300

400

500

600

700

800

900

1000V-AC V-CC V-AN V-DAR V-DARSII V-MC V-R1

-1

1

3

5

7

9

11

13

15

17V/P AC V/P CC V/P AN V/P DAR V/P DARSII V/P MC V/P R1

• Nota-se que o número médio de visualizações por pesquisa nos diversos catálogos se encontra balizado entre 1 e 7 páginas.

• Para 2004 temos:

1.112,33 / 322,11 = 3,40 páginas/pesquisa

• Conclui-se que a granularidade escolhida para o sistema – página - é a mais apropriada.

• É mais eficiente o acesso e manuseamento dos dados

Equipa da Universidade de Aveiro

• Joaquim Arnaldo Martins (coordenador)

• Joaquim Sousa Pinto• Pedro Manuel Almeida