Post on 07-Apr-2016
Debates Parlamentares
• Trabalho documental realizado:– As actas parlamentares estão organizadas em Actas /
Diários contendo um n.º variável de páginas
– Cada página de texto de cada Acta / Diário:• Microfilmada - preservação• Digitalizada - preservação (tiff) / disponibilização (gif)• Recuperação do texto de cada página - OCR• Corrigido manualmente cada uma das páginas• Catalogada cada página
Pesquisa por texto livre (html)
Publicações por Período Histórico
• Monarquia Constitucional (1821-1910)
• 1ª República (1910-1926)
• Estado Novo (1935-1974)
• 3ª República (1974-...)
Debates Parlamentares
• Organização da Informação:– Catálogos correspondentes a publicações
• Publicações separadas por legislatura, sessão legislativa, número (nas mais recentes)
• Publicações separadas por ano, mês, dia (nas mais antigas)
Diário da Assembleia da República (1975-...)1ª Legislatura, 1ª Sessão Legislativa, Diário n.º 1
Publicações mais recentes
Assembleia Constituinte de 1821Acta de 1821-01-24
Publicações mais antigas
Os Debates Parlamentares
• Principais características:– Pesquisa em documentos não estruturados (texto/html)– Possibilidade de visualização das páginas em modo texto ou em
modo imagem• Permite eliminar dúvidas relativamente ao texto recuperado
– Granularidade do sistema é página
• Normas aplicáveis:– Dublin Core Metadata Initiative (http://www.dublincore.org)
• O facto de a granularidade do sistema ser página torna este sistema diferente da maioria dos existentes, onde a granularidade é normalmente documento.
• Note-se que uma acta referente a uma sessão parlamentar tem em média 36 páginas.
• Hipótese a provar: Esta granularidade é a adequada?
• Se o número médio de páginas visualizado por pesquisa for claramente inferior ao tamanho médio de um documento, a opção é correcta.
• Se o número médio de visualizações por pesquisa for próximo do tamanho médio do documento, esta opção torna o sistema menos usável – porque é necessário fazer a navegação de página para página.
Dublin Core Metadata Initiative - DCMI
• O que é?– Define um conjunto de elementos de classificação
associáveis com um documento• DocAuthor, DocTitle , DocSubject , DocKeywords,
DocCompany, DocCategory, DocRevNumber
• Exemplos ?
DCMI nos Debates Parlamentares
• Modelação de dados no caso dos debates parlamentares portugueses– Período histórico (Monarquia Constitucional, ..., 3ª República)– Publicação (Assembleia Constituinte, Assembleia da República, ...)– Série (I Série, II Série)– Legislatura (I Legislatura, …, IX Legislatura)– Sessão Legislativa (1ª Sessão, …, 4ª Sessão)– Diário/Acta/Brochura (1, …)
• Data da Sessão• Data de Publicação do Diário• Limites
– Página– Tipo de página (sumário, normal)
Ferramentas utilizadas
• Microsoft Internet Information Server– Servidor Web
• Microsoft Index Server– Permite a pré-indexação de documentos do sistema
operativo e de servidores web– Reconhece automaticamente os marcadores Dublin
Core– Permite, através de configuração, a indexação de
marcadores próprios (extensões do Dublin Core)
Interfaces de pesquisa
• Pesquisas por texto livre – no sumário ou no diário todo– Pesquisa por palavras soltas ou pela expressão
completa• Pesquisas entre datas• Pesquisa por diário (número)
Nota:• Qualquer destas pesquisas é sempre feita dentro de um
catálogo/legislatura
contextualização
Geração automática de índices
• A geração automática de índices permite o controlo do material existente no sistema
Estatísticas de utilização - 2003
221.96
0
100
200
300
400
500
600
947.68
0
500
1,000
1,500
2,000
2,500
3,000
Em 2004 os números são superiores:• N.º médio de pesquisas por dia: 322,11• N.º médio de páginas visualizadas por dia : 1.113,33
Estatísticas de utilização - 2003
0
50
100
150
200
250P-AC P-CC P-AN P-DAR P-DARSII P-MC P-R1
0
100
200
300
400
500
600
700
800
900
1000V-AC V-CC V-AN V-DAR V-DARSII V-MC V-R1
-1
1
3
5
7
9
11
13
15
17V/P AC V/P CC V/P AN V/P DAR V/P DARSII V/P MC V/P R1
• Nota-se que o número médio de visualizações por pesquisa nos diversos catálogos se encontra balizado entre 1 e 7 páginas.
• Para 2004 temos:
1.112,33 / 322,11 = 3,40 páginas/pesquisa
• Conclui-se que a granularidade escolhida para o sistema – página - é a mais apropriada.
• É mais eficiente o acesso e manuseamento dos dados