Gestão e Tratamento de Informação
-
Upload
ayanna-rivas -
Category
Documents
-
view
16 -
download
0
description
Transcript of Gestão e Tratamento de Informação
Gestão e Tratamento de Informação
Helena Galhardas
DEI IST
Programa Gestão de dados XML
DTD XSLT XQuery
Extracção de Informação Dados da Web Extracção de conhecimento
Integração de dados e esquema Global-as-view vs local-as-view Mediadores e wrappers
Transformação e limpeza de dados Discrepâncias de esquemas e dados Detecção e eliminação de duplicados Fusão de informação
Motivação – Extracção de dados da Web Número grande de fontes de dados Alguns desafios:
Páginas Web devem ser transformadas em dados estruturados
Falta de controlo sobre os dados Fontes têm restrições de entrada e saída Natureza distribuída da Web pode tornar a
integração de dados mto lenta
Motivação – Gestão de dados XML XML é vastamente utilizada como linguagem
de troca de dados na Internet DTD, XMLSchema, XPath, XSLT são
provavelmente assuntos já conhecidos A linguagem XQuery é a linguagem de
interrogação de dados XML que vamos estudar aqui
...
Motivação – Extracção de Informação Como descobrir estrutura em dados não
estruturados Exemplo (http://www.imdb.com)
Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman. ...
Algumas técnicas de IA (p. Ex. Linguagem Natural) podem ser usadas
Motivação – Integração de dados e esquema Integrar dados oriundos de fontes de dados
heterógeneas Desafios:
Acesso aos dados Resolver as diferenças existentes ao nível de
esquema e dados Executar a integração de forma eficiente
Motivação – Transformação e limpeza de dados Durante e após a integração, alguns problemas
com os dados precisam de ser resolvidos Exemplo:
Filmes (id, título, realizador, ano, ano_ult_remake)(1|Casablanca|Weir|1942|1940)(2|Dead Poets Society|Curtiz|1989|-)(3|Rman Holiday|Wylder|1953|-)
Detecção e eliminação de duplicados é um dos aspectos que vamos estudar
Avaliação
Exame (52%) 3/1/2008 (17H) 17/1/2008 (17H)
4 MiniProjectos (48%), cada um 12% Enunciado é distribuído na aula teórica Alunos têm cerca de 2/3 semanas para resolver Entrega dos alunos feita na aula teórica Solução e correcções mostradas na aula teórica Conteúdo: uma parte teórica/prática e outra de
SW
Calendário Mini-Projectos
MP1 Entrega enunciado: 21/9 Entrega alunos: 12/10
MP2 Entrega enunciado: 12/10 Entrega alunos: 2/11
MP3 Entrega enunciado: 2/11 Entrega alunos: 23/11
MP4 Entrega enunciado: 23/11 Entrega alunos: 7/12
Organização das aulas
Aulas teóricas Aulas de laboratório
Grupos de três elementos – inscrições na página da cadeira no Fénix
Apoio no software a ser utilizado Apoio na resolução dos mini-projectos
Corpo docente
Helena Galhardas (responsável) Bruno Martins Pável Calado
Bibliografia
Não há um livro único Algumas partes da matéria cobertas por
artigos Alguma bibliografia:
S. Abiteboul, P. Buneman, D. Suciu, “Data on the Web: From Relations to Semistructured Data and XML”, Morgan Kaufmann, 2000
C. Batini, M.Scannapieco, “Data Quality: Concepts, Methodologies and Techniques”, Springer, 2006
Assuntos pendentes
Aulas de laboratório Mais um turno tem que ser aberto O turno de 5ªf, 11H tem que ser trocado
Aulas de dúvidas
Referências
C. Batini, M.Scannapieco, “Data Quality: Concepts, Methodologies and Techniques”, Springer, 2006
Craig Knockblock, Course: “Information Integration on the Web”, 2006, http://www.isi.edu/integration/courses/csci548_2006/