Gestão e Tratamento de Informação

14
Gestão e Tratamento de Informação Helena Galhardas DEI IST

description

Gestão e Tratamento de Informação. Helena Galhardas DEI IST. Programa. Gestão de dados XML DTD XSLT XQuery Extracção de Informação Dados da Web Extracção de conhecimento Integração de dados e esquema Global-as-view vs local-as-view Mediadores e wrappers - PowerPoint PPT Presentation

Transcript of Gestão e Tratamento de Informação

Page 1: Gestão e Tratamento de Informação

Gestão e Tratamento de Informação

Helena Galhardas

DEI IST

Page 2: Gestão e Tratamento de Informação

Programa Gestão de dados XML

DTD XSLT XQuery

Extracção de Informação Dados da Web Extracção de conhecimento

Integração de dados e esquema Global-as-view vs local-as-view Mediadores e wrappers

Transformação e limpeza de dados Discrepâncias de esquemas e dados Detecção e eliminação de duplicados Fusão de informação

Page 3: Gestão e Tratamento de Informação

Motivação – Extracção de dados da Web Número grande de fontes de dados Alguns desafios:

Páginas Web devem ser transformadas em dados estruturados

Falta de controlo sobre os dados Fontes têm restrições de entrada e saída Natureza distribuída da Web pode tornar a

integração de dados mto lenta

Page 4: Gestão e Tratamento de Informação

Motivação – Gestão de dados XML XML é vastamente utilizada como linguagem

de troca de dados na Internet DTD, XMLSchema, XPath, XSLT são

provavelmente assuntos já conhecidos A linguagem XQuery é a linguagem de

interrogação de dados XML que vamos estudar aqui

...

Page 5: Gestão e Tratamento de Informação

Motivação – Extracção de Informação Como descobrir estrutura em dados não

estruturados Exemplo (http://www.imdb.com)

Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman. ...

Algumas técnicas de IA (p. Ex. Linguagem Natural) podem ser usadas

Page 6: Gestão e Tratamento de Informação

Motivação – Integração de dados e esquema Integrar dados oriundos de fontes de dados

heterógeneas Desafios:

Acesso aos dados Resolver as diferenças existentes ao nível de

esquema e dados Executar a integração de forma eficiente

Page 7: Gestão e Tratamento de Informação

Motivação – Transformação e limpeza de dados Durante e após a integração, alguns problemas

com os dados precisam de ser resolvidos Exemplo:

Filmes (id, título, realizador, ano, ano_ult_remake)(1|Casablanca|Weir|1942|1940)(2|Dead Poets Society|Curtiz|1989|-)(3|Rman Holiday|Wylder|1953|-)

Detecção e eliminação de duplicados é um dos aspectos que vamos estudar

Page 8: Gestão e Tratamento de Informação

Avaliação

Exame (52%) 3/1/2008 (17H) 17/1/2008 (17H)

4 MiniProjectos (48%), cada um 12% Enunciado é distribuído na aula teórica Alunos têm cerca de 2/3 semanas para resolver Entrega dos alunos feita na aula teórica Solução e correcções mostradas na aula teórica Conteúdo: uma parte teórica/prática e outra de

SW

Page 9: Gestão e Tratamento de Informação

Calendário Mini-Projectos

MP1 Entrega enunciado: 21/9 Entrega alunos: 12/10

MP2 Entrega enunciado: 12/10 Entrega alunos: 2/11

MP3 Entrega enunciado: 2/11 Entrega alunos: 23/11

MP4 Entrega enunciado: 23/11 Entrega alunos: 7/12

Page 10: Gestão e Tratamento de Informação

Organização das aulas

Aulas teóricas Aulas de laboratório

Grupos de três elementos – inscrições na página da cadeira no Fénix

Apoio no software a ser utilizado Apoio na resolução dos mini-projectos

Page 11: Gestão e Tratamento de Informação

Corpo docente

Helena Galhardas (responsável) Bruno Martins Pável Calado

Page 12: Gestão e Tratamento de Informação

Bibliografia

Não há um livro único Algumas partes da matéria cobertas por

artigos Alguma bibliografia:

S. Abiteboul, P. Buneman, D. Suciu, “Data on the Web: From Relations to Semistructured Data and XML”, Morgan Kaufmann, 2000

C. Batini, M.Scannapieco, “Data Quality: Concepts, Methodologies and Techniques”, Springer, 2006

Page 13: Gestão e Tratamento de Informação

Assuntos pendentes

Aulas de laboratório Mais um turno tem que ser aberto O turno de 5ªf, 11H tem que ser trocado

Aulas de dúvidas

Page 14: Gestão e Tratamento de Informação

Referências

C. Batini, M.Scannapieco, “Data Quality: Concepts, Methodologies and Techniques”, Springer, 2006

Craig Knockblock, Course: “Information Integration on the Web”, 2006, http://www.isi.edu/integration/courses/csci548_2006/