Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago...
Transcript of Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago...
![Page 1: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/1.jpg)
Extração da Informação
Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha
![Page 2: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/2.jpg)
Índice
Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão
![Page 3: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/3.jpg)
Motivação
Problema:
Documentos na Web
Web-service -> Banco de Dados
![Page 4: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/4.jpg)
Motivação
O que se quer?
Resposta aos usuários
Resumos de textos
Preencher Base de dados
Mineração de dados
![Page 5: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/5.jpg)
Introdução
O que é EI?
Identificar dados relevantes presentes nos documentos sem estruturação precisa.
Conversão para estruturas tabular
Exibição dos dados de forma legível
![Page 6: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/6.jpg)
Introdução
Sistema de
Extração de
Informação
Sistema de
Extração de
Informação
![Page 7: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/7.jpg)
ClusterizaçãoAssociaçãoClassificação
Introdução
Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010
EI
Segmentação
Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation
Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation
Cluster A
Cluster B
Cluster C
![Page 8: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/8.jpg)
Introdução
História
JASPER (1980s) Sistema para finanças
MUC-Message Understanding Conference [final da década de 80]
Internet/Web [década de 90]
![Page 9: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/9.jpg)
EI x Processamento de Linguagem Natural(PLN)
Processamento de Linguagem Natural Completa análise dos documentos Complexidade algorítmica alta
Extração de Informação Interesse em partes especificas do texto Menor esforço computacional
Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010
![Page 10: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/10.jpg)
Mineração na web
![Page 11: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/11.jpg)
Recuperação de informação x EI
Recuperação de Informação Recuperação de documentos relevantes ao usuário baseando-
se em cálculos estatísticos sobre os termos que ocorrem no documento.
Uso do conteúdo sintático dos documentos Visualiza o documento apenas como um conjunto de palavras.
Extração de Informação Extrai informações relevantes baseando-se no provável
domínio de conhecimento do documento Filtrar o resultado de uma tarefa de RI graças a restrição do
domínio Busca derivar conhecimento de documentos recuperados
segundo a forma como o documento está estruturado e representado.
![Page 12: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/12.jpg)
Processo de extração de informação
Trata o problema de extração de dados relevantes a partir de uma coleção de documentos.
Os dados a serem extraídos são previamente definidos em um template (formulário)
CriaçãoDos slots
Documentocom tags
Tabelas com campos pré-definidos ou templates
![Page 13: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/13.jpg)
Processo de extração de informação
![Page 14: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/14.jpg)
Processo de extração de informação
Documento
Reconhecimento de
entidades
Análise Léxica e Morfológica
Análise Sintática
Análise de relacionamentos e contexto
Análise semântica
Inferência
Informação
estruturada e
contexto
Extração individual
Integração
![Page 15: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/15.jpg)
Abordagens para um Sistema de EI
Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens:
Engenharia de conhecimento
Treinamento automático
As abordagens são diferenciadas pela forma com que as regras são definidas
Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010
![Page 16: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/16.jpg)
Engenharia de conhecimento
Construção de regras é feita manualmente.
Requer que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras.
Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai se trabalhar.
Precisão nos resultados é maior.
O tempo de desenvolvimento é maiorAlana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010
![Page 17: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/17.jpg)
Treinamento automático
Utiliza algoritmos de Inteligência Artificial Algoritmo de treino
Uma quantidade de documentos é utilizada no treinamento e geração das regras Treinamento do sistema para novos textos
Interação com o usuário pode ser feita Aprende regras com a interação com o usuário
Tempo menor de desenvolvimento
Menor precisão nos resultados
![Page 18: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/18.jpg)
Abordagens para um Sistema de EI
Processamento de Linguagem Natural – PLN Wrappers
![Page 19: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/19.jpg)
Processamento de Linguagem Natural - PLN
Utilizado no tratamento de documentos com pequeno ou nenhum grau de estruturação
Processamento de Língua Natural caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural a fim de encontrar os dados relevantes a serem extraídos
![Page 20: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/20.jpg)
Visão Geral
Nível Morfológico: estudo da constituição das palavras em elementos básicos;
Nível Sintático: determinação da relação (papel) de um conjunto de palavras em uma sentença;
Nível Semântico: determinação do significado e inter-relacionamento semântico das palavras;
Nível Discursivo: objetiva-se em determinar o significado de um conjunto de sentenças;
Nível Pragmático: Visa determinar o objetivo do uso da língua
![Page 21: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/21.jpg)
Nível Morfológico
A análise Morfológica determina: O radical + sufixo da palavra, e geralmente constrói um dicionário adicionando informações relacionadas como: Classe da palavra Conjugação Pessoa A análise morfológica pode ser implementada através de algorítmos baseados em regras
eats eat + s verbo, singular, 3rd persdog dog nome, singular
![Page 22: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/22.jpg)
Nível Sintático
A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras.
As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica
Tem como saída a representação da sentença que representa as dependências entre palavras
As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes
‘The dog chased the cat.’ ‘The cat chased the dog.’
![Page 23: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/23.jpg)
Nível Semântico
Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado
O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença
Desambigüidade semântica
A cabeça une-se ao tronco pelo pescoçoEle é o cabeça da rebeliãoSabrina tem boa cabeça
![Page 24: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/24.jpg)
Nível Discursivo
Analisa textos maiores que sentenças Foca nas propriedades do texto como um
todo, determinando significado através das conexões de sentenças
Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam
Reconhecimento de Estrutura de Texto: Em um jornal temos; Artigos de capa, opniões, eventos passados, anúcios
![Page 25: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/25.jpg)
Nível Pragmático
Foca no significado que vai além do contexto do texto
Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as
resoluções necessitam de um conhecimento global
Os vereadores recusaram receber os manifestantes, porque eles temiam o confrontoOs vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.
![Page 26: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/26.jpg)
Wrappers
Maior desenvolvimento da WEB nos anos 90. Necessidade de sistemas mais eficientes com
capacidade suficiente para extrair informação dos textos da WEB.
Extraem a informação de documentos e a exportam como parte de uma estrutura de dados.
![Page 27: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/27.jpg)
Wrappers
Textos são principalmente: Estruturados: com formato predefinido e rígido. Semi-estruturados: sem formatação rígida,
permitem a ocorrência de variações na ordem dos dados.
Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras, etc.
![Page 28: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/28.jpg)
Técnicas de Extração
Autômatos finitos
Casamento de padrões
Classificadores de texto
Modelos de Markov escondidos (HMM)
![Page 29: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/29.jpg)
Autômatos Finitos
Bons para textos estruturados.
Definidos manualmente ou aprendidos automaticamente.
Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais
(categorização) Transducers
![Page 30: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/30.jpg)
Casamento de Padrões
Textos estruturados, semi-estruturados e livres.
Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações.
ER mais intuitivas do que autômatos.
![Page 31: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/31.jpg)
Classificadores de Texto
Textos semi-estruturados
Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras)
Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento
![Page 32: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/32.jpg)
Modelos de Markov Escondidos (HMM)
Textos livres e semi-estruturados.
Verifica a ocorrência de padrões em sequência no texto de entrada.
Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente.
Maximiza a probabilidade de acerto para o conjunto todo de padrões.
![Page 33: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/33.jpg)
Construção de wrappers
Automática Define regras de extração com um corpus de
treinamento com de técnicas de aprendizagem de máquina.
Semi-automática Auxiliado por ferramentas, o usuário especifica a
estrutura e o contexto dos dados a serem extraídos.
Manual Mais demorada e trabalhosa, porém com maior
precisão nos dados extraídos.
![Page 34: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/34.jpg)
Desafios
Técnicas de Extração “Dividir pra Conquistar” Classes de conhecimento Linguagem natural Idiomas Métricas de avaliação Classificar stop words Apredizagem
![Page 35: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/35.jpg)
Desafios
Ontologias Acesso do Usuário Conteúdo preciso, claro Padrões Ontologia
![Page 36: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/36.jpg)
Aplicações de EI
Filtragem de Fóruns Controle de Conteúdo Assunto do Dialogo
Monitoramento da WEB Buscar por Hackers Busca por Terroristas
![Page 37: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/37.jpg)
Conclusões Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes
![Page 38: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/38.jpg)
Dúvidas
![Page 39: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/39.jpg)
Referências MANFREDINI, V. H.; Proposta de uma Técnica
de Extração de Informação de Arquivos de Log de Servidores Proxy
Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados
http://en.wikipedia.org/wiki/Information_extraction
Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf
![Page 40: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/40.jpg)
Referências
Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf
Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO
Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR
http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf
![Page 41: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha.](https://reader036.fdocument.pub/reader036/viewer/2022081513/552fc130497959413d8d46a0/html5/thumbnails/41.jpg)
Referências
www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt
http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409
MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc