Seminário IN1099 Information Retrieval & Text Mining Luciano de Souza Cabral CIn-UFPE.
-
Upload
nathalia-socia -
Category
Documents
-
view
218 -
download
0
Transcript of Seminário IN1099 Information Retrieval & Text Mining Luciano de Souza Cabral CIn-UFPE.
Roteiro Introdução Motivação Recuperação de Informação Mineração de Textos
Extração da Informação Extração do Conhecimento KDT Data Mining versus Text Mining
Conclusão Referências
Introdução
Crescimento das coleções de textos digitais(bibliotecas digitais, Internet, Intranets, ...)
Crescimento exponencial da World Wide Web
Novas técnicas de recuperação de informações (IR)
+
Motivação
O que fazer para encontrar (de forma eficiente) os melhores documentos que satisfaçam a pesquisa /consulta do usuário.
“Estamos morrendo ignorantes num mar de informações.” (Desconhecido)
Recuperação da Informação
Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação.
Objetivo principal: facilitar o acesso a documentos relevantes à necessidade de informação do usuário.
Conceito de Recuperação da Informação A Recuperação da Informação trata dos
aspectos intelectuais da descrição da informação e sua especificação para a busca, e também de qualquer sistema, técnicas ou máquinas que são empregadas para realizar esta operação. [Mooers, 1951]
Modelos de Recuperação da InformaçãoEficiência de um sistema depende
principalmentedo modelo que o mesmo utiliza:
Modelos quantitativos Modelos dinâmicos Linguagem natural Ambiente Web - Web Semântica
Abordagens de RI Busca automática baseada em palavra-
chave Técnicas de Indexação
Manual e Automática Técnicas de Classificação Conceitos importantes
“ranking” “stemming” “tesaurus”
Critérios utilizados em RI Revocação
Grau de sucesso: número de documentos relevantes recuperados em relação ao total de documentos relevantes existentes
Precisão Mede o sucesso da filtragem: número de
documentos relevantes recuperados em relação ao total de documentos recuperados
Cobertura: volume de informações disponíveis Formato de saída Tempo de resposta Atualidade
Extração do Conhecimento Por definição, “A extração de conhecimento em bases de
dados consiste na seleção e processamento de dados com a finalidade de identificar novos padrões, dar maior precisão em padrões conhecidos e modelar o mundo real. Data Mining, em português mineração de dados, refere-se ao exame de grandes quantidades de dados, procurando encontrar relações entre eles” [MICTHELL, 97].
[Cabral & Siebra, 06]
Mineração de Dados Data Mining
“...é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou seqüências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.” [Wikipedia]
Aplica-se dados categóricos e numéricos. Restrito a bases de dados relacionais e variações.
Mineração de Dados Text Mining
“...refere-se ao processo de obtenção de informação de qualidade a partir de texto em linguagens naturais. É inspirado na mineração de dados, que consiste em extrair informações de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.” [Wikipedia]
Aplica-se a textos. Abrange textos em formato livre ou semi-
estruturados.
Abordagens e Áreas envolvidas Computacional
Aprendizagem de máquina; Lógica Fuzzy; Estatística; Recuperação da Informação.
Simbólica Processamento de Linguagem Natural; Raciocínio baseado em casos e simbólico
Ambas abordagens podem ser combinadas.
[Freitas, 07]
Abordagens da Mineração de TextoPrós e Contras Computacional
Bom para maioria das tarefas;
De implementação rápida, baseada em aprendizagem;
Não recomendado para argumentação e dedução de informações.
Baseado em Conhecimento Melhor no tratamento
de contextos Ontologias!
Combina melhor com técnicas PLN Pergunta-Resposta Análise e Argumentação
Textual Extração de Informação
Pouquíssimo utilizado na articulação de conceitos
[Freitas, 07]
Muitas aplicações combinam as duas abordagens! (Ex: KDT, IE from Texts)
KDT - Knowledge Discovery from Texts
Técnicas KDT Extração de Informação Categorização de textos Análise das características Análise lingüística Sumarização de textos Associação entre textos Clustering (Agrupamento)
Ontologias Definições
“Uma ontologia é um entendimento comum e compartilhado de algum domínio que pode ser comunicado entre pessoas e computadores” [STUDER et al., 1998];
“Uma ontologia é uma representação de um domínio ou realidade. No caso de uma coleção de textos, a ontologia é uma representação dos temas, assuntos ou conceitos presentes nos textos” [LOH et al., 2004].
Vantagens Discussões na área de Mineração de Textos é
se um software poderá extrair automaticamente conhecimento a partir de uma coleção textual.
Experimentos realizados pelo Text Mining Research Group at the University of Waikato mostram que é possível automatizar partes do processo de descoberta, minimizando a dependência do usuário.
Entretanto é notório que algum tipo de intervenção humana é necessária e útil.
Tendências Necessidade de integrar cada vez mais
as abordagens de BD, HM e RI com ontologias Busca de maior “semântica” associada às
informações
Abordagens apresentam funcionalidades complementares
Fronteira entre o tipo de informação tratada por cada abordagem tende a desaparecer
Crescente necessidade de uso de Taxonomias e Ontologias
Aplicações de RI com Ontologias OntoSeek M&M MASTER-Web AGATHE* KIM Platform WSMO Studio ambiente para modelagem de SWS OWLIM repositório semântico de escala industrial Wsmo4j API e referências para construção de SWS PROTON um pequeno construtor/editor de
ontologias de propósito geral. ORDI um framework para representação de
ontologias e integração de dados via middleware.
OntoSeek Desenvolvido para recuperar informações de páginas-amarelas e
catálogo de produtos. Ontologia na interface do usuário; Trata ambiguidade, polisemia, sinonímia e relações parte todo
usando WordNet [Miller, 95]
[Guarino et al., 99]
M&M M&M query system, por Natasha Noy. Apresenta conceitos de RI como sistema de
Pergunta-Resposta sobre o domínio de Microbiologia.
Capacidade de realização de vários tipos de inferências: generalização, especialização e parte-todo.
Performance muito boa.
[Noy, 99]
Master-WEB[Freitas & Bittencourt, 2003]
• Multi-Agent System for Text Extraction, Retrieval and classification over the WEB.
• Testes com ontologias de domínios diferentes, com resultados expressivos.
• Sem grandes alterações no projeto.
KIM Platform Plataforma de Gerenciamento de Informação e
Conhecimento. Indexa, Armazena, Recupera, Consulta, análise de
linha de tempo das anotações semânticas.
Evolução: Recursos na Web
Futuro: Web Semântica Não apenas informações e aplicativos, mas
recursos em geral!
O que é Web Semântica? É uma extensão da Web atual que visa dar
significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma cooperativa [Tim Berners-Lee et al., 01]
Web Semântica: Visão da W3C “A Web Semântica é uma visão: é a idéia de
se ter dados na Web definidos e ligados de uma maneira tal que possam ser usados por máquinas não só com o objetivo de apresentação, mas para automação, integração e reuso de dados entre aplicações” [W3C]
XML e a Web Semântica Convergência de diversas tendências
Uso de padrões Busca de flexibilidade, conviver com heterogeneidade Maior automatização Melhoria dos mecanismos de busca Melhoria dos descritores associados aos recursos Maior suporte à integração de recursos
Serviços Web + Ontologias
Conclusões A Recuperação da Informação sozinha apresenta
alguns problemas não triviais de serem tratados. A utilização de Mineração de Textos combinada
com abordagens baseadas em conhecimento diminui o domínio de problemas apresentado em RI, além de aumentar a precisão dos resultados, obviamente dependendo da definição do contexto a ser analisado.
Uso de ontologias em sistemas de recuperação e mineração textual é comprovadamente benéfico, aumentando consideravelmente seus resultados.
Adição de semântica na web abre um leque com novas possibilidades de processamento de informações.
Referências TERRA, J.C.C. Gestão do conhecimento: o empresarial. Grande desafio. São Paulo: Negócio Editora, 2000. TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text Mining. Disponível em:
<http://www.cs.waikato.ac.nz/~nzdl/textmining/>. Acesso em: 30/09/2007. MICTHELL, Tom. Machine Learning, McGraw Hill, 1997. WOHL, Amy D. Intelligent Text Mining Creates Business Intelligence. IBM Business Intelligence Solutions CD. EUA:
1998. STUDER, R. et al. Knowledge engineering: principles and methods. Data & Knowledge Engineering, v.25, n.1/2,
1998. LOH, S. et al. Apoio à gestão de competências: Software para análise de conceitos. INTEXT: Porto Alegre, Dezembro,
2004. CABRAL, Luciano & SIEBRA, Sandra. Identificação de Competências em Currículos usando Ontologias. Revista de
Ciência , Tecnologia e Empreendedorismo, CETEC-FIR. v.1, n.1, Recife, 2006. FREITAS, Fred. A quest for context: knowledge-based approaches for text mining. Lecture Notes, PPT, Marseille, 2007. WIKIPEDIA. Wikipédia. A enciclopédia livre. <www.wikipedia.org>. RIBEIRO-NETO, Berthier & BAEZA-YATES, Ricardo. Modern Information Retrieval. ACM Press. 1999. W3C, World Wide Web Consortium, Semantic Web Activity Statement. <http://www.w3.org/2001/sw/Activity>. Acesso
em: 30/09/2007. GUARINO, N. ; Masolo, C. & Vetere, G. OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, 14(3),
70--80, (May 1999). KIRYAKOV, A.; POPOV, B.; TERZIEV, I.; MANOV, D. & OGNYANOFF , D. Semantic Annotation, Indexing, and Retrieval
Extended and updated version of [KiryakovEtAl2003]. Elsevier's Journal of Web Semantics, Vol. 2, Issue (1), 2005. POPOV, B.; KIRYAKOV, A.; OGNYANOFF, D.; MANOV, D. & KIRILOV, A. KIM - A Semantic Platform For Information
Extraction and Retrieval. Journal of Natural Language Engineering, Vol. 10, Issue 3-4, Sep 2004, pp. 375-392, Cambridge University Press.