Processamento de Linguagem Natural: Visão Geral e Aplicações na Internet Jacques Robin CIn-UFPE.
Transcript of Processamento de Linguagem Natural: Visão Geral e Aplicações na Internet Jacques Robin CIn-UFPE.
Processamento de Linguagem Processamento de Linguagem Natural:Natural:
Visão Geral e Aplicações na InternetVisão Geral e Aplicações na Internet
Jacques RobinCIn-UFPE
Processamento de Linguagem Natural Processamento de Linguagem Natural (PLN)(PLN)
Dados estruturados x texto• sintaxe e semântica:
limitadíssima x ilimitada fornecida (implicitamente) x a ser recuperada
• presente e futuro: dados semi-estruturados (Web) Linguagem natural x linguagem artificial
• pontos comuns: composição de símbolos com sentidos associados
• diferenças:
tamanho (gramática, símbolos, sentidos) irregularidade (excepções, composicionalidade parcial) ambigüidade e paráfrase conteúdo implícito (contextos discursivo, enciclopédico,
interpessoal)
Relevância atual do PLN: WWWRelevância atual do PLN: WWW
Há 15 anos atrás...• maioria dos dados on-line ordenadamente armazenados em
Bancos de Dados Hoje:
• maioria os dados on-line armazenados em forma de texto (ex, Internet, Intranets)
• Como ter acesso a esses dados? PLN !
• multidisciplinar: informática e lingüística• abordagens: simbólica, probabilística, conexionista,
evolucionista• técnicas de IA:
representação do conhecimento, busca, aprendizagem, planejamento
PLN: diversidade das aplicações práticasPLN: diversidade das aplicações práticas
Recuperação de informação• busca, filtragem
Classificação de texto Extração de dados Estruturação de hipertextos
• conversão de texto para hipertextos
• geração e manutenção de páginas de links
Geração de resumos• dados tabulados,
quantitativos• textos
Tradução (semi-)automática
Auxílio à autoria de documentos • verificação orto-gramatical• padronização estilística• relatórios, páginas na Web
Sistemas de diálogos• ajuda on-line • tutores inteligentes• interfaces linguagem (semi-)
natural• agentes de entretenimento
Avaliação empírica de teorias e recursos lingüísticos
PLN: características das aplicaçõesPLN: características das aplicações
Em geral, aplicações bem sucedidas focalizam:• um domínio de discurso• um estilo de documento• uma tarefa de PLN
Disponibilidade de:• conhecimento lingüístico (gramáticas, léxicos) e
enciclopédico (ontologias)• conhecimento probabilístico• corpora de textos
Compromisso profundidade x abrangência X automação do processamento
Sistemas de PLN: dimensões de Sistemas de PLN: dimensões de avaliaçãoavaliação
1
2
3
1 - Generalidade (tamanho do domínio, abrangência)
2 - Automação (auxílio humano)
3 - Aptidão (qualidade + fidelidade)
Tradução Automática (TA)Tradução Automática (TA)
Sistemas de TA têm alto custo Um sistema razoável tem
• Léxico com 20.000 a 100.000 palavras e • Gramática com 100 a 10.000 regras
Tradução de qualidade requer entendimento detalhado:• do universo de discurso• dos objetivos comunicativos
Línguas diferentes lexicalizam conceitos diferentes:• ex: “you” pode ser traduzido para o francês como “tu”
(informal) ou “vous” (formal)
Tipos de aplicações da TATipos de aplicações da TA
DISSEMINAÇÃO• Objetivo: texto de alta qualidade para muitos
leitores• Tradução de uma para várias linguagens• Usuário produz texto fonte (domínio
controlado, vocabulário, estilo)• Ponto forte: Alta qualidade• Ponto fraco: representação dos itens mais
detalhada, menor abrangência
Tipos de aplicações da TATipos de aplicações da TA
ASSIMILAÇÃO• Objetivo: leitura individual• Tradução de muitas linguagens para uma• Usuários lêem textos de outros (não controlam
o domínio, vocabulário e estilo)• Ponto forte: mais automação possível, maior
abrangência• Ponto fraco: baixa qualidade
Recuperação de InformaçãoRecuperação de Informação
Identificar documentos relevantes para uma necessidade de informação
Sem PLN: • palavras-chave e conectores lógicos• ausência de sintaxe e semântica• baixa precisão e evocação (cobertura, recall)• Precisão = # relev recup / # total recup• Evocação = # relev recup / # total relev
Com PLN:• POS-tagger, analisador morfológico, tesaurus, parser,
modelo probabilístico da língua• melhor aproximação do conceito procurado• melhor precisão e evocação
Classificação de TextoClassificação de Texto
Classes e indicações estruturais e/ou semânticas• ex: call for paper, FAQ, bibliografia, artigo de jornal,
loja virtual, etc. Bem-sucedido em até 90% dos casos Usado em conjunto com técnicas de
Recuperação da Informação• ex. O termo “cru” refere-se a óleo 100% das vezes no
Wall Street Journal
Extração de dados do texto: exemploExtração de dados do texto: exemplo
Texto:
Pillsbury surged 3.75 to 62 in Big Board composite trading of 3.1 million shares after Britain’s grand metropolitan raised its hostile tender offer by $3 a share to $63. The company promptly rejected the sweetened bid, which came after the two sides couldn’t agree on friendly terms over the weekend.
Template extraído:
corpTakeoverCore( type: hostile, target: “Pillsbury”. suitor: “Grand Metropolitan” sharePrice: 63 stockExchange: nyse volume: 3.1M effectOnStock: up(from:3.75, to: 62))
Geração de resumos textuais de Geração de resumos textuais de estatísticasestatísticas
Intuitivo: familiar para usuário comum (ex, executivo) Conciso: expressa apenas as estatísticas interessantes Flexível: sem limite de dimensionalidade Expressivo: pode expressar causalidade e julgamentos subjetivos junto com os fatos A word is worth a 1,000 graphics! :)
BD Relacion
al
Base de
Conhecimento
Data Warehous
eDimension
al
AprendizagemMineraçãode Dados
Geração de Linguagem
Natural
Extração de Informação Interpretação de
Linguagem Natural
Arquivos de Log
Páginas Web
Resumo na Web
• No ano passado, as variações de vendas mais incomuns foram: Soda Diet com decrescimento de 40% na região nordeste de julho a agosto Cerveja Bavaria com crescimento de 42% nacional de setembro a outubro; ...
Resumos textuais de descoberta de Resumos textuais de descoberta de conhecimento em BD: exemploconhecimento em BD: exemploAvg.Sales%Product Jul Aug Sep Oct Nov DecBirch-B -12/s2 -3 1 42/s4 -14 -10/s2Chery-S 5 -9 -12 1 -5 5Cola 4 1/i3 -11 -8/i2 -2 7Cream-S 8 -3/i2 -12 -2 1/i2 10Diet-B 2 0/i2 -6 -1 -4 2Diet-C 7 -7/i2 -12 -2 -2/i2 8Diet-S 2 4/i4 -9 5/i4 -3 0Grape-S 1 3 -9 -1 -8 4Jolt-c -4 2 6/s2/i3 -2 0 0Kiwi-S 3 -1/i3 -4 4 0 1/i3Old-B 2 7/i2 -10 3 -3/i2 1Orange-S 1 -1 -1/i2 -6 -4
9/i2Saspria 5 -10/i2 -2 -1 1 5/i2
Exemplo didático de PLN: comunicação Exemplo didático de PLN: comunicação entre agentes exploradores do mundo do entre agentes exploradores do mundo do
wumpuswumpus
A
B
A: "Cheiro um fedor em [1,2].
E voce?"
B: “I am in [2,1].
There is a breeze but no stench.
So it is in right in front of you. Shoot it!"
Comunicação no mundo do wumpus: Comunicação no mundo do wumpus: conteúdo implícitoconteúdo implícito
A: "Cheiro um fedor em [1,2].
E voce?"
B: “I am in [2,1].
There is a breeze but no stench.
So he is in right in front of you. Shoot it!"
A: "Estou em [1,2].
Cheiro um fedor. Entao o wumpus esta em [1,3]
ou [2,2]. Onde voce esta? O que voce percebe?"
B: "I am in [2,1].
I feel a breeze. But I do not smell any stench. Therefore the wumpus is not in [2,2]. It is thus in [1,3], right in front of you. Shoot it!"
Comunicação no mundo do wumpus: Comunicação no mundo do wumpus: paráfrasesparáfrases
A: "Estou em [1,2].
Cheiro um fedor. Entao o wumpus esta em [1,3]
ou [2,2]. Onde voce esta? O que voce percebe?"
B: "I am in [2,1].
I feel a breeze. But I do not smell any stench. Therefore the wumpus is not in [2,2]. It is thus in [1,3], right in front of you. Shoot it!"
A: "Aqui em [1,2], esta fedendo, porem ha um wunpus ou na minha frente ou na minha direita.
Por favor me informe da sua posicao e das suas percepcoes."
B: "My only perception here in [2,1] is a breeze.
Therefore there is a pit in [2,2] and the bastard is right in front of you, kill it right now!."
TokenizationTokenization
Tokenization + Morfologia: • identificação dos elementos do vocabulário de símbolos• decompor documento em unidades atômicas que permitem
um processamento sintático e semântico composicional Tokenization:
• decomposição de documento em parágrafos parágrafo em orações orações em palavras
• Mais complexo que parece: ex, “Sex 22/12, festa e-commerce no Dr. Froid -- patrocínios
Bom Preço e I.B.M. do Brasil.” Línguas asiáticas
Documentos formatados e hipertextoDocumentos formatados e hipertexto
Documentos formatados e hipertexto: • Textos da maioria das aplicações prática atuais• Complica tokenização (e não interesse lingüístas)• Mas formatação embute precioso significado implícito!
Formatação:• Decomposição em capítulos e seções• Títulos, encabeçada, rodapés, notas• Sublinhados e variações de fontes• Listas de marcadores e/ou números• Encabeçada com informação semi-estruturada (ex, e-mails)
Hipertexto: • Linearidade do texto substituído pela estrutura de grafo do
hiperdocumento • Frames, páginas, links
Exemplo de tokenização não trivialExemplo de tokenização não trivialSubject: Returned mail: User unknown
Date: Wed, 2 Dec 1998 16:26:07 -0300 (EST)
From: <[email protected]>
To: <[email protected]>
The original message was received at Wed, 2 Dec 1998 16:26:06 -0300 (EST)
from localhost [127.0.0.1]
----- The following addresses had permanent fatal errors ----- <depto.cursos.posgrad.taci2>
----- Transcript of session follows -----
... while talking to recife.di.ufpe.br.:
>>> RCPT To:<[email protected]>
<<< 550 <[email protected]>... User unknown
550 <depto.cursos.posgrad.taci2>... User unknown
Reporting-MTA: dns; camaragibe.di.ufpe.br
Received-From-MTA: dns; localhost
Arrival-Date: Wed, 2 Dec 1998 16:26:06 -0300 (EST)
Final-Recipient: rfc822; [email protected]
Action: failed
Status: 5.1.1
Remote-MTA: dns; recife.di.ufpe.br
Diagnostic-Code: smtp; 550 <[email protected]>... User unknown
Last-Attempt-Date: Wed, 2 Dec 1998 16:26:07 -0300 (EST)
Subject: Re: Recuperacao adiada para proxima 5a
Date: Wed, 02 Dec 1998 16:26:05 -0300From: Jacques Robin <[email protected]>Organization: DI-UFPETo: [email protected], [email protected],
[email protected], [email protected], [email protected],
[email protected], [email protected]: [email protected]: 1Reginaldo Valadares wrote:> Jacques, a proxima terca feira (8 de
dezembro) e feriado...> ReginaldoOK, entao o resto do calendario sera de fato o
seguinte:- 6a depois de amanha 10:00, 2a aula de PLN- 3a 8/12 feriado- 5a 10/12 8:00 aula de recuperacao, 3a de PLN- 6a 11/12 10:00 2a sessao de
acompanhamento dos projetos- 3a 15/12 10:00 4a e ultima aula de PLN Jacques
Morfologia: lexemas e morfemasMorfologia: lexemas e morfemas
Formação dos símbolos a partir de sub-símbolos Lexemes e morfemes:
• Palavras não são as unidades lingüísticas mínimas das orações
• Palavra = lexema + morfema(s)• ex: redesenharam =
morfema “re” (repetição da mesma ação) lexema “desenhar” (ação de criação plástica ou arquitetural) morfema “aram” (ação coletiva não habitual não envolvendo
interlocutores )
Como unidade semântica, lexemas podem ser frasais• ex, “bater as botas”, “negócio da China”
Morfologia: flexão e derivaçãoMorfologia: flexão e derivação
Flexão:• Palavra = lexema + morfema sintático• Análise morfológica baseada em dicionário fornece:
categoria sintática das palavras (Parts-Of-Speech Tagging) algumas propriedades do uso sintático da palavra da frase Conjugação, concordância, caso, ex, “Eles deram” x “Ele deu” x “Lhe deram”
Derivação:• Palavra = lexema + morfema sintático para mudança de
categoria sintática com mesma semântica ex, descobriram x descobrimento
• ou palavra = lexema + morfema(s) semânticos aglutinado(s), ex, redesfazer = re+des+fazer?
• ou palavra = vários lexemas aglutinado(s) ex, otorino-laringologista = oto+rino+laringo+logista
Sintaxe de superficie: palavras de Sintaxe de superficie: palavras de categorias abertas e fechadascategorias abertas e fechadas
Especifica combinação de símbolos em orações Categorias sintáticas dos lexemas
• Lexemas classificadas em função das sua distribuição nas orações gramaticais
• Categorias abertas: substantivos, verbos, adjetivos, alguns advérbios milhares de membros e constantemente estendidas por
neologismos membros com papel essencialmente semântico
• Categorias fechadas artigos, pronomes, preposições, conectivas, verbos auxiliares,
alguns advérbios, cardinais, ordinais, etc. dezenas de membro e quase nunca estendido membros com papel essencialmente sintático
Sintaxe de superficie: Sintaxe de superficie: constituintes sintáticosconstituintes sintáticos
Constituintes sintáticos (ou sintagmas): • orações não são constituídas diretamente de lexemas,• mas de sintagmas que são pelas suas vez constituídas de
sub-sintagmas (ou sub-constituintes) etc. até os lexemas• Sintagmas também tem categorias sintáticas baseadas nas
suas distribuições em orações gramaticais• Em termos de teoria das linguagens:
categorias sintáticas dos sintagmas = símbolos não terminais lexemas = símbolos terminais
Sintaxe de superficie: Sintaxe de superficie: tarefas de um parser 1tarefas de um parser 1
Caso não precedido por um analisador morfológico:• rotular cada palavra com sua categoria sintática (pos-tagging)• ex: Cheiro@V um@Art fedor@N em@Prep [1,1]@Spec
Delimitar constituintes sintáticos (bracketing)• ex: [] [Cheiro] [um fedor] [em [1,1]]
Rotular cada constituinte com: • sua categoria sintática
ex: []@Gap [Cheiro]@VG [um fedor]@NP [em [1,1]]@PP
• sua função sintática ex: []@Subj [Cheiro]@MainV [um fedor]@DirObj [em
1,1]]@Adjunct
• suas propriedades sintáticas ex, [Cheiro um fedor em [1,1]]@[present, active, declarative, ...] [um fedor]@[indef, sing, masc, count, ...]
Sintaxe de superficie: Sintaxe de superficie: tarefas de um parser 2tarefas de um parser 2
Identificar dependências estruturais entre os constituintes sintáticos
Cheiro
fedor
um
em
[1,1]
arg arg mod
mod mod
A diminuição de 40% das vendas de soda diet de julho a agosto na região nordeste foi realmente atípica porque:• para as outras regiões, a variação média das vendas
desse produto no mesmo período foi um aumento de 9%;
• para o ano todo, as vendas desse produto nessa mesma região decresceram de apenas 7%;
• as vendas globais, de todos os produtos, nessa região e no mesmo periódo, decresceram de apenas 2%
Volta