Geral a linguística de corpus

26

Transcript of Geral a linguística de corpus

Page 1: Geral   a linguística de corpus
Page 2: Geral   a linguística de corpus

© 2013 Stella E. O. Tagnin

Preparação de texto: Larissa Uno Barbosa / Verba Editorial

Capa, Projeto gráfico e Diagramação: Patricia Tagnin / Milxtor Design Editorial

Assistente editorial: Aline Naomi Sassaki

Dados Internacionais de Catalogação na Publicação (CIP)(Câmara Brasileira do Livro, SP, Brasil)

Tagnin, Stella E. O.O jeito que a gente diz: combinações consagradas em inglês e

português / Stella E. O. Tagnin. -- Barueri, SP : DISAL, 20l3.

"Com exemplos em alemão, espanhol, francês e italiano"ISBN 978-85-7844-127-2

1. Inglês - Estudo e ensino 2. Inglês - Palavras e locuçõesestrangeiras - Português 3. Português - Estudo e ensino 4. Português -Palavras e locuções estrangeiras - Inglês I. Título.

13-00702 CDD-41O

índices para catálogo sistemático:1. Inglês e português: Linguística comparada 4102. Português e inglês: Linguístíca comparada 410

Todos os direitos reservados em nome de:Bantim, Canato e Guazzelli Editora Ltda.

Alameda Mamoré 911 - cj, 107Alphaville - BARUERI - SPCEP: 06454-040Tel. / Fax: (11) 4195-2811Visite nosso síte. www.disaleditora.com.brTelevendas: (11) 3226-3111

Fax gratuito: 0800 7707 105/106E-mail parapedidos:[email protected]

Nenhuma parte desta publicação pode ser reproduzida, arquivada ou transmitidade nenhuma forma ou meio sem permissão expressa e por escrito da Editora.

Page 3: Geral   a linguística de corpus

5A Linguística de Corpus

o leitor pode imaginar como é laborioso estudar o fenômeno da con-vencionalidade se dependermos de nossa atenção para observar a recorrência

de certas combinações. O que geralmente ocorre é que, ao notarmos umacombinação "que já vimos antes", não nos lembramos de onde a vimos e,provavelmente, não somos capazes de localizá-Ia novamente se quisermos, por

exemplo, compilar uma lista de expressões consagradas. Assim, anotamos ape-nas essa segunda ocorrência e "torcemos" para encontrar outra para confirmar

que, de fato, se trata de uma expressão consagrada.Pois bem, com o advento do computador tornou-se possível construir

grandes bancos de textos e consulrá-los com ferramentas computacionais apro-

priadas para detectar co-ocorrências e recorrências. A disciplina que possibilitaessa investigação denomina-se Linguística de Corpus.

A Linguística de Corpus (LC)3 oferece uma metodologia que veio facilitar

muito a identificação das unidades convencionais da língua. Enquanto, nopassado, se dependia de "notar" sua recorrência no dia a dia até nos conscien-tizarmos de que se tratava de uma unidade fixa, hoje essa conscientização é

facilitada pela observação simultânea de uma grande quantidade de dados apartir de um corpus eletrônico.

Para a Le, um corpus é uma coletânea de textos, necessariamente emformato eletrônico, compilados e organizados segundo critérios ditados pelo

objetivo de pesquisa a que se destina. O formato eletrônico permite que esses

3 Há excelentes livros introdutórios à Linguística de Cor pus. Entre eles, podemos destacarBerber Sardinha (2004) em português, e Kennedy (1998), McEnery & Wilson (2001)e Tognini-Bonelli (2001) em inglês. No Brasil, há algumas coletâneas de artigos queapresentam um panorama da pesquisa nessa área, entre elas Tagnin & Vale (2008), Viana& Tagnin (2010) e Shepherd, Berber Sardinha & Veirano Pinto (2012).

Stella E.O. Tagnin 29

Page 4: Geral   a linguística de corpus

Capítulo 5

textos sejam investigados e analisados automaticamente, com o uso de ferra-mentas computacionais específicas. Vejamos as principais delas.

As ferramentas

Concordanciador

A ferramenta que melhor permite observar as estruturas convencionaisrecorrentes da língua produz resultados na forma de concordâncias, em quecada linha apresenta a palavra ou expressão que está sendo investigada - a pa-lavra de busca - inserida em seu contexto natural de ocorrência. Esse formato édenominado KWIC, ou seja, Key Word in Context (palavra-chave em contexto)e traz, em geral, a palavra de busca centralizada. Eis uma concordância paraa palavra atenção.

12345678910111213

mentevem recebendo atenção da sociedadee da ce tem recebidomais atenção nos últimos anos, dtem recebidomuita atenção nos últimos anos, d

os tem merecidouma atenção bem maior, por partodução para focar a atenção do leitor no proble

leitor a focar sua atenção nos aspectos mais ie ir distanciando a atenção do leitor dos resul

ecentemente,grande atenção também tem sido dade tem recebidomais atenção nas pesquisas recen

bjetivo de atrair a atenção do maior númerodeência são o foco de atenção no discurso e, logo

focalizaremos nossa atenção nos métodostotalme. Focalizamosnossa atenção em quatro medidas:

Concordância para atenção a partir de textos de periódicos do corpus Lácio-Refno portal Lácio-Web (http://www.nilc.icmc.usp.br/laciowebl4

o leitor há de notar que o contexto apresentado, na concordância acima,é truncado. Isso se deve ao tamanho do contexto pelo qual o pesquisador

4 Por razóes de espaço, optamos por apresentar aqui e nos demais exemplos uma seleção daslinhas de concordância originalmente geradas pelos programas.

30 Ojeito que a gentediz

Page 5: Geral   a linguística de corpus

A Linguística de Corpus

optou, ou seja, 20 caracteres de cada lado da palavra de busca. Mas, no casoespecífico do concordanciador desse portal, o Lácio-Web, esse contexto podeser aumentado até 60 caracteres.

Como o objetivo de visualizar as expressões recorrentes não se limitaapenas a estabelecer sua frequência, mas também a identificar seu contextode uso, sua estrutura sintática, seu cotexto usual, convém trabalharmos comconcordâncias mais longas.

Importante também é saber como se "lê" uma concordância. Há basi-camente duas formas: uma leitura vertical e uma leitura horizontal. A leituravertical permite detectar as recorrências, enquanto a horizontal evidencia asestruturas sintáticas.

Vejamos um exemplo com sal. A concordância - abreviada para efeitosde exemplificação - permite identificar os seguintes padrões recorrentes: salcomum, sal de cozinha, sal e luz, sal grosso e sal marinho.

Ingredientes: 4 colheres de sopa de sal 1 colher de sopa de pimenta companhiamada do sal. Cubra-a com o restante do sal, apertando para o de seu Evangelho:

. Modo mal térmico de refinamento como o sal comum. Contém 84 elementos traço, diodo a concentrado para ser diluido com sal comum nas proporções recomendadas.

ENTESvirada para baixo sob a camada do sal. Cubra-a com o restante do sal, apo para o de seu Evangelho:"Vocês são o sal da terra que torna suportável. Se

u sabor bém aumenta. 2. Sal de CozinhaO sal de cozinha é o sal marinho, só queI. Se perderem seu sabor bém aumenta. 2. Sal de cozinha O sal de cozinha é o sal

içãi nta é: Ondeestá a igraie? Porqueo sal e luz de Jesus Cristo não estão impoltar f erença para essas pessoas, sendo sal e luz na vida delas. Vale lembrar a

ão que nde profissional tem de ser como o sal e como a luz. Eantes que você pergele é s us disse que Nós tínhamos de ser sal e luz do mundo. "Portanto, se a esc

ndo e s rvas. Modo de Fazer:Misturar o sal e a pimenta. voltar f erença para eu início assadeira pequena com metade do sal grosso. Coloquea picanha com a gor

te, vamos a cm no máximo 1,800Kg lKg de sal grosso Modo de fazer: Este prato de. 2. Sal de CozinhaOsal de cozinha é o sal marinho, só que nele é s us disse q

nte para pys. 3. Tratamento de Doenças O sal marinho, como já dito, protege os pribuído do no organismo. A utilização do sal marinho traz maiores benefícios à s

para ba importância para o ser humano. O sal marinho não passa pelo processo norico de ação do bócio. O iodo existente no sal marinho é biologicamente melhor ass

Concordância parcial para sal gerada pelo WebCorp

Stella E.O. Tagnin 31

Page 6: Geral   a linguística de corpus

Capítulo 5

5 A grafia em versalete indica a forma canônica de uma palavra, ou seja, o lema, e representatodas as formas possíveis dessa palavra. No exemplo acima, corresponde a todas as formasdo verbo ser. No caso de substantivos e adjetivos, corresponde ao singular e plural e aosgêneros masculino e feminino.

o leitor atento deve ter observado que o lado à direita de sal foi ordenadoalfabeticamente. Esse recurso, que também pode ser aplicado ao lado esquerdo,facilita ainda mais a visualização dos padrões, quer lexicais quer sintáticos.

Uma vez estabelecidos esses padrões, podemos, com nova busca, verificarse, por acaso, as unidades detectadas fazem parte de uma unidade ainda maior.Na realidade é o que se verifica, principalmente, com SER5 sal e luz do mundo:

irei até aos confins da terra. Quero ser sal e luz do mundo Senhor,eu sei que épara servirem os seus irmãos. Quero ser sal e luz do mundo. Precisa de mim? Lev

- Para que Deus nos ilumine para sermos sal e luz do mundo. Rezemosao Senhor.ai, ó Maria, vossas graças para que seja sal e luz dos povos. Por Cristo, nossortamente o pecado deles (Jo 7.7; Ef 5.11 sal e luz do mundo para eles (Mt 5.13,1

da baseada no seguimento de Cristo e ser sal e luz do mundo. Ficou em todos desdSabemos que Deus quer que o crente seja sal e luz do mundo e que o evangelho seara adorar, proclamando, servindo, sendo sal e luz do mundo. i) Adorar é amar as no Espírito Santo e prontos para serem sal e luz desta terra! Foi lindo poder

mos crianças e jovens prontos para serem sal e luz desta terra. Creio que atravéermos a vontade de Deus e decidirmos ser sal e luz do mundo. O sal provoca sede

atureza missionária e comunitária de ser sal e luz do mundo. Aqueles pastores, a

Concordância parcial para sal e luz gerada pelo WebCorp

Nota-se, assim, que uma pesquisa baseada em corpus pode também di-recionar novas pesquisas.

Vejamos agora outro exemplo. Observando-se de cima a baixo o ladodireito de uma concordância, identificamos os objetos de verbos, os adjetivosque co-ocorrem com substantivos, as regências etc. Na figura abaixo nota-mos que presente pode ser um substantivo, como em presente que dera para anamorada (linha 6), presente de Natal (linha 7), presente de férias (linha 10),''presente original" (linha 16) epresente para o Dia da Criança (linha 18), todoscom o significado de "alguma coisa oferecida a alguém". Ao estudarmos o ladoesquerdo, notamos mais uma ocorrência desse mesmo substantivo: como sefosseum presente (linha 2). Também detectamos outro significado do substantivo

32 O jeito que a gente diz

Page 7: Geral   a linguística de corpus

A Linguística de Corpus

presente, ou seja, o de "tempo presente" (linhas 12, 14, 15, 17 e 20). Ao fa-zermos uma leitura horizontal, por outro lado, notamos que, com exceção da

ocorrência na linha 20, nas outras presente ocorre, em geral, numa estrutura de

coordenação com passado: questões do presente e do passado (linha 12), estudar opassado e o presente (linha 14), junta opassado e opresente (linha 15).

1 a capital goiana, essa preocupação está presente desde o maternal. No primeiro semestre2 emplares embrulhados, como se fosse um presente, levam para casa e lêem (ou, pelo menos3 . A interdisciplinaridade é ainda mais presente na Escola Livre Porto Cuiabá, na capita4 Priscila Ramalho A violência está tão presente nas grandes cidades que é cada vez mais5 sor. TAGARELICE DIDÁTICA O rádio está presente nos quatro cantos do país. A seguir, de6 egou uma almofada em forma de coração, presente que dera para a namorada, e embalagen7 de cada criança e ofereça aos pais como presente de Natal. Com o poema O Mosquito Escre8 ica surge em notícias e, portanto, está presente no cotidiano. Desta vez, porém, o perió9 se caso, diz-se que a equipe que estava presente venceu por W.O. A utilização da expres10 mbro, sem estresse nem preocupação. Um presente de férias. Na segunda metade da revist11 s juntas. É o tipo de conceito que está presente numa atividade em que o aluno ouve a gr12 s oferece explicações para questões do presente e do passado permite o conhecimento de13 isagens A cartografia deve estar sempre presente nos planos de aula porque é uma ferram14 ricos, discutir e estudar o passado e o presente ", afirma. "Achei que esse poderia ser o15 eresa, no Rio, trabalho junta passado e presente numa inesquecível viagem ao mundo do16 todos tiveram a idéia agradá-Ia com um u presente original". Quinze anos fazendo parte da17 caminhar linearmente do passado para o presente, parto da atualidade e vou em busca de18 de aula ou surpreender com um original presente para o Dia da Criança. Para montar o fa19 ompletamente envolvido naquilo, é estar presente - não ser um objeto da fala do outro, d20 uro frequentemente significa déficit do presente . Por isso, falo de apenas um aspecto: n

Concordância para presente gerada pelo WebCorp

Além disso, essa mesma leitura horizontal revela oito instâncias de "estarpresente" (linhas 1, 4, 5, 8, 9, 11, 13 e 19) em oposição a apenas uma de "serpresente" (linha 3). Essa discrepância é clara indicação de que a forma maisusual, mais convencional, é "ESTAR presente".

As linhas de concordância também são úteis para revelar o que diferenciapalavras quase sinônimas, como, por exemplo, big/large, small/little, calvolcareca,belo/bonito, tópicos de grande relevância para o ensino de línguas. Nesses casos,gera-se uma concordância para cada palavra e comparam-se os contextos emque são empregadas.

Stella E.O. Tagnin . 33

Page 8: Geral   a linguística de corpus

Capítulo5

Para os objetivos deste livro, no entanto, nos restringiremos a observarpadrões recorrentes como os que discutiremos nos capítulos seguintes.

Lista de Palavras

Outra ferramenta importante é o gerador de Lista de Palavras que, con-forme o próprio nome já diz, lista todas as palavras de um corpus em ordemde frequência ou alfabética. Visualizar as primeiras palavras de conteúdo deum corpus ou texto já nos dá uma indicação de seu conteúdo. Vejamos a listaa seguir:

Posição Palavra Frequência

de 214432 e 104483 o 76684 a 70285 com 47506 em 43017 sopa 25408 chá 21599 sal 215810 para 2112

Primeiras ocorrências da Lista de Palavras extraída do CorTec·Culinária6 - português

As palavras gramaticais, por sua alta recorrência na língua, sempre encabe-çam as listas de frequência, razão pela qual buscamos as palavras de conteúdopara identificar o teor de um corpus ou texto.

Por indicar as palavras de maior ocorrência, essas listas são muito úteispara o ensino de uma língua de especialidade, por exemplo, inglês para infor-mática, ou para a compilação de glossários técnicos.

6 Disponível em http://www.fRch.usp.br/dlm/comer/consulra_cortec.hrml

34 O'jeito que a gente diz

Page 9: Geral   a linguística de corpus

A Linguística de Corpus

Lista de Palavras-chave

Essa lista resulta da comparação de duas Listas de Palavras, uma do corpusque se está estudando, chamado "corpus de estudo" e outra de um corpus queservirá de comparação, usualmente denominado "corpus de referência", mas

também "corpus de comparação" ou "corpus de contraste". Recomenda-se queesse corpus tenha de 3 a 5 vezes o tamanho do corpus de estudo. Costuma sercomposto por textos de língua geral, mas, dependendo do tipo de estudo a serdesenvolvido, essa composição pode variar. A comparação entre os dois corporaevidencia as palavras que são mais frequentes (em termos estatísticos) no corpusde estudo do que no corpus de referência. Assim, enquanto a Lista de Palavras

nos dá todas as palavras de um corpus, a Lista de Palavras-chave apresentaráapenas as palavras que são mais "típicas" do corpus que está sendo estudado.

Vejamos o que resulta da comparação de um corpus de culinária, deaproximadamente 350.000 palavras, com um corpus de referência (de línguageral, neste caso) de pouco mais de 2 milhões de palavras:

N Key word Freq. % RC. Freq.~

2 SOPA 3.556 0,89 7

3 SAL 3.575 0,90 18

4 XíCARA 3.183 0,80 9

5 CHÁ 2.822 0,71 6

6 MANTEIGA 2.345 0,59 5

7 PREPARO 2.382 0,60 30

8 MINUTOS 2.514 0,63 152

9 INGREDIENTES 2.153 0,54 13

10 FOGO 2.159 0,54 51

11 DEIXE 2.009 0,50 14

Lista de Palavras-chave gerada pelo WordSmith Tools

Notamos inicialmente que as palavras gramaticais desapareceram. Issoporque são igualmente frequentes - proporcionalmente - nos dois corpora (vide

Slella E.O. Tagnin 35

Page 10: Geral   a linguística de corpus

Capítulo 5

lista abaixo).A não ser que alguma dessaspalavras tenha um papel importanteno corpus, nenhuma delas deverá ocorrer na Lista de Palavras-chave.

1. DE 6. PARA 11. SER 16. NÃO2. A 7. EM 12. OS 17. É3. E 8. DA 13. OU 18. DOS4. O 9. QUE. 14. AS 19. NA5. DO 10. COM 15. POR 20. SE

Em seguida observamos que, de fato, todas as palavras pertencem aovocabulário da culinária. Talvez chame a atenção o fato de sopa encabeçara lista, mas uma concordância para essa palavra demonstrará que ela ocorrequase que exclusivamente na expressão colher de sopa.

A lista fornece ainda outras informações. A coluna Freq exibe a frequênciada palavra no corpus de estudo, em seguida aparece a porcentagem que essafrequência representa no corpus de culinária todo. A última coluna indica afrequência da palavra no corpus de referência.

Essa ferramenta, no entanto, não costuma fazer parte dos corpora on--line, de modo que tem de ser usada uma externa. Uma delas é o AntConc,ferramenta gratuita desenvolvida por Laurence Anthony que pode ser baixadagratuitamente da Internet". Está atualmente na versão 3.2.4. A outra, comvárias funcionalidades que o AntConc não tem, é o WordSmith Tools (WST),software comercial" desenvolvido por Mike Scott, disponível no site http://www.lexically.ner/wordsmith/, de onde pode ser baixado gratuitamente, comuso limitado de algumas funções. O programa está atualmente na versão 6.0.

Essas são as ferramentas básicas para a maioria dos estudos e aplicaçõesda Linguística de Corpus. Passemos agora aos corpora em si.

OscorporaTrataremos primeiramente dos corpora monolíngues que podem ser aces-

sados on-line. Existem vários deles, a maioria para a língua inglesa. Mas játemos alguns para a língua portuguesa.

7 Ferramenta disponível em http://www.antlab.sci.waseda.ac.jp/software.html

8 O preço da licença individual é de 50 libras esterlinas.

36 O jeito que a gente diz

Page 11: Geral   a linguística de corpus

A Linguística de Corpus

Corpora para o português

o primeiro deles foi o Lácio-Web, que pode ser acessado pelo site www.nilc.icmc.usp.br/lacioweb. O portal contém um corpus de aproximadamente 10milhões de palavras nas seguintes áreas de conhecimento: Ciências Agrárias,Ciências Humanas, Ciências Biológicas, Ciências Sociais Aplicadas, Ciênciasda Saúde, Generalidades, Ciências Exatas e da Terra, Religião & Pensamento.

Além do concordanciador, o Lácio-Web oferece outras ferramentas, taiscomo um contador de frequência (= Lista de Palavras), um gerador de n-gra-mas (= agrupamentos lexicais, denominados clusters nas ferramentas WST eAntConc) e alguns etiquetadores. Os etiquetadores, como o próprio nome diz,etiquetam um corpus, ou seja, atribuem a cada palavra uma etiqueta gramatical(substantivo, adjetivo, verbo etc.). O detalhamento dessas ferramentas fogeao escopo deste livro, mas o leitor interessado encontrará todas as explicaçõesnecessárias no próprio site, bastando para isso cadastrar-se.

O segundo é o Corpus do Português (http://www.corpusdoportugues.org/), que contém 45 milhões de palavras e cobre o período de 1300 a 1900.Foi compilado por Mark Davies, da Brigham Young University, e MichaelJ. Ferreira, da Georgetown University", É composto de textos de vários gê-neros (acadêmico, notícias, ficção, oral) em português brasileiro e portuguêseuropeu. Além de buscas por palavras ou expressões, permite pesquisas maiscomplexas, como por exemplo, sinônimos, categorias gramaticais e combina-çóes de palavras. A forma de fazer essas buscas, ou seja, a sintaxe a ser usada,é detalhada numa tela de "Ajuda", que aparece entre a parte superior e inferiorda tela, no lado direito. Ao clicar em Ajudalinformaçãolcontactar (1), o usuárioterá acesso a um grande volume de informações, a começar por uma "tour"(2) pelo site, passando por várias formas (sintaxes) de busca (3) assim comoformas de aplicação do corpus.

9 Trata-se, na realidade, de um porral que disponibiliza vários corpora, a maioria para a línguainglesa, como o COCA (Corpus of Contemporary American English), que apresentaremosmais adiante, o COHA (Corpus oi Historical American English), o Time Magazine Corpus eo Corpus of.American Soap Operas, entre outros. Mas também hospeda o Corpus del Espano!(www.corpusdelespanol.org/).

Stella E.O. Tagnin 37

Page 12: Geral   a linguística de corpus

Capítulo 5

-~ -- ~ - - -- - -- - - ~------~---~CORPUS DO PORTUGUÊS ACESSO,3/5,-----------------------------------------15.000.000 PALAVR/\Sl sX!II-XX . '. ~- •

~;Qsrl<.lt!' Z'I H~ s:' s1." "n na s!t t2t' <>0;1:;- 201•• , •.••eo ·".:-;C ~..: ôllt.L 15

ORDENAR IFRiQUEllCtKlJ

MÍNlMO [Elt~U'ClA:::::J ~ a:.

Tela de busca do Corpus do Português

Por ser um corpus com etiquetas morfossintáticas, ou seja, cada palavra docorpus recebe uma etiqueta identificando sua categoria gramatical, é possívelfazer buscas por categoria gramatical. No exemplo abaixo a pesquisa foi feitapara a palavra "vista" (1) como substantivo (cujo código é nn") (2) nos séculosXIX e XX (3). O resultado foram 1444 ocorrências (4), que são listadas naparte inferior da tela (5).

PÂGINA: « < 1/15 > »AMOSTRA: 100 2:00 SOO 1000

,,,to quer !'Mis se fMt4r1 DM - (D.lmilo h"it4, b6ix •• .llI!1A. peM4 11 rasPOnde c:om" Y01 baix •••). ""o. Eu j. n;muito certo ele falou eerttI - que •••coU' mais bonita de OIindlt é a.!dla do Reo:m. • ""::0 fi visu de Olinda tambér.

que li 03;10 moif bOIlM de OIil'ldo é fi vim do Recife - 1'1"::0.0: Já!1I. dll O~ndo tIImbim é bon~ - bem: bonita - «bem: bonitA - «rindo)) e ectse mais borm. de OIinda é a Jti..I1A do Regt'e 1'150 ton"'. nem dúvida· OIindll'" melho

•••mani, dele· 11neq6do de!e é tudo I e!e 1Ó I:OJnllr.va t\ldo • JdIY (35) lIor dois motiyos ele disi~u Ilrimeiro 100

Tela do Cor pus do Português mostrando busca pela palavra "vista" como substantivo

38 o jeito que a gente diz

Page 13: Geral   a linguística de corpus

A Linguística de Corpus

Outro corpus para o português é o Corpus Brasileiro com um bilhão depalavras, que pode ser acessado diretamente em http://corpusbrasileiro.pucsp.br/xpo. Foi desenvolvido na Pontifícia Universidade Católica de São Paulo,por Tony Berber Sardinha, e engloba grande variedade de textos, por exemplo,artigos acadêmicos, narrações de futebol, textos religiosos, revistas, crônicase muitos outros (1). Também permite buscas por categoria gramatical. Osresultados são apresentados em vários formatos.

Corpus Brasileiro"~_~""-r -~~- ~.~ ~l-

It

.~-------------------------------------~JCI Ct l008-2.0~O CorpltS er~sileiro - pucSP - FAPESP - TodO$ os dlYIIlítos re$!I!Nl!ldos. 11~:!: K B64...l,-,~--_~-

Corpus Brasileiro - tela inicial

A tela acima mostra uma busca pela palavra sal (2) imediatamente seguida(3) por um adjetivo (4). O número de ocorrências aparece no lado direito (5).As concordâncias podem ser visualizadas em dois formatos: simples (6) ouKWIC (7).

As duas telas seguintes mostram os resultados para uma busca pela palavracasa; a primeira numa concordância simples, a segunda, no formato KWIC.

10 Também pode ser acessado via Sketch Engine (http://www.sketchengine.co.ukl).

Stella E.O. Tagnin 39

Page 14: Geral   a linguística de corpus

Capítulo 5

Corpus Brasileiro'- - ,- .:~'- ~ . -: -' '. - -. -1 [.to] um liM"ador com a esposadoente,dlamouurn sace'"00I:et:u:is:t! â sua casa .O SêlOerOOt!':começouareurpe:i'1do q..aeDeus .•.:I . [';"YCerta vez eo eStava perdOOno~. e só~Cheçer em-casá mtJto tFl"dedarrite. Ha'\Iiadetxado mrl'la ct\a'I..ecom o \'I:3~vistasemcertos~esdo_RiodeJa"'l«O.O§dacasa.umnCbreâbei"adaf~(oQJe.a3s,aca'lteCecom• [eb] novo se e-ceoeeem sem Uga-pa'adormt. sete-em Aperta de umacasa hJmk1e, cooe um cesa vaoatJn:le.los. Por não teer

~-~~~amos~peregt1oS-_rrías:seestavamp!~de~acasaera~Pr~a"amUmjanta",açt"~am, -.;.!!h~ tescec, e resoM esccooe-o de [!NO. porQ.jeo oc-o da casa rOO S<bi3a).dar ~m p-ecseve .•• ontem, 8"q.I<I'lto clc.!.mkImcr [.10] de múslca~saípa'aabatahaclá1a,nem é receeoc em casa com ~a:::eJ"l<I'1(jed\arrtar'rlooseunome.Mesmoas:• - .~ao sentIdOda-~ Certa tarde..•m}:Ydm de aa casa em r.tao.r~sctre o eecessc de toda a sua besce. Neste'rnorrimto., (eb] ros I8adeO. aa-atrha -q;e e'l.XfltrOO uma moeda ao vtfier sua casa, [)epClSdeb lliIJto tempo na ~. e:scof'lenOOoprE10 (.1» Oexorosmo Um homem chamou um pact"e pora fazer um exorcismo em suacasa. Fâ mttíS rum h:ii:à. e oeeoc ~ ao11 [.tol qJsS<berE6e. -Nertum. -EQ.Ja"ltIi'VIJnamt'tlac:ãsa?·Nertumsedzla..tJmadej:ivetes.N.Jmsotaq.JeCMTeg;rl:).fànjo~12 [eb) Omewecorl'ldouodsc:PUoparaumpasseionaftoresta~deucasa ;mc.amrTJ:).~umaplõntaeperg.rd.QJseo13 [.ti] ná::lJX,de"es ser uma estrea ro céu, seja umalâmpaja em sua casa.AtlOr'lmO DepoIsda mate, ostt.tJCOf'lthJavtvo. emtx:tasa.1. +[~l-·o-':.:bh:>teveumakléia: cctx:oUumCMtaZnapcrtadesuacasa .e escrever: RESPOt'DOCAO"'PER~A~ looMci:r::lAs.ll' . [.bl oos c rescetevam mu'toJX)rsua h::oestldade e cIg&lcIa-vieram atésuacasa~adza"oQJa'1toIarnent;rvam oOCOO1O::J.8eag;'j?~ftaQ::.-a ~rn a resposta ~ o homem hes hMá dado- ref.OrTl:'!a.!Y' â casa 00 1a\Ir~, pa'"a OJ~enta-b pea sua sccte. -11 . (elo] cakJde maJjEítD - qJebrcndouma~. OS vtzi"tIOSretornêl"am à casa oolavra:b" -lev.:rdopresentespa-a o moço fe-tjo. op11 [.bl·uffi-ã:xtentecomum fI1oéumav.;daderatr~Aosarem dacasadolavfacb",d!:iamlll580Sa.MoS: "cbcrnem ~1'-; (••••} peqJe'"laSrachac1J"as; cada vez. qJe o homem pertOO'ia o camtt-o até sua casa • metade da ~ se pe-da. D.I<rIte cos eocs o I2~ (;bJ mrllaca-ga,esaOã- a meteoeoa sedeqJe esoea em SU3casa. Obomemsoru,e be êsse: -QJ.ir1fO~mos,pcc fava"

Corpus Brasileiro - concordância simples para casa

Corpus Brasileiro: _ " ~- J ~ .!~ .• .- ~. ) - -~ t ~ ;:t-~=:~~~~~~==~~====~==~~=-===~~==~~~~~==~~

CI o 2008-2010 CC'l'US 6rUI!eiro • PUCSP - fAPESP ~Tod(lf c díroito$ ~setVcdos. 1152 • e6~

Corpus Brasileiro - concordância KWIC para casa

Todos esses corpora merecem ser explorados com tempo para que o leitorse familiarize com todas as possibilidades de pesquisa que oferecem.

40 o jeito que a gente diz

Page 15: Geral   a linguística de corpus

A Linguística de Corpus

Corpora para o inglêsPara a língua inglesa há mais recursos disponíveis on-line. O BNC (British

National Corpus) contém 100 milhões de palavras e foi compilado entre 1991 e1994, com 90% de textos jornalísticos, acadêmicos, técnicos e de ficção e 10%de textos orais. Foi criado por um consórcio formado por editoras e centrosuniversitários de pesquisa. Na versão on-line (http://www.natcorp.ox.ac.uk/)disponibiliza apenas 50 linhas de concordância no formato abaixo, mas informao total de ocorrências (2945 neste caso). As siglas remetem à fonte da citação:

Results of your searchYour query was.saltHere is a random selection of 50 solutions from the 2945 found.

A30 194 China's elderly leaders had salt liberally rubbed into their wounds by the Nobel Foundation,which awarded the Peace Prize to the Dalai Lama.

A70 1571 Add 15ml (1 tbsp) tomato purée, stock, salt and black pepper.A70 2266 pinch each of salt, pepper and sugar.A7N 726 'A hairdresser's not worth his salt if he's not prepared to give a consultation,' he said.ABB364 They are rubbed with saltto dry cure them and then coated with a mixture of spices, including

juniper, and molasses, which is mainly responsible for the black appearance of the ham.ABB 2563 Add the crumbled Shropshire blue cheese to the dip, then season to taste with salt and

pepper.ABG 865 Salt Lake City has become the telemarketing capital of America for mail-order firms and

reservation services.AML 1344 The product used was made by boiling a quantity of hops with treacle, adding mashed

potatoes and salt, then thickening the mixture with flour.'AMX 143 McDonald's McChicken Sandwich is made from boned breast meat in a light batter coating

and served with a pinch of salt to taste, lettuce and mayonnaise in a toasted bun.ANK841 Yet he collected two phials of prussic acid from Bishopsgate and proceeded to Sara's cottage

at Salt Hill, arriving slightly after 4pm on 1st January.

Concordância parcial para salt gerada pelo BNC on-line.

Ao clicar sobre a sigla, o programa disponibiliza a referência completada citação, por exemplo:

A30 [lndependent, electranic editian ot 198910071. London: Newspaper Publishing pie, 1989,Foreign material, pp. 7? 439 s-units, 9297 words.

Stella E.O. Tagnin 41

Page 16: Geral   a linguística de corpus

....•

Capítulo 5

experttnce.lt's /I fvtiIe III!rmrtion of resou«:es.· , Qnijne: '.Y.i.e tt>e report 1It: http://epne,ws/;:t.pfl:!M

Mi,,;mi Archbishop Tbomas G. Wenski, 110 OrteQe supporter ""ho ad<nowle

•• eekçaJ!ingSentorum"..neconomieliohtweignt,"/lnifldieoti4nl;h.al:he

·smgkinQl1'><l<mtoin"iIltheindillenousNehuotl14l\9ualleoflheArtecs.

,u exQting,u iteowWhllve:been. 8utl don'tthink"fI shoukf .!d..u!itu IIfeilure.· I- Indeed,the smalljump in primovement. lt is tllr more diffiOJIt for immiQrant Pbl'ents. Horrified by ettions lhe)' xic.!t iI$ u·lf·dutnJçtlye, meo)' II{

seió. , Mil")' dono" - most of them newly IIff1uellt Han -- s.tIJ they !de Trbetan Buddhism IIS fiO IIntidote w the fi)

thil'lk the paopJe file ","ould attnct aro lhe mlljority: I- BUT Nhat appone.nts li.JA!lIlS Ms. MlIlibuko's WflakMS5, her

fo~ its potential to 910rifJ lhe tlIlifl.o •••••gime but. more import4ntly in the sk.ten ~ th&t r",ised IIWMeness. ,. "1'11

trame ror how he hapes the pubHe io New yon.; eM lIen1SS the coufltry wiU.!!.ia him -- as someone ",110 tumed /I d~

Essaversãopermite apenas buscas simples para usuários não licenciados. Noentanto, o corpus completo pode ser acessado por meio do portal de Mark Davies:http://corpus2.byu.edu/bnc/, com a mesma interface do Corpus do Português.

Mais recente e bem maior é o COCA (Corpus of Contemporary AmericanEnglish) (http://www.americancorpus.org)com450milhõesdepalavras.co-brindo atualmente o período de 1990 a 2012. A interface é igual à do Corpus doPortuguês, pois também foi desenvolvido por Mark Davies, da Brigham YoungUniversity. No exemplo abaixo a busca foi feita para a palavra "view" (1) comoverbo (2) e resultou em 11.387 ocorrências (3), que podem ser visualizadas,100 de cada vez, na parte inferior da tela ao se clicar sobre a palavra "view" (4).

PAGE: c c 1/115> »SAI'I?LE:l00 200 SOO 1000

Tela do COCA mostrando busca pelo verbo view e o resultado

É certamente um portal que vale a pena explorar para se familiarizar comtodas as possibilidades de pesquisa que oferece.

Corpora para vários idiomas

42 o jeito que a gente diz

Outra fonte de referência é o WebCorp (http://www.webcorp.org.uk/live/), que utiliza a própria Web como corpus, de modo que fornece linhas de

Page 17: Geral   a linguística de corpus

A Linguística de Corpus

concordância em qualquer língua em que haja material na Webll. Esta é suainterface, com uma busca por attention:

Search WordhstToo! UserGulde WebCorplSE Pubheations Feedb:lck _

WebCorp Uve íets you access the Web as a corpus - a large coUection of tecrs from """ich examples Df reallanguage use cen be ecracteo. More

Surch: ~fol'l oCas. Insensltive: f{f Span: !5DcharoclersB o

OSearchAPI: & _flAdvanced Op1ions

*;"@e 1'·11

9yusing the WebCorp tcoís you are agreeing to be bound I:rythe Terrns of Use and Privacy PoIicy.Cof,rtright@ lSQ9. 20 12 Research ano Development Unit for Eng!ish snsães. Binniflgham CI!y University.

Back tc tcp

WebCorp - tela inicial

Os resultados aparecem no formato abaixo, por site pesquisado, o qualpode ser acessado clicando na respectiva URL:

II Para corpora em outras línguas e outras informaçóes relacionadas à Linguística de Corpusconsulte o site http://tiny.cc/corpora ou http://www.uow.edu.au/~dlee/CBLLinks.htm.organizado e gerenciado por David Lee, um dos pesquisadores envolvidos na construçãodo BNC.

Stella E.O. Tagnin 43

Page 18: Geral   a linguística de corpus

Capítulo 5

22) http:nwww.n.tdoctor_ço.ulddIsl!ue$lf~etsl~dhd.htm

Text. Wordlist, te:x1Ihtml, IS09859_' (HTMlsource), 2005-01-01 (Bodynear'LastMrK:lifu!d')

1119: Chllctte;o'.s bealtb I Children's ~alth ~acts ÜHD (.U.enUon de.ticit. h~'ract1vit.y d~o1;derl Vritt.en by 111'

1150: chlldren :f.rOCllearninq and sO'Clal:i3inq ee.r i , AttentlO:n 4e11c::lt bypcractivlty d:i.30nter (,unI])) l!UICl

1451: d.e:t.lcit h~llCtlvltV dlsorder (.lDHDI aDd. _ttenU4ft de.tielt d.laordu: (.lDDI rezer to a raDGl! 0:1:14Sl: r~ ot problea be~1-OW::5 a:!$oclaUd. .1th poor .attentio.n apaD. ~~ -.v 1nc:111de Íl:l;Iuls1vlI!!nI!ss, re.5tlUSlIe:1153: dl:sord.er. fhs.t are tbe 3'!j1:!pt.me5ot ltIRll? Att.eneioh d1ttlcu"ttles .I. child =t b.aVl!:~b1blte:d at115'1: llDCIteve.r 0:1:inteUl~e. "alia ce pay C105Cattcntton to deeal1 ar ~ eeeerese errar. d.w:lnq ~n:k1455: WClrk ar piay. Tslls to tin1sh task:s ar SWl~1n atlention 1:1 pla., eeewte tee • seeee noto to Usun to wb4t1456: respOn:ile to social l:est-rolnt. ~iveoc:Js ot. at.t.hti"" du.ficult.les ond hyper.ct.1vit.y For 11. dl~1s1157: aJ:e IIIUd. or beeeuee tM :!S!111~yha5 hand..led eee 4t.tcmt.ion 1aclr: at. hCllDe1n ~uch 01. -v thllt it 13 1IoOt1158: pa:c-el1t!l IXIt tO alulóer thllt. t.be1r chile!. t:&a5en at.tent1.on dellc1t proble!o. ~ l::! cttteeted bV .1DBlI' 1J;Jout1159: caus •• a eh11d. t.o beco.:lll!: <ko ••• y. blpa1.r1.PoQ' tbeix" at.t.ent.lon. Z:pl1ep::!y Cal!. IIIlmo ca.USII!:unusual behavlo~ aJI.Cl1'160: that pr~=upy t.helr though= and e!.1scract t.belr at.tent.lon. Touret.t.e.'s sym1rClllle lDVOl~ ceeee reave,1161: tb.o::!iI!:eeeve are a1ftlV3 iJoportant, IUIcl :!or t:tl1d attentlon cle:!icit prol:HeJI:I:lIthey are tlu: treaa.ll!:nt ot1162: and 1IIIpIl1::!lvene:ls and hel~ to tocu!! • ch1lcl'. attent:1.on. Tbey eeeeee 11l!:l5::!aqgre::!::!i~. seee ee cm.>ply1163: epres.lon, lrr1t.ab1l1ty. IUlt150Clal behav10ur anel at.tenU.on prollle:a:s. Last updat.ecl 28.05.2005 .l.ctvert.Úll!.II1I!l1t

23) httP;l/lttentionsottw~re.comlTed, Woo:IIist. textnltmI, UTFB (Faüed). date unl<llO\om

116 .•: Produets ~! NoeU1catloD. Sotc"ftlre 1tceDtlo.n! 11arm1'165: Products .lt.tIl!:DtlOn! No.tifieatl0D Sôttva.re Attent.lon! 11arm Ilana~Dt Soft.ue aeceee tee r CC1166: So:!t.-are 1tt.ent1ou! 11=- 1lanaqeE!ellt Satt.-are At.tent.:lon! CC .lt.tellt.101l! Sol .lttentlon! RT 5,,11.>1:10"H671 11arm !l&n&gI!.ll1l!DtSo:!tvar •• .ltteDt10Il! CC Att ••ntlon! !l1 1t.tentlon! RT Solntlons 5upport 1ttentloJ:lI1168: ftaJUlÇfI!.llll!.J:ltSott.VftrIl!: lr.tenr.lon! CC .lr.teDt1on! 51 Attomt:lon! RT SolutloM SupJ).Ort aeeeec rce r NS J.ttent10J:l!1"69: CC J.ttent1on! SJ. 1ttentlon! RT 501ut10= Supp"rt Attent:lo.n! N5 Attll!:.llt10n! U ..ltte.nt10n! CC 1ttent1oni :!U1"'70: 51 .lttent1on! RT So.lut1o= l!luPpOtt Attent.1on! riS Att-ent:lon! J.l!I At.tI!.Dtion! CC J.tU!ntlon! 5A Attent1on! RT1171: RT 501ut101>.:5 5upport .lttention! NS Attent10ni J.l!IAttent1on! cc Attent1on! 5.1 J.t~eutlOD.' RT D01rnloacb14.72: At.tentlon! N5 1~l;ent10n! J.l!I1ttentlonl CC AtteJ1tlo.n! 5A 1ttent1on! RT Dovnload.5 1ttent10n! No.tificat114.73: NS Attentionl J.lI Atten.tiol1! CC 1ttentloD! lI1 Attention! RT Downloaob 11:teDt10.11' Hoti:l:ication soturare14.74.: ec Attelltion! 51 1t.I;=,nt.10n! RT DO'"lllol114:1Attentlo.n! Nnt1ticatlon !Ioft.-are 1ttent1on.! Alarm1475: RT DOlfn.lotl.~ Attll!:.lltlonl Not1tieation So:!tvlU'e At.tent.:lon! l.lar= llanaQ:eJrIII!:nt50~t.llre 1tte.n.tionl CC1476: So.:!t.-are. 1tte.ntion! AIa.rm l!e.naql!..llll!..nt50ttvlU'e &ttent:lon! CC Attl!.ntion! 51 1tUnt10n! RT ccaeece Hou.e1117: Alarm lIane.gl!.lDl!.ut!:Iottlrare 1ttention! CC &ttent.:Lon! SJ. lttent1on! RT ceaeeee Rolne Inton.at1on

.. .147.R. .Koo",.(I'••~ott. ~n1:r.Jfar.!!'__AT.tO'!""'.1n,,_·_.r:Ç._lr.r."_ot.;no'. lU_A'..tMt.tM' __Jl.."!:. .r.OJtt•••m·;.~ __J.n1·nON!'lr.1nn...T ••ehDl\Inmr'._

Concordância parcial para attention gerada pelo WebCorp

o WebCorp também oferece buscas avançadas, como se vê abaixo, emque optamos por apenas uma linha de concordância por site e fizemos a buscapara "atenção" em português:

44 o jeito que a gente diz

Page 19: Geral   a linguística de corpus

A Linguística de Corpus

Surch: '~ençio DSpm: 150cha:rac:lm!1 D

S.archAPt. D

ShowURls: DD

Slte:

I ~Add popular sttes: [clur]

1..IKBroadsheet Newspapers US AcademiC France.UKTah!oidNewsp2~ UKAcademlc GemlanyFrench~rs ltaIyGreek Newspap€rs Argentrna Japanus Newspape~ Australla Nethertands

Brazíl New ZealandBSC News Canada $pain\MIGpedia China UK

D

WordFitt.,.: D

Busca avançada no WebCorp para atenção

Seólrch Wordhst Tool User GUlde WebCorp LSE Pubhc.ltlons Fe edbaek ID lDi

Jumptooptions

Results for query "atenção"

case Insensltlve,ORe resuft per web page,uslng the 81"g API

1) hnp:Uplpl.comldlrectofyinamelNaltu.n:utllllree. Wontist,~, UTFS-(Corttent-type), 2007-06-07 (8odynear 'l.ast Modified')

(TtO) - o Jornsl l1e CO==3O'II p»bUços . _. 1 ataujlo cH: .Lnc.a.tl&S Narbutas. LT-03109 VilDius.

2) http!llwww.booldng.comlhotdptfugredos..d •. vale..manso.lt.htmlree, Wordlist._.lITF8 (Conrer<·'YP"I.2Il12-llt·Ot(eop,rigr< Ioo!orl

3) http://www.15mInJtlna.ujl.n3lnnOf'lHh:um31;u.zmon.sJb.>rt;a-W;lkin-ir-ol.ysonll.S~bMbosa-br.J:illskos-aistr'os4ietuvlslcam.-teism.-pa.plldyta-rugpjuclo-18-d-159.164300ree. Wordlist, textl'html, UTF8 (HTMl source), 2012-01-01 (Co~ght footer)

04} http://WWw.booking.eorn1hot*Uptfmalapost:l.tlhtmlree, Wordlist. te:4IhtmI, VTF8 (Content-type), 2012-01-01 (Copyright footer)

Concordância parcial para atenção gerada pelo WebCorp

Stella E.O. Tagnin 45

Page 20: Geral   a linguística de corpus

Capítulo 5

------------ _.;

Como se observa na aba superior, também esse site oferece uma variedadede informações que merecem ser consultadas, em especial Wordlist Too! e Web-Corp LSE. Esse último é o Linguist's Search Engine, que oferece três corpora eminglês para consulta mediante registro gratuito.

Corpora bilíngueso primeiro corpus bilíngue para o par português-inglês foi o COMPARA

(www.linguateca.pt/COMPARA). um corpus paralelo, composto por trechos deaté 30% de obras literárias originalmente escritas em inglês e português, comsuas respectivas traduções. As obras em inglês são das variantes americana, bri-tânica e sul-africana. As em português são provenientes do Brasil, de Portugal,de Angola e de Moçambique. O corpus produz concordâncias paralelas e permitebuscas avançadas, como, por exemplo, obras de um só autor, apenas na direçãooriginal à tradução etc. Além de várias formas de Ajuda, o site também apresentauma "aula prática" com diversos exercícios para que o usuário aprenda a usá-lo.A tela abaixo mostra o resultado de uma busca pela palavra "carioca" (1) emtextos originais em português brasileiro (PB) (2), que retomou 3 concordâncias:

~-=~=::=-~,:",~=:n«:e~~~eo~êcn~~u:r:::~~&~~~~lÍn~~~~~~~~~~~~~F~_de~~.=:_79.Pate:letst.~~~wrsao~_~~~COMPAAA1Un

Procura: carlcca Pedído de: cOllcordincla em cOlltox1o Direcçlo da pesqui$4l: De poIwolw.-·calloca~ & _.lel(lo-"P.~l

DestrijéDdoCClrpld

Concordinela

cSoUClIfioca.

• gGllo lhe pod IlIat r decKÜ!d 10 nickNrne hun Dom CHmurro, Cor MrGIoomy, in homaga to my feIowoman-oI-letIErs Mathadode Azsis.the 'M1:Iertom RitI. autl'lOr aí sW&rat exte!ent books 00 lhe art and sceece of

~Ufb3lton.

Ala! ponto que rtsoM i1p~lo de Dom Casmurro, em homenagemao meu CGlega de letras Mat::loido de Assis, esento.. Qrioca, UOfde'yjflos. excelentes-t.ws sobre iI arte e pnkica ~ matt!Jlbaçio

Trntom Rio.

eaBfZ(1317)E 09 famos destacados da famila - o paultsta. I) C1uioCil, o ffancês. And aR lhe fSf-IIong branches afthe bmily tree - rvlalrves &om São: Paulo,

RIO The French eontingem.:Io

Esperamos que o COMPARA lhe tenha sido útiH

peraunlj!!! comentaM" '!jp'sOn

COMPARA - concordância para "carioca"

46 o jeito que a gente diz

Page 21: Geral   a linguística de corpus

A linguística de Corpus

A palavra de busca vem marcada em negrito (3), mas a tradução deve serprocurada no texto paralelo.

Outro corpus bilíngue para o mesmo par linguístico português-inglês éo CorTrad (www.ffich.usp.br/dlm/comet/consulra_cortrad.html). parte doprojeto CoMET (Corpus Mulrilíngue para Ensino e Tradução), desenvolvidona Universidade de São Paulo. O CorTrad é constituído de três subcorpora: umliterário, um técnico-científico e um jornalístico. O corpus literário é compostopor contos australianos e canadenses; o técnico-científico, por um livro bra-sileiro sobre culinária e o jornalístico por textos da revista Pesquisa FAPESP.Os dois últimos apresentam originais em português e traduções em inglês.12

O CorTrad caracteriza-se por, sempre que possível, apresentar várias versõesde uma tradução. Assim, na tela abaixo temos uma busca pela palavra white,no corpus literário, mostrando o texto original, ao lado de uma primeira versãoda tradução, seguida da tradução revisada e finalmente da tradução publicada .

..•..•...CorTrad literário contos

&-UWM.

Exprudo de busca: "'wbb~ 'Soe

Resultado escolhido: eonconUnd. 1m cont.xtoCOtpUSpesquitado originais~rsSo42)

~''::' Prlm•.I,. tnldução Tradllçio ,evtAda Tradução publlcada

She be; ••n to p1Ow1between lha .Erdo começou iI rondar as Entfo começou a rondar as E começou a rondar as carteiras,deaks, WlYÍnglhe w&it.lettel like lcarteiras, balanÇ«ndo li carta como carteiras, balallÇ-ando 11carta como. balançando a carta como se fosse

:ft=~ta~8rlSerftd!ar 11$lhe I~:::','..:::~:e:ra nós,o: ~~:7s:~::::e:a n6s,o !~:::::::Mdapara nós, owaitll Ia nking ." Red o. wlUte, 981Çt1rnpllr.il a minha triste13, garçom, para minha tristeza, garçom, para minhil tristeza,sir?' p8.guntadinloo.ubranco. pef9Unla cinto ou branco. pergurdadinlooubr:anco,

::-_:-:-.,--._-,-_""S-,"""""=,:-'---.--,---.l- senhot?:t !S8nhor?:tPar. minhi sUrpresil, ele pemtil:1I Pm minha sU!pf8S:a,ale permile Pm minha SU!pre$8,ele permiteque o garçtlm encha sua laça de que o garyom encha ~ taça de que o garçom encha sua taça de::=.=::::.-.- -..:-".::7.......,':=.'-. W1ho~. Ivinho branc_e. _

fAlI in wf\it.. .Todadebranco. ,T*dtbtaflCO. ,Todld.br1nc:o_. _

Inthe dry, wbile, merciles$light,iI Naquela lia saca, branca e Naqutia luz seca, branca e Naquela luz seca,branca eimpi.dcn,}ogo se reconhecau que impiedO$a, logo se reeonheceu que impi.dOSI, logo se recnntreceu queeu Ira um g.ro!o responsável, 8Uer:aum garoto r8sporrsável, eu Ir:a um gaIOIor8Sponsáwl,

baekwan:lboy. apesar de tímido. apesar de tln'lido. I ape.5arde IIrn"ido·"'.-., __ -:, Summer had Ctlfm!'round 1il9ain:tha O verto hm; chegado tInYaI'nfInte: o..;io hiMa chegado nlMlmente: O wrfo havia chegado n(llfamenle:

etemal, powde:y, whit. Alheniarl o eterno, empoeir:adoe branco o elemo, empoeitado e branco eterno, empoeinulo e braneo ver40

-." a E.O. Tagnin 47

OxTrad - concordância paralela para white

_ Mais detalhes sobre a composição dos corpora podem ser obtidos no próprio site,

Page 22: Geral   a linguística de corpus

Capítulo 5

o site também permite buscas por categoria gramatical. Na realidade,cada subcorpus apresenta um conjunto de funcionalidades específicas para seuconteúdo. O corpus oferece uma Ajuda bastante detalhada para facilitar osvários tipos de buscas possíveís'".

O Projeto CoMET disponibiliza ainda outro corpus, o CorTec (http://www.ffich.usp.br/dlm/comet/consulta_cortec.html). que conta com cerca de

20 corpora técnicos comparáveis em inglês e português. Corpora comparáveissão compostos de textos originais nas duas línguas, ou seja, não são traduçõesum do outro. O CorTec oferece três ferramentas básicas: um Gerador de Lis-tas de Palavras, isto é, uma lista de todas as palavras do corpus que está sendoinvestigado; um Concordanciador e um Gerador de N-gramas, ou seja, de

agrupamentos de palavras. Por exemplo, uma busca pela palavra "coração" nocorpus de Hipertensão Arterial em português produz a seguinte concordância:

(bglish

For&ll enconuredes 205 cccc-rencí es t I Feaer- DOWNLOADdo reeut teec .

CliqU$ na palavra de busca para obter um contexto expandido COlI\150 carect eree

1 uxo sangüinao para. cor.ação, rins a cérebro pcd2 a I do Iosti t;uto do eerecso . Foram selecionados3 do no Instituto do Coraçõo. oVllliaç!o do risco4 casso adaptativo do COTo!IÇ&O que se desenvolve5 eúdo -de cc l égeno do coração 1-4 • Essas e Lt er-eç6 cecs simp6:tico$ ao co r-aç ãc parece ser o mais 17 cençe í equêeace do coração e insuficiência cer-B 5/130 (Instituto do Coração do Hospi tal das Cli9 ido ao Illsti tuto do Core.ç30 na 7 a semana de e10 ais eepreeeãvee em cos-eçêc , pulmões e rins. O11 • pulmões e rins. O ec ração pesou 400 g. cca a12 rsal do restante do coraç30 mostrou hipertrofi13 reee . Em eegu rde , o coraç80 foi secc í onedc ure14 tudo radiológico do cos-açêc em pOS1Ç!OpósterolS reesverac máxilllO do coração e o di6.- metro ure16 tendem. l"I. e.reacer- o corecac da parede e difi-17 lise radiológica do coração. eví denc re rera nos16 t í.reor deenc sobre o coração do idoso. Apesar d..lg fi"..no Tnt:.tit:uf:n ria earllciio dll fWtJSP. F.or •••", e:x

CorTec - concordância para "coração"

13 A disponibilização do CorTrad na rede é um projeto conjunto COMET/NILC/Linguateca.

48 o jeito que a gente diz

Page 23: Geral   a linguística de corpus

A Linguística de Corpus

Todos os corpora apresentados oferecem muito mais do que foi possíveldemonstrar aqui, razão pela qual merecem ser explorados com vagar. Esperamosque os leitores se aventurem nessa expedição".

Corpora personalizados

Existe também a possibilidade de cada pesquisador construir um corpusde acordo com seu objetivo de pesquisa. O mesmo se estende ao professor que,por exemplo, deseje trabalhar determinado vocabulário especializado com seusalunos. Nesse caso, será necessário lançar mão de programas específicos para suaanálise como o WordSmith Tools(WST) e o AntConc, já mencionados acima.

Para construir seu próprio corpus, o pesquisador/professor deverá seguiros seguintes passos:

1. definir a área que pretende pesquisar, lembrando que, quanto maisrestrita a área, mais eficaz será o corpus, pois mais específicos serão ostextos. Por exemplo, construir um corpus de Medicina é praticamenteinviável devido a sua enorme abrangência; mais proveitoso seria umcorpus mais específico, c.omo de Insuficiência Cardíaca, Doenças Tropi-cais ou Osteoporose, por exemplo;

2. definir que gêneros comporão o corpus: artigos acadêmicos, teses e dis-sertações, reportagens, notícias, manuais, etc. É conveniente que hajaum balanceamento entre os diversos tipos de textos, isto é, um númeroequivalente de textos ou de número de palavras;

14 Como o leitor pode observar, no lado esquerdo do site do projeto CoMET, há um item"Artigos, erc." onde poderá encontrar vários trabalhos, inclusive teses e dissertações,desenvolvidos com o auxílio da Linguística de Corpus.

3. buscar textos específicos da área, de preferência na internet por já estaremem formato eletrônico. Caso isso não seja possível em todos os casos, ostextos impressos deverão ser escaneados;

4. salvar os textos em formato .txt, pois é esse o formato exigido pelos pro-gramas computacionais de análise de corpus;

Stella E.O. Tagnin 49

Page 24: Geral   a linguística de corpus

Capítulo 5

5. nomear cada arquivo/texto de forma que seja facilmente reconhecível.Um nome como arquivo1, arquivo'Z etc. não identifica o teor do texto.

Melhor seria algo como Insuf Card1, Insuf Card2, por exemplo, ou ain-da IC]M1, IC]M2, etc., em que IC representa Insuficiência Cardíaca e

]M a fonte de onde foi tirado o texto, ou seja, o New England Journal o/Medicine. Enfim, cada pesquisador criará a forma de nomear os arquivos

que julgar mais adequada;

6. finalmente, organizar os arquivos em pastas, de acordo com os critérios

que o pesquisador estabelecer: por língua, por data, por fonte de referên-cia etc, No exemplo abaixo, os textos (1) do corpus de Bone Quality (2)(Qualidade Óssea) foram organizados por língua (3):

~~~=""",,,,,,,,_••••_..o:.l~~ ~ OQ-lN-AIlO<JT'"llt....... ~ ~~ •.-!!l __setCO]XII"IJ

!!lfl_!!lfl_"''''''''''''fl- ••••••Olfl_

t::l:::""""",,3t::l_el_

!!lel"""'"!!lt::l"*"

OCorReflngt:)corRetPto

!ii f:)CorTec:eCOrT,ad-Prcstcxb1tia

mOc~fl """'" G<umondt:lc~~-BcwXCet

.. I?""'"

~lô~fEl

(8Organização de um cor pus de Qualidade Óssea

Uma ferramenta que pode agilizar esse processo, desde que não seja neces-sário identificar cada arquivo individualmente, é o BootCat. Esse programa podeser baixado da internet (http://bootcat.sslmit.unibo.it/?section=download).Para usá-lo, é preciso ter uma AppId, que pode ser obtida no Windows AzureMarketplace {http://docs.sslmit. unibo.it!doku. php?id= bootcat:help:search_ en-gine_key). Depois de obtida essa chave é só seguir as instruções no site parainstalá-lo, Em seguida, veja o detalhado tutorial de como usar o programa(http://docs.sslmit.unibo.it/doku.php?id=bootcat:tutoriaIs:basic_1).

Basicamente o pesquisador deve inserir algumas "sementes", ou seja,palavras típicas da área que pretende pesquisar. A partir dessas sementes, oBootCat faz várias combinações e busca sites que contenham essas combina-

50 o jeito que a gente diz

Page 25: Geral   a linguística de corpus

A Linguística de Corpus

ções, listando-os na tela. O pesquisador pode selecionar os sites que sejammais adequados ou aceitar todos, conforme seu propósito. Uma vez selecio-nados ou aceitos, o BootCat constrói o corpus juntando todos os textos numsó arquivo. O processo todo não leva mais do que alguns minutos. Como sevê, é extremamente conveniente quando se necessita de um corpus para umapesquisa rápida. Caso o pesquisador deseje gravar cada texto em separado, teráde separá-Ias manualmente.

Corpus de aprendizes

Outro tipo de corpus útil no ensino e aprendizagem de uma língua é ochamado corpus de aprendizes, constituído de redações não corrigidas de alunosem diversos estágios de aprendizado. Comparações entre este e um corpus defalantes nativos permitem identificar vários problemas dos aprendizes, entreeles seus erros mais comuns, itens que sobreusam, subusam ou evitam, assimcomo os aspectos em que o aprendiz não "soa" como falante nativo, ou seja,os aspectos convencionais que ainda não domina. Sylviane Granger (1998), daUniversidade de Louvain, é Coordenadora do ICLE (International Corpus ofLearner English), que reúne pequenos corpora de 200.000 palavras de apren-dizes de várias nacionalidades aprendendo inglês como língua estrangeira. Aconstrução do corpus dos aprendizes brasileiros, denominado Br-Icle, está sendocoordenada por Tony Berber Sardinha, da Pontifícia Universidade Católica.

O Projeto CoMET também hospeda um corpus de aprendizes denomi-nado CoMAprend (Corpus Multilíngue de Aprendizes), que abriga trabalhosde alunos nas seguintes línguas: alemão, espanhol, francês, inglês e italiano."

Como vimos, temos um bom número de corpora disponíveis on-line parapesquisas de vários tipos. Uma palavra de alerta, porém: um corpus só podefornecer o que ele tem. Assim, seria inútil, por exemplo, buscar ocorrênciaspara OVO no BNC, uma vez que esse corpus, como dissemos, foi fechado em1994, bem antes da invenção dessa tecnologia. Assim, é muito importante fami-liarizar-se com o conteúdo de cada corpus para que suas buscas sejam eficazes.

15 Pesquisadores interessados em investigá-Ia ou contribuir devem entrar em contato pelo sitehttp://www.fHch.usp.br/dlm/comee/comaprend.heml

Stella E.O. Tagnin 51

Page 26: Geral   a linguística de corpus

Capítulo 5

Em suma, a Linguística de Corpus está em franca expansão e o númerode corpora e de ferramentas criados aumenta a cada dia. O leitor poderá obterinformações atualizadas no já citado site http://tiny.cclcorpora.16

~ Sugestão de exercícios

• português: dar

• alemão: geben

• espanhol: dar

• francês: donner

1. Usando um dos corpora on-line citados, faça uma busca para um verbocomum na língua que você pretende pesquisar e descubra alguns pa-drões em que ocorre. Lembre-se de que o WebCorp pode ser usado paraqualquer língua. Eis algumas sugestões:

• inglês: give

• italiano: dare

52 o jeito que a gente diz

2. Faça uma busca semelhante para um substantivo, de preferência em outrocorpus. Por exemplo:

• português: máo

• alemão: Hand

• espanhol: mano

• francês: main

• inglês: hand

• italiano: mano

3. Construa um pequeno corpus (digamos, 50.000 palavras) sobre um assun-to de seu interesse, na sua língua de estudo. Você poderá eventualmenteusá-lo para realizar alguns dos exercíciospropostos nos capítulos seguintes.

16 Uma Iistagem de corpora para o alemão, espanhol, francês, inglês e italiano pode serencontrada em Viana & Tagnin (2010), p. 363-370.