Corpus4.pdf

Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])

25

4. TIPOS DE CORPUS

Establecidos la metodologa y el concepto de corpus, en este apartado pasamos a comentar algunos de los

principales tipos de corpus, ya que no todos son iguales. Autores como J. Sinclair (1996) o J. Torruella y J.

Llisterri (1999) han propuesto clasificaciones de los distintos tipos de corpus en funcin de una serie de

criterios, aunque en la prctica no siempre est clara ni se hace explcita la tipologa de un corpus.

En general, los principales parmetros para clasificar los corpus se centran en:

La modalidad de la lengua

El nmero de lenguas a que pertenecen los textos

El tamao o cantidad de textos que conforman el corpus

Los lmites del corpus

La variedad lingstica o el grado de especializacin de los textos

El perodo temporal que abarcan los textos

El tratamiento aplicado al corpus

Con frecuencia, estos criterios vienen determinados por la finalidad u objetivo que se persigue con el

corpus: el estudio de la obra de un autor (Cervantes) o de la produccin literaria de una poca

determinada (el Barroco), la descripcin de una lengua en general (el espaol contemporneo) o de una

variedad, sublenguaje o aspecto lingstico concreto (p. ej. la norma culta en Mxico, el lenguaje de los

partes meteorolgicos, el lxico jurdico, etc.), la obtencin de un determinado producto comercial (un

diccionario, una aplicacin telefnica relacionada con las tecnologas del habla, etc.).

Teniendo en cuenta los criterios y consideraciones anteriores, se puede establecer la siguiente

tipologa:

1) Segn la modalidad de la lengua, se distinguen tres tipos de corpus:

-corpus escritos

-corpus orales

-corpus mixtos.


26

Los corpus textuales o escritos estn conformados exclusivamente por muestras de lengua escrita. Es el

caso, por ejemplo del Corpus Textual Informatitzat de la Llengua Catalana (CTILC)54.

Los corpus orales, por su parte, nicamente recogen muestras de lengua hablada, que pueden ser:

o Transcripciones ortogrficas de grabaciones (corpus de lengua oral), utilizadas sobre todo en lingstica de corpus para obtener una representacin simblica de una muestra natural de

habla. Ocasionalmente se aade informacin prosdica, pero no se accede a la seal sonora

ms que para transcribir los textos. El objetivo no es tanto el anlisis de las caractersticas

de tipo fontico, sino contar con una transcripcin ortogrfica de la lengua hablada. Esta

transcripcin constituye el punto de partida para el tratamiento posterior del corpus

(aadir marcas sobre categoras gramaticales, extraer ndices de frecuencia, etc.) y para

efectuar diferentes anlisis lingsticos: sociolingsticos, discursivos, etc. Tratan de reflejar,

sobre todo, la variacin con textos representativos de los distintos usos de la lengua

hablada, por lo que las grabaciones se realizan en entornos naturales y se favorecen las

muestras espontneas, no planificadas, aunque no son las nicas recogidas (dilogos,

conversaciones, discursos, grabaciones procedentes de medios de comunicacin, etc.). The

Bergen Corpus of London Teenage Language (COLT)55 es un corpus de medio milln de palabras

conformado por las transcripciones ortogrficas de conversaciones espontneas. Su objetivo

fundamental es dar cuenta de una variedad de lengua, la de los adolescentes de Londres y,

por tanto, servir como punto de referencia para estudios de ndole lingstica (marcadores

pragmticos y discursivos, vocabulario tpico, estudios sociolingsticos, etc.). Para el

espaol, podemos mencionar un proyecto de caractersticas similares, el Corpus Oral de

Lenguaje Adolescente (COLA)56, el Corpus de Conversacin Coloquial del Grupo Val.Es.Co57 o el

Corpus Oral de Referencia de la Lengua Espaola Contempornea (CORLEC)58. Tambin hay que

destacar el proyecto PRESEEA59 para la creacin de un corpus representativo de las

variedades geogrficas y sociales del espaol.

o Grabaciones (corpus orales), empleadas en fontica y tecnologas del habla, que conforman el punto de partida de los anlisis extrados del corpus. Estos corpus suelen realizarse en

entornos controlados y estar formados por enunciados o palabras, pero no habla

espontnea. La transcripcin de los textos es fontica y ortogrfica, alineada con la seal

sonora.

54 URL: http://ctilc.iec.cat/ 55 El corpus, compilado en 1993 en la Universidad de Bergen, Noruega, pretende dar cuenta de la variedad de lengua oral inglesa

empleada por adolescentes (entre 13 y 17 aos) de Londres. En la actualidad es un componente del British National Corpus (BNC). URL: http://www.hf.uib.no/i/Engelsk/COLT/index.html

56 URL: http://www.colam.org/om_prosj-espannol.html. Emprendido en la misma Universidad de Bergen, con el objetivo de dar cuenta del habla de los jvenes (entre 13 y 19 aos) de Madrid y de otras capitales latinoamericanas. Su finalizacin est prevista en julio de 2010. El proyecto est en relacin con COLT y con UNO, tambin llevado a cabo en Bergen y centrado en el lenguaje juvenil en los pases nrdicos. URL: http://www.uib.no/uno/unoEng/

57 URL: http://www.uv.es/~valesco/ 58 URL: http://www.lllf.uam.es/ESP/Corlec.html. El proyecto, dirigido por F. Marcos Marn en el Laboratorio de Lingstica

Informtica de la Universidad Autnoma de Madrid, se realiz entre 1991 y 1992. 59 URL: http://www.linguas.net/Default.aspx?alias=www.linguas.net/portalpreseea


27

Los corpus orales orientados hacia la descripcin fontica de las lenguas suelen

consistir en inventarios de sistemas fonticos y fonolgicos de las lenguas del mundo a

modo de bases de datos de sonidos; o en grabaciones realizadas en condiciones ptimas de

segmentos aislados, frases aisladas o textos ledos. En general, se disean con mucho

cuidado para recoger el fenmeno objeto de estudio y tienen un tamao reducido, al no

utilizar un nmero elevado de hablantes. Tambin pueden incluir habla espontnea e,

incluso, grabaciones de medios de comunicacin. En ocasiones, recogen materiales

equivalentes en diferentes lenguas para estudios contrastivos y de interferencia fontica en

la adquisicin de lenguas.

Los corpus orales que se compilan para el desarrollo de sistemas en el mbito de las

tecnologas del habla (vid. Llisterri et al. 2005) consisten en inventarios de unidades de

sntesis para convertir texto a habla (sntesis del habla): cada grafa se relaciona con una

unidad de sntesis y posteriormente se unen para producir la onda sonora; en grabaciones

con unidades fonticas o con elementos especficos, como nmeros de telfono o de tarjetas

de crdito para los sistemas de reconocimiento del habla; en transcripciones (fonticas y

ortogrficas) de grabaciones de lengua oral con informacin lingstica aadida que se

utilizan para elaborar modelos estadsticos del lenguaje; o en grabaciones y transcripciones

de dilogos naturales entre personas o entre personas y simulaciones de sistemas

informticos que se emplean para desarrollar servicios automticos a travs del telfono

(venta de entradas, consulta de horarios de transportes pblicos, servicios bancarios, etc.).

Ejemplos de corpus orales son Albayzn (vid. Casacuberta et al. 1992), gran base de datos

oral desarrollada en Espaa, entre 1992 y 1998, por un consorcio de grupos de investigacin

en tecnologa del habla coordinado por la Universidad Politcnica de Catalua. Adems de

los objetivos relacionados directamente con la sntesis y el reconocimiento del habla,

tambin se recopil con vistas al desarrollo de estudios fonticos sobre la variabilidad inter-

e intra- locutor, la variabilidad contextual y la variabilidad condicionada por las condiciones

ambientales. Tambin destaca el proyecto EUROM (vid. Chan et al. 1995), base de datos oral

multilinge, en la que las grabaciones se llevaron a cabo bajo las mismas condiciones, con el

mismo nmero de sujetos y un corpus equivalente para once lenguas de nuestro entorno. En

el caso del proyecto SpeechDat60, el objetivo era el desarrollo de teleservicios (servicios de

informacin, de transacciones, correo hablado, centralitas), sistemas de ayuda a la

conduccin mediante el habla, recursos para el entrenamiento de sistemas de

reconocimiento del habla, etc. Un ltimo ejemplo es Gaud (cf. Battaner et al. 2005), corpus

para la identificacin y verificacin de hablantes, desarrollado entre la Escuela Universitaria

de Ingenieros de Telecomunicaciones de la Universidad Politcnica de Madrid y el Servicio

de Polica Judicial de la Direccin General de la Guardia Civil.

60 URL: http://www.speechdat.org/


28

Los corpus mixtos combinan ambas modalidades de lengua, aunque siempre favoreciendo la lengua

escrita, ya que su obtencin es menos costosa que la de la lengua oral que, adems, requiere un

proceso posterior de transcripcin de las grabaciones. El Corpus de Referencia del Espaol Actual

(CREA)61 o el British National Corpus (BNC)62 pertenecen a este tipo de corpus: el 90% de sus textos

son escritos y el 10% restante, orales.

2) Segn el nmero de lenguas, los corpus se clasifican fundamentalmente en monolinges y bilinges o

multilinges.

Los corpus monolinges estn compuestos por textos en una sola lengua. Se recopilan con el objetivo de

dar cuenta de dicha lengua o variedad lingstica (o de un subconjunto de la misma). Es el caso del

CREA (para el espaol), del CORGA63 (para el gallego), etc.

Los corpus bilinges o multilinges estn formados por textos de dos (bilinges) o ms lenguas

(multilinges) sin que, en principio, sean traducciones unos de otros y sin compartir criterios de

seleccin. No obstante, este tipo de corpus son raros; son ms habituales los corpus de dos o ms

lenguas que contienen textos elegidos segn unos mismos criterios o que son traducciones mutuas:

o Corpus comparables (paired texts): consisten en un conjunto de textos en ms de una lengua o variedad lingstica, parecidos en cuanto a sus caractersticas y que comparten criterios de

seleccin. Se utilizan sobre todo para comparar variedades de la lengua en estudios

contrastivos. El ejemplo ms destacado es el International Corpus of English (ICE)64, un corpus

en el que desde 1990 se estn recopilando materiales escritos y orales posteriores a 1989

pertenecientes a diferentes variedades del ingls a lo largo del mundo. En la actualidad estn

en marcha veinte proyectos en otros tantos pases, desde Australia hasta Estados Unidos,

pasando por Jamaica, Nueva Zelanda o Pakistn: ICE-GB (ingls de Gran Bretaa), ICE-NZ

(ingls de Nueva Zelanda), ICE-IRE (ingls de Irlanda), ICE-PHI (ingls de Filipinas), etc.

Cada corpus, de un milln de palabras, consta de quinientas muestras (orales y escritas) de

dos mil palabras cada una. Todos siguen el mismo esquema de diseo y de anotacin. Otro

ejemplo de corpus de este tipo es C-Oral-Rom65, un corpus multilinge de habla espontnea

de cuatro lenguas romances (italiano, francs, portugus y espaol).

o Corpus paralelos (bi-texts): recogen textos en ms de una lengua (bilinges o multilinges) pero, a diferencia de los anteriores, se trata del mismo texto y sus traducciones o

equivalentes en una o ms lenguas. El ms sencillo consta del original y su traduccin. Son

especialmente tiles para los estudios de traduccin, para el desarrollo de sistemas de

traduccin automtica y en entornos bilinges o multilinges, como la ONU, la OTAN, la

UE o el parlamento de Canad, en los que los documentos deben publicarse

61 URL: http://www.rae.es/ 62 URL: http://www.natcorp.ox.ac.uk/ 63 URL: http://corpus.cirp.es/corga/ 64 URL: http://ice-corpora.net/ice/ 65 URL: http://lablita.dit.unifi.it/coralrom/


29

obligatoriamente en todas las lenguas oficiales. Desde un punto de vista metodolgico, son

discutidos por algunos autores, ya que se pueden producir interferencias entre las lenguas

objeto de traduccin. Se remontan a la Edad Media, cuando se hacan biblias polglotas,

que contenan textos uno al lado de otro en hebreo, latn y griego, y a veces tambin

versiones vernculas. Un ejemplo muy conocido es el Hansard Corpus66, con textos en ingls y

en francs (en su variedad canadiense) procedentes de las actas de las sesiones del

parlamento canadiense. Otro ejemplo de corpus paralelo es el Corpus Lingstico da

Universidade de Vigo (CLUVI)67, de unos veintitrs millones de palabras, elaborado en el

Seminario de Lingstica Informtica de la Universidad de Vigo bajo la direccin de Xavier

Gmez Guinovart.

Corpus alineados: son corpus paralelos en los que, para facilitar su explotacin, los

textos estn dispuestos unos al lado de otros por prrafos o frases, de tal forma que

sea ms fcil extraer las equivalencias de traduccin: aquellos elementos que son

traducciones mutuas. Aunque no siempre es un proceso simple, el alineamiento de

oraciones y palabras se puede conseguir automtica o semiautomticamente con

un alto grado de exactitud. Se utilizan, sobre todo, como entrenamiento para

sistemas de traduccin automtica basados en estadsticas o en la docencia sobre

traduccin. El CLUVI tambin ilustra perfectamente este tipo de corpus.

3) Segn la cantidad, la proporcin y la distribucin de los tipos de textos, se habla de:

Corpus grandes: no tienen un lmite de palabras o este es muy elevado en comparacin con otros tipos

de corpus; no suelen atender a cuestiones de equilibrio o de representatividad. Cada vez es mayor la

tendencia al aumento de volumen gracias a los medios y facilidades tcnicas disponibles; no obstante,

en la actualidad existen corpus de gran tamao diseados con criterios que garantizan la

representatividad de los datos.

Corpus equilibrados: recogen la misma proporcin de diferentes tipos de textos.

Corpus piramidales: contienen textos distribuidos en estratos o niveles, de tal forma que un nivel

consta de pocas variedades temticas pero con muchos textos para cada una; un segundo nivel, de

textos ms variados temticamente, pero con menos cantidad de cada uno; etc.

66 URL: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC95T20 67 URL: http://sli.uvigo.es/CLUVI/. Compuesto a su vez por diferentes subcorpus:

Corpus literario TEC TRA ingls-galego (1.476.020 palabras) Corpus literario FEGA francs-galego (1.648.272 palabras) Corpus xurdico LEGA galego-espaol (6.582.415 palabras) Corpus UNESCO ingls-galego-francs-espaol de divulgacin cientfica (3.724.620 palabras) Corpus LOGALIZA de localizacin de software ingls-galego (3.526.850 palabras) Corpus CONSUMER espaol-galego-cataln-euskara de informacin sobre consumo (5.586.431 palabras)


30

Corpus lxicos (sample corpus): recogen fragmentos de textos muy pequeos y de longitud constante

en cada documento. Era lo habitual en los primeros corpus, debido a las limitaciones de tamao que

los medios tcnicos de la poca imponan. Hoy en da han vuelto a cobrar importancia debido a lo

cuidado de su diseo68.

4) Segn los lmites establecidos, los corpus se clasifican en corpus cerrados y corpus abiertos o monitor.

Los corpus cerrados constan de un nmero finito de palabras, que se establece de forma previa a la

recopilacin del corpus. Una vez alcanzado ese nmero, el corpus se da por finalizado, sin aadir ms

material posteriormente. Es lo que ocurri, por ejemplo, con el corpus Brown69. Este tipo de corpus

son tiles cuando interesa estudiar fenmenos estticos o estados de lengua.

Los corpus abiertos o corpus monitor, por el contrario, son corpus dinmicos, que se mantienen en

constante crecimiento, normalmente mediante la introduccin peridica de nuevas cantidades de

textos segn unas proporciones previamente definidas. Cuando la capacidad de almacenamiento no

lo permita, se iban retirando los textos ms antiguos a medida que se introducan los nuevos. Son un

material excelente para los estudios diacrnicos, para observar tendencias de uso, cambios de

significado, frecuencias de distribucin, etc. No obstante, no estn exentos de crticas frente al

modelo predominante de corpus, basado en una concepcin esttica (tamao finito) y ms

preocupado por ser equilibrado en cuanto a sus muestras. En cambio, el modelo del corpus monitor

suele centrarse en alcanzar un tamao considerable y prefiere incluir textos enteros en vez de

simples muestras. Es el caso del Bank of English70.

5) Segn la especificidad de los textos, los corpus pueden ser generales o especializados; tambin

genricos y cannicos.

Los corpus generales o de referencia pretenden reflejar la lengua o variedad lingstica de la forma ms

equilibrada posible; cuantos ms tipos de textos, modalidades (textos orales, textos escritos),

gneros y materias, mejor. Por este motivo tambin tienen que ser lo suficientemente amplios como

para reflejar todas las variedades relevantes de una lengua y su vocabulario, de forma que se puedan

tomar como base para la elaboracin de gramticas, diccionarios, tesauros, etc. El CREA sera un

ejemplo de corpus de este tipo.

Los corpus especializados recogen textos que puedan aportar datos para la descripcin de un tipo

particular de lengua (sublenguaje). P. ej. el Corpus Tcnico do Galego (CTG)71 del Seminario de

Lingstica Informtica de la Universidad de Vigo, que contiene textos jurdico-administrativos, de

informtica y telecomunicaciones, de ecologa y ciencias ambientales, de economa, de sociologa y de

68 Se oponen a corpus formados por textos enteros. 69 URL: http://icame.uib.no/brown/bcm.html 70 URL: http://www.titania.bham.ac.uk/docs/about.htm 71 URL: http://sli.uvigo.es/CTG/


31

medicina. O el Corpus textual especializado plurilinge72, proyecto desarrollado por el Instituto

Universitario de Lingstica Aplicada de la Universidad Pompeu Fabra, que consta de textos en

cataln, castellano, ingls, francs y alemn sobre economa, derecho, medio ambiente, medicina e

informtica, con la meta de estudiar cmo funciona la lengua en cada una de esas reas y extraer

informacin til para detectar neologismos, elaborar diccionarios y tesauros, estudiar la variacin

lingstica, etc.

Los corpus genricos recogen textos pertenecientes a un nico gnero, ya que el objetivo es caracterizar

ese gnero frente a otros. Por ejemplo, el York-Helsinki Parsed Corpus of Old English Poetry73, que contiene

solo poesa.

Corpus cannicos: estn formados por todos los textos que configuran la obra completa de un autor.

6) Segn el periodo temporal que abarcan los textos, las principales tipologas de corpus que

encontramos son:

Los corpus peridicos o cronolgicos recogen textos de unos aos determinados o de unas pocas

concretas con el objeto de estudiar la lengua producida durante ese perodo, como en los casos de los

corpus Brown o LOB, que recogen textos publicados exclusivamente en 1961 en Estados Unidos y el

Reino Unido respectivamente.

Los corpus diacrnicos o histricos incluyen textos de diferentes etapas temporales sucesivas con el fin

de poder observar evoluciones de la lengua en un perodo largo, lo que los diferencia de los corpus

monitor, que no abarcan perodos temporales tan amplios. Para el espaol, por ejemplo, adems del

CORDE, destaca el Corpus del espaol74, un corpus de cien millones de palabras recopilado por Mark

Davis en la Universidad de Brigham Young, y que contiene textos en espaol desde el siglo XIII hasta el

XX.

Corpus sincrnicos: su finalidad es permitir el estudio de una o ms variedades lingsticas en el

momento presente, sin prestar atencin a su evolucin excepto en lo que se refiere a los cambios

rpidos que ocurren en la actualidad. Es el caso del Corpus of Contemporary American English, de ms de

trescientos ochenta y cinco millones de palabras procedentes de textos de diferentes fuentes de los

aos 1990 a 200875.

7) Segn el proceso al que se someta el corpus, se distingue entre:

Corpus simples, en bruto, no anotados o no codificados: consisten en textos guardados sin formato

alguno y sin aadir ningn tipo de informacin adicional, como pueden ser cdigos o anotaciones.

Un corpus as ofrece unas posibilidades muy limitadas para los estudios lingsticos.

72 URL: http://www.iula.upf.edu/corpus/corpuses.htm 73 URL: http://www-users.york.ac.uk/~lang18/pcorpus.html 74 URL: http://www.corpusdelespanol.org/ 75 Compilado por Mark Davies en la Brigham Young University. URL: http://www.americancorpus.org/


32

Corpus verticales: son el resultado de disponer en forma de columna las palabras de un texto ordenadas

segn criterios alfabticos o de frecuencia. Las palabras se consideran aisladamente, sin contexto.

Ilustracin 5. Lista de frecuencias. 10 formas ms frecuentes en el CREA.

Corpus codificados o anotados: estn formados por textos a los que se les han aadido, de forma manual o

automtica, determinadas informaciones. Estas pueden referirse a datos bibliogrficos o a la

estructura de los textos: etiquetas especiales para indicar el autor, el ttulo, los captulos, los

prrafos, etc. (codificacin); o, lo que es ms interesante, a aspectos puramente lingsticos, como la

categora gramatical, la estructura sintctica, etc. (anotacin). La explicitacin de estos datos

enriquece los corpus y aumenta considerablemente las posibilidades de explotacin que ofrecen.

o Corpus analizados morfolgicamente (tagged): los textos del corpus han sido anotados con informacin morfolgica. Cada palabra del corpus tiene asociada una lista de sus posibles

categoras morfosintcticas. Es posible incluir ms o menos detalles en este apartado

(nombre, verbo; nombre comn, nombre propio, verbo principal, verbo auxiliar, etc.). La

mayora de corpus hoy en da cuenta con este tipo de anotacin, que se inserta mediante un

sistema de cdigos al lado de cada palabra.

Ilustracin 6. Muestra de texto etiquetado del Corpus of Spoken, Professional American-English76.

76 URL: http://www.athel.com/cpsa.html. El texto anotado se corresponde con el siguiente texto sin anotar:

Before we begin this morning formally with our agenda, Id like to take just one minute to we lcome you all and say that this is wonderful that youre all here.


33

o Corpus parentizados: son aquellos que se han sometido a un proceso de anlisis sintctico superficial, marcado entre parntesis o corchetes. Normalmente se identifican los

constituyentes principales: por ejemplo SN (sintagma nominal), SV (sintagma verbal), etc.

Un ejemplo es el Lancaster Parsed Corpus (LPC)77, que representa un subconjunto del LOB de

unas ciento cuarenta mil palabras que han sido analizadas sintcticamente.

o Corpus analizados (treebanks): los textos que los conforman estn procesados sintcticamente de manera completa. Cada oracin del corpus ha sido analizada de forma

exhaustiva: p. ej. SN sujeto animado. Cada vez son ms habituales este tipo de corpus.

Destaca la Base de Datos Sintcticos del Espaol Actual (BDS)78 o, ms recientemente, los corpus

CESS-ECE79 para el espaol, el cataln y el euskera, y AnCora80, para el espaol y el cataln.

77 URL: http://khnt.hit.uib.no/icame/manuals/LPC/LPC.PDF 78 URL: http://www.bds.usc.es/ 79 URL: http://clic.ub.edu/cessece/index.php 80 URL: http://clic.ub.edu/ancora/index.php

Corpus4.pdf

Documents

Transcript of Corpus4.pdf