Corpus4.pdf
-
Upload
m-lorena-perez -
Category
Documents
-
view
20 -
download
0
Transcript of Corpus4.pdf
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
25
4. TIPOS DE CORPUS
Establecidos la metodologa y el concepto de corpus, en este apartado pasamos a comentar algunos de los
principales tipos de corpus, ya que no todos son iguales. Autores como J. Sinclair (1996) o J. Torruella y J.
Llisterri (1999) han propuesto clasificaciones de los distintos tipos de corpus en funcin de una serie de
criterios, aunque en la prctica no siempre est clara ni se hace explcita la tipologa de un corpus.
En general, los principales parmetros para clasificar los corpus se centran en:
La modalidad de la lengua
El nmero de lenguas a que pertenecen los textos
El tamao o cantidad de textos que conforman el corpus
Los lmites del corpus
La variedad lingstica o el grado de especializacin de los textos
El perodo temporal que abarcan los textos
El tratamiento aplicado al corpus
Con frecuencia, estos criterios vienen determinados por la finalidad u objetivo que se persigue con el
corpus: el estudio de la obra de un autor (Cervantes) o de la produccin literaria de una poca
determinada (el Barroco), la descripcin de una lengua en general (el espaol contemporneo) o de una
variedad, sublenguaje o aspecto lingstico concreto (p. ej. la norma culta en Mxico, el lenguaje de los
partes meteorolgicos, el lxico jurdico, etc.), la obtencin de un determinado producto comercial (un
diccionario, una aplicacin telefnica relacionada con las tecnologas del habla, etc.).
Teniendo en cuenta los criterios y consideraciones anteriores, se puede establecer la siguiente
tipologa:
1) Segn la modalidad de la lengua, se distinguen tres tipos de corpus:
-corpus escritos
-corpus orales
-corpus mixtos.
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
26
Los corpus textuales o escritos estn conformados exclusivamente por muestras de lengua escrita. Es el
caso, por ejemplo del Corpus Textual Informatitzat de la Llengua Catalana (CTILC)54.
Los corpus orales, por su parte, nicamente recogen muestras de lengua hablada, que pueden ser:
o Transcripciones ortogrficas de grabaciones (corpus de lengua oral), utilizadas sobre todo en lingstica de corpus para obtener una representacin simblica de una muestra natural de
habla. Ocasionalmente se aade informacin prosdica, pero no se accede a la seal sonora
ms que para transcribir los textos. El objetivo no es tanto el anlisis de las caractersticas
de tipo fontico, sino contar con una transcripcin ortogrfica de la lengua hablada. Esta
transcripcin constituye el punto de partida para el tratamiento posterior del corpus
(aadir marcas sobre categoras gramaticales, extraer ndices de frecuencia, etc.) y para
efectuar diferentes anlisis lingsticos: sociolingsticos, discursivos, etc. Tratan de reflejar,
sobre todo, la variacin con textos representativos de los distintos usos de la lengua
hablada, por lo que las grabaciones se realizan en entornos naturales y se favorecen las
muestras espontneas, no planificadas, aunque no son las nicas recogidas (dilogos,
conversaciones, discursos, grabaciones procedentes de medios de comunicacin, etc.). The
Bergen Corpus of London Teenage Language (COLT)55 es un corpus de medio milln de palabras
conformado por las transcripciones ortogrficas de conversaciones espontneas. Su objetivo
fundamental es dar cuenta de una variedad de lengua, la de los adolescentes de Londres y,
por tanto, servir como punto de referencia para estudios de ndole lingstica (marcadores
pragmticos y discursivos, vocabulario tpico, estudios sociolingsticos, etc.). Para el
espaol, podemos mencionar un proyecto de caractersticas similares, el Corpus Oral de
Lenguaje Adolescente (COLA)56, el Corpus de Conversacin Coloquial del Grupo Val.Es.Co57 o el
Corpus Oral de Referencia de la Lengua Espaola Contempornea (CORLEC)58. Tambin hay que
destacar el proyecto PRESEEA59 para la creacin de un corpus representativo de las
variedades geogrficas y sociales del espaol.
o Grabaciones (corpus orales), empleadas en fontica y tecnologas del habla, que conforman el punto de partida de los anlisis extrados del corpus. Estos corpus suelen realizarse en
entornos controlados y estar formados por enunciados o palabras, pero no habla
espontnea. La transcripcin de los textos es fontica y ortogrfica, alineada con la seal
sonora.
54 URL: http://ctilc.iec.cat/ 55 El corpus, compilado en 1993 en la Universidad de Bergen, Noruega, pretende dar cuenta de la variedad de lengua oral inglesa
empleada por adolescentes (entre 13 y 17 aos) de Londres. En la actualidad es un componente del British National Corpus (BNC). URL: http://www.hf.uib.no/i/Engelsk/COLT/index.html
56 URL: http://www.colam.org/om_prosj-espannol.html. Emprendido en la misma Universidad de Bergen, con el objetivo de dar cuenta del habla de los jvenes (entre 13 y 19 aos) de Madrid y de otras capitales latinoamericanas. Su finalizacin est prevista en julio de 2010. El proyecto est en relacin con COLT y con UNO, tambin llevado a cabo en Bergen y centrado en el lenguaje juvenil en los pases nrdicos. URL: http://www.uib.no/uno/unoEng/
57 URL: http://www.uv.es/~valesco/ 58 URL: http://www.lllf.uam.es/ESP/Corlec.html. El proyecto, dirigido por F. Marcos Marn en el Laboratorio de Lingstica
Informtica de la Universidad Autnoma de Madrid, se realiz entre 1991 y 1992. 59 URL: http://www.linguas.net/Default.aspx?alias=www.linguas.net/portalpreseea
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
27
Los corpus orales orientados hacia la descripcin fontica de las lenguas suelen
consistir en inventarios de sistemas fonticos y fonolgicos de las lenguas del mundo a
modo de bases de datos de sonidos; o en grabaciones realizadas en condiciones ptimas de
segmentos aislados, frases aisladas o textos ledos. En general, se disean con mucho
cuidado para recoger el fenmeno objeto de estudio y tienen un tamao reducido, al no
utilizar un nmero elevado de hablantes. Tambin pueden incluir habla espontnea e,
incluso, grabaciones de medios de comunicacin. En ocasiones, recogen materiales
equivalentes en diferentes lenguas para estudios contrastivos y de interferencia fontica en
la adquisicin de lenguas.
Los corpus orales que se compilan para el desarrollo de sistemas en el mbito de las
tecnologas del habla (vid. Llisterri et al. 2005) consisten en inventarios de unidades de
sntesis para convertir texto a habla (sntesis del habla): cada grafa se relaciona con una
unidad de sntesis y posteriormente se unen para producir la onda sonora; en grabaciones
con unidades fonticas o con elementos especficos, como nmeros de telfono o de tarjetas
de crdito para los sistemas de reconocimiento del habla; en transcripciones (fonticas y
ortogrficas) de grabaciones de lengua oral con informacin lingstica aadida que se
utilizan para elaborar modelos estadsticos del lenguaje; o en grabaciones y transcripciones
de dilogos naturales entre personas o entre personas y simulaciones de sistemas
informticos que se emplean para desarrollar servicios automticos a travs del telfono
(venta de entradas, consulta de horarios de transportes pblicos, servicios bancarios, etc.).
Ejemplos de corpus orales son Albayzn (vid. Casacuberta et al. 1992), gran base de datos
oral desarrollada en Espaa, entre 1992 y 1998, por un consorcio de grupos de investigacin
en tecnologa del habla coordinado por la Universidad Politcnica de Catalua. Adems de
los objetivos relacionados directamente con la sntesis y el reconocimiento del habla,
tambin se recopil con vistas al desarrollo de estudios fonticos sobre la variabilidad inter-
e intra- locutor, la variabilidad contextual y la variabilidad condicionada por las condiciones
ambientales. Tambin destaca el proyecto EUROM (vid. Chan et al. 1995), base de datos oral
multilinge, en la que las grabaciones se llevaron a cabo bajo las mismas condiciones, con el
mismo nmero de sujetos y un corpus equivalente para once lenguas de nuestro entorno. En
el caso del proyecto SpeechDat60, el objetivo era el desarrollo de teleservicios (servicios de
informacin, de transacciones, correo hablado, centralitas), sistemas de ayuda a la
conduccin mediante el habla, recursos para el entrenamiento de sistemas de
reconocimiento del habla, etc. Un ltimo ejemplo es Gaud (cf. Battaner et al. 2005), corpus
para la identificacin y verificacin de hablantes, desarrollado entre la Escuela Universitaria
de Ingenieros de Telecomunicaciones de la Universidad Politcnica de Madrid y el Servicio
de Polica Judicial de la Direccin General de la Guardia Civil.
60 URL: http://www.speechdat.org/
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
28
Los corpus mixtos combinan ambas modalidades de lengua, aunque siempre favoreciendo la lengua
escrita, ya que su obtencin es menos costosa que la de la lengua oral que, adems, requiere un
proceso posterior de transcripcin de las grabaciones. El Corpus de Referencia del Espaol Actual
(CREA)61 o el British National Corpus (BNC)62 pertenecen a este tipo de corpus: el 90% de sus textos
son escritos y el 10% restante, orales.
2) Segn el nmero de lenguas, los corpus se clasifican fundamentalmente en monolinges y bilinges o
multilinges.
Los corpus monolinges estn compuestos por textos en una sola lengua. Se recopilan con el objetivo de
dar cuenta de dicha lengua o variedad lingstica (o de un subconjunto de la misma). Es el caso del
CREA (para el espaol), del CORGA63 (para el gallego), etc.
Los corpus bilinges o multilinges estn formados por textos de dos (bilinges) o ms lenguas
(multilinges) sin que, en principio, sean traducciones unos de otros y sin compartir criterios de
seleccin. No obstante, este tipo de corpus son raros; son ms habituales los corpus de dos o ms
lenguas que contienen textos elegidos segn unos mismos criterios o que son traducciones mutuas:
o Corpus comparables (paired texts): consisten en un conjunto de textos en ms de una lengua o variedad lingstica, parecidos en cuanto a sus caractersticas y que comparten criterios de
seleccin. Se utilizan sobre todo para comparar variedades de la lengua en estudios
contrastivos. El ejemplo ms destacado es el International Corpus of English (ICE)64, un corpus
en el que desde 1990 se estn recopilando materiales escritos y orales posteriores a 1989
pertenecientes a diferentes variedades del ingls a lo largo del mundo. En la actualidad estn
en marcha veinte proyectos en otros tantos pases, desde Australia hasta Estados Unidos,
pasando por Jamaica, Nueva Zelanda o Pakistn: ICE-GB (ingls de Gran Bretaa), ICE-NZ
(ingls de Nueva Zelanda), ICE-IRE (ingls de Irlanda), ICE-PHI (ingls de Filipinas), etc.
Cada corpus, de un milln de palabras, consta de quinientas muestras (orales y escritas) de
dos mil palabras cada una. Todos siguen el mismo esquema de diseo y de anotacin. Otro
ejemplo de corpus de este tipo es C-Oral-Rom65, un corpus multilinge de habla espontnea
de cuatro lenguas romances (italiano, francs, portugus y espaol).
o Corpus paralelos (bi-texts): recogen textos en ms de una lengua (bilinges o multilinges) pero, a diferencia de los anteriores, se trata del mismo texto y sus traducciones o
equivalentes en una o ms lenguas. El ms sencillo consta del original y su traduccin. Son
especialmente tiles para los estudios de traduccin, para el desarrollo de sistemas de
traduccin automtica y en entornos bilinges o multilinges, como la ONU, la OTAN, la
UE o el parlamento de Canad, en los que los documentos deben publicarse
61 URL: http://www.rae.es/ 62 URL: http://www.natcorp.ox.ac.uk/ 63 URL: http://corpus.cirp.es/corga/ 64 URL: http://ice-corpora.net/ice/ 65 URL: http://lablita.dit.unifi.it/coralrom/
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
29
obligatoriamente en todas las lenguas oficiales. Desde un punto de vista metodolgico, son
discutidos por algunos autores, ya que se pueden producir interferencias entre las lenguas
objeto de traduccin. Se remontan a la Edad Media, cuando se hacan biblias polglotas,
que contenan textos uno al lado de otro en hebreo, latn y griego, y a veces tambin
versiones vernculas. Un ejemplo muy conocido es el Hansard Corpus66, con textos en ingls y
en francs (en su variedad canadiense) procedentes de las actas de las sesiones del
parlamento canadiense. Otro ejemplo de corpus paralelo es el Corpus Lingstico da
Universidade de Vigo (CLUVI)67, de unos veintitrs millones de palabras, elaborado en el
Seminario de Lingstica Informtica de la Universidad de Vigo bajo la direccin de Xavier
Gmez Guinovart.
Corpus alineados: son corpus paralelos en los que, para facilitar su explotacin, los
textos estn dispuestos unos al lado de otros por prrafos o frases, de tal forma que
sea ms fcil extraer las equivalencias de traduccin: aquellos elementos que son
traducciones mutuas. Aunque no siempre es un proceso simple, el alineamiento de
oraciones y palabras se puede conseguir automtica o semiautomticamente con
un alto grado de exactitud. Se utilizan, sobre todo, como entrenamiento para
sistemas de traduccin automtica basados en estadsticas o en la docencia sobre
traduccin. El CLUVI tambin ilustra perfectamente este tipo de corpus.
3) Segn la cantidad, la proporcin y la distribucin de los tipos de textos, se habla de:
Corpus grandes: no tienen un lmite de palabras o este es muy elevado en comparacin con otros tipos
de corpus; no suelen atender a cuestiones de equilibrio o de representatividad. Cada vez es mayor la
tendencia al aumento de volumen gracias a los medios y facilidades tcnicas disponibles; no obstante,
en la actualidad existen corpus de gran tamao diseados con criterios que garantizan la
representatividad de los datos.
Corpus equilibrados: recogen la misma proporcin de diferentes tipos de textos.
Corpus piramidales: contienen textos distribuidos en estratos o niveles, de tal forma que un nivel
consta de pocas variedades temticas pero con muchos textos para cada una; un segundo nivel, de
textos ms variados temticamente, pero con menos cantidad de cada uno; etc.
66 URL: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC95T20 67 URL: http://sli.uvigo.es/CLUVI/. Compuesto a su vez por diferentes subcorpus:
Corpus literario TEC TRA ingls-galego (1.476.020 palabras) Corpus literario FEGA francs-galego (1.648.272 palabras) Corpus xurdico LEGA galego-espaol (6.582.415 palabras) Corpus UNESCO ingls-galego-francs-espaol de divulgacin cientfica (3.724.620 palabras) Corpus LOGALIZA de localizacin de software ingls-galego (3.526.850 palabras) Corpus CONSUMER espaol-galego-cataln-euskara de informacin sobre consumo (5.586.431 palabras)
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
30
Corpus lxicos (sample corpus): recogen fragmentos de textos muy pequeos y de longitud constante
en cada documento. Era lo habitual en los primeros corpus, debido a las limitaciones de tamao que
los medios tcnicos de la poca imponan. Hoy en da han vuelto a cobrar importancia debido a lo
cuidado de su diseo68.
4) Segn los lmites establecidos, los corpus se clasifican en corpus cerrados y corpus abiertos o monitor.
Los corpus cerrados constan de un nmero finito de palabras, que se establece de forma previa a la
recopilacin del corpus. Una vez alcanzado ese nmero, el corpus se da por finalizado, sin aadir ms
material posteriormente. Es lo que ocurri, por ejemplo, con el corpus Brown69. Este tipo de corpus
son tiles cuando interesa estudiar fenmenos estticos o estados de lengua.
Los corpus abiertos o corpus monitor, por el contrario, son corpus dinmicos, que se mantienen en
constante crecimiento, normalmente mediante la introduccin peridica de nuevas cantidades de
textos segn unas proporciones previamente definidas. Cuando la capacidad de almacenamiento no
lo permita, se iban retirando los textos ms antiguos a medida que se introducan los nuevos. Son un
material excelente para los estudios diacrnicos, para observar tendencias de uso, cambios de
significado, frecuencias de distribucin, etc. No obstante, no estn exentos de crticas frente al
modelo predominante de corpus, basado en una concepcin esttica (tamao finito) y ms
preocupado por ser equilibrado en cuanto a sus muestras. En cambio, el modelo del corpus monitor
suele centrarse en alcanzar un tamao considerable y prefiere incluir textos enteros en vez de
simples muestras. Es el caso del Bank of English70.
5) Segn la especificidad de los textos, los corpus pueden ser generales o especializados; tambin
genricos y cannicos.
Los corpus generales o de referencia pretenden reflejar la lengua o variedad lingstica de la forma ms
equilibrada posible; cuantos ms tipos de textos, modalidades (textos orales, textos escritos),
gneros y materias, mejor. Por este motivo tambin tienen que ser lo suficientemente amplios como
para reflejar todas las variedades relevantes de una lengua y su vocabulario, de forma que se puedan
tomar como base para la elaboracin de gramticas, diccionarios, tesauros, etc. El CREA sera un
ejemplo de corpus de este tipo.
Los corpus especializados recogen textos que puedan aportar datos para la descripcin de un tipo
particular de lengua (sublenguaje). P. ej. el Corpus Tcnico do Galego (CTG)71 del Seminario de
Lingstica Informtica de la Universidad de Vigo, que contiene textos jurdico-administrativos, de
informtica y telecomunicaciones, de ecologa y ciencias ambientales, de economa, de sociologa y de
68 Se oponen a corpus formados por textos enteros. 69 URL: http://icame.uib.no/brown/bcm.html 70 URL: http://www.titania.bham.ac.uk/docs/about.htm 71 URL: http://sli.uvigo.es/CTG/
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
31
medicina. O el Corpus textual especializado plurilinge72, proyecto desarrollado por el Instituto
Universitario de Lingstica Aplicada de la Universidad Pompeu Fabra, que consta de textos en
cataln, castellano, ingls, francs y alemn sobre economa, derecho, medio ambiente, medicina e
informtica, con la meta de estudiar cmo funciona la lengua en cada una de esas reas y extraer
informacin til para detectar neologismos, elaborar diccionarios y tesauros, estudiar la variacin
lingstica, etc.
Los corpus genricos recogen textos pertenecientes a un nico gnero, ya que el objetivo es caracterizar
ese gnero frente a otros. Por ejemplo, el York-Helsinki Parsed Corpus of Old English Poetry73, que contiene
solo poesa.
Corpus cannicos: estn formados por todos los textos que configuran la obra completa de un autor.
6) Segn el periodo temporal que abarcan los textos, las principales tipologas de corpus que
encontramos son:
Los corpus peridicos o cronolgicos recogen textos de unos aos determinados o de unas pocas
concretas con el objeto de estudiar la lengua producida durante ese perodo, como en los casos de los
corpus Brown o LOB, que recogen textos publicados exclusivamente en 1961 en Estados Unidos y el
Reino Unido respectivamente.
Los corpus diacrnicos o histricos incluyen textos de diferentes etapas temporales sucesivas con el fin
de poder observar evoluciones de la lengua en un perodo largo, lo que los diferencia de los corpus
monitor, que no abarcan perodos temporales tan amplios. Para el espaol, por ejemplo, adems del
CORDE, destaca el Corpus del espaol74, un corpus de cien millones de palabras recopilado por Mark
Davis en la Universidad de Brigham Young, y que contiene textos en espaol desde el siglo XIII hasta el
XX.
Corpus sincrnicos: su finalidad es permitir el estudio de una o ms variedades lingsticas en el
momento presente, sin prestar atencin a su evolucin excepto en lo que se refiere a los cambios
rpidos que ocurren en la actualidad. Es el caso del Corpus of Contemporary American English, de ms de
trescientos ochenta y cinco millones de palabras procedentes de textos de diferentes fuentes de los
aos 1990 a 200875.
7) Segn el proceso al que se someta el corpus, se distingue entre:
Corpus simples, en bruto, no anotados o no codificados: consisten en textos guardados sin formato
alguno y sin aadir ningn tipo de informacin adicional, como pueden ser cdigos o anotaciones.
Un corpus as ofrece unas posibilidades muy limitadas para los estudios lingsticos.
72 URL: http://www.iula.upf.edu/corpus/corpuses.htm 73 URL: http://www-users.york.ac.uk/~lang18/pcorpus.html 74 URL: http://www.corpusdelespanol.org/ 75 Compilado por Mark Davies en la Brigham Young University. URL: http://www.americancorpus.org/
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
32
Corpus verticales: son el resultado de disponer en forma de columna las palabras de un texto ordenadas
segn criterios alfabticos o de frecuencia. Las palabras se consideran aisladamente, sin contexto.
Ilustracin 5. Lista de frecuencias. 10 formas ms frecuentes en el CREA.
Corpus codificados o anotados: estn formados por textos a los que se les han aadido, de forma manual o
automtica, determinadas informaciones. Estas pueden referirse a datos bibliogrficos o a la
estructura de los textos: etiquetas especiales para indicar el autor, el ttulo, los captulos, los
prrafos, etc. (codificacin); o, lo que es ms interesante, a aspectos puramente lingsticos, como la
categora gramatical, la estructura sintctica, etc. (anotacin). La explicitacin de estos datos
enriquece los corpus y aumenta considerablemente las posibilidades de explotacin que ofrecen.
o Corpus analizados morfolgicamente (tagged): los textos del corpus han sido anotados con informacin morfolgica. Cada palabra del corpus tiene asociada una lista de sus posibles
categoras morfosintcticas. Es posible incluir ms o menos detalles en este apartado
(nombre, verbo; nombre comn, nombre propio, verbo principal, verbo auxiliar, etc.). La
mayora de corpus hoy en da cuenta con este tipo de anotacin, que se inserta mediante un
sistema de cdigos al lado de cada palabra.
Ilustracin 6. Muestra de texto etiquetado del Corpus of Spoken, Professional American-English76.
76 URL: http://www.athel.com/cpsa.html. El texto anotado se corresponde con el siguiente texto sin anotar:
Before we begin this morning formally with our agenda, Id like to take just one minute to we lcome you all and say that this is wonderful that youre all here.
-
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len ([email protected])
33
o Corpus parentizados: son aquellos que se han sometido a un proceso de anlisis sintctico superficial, marcado entre parntesis o corchetes. Normalmente se identifican los
constituyentes principales: por ejemplo SN (sintagma nominal), SV (sintagma verbal), etc.
Un ejemplo es el Lancaster Parsed Corpus (LPC)77, que representa un subconjunto del LOB de
unas ciento cuarenta mil palabras que han sido analizadas sintcticamente.
o Corpus analizados (treebanks): los textos que los conforman estn procesados sintcticamente de manera completa. Cada oracin del corpus ha sido analizada de forma
exhaustiva: p. ej. SN sujeto animado. Cada vez son ms habituales este tipo de corpus.
Destaca la Base de Datos Sintcticos del Espaol Actual (BDS)78 o, ms recientemente, los corpus
CESS-ECE79 para el espaol, el cataln y el euskera, y AnCora80, para el espaol y el cataln.
77 URL: http://khnt.hit.uib.no/icame/manuals/LPC/LPC.PDF 78 URL: http://www.bds.usc.es/ 79 URL: http://clic.ub.edu/cessece/index.php 80 URL: http://clic.ub.edu/ancora/index.php