Sintagmas Nominales Especializados en Inglés y Español
Sintagmas Nominales Especializados en Inglés y Español
Programa de doctorado:
Los sintagmas nominales extensos especializados en ingls y en espaol: Descripcin y clasificacin en un corpus de genoma
Gabriel ngel Quiroz Herrera
Tesis doctoral Para optar al ttulo de doctor por la Universitat Pompeu Fabra
Barcelona, 2008
Agradecimientos
Las tesis suelen ser un trabajo individual, pero que sin la ayuda de otros colegas e instituciones es difcil que llegue a buen puerto. Quiero agradecer muy especialmente a mi tutora Merc Lorente por aceptar el tema; al final hemos pasado de 14 a 7 tokens! Debo agradecer las largas tutoras, su punto de vista siempre tan crtico y las discusiones acadmicas en aspectos lingsticos que han nutrido esta tesis y tambin por darme su apoyo en momentos crticos. A Teresa Cabr por aceptarme en el IULA durante varios aos y hacerme partcipe de muchas actividades del Instituto. A Berta Nelly Cardona, por toda su colaboracin para venir a Barcelona y a Michael Scholand y Lidia Cmara de Star SL por permitirme estar en su empresa durante estos aos. A Jorge Vivaldi por ayudarme en la extraccin y preparacin de datos ad libitum. Sin su ayuda y paciencia la fase de datos no hubiera salido bien. A la Real Academia Espaola por permitirme acceder a los datos del CREA y al seor Fernando Snchez por facilitarme la consulta de los patrones en espaol. A Ricardo Guantiva, Pedro Patio y Diego Burgos por las revisiones y crticas hechas al manuscrito final; todos los gazapos son, por supuesto, mos. A mis profesores del Institut Universitari de Lingstica Aplicada-IULA, Teresa Cabr, M. Teresa Turell, Carm Bach, Llus De Yzaguirre, Rosa Estop y
Jaume Llopis por los aportes directos e indirectos dados a esta tesis y a los profesores de otros centros quienes han criticado versiones previas de este trabajo o me han aportado material bibliogrfico: Ulrike Oster, Enilde Faultisch, Ana Mara Cardero, Isabel Karely, Natividad Gallardo, Melva Mrquez, Elena Bogomilova, Cleci Bevilacqua y Hada Salazar. Finalmente, a mis colegas y amigos Carlos Muoz, John Jairo Giraldo, Carles Teb, Diego Burgos, Juan Manuel Prez, Pedro Patio, Ricardo Guantiva, Roxana Folguer, Araceli Alonso, Ana Corrales, Fernando Yuste, Beatriz Pineda, Anderson Franco y otros tantos que se encuentran al otro lado del Atlntico, con quienes he compartido largas conversaciones sobre mi tesis y otros temas, no menos interesantes.
Mnica, gracias por estar a mi lado durante estos aos y superar todas las vicisitudes que uno puede tener fuera de su pas, por el amor y el cario y los buenos momentos que hemos disfrutado en este pas. A mis hijos Miguelangel y Felipe, por adaptarse tan bien a las culturas catalana y espaola sin olvidar nuestras culturas, la antioquea y la colombiana. A mi padre Gabriel y mi madre Beatriz, y a mis hermanos Adriana, Walter, Edison y Vctor por el todo cario que nos han brindado en la lejana. Migue y Pipe, slo me faltaba por escribir esta pgina para terminar la tesis.
Abreviaturas
Adj.: adjetivo Adv.: adverbio Conj.: conjuncin D: determinante N: nombre, sustantivo PP: participio pasado PPi: participio presente Prep.: preposicin V: verbo SNEE: sintagma nominal extenso especializado SA: sintagma adjetival SN: sintagma nominal SP: sintagma preposicional UMLS: Unified Medical Language System UMLSKS: Unified Medical Language System Knowledge Source Server POS: Part of speech IULA: Institut Universitari de Lingstica Aplicada DRAE: Diccionario de Real Academia Espaola WN: WordNet EWN: EuroWordNet IMMRAD: Introduction, Materials and Methods, Results and Discussion ESP: espaol ENG: ingls SN: sintagma nominal SAdj.: sintagma adjetival SPrep.: sintagma preposicional IFCC: Diccionario ingls-espaol de Ciencias de Laboratorio Clnico de la Federacin Internacional de Qumica Clnica IMF: International Monetary Fund RD: Routledge Spanish Dictionary of Business, Commerce and Finance ISI: International Statistical Institute Multilingual Glossary of Statistical Terms
RAE: Real Academia Espaola CREA: Corpus de Referencia del Espaol Actual POS: Part of speech Porc.: porcentaje
ndice de contenidos
17 19 19 22 27 30 32 37 39 39 45 51 57 60 61 62 65 67 73 75 75 78 79 80 81 83 85
1.1 INTRODUCCIN 1.2 ANTECEDENTES DE LA TESIS 1.3 OBJETO DE ANLISIS 1.4 HIPTESIS Y SUPUESTOS DE PARTIDA 1.5 OBJETIVOS DE LA TESIS 1.6 ORGANIZACIN DE LA TESIS 2. LOS SNEE VISTOS DESDE DIFERENTES DISCIPLINAS DEL LENGUAJE 2.1 INTRODUCCIN 2.2 UN FENMENO, MUCHOS NOMBRES 2.3 GRAMTICA CLSICA 2.4 TERMINOLOGA 2.5 ESTUDIOS DE TRADUCCIN 2.6 TRADUCCIN AUTOMTICA 2.7 INGLS PARA PROPSITOS ESPECFICOS (ESP) 2.8 LINGSTICA COMPUTACIONAL E INGENIERA LINGSTICA 2.9 ESCRITURA TCNICA 2.10 COMPARACIN DE ALGUNOS ESTUDIOS 3. METODOLOGA GENERAL DE TRABAJO Y CONSTITUCIN DE CORPUS 3.1 INTRODUCCIN 3.1.1 Descripcin y seleccin de los corpus de referencia 3.1.2 Descripcin y seleccin del corpus en ingls 3.1.3 Descripcin y seleccin del corpus en espaol 3.1.4 Descripcin y seleccin del corpus paralelo ingls-espaol 3.1.5 Descripcin y seleccin del corpus lexicogrfico 3.2 HERRAMIENTAS Y RECURSOS 3.2.1 Herramientas de etiquetaje
[Link] Machinese Phrase Tagger online demo [Link] WordNet 2.1 [Link] EuroWordNet 1.6 para el espaol [Link] UMLS 2006 AB/AC 3.2.2 Diccionarios en CD-ROM 3.3 METODOLOGA DE ANLISIS GENERAL 3.4 PROBLEMAS DE ETIQUETAJE 3.5 EXTRACCIN DE LAS UNIDADES Y TRATAMIENTO DE LOS DATOS 3.6 ASPECTOS ESTADSTICOS 3.7 SELECCIN DE LAS MUESTRAS PARA LOS ANLISIS 4. ANLISIS FORMAL DE LOS PATRONES EN INGLS 4.1 INTRODUCCIN 4.2 CRITERIOS Y SELECCIN DEL CORPUS DE ANLISIS EN INGLS 4.3 RESULTADOS 4.3.1 Longitud y frecuencia de los SN en ingls 4.3.2 Categora lxica predominante en la premodificacin 4.3.3 Frecuencia de los patrones por aparicin 4.3.4 Frecuencia de los patrones por longitud 4.3.5 Relaciones de dependencia del corpus de anlisis en ingls 4.4 RESULTADOS DEL CORPUS LEXICOGRFICO DE CONTRASTE EN INGLS 4.4.1 Longitud y frecuencia de los SN en los diccionarios en ingls en ingls 4.4.3 Frecuencia de los patrones por aparicin en ingls 4.4.4 Frecuencia de los patrones por longitud en diccionarios en ingls 4.5 CONTRASTE DE RESULTADOS ENTRE EL CORPUS DE ANLISIS Y EL CORPUS
LEXICOGRFICO EN INGLS
85 86 89 93 102 102 104 108 113 115 119 121 126 127 127 129 131 139 142 149 151 152 154 158 163 163 164 168 170 172 175
4.5 1 Distribucin de acuerdo con la longitud 4.5.2 Categora lxica predominante y aspectos morfolgicos 4.5.3 Frecuencia de los patrones por aparicin 4.5.4 Frecuencia de los patrones por longitud 4.6 RECAPITULACIN 5. ANLISIS FORMAL DE LOS PATRONES EN ESPAOL
12
G. Quiroz
5.1 INTRODUCCIN 5.2 CRITERIOS Y SELECCIN DEL CORPUS DE ANLISIS EN ESPAOL 5.3 RESULTADOS 5.3.1 Longitud y frecuencia de los SN en espaol 5.3.2 Categora lxica predominante en la posmodificacin 5.3.3 Frecuencia de los patrones por aparicin 5.3.4 Frecuencia de los patrones por longitud 5.3.5 Relaciones de dependencia del corpus de anlisis en espaol 5.4 RESULTADOS DEL CORPUS LEXICOGRFICO DE CONTRASTE EN ESPAOL 5.4.1 Longitud y frecuencia de los SN en los diccionarios en espaol espaol 5.4.3 Frecuencia de los patrones por aparicin en espaol 5.4.4 Frecuencia de los patrones por longitud en los diccionarios en ingls 5.5 CONTRASTE DE RESULTADOS ENTRE EL CORPUS DE ANLISIS Y EL CORPUS
LEXICOGRFICO EN ESPAOL
177 179 181 181 182 184 192 196 204 205 206 208 212 225 225 226 233 235 235 238 241 243 244 245 246 246 250 253 256 258 261 265
5.5.1 Distribucin de acuerdo con la longitud 5.5.2 Categora lxica predominante y aspectos morfolgicos 5.5.3 Frecuencia de los patrones por aparicin 5.5.4 Frecuencia de los patrones por longitud
DE LA RAE
5.6 CONTRASTE DE LOS RESULTADOS CON LOS PATRONES ENCONTRADOS CON LOS DEL CREA 5.7 RECAPITULACIN 6. DESCRIPCIN Y ANLISIS SEMNTICO DE LOS PATRONES EN INGLS 6.1 INTRODUCCIN 6.2 CRITERIOS Y SELECCIN DEL CORPUS DE ANLISIS EN INGLS 6.3 METODOLOGA 6.4 RESULTADOS 6.4.1 Anlisis de las clases semnticas de los ncleos segn WordNet 2.1 6.4.2 Anlisis de las clases semnticas de la premodificacin segn WordNet 2.1 [Link] Clases semnticas de acuerdo con la posicin dentro de la premodificacin [Link] Clases semnticas de acuerdo con la categora lxica 6.4.3 Patrones semnticos obtenidos de WordNet 2.1 6.4.4 Patrones semnticos en la premodificacin segn WordNet 2.1 6.4.5 Anlisis de las clases semnticas de los ncleos segn UMLS
13
6.4.6 Anlisis de las clases semnticas de la premodificacin segn UMLS 6.4.7 Patrones semnticos obtenidos de UMLS 6.4.8 Patrones semnticos en la premodificacin segn UMLS 6.5 RECAPITULACIN 7. DESCRIPCIN Y ANLISIS SEMNTICO DE LOS PATRONES EN ESPAOL 7.1 INTRODUCCIN 7.2 CRITERIOS Y SELECCIN DEL CORPUS DE ANLISIS EN ESPAOL 7.3 METODOLOGA 7.4 RESULTADOS 7.4.1 Anlisis de las clases semnticas de los ncleos segn EuroWordNet 7.4.2 Anlisis de las clases semnticas de la modificacin segn EuroWordNet [Link] Clases semnticas de acuerdo con la posicin dentro de la modificacin [Link] Clases semnticas de acuerdo con la categora lxica 7.4.3 Patrones semnticos obtenidos de EuroWordNet 7.4.4 Patrones semnticos en la modificacin segn EuroWordNet 7.5 RECAPITULACIN 8. DESCRIPCIN Y ANLISIS DE LOS SINTAGMAS NOMINALES EN EL CORPUS
PARALELO
268 271 275 278 283 285 286 287 288 288 292 296 299 300 303 307
311 313 313 315 315 316 316 317 318 320 322 323 325 326 330
8.1. INTRODUCCIN 8.2. RECOLECCIN DEL CORPUS PARALELO Y EXTRACCIN DE LOS DATOS 8.3. RESULTADOS 8.3.1. Longitud y frecuencia de los sintagmas nominales [Link]. Distribucin de longitud entre sintagmas nominales [Link]. Distribucin segn el nmero de tokens 8.3.2. Categora lxica predominante en la premodificacin del corpus paralelo 8.3.3. Frecuencia de patrones en ingls 8.3.4. Frecuencia de patrones por longitud 8.3.5. Seleccin de la muestra 8.3.6. Clasificacin de soluciones de acuerdo con la dependencia sintctica 8.3.7. Resultados del corpus paralelo de acuerdo con el patrn en ingls 8.4. CORRELACIN ENTRE EL CORPUS PARALELO Y EL DICCIONARIO MOSBY
LA RAE
8.5. CORRELACIN ENTRE EL CORPUS PARALELO Y LOS CORPUS TCNIC DEL IULA Y CREA DE
14
G. Quiroz
8.6 ANLISIS DE LOS PATRONES EN INGLS Y LOS EQUIVALENTES EN ESPAOL 8.7. RECAPITULACIN 9. CONCLUSIONES: RESULTADOS Y LNEAS DE TRABAJO FUTURO 9.1 SNTESIS DE LOS RESULTADOS 9.2 VALIDACIN O FALSACIN DE HIPTESIS 9.3 APORTES DE LA TESIS 9.3.1 Aportes sobre la descripcin de los SNEE [Link]. Gramticas de la lengua general [Link]. Manuales de terminologa [Link] Aporte a la TCT 9.3.2 La aplicabilidad de la descripcin de los SNEE [Link] La base de datos [Link] Recomendaciones para la enseanza de la traduccin [Link] Recomendaciones para la enseanza de la terminologa [Link] Recomendaciones para la extraccin de la terminologa 9.4 LIMITACIONES DE LA TESIS Y LNEAS DE TRABAJO FUTURO BIBLIOGRAFA PROGRAMAS DE PROCESAMIENTO Y FUENTES DE CONSULTA ANEXO 1: LISTADO DE PATRONES DE EXTRACCIN EN INGLS ANEXO 2: LISTADO DE PATRONES DE EXTRACCIN EN ESPAOL ANEXO 3: LISTADO DE PATRONES DE FINALES EN INGLS ANEXO 4: LISTADO DE PATRONES DE FINALES EN ESPAOL
332 340 343 345 358 362 362 362 364 366 366 367 367 369 371 372 377 400 405 413 421 423
15
16
G. Quiroz
1. Los sintagmas nominales extensos especializados en ingls y en espaol: descripcin y clasificacin en un corpus de genoma
1. LOS SINTAGMAS NOMINALES EXTENSOS ESPECIALIZADOS EN INGLS Y EN
ESPAOL: DESCRIPCIN Y CLASIFICACIN EN UN CORPUS DE GENOMA
17 19 19 22 27 30 32
1.1 INTRODUCCIN 1.2 ANTECEDENTES DE LA TESIS 1.3 OBJETO DE ANLISIS 1.4 HIPTESIS Y SUPUESTOS DE PARTIDA 1.5 OBJETIVOS DE LA TESIS 1.6 ORGANIZACIN DE LA TESIS
17
18
G. Quiroz
1.1 Introduccin
En la presente tesis doctoral se describen y clasifican los sintagmas nominales extensos especializados (SNEE) de ms de tres tokens en ingls y en espaol en textos especializados del nivel experto-experto en el rea del genoma. En esta tesis se quiere corroborar los resultados preliminares obtenidos en trabajos anteriores para observar su comportamiento y as llegar a establecer unas regularidades, de modo que los profesionales de las lenguas inglesa y espaola puedan tener una herramienta que les permita solucionar adecuadamente los sintagmas nominales con premodificacin extensa. En resumen, los fenmenos que se analizarn en esta tesis pueden resumirse bsicamente en: a) el estudio de la premodificacin compleja de los sintagmas nominales en ingls; b) el estudio de la posmodificacin en espaol; c) el anlisis de la correlacin entre las estructuras y las categoras semnticas; d) las tendencias semnticas de estos sintagmas en cuantos a clases y patrones; e) el comportamiento de los sintagmas nominales extensos en diccionarios especializados y corpus de referencia; f) y, finalmente las tendencias de traduccin de este tipo de sintagmas en un corpus paralelo.
19
La idea inicial de esta tesis surgi como un problema de traduccin en la vida profesional al observar que en las traducciones cientfico-tcnicas aparecan con cierta regularidad sintagmas nominales con premodificacin compleja. Adems, su traduccin se converta en un problema por su complejidad sintctico-semntica, por la falta de fuentes de consulta para resolverlos y por el poco tratamiento dado en la literatura de traduccin hasta ese entonces. Posteriormente, durante mis estudios de postgrado en la Escuela de Idiomas de la Universidad de Antioquia-Colombia y luego como profesor de la asignatura de Traduccin Cientfico-tcnica en el programa de Traduccin de la misma universidad encontr que muchos otros colegas compartan la misma dificultad y que tambin carecan de herramientas para ensear a resolverlos con propiedad a los estudiantes. Con los aos fui coleccionando docenas de ellos como piezas de museo. En aquel entonces, influido por las corrientes funcionalistas de la traduccin (Hlz-Mantari 1984, Nord 1991), pretenda que los estudiantes identificaran las caractersticas lingsticas de los diferentes gneros textuales que componan la asignatura. Las referencias que se tenan eran pocas y las soluciones eran muy intuitivas. Llegu a la conclusin de que exista muy poca descripcin lingstica de este tipo de gneros del ingls al espaol. Incluso hoy en da la descripcin sigue siendo poca si se compara con lo realizado en otras lenguas. Ya en esa poca, empezaba a tomar fuerza en espaol una corriente terica que defenda la idea de la traduccin como disciplina autnoma independiente de la lingstica y daba por sentado que el traductor deba tener la competencia lingstica al momento de traducir. Por tanto, se cerraba la posibilidad de hacer investigacin de caractersticas lingsticas para propsitos de traduccin. Por otro lado, fruto de todas mis lecturas y el contacto con colegas europeos y americanos, descubr que muchos de ellos no provenan de la traduccin como tal por diversas razones. Igualmente, descubr que los aportes ms interesantes de los ltimos aos, los haban hecho autores que tenan una formacin en lingstica y sus disciplinas colindantes, la sociologa, la
20
G. Quiroz
psicologa, la informtica, entre otras. Por tanto, una explicacin a este fenmeno que pudiera satisfacer parte del problema tanto para aspectos investigativos, profesionales y didcticos debera ser lingstica. En el doctorado, comenc a indagar la manera de abordar el problema. Dada la estructura del doctorado de mi bienio, se realizaron varios trabajos de aproximacin al problema y el estudio piloto que me permitiera evaluar las posibilidades del tema de tesis y las dificultades potenciales a las que podra enfrentar. En un primer trabajo, se explor la extensin de los patrones en ingls, la categora predominante en la premodificacin y patrones ms frecuentes. En este primer acercamiento se vio la necesidad de ampliar el corpus para poder constatar si las tendencias continan pues la extensin promedio de la premodificacin y la categora premodificadora as como algunos patrones no coincidan con lo encontrado por otros autores (Biber et al 1999, Montero 1995). En un segundo trabajo (Quiroz et al 2004), se explor la posibilidad de encontrar regularidades de traduccin en un minicorpus. A pesar del tamao del corpus, se pudo observar las posibilidades que presenta un patrn en ingls y sus soluciones en espaol en algunos patrones y as, sacar el mximo de regularidades en un corpus de mayor tamao. En el proyecto presentamos fundamentalmente la metodologa que se llevara a cabo en la tesis doctoral. Fruto de este proyecto de tesis y los comentarios y sugerencias del tribunal, se refin la metodologa presentada aqu. De igual modo, algunas partes de esta tesis ya han sido publicadas (Quiroz 2005 y Quiroz 2006) y se han ampliado aqu y, por tanto, haremos referencia a ellas.
21
1 En esta tesis, nos referiremos a los sintagmas nominales extensos especializados tambin como sintagmas nominales extensos o sintagmas nominales.
22
G. Quiroz
Se ha establecido para este estudio un nmero mnimo de 3 tokens (2 premodificadores o posmodificadores mnimo) ya que los estudios realizados en corpus desde una perspectiva de traduccin o terminologa no presentan datos sobre sintagmas de ms de 2 3 elementos premodificadores o posmodificadores. Por otro lado, los corpus de estos estudios no incluyen un porcentaje significativo del tipo de texto que se trata en esta tesis. Por tanto, se ha analizado desde 3 tokens para observar las caractersticas sintcticosemnticas y la frecuencia de estos sintagmas. Para la descripcin del objeto de estudio, se mantendr la postura de que no existe una dicotoma entre lenguaje general y lenguaje especializado (o mejor dicho, discurso especializado); no es un problema de otro lenguaje con caractersticas excluyentes o con una gramtica especial sino que se trata simplemente de un subsistema de la lengua. Los diferentes anlisis se llevarn a cabo desde la ptica de una gramtica general y slo su uso y frecuencia en el discurso especializado se debe a razones pragmticas, conceptuales o cognitivas como algunos autores tambin lo afirman (Cartagena 1998; Cabr 1999; Gotti 2003; Scarpa 2001). Para ilustrar el objeto de estudio se han coleccionado los siguientes ejemplos (1 a 4) tomados de las diferentes gramticas (de referencia) y libros de sintaxis2:
1. the beautiful big old neglected square red Jamaican stone plantation houses (11 palabras, 9 en posicin premodificadora) (Lets Write English 1980) 2. an attractive tight-fitting brand-new pink Italian lycra womens swimsuit (11 palabras, 10 en posicin premodificadora) (The Cambridge Grammar of the English Language 2002: 543)
2 Estos ejemplos se han empleado en otros trabajos, pero nos parece oportuno presentarlos en esta tesis.
23
3. 4.
horseback riding school cafeteria breakfast menu substitution list (Levi 1978: 5) the hydrophobic polyethylene terephthalate (PET) and hydrophilic (watersoluble) polyethylene (PEO) blocks (Sager, Dungworth, and McDonald 1980: 221)
Los ejemplos de 13 a 20 se tomaron del corpus de genoma del IULA Institut Universitari de Lingstica Aplicada de la Universitat Pompeu Fabra.
13. 14. 15. 16. 17. 18. 19. 20. A novel, red, low-potential, periplasmic copper protein a membrane bound proton-translocating pyrophosphatase a green fluorescent protein (GFP) fusion protein bright clear small dot-like fluorescent structures the trans-Golgi localized reversibly glycosylated polypeptide (RGP1) an efficient nuclear magnetic resonance (NMR)-based metabonomic approach Drosophila melanogaster maternal nuclear protein kinase Dm-nk The mitochondrial inner membrane AAA metalloprotease family
24
G. Quiroz
En espaol tambin podemos encontrar sintagmas nominales de esta longitud que pueden ser trminos, es decir, unidades especializadas. Por supuesto que no hay una premodificacin como en ingls dadas las caractersticas del espaol, pero que nos muestra que el concepto de sintagma nominal especializado extenso va ms all de los lmites considerados normales. A guisa de ejemplo, se presentan algunos sintagmas nominales especializados extensos del Diccionario Espasa de Medicina (1999: 320). Como entrada principal se encuentran los ejemplos 21 a 25.
21. 22. 23. 24. 25. dficit familiar de lecitn-colesterol-acil-transferasa dficit neurolgico isqumico reversible dficit selectivo de subclases de IgG dficit de alfa-1-antitripsina aos de vida ajustados segn la calidad
En mbitos tcnicos tambin se pueden encontrar sintagmas extensos especializados como los ejemplos tomados de los diccionarios en CD-ROM Spanish Dictionary of Business, Commerce and Finance - Diccionario Ingls de Negocios, Comercio y Finanzas (1998) y Spanish Technical Dictionary (1998) ambos de Routdledge, Mosby ingls espaol (2000) y The IEC Multilingual Dictionary (2005), como los ejemplos de 29 a 40:
29. 30. 31. adaptive differential pulse coded modulation (modulacin adaptable diferencial de impulsos en cdigo) ammonium nitrate fuel oil (explosivo compuesto de nitrato amnico y fueloil) broadband-integrated services digital network (red digital de servicios integrados de banda ancha)
25
compact disc programmable read-only memory (disco compacto de memoria de slo lectura programable) containerized lighter aboard ship system (sistema de buques remolcadores para transporte de gabarras cargadas con contenedores) consolidated link-layer management message (mensaje de gestin consolidada de enlace entre capas) extended binary-coded decimal-interchange code (cdigo ampliado de caracteres decimales codificados en binario) permanent income bearing share (accin productora de renta permanente) directly unproductive profit-seeking activities (actividades directamente improductivas con fines lucrativos) adult respiratory distress syndrome [ARDS] (sndrome de dificultad respiratoria del adulto [SDRA]) contoured adducted trochanteric controlled alignment method [CAT-CAM] (mtodo de alineacin controlada del contorno trocantrico en aduccin [CATCAM])
40.
quadrature-axis sub-transient open-circuit time constant (constante de tiempo subtransitoria transversal en circuito abierto)
En otras lenguas como el francs y el alemn se puede dar cuenta tambin de este fenmeno. Por ejemplo, Kocourek (1991: 140) cita el fenmeno, tomando ejemplos de otros autores como se presenta de 41 a 44.
41. 42. 43. 44. maillot de bain fminin dune seule pice dgageant les ctes, les bas du dos et les hanches (Rey-Devobe 1973: 92) Donaudampfschiffahrtsgesellchaftskapitnwitwenrentenauszahlungstag (Heger 1971: 72) VDI Ultrakurzwellenberreichweitenfernfunkverbindung (Heger 1971: 72) valve spool dirt excluding rubber washer steel spacer (Horeck 1963: 275)
26
G. Quiroz
determinados registros y tipos de texto que lo propuesto por la bibliografa. Las condiciones de interaccin entre los interlocutores, reflejadas en el tipo de texto, hacen de los sintagmas nominales extensos especializados una caracterstica muy relevante del discurso cientfico como lo proponen Swales (1974: 129) y Halliday (1998: 193). Los SNEE son un elemento fundamental en la cohesin y compactacin del discurso especializado como lo propone Ormrod (2001: 9-23). 27
Hasta donde se ha explorado en trabajos previos (Quiroz, Lorente, Yzaguirre 2004; Quiroz 2005a, 2005b y 2006), los SNEE se manifiestan a travs de una variedad de estructuras no descritas sistemticamente para el par ingls-espaol. Finalmente, los SNEE pueden detectarse y extraerse de los textos a partir de criterios lxico-sintcticos y semnticos. De acuerdo con Cabr (2003: 46-50), un texto especializado tiene unas condiciones en la estructura textual como la estructura informativa que tiene a su vez, unas caractersticas graduables como la precisin, la concisin, la sistematicidad, la objetividad y la impersonalidad que hacen que un texto sea ms o menos especializado. Los sintagmas nominales extensos especializados pueden vehicular una gran densidad y una alta precisin en un texto de especialidad mediante los elementos internos de un sintagma nominal (acrnimos, smbolos, cdigos, clasificaciones, compactacin conceptual de la premodificacin, entre otros). Para esta tesis se proponen las siguientes hiptesis: 1. Los sintagmas nominales extensos especializados no son un problema del discurso especializado, son un fenmeno de la lengua que presenta mayor frecuencia en el discurso especializado y que tiene unas caractersticas sintctico-semnticas determinadas. Como puede verse en el estado de la cuestin 3, muchos autores ven este fenmeno como un problema, una aberracin de la lengua o una falta de estilo bsicamente desde una perspectiva prescriptivista. Dentro del marco de la teora comunicativa de la terminologa (Cabr 1999: 34-35) y en consonancia
28
G. Quiroz
con los principios metodolgicos f y g3, esta tesis se enmarca dentro una perspectiva descriptivista en la cual las unidades se extraen de textos reales que reflejan las condiciones comunicativas de un grupo de hablantes expertos o de un rea en un nivel de especialidad determinado como parte de la lengua general. Por tanto, se reconoce que estas unidades son un fenmeno natural dentro de la situacin comunicativa en la que se circunscribe y es necesario buscar las regularidades en su comportamiento y sistematizar su interpretacin. 2. Los sintagmas nominales extensos especializados pueden describirse, clasificarse, explicarse y predecirse desde la gramtica de una lengua como todos los fenmenos lingsticos de los discursos de los mbitos de especialidad. Partimos de la idea planteada por Cabr (1993: 177) al hablar de los sintagmas terminolgicos y libres en cuanto a que todos los fenmenos lingsticos de los discursos especializados pueden explicarse mediante el uso de la gramtica de la lengua general. La dicotoma, ya clsica, entre lenguaje general y lenguaje especializado o entre gramtica de la lengua general y la gramtica de los lenguajes especializados no se tendr en cuenta en esta tesis puesto que la diferencia radica en que hay reas de especialidad que usan determinados recursos lingsticos, como los sintagmas nominales extensos especializados, con mayor frecuencia debido a razones pragmticas de la
f) El mtodo es necesariamente descriptivo y consiste en la recopilacin de las unidades reales usadas por los especialistas de un campo en distintas situaciones de comunicacin. Esta diversidad de situaciones presupone que el corpus de extraccin de los trminos debe ser heterogneo y representativo. Ello no impide que para un trabajo determinado pueda ser homogneo tanto en su nivel de especializacin y en el tipo de textos seleccionados, como tambin en la perspectiva de tratamiento del tema. Los trminos seleccionados son unidades reales, no necesariamente satisfactorias ni normalizadas, simplemente reales. Solo en caso de que el trabajo pretenda ser una representacin de los trminos normalizados, se entrar en la actividad de fijacin de una variante y/o reduccin de la variacin denominativa. g) Las unidades retenidas en los textos como representativas del conocimiento especializado pueden ser trminos (nominales, verbales, adjetivales) o unidades ms amplias, combinaciones frecuentes en un determinado mbito de especialidad. Estas combinaciones pueden ser terminolgicas (unidades polilexemticas denominativas de un concepto), fraseolgicas (sintagmas no autnomos comunicativamente, que contienen por lo menos un trmino, habitualmente verbales frecuente y especficamente usados en una materia), o combinaciones aun ms vastas que constituyen unidades oracionales propias de un rea especfica (rdenes informticas, interjecciones deportivas de valor oracional, etc.).
3
29
situacin aportes de
comunicativa.
Cabr
(1999:
33),
al
explicar
el
carcter
... una teora del lenguaje que d cuenta de las unidades de significacin especializada dentro del lenguaje natural teniendo en cuenta que participan de todas sus caractersticas, pero singularizando su carcter especializado y explicando cmo se activa este carcter en la comunicacin...
3. Existen regularidades en el comportamiento de las soluciones de traduccin de este tipo de sintagma del ingls al espaol. El estudio piloto del corpus paralelo nos permiti observar que a pesar de la variabilidad sintctica de los patrones, existen regularidades que se deben verificar en un corpus de mayor tamao. La sistematizacin de estas regularidades nos permitir proponer soluciones que permitan a los traductores y los terminlogos solucionar de manera rpida y confiable este tipo de sintagmas. Tangencialmente, la sistematizacin de estos sintagmas nominales nos permitir solucionar la mayora de casos en traduccin automtica que, como Woolie (1997) establece, son los casos ms complicados de solucionar y que ms errores generan.
30
G. Quiroz
1. Demostrar que la existencia de los sintagmas nominales extensos especializados es una caracterstica de la lengua que se presenta con mayor frecuencia en el discurso especializado. En el plano aplicado se pretende: 2. Proponer recomendaciones para el tratamiento de estos sintagmas del ingls y sus correspondientes en espaol desde el punto vista formal y semntico para que profesionales de la traduccin, la terminologa, la lexicografa, la ingeniera lingstica, entre otros, puedan emplearlos en sus diferentes tareas profesionales. Para cumplir estos dos objetivos generales, se propone una serie de objetivos especficos. 1. Analizar cuantitativamente los sintagmas nominales extensos especializados en ambas lenguas en un corpus escrito del mbito de genoma. 2. Caracterizar formal y semnticamente los sintagmas nominales extensos especializados. 3. Observar si este fenmeno lingstico es ms productivo en el discurso especializado debido a la relacin emisor-destinatario en un tipo de comunicacin especfico y natural de la lengua y en la relacin de estas estructuras en la produccin de conocimiento y la interpretacin de los diferentes destinatarios involucrados (expertos y diferentes profesionales de las lenguas). 4. Disear un mtodo de anlisis de este tipo de sintagmas que permita interpretar estos sintagmas usando elementos lingsticos resultado de las regularidades observadas en esta tesis.
31
5. Observar si existen diferencias en el uso de estos sintagmas con respecto a lo que produce un experto en cada lengua y lo que reflejan los textos paralelos (traducidos) y observar si son convenciones retricas inherentes al ingls y al espaol. 6. Comparar el comportamiento de los sintagmas nominales extensos especializados en los diccionarios especializados con el de los corpus especializados. 7. Comparar el comportamiento de los sintagmas nominales extensos especializados en los corpus monolinges generales y especializados en espaol.
32
G. Quiroz
de procesamiento, los problemas con el tratamiento de datos y la seleccin de las muestras. La estructura general de la tesis se compone de una introduccin en la que se presenta el objeto de estudio, las hiptesis y los objetivos de la tesis. En el captulo 2, se presenta el estado de la cuestin de los sintagmas nominales extensos especializados desde varias disciplinas. Se examina la confusin terico-metodolgica y la falta de criterios en muchos estudios. Tambin se discuten las diferentes miradas que pueden hacerse de los sintagmas nominales extensos especializados y se contrastan los prejuicios existentes que estn condicionando las descripciones y los trabajos tericodescriptivos de los investigadores que trabajan en los estudios de traduccin, en la enseanza de lenguas para propsitos especficos y en otras disciplinas. En el captulo 3, se expone la metodologa general de la tesis. Se describen los diferentes tipos de corpus, su procesamiento y las diferentes herramientas empleadas. Se explican los problemas con el etiquetaje sintctico y semntico, y se exponen las decisiones tomadas para solucionarlos. En el captulo 4, se describen y analizan cuantitativa y lingsticamente los patrones sintcticos del ingls. Se discuten los criterios de seleccin del corpus de anlisis y presentan los resultados en cuanto a su longitud, frecuencia, categora lxica predominante, relaciones de dependencia, aspectos morfolgicos, entre otros. Se contrastan estos resultados con los resultados que se han obtenido del anlisis de los diccionarios, de modo que se pueda constatar que los sintagmas nominales extensos especializados son un fenmeno de la lengua que est presente en los textos y diccionarios y que su anlisis puede sistematizarse. Al final del captulo, se hace una recapitulacin de los resultados ms relevantes. Al igual que en el captulo 4, en el captulo 5 se describen y analizan cuantitativa y lingsticamente los patrones sintcticos del espaol. Se
33
examinan los criterios de seleccin del corpus de anlisis y se presentan los resultados en cuanto a su longitud, frecuencia, categora lxica predominante, relaciones de dependencia, aspectos morfolgicos, entre otros. Se contrastan estos resultados con los resultados obtenidos del anlisis de los diccionarios. Es importante recalcar que en este captulo se contrastan el corpus de anlisis y los resultados cuantitativos del corpus CREA de la RAE para observar si las estructuras empleadas por los expertos concuerdan o no con las del lenguaje general. Al final del captulo, tambin se hace una sntesis de los resultados ms relevantes. En el captulo 6, se realiza el anlisis semntico en ingls con WordNet 2.1 y UMLS 2006AB con el fin de observar las clases semnticas que predominan en los ncleos y la premodificacin de los sintagmas nominales extensos especializados. A partir de estas clases semnticas se obtienen los patrones semnticos en cada programa y se examina cmo se correlacionan con los patrones sintcticos y el rea de conocimiento. De igual modo, contrastamos los resultados de las categoras de WordNet 2.1 con UMLS 2006AB. En el captulo 7, se hace el anlisis semntico en espaol con EuroWordNet 1.6 con el fin de observar las clases semnticas que predominan en los ncleos y la premodificacin de los sintagmas nominales extensos especializados. A partir de estas clases semnticas se obtienen los patrones semnticos y se examina cmo se correlacionan con los patrones sintcticos y el rea de conocimiento. En el captulo 8, se realiza el anlisis del corpus paralelo en cuanto a longitud, patrones ms frecuentes en ingls y las soluciones de traduccin ms frecuentes en espaol, categora predominante, entre otros. Se analizan los patrones ms frecuentes y sus relaciones de dependencia y se comparan con los patrones para observar las tendencias de cada corpus y si se cumplen las regularidades de los patrones. Estos patrones en ingls y sus patrones equivalentes en espaol se comparan contra los patrones del diccionario Mosby de medicina para observar las tendencias en las soluciones hacia el espaol.
34
G. Quiroz
Posteriormente se comparan los patrones obtenidos en espaol con los patrones del corpus de anlisis en espaol, el corpus lexicogrfico y el CREA de la RAE para poder observar sus tendencias y evidenciar si puede haber interferencias en las soluciones dadas por los traductores. Finalmente, en el captulo 9 se presentan las conclusiones, las limitaciones del estudio y las recomendaciones para el trabajo futuro en este tema.
35
36
G. Quiroz
37 39 39 45 51 57 60 61 62 65 67
37
38
G. Quiroz
2.1 Introduccin
Los sintagmas nominales extensos especializados (SNEE)4 se han visto desde diferentes disciplinas relacionadas con el lenguaje: gramtica clsica, lingstica terica, lenguajes especializados (LSP), terminologa, traduccin, traduccin automtica, ingls para propsitos especficos (ESP), escritura tcnica, recuperacin de la informacin, entre otros. Sin embargo, no hay una descripcin detallada de ellos hasta donde se ha explorado. Muchas disciplinas ven estos sintagmas ms como un obstculo o una rareza de la lengua, como se ver a continuacin, ms que como un fenmeno recurrente y natural en ciertos niveles de especialidad o gneros discursivos como se ha ilustrado en 1.3. Es importante tener en cuenta que los fenmenos lingsticos no deben considerarse nicamente bajo una ptica prescriptivista como se ver ms adelante, pues esta visin impide explicar por qu ocurre un fenmeno de este tipo. Hay que tener en cuenta que son los cientficos los que usan este tipo de sintagmas nominales y no los lingistas y que debe existir otro tipo de motivaciones para usar determinadas caractersticas de la lengua con ms frecuencia y de algn modo especfico.
39
no. En muchas disciplinas las denominaciones se acuan independientemente del grado de lexicalizacin del sintagma. Slo los terminlogos hacen una distincin clara, por ejemplo, entre unidades trminos o unidades libres (Cabr 1993), y actualmente, entre trminos, fraseologa, colocaciones, locuciones y unidades libres (Lorente 2001). Kocourek (1979) utiliza la denominacin lexical phrase y para los nombres compounds (como parte de un lexical phrase). Igualmente, emplea French noun-phrase terms. Como puede verse, los nombres corresponden a unidades que pueden entrar en el lexicn de una lengua y no a unidades que pueden ser fruto de un encadenamiento accidental dentro del discurso.
lexie synapsie paralexme 38) mot complexe syntagme cod groupe lexical lexie complexe lexme complexe groupe lexicalis locution compose syntagme lexical syntagme autonome syntagme lexicalis lexme syntagmatique compos syntagmatique dnomination complexe dnomination synaptique groupe de mots syntagme de lexique unit de signification unit lexicale complexe unit smantique complexe (Auger 1975: 79, Picoche 1977: 23) (Rey 1977: 135) (Vachet 1964: 40) (Pottier 1963, 1968: 19, 1973: 251 ) (Goffin 1978) (Rey 1975: 13) (Bally 1975: 250) (Auger 1978) (Guilbert 1967: 305) (Rey-Debove 1971: 113; Rey 1975: 11) (Lyons 1978: 25-26) (Auger 1976: 66) (Hollyman 1966: 97) (Benveniste 1966: 94) (Phal 1964: 47) (Auger 1976a: 67) (Guilbert, Quemada 1972: 400) (Phal 1969: 76) (Dubois 1960: 62-63) (Rey 1977: 15; Pottier 1973: 251) (Benveniste 1966: 91) (Dubois et al 1973: 354; Griemas 1966: 37-
40
G. Quiroz
unit lexicale suprieure unit syntagmatique de signification unit lexicale syntagmatique complexe
Esta primera clasificacin de unidades terminolgicas extensas para el francs la realiz Kocourek (1979: 124) que luego la publica en 1981 y 1991. Kocourek (1979) no tiene en cuenta para este listado los nombres en francs que tambin tienen sintagmas no lexicalizados. Sin embargo, otros autores ponen en duda el carcter lexicalizado de algunas unidades y por esto, prefieren tomar un rango ms amplio de estas unidades. Adems, dependiendo del rea de estudio como en la traduccin automtica, los estudios de traduccin y la enseanza del ingls con propsitos especficos, el hecho de que una unidad est o no lexicalizada pasa a un segundo plano como lo plantea LHomme (1994: 150):
La distinction souvent voque, notamment en terminologie, entre un groupe lexicalis et une combinaison libre joue un rle secondaire de point du vue de la TA (traduction automatique). Les notions de lexicalisation ou de vhicule dune signification ou dune notion unique ne sont pas vraiment mises contribution.
Esto se debe a que en estas disciplinas un sintagma nominal de estas caractersticas es un problema que se debe resolver en el acto: analizarlo y traducirlo o interpretarlo. En los manuales de gramtica y en los artculos de corte ms lingstico no se denominan los sintagmas nominales extensos especializados con un nombre especfico como se suele hacer en otras reas; siempre son sintagmas
41
Esto se debe quiz a que se quiere potenciar ms las partes que el todo. Por ejemplo, se dedican fragmentos de estas gramticas a explicar las relaciones internas de los compuestos de dos elementos (compounds), los tipos de premodificacin, el orden de los premodificadores, los tipos de ncleos, etc. Por el contrario, en terminologa, como es de esperarse, predominan las denominaciones relacionadas con las palabras trmino y terminologa, es decir, sintagma terminolgico y trmino sintagmtico; se considera que siempre estn lexicalizadas. Para identificar la cantidad de palabras involucradas en el sintagma se usan expresiones como multi-, poli-, y complejo. Sin embargo, la palabra complejo no siempre indica cantidad de palabras en algunos autores.
complex noun phrases secuencias de dos o ms palabras grupos lxicos rotgrficos syntagmes termes syntagmes nominaux complexes (lexical o no) units terminologique complexes sintagmas terminolgicos terme complexe multiword compounds syntagme terminologique trminos sintagmticos sintagmas terminolgicos (Myking 1989) (Artnz y Picht 1989: 150) (Wster) (Portelance 1989: 400) (Jastrab 1987) (Assal y Delavigne 1993) (Cabr 1993: 29) (Bourigault 1993) (Maalej 1994: 142) (Collet 1997: 2003) (Cartagena 1998: 282) (Aldestein 1998)
42
G. Quiroz
sintagmas terminolgicos units terminologiques complexes units terminologiques polylexicales unidades terminologica complexa trmino sintagmtico, trmino compuesto, complex term, grupo nominal complejo sintagma nominal compuesto syntagme nominal pertinents
En traduccin, no se usan, en muchos casos, nombres para designar el fenmeno como en el caso de Lpez y Minett (1997), pero se intenta dar indicaciones para resolverlo o comentarlo. Como consecuencia, no se ve que predomine un nombre en la literatura de traduccin aunque puede afirmarse que autores como Newmark para el ingls y Alcaraz para el espaol se pueden tomar como puntos de referencia.
multiple noun compounds sintagma nominal largo noun clusters multinoun compounds sintagma nominal extenso especializado sintagmas nominales complejos compuestos multinominales grupo nominal complejo yuxtaposicin de adjetivos (Newmark 1981: 115, 1988: 41) (Alcaraz 2000) (Linder 2002) (Quiroz et al 1997, 2000) (Quiroz et al 2004) (Zabala 1996) (Abril y Ortiz 1998: 291) (Montero 1995: 50) (Lpez y Minett 1999: 105)
En la escritura tcnica es ms usual hablar de cadenas de sustantivos (o de adjetivos denominales). A partir del uso de algn adjetivo de manera peyorativa, para criticar el exceso de premodificacin, tal como se evidencia en los autores siguientes:
nounspeak (Orwellian 1974)
43
noun strings sustantivos adjetivales en caravana string/excessive premodification, groups of premodifiers nouns as adjectives complex nominals
(Burnett 1992: 312; Huckin 1991) (Norman 1999) (Kirkman 1992) (Blake y Bly 1993) (Montero 1996: 58)
En traduccin automtica e ingeniera lingstica es ms importante la extensin del sintagma por sus posibilidades de interpretacin que el hecho de que la unidad est lexicalizada. Adems, no sera rentable para un sistema de TA incorporar en su lexicn estas unidades tan extensas. En general se piensa que es preferible tener un analizador sintctico (parser) que permita hacer un anlisis de los sintagmas nominales ya que stos son recurrentes en los textos tcnicos.
compound structures noun sequences nominal compound compound nouns groupes nominaux noun compounds compound nominal groups two-noun compounds/nominal compounds noun sequences, noun compounds, complex nominals noun + noun compound noun sequence (Vanderwende 1995: 2) (Downing 1977) (Leonard 1984) (Chambers 1994) (Lehrberger 1982: 29) (Finin 1980: 1986) (Bennett 1993: 43) (LHomme 1994: 148) (Barker 1998) (Woolley 1997) (Maalej 1994)
En ESP tiende a predominar la palabra compuesto, pero no en el sentido estrictamente binario y lexicalizado que ven los lingistas. Por esto deben agregarse palabras como complex, phrase, in chain, group, etc. para dar una idea de una unidad ms larga de lo normal.
noun strings (Palmer 1968)
44
G. Quiroz
noun compounds (terms) long noun phrase complex compounds, more complex compounds, very complex compounds, noun strings compound nominal phrases nominal compounds lessie complesse nominal groups complex nominals nominal group compound nominal groups groupes nominaux noms composs en chane, enchanements syntagmatiques complexes syntagmes nominaux complexes syntagme nominal fleuve noms composs (lexicaliss), groupe nominal complexe noun clusters 1985)
(Trimble 1985) (Salager 1984) (Horsella y Prez 1991: 125) (Casadei 1994: 58) (Thouvenin 1996) (Montero 1996) (Ventola 1996) (Woolley 1997) (Maniez 2001) (Boughedaoui 1995; 2001: 139) (Le Masle 2001: 65) (Ormond 2001: 9) (Limaye Pompian 1991; Salager
Puede verse en este breve recorrido por diversos autores que este fenmeno presenta diversas interpretaciones, dependiendo del rea y por esto la variedad de denominaciones del fenmeno. Esto hace su abordaje ms complejo, pero a la vez ms enriquecedor.
45
anlisis estadstico por niveles de lengua (registros) y explican los casos internos de coocurrencias en la premodificacin de algunos patrones. Otros autores como Levi (1978) mencionan este tipo de sintagma nominal, pero no hacen un anlisis de las estructuras extensas. Esta autora deja implcito que los sintagmas nominales con adjetivos no predicativos (denominales) de dos unidades (tipo compuesto) pueden servir para analizar los ms extensos. Los gramticos clsicos (Quirk et al 1985; Huddleston y Pullum 2002) ven estas unidades de diferentes modos. De entrada, Quirk et al (1985: 1338) ponen de manifiesto que hay suficiente evidencia para decir que el uso de esta caracterstica es ms frecuente en la forma escrita que en la oral.
There is indeed evidence of a higher proportion of three-or-more item sequences in written than in spoken English
No
obstante,
Quirk
et
al
(1985:
1342),
cuando
explican
la
It should be noted, however, that if we introduce an adjective in this last noun phrase, already clumsy and improbable, the adjective has to come (itlicas nuestras).
Adems, estos autores plantean que los sintagmas nominales con premodificacin compleja son un medio eficiente de comprimir la informacin, pero que implicitan las relaciones semnticas entre los modificadores, lo que puede ocasionar problemas de interpretacin para los hablantes. Quirk et al (1985: 1342-43) establecen que la premodificacin mltiple presenta bsicamente dos problemas: 1) orden relativo y 2) lmite psicolgico.
46
G. Quiroz
Cuando hay ms de un premodificador surgen problemas de orden. Analizan que el orden que hay en la premodificacin lineal de:
[Expensive [overseas [income [tax [office furniture]]]]]5
donde size no premodifica a cardboard y cardboard no premodifica a detergent. Quirk et al (1985) y Biber et al (1999) reconocen que este fenmeno no es algo oscuro, pobre o excesivamente extenso. Por el contrario, piensan que esto depende del tipo de destinatarios a quien va dirigido el texto. Piensan ms en trminos de implicitacin de las relaciones semnticas para quienes no son expertos:
such an example is not, of course, obscure. Indeed, it is generally the cause that obscurity in premodification exists only for the hearer or reader who is unfamiliar with the subject concerned who is not therefore equipped to tolerate the radical reduction in explicitness that premodification entails (Quirk et al 1985: 1343).
Otros tericos de la lingstica, en especial las gramticas clsicas del ingls han detectado el fenmeno a partir de la descripcin de los patrones de concurrencia ms frecuentes (hasta 4 tokens) para la lengua inglesa y en varios gneros textuales. Sin embargo, no han estudiado a fondo este fenmeno en el
5 Aunque pensamos que debera interpretarse [expensive [overseas [income tax]] office furniture]].
47
tipo de texto que se emplea en este estudio. (Quirk et al 1985: 1338; Biber et al 1999: 595-597; Huddleston y Pullum 2002: 453). De estos autores, Biber et al (1999) han explicado de manera general y cuantitativa la premodificacin compleja de hasta 4 tokens de 4 tipos de patrones y las relaciones semnticas de tipo compuesto (como compounds) dentro de la premodificacin en varios gneros discursivos: lengua general, noticias y prosa acadmica, en especial. Para estos mismos autores (1999: 589), la premodificacin mltiple es ms comn en las noticias que en la prosa acadmica, pero ambas en conjunto tienen una frecuencia ms alta que en el resto de registros6. Adems, proporcionan unos patrones de coocurrencia de la premodificacin de los sintagmas nominales y muestran que la premodificacin es ms comn que la posmodificacin en el registro acadmico:
In all registers, NP (noun phrases) with premodifiers are somewhat more common than those with postmodifiers (578). Proportionally, in academic prose, almost 60% of all NP have some modifier of which 25% have a premodifier and 20% have a postmodifier (Biber et al 1999: 579).
Como bien lo dicen Biber et al (1999: 579) se explica que hay ms sintagmas nominales con premodificacin que con posmodificacin debido a que la nueva informacin se empaqueta a modo de modificadores en el sintagma nominal:
Much of the new information presented in academic texts is packaged as modifiers in NP (noun phrases), resulting in a very high density of information.
En este trabajo se trata de usar la terminologa empleada por cada autor. Registro se
usa en el sentido de niveles de lengua. Concuerda, en cierto sentido, con nivel de especialidad.
48
G. Quiroz
Sin embargo, Abberton (1977: 29-72) establece lo contrario con base en un corpus de ocho textos del corpus de Survey of English Usage, cuatro de novelas y cuatro de escritura cientfica no popular (non-popular scientific writing). De estos ltimos, un texto pertenece al rea de la biologa, dos a la fsica y la matemtica, y uno a la qumica. Abberton concluye que:
both types of English examined are remarkably similar (subrayado del propio autor) in nominal group premodification structure: the vast majority of nominal groups are not premodified or are premodified by only one determiner and/or adjective () the main differences between the fiction and the science texts are that in the scientific writing postmodified nominal groups predominate; The spread over form class types is similar in both styles of writing and there is no form class (pattern) exclusively preferred by one or the other. In both the fiction and the science texts the favourite patterns for premodified nominal groups are the same, although postmodified nominal groups are far more common in the science texts (Abberton 1977: 62-63).
El hecho de que predomine la posmodificacin sobre la premodificacin segn esta autora, se debe principalmente al tipo de corpus (registro de la lengua) y quizs al rea del conocimiento en cuestin. Sin embargo, casi todos los corpus del ingls tienen nuestras reas en cuestin: biologa, qumica, fsica, etc. Una revisin rpida de estos corpus nos muestra que no hay o hay muy pocos textos del registro o nivel realmente (muy) especializado. Es decir, que hay pocos textos (y cantidad de palabras) que tengan una situacin comunicativa del nivel experto-experto. Con lo cual, si se tiene en cuenta la cantidad de textos que se producen en el mbito cientfico-tcnico, las generalizaciones que se hacen en algunos casos no son representativas ni describen situaciones comunicativas reales. Adems, como se ve en la cita, este estudio contradice los datos en cuanto a la cantidad de pre- y posmodificacin en los textos especializados. Puede verse que an en estudios con corpus hay generalizaciones contradictorias. Quiz en el caso de este estudio (1977), se debe al tipo y a la cantidad de corpus empleado. Adems, no existan muchos avances
49
que permitieran tener grandes cantidades de corpus ni las herramientas que hoy se tienen. Por otro lado, Biber et al (1999: 589) establecen que los premodificadores son ms comunes en las noticias que en la prosa acadmica. Sostienen que tambin los adjetivos comunes (i. e., adjetivos no participios) son la categora gramatical que, como premodificador, es ms comn en todos los registros:
Los adjetivos premodificadores son extremadamente comunes en la prosa acadmica. Los sustantivos representan el 40% de los premodificadores en las noticias y un 30% en la prosa acadmica. Los modificadores en ed son algo ms comunes en la prosa acadmica que en otros registros.
Asimismo, estos autores establecen que only about 2% of premodified noun phrases have 3 or 4 word premodification, sumando todos los registros del corpus Logman. Adems, argumentan que el gnero de noticias tiene un poco ms de premodificacin compleja: In news longer premodification sequences are slightly more common. Sin embargo, no se explican las relaciones internas de la premodificacin con su ncleo en los sintagmas nominales de ms de tres tokens. Puede verse que no hay un acuerdo en los datos pues casi todos dependen del tipo de corpus como se dijo antes. A pesar de esto, se puede observar que este tipo de unidades tan extensas no tiene una frecuencia alta en la lengua en su totalidad, pero si en otros registros o gneros de la lengua inglesa. Al hablar de la premodificacin Quirk et al (1995: 1337-1338) dicen que:
the problem becomes even more acute with longer strings of premodifiers. Although there is, theoretically, no grammatical upper limit to the number of
50
G. Quiroz
premodifiers, it is unusual to find more than three or four (las tlicas son nuestras).
No obstante, estos mismos autores matizan que premodification is an area of English grammar where there is considerable variation among the varieties of the language. Esto quiz se debe al tipo de corpus que usan y la baja frecuencia que ellas tienen en corpus heterogneos como los usados en dichas gramticas (Quirk et al 1995: 1337-1338). Algunos autores como Levi (1978) y Woollie (1997) establecen que los anlisis bajo la Teora de la Barra X presentan problemas para tratar los atributos y complementos de un sintagma nominal, quiz por la cantidad de irregularidades que pueden presentar. Dada la capacidad de la Gramtica Sistmico-Funcional de Halliday para tratar la premodificacin de un sintagma nominal como deitic + numerative + epithet + classifier + head/thing, algunos autores han analizado la premodificacin de los sintagmas nominales bajo esta misma perspectiva (Thouvenin 1996; Boughedaoui 2001: 138; Ormod, 2001: 12). De este modo, se puede distinguir entre los adjetivos que funcionan como atributos del N y los que funcionan como complemento de la posmodificacin. Igualmente, Woollie (1997) afirma que se ha estudiado poco la estructura interna de los sintagmas nominales extensos.
2.4 Terminologa
Desde el punto de vista terminolgico y de los lenguajes de especialidad se ha descrito muy poco la estructura interna y el comportamiento de los sintagmas nominales extensos en los textos especialidad, no desde el punto de vista de la lexicalizacin sino como unidades (libres) de los discursos especializados que condensan una gran cantidad de informacin en poco
51
espacio. As el uso de este tipo de estructura puede, en un momento dado, establecer la densidad conceptual de un texto y permitir, por tanto, clasificar un texto por su nivel de especializacin. Estas unidades involucran una serie de problemas como el
comportamiento de los elementos verbales y no verbales, v. g., siglas, acrnimos, formas cortas, inclusin de siglas en otras siglas, abreviacin discursiva (en una revista s y en otra no), cifras, cdigos, entre otros fenmenos que deberan ser explicados. Otro aspecto importante sera observar el grado de lexicalizacin de dichas unidades y saber si tienden a ser unidades terminolgicas especializadas o son simplemente un conjunto de ellas o una mezcla de lenguaje general y lenguaje especializado (discurso especializado) mediante la repeticin de estas unidades en otros textos. Tal y como se ilustr en los ejemplos de los tres diccionarios descritos en 1.3, los sintagmas nominales especializados extensos estn presentes en los diccionarios tcnicos. Al hablar de la lexicalizacin de los sintagmas terminolgicos Kocourek (1991: 140) plantea que dichas unidades tan extensas no pueden ser nombres sino definiciones y, adems, carecen de estatus lxico: ... une expression telle que liqueur alcalique sature de la matire colorante du bleu de Prusse est moins que un nom quune dfinition... En esa misma lnea, Cartagena (1998: 281-296) concuerda con Kocourek en cuanto a que (desde luego que) existe una relacin directa entre longitud, el grado de especializacin y la estabilidad sintctica del trmino; a mayor longitud, mayor especializacin e inestabilidad. Arntz y Picht (1989: 150) tambin ponen en duda el carcter terminolgico de dichas estructuras. En este sentido, Cabr (1993: 304) dice que para los sintagmas muy extensos se suelen utilizar formas reducidas:
Comunicativamente, los sintagmas terminolgicos excesivamente largos se suelen utilizar de forma abreviada en el discurso, y, a la larga, se suelen resolver fijando las formas reducidas respectivas como trminos de uso corriente:
52
G. Quiroz
Cartagena (1998) agrega tambin que no se ha estudiado los trminos sintagmticos en el mbito del LSP para el espaol. De igual modo, establece unos patrones ms regulares en espaol de hasta 4 tokens en el mbito de la anatoma. A continuacin, se presentan los patrones de tres y cuatro modificadores para el espaol obtenidos por Cartagena (1998: 283-284).
N Adj Adj Adj (el ms frecuente) Adj N Adj Adj (el ms frecuente) N Prep D N Adj Adj N Prep D N Adj Prep D N N Prep N Prep N Prep N N Adj Prep D N Adj N Adj Prep D N Prep N N Adj Adj Prep D N N Adj Adj Adj Prep D N N Adj Adj Prep D Adj N N Adj Prep D N Adj Adj
En este estudio, Cartagena presenta los patrones para explicar la variabilidad de los sintagmas terminolgicos. l no presenta una estadstica de su frecuencia respecto del corpus, simplemente se limita a decir las veces que aparece dicha estructura. Cartagena (1998) concuerda adems con autores como Cabr (1993) y Hoffmann (1985) en cuanto a que la combinacin de los componentes de los sintagmas terminolgicos est regida por la gramtica de la lengua comn.
53
La sintagmacin, como recurso formal de obtencin de unidades lxicas, se basa en la formacin de una nueva unidad a partir de una combinacin sintctica jerarquizada de palabras. Las nuevas unidades as obtenidas respetan las reglas combinatorias del sistema lingstico al que pertenecen, e incluyen muy frecuentemente conectores gramaticales... (Cabr 1993: 177).
Como se expres antes, en este trabajo se mantendr la postura de que no existe una dicotoma entre lenguaje general y lenguaje especializado (o mejor dicho discurso especializado); no es un problema de otro lenguaje con caractersticas excluyentes. Se afirma mejor que la descripcin y el anlisis de los patrones se harn desde la ptica de una gramtica general y, su uso y frecuencia en el discurso especializado se deben a razones conceptuales o cognitivas. En espaol, hay pocos estudios desde el punto de vista terminolgico que incluyan unidades tan grandes. Cardero (2000, 2004) hace una descripcin de los sintagmas terminolgicos en un corpus de cinco reas: cinematografa, el Tratado de Libre Comercio, redes de computacin, telefona celular y control de satlites. Esta autora no proporciona el nmero total de palabras del corpus ni el mtodo de extraccin. Adems, no establece el tipo de corpus: textual o terminolgico; parece ser que es mixto. Del total de trminos, selecciona aleatoriamente 1.368 unidades (20% del total). De estos, el 5,19% corresponde a 66 trminos de 12 estructuras que la autora denomina poco frecuentes. Estas estructuras se dan principalmente en el rea de la telefona celular. Si bien es un estudio pionero en este tipo de unidades, no profundiza sobre aspectos formales ni semnticos. Dentro del marco de la TCT, Estop (1999, 2001) hace una clasificacin de las unidades terminolgicas especializadas de acuerdo con las preferencias de los usuarios. Establece que las unidades que los traductores seleccionan son segmentos de las unidades terminolgicas polilxicas (principalmente nominales y adjetivales). Segn ella, esto se debe a que son las que ocasionan problemas durante el proceso traductivo.
54
G. Quiroz
A pesar de la clasificacin de las unidades, la autora no analiza unidades tan grandes; las estructuras de ms ocurrencias tienen un ncleo con dos modificadores (dos complementos) del tipo N Adj Adj = 30 ocurrencias. De su tesis se pueden comparar con nuestro estudio los datos de tipo morfolgico y observar si las estructuras que la autora plantea (1999: 114) se presentan en nuestro corpus y, si estas simplemente se expanden o se forman otras estructuras no descritas. En un trabajo previo (Quiroz 2004) se han comparado sintagmas desde dos premodificadores y, se concluye que una de las estructuras ms frecuentes en ingls es Adj Adj N y todas las soluciones en espaol estn representadas en la estructura N Adj Adj. Sin embargo, en el mismo trabajo otras estructuras recurrentes como Adj N N = N N Adj, Adv PP Adj Adj N = N Adj Adj Adj Adv, entre otras, no estn descritas en Estop (1999). Debe aclararse que en Quiroz (2004) se han extrado sintagmas nominales lexicalizados y no lexicalizados. Por tanto, se debe mirar con cuidado los datos para no hacer generalizaciones inadecuadas. A pesar de esto, todas las estructuras lexicalizadas ya descritas en otros trabajos (Cartagena 1998; Estop 1999; Caf 2000; Cardero 2000; Vivaldi 2004) se tendrn en cuenta puesto que para la traduccin son igualmente relevantes. Es importante destacar que Vivaldi (2004: 2-3) recoge los patrones ms frecuentes de sintagmas nominales especializados, que denomina patrones terminolgicos complejos: N Prep N Adj, N Adj Prep N Adj, N Adj Adj y N Adj Adj Prep N Prep N. Dentro del marco de la fraseologa contrastiva en el mbito de la radiologa, Mndez (2000, 2002) incluye los grupos nominales complejos dentro de las estrategias discursivas de este tipo de discurso. Mndez (2002) se centra en una serie de estructuras muy diversas a partir de las concordancias extradas con el programa WordSmith. Por tanto, no hay anlisis formal (patrones), semntico ni estadstico de esta variedad de estructuras que incluya, entre otros, los sintagmas nominales. El objetivo de Mndez es la orientacin pragmtica de la fraseologa para traductores y redactores. Sin embargo,
55
adems de las estrategias fraseolgicas que pueden emplear los traductores o redactores, tambin necesitan las regularidades en el plano lingstico para tener estrategias claras para resolver los sintagmas nominales con independencia de los elementos que los acompaen en la predicacin. As, pues, las relaciones internas del sintagma son ms relevantes para esta tesis, sin dejar de reconocer la importancia de las otras estrategias, que tienen que ver ms con elementos de coherencia y cohesin, como esta autora lo plantea. Finalmente, Caf (2000) presenta una clasificacin de la expansin y las reglas de formacin de las unidades terminolgicas complejas para el portugus de Brasil en el mbito de la biotecnologa desde la perspectiva de la gramtica funcional de Dik. Caf parte tambin del principio de que una gramtica de la lengua general debe abarcar los llamados lenguajes de especialidad y, por tanto, para crear las reglas de expansin se basa en una teora de la predicacin. Las reglas estn compuestas por una base (el ncleo), un argumento (el complemento) y los satlites (complementos externos). Cada base, argumento o satlite tiene una funcin semntica y una funcin sintctica (sujeto, complemento nominal, complemento circunstancial, etc.). Para los propsitos de esta tesis, algunos elementos del anlisis de Caf son interesantes, v. g., las funciones semnticas de un mbito similar al nuestro. Sin embargo, puede considerarse que esta autora hace un anlisis forzado al adaptar unas funciones de la predicacin al mbito de los sintagmas nominales, cuestin que pertenece al mbito del verbo. Adems, este estudio no contiene un anlisis estadstico, un anlisis de relaciones semnticas ni un anlisis contrastivo entre dos lenguas como se pretende en esta tesis. El anlisis de los satlites de los sintagmas nominales que hace Caf no tiene una funcin clara dentro de las reglas de formacin pues no los incluye. Por un lado, la regla de formacin ms extensa da cuenta de sintagmas nominales con una extensin mxima de tres modificadores del ncleo (molcula de DNA circular extracromossmica).
56
G. Quiroz
As, en ingls mdico son habituales la nominalizacin, los verbos en pasado, el participio pasado, el participio presente, los compuestos multinominales (mitogen-triggered lymphocyte DNA synthesis)...
57
Sin embargo, estos autores no proponen un anlisis sintctico-semntico o de otra ndole para solucionar el problema. Las propuestas, cuando las hay, son muy intuitivas y no responden a una lgica sistemtica de estos casos. Algunos de ellos como Linder (2002) tambin los ven como un problema. Uno de los pocos autores que tiene una perspectiva similar a la nuestra es Cartagena (1998: 282) dentro del marco de variabilidad de trminos para el par alemn-espaol en el mbito de la anatoma. Cartagena comenta que algunos autores como Coseriu (1973: 11) afirman que este tipo de unidades no presenta dificultad alguna para la traduccin ya que no se trata de transposicin de significados sino de un mero reemplazo de significantes en relacin uno a uno. Calonge (1995: 184-185) tambin argumenta que parece evidente que el vocabulario cientfico no tiene nada que ver con la lengua general [...] los sintagmas que representan significados especializados [...] en general son fcilmente traducibles, debiendo evitarse solamente el calco. Cartagena se apoya en su estudio y, en Artnz (1982: 114-117), para rebatir estos argumentos y mostrar que los sintagmas terminolgicos presentan considerables problemas de traduccin, incluso aquellos sintagmas nominales relativamente sencillos. Adems, Cartagena muestra que los sintagmas terminolgicos y su variabilidad responden a la sintaxis de la lengua general. Desde una perspectiva prescriptivista, Vzquez-Ayora (1977: 123) establece que la manera lgica de resolverlos es: to translate the premodifier closest to the nucleus and continue from there translating each successive adjective to the left and so on. Este tipo de solucin puede dar resultados en algunos casos, pero no es la nica solucin; slo cubrira un tipo de patrn que quiz no sea el ms frecuente. Sin establecer unas regularidades o una lgica, Lpez y Minett (1997: 103-109) proponen que deben analizarse los elementos adjetivales y reordenarlos en grupos alrededor del ncleo del sintagma. Linder (2002: 266) establece una serie de parmetros y dice que se debe, en primer lugar, buscar el ncleo, en segundo lugar, determinar el orden e importancia relativa de los
58
G. Quiroz
elementos y finalmente, aplicar la siguiente estrategia (sin un orden predeterminado): maximizar el nmero de elementos en espaol, variar las preposiciones, omitir sustantivos o partes del sintagma nominal si se repiten dentro de l (variacin denominativa) y usar tantas tcnicas de transposicin como se pueda (p. ej., de sustantivo a verbo). Vivanco (1994: 755) tambin sugiere una estrategia similar a la de los anteriores autores: la traduccin al espaol de estos grupos nominales, comienza por el sustantivo del final, ya que es a ste al que califican todas las dems palabras y concluye que
Como norma general, se traducen los dems nombres y las formas ing y ed, encontrando los equivalentes precisos en castellano e introduciendo las preposiciones que sean necesarias en espaol.
Puede verse que la estrategia tiende a ser prescriptivista y no responde a una lgica de anlisis lingstico o traductivo. En primer lugar, no explica cmo se debe determinar el orden y la importancia relativa de los elementos del sintagma nominal al no analizar las tendencias en un corpus textual o terminolgico. En segundo lugar, proponer una estrategia para omitir sustantivos del sintagma nominal es muy peligroso puesto que un sintagma nominal se puede diferenciar de otro slo por un sustantivo que haga referencia a otro concepto o a un concepto que funcione como hipnimo o hipernimo en la jerarqua. Adems, en la traduccin especializada esto podra considerarse como una falta de coherencia en el uso de un trmino, lo que podra ocasionar problemas de cohesin. Finalmente, no se puede maximizar el nmero de elementos sin razn alguna. Adems, el uso de una preposicin en una lengua no responde a una eleccin caprichosa del hablante sino que responde a una serie de restricciones gramaticales, pragmticas, y en especial semnticas. La extraccin y la paralelizacin de sintagmas nominales extensos llevada a cabo en Quiroz et al (2004), permiti hacer una primera exploracin sobre las regularidades que ellos albergan para refutar, a pequea escala, las propuestas
59
de los autores antes mencionados. Como luego se ver, ninguno de estos autores ha trabajado observando regularidades en un corpus. Finalmente, pensamos que existen regularidades en los textos que nos pueden dar luz para abordar mejor la traduccin de estos sintagmas nominales, que se deben identificar las relaciones semnticas y que los corpus pueden ser tiles para observar las tendencias en las soluciones al espaol.
60
G. Quiroz
De esta dificultad planteada para formalizar estos sintagmas nominales se derivan problemas para la traduccin automtica. Lehrberger (1982: 92-94) tambin estableci algo similar para el sistema de traduccin automtica TAUM que traduce informes meteorolgicos del ingls al francs. Este mismo sistema estaba proyectado para traducir manuales de aviones en los cuales los sintagmas nominales especializados desempearan un papel importante. Ya que este sublenguaje (como lo llama el propio autor) es muy restrictivo, Lehrberger estableci 50 relaciones sintctico-semnticas suficientes para las combinaciones posibles de los manuales7. Sin embargo, no se hicieron predicciones para la lengua general (1982: 94) Igualmente, Montero (1996) hace un pequeo estudio usando un corpus terminolgico de 4.235 trminos de 2 a 5 tokens y concluye igualmente que la traduccin de los sintagmas nominales extensos es una de las dificultades mayores y ms visibles de los traductores automticos.
50 relaciones y por tanto no se ha podido localizar. Sin embargo, la publicacin debe ser de antes del ao 1980.
8
No existen obras sobre el tema en la literatura sobre la enseanza del espaol para
fines especficos.
61
nominales extensos especializados se explicitan mediante parfrasis que, en muchos casos, no resuelven las supuestas ambigedades de estos sintagmas nominales. El mismo Trimble (1985: 136) recomienda dejar los ms extensos para el profesor del rea de especialidad. Quiz el estudio ms importante cuantitativa y cualitativamente, desde la ptica del ingls para propsitos especficos (ESP), es el llevado a cabo por Salager Mayer (1984: 135-146). Esta autora compara los sintagmas nominales extensos del lenguaje general, el lenguaje mdico y el lenguaje de la tcnica llegando a la conclusin de que el promedio de la extensin entre los tres corpus es similar (2,06 en los tres). Sin embargo, el porcentaje de ocurrencia es ms alto en medicina y en tcnica (9,76% y 12,37%) que en el lenguaje general (0,87%)9. En cuanto a los sintagmas nominales extensos de cuatro y cinco palabras, la frecuencia en medicina y tcnica es muy superior que en el lenguaje general (20 y 7 veces ms, respectivamente). Esto significa que, si bien el promedio en la extensin es similar respecto del nmero de palabras totales, la distribucin de la cantidad de tokens en los discursos especializados es mayor. Este estudio no hace ningn anlisis de patrones gramaticales, relaciones semnticas, clases semnticas o distribucin o funcin de los sintagmas nominales extensos en el discurso especializado.
De cada 100 palabras, menos de 1 palabra formara un compuesto. Definido como la formacin de una palabra a partir de ms de dos palabras que funcionan como una unidad semntica.
9 10
62
G. Quiroz
pares de compounds y se explicitan las relaciones semnticas de los tres pares. Las relaciones o no entre los tres pares con el ncleo no se explicitan generalmente. Adems, se han creado algunos braketers para identificar semiautomticamente las relaciones semnticas de dos elementos (Baker y Szpakotwicz 1998: 96-102) Muchos estudios (Woollie 1995; Thouvenin 1996) extraen las ocurrencias estadsticamente usando unos mnimos de frecuencia de 10 25 apariciones y no usan etiquetaje automtico o manual para observar las regularidades de los patrones. Thouvenin concluye que este mtodo deja de lado muchos sintagmas nominales extensos de baja frecuencia que pueden ser trminos en un rea temtica. Incluso advierte, desde la perspectiva del ESP, que estas unidades deberan aparecer en los diccionarios del rea a pesar de su relativa fijacin o baja frecuencia. Por otro lado, es importante tener en cuenta que los etiquetadores automticos pueden generar gran cantidad de ruido y silencio como se observa en el ejemplo 1.
1. [the trans-Golgi localized reversibly glycosylated polypeptide (RGP1)] xxx antibodies raised against [the glycosylated polypeptide xxx] of MO6 NN6P H6 P [A666 X V6A66 D6 X NN6S MO6] P [D X11 V Adv X N X] trans-Golgi localized reversibly
Puede verse que parte del sintagma nominal se interpret como una forma verbal finita. Esto obstaculiza las bsquedas de manera automtica o semiautomtica. Si se piden por patrones generar mucho silencio como se ve en el ejemplo anterior.
11
63
Respecto del ruido, se realiz en el programa BwanaNet del Corpus Tcnic del IULA la siguiente consulta: N N N N N con mnimo 1-3 tokens obligatorios por cada N en todo el subcorpus de genoma.
Date: Corpus: Subcorpus: Number of Matches: Left display context: Right display context: Thu Jun 19 [Link] 2003 Corpustecnicen CORPUSTECNICEN:Last 103 7 tokens 7 tokens
Query text: CORPUSTECNICEN; a: [ pos="N.*" ]{1,3} [ pos="N.*" ]{1,3} [ pos="N.*" ]{1,3} [ pos="N.*" ]{1,3} [ pos="N.*" ]{1,3} : Number of concordances: 103 1. Because of Watson-Crick affinity, the Probes capture DNA strands hat contain Boston's name (TCGGACTG). NN6S Z</s> <s>P X NN6S Z A666 NN6P NN6S NN6S NN6P NN6S V6R6S NG6S NN6S Z X Z Z</s>
2. the latter approach, most often a bait protein finds prey candidatessometimes many - and those might A666 JA NN6S Z DS D6 A66S NN6S NN6S NN6P NN6S NN6P Z D6 R66A6666 Z C6 RD666666 V6666
3. and why we get old," remarks geneticist Richard K. Wilson of Washington University, one partner in C6 D6 RE666N61P V6R6S JA Z Z NN6P NN6S NN6S NN6S NN6S P NN6S NN66 Z MC6 NN6S P
4. Most single mutations that increase Activation produce amino acid substitutions that increase the negative charge of region
64
G. Quiroz
NN6S Z</s> <s>A666 JA NN6P AD6S V6R6S NN6S NN6S NN6S NN6S NN6P X V6R6S A666 JA NN6S P NN6S
Puede verse que, en los casos anteriores, la desambiguacin es errnea, pues el etiquetador analiza los verbos en tercera persona del singular o plural como sustantivos en plural o en singular, extrayendo sintagmas nominales extensos especializados errneos. Por consecuencia, es difcil el reconocimiento y la extraccin de estas unidades de tal extensin. Esto se debe quiz a que los etiquetadores se entrenaron con corpus de lengua general y no tienen en cuenta sintagmas de este tipo debido a su baja frecuencia respecto de los sintagmas de 1, 2 y 3 tokens.
65
Otros autores ven los sintagmas nominales extensos como una caracterstica que molesta al lector debido a que su premodificacin es excesiva:
particularly
disturbing
feature
of
technical
writing
is
excessive
premodification the piling up of adjectives, or words being used adjectivally, in front of a single noun: a mobile hopper fed compressed air operated grit blasting machine (Kirkman 1992: 32-33).
Este mismo autor incluso compara la forma escrita con la oral. Por supuesto que en la forma oral no se usara una premodificacin tan compleja:
To pile up modifiers in this way is utterly unnatural language behaviour. We would not normally dream of telling someone we had been to a store and bought a new green leather suede-lapelled patch-pocketed tie-belted jacket (Kirkman 1992: 32).
Burnett (1992: 312) analiza las cadenas de sustantivos como un problema estilstico: Imprecise diction also results from noun strings: a series of two or more nouns in which the first nouns modify the later ones. Adems, sostiene que cuando una cadena de sustantivos alcanza las cinco o ms palabras, se requiere tiempo extra para calcular las relaciones entre las palabras y, como consecuencia se puede interpretar de mltiples maneras y se vuelve indescifrable. La pregunta que cabe aqu sera para quin y en qu circunstancias una cadena es ambigua e indescifrable, y qu toma ms tiempo y esfuerzo cognitivo para un lector experto, un sintagma nominal con mltiple posmodificacin como sucede en las lenguas romances en las cuales se puede perder la referencia o un sintagma nominal con mltiple premodificacin como sucede en ingls.
66
G. Quiroz
2,6/ 0,5 -
Estadstico 82,9 ND Estadstico ND Lingstico 80 Lingstico 53,8 Lingstico 44,50 Lingstico 5723 52,5
Se desconoce si es corpus textual, terminolgico o lexicogrfico. ND: No disponible. 14 Citado por Cabr (1993). Estudio hecho para el alemn. 15 Slo trabaja con compuestos del tipo N+N+...N. 16 Hace una comparacin de tres niveles de especializacin diferentes. Aqu slo se han tomado los datos del nivel ms especializado. 17 Este porcentaje slo se refiere al total de unidades pero no es frente al total de palabras. 18 Este estudio no es sobre corpus de textos sino sobre el corpus de un diccionario. 19 Se analizan las unidades de 2 a 4 tokens pero no hay estadstica, patrones, ni frecuencias. 20 Se analiza la premodificacin mltiple, pero no hay estadsticas sobre el nmero de tokens de ms de 3. Adems, la estadstica de los tokens de +3 se combina con posmodificacin. 21 En este estudio se cuentan como sintagmas las siglas en funcin de la cantidad de letras que forman la sigla como tokens independientes lo cual modifica enormemente los resultados y presenta tendencias no objetivas.
12 13
67
Medicina Agrcola
27 ND
34 ND
16,4 8,2 ND ND
2,5 1,9 N D N D
Estos estudios se han realizado en varias reas del conocimiento (qumica, medicina, cermica, etc.), varios niveles de especialidad (general vs. especializado), con diferentes mtodos de anlisis y extraccin de datos (lingstico, estadstico, manual, etc.). Puede observarse que en primer lugar, los mtodos lingsticos o hbridos dan porcentajes ms altos, excepto Montero (1996) que toma un corpus de trminos cerrado y no un corpus de textos. En segundo lugar, hay diferencias muy grandes entre un autor y otro por las razones siguientes. El tipo de corpus empleado por cada autor tiene diferentes niveles de especialidad (adems del concepto de nivel de especialidad que cada autor entiende), el nmero de tokens, el mtodo de extraccin y la combinacin de subcorpus dentro de cada estudio (si los hay). Los corpus exclusivamente especializados presentan porcentajes ms altos de aparicin de este tipo de sintagmas y premodificacin ms extensa. Los corpus que combinan varios gneros o niveles de especialidad (desde el nivel de experto-lego hasta experto-experto) presentan porcentajes ms bajos de sintagmas nominales especializados extensos y menos extensin de estos. En tercer lugar, se observa que en casi todos los estudios se comienza con porcentajes ms bajos en 2 premodificadores (sin sustantivo nuclear), se llega a un pico en los porcentajes con 3 y 4 premodificadores y, por ltimo, se desciende desde 5 hasta 9 premodificadores, de modo que, existen menos
El aspecto cuantitativo se realiza en un corpus terminolgico alemn-espaol. Los datos de la primera lnea se refieren al alemn y la segunda al espaol. 24 Incluye determinantes al comienzo del sintagma. 25 En este estudio no hay una estadstica general sobre los nmeros de tokens, los cuales hay que inferir de los datos del estudio. Por otro lado, se mezclan categoras lxicas abiertas y cerradas para la estadstica, lo cual modifica los datos sensiblemente y presenta tendencias no objetivas.
22 23
68
G. Quiroz
sintagmas nominales con premodificacin compleja entre ms extensin haya en la premodificacin. El hecho de haber un pico porcentual entre 3 y 4 puede revertir en estabilizacin y posiblemente en la lexicalizacin de estas unidades. Por ltimo, la mayora de estos estudios no miran la premodificacin de los sintagmas nominales extensos especializados desde la lexicalizacin, sino como un fenmeno que, en apariencia, se sale de los cnones de la lengua general para algunos y que para otros no se diferencia significativamente de la lengua general. Para interpretar este cuadro es necesario saber qu observan algunos autores: 1. Cuntas palabras son parte de la premodificacin respecto del total de palabras del corpus. 2. Cuntos sintagmas hay en un corpus y de estos cuntos corresponden a la premodificacin mltiple. 3. Cuntos sintagmas nominales de premodificacin compleja hay de ciertos tokens (de ms de 2, 3 4?). Luego se hace la estadstica sobre ese parmetro de tokens y no sobre el total de sintagmas nominales de un corpus, es decir, desde un premodificador hasta el lmite encontrado. Algunos autores observan la opcin 1 pero no las 2 y 3 o las opciones 2 3 pero no la 1. Slo un caso observa las opciones 1 y 2 (Salager-Mayer 1985). Otros autores observan la opcin 3 y luego contabilizan el nmero total de tokens para sacar la ratio de palabras de los sintagmas nominales seleccionados con el total de palabras del corpus. Es cierto tambin que algunos estudios previos a los aos 90 no disponan de corpus ni de herramientas para el procesamiento, el almacenamiento y la manipulacin de los datos. A pesar de los avances en la creacin de corpus y de las herramientas para su
69
procesamiento, los pocos estudios que hay en la actualidad tienen las mismas carencias que los anteriores. Puede verse, entonces, que el asunto es mucho ms complejo de lo que muestran las simples cifras. En primer lugar, no hay acuerdo sobre: a) los mtodos de extraccin de los sintagmas nominales, b) el tipo de corpus, c) el nivel de especialidad del corpus, d) el uso de lenguaje general versus lenguaje especializado, e) los mtodos estadsticos para tratar y analizar los datos y, f) mtodo de anlisis lingstico. Adems, la mayora de los estudios, excepto Biber et al (1999) en algunos anlisis, no tienen en cuenta: a) anlisis de las categoras, b) anlisis de patrones, c) anlisis semntico (clases, relaciones, patrones, etc.), d) anlisis morfolgico, e) anlisis tipogrfico (nmeros, cifras, siglas, etc.) y f) anlisis textual (cohesin, etc.). El nico estudio que tiene realmente un anlisis semntico es el de Oster (2003) para el par alemn-espaol. Como consecuencia, no hay una visin amplia ni un conjunto amplio de anlisis que permita hacer generalizaciones sobre este fenmeno. Una visin parcial de este fenmeno se ve favorecida por: 1. La baja frecuencia de los sintagmas nominales extensos especializados en el conjunto de la lengua general. 2. Algunos estudios slo se centran en el discurso especializado y en unos niveles de especialidad que en muchos casos pueden presentar una cantidad baja de sintagmas nominales extensos especializados y se encuentran muy poca cantidad del tipo de texto que aqu se estudia (journal). 3. En general, los corpus de los diferentes estudios, excepto Biber et al, no podran considerarse como representativos tanto en lenguaje general como especializado, o ambos, debido al tamao de los corpus (muy pequeos), los tipos de texto, etc. An el corpus de base de Biber et al puede ser discutible en
70
G. Quiroz
cuanto a que se hacen generalizaciones sobre el discurso especializado (llamado academic prose). Un aspecto importante es que casi todos los estudios provienen de investigadores de ESP (English for Specific Purposes) o traduccin, puesto que es en estas disciplinas donde este fenmeno se considera un verdadero problema. Sin embargo, los mayores aportes los han hecho los gramticos (Quirk et al 1985; Biber et al 1999; Huddleston y Pullum 2002) en aspectos como a) la categora gramatical que predomina en la premodificacin, b) el orden de los premodificadores, las restricciones categoriales, el orden natural, etc. y, c) las relaciones y clases semnticas que pueden ocurrir en la premodificacin. Esto no se especifica para los sintagmas con premodificacin larga o muy larga, pero pueden ser muy tiles para nuestro estudio, es decir, nos puede ayudar a observar el orden de los premodificadores, las relaciones y clases semnticas que predominan en el discurso especializado y las funciones que cumplen.
71
72
G. Quiroz
73
74
G. Quiroz
3.1 Introduccin
Para alcanzar los objetivos propuestos y demostrar las hiptesis planteadas, se configur el siguiente corpus y se llev a cabo la siguiente metodologa y anlisis de datos.
Para esta tesis se han empleado tres tipos de corpus de referencia para la extraccin de los diferentes subcorpus de anlisis: un corpus en ingls, un corpus en espaol y un corpus paralelo ingls-espaol. Adicionalmente, se ha empleado un corpus lexicogrfico compuesto por cinco diccionarios en formato electrnico como corpus de contraste. Durante aos, el autor de la presente tesis trabaj no slo como traductor de ciencias de la salud: medicina, enfermera, veterinaria, biologa sino como profesor de traduccin e investigador de traduccin y terminologa en dichas reas. De igual modo, durante el perodo de la tesis, ya exista un corpus considerable de medicina en diferentes niveles de especialidad en el Corpus Tcnic del IULA. Adems, se estaba confeccionando un subcorpus de genoma en el marco del proyecto Genoma. Por estas razones, se decidi seleccionar la medicina y el rea de genoma como el mbito de especializacin en el que enmarcaramos nuestro objeto de estudio. Para poder tener controlados todos los datos en cuanto a la variacin horizontal, se decidi no emplear un corpus con varias reas o mbitos del conocimiento. El tener varios mbitos, abrira otras puertas pero tambin variables que no podramos controlar de manera fiable dada la configuracin del corpus que nos habamos planteado desde un comienzo. De todos modos, y
75
como una manera de reforzar nuestra hiptesis sobre la existencia y la frecuencia de este fenmeno en la lengua, se ha empleado un corpus lexicogrfico de otras reas del conocimiento: estadstica, economa, finanzas y medicina. Controlar la homogeneidad temtica del corpus textual fue complicado a la hora de conseguir un corpus paralelo de la misma temtica puesto que no es fcil encontrar revistas traducidas del ingls al espaol del nivel experto a experto. En las pocas revistas que existen, no era fcil delimitar un artculo que perteneciera al genoma. Por tanto, se decidi compilar ad hoc el corpus paralelo de la revista The Lancet, no slo por su prestigio en el rea de la medicina sino porque se produjo una versin espaola hasta 1999. Los artculos se seleccionaron principalmente teniendo en cuenta el formato IMMRAD (Introduction, Materials and Methods, Results and Discussion) y su disponibilidad en la versin en papel del espaol. Todos los textos comprenden el perodo entre 1997 y 1998 y se han procesado en el Corpus Tcnic del IULA. Entre los criterios del corpus de genoma del IULA es importante resaltar las reas involucradas:
Farmacogenmica Neurociencia Enfermedades Eugenesia Biotecnologa Diferenciacin Inmunologa Investigacin gentica Estructura interna Ingeniera gentica Filogenia
76
G. Quiroz
En primer lugar, se observarn cuantitativa y cualitativamente los patrones ms frecuentes tanto sintcticos como semnticos en un corpus especializado en ingls. En segundo lugar, se observarn cuantitativa y cualitativamente los patrones ms frecuentes tanto sintcticos como semnticos en un corpus especializado en espaol. En tercer lugar, se estudiarn cuantitativa y cualitativamente los patrones sintcticos ms frecuentes en ingls y sus respectivas soluciones en espaol en el corpus paralelo del ingls al espaol. Se contrastarn con los resultados obtenidos en los corpus anteriores para observar, en primer lugar, los patrones ms frecuentes en ingls y sus respectivas soluciones en espaol y, en segundo lugar, observar si las estructuras antes descritas en ingls y espaol siguen la tendencia mostrada o no, de modo que permitan observar si hay interferencias en los traductores en cuanto a las soluciones de traduccin al espaol por parte del ingls. En cuarto lugar, se contrastar si las tendencias de los corpus de anlisis en cuanto a la extensin y los patrones sintcticos estn presentes en el corpus lexicogrfico no slo de medicina sino de las otras reas. De este modo, puede confirmarse o no las tendencias presentadas en algunos estudios hechos en corpus lexicogrficos (Montero 1995) y observar si la realidad traductiva se ve reflejada en las fuentes de consulta que son los diccionarios o por el contrario los traductores deben emplear otros procedimientos para llegar a la solucin de este tipo de sintagmas. Igualmente, se analizar si las tendencias observadas en los corpus de anlisis del ingls y el espaol extrado de los corpus de referencia se manifiestan en el corpus lexicogrfico.
77
En ltimo lugar, se contrastarn los resultados obtenidos tanto en el corpus de anlisis del espaol como en el corpus paralelo con los datos obtenidos en el corpus CREA de la RAE. Como corpus general del espaol, podr observarse si las tendencias cuantitativas de los corpus especializados se reflejan en un corpus de lengua general como el CREA o por el contrario, divergen en la frecuencia de aparicin de las estructuras. Esta combinacin de corpus y anlisis sirve para contrastar los anlisis hechos por otros autores que slo han trabajado con un tipo de corpus o que no han contrastado los resultados con otros corpus como se expuso en 2.10. Por tanto, los resultados obtenidos en esta tesis sern ms confiables y generalizables no slo para traductores sino para otros profesionales o investigadores en las ciencias del lenguaje, lexicgrafos, terminlogos y profesores de ESP y traduccin.
Se seleccion un corpus de 128 textos en ingls con aproximadamente 476.33726 palabras a partir de los 257 textos (1.303.576 palabras) del Corpus Tcnic del IULA. Todos los textos escogidos se tomaron de varias revistas, entre ellas The Lancet, Genomics y FEBS Letters con el formato IMMRAD (Introduction, Materials and Methods, Results and Discussion). Los criterios de seleccin para cada texto son: Pertenecer al rea del genoma Estar escrito por un hablante nativo del ingls: se observ que al menos uno de los autores tuviera apellidos de origen ingls. Si esto no se poda establecer, entonces se tuvo en cuenta:
26 Datos procedentes del Corpus Tcnic del IULA de la UPF (CT-IULA) obtenidos a travs de BwanaNet en noviembre de 2004.
78
G. Quiroz
o que estuviera escrito en un pas de habla inglesa (Reino Unido, Estados Unidos, Canad y Australia, principalmente), o que por lo menos un laboratorio o universidad de habla inglesa estuviera involucrado en la redaccin. Estar disponible en versin electrnica
Se seleccion un corpus de aproximadamente 86 textos que equivalen a 464.333 palabras tomado de los 278 textos (1.693.515 palabras) del corpus de Genoma del Corpus Tcnic del IULA. Los textos pertenecen tanto a revistas con el formato IMMRAD como a captulos de libros y tesis doctorales. Los criterios de seleccin para cada texto son: Pertenecer al rea del genoma Estar escrito por un hablante nativo del espaol: se observ que al menos uno de los autores tuviera apellidos de origen hispano. Si esto no se poda establecer, entonces se tuvo en cuenta: o que estuviera escrito en un pas de habla espaola (Latinoamrica y Espaa), o que por lo menos un laboratorio o universidad de habla espaola estuviera involucrado en la redaccin. Estar disponible en versin electrnica En resumen, la tabla 1 muestra los datos empleados para confeccionar los corpus de referencia y el corpus paralelo a partir del corpus general del IULA.
79
Corpus Tcnic del IULA N. de textos totales IULA Corpus seleccionado N. de textos seleccionados Corpus paralelo N. de textos totales
Para observar las regularidades de los patrones y de las soluciones en la traduccin de la premodificacin del ingls al espaol, se recogi un corpus de 66.534 palabras a partir de 21 textos en ingls. Todos los textos son artculos de investigacin con la estructura IMMRAD de la revista mdica The Lancet27. Esta revista se tradujo completamente en espaol hasta 1999 y por tanto, la seleccin de los textos se hizo de 1997 a 1998. Todas las secciones fueron guardadas excepto el resumen, los nombres y la afiliacin institucional del autor, los agradecimientos, y las referencias bibliogrficas. Debido a problemas tcnicos, algunos grficos y tablas con texto relevante tuvieron que ser eliminados. En general, los textos se procesaron segn las indicaciones del Corpus Tcnic del IULA. El nmero promedio de palabras por texto en el corpus es de 3.168 con un mnimo de 2.028 palabras y un mximo de 4.783. De acuerdo con la versin espaola de The Lancet, los artculos fueron traducidos por reconocidos expertos en medicina: profesores e investigadores.
27 Los textos en ingls se recogieron de los volmenes y de las ediciones siguientes: 349 (marzo de 1997), 351 (enero, febrero y marzo de 1998) y 352 (octubre de 1998).
80
G. Quiroz
Para verificar la existencia y la frecuencia de este fenmeno en otras reas del conocimiento y por extensin a la lengua en general, as como los patrones ms frecuentes en los recursos terminolgicos, se ha constituido un corpus de cinco diccionarios electrnicos disponibles en CD-ROM, Word, PDF o HTML: Diccionario Mosby de medicina, el Diccionario ingls-espaol de Ciencias de Laboratorio Clnico -IFCC, IMF Terminology, Routledge Spanish Dictionary of Business, Commerce and Finance e ISI Multilingual Glossary of Statistical Terms. Estos diccionarios pertenecen a diferentes reas del conocimiento y varan de tamao. De cada uno de ellos, slo se usaron los trminos en ingls y en espaol de 3 o ms tokens de categora gramatical abierta (sustantivo, adjetivo, adverbio y verbo). No se seleccionaron las unidades con posesivo sajn, unidades coordinadas (and, or, y o) o posmodificadas en ingls. A continuacin, se describe brevemente cada diccionario.
Diccionario Diccionario Mosby rea temtica Medicina N. de SN de +3 Porcentaje SN de +3 tokens Porcentaje entradas tokens en ingls en espaol 31.400 3.553 725 766 5.269 1.238 11,31% 17,94% 17,02% 13,86% 35,37% 3.848 608 1.367 1.491 921 12,25% 15,05% 30,37% 3,92% 26,31%
Diccionario IFCC Lab. clnico 4.039 IMF Terminology Economa 4.500 Routledge Dictionary Finanzas 38.000
1. Diccionario Mosby de medicina, enfermera y ciencias de la salud (2000), 5ta edicin ingls-espaol: diccionario en formato chm (archivo tipo ayuda). Este diccionario es la versin en lengua espaola de la 5. edicin de la obra original en ingls: Mosbys Medical, Nursing, and Allied Health Dictionary. Contiene unas 31.400 entradas en ambas lenguas de las cuales 3.553 entradas en ingls tienen ms de 3 tokens (11,31%) y 3.848 entradas en
81
espaol tienen ms de 3 tokens (12,25%). Adems, contiene definiciones en espaol, referencias cruzadas, grficos y entre otros campos. Es un diccionario dirigido a los profesionales de las ciencias de la salud. 2. Diccionario ingls-espaol de Ciencias de Laboratorio Clnico IFCC28: Glosario ingls-espaol del Grupo de Trabajo sobre Terminologa y Nomenclatura en Qumica Clnica en Lengua Espaola de la Federacin Internacional de Qumica Clnica - Divisin Cientfica. Aunque no se expresa explcitamente, es un glosario normativo y consensuado para todos los pases de habla hispana. Est actualizado hasta el ao 2000. Contiene 4.039 entradas en ambas lenguas de las cuales 725 entradas en ingls tienen ms de 3 tokens (17,94 %) y 608 entradas en espaol tienen ms de 3 tokens (15,05%). 3. IMF Terminology29: La base de datos de terminologa del Fondo Monetario Internacional contiene 4.500 registros en ingls, espaol, alemn, portugus y francs sobre finanzas y economa. Esta base de datos incluye slo equivalentes en cada lengua sin definiciones. Tambin incluye frases, nombre de instituciones, acrnimos, referencias cruzadas, contextos, etc. Es una base de datos dirigida especialmente a traductores. Est actualizada hasta el ao 2000. Contiene 4.500 entradas en ingls y en espaol, de las cuales 766 entradas en ingls tienen ms de 3 tokens (17,02 %) y 1.367 entradas en espaol tienen ms de 3 tokens (30,37%). 4. Routledge Spanish Dictionary of Business, Commerce and Finance/ Diccionario Ingls de Negocios, Comercio y Finanzas (1999). Contiene ms de 38.000 trminos en ingls y espaol de negocios, comercio y finanzas en 45 subreas relacionadas. Este diccionario se confeccion con base en la versin impresa del Diccionario Ingls de Comercio, Negocios y Finanzas Routledge de 1998. Contiene unas 38.000 entradas en ambas lenguas de las cuales 5.269
en
82
G. Quiroz
entradas en ingls tienen 3 tokens (13,86 %) y 1.491 entradas en espaol tienen 3 tokens (3,92%). 5. ISI Multilingual Glossary of Statistical Terms30: Diccionario del International Statistical Institute con ms de 3.500 trminos sobre estadstica y reas relacionadas en 21 lenguas. El glosario va dirigido especialmente a expertos en el rea. Se actualiza constantemente, tanto el nmero de entradas como nmero de lenguas. Contiene 3.500 entradas en ambas lenguas de las cuales 1.238 entradas en ingls tienen 3 tokens (35,37 %) y 921 entradas en espaol tienen 3 tokens (26,31%).
Disponible en [Link] Este banco fue desarrollado por el grupo IULATERM en el marco de los proyectos TEXTERM (BFF 2000-0841) y RICOTERM (TIC 2000-1191). Toda la informacin est disponible en [Link]
30 31
83
Para construir los primeros patrones y probar su existencia en un corpus piloto, se emple el programa Repker del IULA (Quiroz et al 2004). La extraccin de los sintagmas de los corpus de referencia del Corpus Tcnic del IULA se realiz mediante una serie de herramientas y scripts en Perl del programa Bwananet. Para conseguir el nmero de tokens de cada sintagma, procesar los diferentes diccionarios del corpus lexicogrfico, los corpus de anlisis y paralelo y realizar diversas tareas de procesamiento de datos se emplearon varios scripts realizados para el programa Perl. El almacenamiento de todos los datos de referencia, muestras, listas de los diccionarios, clculos de algunas estadsticas y manipulacin de todos los datos se hizo en el programa de hoja de clculo Excel 2003 de Microsoft. Igualmente, se emple el programa de edicin de texto Editplus para procesar los datos y poder elaborar las diferentes listas de anlisis.
84
G. Quiroz
Para el procesamiento de la estadstica descriptiva y la creacin de tablas e informes derivados de ella, se emple el programa de estadstica Statgraphics Pro 5.1. El marcaje semntico de la muestra se hizo con el programa WordNet 2.1 de la Universidad de Princeton para el ingls y para el espaol, se emple la versin europea de WordNet, EuroWordNet 1.6. En ingls, tambin se emple el conjunto de recursos UMLS versin 2006AC. Para corroborar datos, principalmente durante el etiquetaje semntico, se emplearon varios diccionarios de referencia tanto generales como de medicina, en especial, los diccionarios en CD-ROM: Diccionario Mosby de medicina 2000, Stedmans Medical Dictionary 3.0, Diccionario Espasa de Medicina, Diccionario de la Real Academia Espaola, Diccionario Webster en ingls, Diccionario Vox de la lengua espaola y el Collins English Dictionary.
Para poder extraer los patrones superficiales y obtener las regularidades semnticas, los datos se han etiquetado con varias herramientas. Para etiquetar los datos del corpus lexicogrfico, se emple Machinese Phrase Tagger online demo y para etiquetar semnticamente las muestras de los patrones se utilizaron los programas WordNet 2.1 y UMLS 2006 AB y AC en lnea para el ingls y EuroWordNet 1.6 en lnea para el espaol. A continuacin se describe brevemente cada uno de los programas. [Link] Machinese Phrase Tagger online demo Para etiquetar el corpus lexicogrfico, se us el etiquetador Machinese Phrase Tagger online demo. Machinese Phrase Tagger es un programa que realiza tareas bsicas de anlisis lingstico y proporciona la informacin
85
relevante sobre las palabras a cantidades grandes de texto. Machinese Phrase Tagger divide el texto en unidades de palabra y le asigna etiquetas morfosintcticas a cada una. Los desarrolladores son los mismos de la Constraint Grammar que ahora crean nuevas herramientas lingsticas para el procesamiento del lenguaje natural en varias lenguas. [Link] WordNet 2.1 Para el etiquetaje semntico en ingls, se utiliz el programa WordNet 2.1 de la Universidad de Princeton32. WordNet es la base de datos lxica ms grande en lengua inglesa, desarrollada bajo la direccin del Prof. George Miller. Las categoras lxicas abiertas como sustantivos, verbos, adjetivos y adverbios se agrupan en los sistemas de los sinnimos cognoscitivos llamados synsets (synonym sets), en el que cada uno expresa un concepto distinto. Un synset es un sistema de palabras con la misma categora lxica que puede intercambiarse en determinados contextos. En el siguiente ejemplo, extrado de EWM 1.5, el conjunto de palabras {carro, coche, automvil, auto, mquina} es un synset porque pueden ser utilizadas para referir al mismo concepto. Este synset puede describirse como: un aparato de 4 ruedas, propulsado generalmente por un motor de combustin interna. Finalmente, los synsets pueden relacionarse los unos con los otros mediante relaciones semnticas, tales como hiperonimia/hiponimia, superordinado/subordinado, antonimia, implicaciones y meronimia/holonimia, como se ilustra en la figura 2.
86
G. Quiroz
{conveyance; transport}
hyperonym
{vehicle}
hyperonym
{doorlock}
meronym
{armrest}
Una palabra o una colocacin puede aparecer en ms de un synset y en ms de una categora gramatical. Los sustantivos y los verbos se organizan en las jerarquas con base en las relaciones de hiperonimia/hiponimia entre los synsets. En cambio, los adjetivos estn organizados en clusters que contienen los synsets principales y los synsets con base en los satlites. Cada cluster se organiza alrededor de pares antnimos (y tros en algn caso). Los pares antnimos (o tros) se indican en los synsets principales de un cluster. La mayora de synsets ncleo tienen unos o ms synsets con base en los satlites, que representan al concepto, el cual es similar en el significado al concepto que representa al synset principal (WordNet 2005). Los pertainyms son adjetivos relacionales y no siguen la estructura antes descrita. Los pertainyms no tienen antnimos; el synset para el pertainym contiene solo una palabra o colocacin y un indicador lxico al sustantivo del cual se deriva el adjetivo. Los adjetivos participios tienen indicadores lxicos a los verbos de los cuales se derivan. Los adverbios se derivan generalmente de los adjetivos y tienen antnimos en algunos casos. Por tanto, el synset para un adverbio contiene generalmente el indicador lxico del adjetivo del cual se deriva.
87
A continuacin se presenta la lista de las 25 clases de sustantivos del nivel superior de WordNet denominadas Tops:
act, action, activity animal, fauna artifact attribute, property body, corpus cognition, knowledge communication event, happening feeling, emotion food group, collection location, place motive natural object natural phenomenon person, human being plant, flora possession process quantity, amount relation shape state, condition substance time
88
G. Quiroz
Cadenas nicas Synsets 117.097 11.488 22.141 4.601 155.327 81.426 13.650 18.877 3.644 117.597
Huelga decir que la estructura y datos de WordNet le hacen una herramienta muy til para la lingstica de computacional y el procesamiento de lenguaje natural. [Link] EuroWordNet 1.6 para el espaol Para etiquetar los datos del espaol, se emple EuroWordNet33 (EWN) en lnea34. EuroWordNet es una base de datos lxica multilinge con los WordNets para varias lenguas europeas, entre ellas el espaol, siguiendo las mismas lneas que el WordNet de la Universidad de Princeton (Fellbaum 1998). WordNet contiene informacin sobre sustantivos, verbos, adjetivos y adverbios en ingls y se organiza alrededor de la nocin de un synset como se explic en el apartado anterior. A pesar de que EuroWordNet tiene como base la estructura de WordNet 1.5, la idea de synset y las relaciones semnticas principales, se hicieron algunos cambios en la base de datos, de modo que reflejara:
La idea de una base de datos multilinge Las relaciones especficas de cada lengua La mxima compatibilidad entre los diferentes recursos
33
89
La diferencia ms importante de EuroWordNet con respecto a WordNet es su carcter multilinge, que sin embargo tambin plantea algunas preguntas fundamentales con respecto al estado de la informacin monolinge en los WordNets como los han planteado los propios creadores (Vossen 1999: 8). En principio, el carcter multilinge se logra agregando una relacin de equivalencia para cada synset en una lengua al synset ms prximo de WordNet 1.5. Los synsets ligados al mismo synset de WordNet 1.5 se supone que son equivalentes o tienen un significado cercano y pueden entonces ser comparados. La diferencia radica en que si las palabras equivalentes se relacionan de diversas maneras en los diversos recursos y, por tanto, se debe validar dicha diferencia. Como la misma documentacin lo manifiesta, en el WordNet en holands se puede observar que hond (perro) est clasificado tanto como huisdier (animal domstico) como zoogdier (mamfero). Sin embargo, no hay equivalente para pet (animal domstico) en italiano, y cane del italiano, que est relacionado con el synset dog (perro), se clasifica solamente como mammal (mamfero) en el Wordnet en italiano (Vossen 1999: 8). A continuacin se presenta la lista de las 59 categoras de sustantivos del nivel superior de EuroWordNet para el espaol35:
Vehicle SituationType Container Place Phenomenal Comestible Static
35 Para ms informacin sobre el significado de estas categoras, puede consultarse el sitio de EuroWordNet para el espaol: [Link]
90
G. Quiroz
Existence Software Garment Building Functional ImageRepresentation Communication Part Object LanguageRepresentation Instrument Physical Covering Relation Quantity Manner Mental 3rdOrderEntity BoundedEvent Furniture Property Dynamic UnboundedEvent Function Condition Substance Experience Liquid Living Group Modal Purpose Artifact Time Stimulating Cause
91
1stOrderEntity Animal Representation Agentive Usage Occupation Possession Natural Human Location Solid Social Creature Gas MoneyRepresentation Plant
A continuacin, en la figura 3 puede ver la interfaz de WordNet 1.6 para el espaol con el ejemplo enzima.
92
G. Quiroz
[Link] UMLS 2006 AB/AC Dado que WordNet 2.1 es una ontologa para propsitos generales y que el tema de tesis se enmarca en la medicina, se decidi etiquetar tambin la muestra del ingls con el programa UMLS 2006AB/AC36 en lnea, UMLS Knowledge Source Server (UMLSKS)37. UMLS (Unified Medical Language System), creado y diseado por la National Library of Medicine (NLM), es un conjunto de recursos lxicos que se crearon con el propsito de hacer legibles los datos mdicos para los computadores. El propsito de UMLS es facilitar el desarrollo de sistemas informticos que entiendan el lenguaje de la biomedicina y la salud. Los datos de UMLS
Esta base de datos se utiliz bajo licencia de la National Library of Medicine (NLM). Los recursos y las herramientas de UMLS Knowledge Source Server (UMLSKS) se pueden acceder en [Link] bajo previa licencia pedida por el usuario.
36 37
93
son multiusos y pueden usarse en sistemas que emplean diferentes tipos de informacin mdica como historias clnicas, literatura cientfica, normas, datos de salud pblica y administracin de bibliotecas mdicas. UMLSKS38 es un conjunto de herramientas web que permite al usuario y a programadores acceder a las terminologas biomdicas de UMLS. En este portal web, se encuentran los tres repositorios de datos de UMLS. UMLS Metathesaurus: contiene la informacin sobre conceptos y trminos biomdicos de ms de 100 vocabularios y clasificaciones controlados que se emplean en historias clnicas, datos administrativos de salud, bases de datos bibliogrficos y de texto y sistemas expertos. Semantic Network: a travs de sus tipos semnticos, la red semntica proporciona una categorizacin consistente en todos los conceptos que estn representados en el metatesauro de UMLS. Los enlaces entre los tipos semnticos proporcionan la estructura para la red semntica y representan relaciones importantes en el mbito biomdico. SPECIALIST Lexicon: lexicn en ingls con trminos de biomedicina que contiene informacin sintctica, morfolgica, y ortogrfica para cada trmino o palabra. Los vocabularios fuente del UMLS Metathesaurus incluyen terminologas diseadas para ser empleadas en sistemas de historias clnicas y grandes clasificaciones de procedimientos y enfermedades que se utilizan para preparar informes estadsticos y facturas. Los vocabularios ms especficos se usan para guardar datos relacionados con la psiquiatra, la enfermera, los aparatos mdicos, las reacciones secundarias de las drogas, etc. Igualmente, las terminologas de UMLS sobre enfermedades y hallazgos mdicos se emplean en
94
G. Quiroz
sistemas expertos de diagnstico y algunos tesauros se usan para la recuperacin de informacin. Tambin existen una lista categorizada de los vocabularios fuente del ingls de ms de 100 terminologas, clasificaciones y tesauros, algunos en ediciones mltiples.
En la figura 4, se muestra la interfaz de consulta de UMLSKS. Obsrvese que los recursos se encuentran ubicados en el marco izquierdo. En el marco del centro aparece el cuadro de bsqueda y las tres opciones con los diferentes recursos antes descritos.
95
En la figura 5, puede verse el resultado de una bsqueda en UMLSKS, concretamente el trmino enzyme. En primer lugar, se despliega, el nombre del concepto, su nmero de identificacin, los tipos semnticos a los que pertenece el trmino y que se han empleado en este trabajo, las definiciones y sus fuentes, los sinnimos y sus tipos semnticos entre parntesis, entre otros campos. Algunos datos importantes sobre UMLS para la versin 2006AC son:
Nmero de conceptos: 1.371.699 Nmero de nombre de conceptos: 6.499.598 Nmero de nombre de conceptos en ingls: 4.284.888 Nmero de nombre de conceptos diferentes: 5.369.057 Nmero de nombre de conceptos diferentes normalizados: 4.789.290 Nmero de fuentes (familias de fuentes diferentes por idioma): 120 Nmero de fuentes que contribuyen con nombre de conceptos: 138 Nmero de idiomas que contribuyen con nombre de conceptos: 17
UMLS tiene una red semntica denominada Semantic Network, como se observa en la figura 5. Dicha red semntica tiene el propsito de reducir la
96
G. Quiroz
complejidad del metatesauro, agrupando los conceptos de acuerdo con los tipos semnticos que se les han asignado. Sin embargo, para poder obtener mejores generalizaciones como se presenta en 6.4.5 y ss. es preferible un conjunto ms pequeo y granulado de tipos semnticos. Por eso, la red semntica cuenta con 15 grupos semnticos que proporcionan una particin del UMLS Metathesaurus para el 99,5% de los conceptos. La red semntica de UMLS contiene actualmente 134 tipos semnticos y 54 relaciones semnticas. La red se define en su nivel ms alto en dos jerarquas, una para las entidades Entity y otras para los eventos Events, como se muestra en la figura 6. Cada tipo semntico est unido con su hipernimo por una relacin del tipo es un(a) (is a), e. g. Human es un nodo en la jerarqua de Entity. La jerarqua que atraviesa las relaciones is a desde Human hasta Entity permite las siguientes relaciones: un human es un mammal, el cual es un vertebrate; un vertebrate es un animal, el cual es un organism; un organism es un physical object, el cual es una entity. A continuacin se presentan la figura 6 con la lista de los 134 tipos semnticos de UMLS (2004AB)39 ordenados de modo jerrquico:
39 Lista tomada de la versin 2004 AB pero que no ha cambiado en las nuevas versiones de UMLS. Consultada en [Link]
97
98
G. Quiroz
En la figura 7, se presentan todos los tipos semnticos agrupados en 15 grupos semnticos. En cada grupo semntico, se presenta su codificacin en la segunda columna, el nmero de tipos semnticos y el nombre de cada uno de ello en la ltima columna. La codificacin de la segunda columna de los grupos semnticos se emplear para obtener los patrones semnticos en 6.4.5 y 6.4.7.
99
A continuacin se presenta la figura 8 con la lista de las 54 relaciones semnticas de UMLS (2004AB)41
40 Tabla tomada de: Bodenreider, Olivier; McCray, Alexa (2003: 416) Exploring Semantic Groups through Visual Approaches. En: Journal of Biomedical Informatics 36.
100
G. Quiroz
41 Lista tomada de la versin 2004 AB pero que no ha cambiado en las nuevas versiones de UMLS. Consultada en [Link]
101
El tipo de consulta ms frecuente fue la verificacin del significado de una palabra para poder seleccionar la etiqueta adecuada en WordNet, EuroWordNet o UMLS para la comprobacin de la forma expandida de una sigla, entre otros.
102
G. Quiroz
En la primera lnea del esquema pueden observarse los pasos principales de la metodologa. En primer lugar, el estudio piloto, que adems de permitir medir el alcance de un estudio posterior, permiti establecer un conjunto de patrones para posteriormente construir aquellos que permitieran hacer la extraccin final de los datos. Posteriormente, se realiz la seleccin de los corpus de referencia en ingls y en espaol. Puesto que el procesamiento de corpus paralelo y el corpus lexicogrfico se diferencia un poco del procesamiento de los corpus de referencia, se subdivide en el diagrama para poder reflejar esas diferencias. Luego, se realiz la extraccin de los datos en los diferentes corpus y fuentes y su estadstica descriptiva correspondiente.
103
Finalmente, se seleccionaron las muestras de los corpus para el anlisis formal, semntico y los anlisis contrastivos del corpus paralelo y la comparacin de los datos contra corpus lexicogrfico y el corpus CREA de la RAE.
104
G. Quiroz
En espaol, se dieron casos como en el ejemplo 3, en el cual el sustantivo paciente estaba etiquetado como adjetivo. Igualmente, el sistema de etiquetaje contiene un lexicn general y, debido a que se trabaj con un corpus especializado, se presentaron muchos casos de trminos y palabras que no fueron reconocidos por el etiquetador y, por tanto, fueron marcados con la categora X en ingls o W en espaol para indicar que dichas palabras no estn en el lexicn del sistema. Por tanto, se tuvo que crear tambin patrones falsos para poder recuperar sintagmas de este tipo, como se describe en los ejemplos 4, 5 y 6.
4. 5. 6. JA + JA + X (Adj Adj X) bilateral central epileptiform laser-desorption time-of-flight mass calcium-modulating cyclophilin ligand
X + X + NN.* (X X N) X + X + NN.* (X X N)
Esto corrobora la afirmacin de Maniez (2001: 56) en cuanto a que el propsito de los etiquetadores est dirigido ms a la lengua general y no a mbitos especializados. En segundo lugar, se presentaron problemas en el etiquetaje semntico de determinados lemas o formas. En otros casos, existe el synset en WordNet pero pertenece a una temtica diferente y no concuerda ese sentido el rea con una de las reas nuestras como sucede con el caso de tasas en altas tasas de mutacin, en el cual WordNet le asignas las reas tax, money y economy pero no estadstica que sera ms adecuada en este caso. Existen otros casos en los cuales el significado del lema no corresponde exactamente al significado dentro del sintagma. Por ejemplo, el lema transmisin en el sintagma transmisin autosmica recesiva, se refiere en WordNet al acto de enviar un mensaje y no al acto de pasar informacin. Existen casos como en horizontal en los cuales WordNet le asigna como adjetivo la clase [Link] pero en el significado de sustantivo le asigna la
105
clase [Link] que es ms adecuada en el caso del sintagma horizontal gene transfer. Para buscar el synset de muchos adjetivos o adverbios hubo que ampliar la bsqueda a Adj.+Derivational related forms o Synonyms related nouns, lo que dificult y multiplic el tiempo de bsqueda. Por ejemplo, si se busca el adverbio anatomically, WordNet 2.1 no nos proporciona la informacin del synset, como se presenta en la figura 10.
Si se extiende la bsqueda por Synonyms/Stem Adjectives con el botn Adverb, no se puede recuperar el synset como se ve en la figura 11. WordNet slo nos muestra que proviene de un adjetivo relacional ([Link]).
106
G. Quiroz
Por tanto, para poder recuperar el synset del adverbio anatomically es necesario buscar por el adjetivo anatomical y la combinacin de Derivational related forms en el botn Adjective, como se observa en la figura 12.
107
Figura 12: Forma de recuperar el synset de los adverbios mediante el adjetivo en WordNet.
108
G. Quiroz
para otros tipos de anlisis. De igual modo, en espaol no se contaron algunas categoras frecuentes en los sintagmas, como los determinantes que estn a la izquierda del ncleo ni las preposiciones. Por otro lado, se extrajeron todos los sintagmas nominales que simplemente cumplan el requisito de extensin sin importar su grado de lexicalizacin (para mayor referencia vase la cita de LHomme en 2.2. Por tanto, para el anlisis cuantitativo se tuvieron en cuenta sintagmas endgenos y exgenos, compuestos (compounds) del tipo N+N+... N, etc. La extraccin se realiz con base en los patrones de superficie de las reglas de entrenamiento obtenidos en los trabajos del DEA mediante la herramienta Repoker42. Para completar los patrones del estudio piloto, se revis la literatura en ingls y en las lenguas romances de modo que no se dejaran patrones potenciales por fuera. Se incluyeron patrones en ingls estudiados o mencionados tangencialmente por Montero (1995), Biber et al (1999), Collet (2003), entre otros. De igual modo, se revis la literatura en espaol y en otras lenguas romances (cataln, francs y portugus) para tomar patrones ya estudiados o mencionados por Montero (1995), Estop (1999), Cartagena (1999), Caf (1999), Collet (2003), Cardero (2004) y Vilvaldi (2004). Al final, se coleccionaron y crearon 99 patrones en espaol y 50 patrones en ingls43 con los cuales se procedi a realizar la extraccin en los dos corpus de referencia del Corpus Tcnic del IULA y posteriormente, en el corpus paralelo. Con un script de Perl, a cada patrn se le asign el nmero de tokens y el patrn con la codificacin del Corpus Tcnic del IULA. En esta extraccin, se obtuvo un total de 21.521 sintagmas en ingls y 38.424 en espaol sin repetir de
42
2004.
43
Herramienta de extraccin creada en Perl por el Dr. de Yzaguirre del IULA en el ao El listado completo de patrones aparece en los anexos 1 y 2.
109
los corpus de referencia y 1.694 SN en ingls del corpus paralelo como se presenta en la tabla 5.
Ingls 21.521 SN 1.694 SN Espaol 38.424 SN x44
Se presentaron diversos problemas durante el proceso de extraccin de los sintagmas. El primer caso, sucede cuando un patrn subsume a otro y, por ende, un sintagma se extrae dos o ms veces errneamente como sucede con el sintagma new human mitochondrial atp-binding cassette membrane protein del ejemplo 7.
7. new human mitochondrial atp-binding cassette membrane protein Adj Adj Adj N N N N new human mitochondrial atp-binding cassette membrane Adj Adj Adj N N N new human mitochondrial atp-binding cassette Adj Adj Adj N N new human mitochondrial atp-binding Adj Adj Adj N N ATP-binding cassette membrane NNNN cassette membrane protein NNN
44 La cantidad de sintagmas del corpus paralelo no aparece ya que este corpus se emple para colocar los sintagmas equivalentes a la muestra de corpus paralelo en ingls.
110
G. Quiroz
El segundo caso ocurre cuando un sintagma con dos premodificadores unidos por un guin en el corpus ser de dos tokens. No se podr extraer con las reglas actuales pues no se han creado patrones de dos tokens, como sucede con los ejemplos 8 y 9.
8. 9. AIDS-related death placebo-controlled trial (X N) (X N)
Como se coment antes, no se extrajeron los sintagmas coordinados con y, o coma, dado que no era posible desambiguar manualmente todos los casos como en los ejemplos 10, 11 y 12 y su anlisis formal presenta otra serie de opciones que no se tenan previstas.
10. 11. 12. a specific and potent inhibitor this randomised, double-blind, placebo-controlled, multicentre trial routine haematological and biochemical laboratory studies
Se presentaron casos falsos de etiquetaje como en los ejemplos 13, 14 y 15 los cuales estn etiquetados como X, es decir, como unidades que no estn incluidas en el lexicn del sistema. Lo sorprendente de estos casos es que simplemente son errores de etiquetaje pues en otros ejemplos se puede recuperar la categora gramatical correcta.
13. 14. 15. which viral dna also competitive inhibitor have high affinity (X Adj N) (X Adj N) (X Adj N)
Para poder solucionar este ruido, se procedi a crear restricciones en todos los patrones de bsqueda con el ruido localizado en las extracciones previas como se ve en el ejemplo 16 para recuperar sintagmas como highly activated myofibroblastic cells con el patrn D6 H6 X NN.* (Adv PP N N) y volver a realizar la extraccin.
111
16.
[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="H6"&word!="containing|including|having|containing|producing|using|causing| identifying|involving"] [pos="X"&lemma!="that|which|who"] [pos="NN.*"]
En la restriccin se le ha pedido que recupere adverbios y, en especial con las unidades terminadas en ly y unidades como in vivo, in vitro, etc. Adems, se le ha pedido que recupere participios de presente y pasado y que no incluya palabras tales como containing, including, having, etc. De este modo, se asegura que no se recuperaran sintagmas con formas que son verbales y no se excluyeron participios de presente que si son parte de sintagmas como en corresponding cloned cdna. Con la categora gramatical X, se recuperaron unidades que no estn en el lexicn del sistema, en especial, unidades muy especializadas y adems se ha restringido a las unidades que daran ruido como that, which, who, entre otros casos como en los ejemplos 13-15 antes descritos. De igual modo, se presentaron problemas con unidades marcadas como XXX como en los ejemplos 17, 18 y 19. Estas son unidades (siglas, smbolos, nmeros, etc.) que se han eliminado en el preproceso del texto por diversas razones que no competen a esta tesis.
17. mitochondrial xxx protein 18. human ovarian xxx cells mitochondrial\JA xxx\MO6 protein\NN6S human\JA ovarian\JA xxx\MO6 cell\NN6P
112
G. Quiroz
19.
Como consecuencia, se perdieron muchos sintagmas con patrones debido al etiquetaje y que potencialmente podan tener una de las unidades antes descritas. En el caso de los sintagmas ms extensos esta dificultad era an ms evidente y probable debido a que este tipo de discurso suele tener muchas siglas, nmeros y nomenclaturas.
113
categora y por exclusin de categora, es decir, se clasificaron los patrones que tienen N, A, Adv, PP, PPi en la premodificacin y tambin, de forma excluyente, patrones que tienen N en la premodificacin pero no A y patrones que tienen A en la premodificacin pero no N. De este modo, se definirn los patrones de superficie ms frecuentes, la categora gramatical que predomina en la premodificacin y el comportamiento del resto de categoras en los patrones. Para el corpus paralelo, se sigui el mismo procedimiento, pero siempre ordenando ambas lenguas al mismo tiempo para poder observar luego las regularidades en las traducciones respecto del ingls. Para poder mantener un control adecuado de los datos, se emplearon diversas hojas en el programa Excel 2003. Las tablas o datos que se filtraban en Excel se tabulaban en el programa Statgraphics. Para el anlisis morfolgico se prepararon las diferentes listas de acuerdo con el sufijo. Las dependencias sintcticas se marcaron con nmeros y posteriormente se cruzaron con los patrones superficiales para obtener las diferentes tablas presentadas en 6 y 7. Una vez obtenidas las tablas, los nmeros de las dependencias se convirtieron a una estructura de corchetes tipo [A [B C]]. En la tabla 6 se muestra un ejemplo de un sintagma con sus etiquetas morfosintcticas y semnticas (mapeadas posteriormente). Una vez etiquetados semnticamente cada uno de los tokens de las muestras, se introdujeron en Statgraphics para obtener la tabulacin de las diferentes clases en WordNet, EuroWordNet o UMLS.
ID 26 26 26
N. del elemento 3 2 1
Cat. lxica D6 JA NN
114
G. Quiroz
Para poder obtener los patrones superficiales y semnticos, se han paralelizado hasta obtener las secuencias presentadas en la tabla 7.
ID
Sintagma nominal
Patrn UMLS
Una vez se han obtenido los patrones, se introdujeron en Statgraphics para tabular todos los patrones superficiales y semnticos en los tres programas empleados. En el caso de UMLS, se mapearon todos los tipos semnticos a los nueve grupos semnticos con el fin de obtener ms regularidades siguiendo el procedimiento anterior. Por ejemplo, el sintagma anatomically modern humans tiene los tipos Functional Concept not found Human que se han mapeado a los grupos semnticos CONC NotF LIVB.
115
patrones elegibles a 33 en ingls y 60 en espaol45. Puesto que se deba seleccionar unidades completas se redonde cada cifra a un nmero inferior o superior. As la muestra sintctica final qued distribuida de la siguiente manera: 1.055 sintagmas para el ingls y 1.096 sintagmas para el espaol como puede verse en la tabla 6.
Ingls Espaol
Tamao calculado Tamao final Extraccin total Error aprox. de la muestra de la muestra 21.521 3% 1.060 1.055 38.424 3% 1.087 1.096
Para la seleccin de la muestra para los anlisis de dependencias y semntico, se calcul una muestra aproximada del 20% a partir de la muestra sintctica con los 10 patrones ms frecuentes de la muestra. Para el ingls, se seleccionaron 232 SN, un 24,37% de los 1.055 de la muestra sintctica y para el espaol 200, un 22% de los 1.096 sintagmas de muestra. Toda la muestra semntica se etiquet manualmente con WordNet 2.1 y UMLS para el ingls y con EuroWordNet 1.6 para el espaol.
Muestra morfosintctica Ingls Espaol 1.096 1.055 Muestra de dependencias y semntica 232 SN 200 SN Porcentaje 24,37% 22%
En cuanto a los textos paralelos, se extrajeron 1.649 sin repetir representados en 157 patrones de superficie. Se seleccion una muestra de 332
45
Para ver la lista completa de patrones finales con ejemplos, vase los anexos 3 y 4.
116
G. Quiroz
sintagmas con un error aproximado del 5% para asignar a cada sintagma su equivalente en espaol.
Tamao de la Tamao final de muestra calculado la muestra 320 320 332 332
Todas las muestras se separaron manualmente de la extraccin inicial y todos los sintagmas se extrajeron manualmente bajo los siguientes criterios: frecuencia de mayor a menor carcter terminolgico del ncleo y sus modificadores si fuera posible correccin del sintagma (completo) Finalmente, a cada sintagma de la muestra se le asign su equivalente en espaol y el patrn superficial correspondiente. En cada captulo se explicarn los criterios, la metodologa y los anlisis correspondientes.
117
118
G. Quiroz
4.5 1 Distribucin de acuerdo con la longitud ......................................................... 163 4.5.2 Categora lxica predominante y aspectos morfolgicos .................................. 164 4.5.3 Frecuencia de los patrones por aparicin ....................................................... 168 4.5.4 Frecuencia de los patrones por longitud ......................................................... 170 4.6 RECAPITULACIN .............................................................................................. 172
119
120
G. Quiroz
4.1 Introduccin
La premodificacin es una funcin sintctica del sintagma nominal y puede tener varios tipos de modificadores: el adjetivo como en el ejemplo 1, los participios de presente y pasado como en los ejemplos 2 y 3, y el mismo sustantivo como en el ejemplo 4. 1. 2. 3. 4. total human genomic DNA inherited mitochondrial DNA diseases circulating monoclonal protein vehicle control cell growth
De igual modo, se pueden encontrar otras categoras lxicas e incluso estructuras gramaticales en la premodificacin. En el ejemplo 5 se presenta un sintagma adverbial que, en su conjunto, modifica al ncleo. En el ejemplo 6 aparece una forma verbal como premodificador y en el ejemplo 7 un sintagma preposicional. 5. 6. 7. darkly stained apical dendrites need-to-know basis after-sales manager
En cuanto a su distribucin, la premodificacin tiende ser ms comn en ingls que la posmodificacin (Biber et al 1999: 578) y en el registro acadmico, al menos un 60% de los sintagmas nominales tiene algn premodificador. La premodificacin es semnticamente menos explcita que la posmodificacin para identificar las relaciones entre los premodificadores y el ncleo, debido a la ausencia de preposiciones que son las que mantienen dichas relaciones (Varantola 1984: 38). Lo anterior se hace ms evidente cuando aumenta la extensin del sintagma (Trimble 1985: 133; Vivanco 1994: 755), como en los
121
sintagmas con premodificacin compleja que se observan en esta tesis. Sin embargo, esta una estructura ms compacta y densa ya que en poco espacio contiene una gran cantidad de informacin de forma precisa (Varatola 1984: 43). Algunos autores han informado tangencialmente la presencia de sintagmas con premodificacin compleja, en muchos casos, ms como una caracterstica rara del lenguaje (Orwellian 1974, Quirk et al 1985, Trimble 1985, Burnett 1992, Huckin 1991, Kirkman 1992, Blake y Bly 1993, Norman 1999, entre otros). Biber et al (1999: 597) muestran cuantitativamente su presencia en diferentes registros discursivos. La cuestin sintctica actual de la premodificacin se centra en el orden preferido y las restricciones sintcticas de la premodificacin. Quirk et al (1985: 1341 y ss) dividen el anlisis del orden de la premodificacin en cuatro zonas: precentral, central, postcentral y prenuclear (pre-head46). Adems, se subdividen como se explica a continuacin en el grfico 1. La primera zona, denomina precentral, incluye los adjetivos no graduables (non-gradable adjectives), entre ellos, los adjetivos intensificadores (intensifying adjectives): - enfatizadores (emphasizers): certain, definitive, plain, pure - amplificadores (amplifiers): absolute, entire, extreme, perfect, total - atenuadores (downtoners): feble, slight En la segunda zona denominada central se encuentran los adjetivos de grado (gradable adjectives) (big, powerful, slow, thick), es decir, los adjetivos prototpicos para aplicar el test de su valoracin (uso atributivo en el sintagma, uso predicativo en la oracin y modificacin por very). Estos se dividen en los
46 Se ha dejado en muchos casos el nombre en ingls pues la traduccin de algunos de ellos es problemtica en espaol.
122
G. Quiroz
adjetivos no derivativos (nonderived adjectives) (big, powerful, slow) y en los adjetivos derivativos (derived adjectives): deverbales (interesting, interested, hesitant) y los denominales (angry, rainy, peaceful). Segn estos autores, el orden de la segunda zona en caso de coocurrencia corresponde a la estructura nonderived+deverbal+denominal. Adems, los adjetivos de tamao, longitud y altura anteceden a los adjetivos no derivativos (nonderived adjectives). El grupo de adjetivos emotivos, evaluativos o subjetivos (lovely, nice, wonderful, terrible, horrible) suelen preceder a los otros adjetivos centrales. En la tercera zona, la postcentral, se pueden encontrar los participios de presente y pasado y los adjetivos de color. La cuarta zona, la prenuclear, contiene los premodificadores que menos se acercan al adjetivo, pero que tienen ms carcter nominal. Esta zona puede dividirse en tres subzonas: - adjetivos con propiedades de nombres propios que denotan nacionalidad, origen y estilo (American, Gothic) - adjetivos con caractersticas morfolgicas o semnticas relacionadas con sustantivos y que tienen el significado de consisting of o relating to (annual, economic, medical, social, political, rural) - sustantivos Si dos premodificadores de la misma clase coocurren, los adjetivos que denotan lugar/tiempo deben ir antes (local economic interest, annual linguistic meeting); stos normalmente no pueden coordinarse. Para Quirk et al (1985: 1341), el principio general para ordenar los modificadores es la polaridad subjetivo/objetivo: las propiedades inherentes al ncleo, visualmente observables y objetivamente reconocibles o accesibles,
123
tienden a ir ms cerca del ncleo. Si el adjetivo es una cuestin de opinin, que no se puede observar visualmente, tender a ir ms lejos del ncleo.
Segn el grfico anterior, los modificadores del sintagma del ejemplo 8 ocupan las siguientes zonas:
8.
[subsequent A I [placebo- controlled] N PP III [clinical [trials]]]] A N IV
Huddleston y Pullum (2002: 452-454) distinguen bsicamente slo dos grandes zonas de anlisis en la premodificacin. Pre-head internal modifiers > Head Huddleston y Pullum (2002: 452-454) distinguen dos grupos dentro de los modificadores internos prenucleares: modificadores internos prenucleares primarios (early pre-head internal modifiers) y modificadores internos
124
G. Quiroz
prenucleares residuales (residual pre-head internal modifiers). En los modificadores internos prenucleares primarios (early pre-head internal modifiers) se encuentran los determinantes, superlativos y adjetivos primarios. Los residual pre-head internal modifiers se han dividido en las siguientes clases, como se aprecia en el ejemplo 9 tomado de Huddleston y Pullum (2002: 452).
9.
Evaluative> General property> an [attractive tight-fitting Age> Colour> Provenance> Manufacture> Type brand-new pink Italian lycra womens] swimsuit
Cada clase de las anteriores puede incluir una subclasificacin de modificadores del siguiente tipo, como se ejemplifica en 9: Evaluativos: modificadores que incluyen la evaluacin del hablante y no una propiedad general objetiva (good, bad) - Propiedades generales: tamao, dimensin, sonido, tacto, gusto, etc. - Edad - Color - Procedencia - Manufactura: modificadores de composicin, modo, etc. - Tipo As pues, el principio de polaridad tambin est presente en la propuesta de estos autores. Las preferencias de orden expuestas anteriormente (Quirk et al 1985; Huddleston y Pullum 2002), deben estar presentes tambin en el discurso especializado. Es decir, las restricciones en el orden y el principio de polaridad debern verse reflejados en los resultados que se presentan en este captulo.
125
126
G. Quiroz
Finalmente, se comparan los datos obtenidos en la muestra con los del corpus lexicogrfico de contraste y se analizan a la luz de los resultados obtenidos por otros autores en algunos de los anlisis llevados a cabo aqu. Por tanto, se pretende en este captulo demostrar que los sintagmas con premodificacin compleja no son un fenmeno raro de la lengua inglesa. Este hecho se ve reflejado tanto en el corpus de anlisis como en el corpus lexicogrfico de contraste. Por un lado, las tendencias de los patrones no slo son cuantitativas sino cualitativas; y, por el otro, la explicacin lingstica en el marco de la lengua general, as como su motivacin pragmtica estn mediadas por la interaccin de los interlocutores del discurso.
4.3 Resultados
De acuerdo con los criterios descritos anteriormente, se han tabulado los datos a partir del programa de estadstica Statgraphics Plus 5.1 para obtener los resultados.
En el corpus de anlisis, se extrajeron unidades desde 3 tokens (uno como ncleo) hasta 8 tokens, como se ve en los ejemplos 10 y 11.
10. 11. T4 polynucleotide kinase (N N N) human acute lymphoblastic leukemia ccrf-cem cdna library (Adj Adj Adj N N N N)
En estudios previos (Quiroz 2005), se encontraron unidades an ms extensas. Estas unidades se extrajeron manualmente lo que ha representado problemas de etiquetaje y extraccin, tal y como se ha comentado en 3.7, en
127
relacin con las unidades ms extensas. De igual modo, Corts (2004) extrajo unidades de hasta 14 tokens (GEMS auto volume control pto shaft speed related system). Como puede verse en la tabla 1, los patrones de 3 tokens (dos en la premodificacin) son los ms frecuentes en la muestra (corpus de anlisis) con un 86,16% del total (909 ocurrencias). Por el contrario, los sintagmas de 4 y 5 tokens tan slo representan un 13,84% del total de sintagmas (12,8% y 1,04%, respectivamente).
N. tokens 3 4 5 Total Frecuencia 909 135 11 1055 Porcentaje 86,16 12,8 1,04 100
Tabla 1: Frecuencia por nmero de tokens del corpus de anlisis del ingls.
En el corpus general, tambin se extrajeron patrones iguales o mayores a seis tokens, pero no se han tenido en cuenta por su baja frecuencia, ya que el criterio de inclusin fue de ms de cinco ocurrencias en la muestra. Los estudios descritos en 2 presentan la misma tendencia que el corpus de esta tesis, es decir, a menor extensin del patrn, mayor frecuencia de aparicin. No es casualidad que la muestra slo contenga patrones de 3, 4 y 5 tokens ya que estas estructuras son las que pueden revertir ms en estabilizacin y posible lexicalizacin del sintagma, como lo plantea Cartagena (1998).
128
G. Quiroz
En principio, la categora lxica por excelencia para modificar el sustantivo debe ser el adjetivo. As se deriva de su funcin atributiva no slo en la oracin sino en el propio sintagma. Como se explic en 2.3, Biber et al (1999: 589) proponen que el adjetivo es la categora lxica ms frecuente en el discurso acadmico. Sin embargo, en un estudio previo (Quiroz et al 2004), se observ que aparentemente el sustantivo era la categora lxica ms frecuente en la premodificacin y no el adjetivo (42% vs. 17%, respectivamente). Como puede verse en la tabla 2, esta tendencia contina en este corpus de anlisis, aunque la diferencia es menor ya que hay ms adjetivos en este corpus (45,95% vs. 32,43%). Puede verse que esta tendencia refrenda la aparicin de ms sustantivos en la premodificacin en ingls al menos en el discurso del genoma.
POS N (sin ncleos) Adj PP Adv Frecuencia 51 36 15 9 Porcentaje 45,95 32,43 13,51 8,11
La explicacin de esta preferencia por los sustantivos en la premodificacin reside en el contenido del discurso. Al ser un corpus especializado, ste tiende a tener ms sustantivos que adjetivos, puesto que la tendencia en un discurso ms especializado en ingls apunta a que las secuencias de N concentran mayor densidad de nudos de conocimiento especializado. De igual modo, y como lo sugiere Halliday (1998: 193; Iturrioz 2000; Gallegos 2000, 2003), entre otros autores, existe una tendencia en el discurso cientfico a emplear nominalizaciones, con lo cual aumenta de entrada la cantidad de sustantivos que puede tener este tipo de discurso.
129
Un aspecto que este trabajo no ha explorado es la variacin vertical (nivel de especializacin) de estos datos y la variacin horizontal (entre diferentes reas del conocimiento), pues es posible que estos datos dependan no slo del nivel de especializacin (sintagmas nominales ms extensos entre ms especializado sea el texto), sino que varen de rea en rea (reas del conocimiento con diferentes niveles de abstraccin, formas de comunicacin, etc.), cuestin que s se ha explorado con el corpus lexicogrfico de contraste pues est conformado por diccionarios de varias reas del conocimiento (Vase 4.4). Es importante resaltar que aunque la cantidad de participios (13,51%) y adverbios (8,11%) no es alta a primera vista, estos porcentajes son altos si se comparan con estudios anteriores (Quiroz 2005) en los cuales, los participios no llegaban a 6,14% y 1,77%. Esto se debe, en primer lugar, a que los patrones extrados contienen este tipo de categoras lxicas, en segundo lugar, a que el corpus es mayor en tamao, lo que permite extraer patrones que son menos frecuentes en corpus de tamao reducido. Adems, si se tiene en cuenta que los patrones que albergan estas dos unidades lxicas son menos frecuentes en este estudio, estos porcentajes son an ms relevantes. Biber et al (1999: 589) encontraron que los participios son ms comunes en el registro acadmico que en los otros registros, lo cual corrobora. Los adverbios son relativamente poco comunes comparados con los sustantivos y los adjetivos. Sin embargo, los participios y los adverbios en la muestra de este estudio representan un tercio y un cuarto de los adjetivos, con lo cual no puede decirse que sean poco comunes. Ms adelante, se ver el papel que juegan estas dos categoras cuando funcionan como pares del tipo Adv PP, Adv Adj, etc. dentro del sintagma. Si bien los tipos de participios (de presente y pasado) tienen funciones diferentes no slo al nivel de la oracin sino al nivel de la sintaxis del sintagma, no fue posible separarlos durante la extraccin dado que los etiquetadores no los diferencian claramente o tienen problemas de desambiguacin. Sin embargo, en el anlisis semntico se podr diferenciar su funcin y se asociarn
130
G. Quiroz
a sus respectivos patrones. La importancia y la funcin del participio de pasado, por ejemplo, como categora premodificadora del sustantivo en el discurso especializado ya haban sido puestas de relieve por Swales (1985: 42-43). Para Swales (1985: 42) la posicin pronominal de los participios de pasado puede estar asociada con rasgos generales o caractersticos y permanentes. De igual modo, la importancia de estas dos categoras ha empezado a cobrar vigencia en estudios contrastivos. Por ejemplo, los estudios llevados a cabo por Boughedaoui (1995, 1996, 1997, 1998, 2001), Maniez (2001) y Ormord (2001) sobre la coocurrencia de algunos patrones binarios dentro de la premodificacin en ingls y las posibles traducciones al francs son de total relevancia para el par ingls-espaol. De igual modo, Vivanco (1994: 755-757) hace un pequeo anlisis del ingls al espaol sobre los procesos de nominalizacin y las funciones de estas dos categoras dentro de los sintagmas nominales complejos. Concluye que aunque formalmente son formas no personales del verbo, sintctica y funcionalmente han dejado de serlo ya que muchos de ellos pasan a ser verdaderos sustantivos y adjetivos (Vivanco 1994: 757).
La distribucin de patrones por nmero de tokens de la tabla 3 muestra que los patrones ms frecuentes son los de 3 tokens con una media de 75,75 sintagmas por patrn, luego siguen los patrones de 4 tokens con una media de 7,94 sintagmas por patrn y, por ltimo, los patrones de 5 tokens con una media de 2,2 sintagmas por patrn. Estos datos muestran que la variabilidad en los patrones de superficie en los patrones menos extensos es menor si se compara con la alta variabilidad de los patrones ms extensos que es de casi un patrn por cada dos sintagmas. Como se ver en 8, est variabilidad hace difcil la sistematizacin de este tipo de patrones no slo para propsitos de traduccin sino tambin para propsitos de terminologa y enseanza de lenguaje especializados. Y son precisamente estos los que ms problemas de ambigedad generan en el lector no experto, e. g. estudiante universitario, traductor, etc.
131
Igualmente, es necesario sealar que tambin los patrones ms extensos (seis en adelante) son los menos frecuentes y que la probabilidad de encontrarlos en un texto es baja. De ah que este estudio se centre en los ms frecuentes que igualmente pueden generar problemas de interpretacin en el hablante no por el aspecto conceptual sino por el aspecto lingstico (Trimble 1985: 131).
Tokens 3 4 5 Total
Patrones 12 17 5 34
En la tabla 4 se presentan los 20 patrones ms frecuentes de la muestra. Estos 20 patrones representan el 97,35% del total de la muestra con 1.027 ocurrencias sobre un total de 33 patrones y 1.055 ocurrencias. Es decir, que, en el resto de la muestra, existe una gran variabilidad en los 13 patrones restantes y 30 ocurrencias; es decir, hay casi un patrn por cada 3 sintagmas. En cambio, en estos 20 patrones existe una relacin de 1 patrn por cada 51 sintagmas, lo que permite llevar a cabo generalizaciones ms confiables, cuestin que no es muy factible con los otros 13 patrones. De igual modo, puede verse que los primeros 10 patrones representan el 88,82% de toda la muestra con 937 sintagmas sobre los 90 sintagmas de los segundos 10 patrones (8,53%).
132
G. Quiroz
Longitud 3 3 3 3 3 4 3 4 3 3 4 3 3 4 4 4 4 4 4 4
Patrn NNN Adj N N Adj Adj N N Adj N PP N N Adj N N N PP Adj N NNNN Adv Adj N N PP N Adj Adj N N Adv PP N Adj PP N N Adj N N Adj N Adj N PP N N N PP Adj N N Adj Adj Adj N Adv Adj N N Adv PP N N
Ejemplo Frecuencia polymerase chain reaction 317 horizontal gene transfer 254 human genomic DNA 113 platelet dense granules 62 reduced insulin responsiveness 51 fetal brain cDNA library 33 polarized epithelial cells 31 restriction fragment length polymorphism 28 anatomically modern humans 25 ATP binding site 23 human peripheral blood lymphocytes 16 genetically engineered microorganisms 19 neutral buffered formalin 13 immunoglobulin heavy chain locus 10 human APOE genomic DNA 9 pulsed field gel electrophoresis 6 inherited mitochondrial DNA diseases 5 total human genomic DNA 4 highly deleterious mtDNA mutations 4 highly conserved phosphotyrosine domain 4
Porcentaje 30,05 24,08 10,71 5,88 4,83 3,13 2,94 2,65 2,37 2,18 1,52 1,8 1,23 0,95 0,85 0,57 0,47 0,38 0,38 0,38
Entre los primeros 20 del corpus de anlisis, los patrones de 3 y 4 tokens estn repartidos al 50%. Sin embargo, su distribucin en cuanto a la frecuencia es desigual, pues en los 10 primeros patrones de la tabla 4, 8 son de 3 tokens y tan slo 2 patrones son de 4 tokens. Al contrario, entre los 10 ltimos de la tabla, 8 patrones son de 4 tokens y 2 patrones de 3 tokens pero las ocurrencias son ms bajas (937 vs. 90). Este aspecto indica de nuevo que existe una relacin inversamente proporcional entre la extensin de un patrn y su aparicin en la lengua. Es decir, entre menos extenso, ms posibilidades tiene de aparecer y entre ms extenso, menos posibilidades tiene de ocurrir. Por tanto, es probable que las unidades de menos extensin tiendan a lexicalizarse y es posible que los diccionarios especializados tengan ms patrones o unidades de 3 tokens, cuestin que se abordar ms adelante. Igualmente, estos datos muestran que la extensin est directamente relacionada con la estabilidad de dichas estructuras al ser ms frecuentes y que una mayor variabilidad est directamente relacionada con una premodificacin ms extensa (Quiroz 2006: 380). En toda
133
la muestra, los 3 patrones ms frecuentes son N N N, Adj N N y Adj Adj N. En conjunto, agrupan 684 sintagmas que representan un 64,84% del total de la muestra y, por extensin, del corpus de anlisis. Los tres patrones son de 3 tokens de extensin y son los que tendern ms a lexicalizarse. Si se analizan los patrones de acuerdo con el tipo de categora lxica presente en la premodificacin, puede verse que hay 14 patrones de los 20 ms frecuentes que tienen uno o ms sustantivos en la premodificacin y equivalen al 77,92% (822 ocurrencias), como se presenta en la tabla 5. Esto demuestra que el sustantivo es la categora lxica por eleccin en la premodificacin al menos en este tipo de discurso. Se explica este gran nmero de patrones y ocurrencias porque son los sustantivos los que naturalmente tienden a representar objetos, procesos, fenmenos, etc. en el discurso cientfico-tcnico y, los que adems, nominalizan las acciones propias de los verbos. Puesto que una de las funciones de la premodificacin es vehicular una gran cantidad de informacin en poco espacio de modo efectivo y eficiente, es el sustantivo la categora prototpica para hacerlo en este tipo de discurso.
Longitud 3 3 3 3 4 4 3 4 4 4 4 4 4 4 Patrn N N N47 Adj N N N Adj N PP N N Adj N N N NNNN N PP N Adj Adj N N N Adj N N Adj N Adj N PP N N N PP Adj N N Adv Adj N N Adv PP N N Ejemplo polymerase chain reaction horizontal gene transfer platelet dense granules reduced insulin responsiveness fetal brain cDNA library restriction fragment length polymorphism ATP binding site human peripheral blood lymphocytes immunoglobulin heavy chain locus human APOE genomic DNA pulsed field gel electrophoresis inherited mitochondrial DNA diseases highly deleterious mtDNA mutations highly conserved phosphotyrosine domain Frecuencia 317 254 62 51 33 28 23 16 10 9 6 5 4 4 Porcentaje 30,05 24,08 5,88 4,83 3,13 2,65 2,18 1,52 0,95 0,85 0,57 0,47 0,38 0,38
47 Son precisamente este patrn y N N N N los ms estudiados en ingls (ver Horsella y Prez 1990).
134
G. Quiroz
En la tabla 6 puede observarse que hay 13 patrones de los 20 ms frecuentes que tienen uno o ms adjetivos en la premodificacin y son el 54,89% (579 ocurrencias).
Longitud 3 3 3 4 3 3 4 3 4 4 4 4 4 Patrn Adj N N Adj Adj N N Adj N Adj N N N PP Adj N Adv Adj N Adj Adj N N Adj PP N N Adj N N Adj N Adj N PP Adj N N Adj Adj Adj N Adv Adj N N Ejemplo horizontal gene transfer human genomic DNA platelet dense granules fetal brain cDNA library polarized epithelial cells anatomically modern humans human peripheral blood lymphocytes neutral buffered formalin immunoglobulin heavy chain locus human APOE genomic DNA inherited mitochondrial DNA diseases total human genomic DNA highly deleterious mtDNA mutations Frecuencia 254 113 62 33 31 25 16 13 10 9 5 4 4 Porcentaje 24,08 10,71 5,88 3,13 2,94 2,37 1,52 1,23 0,95 0,85 0,47 0,38 0,38
La funcin atributiva propia de adjetivo se ve reflejada en un buen nmero de patrones que tienen esta categora lxica. Sin embargo, tienen un 23% menos de presencia en los patrones ms frecuentes que los sustantivos.
Longitud 3 3 4 4 Patrn Adv Adj N Adv PP N Adv Adj N N Adv PP N N Ejemplo anatomically modern humans genetically engineered microorganisms highly deleterious mtDNA mutations highly conserved phosphotyrosine domain Frecuencia 25 19 4 4 Porcentaje 2,37 1,8 0,38 0,38
En la tabla 7 aparecen los 4 patrones de los 20 ms frecuentes que tienen un adverbio en la premodificacin y equivalen al 4,93% (52 ocurrencias). Puede observarse que el adverbio en todos los patrones se encuentra en la posicin ms lejana respecto del ncleo y est modificando a un adjetivo o un participio de pasado y estos en su conjunto al ncleo. La estructura que presenta ms ocurrencias es Adv Adj N con 25 sintagmas, seguida por Adv PP N, ambos de 3
135
tokens de longitud. Puede considerarse que estas dos estructuras con adverbios son relativamente frecuentes si se tiene en cuenta que el adverbio es una de las categoras lxicas menos frecuentes en el sintagma. En la tabla 8 aparecen los 8 patrones de los 20 ms frecuentes que tienen slo un participio en la premodificacin y equivalen al 14,4% (152 ocurrencias). La mayora de participios que se han detectado en las muestras son participios de pasado. Su funcin atributiva dentro de la premodificacin es generalmente el resultado de la lexicalizacin de una oracin pasiva, como los plantea Gotti (2003: 70): The passive construction is also avoided by turning the verb into a past participle and using the latter as a premodifier, como puede verse en el sintagma del ejemplo 12.
12. reduced insulin responsiveness (responsiveness of the insulin which is reduced)
Este mismo hecho lo corrobora Boughedaoui (2001: 142) para el ingls y francs:
Il sagit de structures adjectivales o le deuxime lment est soit un participe pass, soit un participe prsent. Sagissant du premier cas, le sens du participe pass employ comme pithte est en general passif, car cette structure mane de la transformation dune proposition relative passive.
Longitud 3 3 3 3 3 4 4 4
Ejemplo reduced insulin responsiveness polarized epithelial cells ATP binding site genetically engineered microorganisms neutral buffered formalin pulsed field gel electrophoresis inherited mitochondrial DNA diseases highly conserved phosphotyrosine domain
Frecuencia 51 31 23 19 13 6 5 4
136
G. Quiroz
El participio de pasado suele estar a su vez modificado por un adverbio, especialmente terminado en el sufijo -ly (-mente) como resultado de una lexicalizacin de una oracin en voz pasiva modificada por un adverbio, como se ilustra en los ejemplos de 13 y 14.
13. 14. genetically engineered microorganisms (microorganisms which are genetically engineered) polarized epithelial cells (epithelial cells which are polarized)
Puesto que el comportamiento de los participios de presente es flexible, no es posible recuperar su origen en muchos casos. Sager et al afirman (1980: 215-217) que las formas terminadas en -ing pueden funcionar como adjetivos, participios y sustantivos dentro de la misma premodificacin, lo que lo hace una categora muy verstil dentro de la comunicacin especializada para denominar procesos y mtodos. Boughedaoui (2001: 143) explica que la lexicalizacin de los participios de presente en sustantivos resulta de un verbo en voz activa, como se observa en los ejemplos 15 y 16.
15. 16. ATP binding site (a site which binds to the ATP) gene mapping studies (studies that map genes)
Para observar el predominio de una u otra categora lxica, se han separado los patrones que contienen slo adjetivos o sustantivos en los 20 patrones ms frecuentes. En tabla 9 se presentan los 6 patrones que no tienen sustantivo en la premodificacin y equivalen al 19,43% (205 ocurrencias) del total de la muestra. Obsrvese que slo un patrn carece de adjetivo (Adv PP N).
Longitud 3 3 3 3 3 4 Patrn Adj Adj N PP Adj N Adv Adj N Adv PP N Adj PP N Adj Adj Adj N Ejemplo human genomic DNA polarized epithelial cells anatomically modern humans genetically engineered microorganisms neutral buffered formalin total human genomic DNA Frecuencia 113 31 25 19 13 4 Porcentaje 10,71 2,94 2,37 1,8 1,23 0,38
137
En la tabla 10 los 7 patrones que no tienen adjetivo en la premodificacin equivalen al 42,46% (448 ocurrencias), pero tienen sustantivo en su mayora, excepto el patrn Adv PP N, de nuevo. Esto refrenda las observaciones hechas antes no slo en cuanto a que el sustantivo es la categora lxica que ms predomina en los patrones, sino que hay ms patrones con sustantivos (tabla 5) que no tienen adjetivo. Existe ms del doble de patrones que no tienen adjetivos que aquellos que no tienen sustantivos, lo que demuestra la preferencia del discurso cientfico-tcnico por las nominalizaciones.
Longitud 3 3 4 3 3 4 4 Patrn NNN PP N N NNNN N PP N Adv PP N PP N N N Adv PP N N Ejemplo polymerase chain reaction reduced insulin responsiveness restriction fragment length polymorphism ATP binding site genetically engineered microorganisms pulsed field gel electrophoresis highly conserved phosphotyrosine domain Frecuencia 317 51 28 23 19 6 4 Porcentaje 30,05 4,83 2,65 2,18 1,8 0,57 0,38
Finalmente, en la tabla 11 se presentan los 8 patrones de los 20 ms frecuentes que tienen tanto adjetivo como sustantivo en la premodificacin y equivalen al 37,26% (393 ocurrencias). De ellos, 2 patrones son de 3 tokens y 6 de 4 tokens.
Longitud 3 3 4 4 4 4 4 4 Patrn Adj N N N Adj N Adj N N N Adj Adj N N N Adj N N Adj N Adj N PP Adj N N Adv Adj N N Ejemplo horizontal gene transfer platelet dense granules fetal brain cDNA library human peripheral blood lymphocytes immunoglobulin heavy chain locus human APOE genomic DNA inherited mitochondrial DNA diseases highly deleterious mtDNA mutations Frecuencia 254 62 33 16 10 9 5 4 Porcentaje 24,08 5,88 3,13 1,52 0,95 0,85 0,47 0,38
138
G. Quiroz
Los patrones ms frecuentes distribuidos por la cantidad de tokens se presentan a continuacin de mayor a menor extensin. En la tabla 12 los datos muestran que debido a la variabilidad estructural de este tipo de sintagmas, no existe un patrn que sea ms productivo que permita obtener regularidades a este nivel. Sin embargo, puede observarse en los ejemplos que todos son unidades especializadas y que intuitivamente forman unidades de conocimiento. Estas unidades funcionan como modos de expansiones de unidades de menos tokens. Por ejemplo, el patrn N N N N N es una expansin del patrn N N N N que es el segundo patrn ms extenso de los patrones de 4 tokens con una frecuencia media, y este a su vez del patrn N N N que es el ms frecuente de todos los patrones de este estudio. En el ejemplo 17, se presenta la expansin del patrn N N N y sus ocurrencias en el buscador Google. Obsrvese en el ejemplo 17 que la frecuencia disminuye a medida que aumenta la extensin y la especializacin del sintagma.
17. V1aR mRNA transcription start site (10 veces)48 mRNA transcription start site (333 veces) transcription start site (695.000 veces)
Ejemplo Frecuencia human mitochondrial half ABC protein 3 Human Prostaglandin F Receptor Gene 3 V1aR mRNA transcription start site 3 mature neuronal nicotinic acetylcholine receptors 1 covalently closed plasmid DNA band 1
48
139
En la tabla 13 se presentan los patrones de 4 tokens (con el ncleo). En total, la muestra contiene 17 patrones de 4 tokens que representan un 12,8% y 135 ocurrencias. Los patrones de 4 tokens agrupan casi la mitad de los patrones de la muestra y, hasta cierto punto, presentan una variabilidad sintctica importante al tener una relacin de 1 patrn por cada 8 sintagmas. El patrn ms frecuente es Adj N N N con 3,13% y 33 ocurrencias, seguido muy de cerca por el patrn N N N N con un 2,65% y 28 ocurrencias. Puede observarse que, a diferencia de los patrones de 5 tokens, hay patrones que tienen una frecuencia mayor que otros como sucede con los 5 primeros de la tabla, los cuales representan ms de la mitad de las ocurrencias de los otros 12 patrones (96 contra 39) y tienen una alta frecuencia en el corpus.
Patrn Adj N N N NNNN Adj Adj N N N Adj N N Adj N Adj N PP N N N PP Adj N N Adj Adj Adj N Adv Adj N N Adv PP N N Adv Adj Adj N N N PP N PP Adj Adj N Adv PP Adj N N Adj Adj N N PP N N N Adv N N Ejemplo fetal brain cDNA library restriction fragment length polymorphism human peripheral blood lymphocytes ELT-3 smooth muscle cells high affinity human antibodies pulsed field gel electrophoresis increased fat cell number cytogenetic bacterial artificial chromosome highly deleterious mtDNA mutations locally produced growth factors morphologically identifiable apoptotic cells Arabidopsis suspension cultured cell polarized renal epithelial cells darkly stained apical dendrites rabbit fast skeletal muscle suspension- cultured Arabidopsis cells fluorescence in situ hybridization probes Frecuencia 33 28 16 10 9 6 5 4 4 4 3 3 3 2 2 2 1 Porcentaje 3,13 2,65 1,52 0,95 0,85 0,57 0,47 0,38 0,38 0,38 0,28 0,28 0,28 0,19 0,19 0,19 0,09
En la tabla 14 se presentan los patrones de 3 tokens. Estos representan un 86,16% de toda la muestra con 909 ocurrencias. Existe una variabilidad sintctica de 1 patrn por cada 75,75 sintagmas. Salvo por el patrn PP PP N, todos los patrones de 3 tokens tienen una alta frecuencia, lo que puede revertir en estructuras estables y con tendencia a que estas unidades sean trminos.
140
G. Quiroz
Patrn NNN Adj N N Adj Adj N N Adj N PP N N PP Adj N Adv Adj N N PP N Adv PP N Adj PP N PP PP N
Ejemplo polymerase chain reaction horizontal gene transfer human genomic DNA yeast artificial chromosome reduced insulin responsiveness polarized epithelial cells environmentally dependent phenotype nucleotide binding pocket genetically engineered microorganisms neutral buffered formalin written informed consent
Porcentaje 30,05 24,08 10,71 5,88 4,83 2,94 2,37 2,18 1,8 1,23 0,09
El patrn ms frecuente es N N N con un 30% del total de la muestra y 317 sintagmas, seguido por el patrn Adj N N con un 24,08% y 254 sintagmas. A su vez son las estructuras ms frecuentes en todo el corpus de anlisis en ingls. Una vez ms, se observa que la longitud de los patrones incide directamente en la variabilidad sintctica, es decir, a mayor extensin, ms variabilidad existe y a menor extensin, menor variabilidad. De igual modo, la productividad de los patrones tiende a disminuir con la extensin. Entre ms extenso sea un patrn, menos productivo ser y entre menos extenso sea, ms productivo ser. De hecho, puede considerarse que los patrones de productividad media a baja de 3 tokens (4,86% y un rango entre 30,05% y 1,23%) son ms productivos que el patrn ms productivo de 4 tokens (0,28%) y de 5 tokens (3,13%). Sin embargo, esta productividad tambin puede ser un problema desde el punto de vista terminolgico ya que los patrones ms productivos pueden contener muchas unidades que no son terminolgicas, mientras que aquellos de productividad media pueden presentar menos ruido. Este aspecto podr observarse ms adelante con el corpus lexicogrfico (4.4).
141
Como se explic en el captulo de la metodologa (3.7), para el anlisis de dependencias sintcticas de los patrones en ingls, se seleccion manualmente una muestra de los 10 patrones ms frecuentes a partir de la muestra del anlisis morfosintctico. Estos 10 patrones representan 88,82% de toda la muestra con 937 sintagmas. Para ello, se seleccion un 24,37% de los sintagmas y se distribuy proporcionalmente de acuerdo con su frecuencia, como se hizo con la muestra sintctica. Es decir, al patrn ms frecuente, le corresponden ms sintagmas para el anlisis semntico y al patrn menos frecuente se le asignan menos sintagmas. Por ejemplo, el patrn N N N es el ms frecuente del corpus y le corresponden 54 sintagmas y el menos frecuente es el Adv PP N N y le corresponden 4 sintagmas. A su vez esta muestra se emple para el anlisis semntico de 6. En la tabla 15 se presenta la frecuencia de dependencias en el conjunto de patrones en ingls. La relacin de dependencia [C [[B A]] es la ms frecuente en todo el corpus en ingls con ms del 61,2% de todas las ocurrencias (142) del corpus de anlisis.
Dependencia [C [[B A]] [[C B] A] [[D C] [B A]] Ambigua Frecuencia 142 67 12 11 Porcentaje 61,2 28,89 5,17 4,74
En esta dependencia el primer modificador forma un conjunto con el ncleo del sintagma a manera de compuesto sintagmtico y el modificador externo lo modifica, como se ejemplifica en 18.
18. metastatic colorectal cancer, columnar epithelial cells, central nervous system, white blood cells, red blood cells, aberrant FHIT transcript, male sexual
142
G. Quiroz
orientation, backbone nuclear resonances, helper T cells, mouse Igf2r gene, DNA Sequencing Kit, TA Cloning Kit, expected molecular mass, circulating monoclonal protein, polarized epithelial cells, pulverized rat chow, reduced insulin responsiveness
Posteriormente, sigue la relacin de dependencias [[C B] A] con un 28,89% de todas las ocurrencias (67). En esta dependencia, los dos premodificadores forman un conjunto para modificar al ncleo, como se muestra en los ejemplos de 19.
19. mitochondrial DNA mutations, smooth muscle cells, mitochondrial DNA molecules, adipose cell size, fetal brain library, eukaryotic DNA metabolism, highly polymorphic markers, environmentally dependent phenotype, highly polymorphic markers, bone marrow aspirate, FHIT gene transcript, T cell responses, bile duct ligation, carbon tetrachloride model, Hepatitis B virus
Por ltimo, aparece la dependencia [[D C] [B A]] con un 5,17% de todas las ocurrencias (12) para patrones de 4 tokens, como se observa en los ejemplos de 20.
20. somatic cell hybrid panel, fetal brain cDNA library, somatic cell hybrid analysis, somatic cell hybrid DNA, white blood corpuscle count, American Type Culture Collection, antibiotic resistance marker genes, plasmid DNA production process, Protein A affinity chromatography, potassium channel gene cluster
En la tabla 16, se presentan las relaciones de dependencia de cada uno de los patrones. El patrn Adj Adj N tiene todas sus ocurrencias (28) con la dependencia [C [[B A]]. Por ejemplo, en el sintagma human peripheral blood, el primer adjetivo peripheral modifica directamente al ncleo blood para formar un conjunto peripheral blood y, luego el segundo adjetivo human modifica al conjunto peripheral blood, como puede tambin observarse en los casos de 21.
143
21.
green fluorescent protein, human peripheral blood, total cellular RNA, central nervous system, columnar epithelial cells, fetal bovine serum, human fetal brain, human genomic DNA, human genomic library, human mitochondrial DNA, human placental DNA, immature leukocytic cells, immunoreactive glial cells, inner nuclear membrane, large human chromosome, metastatic colorectal cancer, multiple congenital abnormalities, normal human cortex, total genomic DNA, total human DNA
Patrn Adj Adj N Adj N N Adj N N Adj N N Adj N N N Adv Adj N N Adj N N Adj N NNN NNN NNN NNNN NNNN N PP N PP Adj N PP N N
Dependencia Frecuencia Porcentaje [C [[B A]] 28 12,06 [C [[B A]] 46 19,82 [[C B] A] 22 9,48 Ambiguo 1 0,431 [[D C] [B A]] 7 3,017 [[C B] A] 6 2,586 [C [[B A]] 14 6,034 Ambiguo 1 0,431 [[C B] A] 39 16,81 [C [[B A]] 28 12,07 Ambiguo 8 3,448 [[D C] [B A]] 5 2,155 Ambiguo 1 0,431 [C [[B A]] 6 2,586 [C [[B A]] 9 3,879 [C [[B A]] 11 4,741
El patrn Adj N N tiene dos relaciones de dependencia [C [[B A]] con 46 ocurrencias (64,78%) y [[C B] A] con 22 (35,21%) de un total de 71 ocurrencias. En el caso de la dependencia [C [[B A]], que representa a la mayora de ocurrencias, el sustantivo premodificador blood forma un tipo de compuesto con el ncleo blood cell, este conjunto es modificado por el adjetivo red para formar el sintagma red blood cell y los sintagmas de 22.
22. horizontal gene transfer, human NGF gene, white blood cells, prandial insulin infusion, human X chromosome, apoptotic cell death, Human IL11RA gene, outer root sheath, embryonic stem cells, endothelial growth factor, human IGF2R Gene, human MRP genes, human tau gene, human TnTf gene, inner root sheath, epithelial root sheath, epidermal growth factor, human HMGIC gene,
144
G. Quiroz
aberrant FHIT transcript, human APOE gene, human YAC library, individual TLE genes, basolateral cell membrane
En cambio, en la dependencia menos frecuente para el patrn Adj N N, [[C B] A], el adjetivo adipose modifica al sustantivo premodificador cell y este conjunto adipose cell al ncleo size para formar el sintagma adipose cell size y los casos que se presentan en 23.
23. chemical shift changes, mitochondrial DNA mutations, genomic DNA fragments, smooth muscle cells, cytoplasmic membrane protein, bovine serum albumin, mitochondrial DNA molecules, fetal calf serum, genomic DNA clones, human metaphase chromosomes, meiotic recombination distance, Southern blot hybridization, adipose cell size, chemical shift differences, genomic DNA fragment, contiguous gene syndromes, fetal brain library, eukaryotic DNA metabolism
El patrn Adj N N N tiene todas las ocurrencias (7) regidas por la dependencia [[D C] [B A]], como se ejemplifica en 24. En este caso el sintagma el adjetivo fetal modifica brain y el sustantivo cDNA al ncleo library. Posteriormente el sintagma somatic cell modifica al sintagma cDNA library para formar el sintagma fetal brain cDNA library.
24. somatic cell hybrid panel, fetal brain cDNA library, somatic cell hybrid analysis, unequal variance t test, somatic cell hybrid DNA, white blood corpuscle count, American Type Culture Collection
Al igual que el patrn anterior, el patrn Adv Adj N est regido por la misma dependencia [[C B] A] con 6 ocurrencias, como se observa en los ejemplos de 25. En el sintagma highly polymorphic markers, el adverbio highly modifica al adjetivo polymorphic para formar el sintagma adjetival highly polymorphic para modificar conjuntamente al ncleo markers.
145
25.
anatomically deleterious
modern mutations,
humans,
right
ventricular
myocardium, phenotype,
slightly highly
environmentally
dependent
El patrn N Adj N tiene tambin casi la totalidad de las ocurrencias regidas por la dependencia [C [[B A]], como se ve en los ejemplos de 26.
26. platelet dense granules, yeast artificial chromosome, glucose specific activity, BAC genomic clone, male sexual orientation, myosin heavy chain, MUC7 genomic clones, Genius nonradioactive DNA, backbone nuclear resonances, herpes simplex virus, lung lysosomal enzymes, kidney lysosomal enzymes, APOE Genomic DNA, apoE neuronal immunoreactivity, APOE transgenic mice
El patrn N N N tiene bsicamente 2 formas de dependencia: [[C B] A] con 39 ocurrencias (87,93%) y [C [[B A]] con 28 ocurrencias (12,07%). En la primera dependencia [[C B] A], los sustantivos de la premodificacin potassium channel forman un sintagma nominal que modifica directamente al ncleo gene para formar el sintagma potassium channel gene, como sucede con los casos de 27.
27. ELT-3 cell growth, LIM domain proteins, metaphase chromosome spreads, amyloid subunit protein, amino acid changes, K2 cell monolayers, plasmid DNA production, tyrosine kinase activity, amino acid identity, amino acid level, animal cell pol, T cell responses, ArG promoter polymorphism, cytokine gene polymorphism, LIM domain protein, plasmid copy number, plasmid DNA vaccines, calcium phosphate method, amino acid differences, antibiotic resistance marker, carbon tetrachloride model, plasmid copy number, amino acid sequence, bone marrow aspirate, carbon tetrachloride model, stellate cell activation, FHIT gene transcript, FHIT transcript aberration, APOE knockout mice, APOE knockout mouse, CTD phosphate turnover
Sin embargo, bajo esta misma dependencia se encuentran ejemplos como el sintagma hepatitis B virus, en el cual, el ncleo del sintagma nominal premodificador, hepatitis B no es el sustantivo B sino el sustantivo hepatitis. En
146
G. Quiroz
este caso el que hace las veces de modificador es el sustantivo B. Luego este sintagma premodifica en su conjunto al ncleo virus. Aunque es un solo caso de la muestra, existen otros casos en el corpus, y en general, todos aquellos que tienen un sustantivo con carcter nomenclador (e.g type I collagen). El patrn N N N N tiene una sola forma de dependencia: [[D C] [B A]] con 5 ocurrencias (83,33%) aunque hay 1 ambiguo. En esta dependencia, el sustantivo plasmid modifica a DNA y el sustantivo production al ncleo process. Luego el sintagma nominal somatic cell modifica al sintagma nominal cDNA library para formar el sintagma plasmid DNA production process, como sucede con los casos de 27 presentados antes. El patrn N PP N tiene una sola forma de dependencia: [C [[B A]] con 6 ocurrencias. En este patrn, el participio sequencing modifica al ncleo kit y estos son modificados por el sustantivo DNA para formar el sintagma DNA sequencing kit, como se ve en los ejemplos de 28.
28. nucleotide binding pocket, SDS loading buffer, mutant processing proteins, T7 sequencing kit, DNA sequencing kit, TA cloning kit
El patrn PP Adj N tiene una sola forma de dependencia: [C [[B A]] con 9 ocurrencias. En este patrn, el adjetivo epithelial modifica al ncleo cells y estos son modificados por el participio polarized para formar el sintagma polarized epithelial cells, como se ilustra en los ejemplos de 29.
29. polarized epithelial cells, circulating monoclonal protein, expected molecular mass, increased chromosomal breakage, automated thermal cycler, ragged red fibers, repeated auditory stimuli, repressed paternal allele, biotinylated genomic fragment
El patrn PP N N tiene una sola forma de dependencia: [C [[B A]] con 11 ocurrencias. En este patrn, HIV-1 modifica al ncleo disease y estos son
147
modificados por el participio advanced para formar el sintagma advanced HIV1 disease, como se ve en los ejemplos de 30.
30. growing polypeptide chain, reduced insulin responsiveness, masked study medication, advanced HIV-1 disease, expected PCR product, increased chromosome carriers breakage, known HLA-DR2 association, striated muscle contraction, published cDNA sequence, pulverized rat chow, verified mutation
Hay 11 sintagmas que se han etiquetado como ambiguos dado que sera necesario el conociminento de un especialista o experto en el mbito para poder asignar la dependencia o en algunos casos dicha dependencia no es del todo clara como sucede con el caso de HBV DNA polymerase, en el cual HBV DNA (hepatitis B virus DNA) existe como trmino segn el glosario de HB Foundation49 y DNA polymerase como enzima segn el diccionario Stedman de medicina.
HBV DNA is a marker of viral replication and level of infectivity. It is used to assess and monitor the treatment of patients with chronic HBV infection.
DNA polymerase -> nucleotidyltransferases: enzymes (EC class 2.7.7) transferring nucleotide residues (nucleotidyls) from nucleoside di- or triphosphates into dimer or polymer forms. Some nucleotidyltransferases's bear specific names (e.g., adenylyltransferases), or trivial names indicating the linkage hydrolyzed in the synthesis (pyrophosphorylases, phosphorylases), or names of the material synthesized (RNA or DNA polymerase).
49
[Link]/expforum/[Link]
148
G. Quiroz
Uno degli aspetti fondamentali che caratterizzano lattivit del traduttore la ricerca delle corrispondenze terminologico-concettuali nelle lingue di partenza e di arrivo, che diventa tanto pi laboriosa quanto maggiore il livello di specializzazione del testo da tradurre.
Como lo revela Translation Memory Survey 2007 (13, 14), cuando los traductores profesionales se encuentran en el escenario de no saber la traduccin de una oracin en la lengua de llegada, el 83% de los traductores
149
recurren a los diccionarios como primera fuente de bsqueda bien sea en forma de diccionarios o glosarios en CD-ROM (30%), en diccionarios o glosarios en Internet (21%), en diccionarios o glosarios y en papel (17%) o en un buscador tipo Google (15%). En consecuencia, los diccionarios especializados son la principal y ms confiable fuente de consulta de terminlogos, traductores, estudiantes universitarios y profesionales de las lenguas, ya que proporcionan diversos tipos de informacin que pueden ser tiles para los diferentes usuarios. En la tabla 17 se presenta cada uno de los diccionarios consultados, su rea temtica con su nmero de entradas y la cantidad de trminos de ms de tres tokens de longitud y el porcentaje de esta ltima cantidad. Puede observarse que existe una tendencia que entre ms extensos sean los diccionarios, menos cantidad de sintagmas de ms de tres tokens tienen. Esto quiere decir que entre ms grande sea un diccionario, ms cantidad de unidades simples tiene. Por ejemplo, el diccionario Routledge de economa, que tiene unas 38.000 entradas, slo tiene 5.269 sintagmas de ms de tres tokens (13,86%) y 11.890 unidades simples (31,28 %). Si se revisara rpidamente algunas de estas unidades simples, puede verse que tienen un carcter terminolgico dudoso o slo funcionan como unidades terminolgicas generales dentro del diccionario (p. ej., omnibus, Web, above, able, have, hysteresis, etc.). Al contrario, entre menos entradas tenga un diccionario, ms unidades de tres tokens de longitud tienen. Por ejemplo, el diccionario ISI de estadstica tiene 4.500 entradas, de las cuales 1.238 son ms de tres tokens (35,37%). Este mismo hecho puede observarse en un estudio sobre la alineacin de trminos multipalabra (Daille et al 2004: 921). Estos autores tomaron los datos de tres repositorios terminolgicos del ingls al francs en el rea de la silvicultura y puede inferirse la misma relacin entre el tamao del diccionario de la cantidad de unidades multipalabra (700 trminos y 70% de unidades multipalabra, 2.800 trminos y 66% y 15.000 trminos y 47%).
150
G. Quiroz
Puede verse adems que las diferencias entre los diccionarios no radican en el rea temtica sino en el tamao del diccionario. Al menos en este sentido, no existe una diferencia importante, es decir, no existe una relacin entre el tema y la extensin de los sintagmas. Antes, se plante que entre ms extensos fueran los sintagmas, ms especializados y menos estables tendan a ser. Por tanto, el grado de especializacin de un diccionario no est regido en apariencia ni por la extensin de los sintagmas ni por el rea temtica, a pesar de que existe la idea generalizada de que este tipo de sintagmas es tpico de ciertas reas del conocimiento como lo propone Sager (1980: 272): ... in practice five- or sixelement compounds are rare, but variations exist between special subjects.
Diccionario Diccionario Mosby Diccionario IFCC IMF Terminology Routledge Dictionary ISI Multilingual Glossary rea temtica Medicina Lab. Clnico Economa Finanzas Estadstica N. de entradas 31.400 4.039 4.500 38.000 3.500 SN de +3 tokens 3.553 725 766 5.269 1.238 Porcentaje 11,31% 17,94% 17,02% 13,86% 35,37%
A continuacin, se describen los resultados del corpus lexicogrfico de contraste que se emplea para poder observar las tendencias de extensin, frecuencia de los patrones de ms de 3 tokens en diferentes reas del conocimiento.
En la tabla 18 se presentan los resultados de la longitud de los sintagmas en los diccionarios ordenados de menor a mayor (de tres tokens a siete tokens). As, existe una relacin directa entre la extensin del sintagma y la frecuencia de aparicin en todos los diccionarios.
151
5 tokens 87 37 22 106 34
6 tokens Porc. 7 tokens Porc. 17 0,048 6 0,017 20 2,76 2 0,28 18 4 0,034 4 0,032 1 0,057 0,008 0,008 0,06
Tabla 18: Frecuencia por nmero de tokens del corpus lexicogrfico de contraste en ingls.
En todo el corpus lexicogrfico de contraste, los sintagmas de 3 tokens son los ms frecuentes (9.561 ocurrencias y un 79,87% en promedio), como se ilustra en la tabla 20. Por el contrario, los sintagmas de ms de 7 tokens son los menos frecuentes (13 ocurrencias y un 0,06% en promedio). Adems, puede verse que los sintagmas de 3 y 4 tokens agrupan el 96,06% de todos los sintagmas del corpus lexicogrfico, lo que una vez ms confirma los resultados obtenidos por Cartagena (1998) y Quiroz (2005), en cuanto a que la extensin de los sintagmas est en el rango de 3 y 4 tokens. En este corpus lexicogrfico, solo el 3,94% representa al resto de sintagmas (de 5 a 8 tokens). Desde un punto de vista de la traduccin, las unidades de ms de 5 tokens son las que ofrecen ms problemas a la hora de acuar un equivalente en espaol y, por tanto, su bajo nivel de aparicin en los diccionarios es una desventaja para el traductor ya que seran potencialmente unidades que buscara durante el proceso de traduccin.
En las gramticas ms importantes del ingls, (e.g. Biber et al 1999: 589) y libros de ingls para propsitos acadmicos (IAP), se establece que la categora lxica ms comn en la premodificacin es el adjetivo y no el sustantivo. Sin embargo, este estudio tambin confirma las observaciones hechas antes en Quiroz (2005) de que en el discurso especializado los sustantivos son ms
152
G. Quiroz
frecuentes en la premodificacin que los adjetivos. Esto se debe a que el discurso especializado emplea la nominalizacin como una estrategia discursiva para expresar impersonalidad y objetividad del discurso. Puesto que se deben usar muchos objetos, procesos y acciones para representar el conocimiento de un rea, la premodificacin es una forma efectiva de juntar sustantivos y reducir las oraciones. Puede observarse en la tabla 19 que, salvo en el diccionario ISI, la categora lxica predominante es el sustantivo. En casi todos los casos, los sustantivos casi duplican a los adjetivos con una media de 44,15% (rango entre 35,92% y 56,19%) mientras que la media de los adjetivos no supera el 25,02% (rango entre 16,31% y 37,14%). A continuacin, siguen los participios de pasado con 7,47% (rango entre 3,32% y 11,43%), los numerales con un 5,47% (rango entre 2,04% y 5,64%), los participios de presente con 4,59% (rango entre 4,26% y 5,64%) y los adverbios con 6,95% (rango entre 2,42% y 9,64). Tambin se encuentran otras categoras lxicas como preposiciones, conjunciones, verbos, determinantes, prefijos y pronombres que en conjunto representan un 6,18%.
Mosby Frec. 210 123 35 30 27 25 19 7 2 1 0 0 IFCC Porcent. Frec. 43,84 186 25,68 54 7,31 11 6,26 40 5,64 16 5,22 8 3,97 8 1,46 3 0,42 2 0,21 0 0 3 0 0 IMF Frec. 84 47 17 5 9 19 10 0 3 2 0 1 Routledge Frec. 208 109 37 22 21 40 37 5 13 1 0 0 ISI Frec. 88 91 28 5 9 23 1 0 0 0 0 0
POS N Adj PP Num PPi Adv Prep Conj V Det Prefix Pron
Porcent. 56,19 16,31 3,32 12,08 4,83 2,42 2,42 0,91 0,6 0 0,91 0
Porcent. 42,64 23,86 8,63 2,54 4,57 9,64 5,08 0 1,52 1,02 0 0,51
Porcent. 42,19 22,11 7,51 4,46 4,26 8,11 7,51 1,01 2,64 0,2 0 0
Tabla 19: Categora lxica predominante en la premodificacin del corpus lexicogrfico en ingls.
153
En cuanto al predominio de la categora gramatical dentro de la premodificacin del corpus lexicogrfico, hay 52 patrones sin sustantivos en la premodificacin de los 283 totales y 136 patrones sin adjetivos, lo que muestra el predominio de los sustantivos como categora premodificadora. Por otro lado, hay 21 patrones que carecen de sustantivos y adjetivos y 116 patrones con sustantivos y adjetivos a la vez. En cuanto a las otras categoras lxicas abiertas, hay 60 patrones con adverbios, 61 patrones con participio de pasado y 41 con participio de presente.
En este tem se presentan los resultados del corpus lexicogrfico de contraste de acuerdo con su frecuencia en todo el corpus y en cada diccionario y tambin se presentan los datos de acuerdo con la extensin del sintagma en cada diccionario.
SN de +3 tokens en ingls 3.553 725 766 5.269 1.238 11.551 Promedio por patrn 24,84 7,71 11,6 33,56 15,87
Diccionario Diccionario Mosby Diccionario IFCC IMF Terminology Routledge Dictionary ISI Multilingual Glossary Total
Tabla 20: Nmero de patrones totales del corpus lexicogrfico en ingls por diccionario y promedio por patrn.
En su conjunto, el corpus lexicogrfico de contraste del ingls contiene 283 patrones diferentes. El diccionario con ms patrones es el Routledge con 157 y un promedio de 33,56 sintagmas por patrn y el diccionario con menos patrones es el diccionario ISI con 78 patrones y una media de 15,87 sintagmas por patrn. Puede apreciarse en la tabla 20 que los diccionarios con mayor nmero de entradas tienen mayor variabilidad en cuanto a la cantidad de
154
G. Quiroz
patrones a pesar de que la relacin del total de patrones contra el total de sintagmas de ms de tres tokens es alta. Sin embargo, como puede apreciarse en la tabla 21, los cinco primeros patrones de cada diccionario representan a la mayora de ocurrencias (rango entre 68% y 77%), mientras que al resto de ocurrencias le corresponde un nmero importante de estructuras. Esto demuestra que tambin en el corpus lexicogrfico de contraste existe una variabilidad sintctica considerable. Una vez ms, estos datos muestran que la longitud de un sintagma est directamente relacionada con la estabilidad de las estructuras y que hay unas cuantas estructuras (6 7) que representan a una gran cantidad de sintagmas. Igualmente, una mayor variabilidad sintctica est relacionada directamente con una premodificacin ms extensa. Como se ilustra en la tabla 21, los patrones ms frecuentes en el corpus lexicogrfico de contraste son: N N N que es el ms frecuente en cuatro diccionarios y es el segundo ms frecuente en uno de ellos; Adj N N que es el segundo ms frecuente en cuatro diccionarios y es el ms frecuente en uno de ellos; Adj Adj N que es el tercero ms frecuente en todos los diccionarios del corpus; N Adj N que es el cuarto ms frecuente en tres diccionarios y el quinto en dos de ellos y N N N N que es el quinto ms frecuente en dos diccionarios, el cuarto ms frecuente en dos diccionarios y el noveno en uno de los diccionarios. Puede decirse que salvo este ltimo patrn descrito, estos cinco patrones son los ms frecuentes en todo el corpus y casi conservan el mismo orden. As, son las estructuras ms lexicalizadas y estables de todo el corpus independientemente del rea temtica y el tamao del diccionario. Es importante destacar otras estructuras del corpus por su frecuencia de aparicin en los diferentes diccionarios. Entre ellas, pueden destacarse los patrones Adj N N N, Adj Adj N N, N PPi N y N Adj N N presente dentro de los diccionarios pero con frecuencias un poco dismiles.
155
En general, no existe una tendencia entre los diccionarios a tener patrones exclusivos. Dentro de los primeros 20 patrones de cada diccionario hay dos diccionarios con dos patrones que no estn en los 20 primeros de los otros tres diccionarios y un diccionario tiene tres patrones que no estn en los otros cuatro. La excepcin a esto es el diccionario IFCC que tiene nueve patrones que no aparecen en los otros cuatro diccionarios pues obedecen, en este caso, a aspectos relacionados con el rea temtica, el laboratorio clnico. Estos patrones tienen la categora Num (nmero) en cinco de los cuatro patrones debido a que muchos trminos son nomenclaturas. En cuanto a la distribucin de los primeros 20 patrones por nmero de tokens puede observarse que, salvo en el diccionario IFCC, los patrones ms frecuentes son los de tres tokens (12, 11, 14, 11 patrones), luego siguen los patrones de cuatro tokens (7, 8, 5, 9) y, por ltimo, los de cinco tokens (1, 1, 1, 0, respectivamente en todos los casos). En el diccionario IFCC, los patrones de cuatro tokens son los ms frecuentes (13 de 20), seguidos por los patrones de tres tokens (cinco patrones) y luego los de cinco tokens (dos patrones). Igualmente, esta tendencia se rompe en este diccionario debido quiz al rea temtica. Sin embargo, esto ltimo es difcil de corroborar con datos cuantitativos.
156
G. Quiroz
Mosby Tokens 3 3 3 3 4 4 4 3 3 3 3 4 4 4 4 3 3 5 3 3
% 27,02 25,7 18,07 4,64 2,22 2,08 1,83 1,58 1,32 1,24 1,18 1,01 0,62 0,59 0,56 0,53 0,51 0,48 0,45 0,37
IFCC Tokens 3 3 3 3 4 4 3 4 4 4 4 4 4 4 5 4 4 4 5 4
Patrn NNN Adj N N Adj Adj N N Adj N NNNN N Num N N N PPi N N N Adj N N Adj N N Adj Adj N N N Adj Adj N Num N N N N N Num N Adj N N N
Frec. 283 91 48 38 31 23 18 11 9 8 8 8 7 6
IMF Tokens 3 3 3 4
Patrn NNN Adj N N Adj Adj N NNNN N Adj N Adj N N N PP N N Adj Adj N N N PP N PP Adj N Adv Adj N Adv PP N N Adj N N N Prep N N
RD Tokens 3 3 3 4
Patrn Adj N N NNN Adj Adj N NNNN N Adj N Adj N N N PP N N Prep N N N PP N PP Adj N N PPi N Adj Adj N N N Prep N Num N N
% 30,59 29,72 6,15 4,33 4,02 2,87 2,05 1,73 1,61 1,2 1,18 0,85 0,84 0,78 0,72 0,65 0,59 0,55 0,53 0,4
ISI Tokens 3 3 3 3 3 3 4 4 4 4 3 3 4 4 4 4 4 3 3 3
Patrn NNN Adj N N Adj Adj N N Adj N PP Adj N PP N N Adj Adj N N Adj N N N NNNN Adj Adj Adj N Adv Adj N Adv PP N
% 26,01 22,29 12,6 5,41 3,55 3,15 2,83 2,18 2,18 1,21 1,21 1,21 1,13 0,97 0,89 0,89 0,89 0,81 0,57 0,57
5,35 3 2,61 4 2,61 3 1,57 3 1,57 3 0,91 3 0,78 3 0,78 4 0,65 3 0,65 3 0,52 5 0,52 3 0,39 3 0,39 4 0,39 3 0,26 4
N Num N N N 4 N Conj N N 3
157
A continuacin, se presentan los patrones ms comunes distribuidos por longitud de mayor a menor (+6 a 3 tokens). Puede observarse en la tabla 22 que existe una gran variabilidad sintctica entre los patrones de +6 tokens (7 patrones con una sola ocurrencia). Puede decirse que el patrn ms frecuente es N N N N N N que aparece en 2 diccionarios (con 10 ocurrencias) y luego el patrn Adj N N N N N que aparece en 3 diccionarios (con 7 ocurrencias). Los resultados muestran que la extensin est relacionada directamente con una alta variabilidad sintctica, como se ha planteado en varios apartados de esta tesis. En los patrones de 5 tokens que aparecen en la tabla 23, puede observarse que an existe una gran variabilidad sintctica pero hay estructuras ms frecuentes que aparecen en varios diccionarios del corpus lexicogrfico de contraste. As el patrn N N N N N aparece en todos los diccionarios y con una frecuencia relativamente alta, salvo en uno de los diccionarios. Luego, los patrones Adv Adj Adj N N y Adj Adj N N N aparecen en tres diccionarios y los patrones Adj N N N N, Adj N Adj N N, Adj Adj Adj Adj N y N Adj N N N en dos de los cinco diccionarios. En general, ms de la mitad de los patrones de cada diccionario, salvo en el diccionario IMF, no aparecen en los otros diccionarios y son exclusivas de cada uno. En el caso de los diccionarios IFCC e ISI esta cifra es an ms alta (87% y 70%, respectivamente). En el caso del diccionario IMF, slo un patrn no aparece en los otros, pero an debe tenerse en cuenta que este diccionario slo tiene cuatro patrones de cinco tokens contra los 10 patrones de media en el resto de diccionarios.
158
G. Quiroz
Frec. 3 3 2
Routledge IMF Frec. % Patrn Patrn 3 0,4 no NNNNNN 2 0,3 Adj N N N N N 2 0,3 N N N N N Num N
ISI Frec. % Patrn 7 0,0013 Adj N Adj Adj N N 3 0,0006 Adj N N N N N 2 0,0004 Adv Adj Adj N N N
Frec. 1 1 1
Tabla 22: Los patrones ms frecuentes de ms de 6 tokens del corpus lexicogrfico en ingls.
Tokens 5 5 5 5 5 5 5 5 5 5 5 5 5
Mosby Patrn Adj N N N N Adj Adj N N N NNNNN Adj N Adj N N Adj Adj Adj Adj N PP N N N N Adj N N Adj N Adj N PPi Adj N N PP N N N N PPi N N N
Frec. 17 11 10 9 4 4 2 2 2 2
% 0,48 0,31 0,28 0,25 0,11 0,11 0,06 0,06 0,06 0,06
IFCC Patrn N N Num N N N Num N N N N N N Num N N Num N Num N Num N Num N N N Adj N N N N Adj N Num N NNNNN N Prep N N Num Num Num Adj N N
Frec. 6 4 3 3 3 2 2 2 2 2
% 0,83 0,55 0,41 0,41 0,41 0,28 0,28 0,28 0,28 0,28
IMF Patrn NNNNN Adj Adj N N N Adj N Adj Adj N Adv Adj Adj N N
Frec. 3 2 2 2
Routledge Patrn NNNNN Adj N N N N Adj Adj N N N Adj N Adj N N N Adj N N N Num N Adj N N Adj Adj Adj Adj N Adj N PP N N Adj N Prep N N Adv Adj Adj N N Adv PPi N N N N Adj N Adj N Num N N N N
Frec. 38 11 8 7 3 3 2 2 2 2 2 2 2
% 0,72 0,0021 0,0015 0,0013 0,0006 0,0006 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004
ISI Patrn Adj Adj Adj N N NNNNN PP Adj Adj N N Adv Adj Adj N N Adv Adv Adj Adj N Adv PP Adj N N N Adj Adj N N N N Adj Adj N PP Adj N N N
Frec. 5 4 3 2 2 2 2 2 2
Tabla 23: Los patrones ms frecuentes de 5 tokens del corpus lexicogrfico en ingls.
159
Al igual que en los patrones de cinco tokens, los patrones de cuatro tokens tienen tambin variabilidad sintctica, pero menor medida, como se ilustra en la tabla 24. De hecho, hay cuatro patrones que aparecen en todos los diccionarios y son en promedio los de mayor frecuencia entre los de cuatro tokens: N N N N, Adj N N N, Adj Adj N N y N Adj N N. Hay dos patrones que aparecen en cuatro diccionarios: N PP N N y Adj Adj Adj N. La cantidad de patrones exclusivos es relativamente baja o nula en cuatro de los cinco diccionarios. Slo en el diccionario Routledge, existen cuatro patrones que no aparecen en los otros cuatro diccionarios (un 20% de los 19 patrones). En la tabla 25, se presentan los patrones de tres tokens en el corpus lexicogrfico de contraste. Existen cuatro patrones que aparecen en todos los diccionarios y casi en el mismo orden de frecuencia; y, como se ha dicho antes, son a su vez, los ms frecuentes en todo el corpus lexicogrfico de contraste: N N N, Adj N N, Adj Adj N y N Adj N. Adems, cinco patrones aparecen en cuatro diccionarios y presentan una frecuencia igualmente alta: N PPi N, Adv Adj N, N PP N y PP Adj N. Hay otros patrones de alta frecuencia en los dos diccionarios de mayor tamao, el Routledge y el Mosby: PPi N N, Adv, PP N, PPi Adv N, entre otros. En cuanto a la exclusividad de patrones en un diccionario, puede decirse que tres diccionarios no presentan ninguna exclusividad y que los otros dos diccionarios de mayor tamao presentan alguna exclusividad importante de patrones. En el caso del diccionario Routledge, 14 de los 27 patrones no aparecen en los otros diccionarios (51,85%) y en el diccionario Mosby hay cinco patrones exclusivos (24, 41%).
160
G. Quiroz
Mosby Tokens Patrn 4 NNNN 4 Adj N N N 4 Adj Adj N N 4 Adj Adj Adj N 4 N Adj N N 4 N N Adj N 4 Adj N Adj N 4 N Prep N N 4 N Adj Adj N 4 PP Adj N N 4 Adj N PPi N 4 N N PPi N 4 N PP Adj N 4 N PPi N N 4 PP N N N 4 N PP N N 4 4 4
Frec. 79 74 65 36 22 21 20 10 9 8 7 7 6 6 6 5
% 2,22 2,08 1,83 1,01 0,62 0,59 0,56 0,28 0,25 0,23 0,2 0,2 0,17 0,17 0,17 0,14
IFCC Patrn NNNN N Num N N N N Adj N N Adj N N Adj Adj N N N Adj Adj N Num N N N N N Num N Adj N N N Adj N Adj N N N PPi N N PP N N
Frec. 31 23 11 9 8 8 8 7 6 5 5 5
% 4,28 3,17 1,52 1,24 1,1 1,1 1,1 0,97 0,83 0,69 0,69 0,69
Frec. 43 20 12 5 5
Routledge Patrn NNNN Adj N N N Adj Adj N N N Adj N N N Prep N N Adj N Adj N N N Adj N N PP N N PP N N N Adj Adj Adj N Prep N N N Num N N N Adj N PP N Adj N Prep N N PP Adj N PP Adj N N Adj N PPi N Adv Adj N N Num Num N N
% 4,33 2,87 0,85 0,55 0,4 0,0036 0,0028 0,0028 0,0027 0,0025 0,0021 0,0015 0,0011 0,0011 0,0011 0,0011 0,0009 0,0009 0,0009
ISI Patrn Adj Adj N N Adj N N N NNNN Adj Adj Adj N PP Adj Adj N N Adj N N Adj N Adj N PP Adj N N PP N N N Adj N PP N Adv Adj N N N Adj Adj N N PP N N
Frec. 35 27 27 15 14 12 11 11 11 6 6 5 5
Tabla 24: Los patrones ms frecuentes de 4 tokens del corpus lexicogrfico en ingls.
161
Tokens 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
Mosby Patrn NNN Adj N N Adj Adj N N Adj N PP Adj N PP N N N PPi N N PP N Num N N Adv Adj N PPi N N N Num N Num Adj N Prep N N N N Adj Adj N PP Adj PPi N
% 27,02 25,7 18,07 4,64 1,58 1,32 1,24 1,18 0,53 0,51 0,45 0,37 0,37 0,2 0,17 0,14 0,14
Frec. 283 91 48 38 18
IMF Patrn NNN Adj N N Adj Adj N N Adj N PP N N N PP N PP Adj N Adv Adj N Adv PP N
Routledge Patrn Adj N N NNN Adj Adj N N Adj N PP N N Prep N N N PP N PP Adj N N PPi N N Prep N Num N N N Adv N Adv Adj N PPi N N Adv PP N PP Prep N PPi Adv N Adv N N Adj Adv N PP Adv N PPi Prep N Num Adj N Adj Prep N N Num N Prep Adj N V Adj N V Adv N
% 30,59 29,72 6,15 4,02 2,05 1,73 1,61 1,2 1,18 0,84 0,78 0,65 0,59 0,53 0,0038 0,0028 0,0019 0,0017 0,0015 0,0013 0,0013 0,0011 0,0009 0,0009 0,0009 0,0009 0,0009
ISI Patrn NNN Adj N N Adj Adj N N Adj N PP Adj N PP N N Adv Adj N Adv PP N N PP N N PPi N PPi N N
% 26 22,3 12,6 5,41 3,55 3,15 1,21 1,21 0,81 0,57 0,57
Tabla 25: Los patrones ms frecuentes de 3 tokens del corpus lexicogrfico en ingls.
162
G. Quiroz
En la tabla 26 la comparacin de los datos de ambos corpus, permite establecer que efectivamente, las tendencias presentadas en ambos casos, y con porcentajes tan similares, muestran que las estructuras ms estables estn directamente relacionadas con una menor extensin. Debe tenerse en cuenta que los diccionarios presentados en esta tesis no se confeccionaron con metodologa de corpus como suele hacerse actualmente con los diccionarios generales en ingls y algunos tcnicos. Por tanto, puede decirse que los diccionarios pueden ser un reflejo de la lengua en este sentido y no distan significativamente de los datos del corpus. Desde un punto de vista sintctico, la intuicin lingstica del lexicgrafo se ve corroborada en los datos. Es decir, la seleccin de unidades con estas estructuras no es caprichosa sino que responde a las tendencias lingsticas del hablante.
163
N. tokens 3 4 5 6 7 Total
Tabla 26: Frecuencia por nmero de tokens entre el corpus de anlisis y el corpus lexicogrfico en ingls.
Como ya se dijo en 4.3.1, las estructuras del corpus que tienen esta tendencia en la longitud (de 3 a 4 tokens) tendern a ser ms estables y son las que potencialmente pueden convertirse en trminos en los diccionarios, como se infiere de los resultados del corpus de diccionarios. Desde un punto de vista lexicogrfico, estos datos son muy relevantes para la confeccin de diccionarios ya que son un parmetro ms en la seleccin de unidades candidatas a trmino.
Al igual que en el corpus de anlisis, el corpus lexicogrfico presenta casi el mismo porcentaje de sustantivos en la premodificacin de los sintagmas como puede verse en la tabla 27. Adems, casi doblan en porcentaje a los adjetivos, lo que corrobora las observaciones hechas antes (Quiroz 2005). En este sentido, puede decirse que en los diccionarios tambin se reflejan las tendencias lxicas y gramaticales del discurso especializado, y como se dijo antes, dicha tendencia en el uso de la categora lxica no es dependiente del rea temtica concreta sino quiz del discurso especializado en general.
164
G. Quiroz
Corpus Cat. lxica Porcentaje N (sin ncleos) 45,95 Adj 32,43 PP 13,51 PPi N.D50 Adv 8,11 otras 0
Tabla 27: Comparacin de la categora lxica predominante entre el corpus de anlisis y el corpus lexicogrfico en ingls.
Los sustantivos representan casi la mitad de las unidades lxicas que aparecen en la premodificacin de ambos corpus. Morfolgicamente, la mayora de sustantivos son derivados deverbales terminados en -ation con 88/62 sustantivos en el corpus de anlisis y 1.021/285 en el corpus lexicogrfico en los ncleos y la premodificacin, respectivamente. En segundo lugar, aparecen los sustantivos derivados deadjetivales terminados en -ity con 20/10 y 179/86, -er con 20/15 y 250/102 sustantivos en ambos corpus, respectivamente. Como puede verse estos sufijos son deverbales y como se observa en los siguientes casos de los ejemplos 31 y 32 y deadjetivales como en los casos de 33.
31. association, organization, corporation, concentration, operation,
transformation, hybridization, insemination, inhalation, donation, sterilization, amalgamation, estimation 32. manager, container, officer, worker, practitioner, printer, trader, carrier, converter, multiplier, analyzer, computer, counter, dealer 33. facility, security, capacity, inequality, liability, personality, hypersensitivity, activity, deformity, convertibility
50 Por razones de etiquetaje del corpus no fue posible separar los participios de presente y pasado como en el corpus lexicogrfico de contraste. Obsrvese que los porcentajes son similares en ambos casos si se suman los del corpus lexicogrfico.
165
Estos datos corroboran el mismo orden de productividad observado por Biber et al (1999: 322-323) para el discurso acadmico y en el conjunto de la lengua inglesa, el discurso acadmico tiene las frecuencias ms altas de este tipo de sufijos derivativos. Como bien lo plantea Biber et al (1999: 325) la presencia de estos es bsica en este tipo de discurso ya que se hace frecuente referencia a conceptos abstractos y en donde se referencian las acciones y procesos en trminos generales en vez de estar relacionados a un tiempo y un lugar determinados. En este sentido, es conveniente el uso de nominalizaciones para comprimir en un sintagma nominal el contenido de una clusula. As, la nominalizacin es el recurso ms eficiente dentro del discurso especializado (Iturrioz 2000; Gallegos 2000, 2003) y esto se observa en la cantidad de sustantivos no slo en los ncleos sino en la premodificacin. Su uso se justifica pragmticamente por los objetivos que se persiguen en la ciencia. A continuacin, aparecen los adjetivos con un tercio de las unidades lxicas en el corpus de anlisis y un cuarto en el corpus lexicogrfico. Esta diferencia se explica debido a que en el corpus lexicogrfico hay un 11% de patrones con otras categoras lxicas como verbo, preposicin, etc. Luego, siguen los participios de presente (PPi) y de pasado (PP) con aproximadamente un 13% en ambos corpus. En el corpus de anlisis no aparecen separadas categoras debido a que no estaban claramente diferenciadas en el etiquetaje. Como ya se explic en 4.3, los participios de pasado son ms frecuentes que los participios de presente (7,47 vs. 4,59) en el corpus lexicogrfico. Los PP son en su mayora deverbales ya que resultan de una oracin relativa pasiva como ocurre en el ejemplo 34.
34. bidirectionally determined restriction sites (restriction sites which are bidirectionally determined)
Los participios de presente, cuya funcin est ms cerca de los sustantivos que de los adjetivos y en los patrones ms frecuentes, se encuentran
166
G. Quiroz
inmediatamente al lado del ncleo y al lado de otro sustantivo, como ocurre en los ejemplos 35 y 36.
35. 36. osteoclast activating factor (N PPi N) ionizing radiation injury (PPi N N)
En el caso de los adverbios, en su mayora se derivan de adjetivos y estos de sustantivos, como puede verse en los ejemplos 37 y 38.
37. 38. environmentally-friendly environment) genetically determined immune response (genetically > genetic > genetics) product (environmentally > environmental >
Morfolgicamente, la mayora de adverbios terminan en -ly como los casos del ejemplo 39 y otros son locuciones adverbiales que provienen del latn como en los ejemplos de 40.
39. highly, biologically, alternatively, bidirectionally, genetically, maternally, oxidatively, phylogenetically, physically, anatomically, biomedically, chemically, covalently, exponentially, homogeneously, morphologically, pharmaceutically, phenotypically 40. in situ, in vitro, in vivo, ex vivo
Desde un punto de vista sintctico, estos adverbios y los participios de pasado o adjetivos que generalmente los acompaan son tambin el resultado de una oracin relativa pasiva como en el ejemplo 41.
41. genetically determined immune response (immune response which is genetically determined)
Esta tendencia en ambos corpus puede explicarse desde varios puntos de vista.
167
La tendencia nominalizadora del discurso especializado como una forma de mostrar objetividad se ve reflejada en la gran cantidad de sustantivos en la premodificacin y son los sintagmas los que llevan esta carga como lo propone Vivanco (1996: 752).
Con el fin de incorporar en un texto cientfico la objetividad, impersonalidad y generalidad, comnmente relacionada con el uso de largos y complejos GNs, a nombres abstractos y a nominalizaciones, el cientfico elige como medio de transmisin, el lenguaje nominal.
Esto se evidencia en la cantidad de sustantivos terminados en tion, 62 de los 1.296 sustantivos en posicin premodificadora en el corpus de medicina. Morfolgicamente, es el sufijo ms productivo en la muestra. Tngase en cuenta que en la tabla 27 slo se ha descrito la premodificacin ya que el ncleo siempre ser un sustantivo. La lexicalizacin de muchos participios de presente como verdaderos sustantivos se observa en el hecho de ser entradas o subentradas, como se observa en los ejemplos de 42, los cuales se encuentran en algunos diccionarios de referencia51.
42. binding, mapping, sensing, processing, screening, imprinting, etc.
En este apartado, se comparan los 20 patrones ms frecuentes de ambos corpus. Puede observarse en la tabla 28 que en ambos corpus el patrn ms frecuente es el patrn N N N con casi el mismo porcentaje de ocurrencias (29% aprox.). En segundo lugar, el patrn Adj N N aparece con porcentajes absolutos
51
168
G. Quiroz
tambin muy similares entre ambos corpus (24,08% y 26,85%). Luego, aparece el patrn Adj Adj N con porcentajes casi idnticos en ambos corpus (10,71% y 10,75%) y en cuarto lugar aparece el patrn N Adj N con porcentajes similares (5,88% y 4,53%). Posteriormente, el orden en ambos corpus comienza a variar pero en los primeros 10 patrones hay 9 patrones iguales y 1 diferente. En los segundos 10 patrones hay 3 patrones iguales y el resto no coinciden independientemente del orden, pero 2 de ellos coinciden con los 2 de la primera franja.
Tokens 3 3 3 3 3 4 3 4 3 3 4 3 3 4 4 4 4 4 4 4 Patrn corpus NNN Adj N N Adj Adj N N Adj N PP N N Adj N N N PP Adj N NNNN Adv Adj N N PP N Adj Adj N N Adv PP N Adj PP N N Adj N N Adj N Adj N PP N N N PP Adj N N Adj Adj Adj N Adv Adj N N Adv PP N N Porcentaje 30,05 24,08 10,71 5,88 4,83 3,13 2,94 2,65 2,37 2,18 1,52 1,8 1,23 0,95 0,85 0,57 0,47 0,38 0,38 0,38 Tokens 3 3 3 3 4 4 3 3 4 3 3 3 4 3 4 3 5 3 4 4 Patrn Dic. NNN Adj N N Adj Adj N N Adj N NNNN Adj N N N PP N N PP Adj N Adj Adj N N N PP N N PPi N Prep N N N Adj N N Adv Adj N Adj Adj Adj N Num N N NNNNN PPi N N Adj N Adj N N N Adj N Porcentaje 29,05 26,85 10,75 4,53 3,54 2,41 1,88 1,49 1,43 1,32 1,18 0,88 0,62 0,61 0,59 0,52 0,49 0,49 0,48 0,44
Tabla 28: Comparacin de los primeros 20 patrones del corpus y el corpus lexicogrfico en ingls.
Los 33 patrones del corpus de anlisis aparecen en todos los diccionarios, pero no al contrario debido a que se extrajo una muestra de stos al ser un corpus de anlisis. Es decir, el corpus lexicogrfico se us para corroborar que los datos del corpus de anlisis no eran arbitrarios y correspondan con los de la lengua y no para ver si los patrones recogidos por los lexicgrafos eran realmente usados por los especialistas en discurso.
169
Obsrvese que los 4 primeros patrones que coinciden plenamente en orden y casi en frecuencia de aparicin agrupan el 70% aproximadamente de todas las ocurrencias de ambos corpus. Esto muestra, por un lado, la alta productividad respecto del resto de patrones, su alta probabilidad de ocurrir en el discurso y en los diccionarios y, por otro lado, su grado de estabilizacin como estructuras en el discurso especializado es evidente, lo que puede traducirse en varios aspectos: 1) las unidades lxicas de un texto que tengan estas cuatro estructuras tendern a ser firmes candidatas a trmino como puede verse en los ejemplos extrados del corpus; 2) las regularidades que se observen en el corpus paralelo de 8 sobre estos cuatro patrones pueden ser igualmente regulares, lo que sugerir un comportamiento determinado de ellas en espaol; 3) los sistemas de extraccin lingsticos o hbridos pueden dar un peso relevante a estos cuatro patrones para mejorar los resultados de una extraccin terminolgica; 4) las consecuencias didcticas para la traduccin y la enseanza de los LSP son importantes en cuanto a que estos resultados pueden ayudar en la seleccin de casos frecuentes para traducir o analizar cuando se enseen aspectos lingsticos o problemas frecuentes del discurso acadmico.
En cuanto a su longitud, puede observarse que en la franja de los 10 primeros patrones predominan los patrones de 3 tokens de extensin en ambos corpus. En el corpus de anlisis hay 8 patrones de 3 tokens contra 2 de 4 tokens, y en el corpus lexicogrfico existe un patrn ms de 4 tokens. En la segunda franja de 10 patrones, existe un predominio de los patrones de 4 tokens de extensin en el corpus de anlisis y no existe un predominio claro en el corpus lexicogrfico. Al contrario, en la primera franja, en el corpus de anlisis hay 8 patrones de 4 tokens y 2 de 3 tokens. En el corpus
170
G. Quiroz
lexicogrfico hay 4 patrones de 4 tokens, 5 de 3 tokens y 1 de 5 tokens (N N N N N). En general, puede decirse que predominan los patrones de 3 tokens y luego siguen los patrones de 4 tokens. Esto, muestra una vez ms, que la extensin est ligada a la frecuencia, como se explic en 4.3.3. De la comparacin de ambos corpus, puede desprenderse que salvo en unos pocos casos, los anlisis realizados coinciden plenamente no slo en el orden de preferencia de los corpus de las categoras lxicas como en patrones ms regulares, sino en la frecuencia de aparicin de estas categoras y estructuras.
171
4.6 Recapitulacin
En este captulo, se han presentado los resultados del anlisis formal del corpus de anlisis en ingls y el contraste con el corpus lexicogrfico. 1. En cuanto a la longitud de los sintagmas, el corpus de anlisis en ingls, los patrones de 3 tokens predominan ampliamente sobre la dems longitud con un 86,16% de todas las ocurrencias, seguidos de los patrones de 4 tokens con 12,8%. 2. En cuanto a la categora gramatical predominante en la
premodificacin, se confirman las tendencias que se han obtenido en el estudio piloto en el uso del sustantivo como premodificador con un 45,95%, seguido por el adjetivo con un 32,43%. Es importante resaltar la presencia de otras categoras lxicas como los participios con un 13,51% y los adverbios con 8,11%. Este alto uso del sustantivo en la premodificacin refuerza el carcter nominalizador e impersonal del discurso cientfico- tcnico. 3. En cuanto a los patrones ms frecuentes, los patrones ms frecuentes son N N N con un 30,05%, Adj N N con un 24,08%, Adj Adj N con un 10,71% y el patrn N Adj N con 5,88%. Estos cuatro patrones representan el 70,72% de todas las ocurrencias del corpus y por tanto, presentan menos variacin sintctica. Entre los patrones de 4 tokens cabe destacar los patrones Adj N N N con 3,13 y N N N N con 2,65%. Estos patrones presentan ms variacin y representan a muchas menos ocurrencias. 4. De acuerdo con la dependencia sintctica, la relacin de dependencia [C [[B A]] es la ms frecuente en todo el corpus en ingls con ms del 61% de todas las ocurrencias (142) del corpus de anlisis, seguida de la relacin de dependencia [[C B] A] con un 28,89% de todas las ocurrencias (67). Por ltimo,
172
G. Quiroz
la dependencia [[D C] [B A]] representa el 5,17% de todas las ocurrencias (12) para patrones de 4 tokens. Los patrones que presentan una nica relacin de dependencias son: Adj Adj N, N Adj N, N PP N, PP Adj N, PP N N, Adv Adj N, Adj N N N y N N N N. De estos, los patrones Adj Adj N, N Adj N, N PP N, PP Adj N, PP N N tienen la misma relacin de dependencia sintctica [C [[B A]]. El nico patrn que tiene la dependencia sintctica [[C B] A] es Adv Adj N. En los dos patrones de 4 tokens, Adj N N N y N N N N, la dependencia que predomina es [[D C] [B A]]. Los patrones que tienen dos relaciones de dependencia sintctica son: Adj N N y N N N. En el patrn Adj N N, la relacin de dependencia [C [[B A]] representa al 64,78% y [[C B] A] al 35,21%. En el caso del patrn N N N, la dependencia [[C B] A] representa al 87,93% y la dependencia [C [[B A]] al 12,07%. 5. El contraste con el corpus lexicogrfico corrobora los resultados obtenidos en el corpus de anlisis en cuanto a la longitud y frecuencia de los sintagmas, predominio de patrones y categora lxica en la premodificacin. As, se puede afirmar que los anlisis hechos se pueden extrapolar a otras reas del conocimiento y que no son exclusivos de las ciencias duras. As, se ha demostrado que la existencia de los SNEE es una caracterstica de la lengua que puede presentarse con mayor frecuencia en el discurso especializado y que, adems, pueden describirse, clasificarse, explicarse y predecirse desde la gramtica de una lengua como todos los fenmenos lingsticos de los discursos de los mbitos de especialidad, como lo plantea la teora comunicativa de la terminologa.
173
174
G. Quiroz
175 177 179 181 181 182 184 192 196 204 205 206 208 212 225 225 226 233 235 235 238
5.5.1 Distribucin de acuerdo con la longitud 5.5.2 Categora lxica predominante y aspectos morfolgicos 5.5.3 Frecuencia de los patrones por aparicin 5.5.4 Frecuencia de los patrones por longitud
DE LA RAE
5.6 CONTRASTE DE LOS RESULTADOS CON LOS PATRONES ENCONTRADOS CON LOS DEL CREA
5.7 RECAPITULACIN
175
176
G. Quiroz
5.1 Introduccin
Los sintagmas nominales extensos han sido poco estudiados desde la gramtica o la lingstica espaola. Este mismo hecho no ocurre en otras lenguas como el ingls y el francs, como se muestra en el 2. Cmo bien lo manifiesta Montero (1995: 45):
En lo que respecta a la lengua espaola, el tema aparece, desde luego, en las gramticas u obras generales, que dedican algn captulo al nombre y a las palabras que pueden modificar su significado. En ellas se estudian los componentes del sintagma nominal por separado y al considerarlos como grupo, se centran fundamentalmente en su tipologa, gnero, nmero y problemas de concordancia que pueden plantear.
Incluso los estudios que se han hecho desde otras disciplinas han sido ms bien incipientes o tangenciales. En terminologa, este fenmeno ha despertado poco inters y slo en los ltimos aos algunos autores como Montero (1995) Cardero (2000, 2004), Len (2003), Oster (2005), Corts (2004) y Quiroz (2005) han rescatado su importancia dentro de la descripcin lingstica y funcional de los sintagmas nominales extensos que son trminos y de las terminologas de diferentes mbitos y desde diferentes lenguas hacia el espaol. Otros estudios terminolgicos (Estop 1999 y Vivaldi 2004) han reconocido su existencia, pero no las han estudiado por no ser su objeto de estudio. Desde un punto de vista fraseolgico, los estudios como el de Belvilacqua (2004) han hecho importantes aportes a las unidades sintagmticas de carcter eventivo. Tambin son relevantes para este trabajo, los trabajos llevados a cabo en el marco de la TCT en cuanto a la descripcin de categoras lxicas que son parte del sintagma como los trabajos sobre adjetivos de Folguer (2002), de participios de Salazar (2006), de siglas (Giraldo 2005), de recuperacin de sintagmas extensos (Quiroz 2005), entre otros.
177
En traduccin, no hay muchos trabajos que estudien el fenmeno descriptivamente. Ningn manual de traduccin al espaol trata la traduccin de este tipo de unidades adecuadamente, salvo los trabajos de Gallardo (1997), Linder (2002) que intentan sistematizar este tipo de sintagmas y proponen algunas alternativas aunque sin mucho acierto como en el caso de este ltimo. Su tratamiento no responde a una observacin sistemtica de datos y cmo haba sido tradicional hasta hace unos aos, los trabajos se dedicaban a dar instrucciones con base en la intuicin del hablante u observaciones casusticas. En cambio, son muchos los autores que reconocen el fenmeno como un problema o una caracterstica del discurso cientfico-tcnico, pero sin proponer una solucin de ellos en espaol (Vzquez-Ayora 1977; Lpez y Minett 1997; Abril y Ortiz 1998; Cartagena 1998; Quiroz y Muoz 1997; entre otros). Sin embargo, las descripciones hechas por los gramticos clsicos y otros autores en espaol (Bosque 1999; Alcina-Blecua 1975; Lacuesta y Bustos 1999: 4505; Rainer 1999: 4595; Varela y Martn 1999: 4993; Demonte 1999: 128) en cuanto a la descripcin de sintagmas nominales de poca extensin y al papel que juegan las diferentes categoras lxicas dentro del sintagma, o fuera de l, son de especial relevancia para describir los sintagmas nominales extensos en espaol. En espaol un sintagma nominal extenso especializado es una proyeccin de un sustantivo ncleo que tiene ms de dos modificadores de categora lxica abierta, bien sean sintagmas preposicionales como en el ejemplo 1, adjetivos como en el ejemplo 2, adjetivos y participios como en el ejemplo 3, y adjetivos modificados adverbialmente como en el ejemplo 4.
1. 2. 3. 4. electroforesis en gel de agarosa poliquistosis renal autosmica recesiva clulas alveolares descamadas loci altamente polimrficos
178
G. Quiroz
Puesto que es posible encontrar algunos patrones con adjetivos antepuestos o pospuestos como en los ejemplos 5 y 6, no es conveniente referirse a posmodificacin, si bien la mayor parte de los patrones de este estudio estn posmodificados. Por tanto, se emplear la denominacin modificadores del sustantivo (o nombre) para hacer referencia a todo lo que no sea el ncleo.
5. 6. alto grado de polimorfismo hepatitis vrica crnica
179
A continuacin, se llev a cabo una estadstica descriptiva de la muestra en cuanto a la distribucin por longitud de los sintagmas en el corpus, categora lxica predominante, patrones ms frecuentes en la muestra, patrones ms frecuentes por extensin, patrones ms frecuentes por categora lxica. Posteriormente, se analiz el corpus lexicogrfico de contraste bajo los mismos parmetros empleado para el corpus de anlisis. Sin embargo, en cada anlisis cuantitativo se comparan los cinco diccionarios entre s. A partir de estos dos anlisis, se comparan los datos obtenidos en la muestra del corpus de referencia con los del corpus lexicogrfico de contraste y se analizan a la luz de los resultados obtenidos por otros autores en algunos de los anlisis llevados a cabo aqu. Finalmente, se comparan los patrones del corpus de anlisis y los resultados del corpus lexicogrfico con los datos obtenidos del corpus CREA de la Real Academia Espaola52. As, pues, en este captulo se pretende demostrar que los sintagmas nominales extensos no son un fenmeno raro de la lengua espaola, hecho que se ve reflejado no slo en el corpus de anlisis y en el corpus lexicogrfico de contraste sino tambin en el corpus CREA de la RAE. Por tanto, las tendencias que presenten los patrones se pueden describir, explicar y predecir desde la gramtica general del espaol.
52 Datos obtenidos del Banco de datos (CREA), Corpus de referencia del espaol actual por gentileza de la Real Academia Espaola, [Consulta recibida el 20.02.2007].
180
G. Quiroz
5.3 Resultados
Con la muestra antes descrita, se tabularon todos los datos en el programa de estadstica Statgraphics Plus 5.1 para obtener los resultados que se describen a continuacin.
En el corpus de anlisis se extrajeron unidades desde 3 tokens (uno como ncleo) hasta 6 tokens, como se ilustra en los ejemplos 7 y 8.
7. 8. virus de la inmunodeficiencia humana (N Prep N Adj) actividad de la enzima responsable de la sntesis de xido ntrico (N Prep N Adj Prep N Prep N Adj)
Al igual que en ingls, se encontraron unidades an ms extensas en otros autores (Guzmn 2002; Oster 2003; Corts 2005) y cuyos datos se extrajeron manualmente. Como puede verse en la tabla 1, los patrones de 3 tokens (dos en la premodificacin) son los ms frecuentes en la muestra con un 80,66% del total (872 ocurrencias). Por el contrario, los sintagmas de 4, 5 y 6 tokens tan slo representan un 19,32% del total de sintagmas (14,74%, 2,49% y 0,09%, respectivamente).
N. tokens 3 4 5 6 Total Frecuencia 872 181 27 1 1.081 Porcentaje 80,66 16,74 2,496 0,09 100
Tabla 1: Frecuencia por nmero de tokens del corpus de anlisis del espaol.
181
En el corpus general del espaol, tambin se extrajeron patrones de seis y siete tokens, pero no se han incluido por su baja frecuencia ya que el criterio de inclusin fue de ms de cinco ocurrencias en la muestra. Como puede verse en los estudios presentados en 2, el corpus de este estudio presenta una tendencia similar al estudio de Guzmn (2003), es decir, a menor extensin del patrn, mayor frecuencia de aparicin. No es casualidad que la muestra slo contenga patrones de 3, 4 y 5 tokens ya que estas estructuras son las que pueden revertir ms en estabilizacin y posible lexicalizacin del sintagma, como lo plantea Cartagena (1998).
Al contrario que en ingls, la categora lxica por excelencia para modificar al ncleo es el adjetivo en espaol. De hecho, una de las estructuras ms estudiadas en la gramtica y en terminologa es el patrn N Adj y Adj N. A diferencia del ingls, en espaol no se establece que el adjetivo sea ms frecuente como modificador del sustantivo dentro de un sintagma. Sin embargo, puede deducirse de los estudios realizados que se asume que es la categora preferida.
POS N (sin ncleos) Adj PP Adv Prep D Total Frecuencia 1.220 1.077 103 13 1.184 419 4.016 Porcentaje 30,37 26,81 2,56 0,32 29,47 10,43 99,96
Como puede verse en la tabla 2, puede decirse que en el corpus de anlisis predominan los sustantivos como categora modificadora del sustantivo
182
G. Quiroz
ncleo con un 30,37% contra 26,81%. Incluso si se sumaran los participios de pasado como potenciales adjetivos, se obtendra un 29% aproximado. Esta tendencia muestra la aparicin de ms sustantivos como categora modificadora en espaol, al menos en este tipo de discurso. Esta tendencia en el uso de ms sustantivos, se debe a varios factores. En primer lugar, fuera de los tipos de sintagmas SA y AS (N Adj y Adj N), la estructura que tiende a predominar en la formacin de sintagmas es el uso de complementos preposicionales (Prep SN). Por tanto, las posibilidades aumentan considerablemente. En segundo lugar, dado el carcter nominalizador del discurso cientfico para representar objetos, eventos y procesos, el sustantivo es la categora lxica por excelencia, para vehicular el conocimiento especializado; lugar propicio para concentrar los nudos de conocimiento. Los adjetivos, como es de esperarse, son la segunda categora abierta ms frecuente con un 26,81%. Un aspecto importante es que hay un 2,87% de adjetivos en posicin premodificadora (31 ocurrencias). Esta frecuencia similar a la del sustantivo, muestra la importancia que tiene el adjetivo como elemento modificador del ncleo. As, Folguer (2002: 213-215) muestra la importancia del adjetivo dentro del discurso especializado no slo cmo una unidad discursiva autnoma sino como parte de un sintagma. Propone que los adjetivos que no son lexemticamente especializados, es decir, los adjetivos de dimensin o temporales (corto, largo, pequeo, etc.) dentro del sintagma pueden transmitir conocimiento especializado (ms de un 50% de ellos). Adems, muestra la importancia de los adjetivos como elementos lexicalizadores de un sintagma (2002: 206). Establece que, para que una estructura de tipo N Adj se lexicalice, debe cumplir tres requisitos: 1. que el ncleo sea una unidad especializada (trmino), 2. que la secuencia presente antonimia, y 3. que el adjetivo sea clasificador. Si uno de estos 3 parmetros no se cumple el sintagma simplemente mantendr una cohesin colocacional (2002: 211).
183
Para Salazar (2006: 73) la categora gramatical que mejor caracteriza lingsticamente la diferencia del discurso de la economa respecto al discurso de lengua general es la adjetival. En cuanto a los participios de pasado del corpus de anlisis en espaol de esta tesis, puede observarse que son relativamente pocos (2,56%), pero si se tiene en cuenta que es una categora poco frecuente dentro de los sintagmas, su importancia como elemento lingstico es fundamental en la formacin de nuevos trminos. Salazar (2006: 26) muestra que los participios son los adjetivos deverbales ms frecuentes no slo en un corpus de lengua general sino en un diccionario de economa. Kornfeld & Resnik (2002: 1) plantean que a pesar de ser muy productivos, los participios han sido poco estudiados en espaol:
Estos adjetivos, que son muy productivos en espaol, han sido paradjicamente muy poco estudiados en la bibliografa sobre morfologa del espaol. Ello puede deberse a su naturaleza categorial ambigua y al hecho de que la forma participial verbal, que participa de las construcciones pasivas, ha sido estudiada desde la sintaxis.
En cuanto a las preposiciones, debido a la cantidad de complementos preposicionales, no slo aumenta la cantidad de sustantivos sino de preposiciones, que representan un 28,35%. De hecho, es la segunda categora ms frecuente despus de los sustantivos en el corpus de anlisis del espaol.
A diferencia del ingls, la distribucin de patrones por nmero de tokens de la tabla 3 muestra que los patrones ms frecuentes son los de 4 tokens con casi la mitad de los patrones (47,05) y una media de 6,46 sintagmas por patrn. Luego siguen los patrones de 3 tokens con casi un tercio de los patrones
184
G. Quiroz
(29,42%) y con una media de 51,29 sintagmas por patrn. En tercer lugar estn los patrones de 5 tokens con un poco ms de un quinto de los patrones (22,05%) y una media de 1,9 sintagmas por patrn. Y por ltimo estn los patrones de 6 tokens con un 1,47% de los patrones y un promedio de 1 patrn por cada sintagma. Es importante tener en cuenta que se crearon ms patrones de 4 tokens para interrogar el corpus del IULA y el CREA de la RAE (18 de 3 tokens, 32 de 4, 21 de 5 y 1 de 6 tokens). A pesar de que hay ms patrones de 4 tokens que de 3, estos representan muchas menos ocurrencias (181 vs. 872). Estos datos muestran, como sucede en ingls, que la variabilidad en los patrones de superficie menos extensos es menor si se compara con la alta variabilidad de los patrones ms extensos, que es de casi un patrn por cada dos sintagmas. Desde un punto de vista traductivo, esta variabilidad en los patrones ms extensos dificulta la sistematizacin de este tipo de patrones puesto que son precisamente estos los que ms problemas de traduccin presentan.
N. tokens 3 4 5 6 Total Patrones 17 28 14 1 68 Porcentaje 29,42 47,05 22,05 1,47 100 Frecuencia 872 181 27 1 1.081
En la tabla 4 se presentan los 20 patrones ms frecuentes de la muestra. Para el anlisis se han separado en dos franjas de 10 patrones. Estos 20 patrones representan el 92,83% del total de la muestra con 1.009 ocurrencias sobre un total de 60 patrones y 1.081 ocurrencias. Es decir, que, en el resto de la muestra, existe una gran variabilidad en los 40 patrones restantes y 72 ocurrencias; es decir, hay casi un patrn por cada 1,8 sintagmas. En cambio, en estos 20 patrones existe una relacin de 1 patrn por cada 50 sintagmas, lo que permite llevar a cabo generalizaciones ms confiables, cuestin que no es muy factible con los otros 40 patrones.
185
De igual modo, puede verse que los primeros 10 patrones representan el 84,34% de toda la muestra con 917 sintagmas sobre los 92 sintagmas de los segundos 10 patrones (8,49%). Entre los primeros 20, existe un predominio de los patrones de 3 tokens con 12 patrones, seguidos de los patrones de 4 tokens con 7 patrones y 1 patrn de 5 tokens. En ambas franjas predominan los patrones de 3 tokens (7 en la primera y 5 en la segunda franja). En toda la muestra, los 3 patrones ms frecuentes son N Prep N Adj, N Adj Prep N y N Prep N Prep N y, en conjunto, agrupan 636 sintagmas que representan un 58,47% del total de la muestra y, por extensin, del corpus de anlisis.
Longitud 3 3 3 3 3 4 4 3 4 3 3 4 4 3 4 4 3 5 3 3 Patrn N Prep N Adj N Adj Prep N N Prep N Prep N N Adj Adj N Adj PP N Adj Prep N Adj N Prep N Adj Prep N Adj N Prep N N Adj Prep N Prep N N Prep Adj N N PP Prep N Ejemplo virus de la inmunodeficiencia humana artrosis degenerativa de la columna electroforesis en gel de agarosa diabetes mellitus insulinodependiente clulas alveolares descamadas membrana apical de las clulas epiteliales constriccin de las arterias coronarias del corazn alto grado de polimorfismo secrecin excesiva de hormona de crecimiento sulfonilurea de alta afinidad oligonucletidos repetidos en tndem hipocrecimiento por anomalas en genes de los N Prep N Prep N Prep N gonosomas N Prep N Prep N Adj electroforesis en geles de campos pulsantes N Prep N PP hibridacin con sonda marcada N Prep N Adj Adj inoculacin con adenopatas satlites axilares N Adj PP Prep N protena mitocondrial sintetizada en el citosol N N Adj hormona somatomamotropina corinica sndrome dismetablico de sobrecarga de hierro N Adj Prep N Prep N Adj heterocigoto N Adv Adj loci altamente polimrficos N Adj N hepatitis vrica C Frec. 343 175 118 73 53 40 36 30 29 20 14 12 11 10 9 8 8 7 7 6 Porc. 31,66 16,13 10,68 6,73 4,88 3,68 3,31 2,76 2,67 1,84 1,29 1,11 1,01 0,93 0,83 0,74 0,74 0,64 0,65 0,55
186
G. Quiroz
A continuacin se analizan cuantitativamente los 20 patrones ms frecuentes de acuerdo con el tipo de categoras lxicas modificadoras: con sustantivo, con adjetivo, con participio, con adverbio, sin sustantivo, sin adjetivo y sin preposicin. En las tablas de este tem no se van a incluir patrones de una nica frecuencia salvo en los patrones con baja frecuencia (p. ej., participios, adverbios y preposiciones), pero se especificar en cada caso el nmero de patrones totales y los porcentajes y ocurrencias a las que representan. Tambin, se ha eliminado la categora D (determinante) para resumir la cantidad de patrones y poder hacer ms generalizaciones ya que hay patrones que solo se diferencian por el uso del determinante, aunque somos conscientes de que la insercin de un determinante puede incidir en la no lexicalizacin de un SN como lo advierte Alvar (1993: 23):
En los compuestos por sinapsia, la segunda parte, el elemento determinante, carece de artculo, pues de lo contrario rompera la unidad del conjunto.
Sin embargo, puede verse que muchos de los trminos que se encuentran en el corpus lexicogrfico tienen determinantes, como sucede en el ejemplo 9.
9. virus de la inmunodeficiencia humana
Tambin hay sintagmas que se encuentran en el diccionario sin determinante, pero que en otros se encuentra con l, como en el ejemplo 10:
10. secrecin excesiva de hormona de crecimiento (secrecin excesiva de hormona del crecimiento)
Este hecho tambin lo corrobora Estop (1999: 227) desde un punto de vista terminolgico:
187
La presncia dun article davant del complement s sovint un indici que la unitat no est del tot lexicalitzada.
En la tabla 5 se muestran los patrones que contienen sustantivos como posmodificadores. Puede verse que hay 17 patrones de 20 que tienen uno o ms sustantivos como modificadores del ncleo y equivalen al 80,57% (876 ocurrencias). Esto demuestra que el sustantivo es la categora lxica por excelencia en la posmodificacin al menos en este tipo de discurso. Desde un punto de vista sintctico, se explica que haya ms sustantivos que adjetivos como modificadores del ncleo ya que los patrones tienen complementos de nombre, es decir, un sintagma preposicional (SP= Prep+SN). Como se dijo antes, este tipo de discurso, el de las ciencias de la salud, tiende a representar objetos, procesos, fenmenos que son vehiculados por el sustantivo.
Longitud 3 3 3 4 4 3 4 3 3 4 4 3 4 4 3 5 3
Patrn N Prep N Adj N Adj Prep N N Prep N Prep N N Adj Prep N Adj N Prep N Adj Prep N Adj N Prep N N Adj Prep N Prep N N Prep Adj N N PP Prep N N Prep N Prep N Prep N N Prep N Prep N Adj N Prep N PP N Prep N Adj Adj N Adj PP Prep N N N Adj N Adj Prep N Prep N Adj N Adj N
Ejemplo virus de la inmunodeficiencia humana artrosis degenerativa de la columna electroforesis en gel de azarosa membrana apical de las clulas epiteliales constriccin de las arterias coronarias del corazn alto grado de polimorfismo secrecin excesiva de hormona de crecimiento sulfonilurea de alta afinidad Oligonucletidos repetidos en tndem Hipocrecimiento por anomalas en genes de los gonosomas electroforesis en geles de campos pulsantes hibridacin con sonda marcada inoculacin con adenopatas satlites axilares protena mitocondrial sintetizada en el citosol hormona somatomamotropina corinica sndrome dismetablico de sobrecarga de hierro heterocigoto hepatitis vrica C
Porc. 31,66 16,13 10,68 3,68 3,31 2,76 2,67 1,84 1,29 1,11 1,01 0,93 0,83 0,74 0,74 0,64 0,55
En la tabla 6 puede observarse que hay 16 patrones de 20 que tienen uno o ms adjetivos en la posmodificacin y son el 78,82% (855 ocurrencias). Uno de los patrones tiene un adjetivo en posicin antepuesta o premodificacin. En castellano la presencia de sustantivos y adjetivos es mucho ms equilibrada que en ingls, en el cual hay predominio de patrones con sustantivos. Dichos
188
G. Quiroz
adjetivos son relaciones a excepcin de los adjetivos de gradacin o cantidad, e.g. alto, excesivo, etc.
Longitud 3 3 3 3 4 4 3 4 3 4 4 4 3 5 3 3
Patrn N Prep N Adj N Adj Prep N N Adj Adj N Adj PP N Adj Prep N Adj N Prep N Adj Prep N Adj N Prep N N Adj Prep N Prep N N Prep Adj N N Prep N Prep N Adj N Prep N Adj Adj N Adj PP Prep N N N Adj N Adj Prep N Prep N Adj N Adv Adj N Adj N
Ejemplo virus de la inmunodeficiencia humana artrosis degenerativa de la columna diabetes mellitus insulinodependiente clulas alveolares descamadas membrana apical de las clulas epiteliales constriccin de las arterias coronarias del corazn alto grado de polimorfismo secrecin excesiva de hormona de crecimiento sulfonilurea de alta afinidad electroforesis en geles de campos pulsantes inoculacin con adenopatas satlites axilares protena mitocondrial sintetizada en el citosol hormona somatomamotropina corinica sndrome dismetablico de sobrecarga de hierro heterocigoto loci altamente polimrficos hepatitis vrica C
Porc. 31,66 16,13 6,73 4,88 3,68 3,31 2,76 2,67 1,84 1,01 0,83 0,74 0,74 0,64 0,65 0,55
En la tabla 7 se presenta el nico patrn que contiene adverbios terminados en -mente como modificador de un adjetivo y estn entre los 20 ms frecuentes (N Adv Adj).
Longitud Patrn 3 N Adv Adj Ejemplo loci altamente polimrficos Frecuencia Porcentaje 7 0,65
Como lo propone Kaul (2002: 44), este tipo de adverbios no se reduce simplemente a la interpretacin de modo o manera sino que vehiculan una cantidad sistemtica de significados53. De acuerdo con su clasificacin muchos de los adverbios terminados en -mente del corpus lexicogrfico son adverbios de
53 Tambin plantea la clsica discusin sobre el proceso de formacin de este tipo de palabras que va desde la derivacin hasta la composicin.
189
punto de vista como se presentan en el ejemplo 12 o adverbios de cantidad o gradacin, como en los ejemplos de 13.
12. 13. qumicamente indefinido, asintticamente normal, culturalmente relativista, genticamente significativa completamente aleatorio, absolutamente sin bias
Es el nico ejemplo del corpus de anlisis que se alinea en el grupo de los adverbios de cantidad o gradacin. En el ejemplo 14, se puede observar que el patrn N Adv Adj es el resultado de una oracin pasiva modificada por un adverbio en -mente que a su vez modifica a un adjetivo.
14. loci altamente polimrficos (loci que son altamente polimrficos)
En la tabla 8, aparecen los 4 patrones de los 20 ms frecuentes que tienen slo un participio en la premodificacin y equivalen al 7,84% (85 ocurrencias). Sintcticamente, los participios pasivos, suelen interpretarse como (que {ha sido/est/puede ser/debe ser} participio de pasado/V) como lo propone Rainer (1999: 4599). Adems, Rainer plantea que muchos participios pasivos se emplean en funcin adjetival y, como tales, parecen pertenecer al dominio de la formacin de palabras.
Longitud 3 3 3 4
Ejemplo clulas alveolares descamadas mensajeros controlados por genes hibridacin con sonda marcada protena mitocondrial sintetizada en el citosol
Frecuencia 53 14 10 8
Para observar el predominio de una u otra categora lxica, se han separado los patrones que contienen slo adjetivos o sustantivos en los 20 patrones ms frecuentes. La tabla 9 contiene los 3 patrones que no tienen sustantivo en la posmodificacin y equivalen al 12,26% (133 ocurrencias) del total de la muestra.
190
G. Quiroz
Longitud 3 3 3
Ejemplo diabetes mellitus insulinodependiente clulas alveolares descamadas loci altamente polimrficos
Frecuencia 73 53 7
En la tabla 10 se ensean los 4 patrones que no tienen adjetivos como modificadores del ncleo y equivalen al 14,01% (154 ocurrencias), pero con participio de pasado (N Prep N PP, N PP Prep N). A diferencia del ingls, en espaol se mantiene el equilibrio entre los sustantivos y adjetivos como modificadores del ncleo mientras que en ingls el predominio del sustantivo como parte de la premodificacin es contundente.
Longitud 3 3 4 3
Ejemplo electroforesis en gel de agarosa mensajeros controlados por genes hipocrecimiento por anomalas en genes de los gonosomas hibridacin con sonda marcada
Frec. 118 14 12 10
En cuanto a las preposiciones, en la tabla 11 los 5 patrones sin preposiciones en la posmodificacin representan el 13,55% (147 ocurrencias). Estos patrones normalmente pertenecen a la estructura SAdj o SAdv. Estos datos reflejan que las estructuras que tienden a predominar dentro de la posmodificacin, al menos en este tipo de discurso, son sintagmas preposicionales (SPrep) y esto se ve reflejado en la cantidad de preposiciones y sustantivos que acompaan esta estructura.
Longitud 3 3 3 3 3
Ejemplo diabetes mellitus insulinodependiente clulas alveolares descamadas hormona somatomamotropina corinica loci altamente polimrficos hepatitis vrica C
Frecuencia 73 53 8 7 6
191
Dependiendo de la longitud, hay patrones que son ms regulares que otros al igual que en la lengua general. A continuacin, se presentan de mayor a menor extensin los patrones ms frecuentes distribuidos por cantidad de tokens. En la tabla 12, se ensean los patrones de 5 y 6 tokens. Obsrvese que slo hay un patrn de 6 tokens con una ocurrencia, lo que no permite hacer ninguna generalizacin. Posteriormente siguen los patrones de 5 tokens con frecuencias bajas en todo el corpus, pero ms frecuentes dentro de los patrones de 5 tokens: N Adj Prep N Prep N Adj (7 ocurrencias), N Adj Prep N Prep N Prep N (4 ocurrencias) y N Prep N Adj Prep N Adj (3 ocurrencias). El resto de 11 patrones tiene 1 2 ocurrencias. En este grupo se observa que el patrn N Adj Prep N Prep N Adj predomina en este grupo, cuya posmodificacin est dominada por sintagmas preposicionales. En los ejemplos observados podra decirse que algunas de ellas son unidades libres como lo propone Cabr (1993). Como se ilustra en la tabla 12, algunos ejemplos son unidades libres formadas por unidades de conocimiento y generalmente enlazadas por preposiciones como con, a, para y por (genoma humano con idntico mapa de restriccin), y en algunos casos con determinantes dentro del sintagma (motoneuronas del asta anterior de la mdula espinal). Cabr (1993) afirma que:
En efecto, ante un sintagma terminolgico que corresponde a la descripcin del contenido de un trmino, es difcil decidir sin pruebas adicionales si se trata realmente de un trmino o de una combinacin de trminos, ya que, aparentemente, entre una combinacin libre y una estructura fija no se observa ningn tipo de diferencia.
192
G. Quiroz
Esto corrobora lo planteado por Estop (2006: 258) en cuanto al grado de lexicalizacin de una unidad terminolgica:
La presncia dun article davant del complement s sovint un indici que la unitat no est del tot lexicalitzada i, per tant, les estructures en qu el complement est introdut per un article determinat percentualment tendeixen a generar ms soroll que les estructures en qu el complement s indeterminat. En canvi, les estructures [N[A]SAdj]SN i [[N[A]SAdj]SN[A]SAdj]SN generen menys soroll, cosa que no vol dir que en generin poc.
Desde un punto de vista sintctico, son sintagmas de la estructura SN= SN (SAdj) SPrep SPrep SPrep, en el cual el sintagma preposicional (SPrep) puede reescribirse como SPrep=Prep SN y el SN como N o N Adj. Podra decirse que este tipo de estructuras funciona como expansiones de estructuras de menos longitud, es decir, estructuras con 1 2 SPrep.
Patrn N Prep N Adj Prep N Prep N Adj N Adj Prep N Prep N Adj N Adj Prep N Prep N Prep N N Prep N Adj Prep N Adj N Adj PP Prep N Adj N Prep N Prep N Prep N Prep N N Adj Prep Adj N Adj N Adj Prep Adj N Prep N N Adj Prep N Adv Adj N N Prep N Prep N Adj N PP Prep N Prep N Adj N Prep Adj N Prep N Adj N Prep N Prep Adj N Prep N N Prep N Prep N Adv Adj N Prep N Prep N Prep N Adj
Ejemplo actividad de la enzima responsable de la sntesis de xido ntrico sndrome dismetablico de sobrecarga de hierro heterocigoto visualizacin directa tras tincin con bromuro de etidio motoneuronas del asta anterior de la mdula espinal anticuerpos monoclonales ligados a partculas magnticas mtodo de deleccin del cmulo de hierro en el cuerpo valores predictivos de los diversos mtodos diagnsticos genoma humano con idntico mapa de restriccin fuentes idneas de linfocitos inmunolgicamente activos trisoma X con genes de crecimiento activos ratas modificadas por medio de ingeniera gentica endarteritis de pequeos vasos con proliferacin endotelial lugares de reconocimiento para distintos factores de transcripcin confirmacin de azoospermia en varones sexualmente maduros va de transmisin de la seal de modo constante
Frec. 1 7 4 3 2 2 1 1 1 1 1 1 1 1 1
Porc. 0,09 0,64 0,37 0,28 0,18 0,18 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09
Los datos de esta extensin muestran que existe una gran variabilidad estructural de este tipo de sintagmas dada la gran cantidad de estructuras (salvo el patrn N Adj Prep N Prep N Adj). Existe una relacin de 1,92 sintagmas por
193
cada patrn. Es decir, que puede haber casi tantos patrones como sintagmas puedan aparecer. En la tabla 13, se muestran los patrones de 4 tokens (con el ncleo). En total, la muestra contiene 28 patrones de 4 tokens que representan un 16,92% y 181 ocurrencias. Los patrones de 4 tokens agrupan casi la mitad de los patrones de la muestra y, hasta cierto punto, presentan una variabilidad sintctica importante al tener una relacin de 1 patrn por cada 8 sintagmas. El patrn ms frecuente es N Adj Prep N Adj con 3,68% y 40 ocurrencias, seguido muy de cerca por los patrones N Prep N Adj Prep N con un 3,31% y 36 ocurrencias y N Adj Prep N Prep N con un 2,67 % y 29 ocurrencias.
Patrn N Adj Prep N Adj N Prep N Adj Prep N N Adj Prep N Prep N N Prep N Prep N Prep N N Prep N Prep N Adj N Prep N Adj Adj N Adj PP Prep N N Adj Prep Adj N N Adj Adj Adj N Adj Prep N N N PP Prep N Adj N Prep Adj N Adj N PP Prep N Prep N N Prep Adj N Prep N Adj N Prep N Prep N N Adj Adj N N Adj Adj Prep N N Adj Adv Adj N Adj Adv PP Prep N N Adj PP Adv N Adj Prep N PP N N Prep N Adj N N Prep N Prep N N PP Adj Prep N N Prep Adj Adj Prep N N Prep N Adv Adj N Prep N PP Adv N Prep N Prep N PP
Ejemplo membrana apical de las clulas epiteliales constriccin de las arterias coronarias de l corazn secrecin excesiva de hormona de crecimiento hipocrecimiento por anomalas en genes de los gonosomas electroforesis en geles de campos pulsantes inoculacin con adenopatas satlites axilares protena mitocondrial sintetizada en el citosol cromatografa lquida de alta resolucin poliquistosis renal autosmica recesiva terapias regenerativas con clulas madre metilasas codificadas por los genes kgmA Hibridacin con oligonucletidos alelo especficos lactamasas codificadas en plsmidos de enterobacterias resistencia a diferentes clases de antibiticos escasa especificacin de la localizacin de algunas poblaciones Hepatitis vrica crnica B anormalidades genticas responsables de la tumorignesis cncer vesical cistoscpicamente visible enfermedad neuromuscular no ligada al sexo bacterias gramnegativas relacionadas serolgicamente clonaje posicional de genes mutados actividad transferasa en vellosidades curiales actividad proteincinasa sobre residuos de tirosina alelos clonados diferentes del locus cultivos con medios pobres en folato azoospermia en varones sexualmente maduros familia de secuencias relacionadas evolutivamente hemoperfusin con cartucho de carbn activado
Frec. 40 36 29 12 11 9 8 6 3 3 3 3 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Porc. 3,68 3,31 2,67 1,11 1,01 0,83 0,74 0,55 0,28 0,28 0,56 0,28 0,18 0,18 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09
194
G. Quiroz
Puede observarse que, a diferencia de los patrones de 5 tokens, existen patrones que tienen una frecuencia mucho mayor que otros como sucede con los 8 primeros de la tabla, los cuales representan 5 veces ms ocurrencias que los otros 20 patrones (151 contra 30) y tienen una alta frecuencia en el corpus. Hay 14 patrones con una ocurrencia (1,26%) y 6 patrones con 2 y 3 ocurrencias (1,76%). An as, los patrones de 4 tokens presentan una alta variabilidad sintctica al tener una media de 6,46 sintagmas por patrn. Salvo los patrones N Adj Adj Adj, N Adj Adj N, N Adj Adv Adj y N Adj PP Adv que pertenecen bsicamente a la estructura SN SAdj, el resto de patrones responde a la estructura SN (SPrep) SPrep. En la tabla 14, se presentan los 17 patrones de 3 tokens. stos representan un 80,21% de toda la muestra con 872 ocurrencias. Existe una variabilidad sintctica de 1 patrn por cada 51,29 sintagmas. Salvo por los patrones N PP Adj, N Prep N N y N N N, todos los patrones de 3 tokens tienen una frecuencia alta, lo que puede revertir en estructuras estables y con tendencia a que estas unidades sean trminos.
Patrn N Prep N Adj N Adj Prep N N Prep N Prep N N Adj Adj N Adj PP Adj N Prep N N Prep Adj N N PP Prep N N Prep N PP N N Adj N Adv Adj N Adj N Adj N Adj N N Prep N NNN N Prep N N N PP Adj
Ejemplo virus de la inmunodeficiencia humana artrosis degenerativa de la columna electroforesis en gel de agarosa diabetes mellitus insulinodependiente clulas alveolares descamadas alto grado de polimorfismo sulfonilurea de alta afinidad oligonucletidos repetidos en tndem hibridacin con sonda marcada hormona somatomamotropina corinica loci altamente polimrficos hepatitis vrica C alto peso molecular amfotericina B en liposomas citocromo c oxidasa diabetes de tipo 1 agua destilada estril
Porcentaje 31,66 16,13 10,68 6,73 4,88 2,76 1,84 1,29 0,93 0,74 0,65 0,55 0,46 0,46 0,18 0,18 0,09
195
El patrn ms frecuente es N Prep N Adj con un 31,66% del total de la muestra y 343 sintagmas, seguido por los patrones N Adj Prep N con un 16,13% y 175 sintagmas y N Adj Prep N con un 10,68% y 118 sintagmas. A su vez son las estructuras ms frecuentes en todo el corpus de anlisis en espaol y agrupan el 58,47% de todas las ocurrencias del corpus. Estos tres patrones responden a la estructura SN (SPrep) SPrep. Al igual que en ingls, se observa que la longitud de los patrones incide directamente en la variabilidad sintctica, es decir, a mayor extensin, mayor variabilidad, y viceversa. De igual modo, la productividad de los patrones tiende a disminuir con la extensin al igual que en ingls. Entre ms extenso sea un patrn, menos productivo ser, entre menos extenso sea, ms productivo ser. Se observa una tendencia similar que al ingls en cuanto a que los patrones de productividad media de 3 tokens (4,88%) son ms productivos que el patrn ms productivo de 4 tokens (3,68%) y de 5 tokens (0,64%).
Como se explic en 3.7, para el anlisis de dependencias sintcticas de los patrones en ingls, se seleccion manualmente una muestra de 8 patrones de los ms frecuentes a partir de la muestra del anlisis morfosintctico. Estos 8 patrones representan el 78,30% de todas las ocurrencias del corpus de anlisis. Para ello, se seleccion un 22% de los sintagmas y se distribuy proporcionalmente de acuerdo con su frecuencia, como se hizo con la muestra sintctica. Es decir, al patrn ms frecuente, le correspondan ms sintagmas para el anlisis semntico y al patrn menos frecuente se le asignaban menos sintagmas. Por ejemplo, el patrn N Prep N Adj es el ms frecuente del corpus y le corresponden 31 sintagmas y los patrones menos frecuentes son N Adj PP y N
196
G. Quiroz
Prep Adj N y les corresponden 6 y 5 sintagmas, respectivamente. A su vez, esta muestra se emple para el anlisis semntico del captulo 7. En la tabla 15 se lista la frecuencia de dependencias en el conjunto de patrones en espaol. La relacin de dependencia [A [B C]] es la ms frecuente en todo el corpus en espaol como ms del 50% de todas las ocurrencias (101) del corpus de anlisis. En esta dependencia el ncleo es modificado al menos por un sintagma preposicional en todos los casos. Este sintagma preposicional rige bien sea al SN o SA, como se ejemplifica en 15.
Dependencia [A [B C]] [[A B] C] [[A B] [C D]] Ambigua Frecuencia 101 91 6 2 Porcentaje 50,5 45,5 3 1
Tabla 15: Frecuencias de las dependencias de los patrones en espaol 15. electroforesis en gel de agarosa, mutaciones de cambio de sentido, tincin con bromuro de etidio, aceptores de puentes de hidrgeno, agenesia de cuerpo calloso, carcinoma de cuello uterino, niveles de ferritina srica, cDNA de cadena simple, anomalas en el metabolismo del hierro, cambio en la secuencia del DNA, control de la proliferacin celular, distribuciones de las frecuencias allicas, gen de la fibrosis qustica, estudios de asociacin gentica, compromiso de nervios craneanos
A continuacin, le sigue la relacin de dependencia [[A B] C] con un 45,5% de todas las ocurrencias (91). En esta dependencia, el primer modificador, que en la mayora de casos es un adjetivo, modifica al ncleo directamente en posicin posmodificadora, pero, en algunos casos, en posicin premodificadora. Finalmente, este sintagma es modificado por el segundo modificador, como se muestra en los ejemplos de 16.
197
16.
diferentes enzimas de restriccin, fuerte desequilibrio de ligamiento, alto grado de homologa, candidiasis cutnea generalizada, muerte celular programada, coagulacin intravascular diseminada, tumores vesicales superficiales, diabetes mellitus insulinodependiente, fiebre botonosa mediterrnea, brazo corto del cromosoma, brazo largo del cromosoma, anticuerpos fijadores del complemento, cncer de mama en mujeres, secuencia de aminocidos de SHV1, cncer de mama familiar
Por ltimo, aparece la dependencia [[A B] [C D]] con un 3% de todas las ocurrencias (6) para patrones de 4 tokens, como se observa en los ejemplos de 17.
17. asta anterior de la mdula espinal, membrana apical de las clulas epiteliales, alteraciones morfolgicas en la biopsia muscular, clulas epiteliales del tbulo renal, estructura general de las protenas reguladoras, gel proveniente de los tubos seminferos
El patrn N Prep N Prep N tiene dos formas de dependencia: [A [[B C]] con 19 ocurrencias (70,37%) y [[A B] C] con 7 ocurrencias (29,62%). En la primera dependencia, [[A B] C], el sintagma gen de la hormona del crecimiento,
198
G. Quiroz
el segundo constituyente de la modificacin del crecimiento modifica directamente al primer constituyente de la hormona para formar el sintagma de la hormona del crecimiento y, luego ste modifica directamente al ncleo gen formar el sintagma gen de la hormona del crecimiento, como tambin puede observarse en los casos del 18.
18. gen de la hormona del crecimiento, hipermotilidad de las articulaciones de las manos, alteracin del gen del retinoblastoma, anomalas en el metabolismo de l hierro, cambio en la secuencia de l DNA, hibridacin de los extremos de los YACS, Homologas de los alineamientos del DNA, identificacin del gen de la miofosforilasa, impedimento de la diferenciacin del adipocito, inclusin de las secuencias del plsmido, imprinting en la transmisin de los alelos, transcripcin del gen de la prolactina, reparacin por escisin de nucletido, tincin de azul de Perls, electroforesis en gel de agarosa, mutaciones de cambio de sentido, tincin con bromuro de etidio, aceptores de puentes de hidrgeno, replicacin en reacciones de PCR
En la segunda dependencia, [[A B] C], el sintagma cncer de mama en mujeres, el primer constituyente de la modificacin de mama modifica directamente al ncleo cncer para formar un conjunto cncer de mama. Posteriormente, el segundo constituyente (un SP) en mujeres modifica al conjunto cncer de mama para formar el sintagma cncer de mama en mujeres, como se aprecia en los casos del 19.
19. cncer de mama en mujeres, cncer de mama en varones, secuencia de aminocidos de CFTR, secuencia de aminocidos de SHV-1, rutas de sealizacin de Vav, cristales de cistina en orina, dominio de interaccin con Rad51
El patrn N Prep N Adj tiene dos formas de dependencia: [A [[B C]] con 77 ocurrencias (89,53%) y [[A B] C] con 8 ocurrencias (9,30%). En la primera dependencia, [A [[B C]], en el sintagma clulas de msculo liso, el adjetivo liso modifica al sustantivo msculo para formar el sintagma msculo liso y este en
199
su conjunto modifica al ncleo clulas y formar el sintagma clulas de msculo liso, al igual que los ejemplos de 20.
20. agenesia de cuerpo calloso, alteraciones en los parmetros bioqumicos, anemia de clulas falciformes, anlisis de ligamiento gentico, anlisis de regresin logstica, betalactamasas de las bacterias gramnegativas, betalactamasas de las bacterias grampositivas, cDNA de cadena simple, cambio de la flora intestinal, carcinoma de cuello uterino, carcinoma de clulas transicionales, compromiso de nervios craneanos, concentracin de ferritina srica, concentracin de hierro heptico
Obsrvese que en todos los ejemplos el adjetivo que acompaa al segundo sustantivo es relacional formando una especie de compuesto sintagmtico que modifica al ncleo. Si fuese un adjetivo calificativo quiz la modificacin pudiese afectar directamente al ncleo. La mayora de estos sustantivos que acompaan al adjetivo relacional son objetos como lo ha observado Demonte (1999: 158-159). En la segunda dependencia de este patrn, [[A B] C], el sintagma preposicional del primer constituyente de la modificacin hereditario es el que modifica directamente al ncleo cncer y este conjunto es modificado por el sintagma adjetival hereditario para formar el sintagma cncer de mama hereditario, como en los ejemplos de 21.
21. cncer de mama familiar, cncer de mama hereditario, factor de crecimiento epidrmico, factores de transcripcin especficos, nucletidos de guanosina radiactivos, vas de sealizacin intracelulares
El patrn N Prep Adj N tiene la dependencia [A [[B C]] con 5 ocurrencias. Estructuralmente, este patrn puede considerarse una variante del patrn anterior en su primera dependencia, N Prep N Adj. La diferencia radica en que el tipo de adjetivo es calificativo, como se observa en los ejemplos de 22, mientras que los adjetivos del patrn N Prep N Adj son en su mayora relaciones, como se aprecia en los ejemplos de 20 y 21. 200
G. Quiroz
22.
familias de alto riesgo, lipoprotenas de baja densidad, rotura de doble cadena, sulfonilurea de alta afinidad, tumores de alto grado
De hecho, si se observan los adjetivos antepuestos o premodificadores del ncleo o de otro sustantivo de todos los patrones, se observa que todos los adjetivos en dicha posicin son calificativos, como se ejemplifica en 23.
23. alto, amplio, bajo, buen, cierto, diferente, distinto, diverso, doble, escaso, fuerte, gran, insuficiente, largo, mal, mayor, nuevo, numeroso, sutil, varios
Este tipo de adjetivos dentro de los sintagmas desempea un papel importante dentro del discurso especializado de acuerdo con Lorente et al (2002: 1):
La lingstica general ha considerado errneamente que los adjetivos propios del discurso de especialidad son adjetivos relacionales, mayoritariamente derivados o relacionados formalmente con substantivos, como celular, anatmico, comunicativo. Por el contrario, en este trabajo postulamos que cualquier clase de adjetivo, sea relacional o calificativo, es susceptible de representar y comunicar conocimiento especializado. Parece evidente que tanto el adjetivo fenotpico en el sintagma nominal marcador fenotpico como el adjetivo grande en clula grande, mensajero en RNA mensajero o corto en el sintagma brazo corto del cromosoma contienen y aportan conocimiento especializado.
El patrn N Adj Prep N Adj tiene una sola forma de dependencia [[A B] [C D]] con 6 ocurrencias. En esta dependencia cada adjetivo modifica al sustantivo que acompaa, asta anterior y mdula espinal, y el sintagma preposicional, de la mdula espinal, modifica luego al sintagma nominal en el cual se haya el ncleo, asta anterior. Los ejemplos de 24 siguen este mismo patrn.
201
24.
asta anterior de la mdula espinal, membrana apical de las clulas epiteliales, alteraciones morfolgicas en la biopsia muscular, clulas epiteliales del tbulo renal, estructura general de las protenas reguladoras
El patrn N Adj Prep N tambin tiene una sola forma de dependencia [[A B] C] con 44 ocurrencias. En esta dependencia, el primer constituyente de la modificacin, el adjetivo corto, modifica al ncleo brazo y luego el sintagma cromosoma modifica al sintagma nominal brazo corto para formar el sintagma brazo corto del cromosoma. Los ejemplos de 25 siguen este mismo comportamiento.
25. brazo corto del cromosoma, brazo largo del cromosoma, anticuerpos fijadores del complemento, regin codificante del gen, reas periventriculares del cerebro, expresin gentica del colgeno, fase aguda de la enfermedad, arterias coronarias del corazn, artrosis degenerativa de la columna, manifestaciones clnicas de la enfermedad, respuesta clnica al tratamiento, anlisis molecular de los genes, bacterias resistentes a los antibiticos, base nitrogenada de las purinas
Los patrones N Adj PP, N Adj Adj y Adj N Prep N tiene una sola forma de dependencia [[A B] C] con 6, 18 y 8 ocurrencias, respectivamente. En el patrn N Adj PP, el adjetivo celular modifica directamente al ncleo muerte y el sintagma resultante, muerte celular es modificado por el participio de pasado programada para formar el sintagma muerte celular programada. Los ejemplos de 26 siguen este mismo comportamiento. En los ejemplos puede verse que los adjetivos que acompaan al ncleo son todos relacionales y los sustantivos son objetos o sustantivos deverbales, como lo ha observado Demonte (1999: 159).
26. candidiasis cutnea generalizada, muerte celular programada, coagulacin intravascular diseminada, atrofias musculares difusas, crecimiento fetal retardado, campos visuales limitados
202
G. Quiroz
En el patrn N Adj Adj, el primer adjetivo vesicales modifica al ncleo tumores y el segundo adjetivo superficiales modifica al nuevo sintagma nominal tumores vesicales para formar el sintagma tumores vesicales superficiales. Los ejemplos de 27 siguen este mismo comportamiento. Obsrvese que el orden de los adjetivos responde a relacional-relacional (supresor tumoral, adenomatosa familiar, trficas hipofisarias, etc.) o relacional-calificativo (vesicales superficiales, mieloide crnica, autosmica recesiva, autosmica dominante, renal crnica, etc.), salvo en el caso de membrana interna mitocondrial que podra estar tambin como membrana mitocondrial interna.
27. tumores vesicales superficiales, diabetes mellitus insulinodependiente, fiebre botonosa mediterrnea, herencia autosmica dominante, leucemia mieloide crnica, sistema nervioso central, genes supresores tumorales, enfermedad autosmica recesiva, forma autosmica recesiva, insuficiencia renal aguda, transmisin autosmica recesiva, gen supresor tumoral, hormonas trficas hipofisarias, forma autosmica dominante, insuficiencia renal crnica, herencia autosmica recesiva, membrana interna mitocondrial, poliposis adenomatosa familiar
En el patrn Adj N Prep N, el adjetivo premodificador alto modifica el ncleo grado y este sintagma a su vez, es modificado por homologa para formar el sintagma alto grado de homologa. Los ejemplos de 28 siguen este mismo comportamiento. Obsrvese que todos los adjetivos en posicin premodificadora son calificativos, como se discuti antes.
28. diferentes enzimas de restriccin, fuerte desequilibrio de ligamiento, alto grado de homologa, altas tasas de mutacin, altas temperaturas de hibridacin, alto grado de polimorfismo, alto recuento de leucocitos, diferentes factores de riesgo
203
En cambio, existe la tendencia de que entre menos entradas tenga un diccionario, ms unidades de tres tokens de longitud tiene. Por ejemplo, el diccionario IMF tiene 4.500 y es el que tiene el porcentaje ms alto de entradas de ms de 3 tokens con un 26,31% que representan 1.183 ocurrencias.
Diccionario Diccionario Mosby Diccionario IFCC IMF Terminology Routledge Dictionary ISI Multilingual Glossary rea temtica Medicina Lab. clnico Economa Finanzas Estadstica N. de entradas 31.400 4.039 4.500 38.000 3.500 SN de +3 tokens 3.848 510 1.183 1.491 883 Porcentaje 12,25 12,62 26,31 3,92 25,25
204
G. Quiroz
A continuacin, se describen los resultados del corpus lexicogrfico de contraste en espaol que se emplea para poder observar las tendencias de extensin, frecuencia de los patrones de ms de 3 tokens en diferentes reas del conocimiento.
En la tabla 9, se presentan los resultados de la longitud de los sintagmas en los diccionarios ordenados de menor a mayor (de tres tokens a ms de siete tokens) para el espaol. Salvo en el caso del diccionario Routledge de economa y finanzas, puede observarse que existe una relacin directa entre la extensin del sintagma y la frecuencia de aparicin en todos los diccionarios. En el diccionario Routledge tal variacin se puede explicar debido a que muchas de las unidades de 3 tokens en este diccionario son nombres propios que no se han tenido en cuenta en este trabajo con lo cual es posible que hubiera mantenido dicha tendencia. Igualmente, es posible que la longitud de 4 tokens sea la que el rea de economa y finanzas privilegie desde un punto de vista de la lexicalizacin. Sin embargo, no se han hecho pruebas para ello ya que no est dentro del alcance de este trabajo. De todos modos, las tendencias presentadas en los otros cuatro diccionarios, muestran dicho predominio en estructuras y sintagmas de 3 tokens.
3 tokens 3234 359 773 91 739 4 tokens 502 112 272 1121 126 5 tokens 96 23 99 226 16 6 tokens 7 9 32 45 2 7 tokens+ 9 7 7 8 0
Tabla 9: Frecuencia por nmero de tokens del corpus lexicogrfico de contraste en espaol.
205
En todo el corpus lexicogrfico de contraste, los sintagmas de 3 tokens son los ms frecuentes (5.196 ocurrencias y un 65,64% en promedio), como se ve en la tabla 9. Por el contrario, los sintagmas de ms de 7 tokens son los menos frecuentes (31 ocurrencias y un 0,39% en promedio). Adems, puede verse que los sintagmas de 3 y 4 tokens agrupan el 92,58% de todos los sintagmas del corpus lexicogrfico, lo que una vez ms confirma los resultados obtenidos por Cartagena (1998) para el espaol en cuanto a que la extensin de los sintagmas est en el rango de 3 y 4 tokens. En este corpus lexicogrfico slo el 7,42% representa al resto de sintagmas (de 5 a 8). Desde un punto de vista terminolgico, este hecho es muy importante ya que son las unidades que presentan ms estabilidad y seran potencialmente ms propensas a ser buscadas por el hablante de la lengua. Sin embargo, desde un punto de vista traductivo, este 7,42% de unidades de ms de 5 tokens son las que ofrecen ms problemas y son las que menos aparecen en los diccionarios para su consulta, por tanto, su bajo nivel de aparicin es una desventaja.
No existen trabajos en espaol sobre sintagmacin extensa que indiquen qu categora lxica predomina como modificadora del sustantivo. Sin embargo, debido al potencial que tiene el espaol para posponer sintagmas preposicionales, puede inferirse que es el sustantivo la categora que predomina. Puede observarse en la tabla 10 que la categora lxica modificadora predominante en todos los diccionarios es el sustantivo. En casi todos los casos, los sustantivos casi duplican a los adjetivos con una media de 38,2% (rango entre 34,49% y 46,67%) mientras que la media de los adjetivos no supera el 21,54% (rango entre 19,33% y 29,3%). A continuacin, siguen las preposiciones
206
G. Quiroz
con 28,43% (rango entre 22,76% y 32,6%), los determinantes con un 8,25 (rango entre 6,01 y 11,98), los numerales con un 1,34% (rango entre 0,21% y 4,39%), los adverbios con 1,23% (rango entre 0,87% y 2,2%) y los participios de pasado con 0,8% (rango entre 0,03% y 2,67%). En cuanto al predominio de la categora gramatical dentro de la premodificacin del corpus lexicogrfico, hay 34 patrones sin sustantivos en la premodificacin de los 445 totales y 122 patrones sin adjetivos, lo que muestra el predominio de los sustantivos como categora premodificadora. Por otro lado, hay 5 patrones que carecen de sustantivos y adjetivos y 294 patrones con sustantivos y adjetivos a la vez. En cuanto a las otras categoras lxicas abiertas, hay 89 patrones con adverbios y 55 patrones con participio de pasado.
Mosby POS N Adj54 PP Num55 Adv Prep V Det Frec. 4.491 3.797 4 33 112 3.332 0 1.110 Porc. 34,74 29,3 0,03 0,62 0,87 25,78 0 8,59 IFCC Frec. 861 363 0 76 9 420 0 111 Porc. 46,67 19,67 0 4,39 0,49 22,76 0 6,02 IMF Frec. 1.807 1.000 3 10 42 1.685 0 619 Porc. 34,97 19,35 0,06 0,21 0,81 32,60 0 11,98 Routledge Frec. 2.808 1.629 102 58 148 2.647 47 704 Porc. 34,49 20,01 1,25 0,71 1,82 32,51 0,58 8,65 ISI Frec. 1.203 579 80 24 66 862 1 180 Porc. 40,17 19,33 2,67 0,80 2,20 28,78 0,03 6,01
Tabla 10: Categora lxica predominante en la posmodificacin del corpus lexicogrfico en espaol.
54 Algunos adjetivos se encuentran en posicin premodificadora: 25 en el Mosby, 1 en el IFCC, 7 en el IMF, 6 en el Routledge y 4 en el ISI, respectivamente. 55 Por ajuste de la muestra el porcentaje de esta categora puede variar ligeramente en los diccionarios Mosby, IMF e IFCC.
207
En este apartado se analizan los resultados de los patrones del corpus lexicogrfico de contraste en espaol de acuerdo con su frecuencia en todo el corpus y en cada diccionario. De igual modo, se presentan los datos de acuerdo con la extensin del sintagma en cada diccionario. En su conjunto, el corpus lexicogrfico de contraste contiene 445 patrones diferentes y el diccionario con ms patrones es el Routledge con 265 y un promedio de 5,62 sintagmas por patrn y el diccionario con menos patrones es el diccionario ISI con 87 patrones y una media de 10,14 sintagmas por patrn. Puede apreciarse en la tabla 11 que los diccionarios con mayor nmero de entradas (Routledge y Mosby) tienen mayor variabilidad en cuanto a la cantidad de patrones a pesar de que la relacin del total de patrones contra total de sintagmas de ms de tres tokens pueda ser alta. Sin embargo, como puede apreciarse en la tabla 12, los siete primeros patrones de cada diccionario representan la mayora de ocurrencias (rango entre 51,84% y 73,55%) mientras que para el resto corresponde a un nmero importante de estructuras para unas cuantas ocurrencias. Esto demuestra que tambin en el corpus lexicogrfico de contraste existe una variabilidad sintctica considerable. Una vez ms, estos datos muestran que la longitud de un sintagma est directamente relacionada con la estabilidad de las estructuras y que hay unas cuantas estructuras (7) que representan a una gran cantidad de sintagmas. Igualmente, una mayor variabilidad sintctica est relacionada directamente con una (pos)modificacin ms extensa.
208
G. Quiroz
Diccionario Diccionario Mosby Diccionario IFCC IMF Terminology Routledge Dictionary ISI Multilingual Glossary Total
Tabla 11: Nmero de patrones totales del corpus lexicogrfico de contraste por diccionario y promedio por patrn.
Como se ilustra en la tabla 12, los patrones ms frecuentes en el corpus lexicogrfico de contraste son: N Prep N Adj es el ms frecuente en los tres diccionarios, adems es el segundo ms frecuente en uno de ellos y no aparece en el diccionario Routledge; N Prep N Prep N es el segundo ms frecuente en dos diccionarios, el tercero ms frecuente en dos de ellos y es el nmero 11 en uno de ellos; N Adj Prep N aparece en cuatro de los diccionarios entre los cinco patrones ms frecuentes al igual que N Adj Adj y N Prep N N en tres de ellos. A diferencia del ingls, en espaol el orden de los patrones vara un poco dentro de los cinco ms frecuentes y no conservan el mismo orden de aparicin. De todos modos, estas estructuras son las ms lexicalizadas y estables de todo el corpus independientemente del rea temtica y el tamao del diccionario. El caso excepcional es el diccionario Routledge, el cual no comparte ninguna de estas estructuras con los otros patrones entre los cinco ms frecuentes. Slo el patrn N Prep N Prep N (y la variacin N Prep N Prep Num N) que ocupa el puesto 11 es el nico de 3 tokens que comparte con el resto del corpus lexicogrfico. Se esperaba que este diccionario no siguiera sistemticamente las tendencias de los otros diccionarios ya que el predominio recae sobre los patrones de 4 tokens, cuyo patrn ms frecuente es N Prep N Prep N Adj y en los otros patrones la extensin que predomina es de 3 tokens. No es fcil saber si esto depende del rea temtica o de los tipos de datos del diccionario, pero no es posible de establecer en este trabajo, pues se sale del alcance de este estudio.
209
Es importante destacar otras estructuras del corpus por su frecuencia aparicin en los diferentes diccionarios. Entre ellas, pueden destacarse los patrones N N Adj, N N N, N Adj N, N N Prep N y N Adj Prep N Adj presentes dentro de los diccionarios, pero con frecuencias un poco variables. En cuanto a la distribucin de los primeros 20 patrones por nmero de tokens, puede observarse que, salvo en los diccionarios IMF y en especial el Routledge, los patrones ms frecuentes son los de tres tokens, luego siguen los patrones de cuatro tokens y, por ltimo, los de cinco tokens. En cuanto al diccionario Routledge, los patrones de 4 tokens predominan con 15 de 20, seguidos por los de 5 tokens (3 de 20) y luego por los de 3 tokens (2 de 20). En el diccionario IMF, hay un equilibrio entre los patrones de tres y cuatro tokens (9 de 20, en cada caso), seguidos por los patrones de cinco tokens (2 patrones).
210
G. Quiroz
Mosby Tokens 3 3 3 3 3 3 3 3 3 4 3 4 4 4 3 4 4 4 4 4
Patrn N Prep N Adj N Adj Adj N Prep N Prep N N Adj Prep N N Prep N N N N Adj NNN N Adj N N N Prep N N Prep N Prep N Adj N Adv Adj N Prep N Adj Adj N Adj Prep N Adj N Adj Adj Adj N Prep Adj N N Adj Prep N Prep N N Prep N Adj Prep N N Prep N Prep N Prep N N Adj Adj Prep N N Adj Prep N N
IFCC Tokens
Patrn N Prep N Adj N Prep N Prep N NNN N Adj Adj N Adj Prep N N Prep N N N N Adj NNNN N Adj Prep N Adj N N Prep N N N Num N N Prep N N Prep N N Prep N Prep N Prep N N Adj N N Prep N Adj Prep N N Prep N Adv Adj N Adj Prep N Adj N Adj N N Adj N N N N N Adj Prep N N Num N Adj
Frec. 70 68 63 44 32 23 22 10 9 8 7 7 6 5 5 5 4 4 4 4
19,1 3 17,2 3 11,2 9,5 2 9,2 5 5,4 9 3,5 5 2,1 4 1,67 1,4 4 1,3 6 1,3 2 1,2 6 1,16 1,0 8 0,7 4 0,6 9 0,5 9 0,4 6 0,3 6 3 3 3 3 3 4 4 3 3 4 4 3 4 4 6 6 4 3
IMF Tokens Patrn 3 3 3 3 3 4 4 4 N Prep N Adj N Prep N Prep N N Adj Prep N N Adj Adj N Prep N N N Prep N Prep N Adj N Prep N Prep N Prep N N Adj Prep N Prep N N Adj Prep N Adj
% 21, 8
RD Tokens 4
Patrn N Prep N Prep N Adj N Adj Prep N Adj N Adj Prep N Prep N N Prep N Prep N Prep N N Prep N Adj Prep N N Prep N Adj Adj N Prep N Adv Adj N Prep N Prep Adj N N Adj Adj Prep N N Prep N Prep N Prep N Adj N Prep N Adj Prep N Adj N Prep N Prep N N PP Prep N Prep N N Prep N Prep Num N N Prep N Adj Prep N Prep N N Adj Prep Adj N N PP Prep N Adj N Prep N Prep N N N Adj Adj Adj N Adj Adv Adj
17,2 4 11,5 5,4 9 4,0 5 3,4 6 3,2 1 2,8 7 2,5 3 2,2 8 1,3 5 1,18 0,8 4 0,8 4 0,7 6 0,6 7 0,5 9 0,5 8 0,5 9 0,5 4 4 4 4 4 4 4 5 5 3 4 3 5 4 4 4 4 4
ISI Tokens 3 3 3 3 3 3 3 3
Patrn N Prep N N N Prep N Adj N Prep N Prep N N Adj Adj N Adj Prep N N Prep N PP N Adj PP N Adv Adj N N Prep N N N Adj N Prep Adj N N Prep N Adv Adj N Prep N Prep Num N N Prep N N N N Prep N Prep N Adj N Adj Prep Num N N Prep N Adj Prep N N Prep N Prep N N NNNN NNN
% 20,7 14,8 10,9 7,81 7,47 3,28 2,94 2,94 2,83 2,6 2,38 1,25 1,02 1,02 0,91 0,79 0,79 0,79 0,68 0,57
1,75 4 1,55 3 1,3 6 4 1,3 6 3 1,17 0,9 7 0,9 7 0,9 7 0,7 7 0,7 7 0,7 8 0,7 8 3 4 5 3 4 5 4 4
1,27 3 1,27 3 1,21 3 1,0 7 4 1,01 0,9 4 0,9 4 0,8 7 0,8 7 0,8 0,7 4 0,7 4 3 4 4 3 4 4 4 3
N Prep Adj N 27 N Prep N Adj Prep N 16 N Prep N Prep Adj 14 N N Prep N N Prep N Prep N N N Prep N Prep N Prep N Prep N N Adj Prep Adj 10 10 9 8
N Adj Prep N N 7 N Prep N Adj Prep N Prep N 7 N Prep N Adv Adj N Adv Adj Prep N 7 6
Tabla 12: Los 20 patrones ms frecuentes del corpus lexicogrfico de contraste en espaol.
211
212
G. Quiroz
Routledge Patrn Frec. % 0,07 0,07 0,07 0,07 0,07 0,07 0,07 1 1 1 1 1
0,2 N Adj Adv Adj Prep N Prep N Prep N 0,2 N N Prep N Adj Adj Prep N Adj 0,2 N Prep Adj Adj Prep N Adj 0,2 N Prep N Adj Prep N Prep N Prep N Adj
0,08 N Adj Prep N Prep N Prep N Prep N Prep N 1 0,08 N PP Prep N PP Prep N N Adj 0,08 N Prep N Adj Prep N Adj Prep N Adj 0,08 N Prep N Adj Prep N Adj Prep N N N Prep N Adv Adj Adj V Prep N N Prep N Prep Adv Adv Adv N V
N Prep N Prep N Prep N Prep N Prep N Adj 1 N N N N Adj N N N N N N N N N Adj 1 1 0,2 N Prep N Prep N N Prep N Adj Prep N N 0,2 N Adj Prep N Prep N N Prep N Prep N Prep 1 0,08 N Prep N Prep N Adj N N V N Prep N 1 1 0,08 0,08 0,2 N Prep N Prep N Prep N Prep N Adj Prep N Prep N 1
N N Num N N N Adj N N 1
0,07
Tabla 13: Los patrones ms frecuentes de +7 tokens del corpus lexicogrfico de contraste en espaol.
213
Mosby Tokens Patrn N Adj Adj Prep N Adj Adj 6 N Adj Prep N Prep 6 N Prep N Adj Adj N Prep N Adj 6 Prep N Adj N Adj Prep N Adj Prep N N 6 6 6 6 6 6 6 6 6 6 6 6 Frec. 2 2 1 1 % 0,05 0,05 0,03 0,03 0,03 0,03 0,03
IFCC Patrn N Adj Prep N Adj N Adj N N Adj N N N N N N Adj N N N Prep N Adj Adj Prep N Adj N Prep N Adj Adj Prep N Prep N Frec. 4 4 1 1 1 % 0,8 0,8 0,2 0,2 0,2
IMF Patrn N Prep N Adj Adj Prep N Adj N Prep N Prep N Prep N Prep N Adj N Adj Prep N Adj Prep N Adj N Adj Prep N Prep N Prep Adj N N Adj Prep N Prep N Prep N Prep N N N N Prep N Prep N N N Prep N Adj Prep N Prep Adj N N Prep N Adj Prep N Prep N Prep N N Prep N N Prep N N Prep N N Prep N Prep Adj Prep N Prep N N Prep N Prep N Adj Prep Adj N Prep N Prep N Adj Prep N Prep N N Prep N Prep N N Prep N Adj N Prep N Prep N Prep N Adj Prep N N Prep N Prep N Prep N N Prep N Frec. 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 % 0,17 0,17 0,08 0,08 0,08 0,08 0,08 0,08 0,08 0,08 0,08 0,08 0,08 0,08 0,08
Routledge Patrn N Prep N Adj Prep N N Adj N Adj Prep N Adj N Adj N Prep N Prep N Adj Prep N Prep N N Prep N Prep N N Adj Adj N Prep N Prep N Prep N Adj Adj N Adj Adj PP Prep N Adj N Adj Adj Prep Adv V N N Adj Adj Prep N Adv Adj N Adj Prep N Adj Adj Prep N N Adj Prep N Adj Adv Adj N Adj Prep N Adj Prep N N N Adj Prep N Adj Prep N Prep N N Adj Prep N PP Prep N Adj N Adj Prep N Prep N Adj Adj N Adj Prep N Prep N Adj Prep N Frec. 3 2 2 2 2 1 1 1 1 1 1 1 1 1 1 % 0,2 0,13 0,13 0,13 0,13 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07
ISI Patrn Frec. N Prep N N Adv Adj Prep N 1 N Prep N Prep N Prep N Prep N Adj 1 % 0,1 0,1
N Prep N Adj Prep 1 N N Prep N N Prep N N Adj Prep N Adj 1 N Prep N Prep N Prep N Adj Prep N 1
Tabla 14: Los patrones ms frecuentes de 6 tokens del corpus lexicogrfico de contraste en espaol.
214
G. Quiroz
En los patrones de 5 tokens de la tabla 15, puede observarse que an existe una gran variabilidad sintctica, pues hay 97 patrones que representan el 39,37% de las ocurrencias (unas 161) de los 121 patrones totales. Sin embargo, hay estructuras claramente ms frecuentes que otras y aparecen en varios diccionarios del corpus lexicogrfico de contraste. Los 10 primeros corresponden a 172 ocurrencias (42,05%) y los 15 primeros de 209 ocurrencias (51,10%). Hay 23 patrones con +5 de frecuencia y representan de 248 ocurrencias (60,63%) de las 409 ocurrencias en total, es decir, ms de la mitad de todas las ocurrencias. Los patrones ms frecuentes son N Prep N Prep N Prep N Adj y N Prep N Adj Prep N Adj con un 1,9% (30 ocurrencias) cada uno y aparecen en 3 diccionarios. Finalmente, aparecen los patrones N Prep N Adj Prep N Prep N y N Prep N Prep N Prep N Prep N con 23 ocurrencias (1,57%) y 18 ocurrencias (1,36%), respectivamente. En cuanto a la exclusividad de patrones, hay 45 patrones que aparecen en ms de 2 diccionarios, con lo cual 75 patrones slo aparecen en un diccionario. De estos 45 patrones, solo 3 aparecen en 4 diccionarios (N Adj Prep N Adj Adj, N Prep N Adj Prep N N y N Prep N Adj Adv Adj) y 13 patrones en 3 diccionarios. Esto muestra que adems de la alta variabilidad sintctica, existe una gran cantidad de estructuras exclusivas de cada diccionario. El diccionario que presenta mayor variabilidad es el Routledge con 85 patrones, de los cuales 47 tienen slo una ocurrencia. Sin embargo, tambin es el diccionario con los patrones ms frecuentes. Por el contrario, el diccionario con menos patrones es el IFCC con 10 patrones, todos de 1 2 ocurrencias. Los 10 patrones ms frecuentes responden a las estructuras: (SN SA)SN (SP (SN SA))SP (SP (SN SA))SP y (SN)SN (SP SN)SP (SP SN)SP SP SN)SP (SP (SN SA))SP|(SP SN)SP.
215
Mosby Tokens 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 Patrn N Adj Prep N Adj Adj N Prep N Adj Prep N Adj N Adj Adj Prep N N N Adj Prep N Prep N Adj N Prep N Adj Adj Prep N N Prep N Prep N Prep N Adj N Adj Adj Prep N Adj N Adj Prep N Adj Prep N Frec. % 6 6 5 5 5 5 4 3
IMF Patrn N Prep N Prep N Prep N Prep N N Prep N Adj Prep N Prep N N Prep N Adj Prep N Adj N Prep N Prep N Prep N Adj Frec. % 9 7 6 6 0,8 0,6 0,5 0,5 0,3 0,3 0,3 0,2 0,2
Routledge Patrn N Prep N Prep N Prep N Adj N Prep N Adj Prep N Adj N Prep N Adj Prep N Prep N N Adj Prep N Prep N Prep N N Adj Prep N Prep N Adj N Prep N Prep N Prep N Prep N N Prep N Prep N Adj Prep N N Adj Adj Prep N Prep N N Prep N Adj Prep Adj N Frec. % 19 18 14 10 9 9 6 5 5 1,3 1,2
ISI Patrn N Prep N Adj Adv N N Prep N N N N Frec. % 2 2 1 1 1 1 1 1 0,2 0,2 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1
0,2 N Adj N N N 0,2 N N N N Num N 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0 0 0 N N Num N N Prep N N Prep N Adv Adj Prep N N Adj Prep N N N N N N Prep N Adj N Num N N N N N Prep N Adj Adj N N Prep N Adj N N N Prep N Adj Prep Adj N
0,9 N Adj PP Prep N Adj 0,7 N Adj Prep N Adj Adj 0,6 N Adj Prep N Adv Adj N Adj Prep N Prep Adj 0,6 N 0,4 N N Adv N Adj 0,3 N Prep N Adj Adv Adj
0,2 N Prep N Adj Prep N N 4 N Adj Prep N Prep N 0,2 Prep N 3 N Prep N Prep N N 0,2 Prep N 3 0,2 N Adj Prep N N Prep N 2 N Adj Prep N Prep N 0,2 Adj 2 N Adv Adj Prep N Prep 0,2 N 2 N Prep N Adj Adv Adj 2
N Prep N N Prep N Adj 3 N Prep N Prep N Prep Adj N 3 N Adj Adj Adj Prep N N Adj Adj Prep N Prep N N Adj N Adv Adj N Adj Prep N Prep N Prep N N Prep N Adj Prep N Prep N N Prep N Prep N Adj Adj Adj N Prep N Adj Adj Adj N Prep N Prep N Adj Adj N Prep N Prep N 2 2 2 2 2 2 1 1 1
0,3 N Prep N Adj Prep N N 1 0,3 N Prep N N N Adj N Prep N PP Prep N 0,3 Prep N N Prep N Prep Adj N 0,3 Prep Adj N Prep N Prep N Adv 0,3 Adj 0,3 0,3 0,3 0,2 0,2 0,2 1 1 1 1
0,2 N Prep N Adj Prep N N 5 N Prep N Prep N Prep 0,2 Adj N 5 0,2 N Adj Prep N Adj Adj N Adj Prep N Adj Prep 0,2 N N Adj Prep N Adv Prep 0,2 N 0,1 0,1 0,1 0,1 0,1 N Adj Prep N N Adj 4 4 4 4
N Prep N N Prep N Adj 2 N Prep N Prep N Adj Adj 2 N Prep N Prep N N Adj 2 N Adj Adj Prep N Adj N Adj Adj Prep N N N Adj Adv Adj Prep N N Adj Prep N Adj Adj N Adj Prep N Adj Prep 1 1 1 1 1
N Prep N Prep N Adj N 4 N Adj Adj Prep N Adj 3 N Adj Adj Prep N N 3 N Adj N Prep N Prep N 3
216
G. Quiroz
5 5 5 5 5 5 5
Prep Adj Adj N Prep N Prep N Prep N N Adj Adj Adj Adj N Adj Adj Adv Adj N Adj Adj Adv N N Adj Prep N N Adj N N Adj N Prep N
N 1 1 1 1 1 1 0 0 0 0 0 0 0 N Adj Prep N N N N Adj Prep N Prep N N N Adv Adj Prep N Adj N Adv Adj Prep N N 1 1 1 1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 N Adj Prep N Prep Adj N 3 N Adj Prep N Prep N N 3 N Adv Adj Prep N Adj 3 N Adv Adj Prep N N 3 N Prep Adj N Prep N Adj 3 N Prep N Prep N Adv Adj 3 N Prep N Prep N N N 3 0,2 0,2 0,2 0,2 0,2 0,2 0,2
Tabla 15: Los patrones ms frecuentes de 5 tokens del corpus lexicogrfico de contraste en espaol.
217
En los patrones de 4 tokens de la tabla 16, puede observarse que existe mucha menos variabilidad sintctica ya que 20 patrones representan el 79,39% de las ocurrencias (unas 1.576) del total de 1.985. A diferencia de los patrones de 5 tokens, los patrones de 4 tokens presentan estructuras claramente ms frecuentes y muchas de ellas aparecen en todos los diccionarios del corpus lexicogrfico de contraste. Los 10 primeros representan a 1.316 ocurrencias (66,29%) y los 20 primeros de 1.576 ocurrencias (79,39%). Hay 43 patrones con +5 de frecuencia y representan a 1.804 ocurrencias (90,88%) de las 1.985 ocurrencias en total, es decir, la mayora de ocurrencias. Los patrones ms frecuentes son N Prep N Prep N Adj con 299 ocurrencias (15,06%), N Adj Prep N Prep N con 202 ocurrencias (10,17%) y N Prep N Prep N Prep N con 201 ocurrencias (10,12%) y aparecen en los 5 diccionarios. Luego, siguen los patrones N Adj Prep N Adj, N Prep N Adj Prep N y N Prep N Adj Adj con 156 ocurrencias (7,85%), 132 ocurrencias (6,64%) y 120 ocurrencias (6,0%), respectivamente. En cuanto a la exclusividad de patrones, hay 51 patrones que aparecen en ms de 2 diccionarios, con lo cual 100 patrones slo aparecen en un diccionario. De estos 51 patrones, 20 patrones aparecen en los 5 diccionarios con 1.525 ocurrencias, 6 patrones aparecen en los 4 diccionarios con 85 ocurrencias, 8 patrones aparecen en los 3 diccionarios con 125 ocurrencias y 17 patrones aparecen en los 2 diccionarios con 76 ocurrencias. Esto muestra que existe menos variabilidad sintctica que en los otros casos, aunque existe una gran cantidad de estructuras exclusivas de cada diccionario. Es importante destacar que esta variabilidad sera muy baja si el diccionario Routledge no tuviera 61 patrones de 1 2 ocurrencias. As, el diccionario que presenta mayor variabilidad es el Routledge con 104 patrones, de los cuales 44 tienen slo una ocurrencia. Sin embargo, tambin es el diccionario con los patrones ms frecuentes como sucede con los patrones de 5 tokens. Por el contrario, el diccionario con menos patrones es el IFCC con 41 patrones, de cuales 26 son de 1 2 ocurrencias de los que se infiere que tambin tiene mucha exclusividad de
218
G. Quiroz
patrones. El diccionario con menos exclusividad de patrones es el Mosby con slo 14 patrones de 1 ocurrencia.
219
Mosby Tokens Patrn 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 N Prep N Prep N Adj N Prep N Adj Adj N Adj Prep N Adj N Adj Adj Adj N Adj Prep N Prep N N Prep N Adj Prep N N Adj Adj Prep N N Adj Prep N N N Prep N N Adj N Prep N N N N Adj Adv Adj N N N Adj N Prep N Prep N N N Adj N Adj NNNN N Prep N Adj N N N Adj Adj N N Adj Prep N N N Prep N Adj N Prep N N Prep N N Adj Prep Adv Adj N Prep N Adv Adj N Adj Adj N N Adj N Prep N
IFCC56 Patrn NNNN N Adj Prep N Adj N Prep N N Prep N N Prep N Prep N Prep N N Prep N Adj Prep N
IMF Patrn N Prep N Prep N Adj N Prep N Prep N Prep N N Adj Prep N Prep N N Adj Prep N Adj N Prep N Adj Prep N N Prep N Prep N N
Routledge Patrn N Prep N Prep N Adj N Adj Prep N Adj N Adj Prep N Prep N N Prep N Prep N Prep N N Prep N Adj Prep N
Frec. % 11 9 8 7 7 6 5 5 5 5 4 4 3 3 3 3 2 2 2 2 2 2 2 1 1,3 1 0,9 0,8 0,8 0,7 0,6 0,6 0,6 0,6 0,5 0,5 0,5 0,3 0,3 0,3 0,3 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,1
8,92 N Prep N Prep N Adj 8,79 N Prep N Adj Prep N 5,16 N Prep N Prep N N 3,62 N N N N 2,08 N Adj Prep Adj N 1,88 1,27 1,01 N Prep N Adj Adj N Prep N Prep Adj N N Prep N Prep N PP
0,69 N Prep N Adv Adj 0,59 N N Adj Prep N 0,46 N Prep N Adj Adj 0,36 N Prep N Prep Adj N 0,34 N Adj Num N Adj 0,33 N Adj Prep N Prep N 0,26 N Prep N N N 0,24 N Prep N Prep N Adj 0,23 N Prep N Prep N N 0,21 0,18 0,19 0,15 0,15 0,15 0,15 0,13 0,13 Num N N N N N Adj N N N N Adj Adj N N N Adj N N N N Adj N Adj Adj N N Adj Adj Prep N N Adj Adv Adj N Adj N Prep N
0,84 N Prep N Adj Adj 0,59 N Prep N Adv Adj 0,59 N Prep N Prep Adj N 0,5 0,51 0,51 N Adj Adj Prep N N PP Prep N Prep N N Adj Prep Adj N
0,8 N Adj Prep N N 0,8 N Prep N Adv Adj 0,8 N Adv Adj Prep N 0,6 N Prep N Adj Adj 0,6 N Prep N Prep Adj N 0,6 N Adj Adj Prep N 0,6 N Adj Adv Adj 0,6 N Adj Prep Adj N 0,6 N Prep N N Adj 0,4 N Adj N N 0,4 N Adj Prep Adj N Prep N 0,4 N N Prep N Adj 0,4 N N Prep N Prep N 0,2 N Prep N Adj Prep Adj 0,2 N Prep N N N 0,2 N Prep Adj Prep N Adj 0,2 N Prep N Prep Adj Prep N 0,2 Adj N Adj Prep N 0,2 Adj N Prep N N
0,87 N Adj Adv Adj 0,87 N Prep N N Prep N 0,8 0,74 N Adj Adv PP 0,74 N Adj Prep N N 0,74 N Adj Prep N Prep N 0,67 N Prep N N Adj 0,67 N Adj Adj Adj 0,6 N Adj Prep N Adj 0,54 N Adv Adv Adj 0,54 N N Adj Adj 0,47 N N N Adj 0,4 0,4 0,4 N N Prep N Adj N Prep N Adv N Adj N Adj PP
0,42 N PP Prep N Adj 0,42 N Prep N Prep N N 0,42 N Adj Adj Adj 0,34 N Adj Adv Adj 0,25 0,25 0,25 0,25 0,25 0,16 0,17 N Prep N PP Prep N N Prep N Adv Prep N N Adj Prep N N N N Prep N Adj N Prep N Adj Prep Adj N Adv Adj Prep N N Adj N Prep N 0,24 N Prep N Adj N
56 El diccionario de laboratorio clnico tiene muchos trminos que son nomenclaturas y por esta razn muchos de los patrones y datos en general no concuerdan con los de los otros diccionarios.
220
G. Quiroz
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
N Adj Prep Adj N N N Adv Adj N N Prep N Prep N Adj N Prep N Prep N N Adj Adv N N Adj N N N Adj N N Num N N Adj N N PP Prep N Adj N Prep Adj Adj Prep N N Prep N Prep Adj N Adj N Adj Prep N Adj N Prep N Adj N Adj N Prep Num N N Adv Prep N N N N N Prep N N N Prep Adj Adj N N Prep Adv Adj
3 3 3 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1
0,08 N N Adj N Prep N 0,08 N N Adj Num N Adj 0,08 N N N Prep N 0,05 N N Num N Adj 0,05 N N Num N N 0,05 N N Prep N Prep N 0,05 N Num Adj Num N Adj 0,05 N Num N Adj Adj 0,05 N Num N N N 0,05 N Num Prep N N N 0,05 N Prep N Adj N 0,03 N Prep N N N N 0,03 Num Adj Num N N Adj 0,03 Num N Adj N Num N 0,03 Num N N N N 0,03 0,03
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,2 N Adj Adv Prep N 0,2 N Adj N Adj 0,2 N Adj N Prep N 0,2 N Adj Prep N Prep N Num 0,2 N Adv Adj Adj 0,2 N Adv Adj Prep Adj 0,2 N N Adj Adj 0,2 N N N Adj 0,2 N N N N 0,2 N N Prep N Prep Adj N 0,2 N Prep Adj N Prep N 0,2 N Prep Adv Adj N 0,2 N Prep Adv N Prep N 0,2 N Prep N Adj Prep Prep N 0,2 N Prep N Adv N 0,2 N Prep N N Prep N
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,08 N Adj N Adj 0,08 N Adv Prep N Adj 0,08 N Adv Prep N Prep N 0,08 N Prep N Adv PP 0,08 N Prep N N N 0,08 N Adj Prep Adj Prep N 0,08 N Prep N N Prep N 0,08 N Prep N Prep N Prep V 0,08 Adj N Adj Prep N 0,08 N Adj N N 0,08 N Adj Prep N Prep V 0,08 N Adj Prep PP Prep N 0,08 N N N Adj 0,08 N PP Prep Adj N 0,08 N Prep Adj N Prep N 0,08 N Prep Adj Prep N Adj N Prep N Prep V N
5 5 5 5 5 4 4 4 3 3 3 3 3 3 3 3 3
0,34 N Adj Adj N 0,34 N Adj Adj PP 0,34 N Adj Adj Prep N 0,34 N Adj N Adj 0,34 N Adj N N 0,27 N Adj N Prep N 0,27 N Adv Adj Prep N 0,27 N N Adj PP 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 N N Adj Prep N N N Prep Adj N N N Prep N PP N N Prep N Prep N N Prep Adj N Adj N Prep Adj N N N Prep N Adj PP N Prep N Adv PP N Prep N N N Num N Prep N N N Prep
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1
Tabla 16: Los patrones ms frecuentes de 4 tokens del corpus lexicogrfico de contraste en espaol.
221
En los patrones de 3 tokens de la tabla 17, puede observarse que son los sintagmas con menos variabilidad y exclusividad de sintagmas por diccionario. En los patrones de 3 tokens se reduce la variabilidad sintctica ya que 20 patrones representan el 97,20% de las ocurrencias (unas 5.147) del total de 5.325. En el caso de los patrones de 3 tokens, se presentan estructuras con frecuencias altas y muchas de ellas aparecen en todos los diccionarios del corpus lexicogrfico de contraste. Los 10 primeros representan a 4.877 ocurrencias (92,10%) y los 20 primeros de 5.147 ocurrencias (97,20%). Hay 27 patrones con +5 de frecuencia y corresponden a 52,02 ocurrencias (98,24%) de las 5.295 ocurrencias en total, es decir, casi la totalidad de las ocurrencias. Los patrones ms frecuentes son N Prep N Adj con 1.209 ocurrencias (22,83%), N Adj Adj con 848 ocurrencias (16,01%) y N Prep N Prep N con 821 ocurrencias (15,50%) y aparecen en los 5 diccionarios al igual que los patrones N Prep N N con 617 ocurrencias (11,65%) y N Adj Prep N con 611 ocurrencias (11,53%). En cuanto a la exclusividad de patrones, hay 29 patrones que aparecen en ms de 2 diccionarios, con lo cual 52 patrones slo aparecen en un diccionario. De estos 29 patrones, 9 patrones aparecen en los 5 diccionarios con 4.463 ocurrencias, 3 patrones aparecen en los 4 diccionarios con 449 ocurrencias, 110 patrones aparecen en los 3 diccionarios con 198 ocurrencias y 7 patrones aparecen en los 2 diccionarios con 36 ocurrencias. Al igual que en los patrones de 4 tokens, existe menos variabilidad sintctica, aunque existe una gran cantidad de estructuras exclusivas de cada diccionario lo que explica los 52 patrones. Es importante destacar que esta variabilidad sera muy baja si los diccionarios Mosby, IMF y Routledge no tuvieran 17, 15 y 19 patrones de 1 2 ocurrencias, respectivamente. De igual modo, los otros dos diccionarios tienen unos 10 patrones, cada uno de 1 2 ocurrencias. As, el diccionario que presenta mayor variabilidad es el Routledge con 29 patrones y un promedio de 3,13 sintagmas por cada patrn (91 totales), de los cuales 19 patrones tienen 1 2 ocurrencias. Por el contrario, el diccionario con menos variabilidad es el Mosby con 40 patrones y un promedio de 81,92 sintagmas por cada patrn (3.277 totales), de los cuales 17 patrones tienen 1 2 ocurrencias. Puede observarse que
222
G. Quiroz
a pesar de tener ms patrones que los otros diccionarios, cada uno de sus patrones tiene una frecuencia alta. El diccionario IFCC tiene un promedio de 13,46 por cada patrn, el diccionario IMF tiene un promedio de 30,03 por cada patrn y el diccionario ISI promedio de 27,37 por cada patrn.
223
Mosby Tokens Patrn 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 N Prep N Adj N Adj Adj N Prep N Prep N N Adj Prep N N Prep N N N N Adj NNN N Adj N N N Prep N N Adv Adj N Prep Adj N N Prep Adj Adj N Prep Adv Adj N Prep Adj Prep N N Prep N Prep Adj Adj N Prep N N Adj Prep Adj Adj N Adj N Adv N N N N Num N Adj Adj Prep Num N Adv Prep N
Frec. % 743 669 437 371 360 214 138 83 65 53 42 13 10 9 9 8 8 7 4 4 3 3 19,1 17,2 11,2 9,52 9,25 5,49 3,55 2,14 1,67 1,36 1,08
IFCC Patrn N Prep N Adj N Prep N Prep N NNN N Adj Adj N Adj Prep N N Prep N N N N Adj N N Prep N N N Num N N Adj N N Num N Adj
Frec. % 70 68 63 44 32 23 22 8 7 5 4 4 3 3 2 2 2 2 2 1 1 1 14 13 12
Routledge Patrn
Frec. % 16 14 9 8 6 4 3 3 3 3 2 2 2 1 1 1 1 1 1 1 1 1 1,07 0,6 0,4 0,2 0,2 0,2 0,2 0,13 0,13 0,13
ISI Patrn N Prep N N N Prep N Prep N N Adj Prep N N Adj PP N Adv Adj N N Prep N N N Adj N Prep Adj N N Prep N Prep Num N N Adj Prep Num N
Frec. % 183 131 96 69 66 29 26 26 25 23 21 9 7 5 4 4 3 2 1 1 1 1 21 15 11 7,8 7,5 3,3 2,9 2,9 2,8 2,6 2,4 1 0,8 0,6 0,5 0,5 0,3 0,2 0,2 0,1 0,1 0,1 0,1
21,79 N Prep N Prep N 17,23 N Prep N Prep Num N 11,49 N Adj Prep Num N 5,49 4,05 2,28 1,18 0,84 0,67 0,42 0,34 0,34 0,33 0,25 0,25 0,17 0,17 0,17 0,17 0,17 0,17 0,08 0,08 N Prep N Adj N Adj Prep N Num N Prep N Prep N N Adj Prep Adj N N N Num N PP Prep N N Prep N N N Adj Prep Prep N NNN N Prep Prep N Adj Adj N Prep Adv Adj N Prep N N Adj Adj N Adj Prep N Prep Num N Adv Prep N N Prep N Adj Prep N Prep N Adj Prep Num N Prep N Prep V N Prep Num N Adj
8,5 N Adj Adj 6,2 N Prep N N 4,5 1,6 1,4 1 N Prep Adj N N N Prep N N Adj Prep Adj NNN 4,3 N Prep N Prep Adj
0,8 N Adj N 0,8 N Prep Adj Adj 0,6 N Prep Adj Prep N 0,6 N Adv PP 0,4 N Prep N N Num 0,4 Adj N Adj 0,4 Adj N Prep N 0,4 N Adj Adv 0,4 N N Adj 0,2 N Num Prep N N 0,2 Adj N N 0,2 N Adj Prep Adv
0,33 N Prep N N Num 0,26 N Num Num N Adj 0,23 Num N N N 0,23 N Adj Prep Num N 0,21 0,21 0,18 0,1 0,1 N N Prep N Num N Num N N N Num N Num Adj N Prep Adj N
0,07 N N N 0,07 N Adj N 0,07 N N PP 0,07 N Adv PP 0,07 N Adv Prep N 0,07 Adj N Adj 0,07 Adj N Prep N 0,07 Adj N Prep Num N 0,07 N N Prep Num N
Tabla 17: Los patrones ms frecuentes de 3 tokens del corpus lexicogrfico de contraste en espaol.
224
G. Quiroz
Como puede verse en la tabla 18, la comparacin de los datos de ambos corpus permite establecer que efectivamente las tendencias presentadas en ambos casos muestran que las estructuras ms estables estn directamente relacionadas con una menor extensin. A diferencia de la igualdad de porcentajes encontrada en los corpus en ingls, en espaol existe una diferencia ms marcada entre la extensin de los patrones del corpus de anlisis que entre la extensin de los patrones del corpus lexicogrfico. An as, la preferencia de los diccionarios por lexicalizar estructuras ms cortas sigue la tendencia antes revisada aunque menos pronunciada.
Corpus Frecuencia 872 181 27 1 0 1.081 Diccionarios Frecuencia 5.196 2.133 460 95 31 7.915
N. tokens 3 4 5 6 7 Total
Tabla 18: Frecuencia por nmero de tokens entre el corpus de anlisis y el corpus lexicogrfico en espaol.
225
As, los patrones de 3 tokens en el corpus tendern a ser las estructuras ms estables, y los sintagmas que tienen estas estructuras seran candidatos a trminos.
Al igual que en el corpus de anlisis, los sustantivos en el corpus lexicogrfico predominan como categora modificadora del ncleo en los sintagmas, como puede verse en la tabla 19. Sin embargo, el porcentaje es mayor ya que casi duplican a los adjetivos mientras que en el corpus de anlisis los sustantivos slo superan a los adjetivos, en slo un 8,7%. De nuevo se corrobora que la tendencia lxica no slo del discurso especializado sino de los diccionarios cientfico-tcnicos. As, las tendencias lxicas del discurso especializado en el uso del sustantivo como categora lxica preferida no es dependiente del rea temtica sino del discurso especializado.
Corpus Porcentaje 31,78 23,05 4,98 2,49 28,35 9,35 Diccionarios Porcentaje 38,2 21,54 0,8 1,23 28,48 9,71
Tabla 19: Comparacin de la categora lxica predominante entre el corpus de anlisis y el corpus lexicogrfico en espaol.
Los sustantivos representan casi la mitad de las unidades lxicas que aparecen en ambos corpus. Morfolgicamente, la mayora de sustantivos terminan en cin, y sus alomorfos con 227/129 sustantivos en el corpus de anlisis y 1.440/1.126 en el corpus lexicogrfico en los ncleos y la modificacin, 226
G. Quiroz
respectivamente. Gallegos (2003: 43) tambin reporta este sufijo como el ms productivo en el espaol cientfico sino tambin tcnico y general aunque su frecuencia en texto cientfico es mucha ms alta que en los otros dos tipos. El orden de frecuencia de los sufijos vara en ambos corpus tanto como ncleo como modificador. El segundo sufijo ms comn en ambos corpus, aunque solo en los ncleos, es dad y sus variantes con 52/310, respectivamente y no reportado por Gallegos (2003). Mientras que este mismo sufijo es el cuarto y tercero ms frecuente en la modificacin (29/235, respectivamente). A pesar de que no siguen el mismo orden de frecuencia los diez primeros sufijos presentes en el corpus de anlisis estn presentes en los diez o doce primeros del otro corpus. Entre ellos, pueden mencionarse los terminados en -a, -or, -dor, -ura, ido -m(i)ento, -ncia, y ado, estos tres ltimos tambin reportados por Gallegos (2003) entre los 10 ms productivos del espaol cientfico. Como bien lo plantea Varela (2005: 49) estos sufijos son deverbales al igual que cin; se derivan de verbos, como se aprecia en los siguientes casos de los ejemplos 30, 31 y 32.
30. administracin, disregulacin, hibridacin, avulsin, betaoxidacin,
fosforilacin, inoculacin, instilacin, luxacin, monitorizacin, osificacin, sobreexpresin, subluxacin, tincin. 31. adherencia, contingencia, dependencia, discordancia, discrepancia, experiencia, negligencia, penetrancia, prevalencia, resistencia, resonancia, suficiencia, transferencia, tumescencia. 32. hipocrecimiento, abotargamiento, acaparamiento, agotamiento, ajustamiento, amamantamiento, asentimiento, atrapamiento, financiamiento, ligamento, procedimiento, reforzamiento, requerimiento, taponamiento.
Como lo apuntan Lacuesta y Bustos (1999: 4511) todos los sufijos anteriores se enmarcan en significado de accin y por tanto reflejan un conjunto de propiedades semnticas asociadas a la nominalizacin. Es difcil establecer si esta productividad es propia del discurso cientfico o es igual en la lengua espaola en general, salvo en los cuatros sufijos 227
mencionado por Gallegos (2003) ya que no se conocen estudios comparativos de este tipo en corpus de medio o gran tamao57. Pero si se comparan con lo planteado para el ingls en 4.5.2, los tres primeros presentan el mismo orden de productividad observado por Biber et al (1999: 322-323) para el discurso acadmico. De los datos se deduce que la nominalizacin es el recurso ms eficiente dentro del discurso especializado y que algunas formas son tpicas de los lenguajes especializados (Gallegos 2003: 37). Como se ha dicho antes, su uso se justifica pragmticamente por los objetivos que se persiguen en la ciencia: universalidad, revisabilidad y verificabilidad (Vivanco 2005: 19). Posteriormente, siguen los adjetivos con un 23,05% y de las unidades lxicas en el corpus de anlisis y un 21,54 en el corpus lexicogrfico. No existe una diferencia importante entre ambos corpus. En cuanto a los adjetivos, la mayora de estos se caracterizan morfolgicamente por terminar en dos sufijos con base nominal ico (196/1.085 ocurrencias en ambos corpus, respectivamente) y al (114/1.451), como se aprecia en los ejemplos 33 y 34 de ambos corpus, aunque el primer sufijo es ms frecuente en el corpus de anlisis y el segundo en el corpus lexicogrfico.
33. 34. cervicognico, ectpico, farmacolgico, galvnico, hematolgico, idioptico, laberntico, miocrdico, qustico, urmico, vitamnico, tico, rico. bulboespinal, duodenal, ecuatorial, facial, helicoidal, monoclonal, neurosensorial, oculofacial, sinovial, tubulointersticial, uretral, yeyunal.
Salvo por los sufijos ino y -udo, los 10 primeros sufijos del corpus de anlisis son los mismos 10 primeros sufijos del corpus lexicogrfico si bien el orden no es el mismo. Estos sufijos son en orden de frecuencia: -ico, -al (-ar), -
57 El estudio de Gallegos tiene un corpus relativamente pequeo ya que se compone de 2 textos completos y 3 captulos del texto cientfico (2003: 42). Por eso, no es posible afirmar que sus hallazgos puedan generalizarse en el conjunto de la lengua o incluso en los mbitos de especialidad.
228
G. Quiroz
nte, -ble, -eo, -ario, -ino, -ivo, -oso y -udo. Semnticamente, todos estos son sufijos adjetivales que indican relacin con, o cualidades y propiedad de personas, animales o cosas (Varela 2005: 55), como se observa en los ejemplos 35 a 42.
35. 36. 37. 38. 39. 40. 41. 42. creciente, insulinodependiente, dominante, recidivante, necrosante computable, cotizable, desgravable, programable, sostenible, susceptible areo, cutneo, eutiroideo, farngeo, larngeo, percutneo, raqudeo arancelario, dentario, leucocitario, mamario, portuario, urinario exocrino, femenino, intrauterino, murino, uterino, equino, tromboplastino activo, auditivo, conjuntivo, digestivo, radioactivo, recesivo, depresivo canceroso, cartilaginoso, escamoso, fibroso, racemoso, ulceroso, venoso agudo, cabelludo, desnudo, estornudo, subagudo
Segn Varela (2005: 50) los adjetivos tambin se pueden clasificar segn la categora gramatical de base. As, los adjetivos ms productivos de este estudio pueden clasificarse bsicamente en adjetivos deverbales en orden de frecuencia (-nte, -ble, -ivo) como los casos del ejemplo 43 y adjetivos denominales (-al (-ar), -ario, -ico, -ino, -ivo58, -oso, -udo) como los casos de ejemplo 44.
43. 44. dominante, codificante, palpable, absorbible, adhesivo, agresivo bulboespinal, mitocondrial, capilar, molecular, pigmentario, placentario, seborreico, pancretico, uterino, cristalino, adhesivo, cohesivo, calloso, cerebeloso, cabelludo, desnudo.
Obsrvese que no se han incluido los adjetivos derivados del sufijo ado, ya que se ha querido hacer la diferencia entre los adjetivos generales y los derivados como participios de verbos que se forman a partir de oraciones pasivas, que se analizan a continuacin.
58 Este sufijo tambin puede formar adjetivos de base verbal como en los casos de nutritivo, competitivo, etc.
229
A continuacin, estn los participios con aproximadamente un 4,98% en el corpus de anlisis y un 0,8% en el corpus lexicogrfico. Esta diferencia se explica porque en el corpus lexicogrfico no se diferenci los participios de pasado de los adjetivos terminados en ado ya que el etiquetador que se emple no hizo tal distincin en los diccionarios. An as la presencia de adjetivos/participios derivados de verbos es muy importante en el corpus de diccionarios, como se ilustra en los ejemplos de 45 con 123 casos, lo que lo situara entre los 10 sufijos ms comunes si se tiene en cuenta como adjetivo.
45. yodado, acumulado, administrado, almacenado, indiferenciado, insaturado, integrado, cultivado, amortizado, automatizado, cayado, contorneado, controlado, etc.
Sin embargo, debido a su procedencia oracional, las palabras terminadas en ado se han tenido en cuenta en este estudio como participios. Estos participios forman estructuras sintagmticas que son fruto de una oracin relativa en voz pasiva, como ocurre en los ejemplos 46 y 47.
46. 47. agua destilada estril (agua que se destila de modo estril) gen mitocondrial relocalizado (gen mitocondrial que se ha relocalizado)
Como sucede en ingls, la mayora de adverbios se deriva o se comporta como adjuntos de adjetivos, como se observa en los ejemplos de 48 y 49.
48. 49. linfocitos inmunolgicamente activos (inmunolgicamente> inmunolgico) cncer vesical cistoscpicamente visible (cistoscpicamente> cistoscpico)
inmunolgicamente,
irrestrictamente,
mayoritariamente,
230
G. Quiroz
De acuerdo con la tipologa de Kaul (2002: 144), hay 14 casos de adverbios que son de punto de vista, en los que seala el campo de referencia de la propiedad modificada, como se ejemplifica en 51.
51. cistoscpicamente, asintticamente, sexualmente, automticamente. culturalmente, inmunolgicamente, trmicamente, genticamente, serolgicamente, triangularmente, evolutivamente, qumicamente, consensualmente,
Tambin pueden destacarse los adverbios de intensificacin de grado (10 casos) y aspectuales (4 casos), como se ilustra en el ejemplo 52.
52. absolutamente, altamente, fuertemente, gravemente, puramente, rpidamente, completamente, totalmente, parcialmente, mayoritariamente.
Desde un punto de vista sintctico, los adverbios terminados en -mente funcionan sintcticamente como modificadores directos de adjetivos, participios de pasado o adverbios, como se observa en los ejemplos 53 y 54.
53. 54. confirmacin de azoospermia en varones sexualmente maduros (a un adjetivo). economas asiticas recientemente industrializadas (a un participio)59.
Estos sintagmas con adverbios y adjetivos o participio de pasado generalmente se originan a partir de oraciones del tipo relativa pasiva como en el ejemplo 55.
55. economas asiticas recientemente industrializadas (economas asiticas que se han industrializado recientemente).
59
231
Finalmente, puede concluirse que la tendencia nominalizadora del discurso cientfico-tcnico no slo se observa en la gran cantidad de sustantivos en la modificacin, sino tambin en la procedencia nominal de muchos adjetivos y adverbios, como se ha presentado en los datos. Cabe destacar la presencia de preposiciones dentro de las categoras cerradas. La preposicin de predomina ampliamente en ambos corpus con un 78,65% y 76,9% en el corpus de anlisis y lexicogrfico respectivamente. Luego sigue la preposicin en con un 7, 06% y 5,86%, respectivamente. La preposicin con representa el 6,31 en el corpus de anlisis y la preposicin a con un 5,33. Todas las otras preposiciones del corpus de anlisis (por, a, para, mediante, sin, sobre, contra, desde, tras, entre) y del corpus lexicogrfico (por, con, para, sobre, sin, contra, bajo, segn, mediante, va, durante, desde, tras) no superan el 8 y 12%, respectivamente. Este trabajo refrenda hasta cierto punto lo que Estop (1999: 100) ha encontrado para el cataln sobre el uso de las preposiciones en las unidades terminolgicas. Aunque este trabajo ha tomado un tipo de unidad de anlisis menos restringida que el trabajo de Estop, los datos sobre el uso de las preposiciones coinciden:
Vam remarcar que la preposici de s la ms usada en els discursos especialitzats, molt ms que en altres llenges romniques com el francs en qu el camp semntic de la preposici de es reparteix formalment entre la preposici de i la preposici [LHomme 1996b].
Si bien en esta tesis se reporta un uso importante de otras preposiciones diferentes de de no slo en el corpus (21,36%) sino en los diccionarios (23,1%).
232
G. Quiroz
En este apartado, se comparan los 20 patrones ms frecuentes de ambos corpus. Puede observarse en la tabla 20 que en ambos corpus el patrn ms frecuente es el patrn N Prep N Adj, pero con diferente porcentaje de ocurrencias (31,66% y 15,17%), observndose un predominio en el corpus de anlisis. Sin embargo, se explica que el porcentaje sea mucho menor en el corpus lexicogrfico ya que la cantidad de patrones es tambin mucho mayor. Y, por tanto, la distribucin es ms equitativa. Despus aparecen los tres siguientes patrones ms frecuentes en el corpus de anlisis (N Adj Prep N, N Prep N Prep N y N Adj Adj) son, de cierto modo, los ms frecuentes en el corpus lexicogrfico, pero no en el mismo orden (quinto, tercero y segundo, respectivamente). As el patrn Prep N Prep N es el tercero ms frecuente en ambos corpus con porcentajes muy similares (10,68% y 10,37%). Estos patrones representan de la mayora de datos en ambos corpus (84,34% y 66,95%) aunque mucha ms en el corpus de anlisis que en el lexicogrfico. En este ltimo, los patrones estn ms distribuidos mientras que en el de referencia hay diferencias importantes en algunos casos. Posteriormente, el orden en ambos corpus comienza a variar, pero en los primeros 10 patrones hay 4 (N Prep N Adj, N Adj Prep N, N Prep N Prep N, N Adj Adj) patrones iguales y 6 diferentes. En los segundos 10 patrones hay 4 patrones iguales (N Prep N Prep N Prep N, N Prep N Adj Adj, N Adv Adj, N Adj N) y el resto no coinciden independientemente del orden. Hay 3 patrones que aparecen en una u otra franja con los cual hay 11 patrones comunes entre ambos corpus. Los patrones de la segunda franja representan el 8,49% y 12,48% de todos los patrones de manera distribuida en ambos corpus. En total, los 20 primeros patrones de ambos corpus representan el 92,83% y 79,43% de los sintagmas de ambos corpus, con lo cual puede considerarse que los sintagmas que representan estos patrones son candidatos potenciales a lexicalizarse. 233
Tokens 3 3 3 3 3 4 4 3 4 3 3 4 4 3 4 4 3 5 3 3
Patrn corpus N Prep N Adj N Adj Prep N N Prep N Prep N N Adj Adj N Adj PP N Adj Prep N Adj N Prep N Adj Prep N Adj N Prep N N Adj Prep N Prep N N Prep Adj N N PP Prep N N Prep N Prep N Prep N N Prep N Prep N Adj N Prep N PP N Prep N Adj Adj N Adj PP Prep N N N Adj N Adj Prep N Prep N Adj N Adv Adj N Adj N
Porcentaje 31,66 16,13 10,68 6,73 4,88 3,68 3,31 2,76 2,67 1,84 1,29 1,11 1,01 0,93 0,83 0,74 0,74 0,64 0,65 0,55
Tokens 3 3 3 3 3 4 3 4 3 4 4 4 4 3 3 3 3 4 4 4
Patrn Dic. N Prep N Adj N Adj Adj N Prep N Prep N N Prep N N N Adj Prep N N Prep N Prep N Adj N N Adj N Adj Prep N Adj NNN N Adj Prep N Prep N N Prep N Prep N Prep N N Prep N Adj Prep N N Prep N Adj Adj N N Prep N N Adj N N Prep Adj N N Adv Adj N Prep N Adv Adj N Adj Adj Adj N Prep N Prep Adj N
Porcentaje 15,17 10,64 10,37 7,76 7,67 3,76 3,28 3,09 2,67 2,54 2,54 1,66 1,51 1,37 1,21 1,15 1 0,74 0,73 0,57
Tabla 20: Comparacin de los primeros 20 patrones del corpus y el corpus lexicogrfico en espaol.
Desde un punto de vista terminolgico y traductivo, los 20 primeros patrones de ambos corpus son de extremada relevancia por las siguientes razones. En primer lugar, son estos patrones los que generaran ms candidatos a trmino. En segundo lugar, son los que tenderan a aparecer ms en los repositorios terminolgicos. En tercer lugar, seran los tipos de sintagmas que ms apareceran en las traducciones y por ende daran ms problemas al traductor. Cuarto, su sistematizacin sera de gran ayuda no slo al terminlogo o lexicgrafo especializado sino al traductor. Finalmente, sera un factor ms de ponderacin para la extraccin de trminos, recuperacin de informacin y traduccin automtica, entre otros. Todos los patrones del corpus de anlisis aparecen en los patrones de los diccionarios, pero no al contrario debido a que se sac una muestra de estos al ser un corpus de anlisis.
234
G. Quiroz
En cuanto a su longitud, los patrones de 3 tokens predominan sobre los de 4 en la primera franja de 10 patrones en ambos corpus (7 y 9, respectivamente). En la segunda franja de 10 patrones, el predominio de los patrones de 3 tokens es menos evidente ya que hay 5 patrones de 3 tokens en el corpus de anlisis y 6 en el corpus lexicogrfico contra 4 patrones de 4 tokens en ambos corpus. Slo aparece un patrn de 5 tokens en ambos corpus (N Adj Prep N Prep N Adj). As puede decirse que predominan los patrones de 3 tokens con 12 y 11 patrones en cada corpus. Estos patrones de 3 tokens representan 78,84% y 62,29%, respectivamente. Despus siguen los patrones de 4 tokens con 7 y 9 patrones y representan un 13,35% y 17,14%, respectivamente. Esto, muestra una vez ms que la extensin est ligada a la frecuencia, como se ha explicado anteriormente.
5.6 Contraste de los resultados con los patrones encontrados con los del Crea de la RAE
En este ltimo apartado se contrastan los resultados en espaol con los datos del Corpus del Espaol Actual (CREA) de la Real Academia Espaola. Para ello, se ha solicitado una consulta con los mismos patrones que se usaron en la primera extraccin de datos. Dicha consulta se realiz sobre un corpus de 5.397 documentos y 143.440.437 tokens. En la tabla 21, puede observarse que de los 20 patrones ms frecuentes del corpus CREA, los patrones de 3 tokens son los ms frecuentes con 12
235
patrones que representan el 78,22% y luego los patrones de 4 tokens con 16,48%. Entre los 3 corpus, existen 12 patrones comunes (N Adj Prep N, N Prep N Adj, N Prep N Prep N, N Adj Adj, N Prep Adj N, N Adj Prep N Adj, N Prep N Adj Prep N, N Adj N, N Adj Prep N Prep N, N Prep N Prep N Prep N, N N Adj y N Adv Adj). Estos patrones representan en cada corpus ms de la mitad de todas las ocurrencias (74,12% en el corpus de anlisis, 51,67% en el corpus lexicogrfico y 68,92% en el corpus CREA).
TokensPatrn corpus Porc. TokensPatrn Dic. Porc. TokensPatrn Crea Porc. 3 N Prep N Adj 31,66 3 N Prep N Adj 15,17 3 N Adj Prep N 17,4 3 N Adj Prep N 16,13 3 N Adj Adj 10,643 N Prep N Adj 14,4 3 N Prep N Prep N 10,683 N Prep N Prep N 10,37 3 N Prep N Prep N 13,3 3 N Adj Adj 6,73 3 N Prep N N 7,76 3 N Prep N PP 10,4 3 N Adj PP 4,88 3 N Adj Prep N 7,67 3 Adj N Prep N 6,97 4 N Adj Prep N Adj 3,68 4 N Prep N Prep N Adj 3,76 3 N Adj Adj 5 4 N Prep N Adj Prep N 3,31 3 N N Adj 3,28 4 N Prep Adj N 3,9 3 Adj N Prep N 2,76 4 N Adj Prep N Adj 3,09 4 N Adj Prep N Adj 3,56 4 N Adj Prep N Prep N 2,67 3 NNN 2,67 3 N Prep N Adj Prep N 2,97 3 N Prep Adj N 1,84 4 N Adj Prep N Prep N 2,54 4 N Adj N 2,23 3 N PP Prep N 1,29 4 N Prep N Prep N Prep N2,54 3 N Adj Prep N Prep N 2,22 4 N Prep N Prep N Prep N 1,11 4 N Prep N Adj Prep N 1,66 3 N Adj PP 1,95 4 N Prep N Prep N Adj 1,01 4 N Prep N Adj Adj 1,51 4 N N Prep N 1,95 3 N Prep N PP 0,93 3 N N Prep N 1,37 3 N Prep N Prep N Prep N 1,54 4 N Prep N Adj Adj 0,83 3 N Adj N 1,21 4 NNN 1,48 4 N Adj PP Prep N 0,74 3 N Prep Adj N 1,15 4 N N Adj 1,42 3 N N Adj 0,74 3 N Adv Adj 1 3 N Prep N Prep N Adj 1,23 5 N Adj Prep N Prep N Adj0,64 4 N Prep N Adv Adj 0,74 4 N Adj Prep Adj N 1 3 N Adv Adj 0,65 4 N Adj Adj Adj 0,73 4 N Adv Adj 0,94 3 N Adj N 0,55 4 N Prep N Prep Adj N 0,57 3 N Adj PP Prep N 0,76
Tabla 21: Comparacin de los primeros 20 patrones del corpus de anlisis, el corpus lexicogrfico y el CREA.
Si se compara el corpus de anlisis con el corpus CREA se puede observar que los tres primeros patrones del corpus de anlisis (N Prep N Adj, N Adj Prep N, N Prep N Prep N) son los tres patrones ms frecuentes del corpus CREA, pero vara el orden en los dos primeros. Estos tres patrones representan de ms de la mitad de las ocurrencias en el corpus de anlisis (58,47%) y casi la mitad de las ocurrencias en el corpus CREA (48,25%). Sin embargo, el porcentaje del 236
G. Quiroz
patrn ms frecuente del corpus de anlisis (N Prep N Adj) es mucho ms frecuente que el del corpus CREA (31,66% vs. 15,4%). Adems, la diferencia entre el primero y segundo patrn de cada corpus es muy considerable (15,53%) en el corpus de anlisis, mientras en el corpus CREA, dicha diferencia es poca (3,2%), lo que muestra el predominio de dicho patrn en el corpus de anlisis. A pesar del predominio de este patrn, no slo estos tres patrones sino tambin los 12 que comparten los tres corpus y los 20 ms frecuentes de cada corpus son estructuras de la lengua general y no son exclusivas de los mbitos de especialidad no slo en el corpus sino en el corpus de diccionarios. Por tanto, la gramtica de los llamados lenguajes de especialidad debe explicarse perfectamente desde la gramtica de la lengua general.
237
5.7 Recapitulacin
En este captulo, se han discutido los resultados del anlisis del corpus de anlisis en espaol y el contraste con el corpus lexicogrfico y el corpus CREA de la RAE. 1. En cuanto a la longitud de los sintagmas, el corpus de anlisis en espaol, al igual que el corpus del ingls, los patrones de 3 tokens predominan ampliamente con un 80,66% de todas las ocurrencias, seguido de los patrones de 4 tokens con 16,74%. Los patrones de 5 y 6 tokens tan solo representan a un 2,586% de las ocurrencias. 2. En cuanto a la categora gramatical modificadora que predomina en espaol es igualmente el sustantivo con un 30,37%, seguido por el adjetivo con un 26,81%. Es importante resaltar la presencia de otras categoras lxicas como los participios con 2,56% y los adverbios con 0,32%. En el caso de las categoras cerradas, las preposiciones representan el 29,47% de la modificacin del sintagma. Dadas las caractersticas sintcticas del espaol, el uso frecuente del sustantivo como modificador se justifica plenamente ya que hacen parte de los sintagmas preposicionales que modifican al ncleo y son la forma natural de expandir un sintagma en espaol. 3. En cuanto a los patrones ms frecuentes, los patrones ms frecuentes son N Prep N Adj con un 31,66%, N Adj Prep N con un 16,13%, N Prep N Prep N con un 10,68%, el patrn N Adj Adj con 6,73% y el patrn N Adj PP con 4,88%. Estos cinco patrones representan el 70,08% de todas las ocurrencias del corpus y por tanto, presentan menos variacin sintctica. Entre los patrones de 4 tokens cabe destacar los patrones N Adj Prep N Adj con 3,68% y N Prep N Adj Prep N con 3,31%. Estos patrones presentan ms variacin y representan a muchas menos ocurrencias dentro del corpus. 238
G. Quiroz
4. De acuerdo con la dependencia sintctica, la relacin de dependencia [A [B C]] es la ms frecuente de la muestra en espaol como ms del 50,5% de todas las ocurrencias (101) del corpus de anlisis, seguida de la relacin de dependencia [[A B] C] con un 45,5% de todas las ocurrencias (91). Por ltimo, la dependencia [[A B] [C D]] representa el 3% de todas las ocurrencias (6) para patrones de 4 tokens. Los patrones que presentan una nica relacin de dependencia son: N Prep Adj N, N Adj Prep N, N Adj PP, N Adj Adj y Adj N Prep N y N Adj Prep N Adj. De estos, N Adj Prep N, N Adj PP, N Adj Adj y Adj N Prep N tiene la misma forma de dependencia sintctica [[A B] C]. El nico patrn que tiene la dependencia sintctica [A [[B C]] es N Prep Adj N. El patrn de 4 tokens, N Adj Prep N Adj tiene la dependencia [[A B] [C D]]. Los patrones que tienen dos relaciones de dependencia sintctica son: N Prep N Prep N y N Prep N Adj. En el patrn N Prep N Prep N, la relacin de dependencia [A [[B C]] representa 70,37% de las ocurrencias y [[A B] C] al 29,62%. En el caso del patrn N Prep N Adj, la dependencia [A [[B C]] representa el 89,53% ocurrencias y [[A B] C] al 9,30%). 5. El contraste con el corpus lexicogrfico y el CREA de la RAE corrobora los resultados obtenidos en el corpus de anlisis en cuanto a la longitud y frecuencia de los sintagmas, predominio de patrones y categora lxica en la premodificacin. Estos resultados no son exclusivos de los mbitos de especialidad sino que se inscriben dentro de la gramtica de la lengua general. Igualmente, los resultados de los diccionarios permiten afirmar que los anlisis hechos se pueden extrapolar a otras reas del conocimiento y que no son exclusivos de las ciencias duras. Al igual que en ingls, se ha demostrado que la existencia de los SNEE es una caracterstica de la lengua que puede presentarse con mayor frecuencia en el discurso especializado y que, adems, pueden describirse, clasificarse, explicarse y predecirse desde la gramtica de una lengua como todos los fenmenos lingsticos de los discursos de los mbitos de especialidad, como lo plantea la teora comunicativa de la terminologa. 239
240
G. Quiroz
241
242
G. Quiroz
6.1 Introduccin
En este captulo se pretende caracterizar semnticamente los sintagmas nominales especializados extensos en ingls de modo que conjuntamente con los resultados sintcticos permitan interpretar estos sintagmas usando elementos lingsticos obtenidos de las regularidades observadas. Aunque no se pretende establecer las relaciones semnticas entre los diferentes constituyentes del sintagma a partir de un conjunto cerrado de clases y relaciones semnticas como lo ha hecho Oster (2005), se establecern patrones semnticos de los sintagmas empleando WordNet 2.1 y UMLS. Estos patrones permitirn observar las tendencias semnticas en ingls al menos para este campo temtico. Se emple WordNet 2.1 y UMLS para etiquetar el corpus por varias razones. En primer lugar, WordNet 2.1 es la ontologa ms empleada en todos los estudios relacionados con la lingstica y en la construccin de otros recursos lingsticos como diccionarios, tesauros, etc. y el procesamiento del lenguaje natural. Por otro lado, UMLS es el recurso ms empleado en las ciencias de la salud para la indexacin de bibliotecas, procesamiento del lenguaje biomdico y estudios lingsticos relacionados con la medicina. En segundo lugar, el acceso a ambas herramientas es de acceso libre bajo licencia respectiva. En tercer lugar, el uso de ambas ontologas para el ingls permita obtener ms generalizaciones puesto que WordNet 2.1 es una ontologa para propsitos generales con una buena cantidad de entradas en medicina pero UMLS es una ontologa especializada en ciencias de la salud.
243
Ingls
Puesto que para el anlisis sintctico se haba seleccionado los sintagmas de mayor a menor frecuencia hasta completar la muestra que corresponda a cada patrn sintctico, los sintagmas para la muestra semntica se seleccionaron siguiendo el mismo criterio de distribucin de la muestra. Debido a que la forma de completar la muestra se basa en la frecuencia y la distribucin proporcional entre patrones, cada muestra est ajustada y no se
Aunque una muestra de 232 sintagmas puede parecer limitada, la decisin del 24,37% se basa en la seleccin de un 20% de la muestra de forma completa para cada patrn y por eso se ha llegado hasta ese porcentaje. Aunque est limitacin se justifica por la dificultad de etiquetar a mano y en dos sistemas diferentes los tokens de estos sintagmas (un total de 709 tokens en cada sistema). Adems, cada token se ha buscado, desambiguado en otros diccionarios, y observado en contexto para poder asignar la etiqueta de WordNet o UMLS de manera correcta. Para ms informacin, vase 3.4 y 6.3 de este captulo.
60
244
G. Quiroz
limita al porcentaje exacto que se ha calculado (e.g. no se puede seleccionar media ocurrencia u ocurrencia y media para determinado patrn).
6.3 Metodologa
La muestra seleccionada se etiquet manualmente para un total de 3.323 tokens. Las categoras semnticas, presentadas en [Link] y [Link], se asignaron por separado en todos los ncleos, en primer lugar, con WordNet 2.1 (synsets) y en segundo lugar, con UMLS 2006AB (semantic types y semantic groups). Posteriormente, se etiquet la premodificacin de acuerdo con las categoras lxicas: sustantivos, adjetivos y adverbios, de modo que pudiera asegurarse la consistencia de etiquetaje dentro de cada categora lxica y clase semntica tanto en WordNet 2.1 como en UMLS 2006AB. Por ejemplo, el sustantivo chromosome comparte la misma clase semntica ([Link]) con el adjetivo chromosomal. Si se encontraba ms de una posibilidad de etiquetaje se asignaba la clase que correspondiera ms al significado del sintagma o en caso de ambigedad se dejaban las diferentes clases como en el caso de factor que tiene las clases [Link]/[Link]/[Link] de WordNet. En cualquier caso, la primera opcin del etiquetaje se dejaba como la ms prxima al significado del sintagma. En el caso de UMLS, se presenta ms de una opcin, las cuales se marcan como primera y segunda opciones en el sistema. Generalmente, ambas opciones estn relacionadas semnticamente, con lo cual no hubo problemas de ambigedad. Por ejemplo, kinase pertenece a las clases Amino Acid, Peptide, or Protein, Enzyme y Substance que estn relacionadas jerrquicamente y pertenecen al mismo tipo semntico, Chem (Chemicals&Drugs).
245
Luego se tabularon los datos en Statgraphics 5.1 en cuanto a las clases semnticas61 de los ncleos, la premodificacin tanto en WordNet 2.1 y posteriormente con UMLS. De all, se seleccionaron las categoras ms prototpicas de la muestra tanto para los ncleos como para la premodificacin. Se obtuvo luego el conjunto de patrones semnticos ms frecuentes y se compararon con los patrones sintcticos, de modo que pueda verse la relacin entre los aspectos sintctico y semntico y las tendencias que presentaban. Igualmente se analiz la frecuencia y las tendencias en cuanto a la posicin dentro de la premodificacin y de acuerdo con la categora lxica (N, Adj y PP).
6.4 Resultados
6.4.1 Anlisis de las clases semnticas de los ncleos segn WordNet 2.1
Como puede verse en la tabla 2, la clase semntica ms frecuente en el corpus de anlisis es body con un 18,53%, seguido de substance con un 15,95% y act con un 10,34%. Estas tres clases semnticas representan el 44,82% de todos los ncleos de la muestra. Como puede verse en el ejemplo 1, y como lo indica el nombre de la clase, todos se refieren a partes del cuerpo.
1. gene, allele, area, blood, brain, chromosome, collagen, cortex, follicle, hormone, membrane, myocardium, region, serum, sheath, system.
61 Se emplear el sintagma clase semntica para referirse a los synsets de WordNet y semantic types de UMLS.
246
G. Quiroz
Sin embargo, obsrvese que tambin existen algunas sustancias como serum y hormone que podran estar bajo la clase substance como se ve en las definiciones del diccionario Steadman.
serum: a clear watery fluid, especially that moistening the surface of serous membranes, or exuded in inflammation of any of those membranes. hormone: a chemical substance, formed in one organ or part of the body and carried in the blood to another organ or part; depending on the specificity of their effects, hormone's can alter the functional activity, and sometimes the structure, of just one organ or of various numbers of them.
Igualmente, existe algunas clases que podran considerarse como hipernimos ya que no son exactamente partes del cuerpo sino tipos de paratrminos que se refieren a lugares ms amplios no definidos que podran albergar a partes del cuerpo como es el caso de area, region y system. En el ejemplo 2, se presentan casos de la clase substance del cuerpo o de seres vivos.
2. DNA, RNA, albumin, buffer, enzyme, fiber, kinase, mRNA, molecule, oligosaccharide, platelet, pol, polymerase, product, protein, residue, sulphate.
En el caso de los ejemplos residue y product no se refieren propiamente a sustancias sino a materias que funcionan como hipernimos como reza la definicin del diccionario Steadman.
product: anything produced or made, either naturally or artificially. residue: that which remains after removal of one or more substances.
Se deduce entonces que en WordNet existen inconsistencias en el tratamiento de algunos casos como las sustancias ya que enzyme se considera una sustancia pero hormone una parte del cuerpo.
247
En 3, se presentan los ejemplos de los sustantivos de la clase act (de accin). Obsrvese que todos los sustantivos son deverbales (nominalizaciones por derivacin) o son producto de una conversin categorial de un verbo a sustantivo (e.g., transfer, test).
3. breakage, contraction, hybridization, infusion, ligation, medication, process, production, response, spectrometry62, test, transfer, transition.
Clase semntica [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link]
Frecuencia 43 37 25 17 17 16 12 12 10 8 7 6+1 6 5 5 3 1 1 1 1
Porcentaje 18,53 15,95 10,77 7,33 7,33 6,9 5,17 5,17 4,31 3,45 3,02 2,59 2,59 2,16 2,16 1,29 0,43 0,43 0,43 0,43
Tambin es importante destacar las clases group (7,33%), process (7,33%) y attribute (6,9%), como se ejemplifica en 4, 5 y 6.
4. collection, clone, cluster, library, line, sequence, strain.
62 En el caso del compuesto culto spectrometry, se considera un prstamo del alemn de acuerdo con el diccionario Webster (Ger spektrometer: see SPECTRO- & -METER).
248
G. Quiroz
5.
activation, activity, association, chromatography, digestion, electrophoresis, expression, growth, immunoreactivity, metabolism, purification, reaction, replacement, variation.
6.
analogues, difference, distance, distribution, expression, fidelity, identity, level, mass, phenotype, responsiveness, size, weight.
Los ejemplos de 4 son todos casos de sustantivos colectivos y los ejemplos de 5 son sustantivos deverbales como sucede con la clase act, lo cual se puede evidenciar en los tipos de sufijos: -ation, -ity e -ion. Los ejemplos de la clase attribute se refieren a sustantivos que denotan cualidad de un objeto como sucede con size, weight, etc. Es importante anotar que las clases act y process no son las ms frecuentes en la premodificacin pero si en los ncleos lo que demuestra que estas nominalizaciones tienden a ir en el ncleo y los atributos (attribute, 9,01%) en la premodificacin as como los estados (state, 4,4%) y adjetivos generales ([Link], 3,35%). Finalmente, en 7 se recogen ejemplos de aquellas unidades lxicas (N, Adj y Adv) que no son trminos pero que pueden ayudar en la identificacin de unidades terminolgicas o que adquieren carcter terminolgico dentro de un contexto o rea determinados y que pueden denominarse paratrminos.
7. area, factor, product, region, system, type, central, complex, critical, dependent, dominant, double, effective, false, heavy, high, large, modern, negative, normal, partial, specific, total, slightly, right, highly
249
En la tabla 3, se presentan las clases semnticas de la premodificacin en WordNet 2.1. La clase semntica ms frecuente es substance con un 21,59% de todas las ocurrencias, seguida por la clase body con un 15,72% y luego la clase animal con un 11,53% del total de las ocurrencias. En conjunto, representan un 48,84% de toda la premodificacin.
Clase semntica [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] notWN Frecuencia 103 75 55 43 21 18 16 15 13 12 11 10 9 7 7 6 5 5 3 3 2 2 2 1 1 1 1 1 1 28 Porcentaje 21,59 15,72 11,53 9,01 4,4 3,77 3,35 3,14 2,73 2,52 2,31 2,1 1,89 1,47 1,47 1,26 1,05 1,05 0,63 0,63 0,42 0,42 0,42 0,21 0,21 0,21 0,21 0,21 0,21 5,87
250
G. Quiroz
Al igual que en los ncleos, existen las mismas inconsistencias con las clases substance y body ya que bile, blood, insulin, plasma y collagen pueden pertenecer a la clase substance y no a la clase body, como se deduce de las definiciones del diccionario LDOCE63.
bile: a bitter green-brown liquid formed in the liver, which helps you to digest fats. blood: the red liquid that your heart pumps around your body. insulin: a substance produced naturally by your body which allows sugar to be used for energy. collagen: a protein found in people and animals. plasma: 1 the yellowish liquid part of blood that contains the blood cells. 2 technical the living substance inside a cell.
63
251
En el caso de la clase animal, los ejemplos son ilustrativos y se refieren a virus, mamferos o a partes de seres vivos. Obsrvese que las clases substance y body son igualmente las ms frecuentes no slo en la premodificacin sino en los ncleos, salvo por la variacin en el orden. Esto muestra una fuerte afinidad entre la semntica de los sintagmas y el mbito temtico en que se inscriben. Igualmente, cabe destacar tambin las clases attribute con un 9,01%, state con un 4,4% y cell con un 3,77% y sus respectivos ejemplos en 11, 12 y 13.
11. adipose, artificial, central, contiguous, control, dense, effective, green, heavy, high, highly, individual, large, length, linkage, mass, modern, multiple, natural, permeability, red, sexual, smooth, specific, trait, white. 12. consensus, critical, dependent, disease, false, hepatitis, hepatoma, immature, maternal, medial, normal, partial, paternal, resistance, TLE, UPD. 13. adipocyte, cell, cellular, leukocytic.
En el caso de la clase attribute, todos los ejemplos corresponden a sustantivos y adjetivos que denotan principalmente atributos humanos y de objetos. La clase state denota enfermedades (hepatitis, hepatoma) o estados de enfermedades (critical, dependent, normal, partial, etc.) o estados estables (paternal, maternal). En cuanto a la clase cell, todos los ejemplos se refieren a clulas o partes de ellas. En este sentido, adjetivos como eukaryotic etiquetados como animal deberan estar relacionados a la clase cell, as como los ejemplos gene, allele y chromosome etiquetados bajo la clase body como se deduce de las definiciones de los diccionarios LDOCE y Steadman. 252
G. Quiroz
gene: a part of a cell in a living thing that controls what it looks like, how it grows, and how it develops. allele: any one of a series of two or more different genes that may occupy the same locus on a specific chromosome. eukaryotic: pertaining to or characteristic of a eukaryote. A cell containing a membrane-bound nucleus with chromosomes of DNA, RNA, and proteins [...].
Es importante resaltar que no se le asign ninguna clase semntica en WordNet 2.1 a ms del 5,37% de los casos y a 63 registros de 3.089 (2,03%) no se le encontr la clase semntica directamente pero se le asign con la ayuda de los diccionarios de referencia de medicina. As, el total de ocurrencias que no se encuentran en WordNet 2.1 se eleva a un 7,4%, lo que puede afectar el etiquetaje automtico substancialmente. Por eso, se decidi etiquetar manualmente para reducir estos silencios de acuerdo con WordNet 2.1 pero sealando dichas unidades como no encontradas (not found) o NotWN. Muchas de estas unidades lxicas son siglas y trminos muy especializados que no se encuentran en muchos casos ni en diccionarios generales ni especializados, como se observa en los ejemplos de 14.
14. ArG, BD, biotinylated, CaCo2, electrospray, ELT-3, etl2, Genius, helper, HPS, IGF2R, IL11RA, immunoreactive, K2, Kozak, MHC, MUL, multipoint, PAR, PCR, pseudocontact, SDS, TA, TATAA, TnTf, TSC2-null, X.
[Link] Clases semnticas de acuerdo con la posicin dentro de la premodificacin Si se observan las clases semnticas de la premodificacin de acuerdo con la posicin dentro del sintagma se deduce que no existen diferencias importantes ya que tienden a predominar las mismas clases semnticas. Esto explica que las clases semnticas encontradas estn estrechamente relacionadas con las reas temticas del Corpus Tcnic del IULA: Genoma, Farmacogenmica, Neurociencia, Enfermedades, Eugenesia, Biotecnologa, Diferenciacin, Inmunologa, Investigacin gentica, Estructura interna, 253
Ingeniera gentica, Filogenia. Sin embargo, los datos muestran las tendencias de los sintagmas al principio de polaridad de Quirk et al (1985). Es decir, la clase attribute se encuentra en la mayora de casos a la izquierda del sintagma (25 casos contra 16 en posicin prenuclear) y se refiere a adjetivos predicativos o generales como se observa en los ejemplos de 15.
15. central, complex, effective, green, high, individual, large, multiple, natural, red, smooth, white.
De las 25 ocurrencias, slo 3 no se podran considerar como adjetivos generales (adipose, contiguous, control). As, las caractersticas menos estables o ms subjetivas tienden a ir ms a la izquierda del sintagma como lo plantea Quirk et al (1985: 1341). Obsrvese igualmente en la tabla 4 que la clase [Link] aumenta de frecuencia a medida que la posicin se acerca ms al ncleo. En la primera posicin ocupa el puesto 13 con un 1,72% de todas las ocurrencias, en la segunda posicin ocupa el puesto 8 con un 3,45% y en la tercera posicin es la clase ms frecuente con un 30,77%. Sin embargo, existen otros adjetivos no etiquetados como [Link] en cada posicin que son [Link], lo que muestra que el promedio de adjetivos aumenta a medida que la premodificacin se aleja del ncleo a la izquierda, como se explica a continuacin.
254
G. Quiroz
Primera posicin [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] notWN
Porcentaje 22,41 19,83 7,76 7,33 6,03 4,74 4,31 3,02 3,02 3,02 2,59 1,72 1,72 1,72 1,29 0,86 0,86 0,43 0,43 0,43 0,43 6,03
Segunda posicin [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] notWN
Porcentaje 21,12 15,95 12,5 10,34 4,31 4,31 3,45 3,02 3,02 2,16 1,72 1,72 1,72 1,29 1,29 0,86 0,86 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 6,03
Tercera posicin [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link]
Porcentaje 30,77 15,38 7,69 7,69 7,69 7,69 7,69 7,69 7,69
As, hay 57 palabras (de 232) en la primera posicin con adjetivos con un promedio de 4,07 (una de cada cuatro palabras es adjetivo), de los cuales 33 son [Link] y 24 [Link], como se ven en los ejemplos de 16.
16. artificial, auditory, binding, bovine, cellular, chromosomal, colorectal,
congenital, cytogenetic, deleterious, dense, dependent, dominant, epistatic, epithelial, fetal, fluorescent, genetic, genomic, glial, heavy, human, lysosomal, mitochondrial, modern, molecular, monoclonal, negative, nervous, neuronal, nonradioactive, nuclear, ovine, partial, paternal, peripheral, placental, polymorphic, red, sexual, simplex, specific, transgenic, ventricular.
255
En la segunda posicin, hay 120 palabras (de 232) con adjetivos, participios o adverbios deadjetivales con un promedio de 1,93, de las cuales 37 son [Link] y 83 [Link] como se ven en los ejemplos de 17. Si bien se ha dicho en la metodologa que los participios se separaran para los anlisis sintcticos, es necesario incluirlos en los adjetivos para analizar aspectos semnticos y as obtener ms regularidades.
17. aberrant, adipose, advanced, amino, anatomically, antiviral, apoptotic, automated, autosomal, bovine, central, chemical, circulating, columnar, complex, contiguous, critical, cytoplasmic, double, effective, embryonic, endothelial, environmentally, epidermal, epithelial, erythroid, eukaryotic, expected, false, fetal, genetic, genomic, green, growing, high, horizontal, human, immature, inbred, increased, individual, inner, known, large, masked, maternal, medial, meiotic, metastatic, mitochondrial, molecular, multiple, natural, neuronal, normal, outer, paramagnetic, parental, prandial, published, pulverized, ragged, red, reduced, repeated, repressed, smooth, stellate, total, verified, white.
En la tercera posicin, hay 7 palabras (de 13 en total) con adjetivos con un promedio de 1,85, de las cuales 5 son [Link] y 2 como [Link] se ve en los ejemplos de 18.
18. somatic, fetal, somatic, unequal, somatic, white, American.
As, el promedio de adjetivos en cada posicin tiende a aumentar de derecha a izquierda, es decir, que a medida que el premodificador se aleja del ncleo existen ms probabilidades de ser adjetivo como lo reflejan los datos. [Link] Clases semnticas de acuerdo con la categora lxica Si se observan las clases semnticas de la premodificacin de acuerdo con la categora lxica (N, Adj y PP) se evidencian diferencias en las clases semnticas que predominan en cada categora.
256
G. Quiroz
Sustantivos [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] notWN
Porcentaje 32,37 16,91 7,91 5,76 4,32 4,32 3,6 3,24 2,52 2,16 2,16 2,16 1,08 0,72 0,72 0,36 0,36 9,35
Adjetivos noun.animal64 [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link] notWN
Porcentaje 20,63 18,13 16,88 10 6,88 5,63 3,13 3,13 2,5 2,5 1,88 1,88 1,25 1,25 0,63 0,63 0,63 0,63 0,63 1,25
Porcentaje 40 16 12 8 8 8 4 4
En los sustantivos predomina la clase substance con un 32,37% mientras que en los adjetivos predomina la clase animal con un 20,63% y en los participios la clase change con un 40%. Luego, sigue la clase body (16,91%) en los sustantivos, la clase attribute (18,13%) en los adjetivos y la clase [Link] (16%) en los participios. La clase body tambin es igualmente frecuente en los adjetivos (16,88%). As, hay 134 registros de sustantivos con substance (32,37%) como se ve en los ejemplos de 19.
19. acid, agarose, albumin, amino, amyloid, androgen, APOE, buffer, calcium, carbon, cDNA, CTD, cytokine, DNA, dodecyl, endonuclease, enzyme, FHIT, fiber, glucose, guanylate, H1, histone, HLA-DR2, HMGIC, HUVEC, I, Igf2r, kinase, mannose, molecule, monolayer, mRNA, MRP, MUC7, myosin, NGF, nucleoside, nucleotide, oligosaccharide, phosphatase, phosphate, platelet,
64
257
platelet, pol, polyacrylamide, polymerase, polypeptide, potassium, product, promoter, protein, residues, RNA, sodium, sulfate, sulphatase, Taq, tau, tetrachloride, transcript, tyrosine.
Sin embargo, slo hay 5 ocurrencias (3,13%) como adjetivos con la clase substance como se observa en 20. En cambio, hay 112 (10%) de adjetivos generales ([Link]) como en 21.
20. 21. molecular, chemical. aberrant, artificial, central, complex, critical, dense, dependent, dominant, double, effective, false, heavy, high, horizontal, human, immature, individual, inner, large, modern, multiple, natural, negative, nervous, normal, outer, partial, paternal, peripheral, red, smooth, specific, total, unequal, white.
A partir de estas observaciones, puede afirmarse que existen tendencias en el uso de determinadas clases semnticas de acuerdo con la categora lxica, cuestin que puede afectar los aspectos denominativos en el caso de trminos. Es decir, que para denominar sustancias, el sustantivo es la categora lxica por excelencia al menos para esta rea del conocimiento. Es difcil generalizar este asunto para otras reas puesto que los aspectos semnticos estn ntimamente ligados al rea en cuestin. Esto puede observarse en otros estudios que han tenido las mismas restricciones semnticas (Oster 2005, 221).
En la tabla 6, se presentan los patrones semnticos de ms de 2 de frecuencia (28 patrones) que se han obtenido de WordNet 2.1. Para una muestra de 232 sintagmas seleccionados, existen 182 patrones diferentes (una media de 1,27), es decir, casi un patrn por cada sintagma. De estos 182 patrones, hay 154 patrones de una sola ocurrencia. Por tanto, puede afirmarse que existen muy
258
G. Quiroz
pocas regularidades en los patrones semnticos salvo por los patrones ms frecuentes. A continuacin, se presentan los patrones semnticos ms frecuentes conjuntamente con los patrones sintcticos con los que se correlacionan. El patrn animal notWN body es el ms frecuente con 6 ocurrencias y se correlaciona sintcticamente con el patrn Adj N N en 5 ocurrencias, como se observa en los ejemplos de 22.
22. human X chromosome, human IL11RA gene, human PAR genes, human IGF2R gene, human TnTf gene.
El patrn animal substance body es tambin el ms frecuente con 6 ocurrencias y se correlaciona sintcticamente con el patrn Adj N N en 5 ocurrencias, como se presenta en los ejemplos de 23.
23. human NGF gene, human MRP genes, human tau gene, human HMGIC gene, human APOE gene.
Luego sigue el patrn substance substance process con 5 ocurrencias, y se correlaciona sintcticamente con el patrn N N N en 4 ocurrencias, como se ve en los ejemplos de 24.
24. H1 kinase activity, amino acid replacements, tyrosine kinase activity, CTD phosphatase activity.
El patrn body body substance tiene 4 ocurrencias, 2 de ellas tienen como patrn sintctico N Adj N, como se indica en los ejemplos de 25.
25. lung lysosomal enzymes, kidney lysosomal enzymes.
259
El patrn substance substance substance tiene 4 ocurrencias y todas se correlacionan sintcticamente con el patrn N N N, como en los ejemplos de 26.
26. amino acid residues, sodium dodecyl sulfate, histone H1 kinase, Taq DNA polymerase.
Patrn semntico animal notWN body animal substance body substance substance process body body substance substance substance substance [Link] attribute act [Link] body body animal animal body animal body substance attribute body cell change body act substance substance attribute animal body group animal process body attribute state body body attribute act body body body body location substance body process body group substance object notWN attribute act notWN body cell object artifact quantity substance act animal substance artifact process substance attribute object substance substance cognition substance substance group
Frecuencia 6 6 5 4 4 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
% 2,59 2,59 2,16 1,72 1,72 1,29 1,29 1,29 1,29 1,29 1,29 1,29 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86
Dentro de los patrones que tienen tres ocurrencias, cabe destacar el patrn attribute body cell que tiene el mismo patrn sintctico, Adj N N, como se muestra en los ejemplos de 27.
27. white blood cells, smooth muscle cells, red blood cells.
260
G. Quiroz
Como antes se explic, las clases semnticas que predominan y por extensin, los patrones semnticos son un claro reflejo del rea temtica del corpus. As que los patrones semnticos, conjuntamente con los patrones sintcticos con los que se correlacionan, pueden ser un factor decisivo para la deteccin de unidades candidatas a trmino en un rea del conocimiento determinada. Sin embargo, los patrones semnticos no pueden extrapolarse a otras reas del conocimiento mientras que esto es posible con los patrones sintcticos como se ha visto en las tendencias presentadas en el corpus lexicogrfico.
A pesar de las pocas regularidades que se encuentra en los patrones completos, se observan ms regularidades al nivel de la premodificacin como se observa en la tabla 7. De los 116 patrones semnticos totales, 72 presentan una slo ocurrencia, 14 con dos ocurrencias, 17 con tres ocurrencias y 4 con cuatro ocurrencias. Adems, se encuentran patrones desde 5 ocurrencias hasta 20 ocurrencias. Los patrones semnticos de la premodificacin con ms de 5 ocurrencias son substance substance con el 8,62% (20 ocurrencias), animal substance con el 3,45% (8), body body con el 3,45% (8), animal notWN con el 3,02% (7), attribute body con el 2,59% (6), substance body con el 2,59% (6), animal body con el 2,16% (5) y change body con el 2,16% (5). En total representan el 28,04% de toda la premodificacin. Igualmente, todos los patrones semnticos presentados en la tabla 7 representan el 56,85% de toda la premodificacin.
261
Patrn semntico de la premodificacin substance substance animal substance body body animal notWN attribute body substance body animal body change body animal animal attribute state attribute substance substance attribute act animal [Link] attribute [Link] body [Link] cell animal animal group animal process body attribute body cell body location body substance cognition substance group substance notWN cell object substance state notWN substance artifact substance event
Frecuencia 20 8 8 7 6 6 5 5 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
Porcentaje 8,62 3,45 3,45 3,02 2,59 2,59 2,16 2,16 1,72 1,72 1,72 1,72 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29
En cuanto al patrn semntico substance substance todos los casos pertenecen al patrn N N N aunque con diferentes ncleos. Con el patrn animal substance, 6 casos pertenecen al patrn Adj N N y 2 casos a N N N. En el patrn body body hay 3 casos que pertenecen al patrn Adj N N, 2 casos a N Adj N, 2 casos a N N N y 1 caso a Adj Adj N. El patrn animal notWN tiene 5 casos de los 7 con el patrn Adj N N y 2 casos con N N N. El patrn attribute body est representado por dos patrones Adj Adj N y Adj N N con 2 y 4 ocurrencias, respectivamente. El patrn substance body tiene dos patrones N N N con 5 ocurrencias y N JA N con una. El patrn animal body tiene tambin dos patrones Adj N N con 3 ocurrencias y Adj Adj N con 2. Finalmente, el patrn
262
G. Quiroz
change body tiene los patrones PP N N y PP Adj N con 3 y 2 ocurrencias, respectivamente. De los anteriores datos, puede deducirse que los patrones ms comunes en la premodificacin son parte de los patrones sintcticos ms frecuentes N N N, Adj N N, seguidos de Adj Adj N y N Adj N y en menor medida, PP N N, PP Adj N. Todos ellos estn entre los 7 ms frecuentes del corpus de anlisis en ingls y entre los 8 ms frecuentes del corpus lexicogrfico del ingls. As, puede afirmarse que estas tendencias son generales a este tipo de discurso especializado pero no es posible afirmar esto para otros tipos de discurso en el aspecto semntico ya que este est muy ligado al rea temtica y lo ms probable es que estos patrones varen de rea en rea temtica como ya se explic. An as, puede aseverarse que existen estructuras semnticas que subyacen a ciertos tipos de sintagmas en cada rea temtica como se ha visto en este apartado. Obsrvese que los patrones Adj N N, N N N y N Adj N son los que estn presentes en las estructuras semnticas ms frecuentes y a su vez son los tres patrones ms frecuentes tanto en el corpus de anlisis como en el corpus lexicogrfico (1, 2 y 4, respectivamente en ambos corpus). En este sentido, puede afirmarse que las estructuras ms frecuentes tienden a estar correlacionadas semntica y sintcticamente. Una de las estructuras sintcticas ms frecuentes Adj Adj N en ambos corpus (3ra) no presenta tanta correlacin con las semnticas. Slo presenta dos regularidades animal animal body y animal body substance, ambas con 2 ocurrencias. Las otras 23 ocurrencias de este patrn tienen igual cantidad de patrones semnticos. Como es de esperarse, muchas de las clases semnticas de la premodificacin son [Link], attribute, shape y state, lo que tambin muestra el tipo de clase que subyace a un patrn como Adj Adj N. A pesar de la alta frecuencia presentada por los patrones Adj N N, N N N y N Adj N entre los patrones semnticos, es importante mostrar que estos
263
patrones sintcticos tambin presentan otros patrones semnticos diferentes de los expuestos. El patrn N N N presenta tambin del patrn substance substance proces, el patrn substance substance substance con las mismas 4 ocurrencias y el patrn substance substance attribute con 3 ocurrencias. En estos tres patrones predomina una premodificacin con la clase substance substance como sucede igualmente con otros dos patrones ms de 2 ocurrencias (substance substance cognition y substance substance group). Adems, este patrn presenta 6 patrones con 2 ocurrencias y 53 con una 1 sola ocurrencia. El patrn Adj N N presenta adems del patrn animal notWN body con 5 ocurrencias, los patrones animal substance body con las mismas ocurrencias y [Link] attribute act y attribute body cell, ambos con 3 ocurrencias. Adems, este patrn sintctico presenta 6 patrones semnticos de 2 ocurrencias y 38 de una sola ocurrencia. Finalmente, el patrn N Adj N presenta adems del patrn semntico body body substance con 2 ocurrencias, el patrn substance attribute object con 2 ocurrencias. El resto de patrones son de una ocurrencia. As, puede decirse de este apartado que existen inconsistencias en el etiquetaje de WordNet en cuanto que hay palabras que pueden pertenecer a dos clases semnticas como sucede con enzyme que pueden estar asignadas a body y a substance y que podran estar etiquetadas y jerarquizadas desde ambas sin que existan ningn problema conceptual o cognitivo ya que, como lo plantea Cabr (2002), la poliedricidad de los trminos permite analizarlos desde diferentes perspectivas y es en el marco de un rea temtica que adquieren su valor especializado:
... los trminos, que son las unidades del campo de conocimiento llamado terminologa, se pueden analizar desde perspectivas diferentes y, en tanto que objetos polidricos, pueden participar de su campo de estudio y convertirse en
264
G. Quiroz
parte central del objeto de anlisis y de su teorizacin. Desde la lingstica, se puede elaborar perfectamente una teora de los trminos en la que stos se describen como unidades de forma y contenido que, utilizados en determinadas condiciones discursivas, adquieren un valor especializado.
Igualmente, las clases y patrones encontrados permiten observar la relacin entre los sintagmas y su rea temtica. Por tanto, es de esperar que se obtengan estos resultados debido al rea temtica pero si se combinan con la descripcin formal pueden ser tiles en los procesos de extraccin de trminos, en especial.
Como se dijo en [Link], UMLS es un conjunto de recursos lxicos que facilita el desarrollo de los sistemas informticos para que entiendan el lenguaje de la biomedicina y la salud y, por eso, presentan un nivel de granularidad muy superior a WordNet. Por tanto, se espera que los resultados sean ms precisos y generalizables que los presentados desde el etiquetaje con WordNet. En los ncleos se encontraron 58 tipos semnticos de los 135 totales. De estos, 43 son de una frecuencia menor a 5 ocurrencias y representan el 34,4%.
Clase semntica UMLS Gene or Genome Biologically Active Substance Functional Concept Cell Quantitative Concept Idea or Concept Spatial Concept Cell Component Research Activity Tissue Genetic Function Laboratory Procedure Frecuencia 22 21 14 13 11 10 9 8 7 7 6 6 Porcentaje 9,48 9,05 6,03 5,6 4,74 4,31 3,88 3,45 3,02 3,02 2,59 2,59
265
Disease or Syndrome Qualitative Concept Mammal Organism Function Substance Body Part, Organ, or Organ Component Body Substance Cell or Molecular Dysfunction Enzyme Intellectual Product Medical Device Molecular Function Nucleotide Sequence Phenomenon or Process Mental Process Natural Phenomenon or Process Nucleic Acid, Nucleoside, or Nucleotide Occupational Activity Organic Chemical Organism Attribute Pharmacologic Substance Research Device Therapeutic or Preventive Procedure Virus Amino Acid Sequence Amino Acid, Peptide, or Protein Biomedical Occupation or Discipline Biomedical or Dental Material Carbohydrate Chemical Viewed Structurally Clinical Attribute Clinical Drug Congenital Abnormality Finding Food Hazardous or Poisonous Substance Hormone Human Inorganic Chemical Manufactured Object Neoplastic Process Pathologic Function Sign or Symptom Social Behavior not found ok
5 5 4 4 4 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 8 1
2,16 2,16 1,72 1,72 1,72 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 0,43 3,45 0,43
266
G. Quiroz
Como puede verse en la tabla 8, la clase semntica ms frecuente en el corpus de anlisis es Gene or Genome con 9,48%, seguida de Biologically Active Substance con 9,05% y Functional Concept con 6,03%, como puede verse en los ejemplos 28, 29 y 30. Estas tres clases semnticas representan el 24,56% de todos los ncleos de la muestra semntica.
28. 29. 30. allele, gene, library. albumin, buffer, collagen, DNA, mRNA, plasmids, protein, RNA. collection, deficiency, domain, factor, fragment, reaction, replacements, results, shifts, system, transfer, turnover.
Los ejemplos de 28 y 29 muestran palabras relacionadas con sus respectivas clases y en el caso de 30, la clase Functional Concept se refiere a A concept which is of interest because it pertains to the carrying out of a process or activity. Por tanto, es una clase muy amplia que no permite mayores restricciones o generalizaciones. Sin embargo, el ejemplo fragment puede pertenecer a Gene or Genome si se tiene en cuenta que UMLS es una ontologa especializada en ciencias de la salud. Posteriormente siguen las clases Cell con 5,6%, Quantitative Concept con 4,74% e Idea or Concept con 4,31%, como se observa en los ejemplos de 31, 32 y 33.
31. 32. 33. cell, platelet. count, difference, distance, kit, mass, number, weight. activity, chain, cluster, death, product, strain.
Hay un 3,45% de palabras que no se encontraron en UMLS y por tanto se etiquetaron como not found. Dichas unidades son palabras generales que puede 267
aparecer en la clase Functional Concept y otras son del mbito del genoma y pueden etiquetarse como Cell Component, como se puede ver en los ejemplos de 34.
34. association, changes, locus, pocket, transition.
Si se comparan los resultados de WordNet contra los de UMLS, se refrenda lo expuesto por Burgun/Bodenreider (2001: 77):
Only 2% of the domain-specific concepts from UMLS were found in WordNet, but 83% of the domain-specific concepts from WordNet were found in the UMLS.
As es posible obtener clases ms especficas en UMLS como enzyme, hormone, amino acid que en WordNet se pueden agrupar en substance. Sin embargo, en UMLS esta clase semntica tambin est en un solo grupo semntico CHEM (Chemicals&Drugs). En este sentido, con UMLS puede lograrse dos aspectos importantes: obtener ms generalizaciones con los grupos semnticos y lograr ms precisin con los tipos semnticos. Con WordNet, solo se logra ms generalizacin pero se pierde precisin semntica. Para efectos de extraccin terminolgica y etiquetaje en bancos de datos, UMLS slo sera til en el mbito de la medicina mientras que WordNet, al ser una ontologa general puede ser til en muchos campos del conocimiento como medicina, economa, geologa, arquitectura, transporte, etc. WordNet contiene 42 reas de conocimiento aunque desarrolladas de manera diferente. Por ejemplo, el rea de psicologa tiene 3.405 synsets mientras que veterinaria tiene 92 (Magnini et al 2002: 363).
268
G. Quiroz
En la premodificacin se encontraron 62 tipos semnticos de los 135 totales. De estos, 39 son de una frecuencia menor a 5 ocurrencias y representan el 17,22%. Como puede verse en la tabla 8, la clase semntica ms frecuente en el corpus de anlisis es Amino Acid, Peptide, or Protein con 11,39%, seguido de Qualitative Concept con 7,59% y Functional Concept con 6,75% como puede verse en los ejemplos de 35, 36 37. Estas tres categoras semnticas representan el 32,06% de todos los ncleos.
35. A, albumin, amino, amyloid, apoE, collagen, cytokine, endonuclease, FHIT, H1, histone, HMGIC, HUVEC, I, Igf2r, insulin, kinase, MRP, MUC7, myosin, NGF, phosphatase, polymerase, polypeptide, protein, receptor, restriction, sulphatase, Taq, tyrosine. 36. aberrant, advanced, apoptotic, artificial, complex, congenital, critical, dense, effective, erythroid, false, green, heavy, high, known, marker, molecular, normal, paternal, red, reduced, smooth, specific, striated, Type, unequal, white. 37. anatomically, auditory, automated, cellular, circulating, domain, dominant, double, endogenous, epithelial, fetal, fragment, genetic, mitochondrial, natural, negative, nervous, repeated, sequencing, shift.
Posteriormente siguen las clases Nucleic Acid, Nucleoside, or Nucleotide con 5,91%, Cell con 5,06% y Human con 4,85% como se ve en los ejemplos 37, 39 y 40.
38. cDNA, DNA, genomic, guanylate, nucleoside, nucleotide, plasmid, promoter, start, tau, transcript. 39. 40. adipocyte, cell, leukocytic, platelet, polarized, somatic, T. human, individual.
269
Clase semntica UMLS Amino Acid, Peptide, or Protein Qualitative Concept Functional Concept Nucleic Acid, Nucleoside, or Nucleotide Cell Human Spatial Concept Gene or Genome Quantitative Concept Body Part, Organ, or Organ Component Idea or Concept Mammal substance Carbohydrate Disease or Syndrome Laboratory Procedure Tissue Body Location or Region Body Substance Cell Component Organism Amino Acid Sequence Biologically Active Cell or Molecular Dysfunction Genetic Function Inorganic Chemical Animal Antibiotic Biomedical or Dental Clinical Attribute Immunologic Factor Organism Function Population Group Virus Cell Function Chemical Element, Ion, or Isotope Experimental Model of Disease Finding Machine Activity Natural Phenomenon or Process Organism Attribute Pharmacologic Substance Research Device Social Behavior Temporal Concept Bacterium Biomedical Occupation or Discipline Embryonic Structure
Frecuencia 54 36 32 28 24 23 19 14 14 12 11 11 8 6 6 6 6 5 5 5 5 4 4 4 4 4 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1
Porcentaje 11,39 7,59 6,75 5,91 5,06 4,85 4,01 2,95 2,95 2,53 2,32 2,32 1,69 1,27 1,27 1,27 1,27 1,05 1,05 1,05 1,05 0,84 0,84 0,84 0,84 0,84 0,63 0,63 0,63 0,63 0,63 0,63 0,63 0,63 0,42 0,42 0,42 0,42 0,42 0,42 0,42 0,42 0,42 0,42 0,42 0,42 0,21 0,21 0,21
270
G. Quiroz
Family Group Fungus Indicator, Reagent, or Diagnostic Aid Intellectual Product Lipid Medical Device Neoplastic Process Occupational Activity Phenomenon or Process Research Activity Therapeutic or Preventive Procedure not found
1 1 1 1 1 1 1 1 1 1 1 62
0,21 0,21 0,21 0,21 0,21 0,21 0,21 0,21 0,21 0,21 0,21 13,08
Hay un 13,08% de palabras de la premodificacin que no se encontraron en UMLS y, por tanto, se etiquetaron como not found. Dichas unidades son, en general, trminos o parte de ellos, que puede aparecer en la clase Functional Concept y otras son del mbito del genoma y pueden etiquetarse como Cell Component como se puede ver en el ejemplo 41.
41. ArG, BD, binding, biotinylated, CaCo2, calf, chromosomal, corpuscle, deleterious, ELT-3, endothelial, environmentally, etl2, eukaryotic, extinguisher, genomic, growing, helper, highly, HPS, immunoreactive, K2, Kozak, modern, MUL, multipoint, nonradioactive, PAR, paramagnetic, parental, polymorphic, prandial, pseudocontact, published, pulverized, ragged, repressed, SDS, sexual, simplex, subunit, TA, TATAA, TnTf, variance.
Debido a la cantidad de tipos semnticos que tiene UMLS y, a que tal cantidad reduce la posibilidad de hacer generalizaciones sobre los patrones semnticos, se han empleado los grupos semnticos y no los tipos semnticos expuestos en 2. UMLS tiene 15 grupos semnticos que permiten agrupar los tipos semnticos. Para poder obtener regularidades desde el punto de vista de los patrones se han mapeado los 136 tipos semnticos a sus respectivos grupos semnticos. 271
En la tabla 10, se presentan los patrones semnticos que se han obtenido de los grupos semnticos de UMLS. Se presentan todos los patrones que tienen una frecuencia igual o mayor que 2 (40 patrones). Para una muestra de 232 sintagmas seleccionados existen 149 patrones diferentes (una media de 1,55), es decir, casi un patrn por cada sintagma y medio. De estos 149 patrones, hay 110 patrones de una sola ocurrencia. Por tanto, puede verse que al igual que con los patrones de WordNet 2.1, existen muy pocas regularidades en los patrones semnticos an si se mapean los tipos semnticos a los grupos semnticos que en teora tienen. A continuacin, se presentan los patrones semnticos ms frecuentes con los patrones sintcticos que ellos representan. De los 149 patrones semnticos totales, 110 presentan una sola ocurrencia, 17 con dos ocurrencias, 14 con tres ocurrencias y 3 con cuatro ocurrencias. Adems, se encuentran patrones desde 5 ocurrencias hasta 8 ocurrencias. El patrn CHEM CHEM CONC (Chemicals&Drugs Chemicals&Drugs Concepts&Ideas) es el ms frecuente con 8 ocurrencias (3,45%) y se correlaciona sintcticamente con el patrn N N N en 8 ocurrencias, como se aprecia en los ejemplos de 42.
42. H1 kinase activity, amino acid replacements, tyrosine kinase activity, amino acid level, calcium phosphate method, amino acid differences, CTD phosphatase activity, CTD phosphate turnover.
272
G. Quiroz
Patrn UMLS CHEM CHEM CONC LIVB CHEM GENE CHEM CHEM CHEM CHEM CONC CONC CONC ANAT ANAT CONC CONC CONC CHEM CHEM PHYS CONC CHEM CHEM LIVB CONC ANAT ANAT ANAT ANAT ANAT ANAT CHEM ANAT ANAT CONC CHEM CHEM GENE CHEM CHEM PROC CONC ANAT DEVI CONC CONC ANAT CONC CONC DISO CONC LIVB ANAT LIVB GENE GENE LIVB NotF GENE NotF CHEM CONC NotF NotF CONC ok ok ACTI ANAT CONC ANAT CHEM ACTI CONC CHEM CHEM DEVI CHEM CHEM NotF CHEM DISO LIVB CHEM GENE PHYS CHEM NotF CHEM CHEM NotF NotF CONC ANAT CONC CONC ANAT DISO CONC GENE CONC GENE GENE CHEM LIVB ANAT CHEM NotF ANAT ANAT NotF ANAT OBJC NotF CHEM PHYS NotF PHYS CONC
Frecuencia 8 6 5 5 5 5 4 4 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Porcentaje 3,45 2,59 2,16 2,16 2,16 2,16 1,72 1,72 1,72 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86 0,86
El patrn LIVB CHEM GENE (Living Beings Chemicals&Drugs Genes&MolecularSequences) tiene 6 ocurrencias (2,59%) y se correlaciona sintcticamente con el patrn Adj N N en 5 ocurrencias, como se observa en los ejemplos de 43. 273
43.
human NGF gene, human MRP genes, human tau gene, human HMGIC gene, human APOE gene.
El patrn CHEM CHEM CHEM (Chemicals&Drugs Chemicals&Drug Chemicals&Drug) tiene 5 ocurrencias (2,16%) y se correlaciona sintcticamente con el patrn N N N en 5 ocurrencias, como se ve en los ejemplos de 44.
44. amino acid residues, plasmid DNA vaccines, sodium dodecyl sulfate, histone H1 kinase, Taq DNA polymerase.
El patrn CHEM CONC CONC (Chemicals&Drugs Concepts&Ideas Concepts&Ideas) tiene 5 ocurrencias (2,16%) y se correlaciona sintcticamente con el patrn N Adj N en 2 ocurrencias, como se presenta en los ejemplos de 45.
45. glucose specific activity, myosin heavy chain.
El patrn CONC ANAT ANAT (Concepts&Ideas Anatomy Anatomy) tiene 5 ocurrencias (2,16%) y se correlaciona sintcticamente con el patrn Adj N N en 3 ocurrencias, como se muestra en los ejemplos de 46.
46. white blood cells, smooth muscle cells, red blood cells.
El patrn CONC CONC CONC (Concepts&Ideas Concepts&Ideas Concepts&Ideas) tiene 5 ocurrencias (2,16%) y se correlaciona sintcticamente con el patrn Adj|PP Adj N en 5 ocurrencias, como aprecia en los ejemplos de 47.
47. central nervous system, large molecular weight, false negative results, natural genetic variation, expected molecular mass.
G. Quiroz
A pesar de las pocas regularidades que se encuentra en los patrones completos, se observan muchas ms regularidades al nivel de la premodificacin que a nivel del patrn completo como se observa en la tabla 11.
Premodificacin CHEM CHEM CONC ANAT CONC CONC ANAT ANAT CONC CHEM NotF CHEM CHEM CONC LIVB CHEM CONC LIVB CONC NotF NotF ANAT CHEM NotF CONC DISO LIVB CONC LIVB NotF ANAT CONC LIVB ANAT LIVB GENE ok ok ANAT ANAT LIVB CHEM GENE CHEM PHYS CONC GENE CONC PHYS CONC PROC LIVB DISO LIVB LIVB NotF CONC NotF NotF Frecuencia 29 14 14 11 11 9 8 7 6 6 6 5 5 5 5 4 4 4 4 3 3 3 3 3 3 3 3 3 3 Porcentaje 12,5 6,03 6,03 4,74 4,74 3,88 3,45 3,02 2,59 2,59 2,59 2,16 2,16 2,16 2,16 1,72 1,72 1,72 1,72 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29 1,29
De los 66 patrones semnticos totales, 29 presentan una slo ocurrencia, 8 con dos ocurrencias, 10 con tres ocurrencias y 4 con cuatro ocurrencias. 275
Adems, se encuentran patrones desde 5 ocurrencias hasta 29 ocurrencias. Los patrones semnticos de la premodificacin con ms de 5 ocurrencias: CHEM CHEM con el 12,5% (29 ocurrencias), CONC ANAT con el 6,03% (14), CONC CONC con el 6,03% (14), ANAT ANAT con el 4,74% (11), CONC CHEM con el 4,74% (11), NotF CHEM con el 3,88% (9), CHEM CONC con el 3,45% (8), LIVB CHEM con el 3,02% (7),CONC LIVB con el 2,59% (6), CONC NotF con el (6) 2,59%, NotF ANAT con el 2,59% (6), CHEM NotF con el 2,16% (5), CONC DISO con el 2,16% (5), LIVB CONC con el 2,16% (5), LIVB NotF con el 2,16% (5). En total representan el 60,8% de toda la premodificacin. El patrn CHEM CHEM tiene 27 casos que pertenecen al patrn N N N aunque con diferentes ncleos. Con el patrn CONC ANAT, 12 casos pertenecen al patrn Adj N N y 2 casos a PP N N. En el patrn CONC CONC hay 10 casos que pertenecen al patrn Adj Adj N y 2 casos a PP Adj N. El patrn ANAT ANAT tiene 5 casos con el patrn Adj N N, 4 casos con N N N y 2 casos con N Adj N. El patrn CONC CHEM est representado por los patrones Adj N N con 6 ocurrencias y los patrones PP N N y N N N con 2 ocurrencias, respectivamente. Con el patrn NotF CHEM se pueden considerar dos patrones Adj N N con 6 ocurrencias y PP N N con 2 ocurrencias. El patrn CHEM CONC tiene el patrn N N N con 3 ocurrencias y los patrones N Adj N y Adj N N con 2 ocurrencias cada uno. El patrn LIVB CHEM tiene los patrones Adj N N con 5 ocurrencias y N N N con 2. El patrn CONC LIVB tiene los patrones Adj Adj N con 4 ocurrencias y PP|Adj N N con 2. El patrn CONC NotF tiene los patrones PP|Adj Adj N, Adj N N y Adv Adj N, todos con 2 ocurrencias. El patrn NotF ANAT tiene el patrn N N N con cuatro ocurrencias. El patrn CHEM NotF tiene los patrones N Adj N y N N N con dos ocurrencias cada uno. El patrn CONC DISO tiene el patrn Adj N N con cuatro ocurrencias. El patrn LIVB CONC tiene el patrn Adj Adj N con 3 ocurrencias. Finalmente, el patrn LIVB NotF tiene los patrones N N N y Adj N N, ambos 2 con ocurrencias. De los anteriores datos, puede deducirse que los patrones ms comunes en la premodificacin son, de nuevo, parte de los patrones sintcticos ms frecuentes N N N, Adj Adj N y Adj N N, seguidos de N Adj N, PP N N y PP Adj N 276
G. Quiroz
y, en menor medida, Adv Adj N. Al igual que las tendencias presentadas con los patrones de WordNet, todos ellos pertenecen a los 7 ms frecuentes del corpus de anlisis en ingls y entre los 8 ms frecuentes del corpus lexicogrfico del ingls.
277
6.5 Recapitulacin
En este captulo, se han presentado los resultados del anlisis semntico del corpus de anlisis en ingls en WordNet 2.1 y UMLS 2006. 1. Las clases semnticas ms frecuentes en el ncleo en WordNet 2.1 son [Link] (18,53%), [Link] (15,95%), [Link] (10,77%), [Link] (7,33%) y [Link] (7,33%). Estas cinco clases semnticas representan el 59,91% de todos los ncleos de la muestra. En UMLS, las clases semnticas ms frecuentes son Gene or Genome (9,48%), Biologically Active Substance (9,05%), Functional Concept (6,03%), Cell (5,6%) y Quantitative Concept (4,74%). Estas cinco clases representan el 34,9% de todos los ncleos. Obsrvese que WordNet 2.1 tiene ms capacidad de generalizacin pero UMLS presenta ms granularidad ya que las clases de los ncleos estn ms repartidas entre las diferentes clases. 2. Las clases semnticas ms frecuentes en la premodificacin en WordNet son [Link] (21,59%), [Link] (15,72%), [Link] (11,53%), [Link] (9,01%) y, [Link] (4,4%). En UMLS las clases ms frecuentes son Gene or Genome (9,48%), Biologically Active Substance (9,05%), Functional Concept (6,03%), Cell (5,6%) y Quantitative Concept (4,74%). Tambin en la premodificacin se presenta la misma tendencia de granularidad frente a WordNet en los ncleos ya que estas clases representan el 34,9% de toda la premodificacin en UMLS contra el 62,25% en WordNet. 3. Los patrones ms frecuentes en WordNet son animal notWN body (2,59%), animal substance body (2,59%), substance substance process (2,16%), body body substance (1,72%) y substance substance substance (1,72%). Estos patrones semnticos obtenidos a partir de WordNet representan el 10,78% de la muestra de anlisis semntico. Los patrones ms frecuentes en UMLS son 278
G. Quiroz
CHEM CHEM CONC (3,45%), LIVB CHEM GENE (2,59%), CHEM CHEM CHEM (2,16%), CHEM CONC CONC (2,16%) y CONC ANAT ANAT (2,16%). Estos patrones semnticos obtenidos de UMLS representan el 12,52% de toda la muestra de anlisis en ingls. Puede verse que en ambos programas no es posible obtener muchas generalizaciones en cuanto a los patrones ya que cada patrn semntico no abarca a ms del 3,5% de todas las ocurrencias en el mejor de los casos. Sin embargo, los patrones ms frecuentes en ambos sistemas se correlacionan sintcticamente con los patrones superficiales ms frecuentes tanto en el corpus de anlisis en ingls como en el lexicogrfico: N N N, Adj Adj N y Adj N N, N Adj N, PP N N y PP Adj N y en menor medida Adv Adj N. Puesto que los patrones semnticos tienen las clases semnticas ms frecuentes, los patrones creados a partir de ellas y su asociacin a los patrones superficiales ms frecuentes muestra que son estas estructuras las ms estables dentro de este estudio en todo sentido. 4. Los resultados reflejan lo esperable en cuanto a las clases semnticas puesto que el rea temtica de este estudio, el genoma, tiene involucradas estas clases. Por tanto, su aporte a este estudio es limitado. Sin embargo, el anlisis realizado y la asociacin que se ha hecho entre los patrones superficiales y los semnticos permiten saber que un uso adecuado entre los patrones y las clases semnticas de un rea temtica determinada, e.g., economa, y teniendo en cuenta que algunas de ellas estn bien desarrolladas en determinadas ontologas, es posible trasladar los resultados de este estudio hacia campos de aplicacin, como el etiquetaje de corpus, traduccin automtica, ontologas, extraccin de terminologa, lexicografa, etc. 5. Aun as es importante sealar las limitaciones de ambos sistemas y que se han esbozado antes. En primer lugar, existe una cantidad importante de palabras que no se encuentran en ambos sistemas: 16,53% en UMLS y 7,4% en WordNet 2.1. Esto puede afectar los resultados de cualquier estudio ya que sobrepasan el estndar del 5% de error y para subsanar esto, se debe entrenar el corpus y detectar el porcentaje potencial de unidades que no tiene el sistema, etiquetarlo manualmente y alimentar el sistema hasta reducirlo por debajo del 279
5%. Esto puede variar de rea en rea ya que en el caso de WordNet, la granularidad vara ostensiblemente como se ha comentado a final de 6.4.5. En el caso de UMLS, al estar restringida a las ciencias de la salud es muy til para trabajos como este, pero tambin tiene un porcentaje importante de palabras no encontradas. Como se ha visto aqu el uso de los grupos semnticos permite hacer ms generalizaciones aunque disminuya la granularidad, en cuyo caso se deben evaluar las ventajas y desventajas para sacar el mximo provecho en el etiquetaje o emplear un etiquetaje doble en todos los casos. Finalmente, debe tenerse en cuenta las inconsistencias en el etiquetaje de ambos sistemas que se han explicado para poder obtener ms regularidades en los resultados.
280
G. Quiroz
281
282
G. Quiroz
283
284
G. Quiroz
7.1 Introduccin
En este captulo se pretende caracterizar semnticamente los sintagmas nominales especializados extensos en espaol de modo que conjuntamente con los resultados sintcticos permitan interpretar estos sintagmas usando elementos lingsticos obtenidos de las regularidades observadas. Aunque no se pretende establecer las relaciones semnticas entre los diferentes constituyentes como lo ha hecho Oster (2005) se busca establecer patrones semnticos de los sintagmas empleando EuroWordNet 1.6. Estos patrones pueden permitir observar las tendencias semnticas en espaol, al menos para este campo del genoma. Se ha elegido EuroWordNet para el espaol por varias razones. En primer lugar, es la versin europea de WordNet 1.6, lo que permite obtener resultados comparables en ambas lenguas en clases semnticas y los patrones obtenidos. En segundo lugar, es la ontologa ms empleada en todos los estudios relacionados con la lingstica y en la construccin de otros recursos lingsticos como diccionarios, tesauros, etc. y el procesamiento del lenguaje natural. En tercer lugar, EuroWordNet es de acceso libre a travs de Internet. Aunque UMLS tiene algunos recursos para el espaol como Snomed, no es posible acceder a ellos va Web para etiquetar las palabras y por eso, no se emple en este captulo.
285
Al igual que en ingls, se seleccionaron los sintagmas para la muestra semntica siguiendo el mismo criterio que para el anlisis de la muestra sintctica, es decir, de mayor a menor frecuencia hasta completar la muestra que corresponda a cada patrn sintctico.
Aunque una muestra de 200 sintagmas puede parecer limitada, la decisin del 22% se basa en la seleccin de un 20% de la muestra de forma completa para cada patrn y por eso se ha llegado hasta ese porcentaje. Aunque est limitacin se justifica por la dificultad de asignar manualmente hasta 6 etiquetas a cada uno de los tokens de estos sintagmas (un total de 606 tokens en cada sistema). Adems, cada token se ha buscado, desambiguado en otros diccionarios, y observado en contexto para poder asignar la etiqueta de EuroWordNet de manera correcta. Para ms informacin, vase 3.4 y 7.3 de este captulo.
65
286
G. Quiroz
7.3 Metodologa
La muestra seleccionada se etiquet manualmente para un total de 606 tokens. Las categoras semnticas, presentadas en [Link], se asignaron por separado en todos los ncleos con EuroWordNet. Posteriormente, se etiquet la modificacin de acuerdo con las categoras lxicas: sustantivos, adjetivos y adverbios, de modo que pudiera asegurarse la consistencia de etiquetaje dentro de cada categora lxica en EuroWordNet. Si se encontraba ms de una posibilidad de etiquetaje se asignaba el que correspondiera ms al sintagma o, en caso de ambigedad se dejaban las diferentes clases. En cualquier caso, la primera opcin del etiquetaje se dejaba como la ms prxima al significado del sintagma. Los datos se tabularon en Statgraphics 5.1 en cuanto a las clases semnticas de los ncleos y la modificacin en EuroWordNet. De all, se seleccionaron las categoras ms prototpicas de la muestra tanto para los ncleos como para la modificacin. Se obtuvo luego el conjunto de patrones semnticos ms frecuentes y se compararon con los patrones sintcticos, de modo que pueda verse la relacin entre los aspectos sintctico y semntico y las tendencias que presentaban. Igualmente se analiz su frecuencia en cuanto a la posicin dentro de la modificacin y de acuerdo con la categora lxica.
287
7.4 Resultados
Como puede verse en la tabla 2, la clase semntica ms frecuente en el corpus de anlisis del espaol es state con 21%, seguida de act con 12% y body con 11%. Estas tres categoras semnticas representan el 44% de todos los ncleos. Como puede verse en el ejemplo 1, los casos denotan enfermedades (anemia, leucemia), estados de enfermedades (anomala, nivel, fiebre, grado) o estados en general (muerte, nivel).
1. agenesia, anemia, anomala, artrosis, atrofia, candidiasis, carcinoma, cncer, diabetes, dominio, enfermedad, existencia, fetopata, fiebre, grado, insuficiencia, leucemia, muerte, nivel, poliposis, poliquistosis, tumor.
Igualmente, hay algunos casos que no se puede categorizar en esta clase. Por ejemplo, dominio debera pertenecer a la clase cell de acuerdo con el diccionario Espasa de medicina.
(Gen.) m. segmento, habitualmente pequeo, de DNA o de un polipptido, que tiene una funcin o unas propiedades especficas.
En el ejemplo 2, se presentan casos de la clase act. Obsrvese que todos los sustantivos son deverbales.
2. anlisis, cultivo, delito, diagnstico, distribucin, formacin, hibridacin, inclusin, reparacin, respuesta, rotura, secuencia, tincin, transferencia, transmisin, ndice.
288
G. Quiroz
En el caso de cultivo, debera estar bajo la clase substance o cell como se infiere de las definiciones de la DRAE y el Espasa si bien la categora act es precisa para dicha palabra.
(Biol. y Med.) poblacin de microorganismos, clulas o tejidos as obtenidos. (Microbiol.) m. medio slido o lquido en el que se ha propagado una poblacin de un determinado tipo de microorganismo (o clula de un macroorganismo), como resultado de la previa inoculacin de ese medio, seguida de una incubacin.
En el caso de hibridacin, se presenta una situacin similar ya que pertenece ms al mbito de la biologa como tal y podra clasificarse bajo cell como se observa de las definiciones del DRAE y Espasa de medicina.
(Biol.) fusin de dos clulas de distinta estirpe para dar lugar a otra de caractersticas mixtas. (Gentica) f. unin entre dos individuos con fenotipos o genotipos distintos, o bien, procedentes de dos poblaciones o especies diferentes. En biologa molecular, el emparejamiento especfico entre cadenas complementarias de DNA o cido ribonucleico (RNA).
En el ejemplo 3, se presentan los sustantivos de la clase body y se refieren en su mayora a partes de cuerpo.
3. alelo, arteria, cromosoma, gen, hormona, membrana, mucosa, mdula, regin, vrtebra, vas, zona, rea.
Sin embargo, obsrvese que tambin existen algunas sustancias como hormona que podran estar bajo la clase substance como se ve en las definiciones del diccionario Espasa.
(Fisiologa) f. Sustancia qumica secretada por las glndulas endocrinas, que alcanza el rgano diana a travs de la sangre.
289
De igual modo, algunos ejemplos como alelo, cromosoma y gen pueden estar bajo la clase cell como se deduce de las definiciones del diccionario Espasa de medicina.
(Gen.) m. cada una de las formas en que puede presentarse un gen en un determinado locus (v.). (Gen.) m. cada una de las pequeas formaciones estructurales en forma de bastoncillo en que se divide la cromatina del ncleo celular en la mitosis. (Biol.) secuencia de ADN que constituye la unidad funcional para la transmisin de los caracteres hereditarios.
Como sucede con esta clase en ingls, existen algunos casos que podran considerarse como hipernimos ya que no son exactamente partes del cuerpo sino palabras o paratrminos que se refieren a lugares ms amplios no definidos que podran albergar a partes del cuerpo como puede ser rea, regin y zona.
Clase semntica state act body cell attribute event cognition artifact process substance person animal relation time communication group location phenomenon object quantity not found
Frecuencia 42 24 22 15 14 13 11 9 9 9 6 5 5 3 2 2 2 2 1 1 3
Porcentaje 21 12 11 7,5 7 6,5 5,5 4,5 4,5 4,5 3 2,5 2,5 1,5 1 1 1 1 0,5 0,5 1,5
290
G. Quiroz
Tambin es importante destacar las clases cell (7,5%), attribute (7%) y event (6,5%), como se ejemplifica en 4, 5 y 6.
4. 5. aceptor, cDNA, cepa. concentracin, defecto, deficiencia, desequilibrio, estructura, expresin,
Los ejemplos de 4 se refieren a palabras relacionadas con clulas excepto el aceptor que es una sustancia, como lo muestra la definicin del Mosby.
sustancia o compuesto que se combina con una parte de otra sustancia o compuesto.
Los ejemplos de 5 son sustantivos que reflejan atributos como se observa refleja ms claramente el etiquetaje de segundo orden (Cause, Location, Manner, Physical, Property). Segn la documentacin de EWN66, la clase attribute se refiere a sustantivos que denotan cualidad de un objeto o entidad: EWN Static Situation which applies to a single concrete entity or abstract Situation; e.g. colour, speed, age, length, size, shape, weight. Es importante anotar que la clase act no es una de las ms frecuentes en la modificacin pero s en los ncleos, lo que demuestra el que estas nominalizaciones tiendan a ir en el ncleo y los estados (state, 11,33%) y adjetivos generales ([Link], 17%) en la modificacin, situacin similar se ha descrito en ingls.
66 Para mayor informacin sobre las categoras de EuroWordNet se puede consultar el sitio [Link]
291
En 7 se recogen los ejemplos de unidades lxicas (N, Adj y Adv) que no son trminos, pero que pueden ayudar en la identificacin de unidades terminolgicas o que adquieren carcter terminolgico dentro de un contexto o rea determinados y que pueden denominarse paratrminos.
7. activo, adulto, agudo, alto, anterior, baja, central, centro, corto, diferente, difuso, doble, dominante, dominio, especfico, factor, familiar, fino, fuerte, general, generalizado, horizontal, interno, masa, normal, regin, sensible, simple, sistema, zona.
Para mantener la consistencia con las categoras de WordNet 2.1, se emplearn las mismas clases que EWN emplea en su primer nivel pero de la cual no da una definicin. Sin embargo, debe ser igual a la de WordNet 2.1. Por el contrario, tiene clases ms subespecificadas de las cuales proporciona informacin. As, se agruparn todos los ejemplos pero en algunos casos se emplear la segunda etiqueta para indicar con ms precisin la clase semntica a la que pertenece la palabra. Por ejemplo, en el caso de crnico que aparece en el primer nivel como all y en el segundo como DiseaseOrSyndrome+. As, aunque en WordNet pueda considerarse un adjetivo general, en EWN hereda las caractersticas de enfermedad que en WordNet estn ligadas a la clase attribute. En la tabla 3, se presentan las clases semnticas de la modificacin en EuroWordNet. La clase semntica ms frecuente es body con un 24,88% de todas las ocurrencias, seguida por la clase [Link] con un 17% y luego la clase substance con un 14,04% del total de las ocurrencias y representan un 55,92% de toda la modificacin.
292
G. Quiroz
Clase semntica body [Link] substance state cell [Link] act process attribute person artifact cognition animal phenomenon time event group object communication location quantity not found
Frecuencia 101 69 57 46 41 16 15 10 8 7 6 6 4 4 4 2 2 2 1 1 1 3
Porcentaje 24,88 17 14,04 11,33 10,1 3,94 3,69 2,46 1,97 1,72 1,48 1,48 0,99 0,99 0,99 0,49 0,49 0,49 0,25 0,25 0,25 0,74
En 8, se pueden ver los ejemplos de la clase body que denotan partes del cuerpo o adjetivos denominales como allico, craneano, epitelial, etc. Igualmente, hay algunos ejemplos que no se refieren directamente a partes del cuerpo sino a rasgos o aspectos anatmicos como morfolgico, resistente, liso, sexual.
8. alelo, allico, articulacin, calloso, cerebro, columna, colgeno, corazn, coronario, craneano, cromosoma, cromosmico, cuello, cuerpo, cutneo, dorsolumbar, embrionario, epidrmico, epitelial, espinal, fetal, fibroblasto, gen, gnico, heptico, hipofisarias, hormona, humano, intestinal, intestino, intravascular, leucocito, liso, macrfago, mama, mano, morfolgico, muscular, mdula, msculo, nervios, nervioso, neural, periventricular, renal, resistentes, seminfero, sexual, supresor, tbulo, urinario, uterino, vertebral, vesicales, visual, va, sea.
293
Del mismo modo que en ingls se observa que algunos ejemplos de la clase body pertenecer directamente a la clase substance, como en los ejemplos de colgeno, hormona y alelo (allico) aunque esta clase aparece en ambos casos en el ltimo nivel de etiquetaje. Sin embargo, puede observarse que hay algunos ejemplos que pueden clasificarse dentro de la clase cell, como cromosoma, cromosmico, leucocito, macrfago, fibroblasto, gen y gnico. En 9, se ensean los ejemplos de la clase all que rene una serie de subclases en EWN (SubjectiveAssessmentAttribute, familyRelation, AnatomicalStructure, DiseaseOrSyndrome, equal, located, ShapeAttribute, Process, BiologicallyActiveSubstance, capability, forall, FrontFn, Horizontal, MultiplicationFn, Planning, PositionalAttribute, Radiating, RadiatingLight, RegulatoryProcess, SentientAgent, SoundAttribute). De estas subclases podemos distinguir SubjectiveAssessmentAttribute con 24 ocurrencias (agudo, alto, bajo, corto, delgado, diseminado, generalizado, largo, limitado, normal, primario, proteico, recurrente, simple, superficial), familyRelation con 9 ocurrencias (gentico, hereditario), AnatomicalStructure con 6 ocurrencias (dominante, recesivo), DiseaseOrSyndrome con 4 ocurrencias (crnico, degenerativo, retardado), equal con 4 ocurrencias (diferente, nico).
9. activo, agudo, alto, anterior, apical, bajo, central, consecutivo, corto, crnico, cclico, degenerativo, delgado, diferente, difuso, diseminado, distal, doble, dominante, falciforme, fino, fuerte, frtil, general, generalizado, gentico, hereditario, horizontal, interna, largo, limitado, normal, primario, programado, proteico, radiactivo, recesiva, recurrente, regulador, retardado, sensible, simple, superficial, nico.
En 10, pueden verse los ejemplos de la clase substance que muestra mucha consistencia y no es necesario recurrir a los otros niveles de etiquetaje para su descripcin.
294
G. Quiroz
10.
agarosa, aminocido, amoxicilina, bioqumico, bromuro, CFTR, cistina, distrofina, DNA, enzima, etidio, fenilalanina, ferritina, gel, gentamicina, GMP, guanosina, hidroxilasa, hidrgeno, hierro, metilmercurio, mezlocilina, miofosforilasa, mioglobina, molecular, nitrogenado, nucletido, ntrico, orina, PCR, prolactina, protena, purina, quimioquina, SHV-1, srico, txica, Vav, xido.
A diferencia del corpus del ingls no se observa un predominio en las clases substance y body si bien esta ltima es una de las tres ms frecuentes en ambos casos. Igualmente, cabe destacar tambin las categoras state con un 11,33%, cell con un 10,1% y pert con un 3,94%, como se puede en los ejemplos 11, 12 y 13.
11. acondroplasia, desnaturalizacin, inmunodeficiencia, pigmentario, adenomatoso, enfermedad, adipognico, fibrosis, autosmico, grado, mellitus, retinosis, botonosa, hepatitis, mieloide, riesgo,
fractura, libertad,
insulinodependiente, qustico,
potencial,
retinoblastoma,
Como puede observarse en los ejemplos, predomina la subclase DiseaseOrSyndrome con 27 ocurrencias (candidiasis, cncer, diabetes, fibrosis, insuficiencia, etc.), seguida muy de lejos por la clase attribute con 5 ocurrencias (grado). En general, denota enfermedades (hepatitis) o estados de enfermedades (riesgo, grado, potencial).
12. adipocito, autosoma, celular, codificante, clula, fijador, genoma, gramnegativo, grampositivo, intracelular, locus, minisatlite, mitocondrial, mutador, plsmido, portador, promotor, Rad51, supresor, vrico, YAC.
En 13, pueden verse los ejemplos de la clase cell, la cual presenta consistencia como clase semntica mientras que los ejemplos de 12 de la clase pert presentan una gama variada de adjetivos relacionales como lo reflejan las 295
subclases
las
que
pertenecen
(FieldOfStudy,
Number,
Organism,
Organization,
Planning,
ShapeAttribute,
SubjectiveAssessmentAttribute,
WaterArea, familyRelation).
13. biolgico, cilndrico, clnico, especfico, familiar, logstica, mediterrneo, numricas, transicional.
Es importante resaltar que no se le asign ninguna clase semntica en EuroWordNet a ms del 0,67% de los casos (6) y a 100 registros de 892 (11,2%) no se le encontr la clase semntica directamente pero se le asign con la ayuda de los diccionarios de referencia de medicina. As, el total de ocurrencias que no se encuentran en EuroWordNet se eleva a un 11,88%, lo que puede afectar el etiquetaje automtico substancialmente e incidir notablemente en los resultados si no se etiqueta manualmente. A estas unidades se les asign las clases de EuroWordNet pero sealando dichas unidades como not found como es el caso de poliposis a la que se le ha asignado finalmente la clase state pero que en la base de datos se ha marcado tambin como not [Link]. A diferencia del corpus del ingls, en espaol la mayora de unidades que no se encontraron no son siglas salvo los ejemplos de 14 y muchas de ellas se encuentran en un diccionario general de medicina como el Mosby (50 casos de 74), como algunos de los casos de 15.
14. 15. CFTR, GMP, PCR, Perls, cDNA, Rad51, SHV-1, Vav, YACS aceptor, agarosa, agenesia, alineamiento, amoxicilina, artrosis, autosoma, autosmica, betalactamasa, cepa, distrofina, dorsolumbar, ferritina, fetopata, fijador, genoma, gramnegativa, grampositiva, guanosina, inmunodeficiencia.
[Link] Clases semnticas de acuerdo con la posicin dentro de la modificacin Si se observan las clases semnticas de la modificacin de acuerdo con la posicin dentro del sintagma veremos que no existen diferencias importantes y que el principio de polaridad observado en ingls no es tan claro en espaol ya 296
G. Quiroz
que los [Link] son la segunda clase ms frecuente en todas las posiciones. Adems, las clases como attribute y state no presentan una frecuencia alta en las diferentes posiciones. As que las caractersticas menos estables o ms subjetivas tienden a ir ms alejadas de ncleo del sintagma en espaol como lo planteado en captulo anterior para el ingls. De entrada, la tabla 4 muestra que los datos en las primeras 5 clases y el orden varan muy poco. El predominio de estas clases semnticas se debe en principio al rea temtica y principalmente las clases body, susbtance, cell y, de cierto modo la clase state con la subclase de enfermedades.
Primera posicin body all substance state cell act process attribute cognition pert time artifact animal event group phenomenon communication location object person quantity not found
Porcentaje 22,5 16 12,5 12 9,5 5,5 4 3 2 2 2 1,5 1 1 1 1 0,5 0,5 0,5 0,5 0,5 1
Segunda posicin body all substance cell state pert person act artifact animal attribute cognition phenomenon process object not found
Porcentaje Tercera posicin Porcentaje 25,37 body 83,33 17,91 all 16,67 15,92 10,95 10,95 5,97 2,99 1,99 1,49 1 1 1 1 1 0,5 1
Sin embargo, si se suman los adjetivos generales etiquetados como [Link] en cada posicin ms los adjetivos relacionales [Link], se observa que el 297
promedio de adjetivos aumenta a medida que la modificacin se aleja del ncleo a la izquierda. Hay 56 palabras (de 200) en la primera posicin con adjetivos (28% de posibilidades de ser adjetivo), de los cuales 24 son [Link] y 32 [Link], como se ven en los ejemplos de 16.
16. activo, agudo, alto, anterior, bajo, biolgico, celular, clnico, consecutivo, coronario, corto, cutneo, degenerativo, diferente, distal, doble, embrionario, epitelial, fetal, fuerte, general, gentico, horizontal, interno, largo, molecular, morfolgico, muscular, nervioso, normal, numrico, primario, proteico, renal, resistente, sensible, txica, urinario, visual, sea.
Hay 88 palabras (de 200) en la segunda posicin con adjetivos (44% de posibilidades de ser adjetivo), de los cuales 46 son [Link] y 42 [Link], como se ilustra en los ejemplos de 17.
17. aguda, allico, bioqumico, calloso, celular, central, cilndrico, cromosmico, crnico, cclico, delgado, difuso, diseminado, dominante, epidrmico, especfico, falciforme, familiar, fino, frtil, generalizado, gentico, gnico, heptico, hereditario, humano, interna, intestinal, intracelular, limitado, liso, logstica, mediterrneo, nervioso, neural, ntrico, programado, radiactivo, recesivo, recurrente, retardado, sexual, simple, superficial, transicional, uterino, vertebral, vrico, seo, nico.
Hay 7 palabras (de 6 en total) en la tercera posicin con adjetivos (85% de posibilidades de ser adjetivo), de los cuales 5 son [Link] y 1 es [Link], como se ve en los ejemplos de 17.
17. epitelial, espinal, muscular, regulador, renal, seminfero.
As el promedio de adjetivos en cada posicin tiende a aumentar de izquierda a derecha, es decir, que a medida que el modificador se aleja del ncleo existen ms probabilidades de ser adjetivo. 298
G. Quiroz
[Link] Clases semnticas de acuerdo con la categora lxica Si se observan las clases semnticas de la modificacin de acuerdo con categora lxica (N, Adj y PP) puede observarse que hay algunas diferencias en las clases semnticas que predominan en cada categora no del modo tan notable como en ingls. En los sustantivos predomina la clase substance con un 21,67% mientras que en los adjetivos predomina la clase all con un 31,98% y en los participios la clase all con un 100%. Luego, sigue la clase body (20,69%) en los sustantivos y la clase body (29,95%) en los adjetivos.
Sustantivos substance body state cell act process attribute person artifact cognition animal phenomenon time event group object communication location quantity not found
Porcentaje 21,67 20,69 11,33 9,36 7,39 4,93 3,94 3,45 2,96 2,96 1,97 1,97 1,97 0,99 0,99 0,99 0,49 0,49 0,49 0,99
Porcentaje Participios Porcentaje 31,98 all 100 29,95 11,68 11,17 8,12 6,6 0,51
As, hay 44 registros de sustantivos con substance (21,67%), como se muestra en los ejemplos de 19.
299
19.
agarosa, aminocido, amoxicilina, anticuerpo, betalactamasa, bromuro, CFTR, cistina, cristal, distrofina, DNA, enzima, etidio, fenilalanina, ferritina, gel, gentamicina, GMP, guanosina, hidrgeno, hierro, lipoprotena, metilmercurio, mezlocilina, miofosforilasa, mioglobina, nucletido, orina, PCR, prolactina, protena, purina, quimioquina, SHV-1, sulfonilurea, Vav, xido.
Sin embargo, slo hay 13 palabras (6,6%) como adjetivos con la clase substance como se observa en 20. En cambio, hay 63 (31,98%) de adjetivos generales ([Link]).
20. bioqumico, hidroxilasa, molecular, nitrogenada, ntrico, srica, txica.
En la tabla 6, se presentan los patrones semnticos se han obtenido de EuroWordNet. Se presentan todos los que tienen +2 de frecuencia (40 patrones). Para una muestra de 200 sintagmas seleccionados existen 145 patrones diferentes con una media de 0,72, es decir, menos de un patrn por cada sintagma, lo que muestra una gran variabilidad y pocas posibilidades de generalizacin. De estos 145 patrones, hay 105 patrones de una sola ocurrencia. Por tanto, puede verse que existen muy pocas regularidades en los patrones semnticos salvo por los primeros casos. A continuacin, se presentan los patrones semnticos ms frecuentes con los patrones sintcticos que ellos representan.
300
G. Quiroz
Patrn semntico state body all cell body body state body body act substance body act substance substance attribute substance substance body cell state event process body state body person state cell all state substance substance act act all act process pert all attribute act animal all body artifact cell all artifact cell pert attribute substance body body all cell body body body body cell body cell body substance cell state state cognition state all event phenomenon state person state cell person state state process body all process state all process substance substance relation state body state act body state body pert state cell pert state cognition cell state state all state state pert substance animal cell time all state
Frecuencia 7 4 4 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Porcentaje 3,5 2 2 1,5 1,5 1,5 1,5 1,5 1,5 1,5 1,5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
301
El patrn semntico state body all es el ms frecuente con 7 ocurrencias y se correlaciona sintcticamente con el patrn N Adj Adj/PP67 en 5 ocurrencias y N Prep N Adj con 2 ocurrencias, como se ve en los ejemplos de 21.
21. candidiasis cutnea generalizada, atrofias musculares difusas, tumores vesicales superficiales, insuficiencia renal aguda, insuficiencia renal crnica; cncer de mama hereditario.
El patrn cell body body es tambin el ms frecuente con 4 ocurrencias y se correlaciona sintcticamente con el patrn N Prep N Adj en 3 ocurrencias, como se aprecia en los ejemplos de 22.
22. clulas de la mdula sea, clulas de msculo liso.
Luego continua el patrn state body body con 4 ocurrencias, y se correlaciona sintcticamente con el patrn N Prep N Adj en todas las ocurrencias, como se indica en los ejemplos de 23.
23. agenesia de cuerpo calloso, carcinoma de cuello uterino, enfermedades de la columna vertebral.
El patrn act substance body tiene 3 ocurrencias, 2 de ellas tiene como patrn sintctico N Prep N Adj, como se ve en los ejemplos de 24.
24. ndice de hierro heptico.
El patrn act substance substance tiene 3 ocurrencias y todas se correlacionan sintcticamente con el patrn N Prep N Prep N, como se ensea en los ejemplos de 25.
67 Aunque para los aspectos estadsticos se han separado las clases Adj y PP, es conveniente juntarlas para obtener ms regularidades. Cuando exista este caso, se indicar N Adj Adj/PP que debe interpretarse como dos patrones en realidad N Adj Adj y N Adj PP.
302
G. Quiroz
25.
secuencia de aminocidos de CFTR, secuencia de aminocidos de SHV-1, tincin con bromuro de etidio.
Finalmente, se destaca el patrn attribute substance substance con 3 ocurrencias que tiene el mismo patrn sintctico, N Prep N Adj, como se observa en los ejemplos de 26.
25. funciones de l xido ntrico, concentracin de ferritina srica, deficiencia de fenilalanina hidroxilasa.
Puede verse que a pesar de que existen pocas regularidades en los patrones semnticos, existen al interior de cada uno correlaciones con los patrones Adj/PP. sintcticos regulares y algunos patrones se perfilan como predominantes en el uso de estas estructuras semnticas: N Prep N Adj y N Adj
A pesar de las pocas regularidades que se encuentra en los patrones completos, se observan ms regularidades a nivel de la modificacin como se observa en la tabla 7. De los 79 patrones semnticos totales, 40 presentan una sola ocurrencia, 15 con dos ocurrencias, 11 con tres ocurrencias y 2 con cuatro ocurrencias. Adems, se encuentran patrones de 5 ocurrencias hasta 13 ocurrencias. Los patrones semnticos de la modificacin con ms de 5 ocurrencias: substance substance con el 6,5% (13 ocurrencias), body all con el 6% (12), body body con el 6% (12), all body con el 4,5% (9), state all con el 3,5% (7), state body con el 3,5% (7), substance body con el 3,5% (7) y body substance con el 3% (6). En total representan el 36,5% de toda la modificacin. Igualmente, todos los
303
patrones semnticos presentados en la tabla 7 representan el 80% de toda la modificacin. En el caso de substance substance est relacionado sintcticamente con los patrones N Prep N Adj con 6 ocurrencias, N Prep N Prep N con 5 ocurrencias y N Adj Prep N con 2 ocurrencias. Con el patrn body all, 9 casos pertenecen al patrn N Adj Adj/PP y 3 casos a N Prep N Adj. En el patrn body body hay 8 casos que pertenecen al patrn N Prep N Adj, 3 casos a N Adj Prep N y 1 caso a N Prep N Prep N. El patrn all body tiene 7 casos con el patrn N Adj Prep N, 1 con el patrn Adj N Prep N (una variacin del anterior) y 1 caso con N Adj Prep N Adj. El patrn state all est representado en su totalidad por el patrn N Adj Adj. El patrn state body tiene tres patrones: N Prep N Adj con 5 ocurrencias, N Adj Prep N y N Adj Adj con una, respectivamente. El patrn substance body tiene tambin dos patrones N Prep N Adj con 6 ocurrencias y N Adj Prep N con 1. Finalmente, el patrn body substance tiene los patrones N Adj Prep N con 4 ocurrencias y N Prep N Prep N con 2. De los anteriores datos, puede deducirse que los patrones ms comunes en la modificacin son parte de los patrones sintcticos ms frecuentes N Prep N Adj (28) y N Adj Prep N, (17), seguidos de N Prep N Prep N y N Adj Adj; todos ellos son los 4 ms frecuentes del corpus de anlisis en espaol y estn entre los 5 ms frecuentes del corpus lexicogrfico del espaol. Tal y como se coment en el captulo 6, puede afirmarse que estas tendencias son generales a este tipo de discurso especializado. Sin embargo, no es posible afirmar esto para otros tipos de discurso en el aspecto semntico ya que ste est muy ligado al rea temtica y lo ms probable es que estos patrones varen de rea en rea temtica. An as, puede aseverarse que existen estructuras semnticas que subyacen a ciertos tipos de sintagmas en cada rea temtica como se ha visto en este apartado. Obsrvese que los patrones N Prep N Adj, N Adj Prep N, N Prep N Prep N y N Adj Adj son los que estn presentes en las estructuras semnticas ms frecuentes y a su vez, son los cuatro patrones ms frecuentes tanto en el corpus de anlisis como en el corpus lexicogrfico. En este sentido, puede afirmarse 304
G. Quiroz
Patrn modificacin substance substance body all body body all body state all state body substance body body substance state state all state cell all cell body cell pert act all act body act substance all act all cell all substance body person body pert cognition cell process body time cell act cell all attribute all person all phenomenon animal cell attribute all body animal body state cell state phenomenon state process pert state cell state pert substance all substance state
Frecuencia 13 12 12 9 7 7 7 6 6 5 5 4 4 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Porcentaje 6,5 6 6 4,5 3,5 3,5 3,5 3 3 2,5 2,5 2 2 1,5 1,5 1,5 1,5 1,5 1,5 1,5 1,5 1,5 1,5 1,5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
305
A pesar de la frecuencia presentada por los patrones N Prep N Adj, N Adj Prep N, N Prep N Prep N y N Adj Adj en los patrones semnticos, es importante mostrar que estos patrones sintcticos tambin presentan otros patrones semnticos diferentes de los expuestos. El patrn N Prep N Adj presenta adems del patrn body body con 8 ocurrencias, el patrn substance body con 6 ocurrencias y el patrn substance substance con 6 ocurrencias tambin. Los patrones state body y state state tienen 5 ocurrencias y los patrones cell all y cell pert con 4 ocurrencias. Adems, este patrn sintctico presenta 4 patrones con 3 ocurrencias, 10 patrones con 2 ocurrencias y 16 con 1 sola ocurrencia. El patrn N Adj Prep N presenta adems del patrn all body con 14 ocurrencias, el patrn body substance con 8 ocurrencias. Los patrones all substance y body body tienen cada uno 6 ocurrencias. Los patrones all cell, all state, body animal, cell body, substance state y substance substance tienen 4 ocurrencias. Adems, este patrn sintctico presenta 15 patrones semnticos de 2 ocurrencias. El patrn N Prep N Prep N presenta adems del patrn substance substance con 5 ocurrencias y el patrn act substance con 3 ocurrencias. Adems, este patrn sintctico presenta 2 patrones semnticos de 2 ocurrencias y 13 de 1 ocurrencia. Finalmente, el patrn N Adj Adj presenta adems del patrn semntico body all con 9 ocurrencias, el patrn state all con 7 ocurrencias y el patrn state pert con 2 ocurrencias. El resto de patrones (6) son de una ocurrencia. En este sentido, el correspondiente patrn en ingls Adj Adj N tiene la misma variabilidad semntica.
306
G. Quiroz
7.5 Recapitulacin
En este captulo, se han presentado los resultados del anlisis semntico del corpus de anlisis en espaol en EuroWordNet. 1. Las clases semnticas ms frecuentes en el ncleo en EuroWordNet son state (21%), act (12%), body (11%), cell (7,5%) y attribute (7%). Estas cinco clases semnticas representan el 58,5% de todos los ncleos de la muestra. 2. Las clases semnticas ms frecuentes en la modificacin en EuroWordNet son body (24,88%), [Link] (17%), substance (14,04%), state (11,33%) y cell (10,1%). Estas cinco clases semnticas representan el 77,35% de toda la modificacin de la muestra. Un aspecto importante en la modificacin es que el promedio de adjetivos en cada posicin tiende a aumentar de izquierda a derecha, es decir, a medida que el modificador se aleja del ncleo existen ms probabilidades de ser adjetivo. 3. Los patrones ms frecuentes en EuroWordNet son state body all (3,5%), cell body body (2%), state body body (2%), act substance body (1,5%) y act substance substance (1,5%). Al igual que en ingls, estos patrones semnticos obtenidos a partir de EuroWordNet tan solo representan el 10,5% de la muestra de anlisis. 4. Puede verse que, al igual que en ingls, no es posible obtener muchas generalizaciones en cuanto a los patrones ya que cada patrn semntico no abarca a ms del 3,5% de todas las ocurrencias en el mejor de los casos. Sin embargo, los patrones ms frecuentes se correlacionan sintcticamente con dos de los patrones superficiales ms frecuentes tanto en el corpus de anlisis en espaol como en el lexicogrfico: N Prep N Adj y N Adj Adj/PP.
307
5. Al igual que en ingls, los resultados reflejan lo esperable en cuanto a las clases semnticas puesto que el rea temtica de este estudio, el genoma, tiene involucradas estas clases. Aunque su aporte puede trasladarse a otras disciplinas del lenguaje como se indic en 6.5. 6. Aun as, es importante sealar las limitaciones de EuroWordNet. En primer lugar, existe un 11,88% de palabras que no se encuentran en EuroWordNet. Esto puede o que puede afectar el etiquetaje automtico substancialmente e incidir notablemente en los resultados si no se etiqueta manualmente. Finalmente, debe tenerse en cuenta las inconsistencias en el etiquetaje de ambos sistemas que se han explicado para poder obtener ms regularidades en los resultados. 7. Si bien WordNet y EuroWordNet estn relacionadas y se han desarrollado de manera independiente, ambas tienen un silencio considerable en el etiquetaje de las muestras (7,4% vs. 11,88%). Igualmente, en ambos sistemas no se pueden obtener muchas regularidades en los patrones ya que en ambos casos el patrn ms frecuente no representa a ms del 3,5% de la muestra. En cuanto a las diferencias del etiquetaje en ingls y espaol en el caso de las inconsistencias en el etiquetaje, EuroWordNet no presenta este tipo de problemas ya que en algn punto del etiquetaje presenta la clase que soluciona la inconsistencia, como se explic en 7.4.2.
308
G. Quiroz
309
310
G. Quiroz
311 313 313 315 315 316 316 317 318 320 322 323 325 326 330 332 340
8.1. INTRODUCCIN 8.2. RECOLECCIN DEL CORPUS PARALELO Y EXTRACCIN DE LOS DATOS 8.3. RESULTADOS 8.3.1. Longitud y frecuencia de los sintagmas nominales [Link]. Distribucin de longitud entre sintagmas nominales [Link]. Distribucin segn el nmero de tokens 8.3.2. Categora lxica predominante en la premodificacin del corpus paralelo 8.3.3. Frecuencia de patrones en ingls 8.3.4. Frecuencia de patrones por longitud 8.3.5. Seleccin de la muestra 8.3.6. Clasificacin de soluciones de acuerdo con la dependencia sintctica 8.3.7. Resultados del corpus paralelo de acuerdo con el patrn en ingls 8.4. CORRELACIN ENTRE EL CORPUS PARALELO Y EL DICCIONARIO MOSBY
LA RAE
8.5. CORRELACIN ENTRE EL CORPUS PARALELO Y LOS CORPUS TCNIC DEL IULA Y CREA DE
8.6 ANLISIS DE LOS PATRONES EN INGLS Y LOS EQUIVALENTES EN ESPAOL 8.6. RECAPITULACIN
311
312
G. Quiroz
8.1. Introduccin
En los captulos anteriores, se han descrito cuantitativa y
cualitativamente los sintagmas nominales extensos especializados en ingls y espaol para dar cuenta del fenmeno en ambas lenguas. En este captulo, se pretende observar el comportamiento de estos en un corpus paralelo para retomar el segundo objetivo de esta tesis: demostrar que existen regularidades en tratamiento de los sintagmas nominales del ingls al espaol para propsitos de traduccin, principalmente. Pero, puede estar este tipo de sintagmas interferidos por la sintaxis del ingls? As, se pretende demostrar que las tendencias en la traduccin de este tipo de sintagmas no se deben a interferencias sintcticas del ingls. Para ello, se comparan los resultados del corpus paralelo con los encontrados en el diccionario Mosby de medicina y, despus las soluciones proporcionadas por los traductores en los textos y las encontradas en el diccionario Mosby se contrastaran con los patrones obtenidos en el Corpus Tcnic del Iula y la consulta hecha al CREA de la RAE. De este modo, se podr observar si la frecuencia de las soluciones en espaol es similar a la frecuencia de dichas estructuras en espaol y establecer si los traductores emplean intuitivamente estructuras del espaol.
y un corpus lexicogrfico en espaol. Uno de los diccionarios del corpus lexicogrfico, el diccionario Mosby de medicina, se emple para validar los patrones ms frecuentes en ingls y sus patrones equivalentes en espaol encontrados en el corpus paralelo. En cuanto al corpus CREA, se solicit una consulta a la RAE con los mismos patrones en espaol que se usaron en la primera extraccin de datos para el Corpus Tcnic del IULA. Dicha consulta se realiz sobre un corpus de 5.397 documentos y 143.440.437 tokens. Con el fin de estudiar la traduccin de la premodificacin del ingls al espaol, se recopil un corpus de 66.534 palabras de 21 textos ingleses. Todos los textos son artculos de investigacin que siguen la estructura Introduccin, Materiales y Mtodos, Resultados y Discusin (IMMRAD) de la revista mdica The Lancet como ya se explic en 3.1.4. Puesto que esta revista se tradujo ntegramente al espaol hasta 1999, todos los textos se seleccionaron de 1997 a 1998. Todos los sintagmas se extrajeron manualmente excepto aquellos con posesivo, ncleos coordinados con and y or. No se incluyeron clases lxicas cerradas en el sintagma excepto aquellas que forman parte de la premodificacin, segn se indica en los ejemplos 1 a 4.
1. 2. 3. 4. time-to-treatment subgroups on-going clinical trials quality-of-life analysis time-to-definitive-quality-of-life deterioration
Para el caso del espaol, se excluyeron los determinantes que aparecen al inicio del sintagma nominal y se dejaron las preposiciones y determinantes dentro del sintagma nominal. Sin embargo, se elimin el determinante con el fin de obtener los patrones y la longitud en espaol. En este sentido, no se tuvo en
314
G. Quiroz
cuenta la preposicin. Como se indica en 5, ambos sintagmas nominales tienen el mismo patrn, pero el segundo tiene el determinante (la).
5. bajo riesgo de ictus documentado posterior disminucin de la activacin inmunitaria Adj N Prep N Adj Adj N Prep N Adj
Se ha contado el nmero de tokens de cada sintagma nominal y se realizaron los clculos estadsticos bsicos (p. ej., longitud, frecuencia de patrones, seleccin de la muestra, etc.). Cuando fue necesario, se corrigi manualmente el etiquetaje morfosintctico.
8.3. Resultados
En ingls, se extrajeron 1.724 sintagmas (1.649 sintagmas sin repeticin) de la totalidad del corpus. Para los anlisis cuantitativos, se tendrn en cuenta los sintagmas que no estn repetidos.
Tal y como se afirm en la introduccin, la longitud de un sintagma es inversamente proporcional a su frecuencia. Por tanto, cuanto ms extensa sea la premodificacin, ms especializado e inestable puede ser el sintagma. Este hecho podra llevar a la estabilizacin y posible lexicalizacin de un sintagma, lo que confirmara la idea de que existe una relacin directa entre longitud, grado de especializacin y estabilizacin sintctica. La longitud de los sintagmas vara de 3 tokens (siendo uno el ncleo) hasta ocho (siendo uno el ncleo) segn lo indican los ejemplos 6 y 7.
6. orthotopic liver transplantation
315
7.
[Link]. Distribucin de longitud entre sintagmas nominales En el corpus, los sintagmas de 3 tokens son los ms frecuentes (1.064 ocurrencias correspondientes al 64,3%) segn se observa en la tabla 1. Por el contrario, los sintagmas de 7 o ms tokens son los menos frecuentes (13 ocurrencias que corresponden al 1,1%). [Link]. Distribucin segn el nmero de tokens Los 1.649 sintagmas estn distribuidos segn el nmero de tokens como se indica a continuacin.
Longitud 3 4 5 6 7 Total Ocurrencias 1.064 401 132 38 14 1.649 Porcentaje 64,3 24,3 8 2,3 1,1 100%
Estos resultados confirman las observaciones efectuadas en un estudio previo (Quiroz 2005) y Cartagena (1998) en la que la estabilizacin de sintagmas oscila entre tres y cuatro tokens. En el corpus de este estudio, corresponden al 88,6%. Si se comparan estos datos con los estudios presentados en 1.3, la longitud ms frecuente oscila entre tres y cuatro a pesar de los diferentes mtodos y corpus empleados. En este estudio solo el 11,4% de los sintagmas representan al resto de las ocurrencias. Sin embargo, al revisar los datos, puede observarse que la mayora de ellos tienden a ser trminos muy complejos. Aunque es posible encontrar menos sintagmas con palabras especializadas en sintagmas de 3 tokens. Desde el punto de vista terminolgico, esto es muy relevante puesto que la mayora de estos sintagmas extensos no 316
G. Quiroz
estn incluidos en diccionarios segn lo demuestra Burgos (2006: 350-353). Si se toma en cuenta el tiempo empleado por un traductor en las bsquedas terminolgicas reportado por Fhndrich (2005: 239) - un promedio de 40% del tiempo que toma la traduccin- esta clase de sintagma causara problemas importantes incluso para un traductor experimentado. A su vez, aquellos que son los ms difciles de resolver presentan ms variacin gramatical en los patrones superficiales segn se presenta en 3.3.
Como se coment antes, las gramticas inglesas ms importantes (Biber et al 1999: 589) y literatura de ingls propsitos especficos privilegian al adjetivo y no al sustantivo como la categora lxica ms comn en la premodificacin. No obstante, este estudio tambin confirma las observaciones hechas antes (Quiroz, 2005) en el sentido de que los sustantivos son ms frecuentes dentro de la premodificacin que los adjetivos (1.881 sustantivos premodificadores) en el discurso especializado. Esto podra explicarse por el hecho de que el discurso especializado usa la nominalizacin como estrategia discursiva para expresar impersonalizacin y objetividad. Puesto que los objetos, procesos y acciones se emplean para representar el conocimiento de un rea temtica, la premodificacin es una manera efectiva de acumular sustantivos y comprimir oraciones.
Categora Ocurrencias Porcentaje N (sin ncleos) 1.881 32,56 Adj 1.865 32,23 PP 210 3,63 Adv 98 1,69 PPi 40 0,69 Prep 31 0,54 Conj 11 0,19 V 2 0,03
317
Los patrones se pueden analizar segn su frecuencia en todos los sintagmas al igual que su distribucin en longitud. As los 157 patrones superficiales representan a 1.649 sintagmas, pero slo los primeros 20 patrones corresponden a la mayora de las ocurrencias (1.359 sintagmas nominales correspondientes al 82,43%).
Longitud 3 3 3 3 4 4 4 3 4 3 4 4 3 4 3 3 5 5 5 5 Patrn Adj N N Adj Adj N NNN N Adj N Adj N N N NNNN Adj Adj N N PP Adj N Adj Adj Adj N PP N N N Adj N N Adj N Adj N Adv Adj N N N Adj N N PP N Adv PP N Adj N N N N NNNNN Adj Adj N N N Ejemplo acute heart failure chronic active hepatitis agarose gel electrophoresis brain natriuretic peptide abnormal liver function tests dihydropyridine calcium channel blocker actual systolic blood pressure dislodged biliary stent global left ventricular dysfunction inactivated influenza vaccine insulin-dependent diabetes Mellitus epidural fibre optic device unexpectedly high response sodium intake dietary recall mite-induced rhinoconjunctivitis serologically proven influenza higher baseline CD4 lymphocyte counts Kaplan-Meier survival function estimates multiple single strand DNA breaks symptomatic left ventricular systolic Adj Adj Adj Adj N dysfunction Ocurrencias 359 271 196 74 70 59 55 46 38 30 26 24 21 19 16 13 11 11 10 10 % 21,77 16,43 11,89 4,49 4,24 3,58 3,34 2,79 2,3 1,82 1,58 1,46 1,27 1,15 0,97 0,79 0,67 0,67 0,61 0,61
Todos estos patrones presentan ms de 10 ocurrencias y su longitud oscila entre tres y cinco tokens. Hay muchos patrones de tres tokens que representan 1.026 ocurrencias, siete patrones con cuatro tokens que representan 291 ocurrencias, y cuatro patrones de cinco tokens que representan 42 ocurrencias. Los otros 137 patrones que representan solamente 290 ocurrencias (17,57%) demuestran una muy alta variabilidad sintctica, lo cual 318
G. Quiroz
no permite hacer mayores generalizaciones (casi 1 patrn por cada 3 sintagmas). Estos datos indican que la longitud est directamente relacionada con la estabilizacin de tales estructuras y que una variabilidad mayor est directamente relacionada con una mayor premodificacin ms extensa. En trminos generales, los patrones ms frecuentes son Adj N N, Adj Adj N, y N N N con 826 ocurrencias que corresponden al 50,09% de las ocurrencias, segn se presenta en la tabla 3.
Longitud 3 4 5 6 7 Total Patrones 21 43 53 27 13 157 Porcentaje 64,3 24,3 8 2,3 1,1 100% Ocurrencias 1.064 401 132 38 14 1.649
La distribucin de patrones por nmero de tokens de la tabla 4 sugiere que los patrones ms frecuentes son patrones de 3 tokens (media = 50,6 patrones) y los patrones menos frecuentes son los de 7 tokens (media = 0,9 patrones). Eso significa que la variabilidad de los patrones en los patrones menos extensos es baja comparada con la variabilidad tan alta que aparece en los ms extensos. Por tanto, se encontraran ms patrones de 6 7 tokens directamente relacionados con la cantidad de sintagmas nominales (casi un patrn por sintagma). Es importante decir que con el fin de corroborar esto, es necesario realizar procedimientos similares en corpus especializados ms grandes con textos del tipo IMMRAD como el que se estudia aqu. Por tanto, las estadsticas bsicas que se han discutido aqu deben leerse con cautela.
319
A continuacin se analizan los patrones ms comunes distribuidos por longitud y sus respectivos ejemplos68 en las tablas 5, 6, 7 y 8.
Patrn Adj Adj Adj Adj N N Adj N Adj N N N Adj N N N N N NNNNNN Ejemplo mean normal left ventricular ejection fraction best prevaccination early-morning PEF values chronic hepatitis C virus (HCV) infection Mean (SD) log plasma renin activity Ocurrencias 3 3 3 3
En la tabla 5, se listan los 4 patrones de 6 tokens. En ellos no hay uno que predomine totalmente. De hecho, todos tienen las mismas ocurrencias. En esta longitud, puede observarse a priori que los sintagmas tienden a ser formaciones libres. Sin embargo, en los diccionarios se pueden encontrar ejemplos lexicalizados de esta extensin y an ms extensos.
Patrn Adj Adj N N N Adj N N N N NNNNN Adj Adj Adj Adj N Adj Adj Adj N N Adj Adj N Adj N Adj N Adj N N Adj N N Adj N N Adj N N N Ejemplo multiple single-strand DNA breaks high baseline HCV RNA concentrations Kaplan-Meier survival function estimates symptomatic left ventricular systolic dysfunction acute lower respiratory tract infections simple large-scale clinical trial standard complement-dependent microcytotoxicity assay atypical liver kidney microsomal antibody Cox proportional hazards regression models Ocurrencias 10 10 10 10 8 6 6 5 5
En la tabla 6, se muestran los patrones ms frecuentes de 5 tokens. Al igual que con los patrones de 6 tokens, en los patrones de 5 tokens no existe un
68Estos
seleccionada en 8.3.5.
320
G. Quiroz
patrn o conjunto de patrones que predominen claramente. Sin embargo, los 5 primeros patrones presentan ya regularidades en la frecuencia si se tiene en cuenta que a mayor extensin menor frecuencia. Obsrvese que los ejemplos de algunos de estos patrones tienden a ser menos libres y presentan ms lexicalizacin a priori.
Patrn Adj N N N NNNN Adj Adj N N Adj Adj Adj N N Adj N N Adj N Adj N N N Adj N Ejemplo additional combination therapy group baseline HCV RNA concentration gastric parietal cell antibody global left ventricular dysfunction insulin-dependent diabetes Mellitus perinuclear antineutrophil cytoplasmic antibody liver kidney microsomal antibody Ocurrencias 70 57 54 37 25 24 19
En las tablas 7 y 8, se presentan los patrones ms frecuentes de 4 y 3 tokens, respectivamente. stos presentan unas frecuencias mucho ms altas e igualmente presentan a priori ms lexicalizacin.
Patrn Adj N N Adj Adj N NNN N Adj N PP Adj N PP N N Adv Adj N N PP N Adv PP N Ejemplo autoimmune graft dysfunction cardiogenic pulmonary oedema ACE inhibitor monotherapy brain natriuretic peptide computed axial tomography manipulated sodium intake clinically relevant improvement phosphate buffered solution persistently raised aminotransferases Ocurrencias 359 271 196 74 46 30 21 16 13
En este trabajo no se ha hecho ninguna prueba de lexicalizacin, pues para los propsitos de este trabajo se tienen en cuenta todos los tipos de sintagmas definidos en la metodologa. En primer lugar, porque el traductor debe traducirlos todos sean trminos o no, al igual que el aprendiz de lenguajes especializados debe interpretarlos para poderlos entender. En segundo lugar,
321
porque simplemente son un problema de traduccin y no necesariamente de terminologa. Segn se puede observar en las tablas presentadas antes, los patrones con tres o ms tokens corresponden no slo a la mayora de patrones sino tambin a los ms productivos. Esta seleccin de patrones y ejemplos podra ser relevante para traductores o en la enseanza de la traduccin para identificar los patrones ms comunes y dar una solucin o aprender a traducirlos. Tambin podran ser de utilidad para la identificacin y extraccin de terminologa o la traduccin automtica como se explic en explic en 4 y 5.
Se calcul una muestra de 320 sintagmas con un error del 5% con el fin de seleccionar los equivalentes al espaol y comparar las soluciones con los patrones en ingls seleccionados anteriormente. Los 320 sintagmas se distribuyeron proporcionalmente segn la longitud y, a la vez, los patrones ms representativos en cada longitud, segn se muestra en la tabla 9.
Longitud 3 4 5 6 7 Total Muestra 205 77 26 10 14 332 Ocurrencias 1.064 401 132 38 14 1.649 Porcentaje 64,3 24,3 8 2,3 1,1 100% Patrones 21 43 53 27 13 157
Los patrones seleccionados son los que se presentan en las tablas 5 a 8 segn su frecuencia dentro de la misma longitud. Ya que haba pocos ejemplos de 7 ms sintagmas, se tomaron ms ejemplos con el fin de observar las soluciones.
322
G. Quiroz
A cada patrn se le asign su respectiva traduccin al espaol (en algunos casos hasta tres traducciones) y los patrones superficiales en espaol (etiquetaje).
En la tabla 10, se presenta una clasificacin de las soluciones de acuerdo con la dependencia sintctica en ingls y sus correspondientes en espaol.
Longitud 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
Patrn ENG Adj Adj N Adj Adj N Adj Adj N Adj Adj N Adj Adj N Adj Adj N Adj N N Adj N N Adj N N Adj N N Adj N N Adj N N Adj N N Adj N N Adj N N Adj N N Adj N N Adv Adj N Adv Adj N Adv PP N Adv PP N N Adj N N Adj N N Adj N N Adj N N Adj N NNN NNN NNN NNN NNN NNN
Dependencia ENG [C [B A]] [C [B A]] [C [B A]] [C [B A]] [C [B A]] [C [B A]] [[C B] A] [C [B A]] [C [B A]] [C [B A]] [C [B A]] [C [B A]] [[C B] A] [C [B A]] [[C B] A] [[C B] A] [C [B A]] [[C B] A] [[C B] A] [[C B] A] [[C B] A] [C [B A]] [C [B A]] [C [B A]] [C [B A]] [C [B A]] [[C B] A] [[C B] A] [[C B] A] [C [B A]] [C [B A]] [[C B] A]
Patrn ESP N Adj Adj N Adj Adj Adj N Adj N Adj Adj N Adj Adj Adj N Prep N Adj N Prep N Adj N Prep N Adj N Adj Adj N Adj Prep N N Adj N N Adj N Adj Adj Adj N Prep N N Adj Adj N Prep N Prep N N Prep N Prep N N Adv Adj N Adj Adj N Adj Adv N Adv PP N Adj Adj N Prep N Adj N Prep N Prep N N Adj Adj N Adj Prep N N Prep N Adj N Prep N Prep N N Prep N N N Adj Prep N N Prep N Adj N Prep N
Dependencia ESP [[A B] C] Ambiguo [[A B] C] [A [B C]] [[[A B] C] D] [A [B C]] [A [B C]] [A [B C]] [[A B] C] [[A B] C] [A B] [[A B] C] Ambiguo [[A B] C] [[A B] C] Ambiguo [[A B] C] [A [B C]] Ambiguo [A [B C]] [A [B C]] [[A B] C] [A [B C]] [A [B C]] Ambiguo [[A B] C] [A [B C]] [A [B C]] [A [B C]] [[A B] C] [A [B C]] [[A B] C]
Frec. 38 3 2 2 2 2 15 12 9 9 5 5 2 2 1 1 1 2 1 2 2 5 2 2 1 1 7 7 4 4 4 1
Porc. 18,2 1,44 0,96 0,96 0,96 0,96 7,18 5,74 4,31 4,31 2,39 2,39 0,96 0,96 0,48 0,48 0,48 0,96 0,48 0,96 0,96 2,39 0,96 0,96 0,48 0,48 3,35 3,35 1,91 1,91 1,91 0,48
323
3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5
NNN NNN N PP N N PP N PP Adj N PP Adj N PP N N PP N N Adj Adj Adj N Adj Adj Adj N Adj Adj N N Adj Adj N N Adj N Adj N Adj N Adj N Adj N Adj N Adj N N N Adj N N N Adj N N N Adj N N N Adj N N N Adj N N N Adj N N N Adj N N N N Adj N N N Adj N N NNNN NNNN NNNN NNNN Adj Adj Adj Adj N
[C [B A]] [C [B A]] [C [B A]] [[C B] A] [C [B A]] [C [B A]] [C [B A]] [C [B A]] [D [C [B A]]] [D [C [B A]]] [[D [C B]] A] [D [C [B A]]] [[D C] [B A]] [[D C] [B A]] [D [C [B A]]] [[D C] [B A]] [D [C B] A]] [D [C B] A]] [D [C [B A]]] [[D C] [B A]] [D [C B] A]] [[[D C] B] A]] [D [C [B A]]] [D [C B] A]] [[[D C] B] A]] [D [C B] A]] [[C B] A] [D [C B] A]] [[[D C] B] A]] [E [[D C] [B A]]]
N Prep N N Prep N Prep N N PP Prep N N Adj Prep N N Adj Adj N Adj Adj N Adj Prep N N Prep N PP N Adj Adj Adj N Adj Adj Adj N Prep N Adj Adj N Prep N Adj Adj N Adj Adj Adj N Adj Prep Adj N N Adj Adj Adj N Prep N Prep N Adj N Adj Prep N N N Adj Prep N Prep N N Adj Adj Prep N N Prep N Prep N Adj N Prep N Prep N Adj N Adj Prep N Prep N N Adj Prep N Prep N N Prep N Adj Prep N N Prep N Adj Prep N N Adj Prep N N N Adj Prep N N N Prep N Adj N Prep N Adj N Adj Adj Adj Adj
[[A B] C] [A [B C]] [A [B C]] [[A B] C] [[A B] C] Ambiguo [[A B] C] [[A B] C] [A [B C D]] [A [B C D]] [A [[B C] D]] [A [[B C] D]] [[[A B] C] D] [[A B] [C D]] [[[A B] C] D] [[A B] [C D]] [[A B] [C D]] [[A B] [C D]] [[[A B] C] D] [[[A [B [C D]]] [[A B] [C D]] [[A B] [C D]] [[A B] [C D]] [A [[B C] D]] [A [[B C] D]] [[A B] [C D]] [[A B] [C D]] [A [B C]] [A [B C]] [A [B C D E]]
1 1 2 1 5 1 2 2 2 2 2 1 2 2 2 2 2 2 2 1 1 1 1 2 1 4 1 1 1 3
0,48 0,48 0,96 0,48 2,39 0,48 0,96 0,96 0,96 0,96 0,96 0,48 0,96 0,96 0,96 0,96 0,96 0,96 0,96 0,48 0,48 0,48 0,48 0,96 0,48 1,91 0,48 0,48 0,48 1,44
Puede inferirse que entre ms extenso sea el sintagma, ms posibilidades de traduccin tiene en espaol. As, los patrones de 3 tokens tienen, en su mayora, una sola solucin y, en cambio, los patrones de 4 y 5 tokens tienen ms de una solucin. En general, puede decirse que la solucin ms comn para los sintagmas de 3 tokens para la dependencia [C [B A]] son [[A B] C] con 86 ocurrencias y [A [B C]] con 27 ocurrencias y para la dependencia [[C B] A] es [A [B C]] con 39 ocurrencias. Para los sintagmas de 4 tokens existen varias dependencias en ingls (6 dependencias) y, por tanto, las posibilidades aumentan en espaol (6 dependencias). La dependencia en ingls que presenta ms regularidad es [[D 324
G. Quiroz
C] [B A]] con la dependencia en espaol [[A B] [C D]] con 4 ocurrencias y para la dependencia en ingls [D [C [B A]]] con [[[A B] C] D] y [A [B C D]] ambas con 4 ocurrencias, respectivamente. Para la dependencia [D [C B] A]] en ingls, la dependencia ms regular en espaol es [[A B] [C D]] con 9 ocurrencias. El nico patrn de 5 ocurrencias tiene la misma dependencia en ambas lenguas. Salvo en algunos casos, puede observarse que no hay interpretaciones lineales del sintagma como lo han planteado muchos autores en traduccin (ver 2.5). En primer lugar, las dependencias en ingls no son lineales y, por ende, en espaol pueden existir variaciones en la interpretacin por parte del traductor. En segundo lugar, tampoco existen dependencias lineales en espaol ya que un mismo patrn puede tener dos interpretaciones si el tipo de adjetivo es relacional o calificativo como se ha visto en 5.3.5.
En la tabla 11, se presentan los resultados de la comparacin de los patrones en ingls y los patrones encontrados en espaol. De los 20 patrones ms frecuentes, 13 presentan alguna regularidad en espaol. Obsrvese que no existen regularidades en espaol para patrones de 6 o ms tokens. De estos 13 patrones, slo un patrn de 5 tokens tiene un patrn comn en espaol, 6 patrones de 4 tokens y 6 patrones de 3 tokens tienen uno o ms patrones comunes en espaol. No puede decir que las regularidades en los patrones del ingls al espaol este ligada a la extensin ya que los datos actuales no permiten establecer este hecho. No obstante, si se tiene en cuenta que la variabilidad sintctica aumenta de acuerdo con la extensin es muy probable que las regularidades disminuyan con la extensin.
325
Longitud 5 4 4 4 4 4 4 3 3 3 3 3 3
Patrn ENG Adj Adj Adj Adj N Adj Adj Adj N Adj Adj N N Adj N Adj N Adj N N N N Adj N N NNNN Adj Adj N Adj N N Adv Adj N Adv PP N N Adj N NNN
Patrn ESP N Adj Adj Adj Adj N Adj Adj Adj N Prep N Adj Adj N Adj Adj Adj N Prep N Prep N Adj N Prep N Adj Prep N N Adj Prep N N N Adj Adj N Prep N Adj N Adv Adj N Adj Adv N Adj Adj N Prep N Adj
% 100 100 100 66,7 33,3 100 71,4 87,8 43,5 100 50 50 37,9
Patrn ESP
Patrn ESP
N Adj Prep Adj N 33,3 N Adj Prep N Prep N 33,3 N Adj Prep N N 16,7 N Prep N Adj Adj N Adj N Adj Adj N Adv PP N Adj Prep N N Prep N Prep N 28,6 4,08 N Prep N Adj 19,4 N Adj Prep N 50 16,7 N Prep N Adj 27,6 N Adj Prep N
4,08 14,5
16,7 13,8
Tabla 11: Patrn en ingls con los diferentes patrones encontrados en espaol.
Ms de la mitad de los patrones (7) en ingls tienen un nico patrn en espaol y 5 patrones tienen una solucin que predomina sobre las otras y 5 patrones que tienen 3 soluciones en espaol. Tan slo 3 patrones tienen varios patrones en espaol en los que ninguno de ellos representa el 50% de las ocurrencias. An as, siempre hay un patrn que predomina entre ellos. As, se muestra que existen regularidades en los datos del corpus de anlisis al menos para los patrones ms frecuentes del corpus. A continuacin, se contrastan estos datos con el diccionario Mosby y, luego con el CREA de la RAE para observar si existen interferencias en las propuestas obtenidas de los traductores.
G. Quiroz
Para ello, se tomaron los 13 patrones ms frecuentes del corpus de referencia de acuerdo con la longitud (de 3 a 5 tokens) y los patrones equivalentes en espaol ms frecuentes y se contrastaron contra los datos del diccionario. En la tabla 12 se presentan los patrones analizados del corpus paralelo con los primeros patrones en espaol tanto del corpus paralelo como del diccionario Mosby. Puede observarse que los patrones ms frecuentes en espaol en el corpus paralelo son igualmente los ms frecuentes en el diccionario Mosby excepto las soluciones obtenidas para el patrn N N N N. Cuando existe un patrn en espaol como segunda variante de un patrn en ingls, dicha variante tambin aparece en el diccionario Mosby como segunda variante. Aunque no se presentan en la tabla 12, en el diccionario Mosby existen algunas variantes de baja frecuencia en muchos casos que no existen en el corpus paralelo. Esto puede deberse al tamao del corpus paralelo que no permite obtener ms datos en este sentido. El patrn N N N N es el nico en ingls que no concuerda con ningn patrn en espaol tanto para el corpus paralelo como para el diccionario Mosby. Los patrones Adj N Adj N, N Adj N y N N N tienen las mismas soluciones tanto en el corpus paralelo como en el diccionario Mosby, pero varan en el orden ya que la solucin ms frecuente en el corpus paralelo es la segunda del diccionario Mosby y, la segunda solucin encontrada en el corpus paralelo es la ms frecuente en el diccionario Mosby. De acuerdo con los datos presentados puede verse que las soluciones dadas por los traductores no estn necesariamente interferidas sintcticamente. De hecho, solo un patrn no presenta ninguna regularidad, como ya se indic y 327
esto se debe, en parte, a que la estructura de este patrn, N N N N, presenta mltiples dependencias en ingls: [[N N] [N N]]], [[N N] [N [N]]]], [N [N [N N]]] y [N [[N N] N]]] ya que no hay elementos conectores que permitan explicitar las relaciones entre los diferentes elementos. As, las posibilidades en espaol u otra lengua romance son muy variadas aunque esencialmente la explicitacin de relacin en espaol hace que los complementos sean de tipo preposicional, como se aprecia en los patrones de la tabla 13.
Corpus ENG Adj Adj Adj N Adj Adj N N Adj N Adj N Adj N N N N Adj N N NNNN Adj Adj N Adj N N Adv Adj N Adv PP N N Adj N NNN
Mosby ESP N Adj Adj Adj N Prep N Adj Adj N Adj Prep N Adj N Prep N Prep N Adj N Prep N Adj Prep N N Prep N Prep N Prep N N Adj Adj N Prep N Adj N Adv Adj N Adj Prep N N Prep N Prep N
Mosby ESP N Adj N Adj N Adj Adj Adj N Adj Adj Adj N Prep N Adj Adj N Adj Adj Adj N Prep N Prep N N Adj N Adj Adj N Adv PP N Adj Adj N Prep N Adj
Patrn ESP N Adj Adj Adj Adj N Adj Adj Adj N Prep N Adj Adj N Adj Adj Adj N Prep N Prep N Adj N Prep N Adj Prep N N Adj Prep N N N Adj Adj N Prep N Adj N Adv Adj N Adj Adv N Adj Adj N Prep N Adj
% 100 100 100 66,7 33,3 100 71,4 87,8 43,5 100 50 50 37,9
Patrn ESP
N Adj Prep Adj N N Adj Prep N Prep N N Prep N Adj Adj N Adj N Adj Adj N Adv PP N Adj Prep N N Prep N Prep N
Aunque las tendencias en las soluciones son claras, es importante tener en cuenta que los porcentajes de estos patrones pueden variar mucho ya que mientras una solucin representa el total de las ocurrencias en el corpus paralelo, en el diccionario Mosby pueden slo representar a un tercio de las soluciones. En principio, esta variacin se debe al tamao del corpus paralelo que no permite obtener ms datos como ya se ha comentado. Sin embargo, si se comparan los patrones ms frecuentes del corpus en ingls como es el caso de Adj Adj N, se ver que la diferencia no es enorme entre las soluciones del corpus paralelo y el diccionario Mosby (87,8 vs. 72,3). As, pues, las propuestas de otros autores sobre la solucin de sintagmas nominales complejos del ingls al espaol (Lpez y Minett 1997; Linder 2002 y Vivanco 1994) que se han presentado en 2.5 no dejan de ser propuestas muy 328
G. Quiroz
intuitivas a un problema que el traductor debe encarar a diario. Dichas propuestas no aportan ms que confusin y ambigedad en la interpretacin y traduccin de este tipo de sintagmas. Como se ha visto en este captulo, existen regularidades no slo en la frecuencia en el corpus paralelo en espaol sino en el diccionario Mosby. As, pues, si un traductor quiere traducir algunas de las estructuras presentadas en este trabajo, que por su frecuencia son las que potencialmente tendr que enfrentar en un trabajo diario, puede optar por observar las estructuras que aqu se proponen para solucionar este tipo de sintagmas. De igual modo, cuando tenga ms de una posibilidad en espaol, los porcentajes encontrados le ayudarn a decidir cual estructura es la ms prototpica para determinado patrn en ingls. Si al consultar un diccionario encuentra igualmente ms de una solucin que est determinada por una variacin sintctica, los datos de esta tesis le sern de suma ayuda a la hora de seleccionar uno de los equivalentes. Asimismo, los datos de esta tesis pueden ser muy tiles al traductor, si despus de agotar todas sus fuentes de consultar, no encuentra los equivalentes de un sintagma en ingls y necesita crear el trmino por completo o resolver el sintagma, pues a partir del anlisis del patrn en ingls y de comparar las posibilidades que aqu se proponen puede construir un equivalente adecuado en espaol. Del mismo modo, desde un punto de la enseanza de la traduccin, los datos de este captulo son an ms relevantes si se tiene en cuenta que este tipo de sintagmas es una de las dificultades aadidas que debe enfrentar el estudiante de traduccin y, que como se ha expuesto al comienzo de esta tesis, el profesor de traduccin cientfico-tcnica no tiene ms elementos didcticos que su experiencia como traductor, si la tiene. As el profesor de traduccin del ingls al espaol, que trata aspectos microlingsticos de los textos cientficotcnicos, puede ensear las estructuras ms frecuentes que existen en ingls para este tipo de discurso, sus aspectos morfosintcticos y semnticos, las estructuras ms prototpicas para cada patrn en ingls y como estas 329
estructuras estn representadas en los diccionarios. As el traductor o aprendiz de traductor tendr ms elementos de juicio para resolver este tipo de sintagmas que simplemente la intuicin y las instrucciones presentadas por otros autores que no llevan a cabo constataciones de los datos.
8.5. Correlacin entre el corpus paralelo y los corpus Tcnic del Iula y CREA de la RAE
Para contrastar las similitudes vistas entre las soluciones del corpus paralelo y las encontradas en el diccionario Mosby, se han comparado los patrones encontrados en las soluciones con los datos analizados en los corpus de Tcnic del Iula y el corpus CREA de la Real Academia Espaola. Este contraste permitir, por un lado, observar si la resolucin de sintagmas del ingls al espaol presenta interferencias morfosintcticas, es decir, los patrones empleados son piezas poco regulares en espaol y, por ende, no se justifica su alta frecuencia en las soluciones presentadas en el corpus paralelo y, por otro lado, permitir ver si los patrones de los sintagmas del diccionario Mosby siguen la intuicin del hablante o igualmente estn interferidos. No son pocos los manuales de traduccin y publicaciones que critican duramente las interferencias lingsticas del traductor (Vzquez-Ayora 1977; Garca Yebra 1997; Lpez y Minett 1997; Scarpa 2001; entre otros) que se ven reflejadas en calcos y anglicismos de todo tipo, en especial, lxicos y sintcticos. As que las estructuras presentadas en el tem anterior, y al igual que las soluciones encontradas en el diccionario, podran tildarse de ser estructuras fruto de un calco sintctico o estar interferidas lingsticamente. Por eso, el uso de un corpus de contraste de lengua general, permitir observar si dichas estructuras son posibles o no en espaol y si su frecuencia es igualmente alta.
330
G. Quiroz
Los datos de la tabla 13 listan los 20 patrones ms frecuentes en los tres corpus analizados. Los datos de los patrones que se han contrastado del diccionario Mosby se presentan en la tabla 12. Aunque solo se muestran los 20 primeros patrones de cada corpus, puede decirse que los patrones que sirven de soluciones en el corpus paralelo se encuentran todos en el corpus tcnico aunque no con la misma frecuencia. De igual modo sucede con el corpus CREA de la RAE. En este caso, hay 4 patrones que no aparecen ya que no se incluyeron en el inventario de patrones para la consulta hecha a la RAE (N Prep N N, N Adj Adj Adj Adj, N Adj Adj Prep N y Adj N Adj) y, por tanto, no se puede decir que no sean estructuras propias del espaol. Los otros patrones se encuentran entre los 20 ms frecuentes del CREA salvo los patrones N Adj Adj Adj y N Adj Prep N N que estn situados de 33 y 23, respectivamente.
TokensPatrn corpus Porc. TokensPatrn Dic. Porc. TokensPatrn Crea Porc. 3 N Prep N Adj 31,66 3 N Prep N Adj 15,17 3 N Adj Prep N 17,4 3 N Adj Prep N 16,13 3 N Adj Adj 10,643 N Prep N Adj 14,4 3 N Prep N Prep N 10,683 N Prep N Prep N 10,37 3 N Prep N Prep N 13,3 3 N Adj Adj 6,73 3 N Prep N N 7,76 3 N Prep N PP 10,4 3 N Adj PP 4,88 3 N Adj Prep N 7,67 3 Adj N Prep N 6,97 4 N Adj Prep N Adj 3,68 4 N Prep N Prep N Adj 3,76 3 N Adj Adj 5 4 N Prep N Adj Prep N 3,31 3 N N Adj 3,28 4 N Prep Adj N 3,9 3 Adj N Prep N 2,76 4 N Adj Prep N Adj 3,09 4 N Adj Prep N Adj 3,56 4 N Adj Prep N Prep N 2,67 3 NNN 2,67 3 N Prep N Adj Prep N 2,97 3 N Prep Adj N 1,84 4 N Adj Prep N Prep N 2,54 4 N Adj N 2,23 3 N PP Prep N 1,29 4 N Prep N Prep N Prep N2,54 3 N Adj Prep N Prep N 2,22 4 N Prep N Prep N Prep N 1,11 4 N Prep N Adj Prep N 1,66 3 N Adj PP 1,95 4 N Prep N Prep N Adj 1,01 4 N Prep N Adj Adj 1,51 4 N N Prep N 1,95 3 N Prep N PP 0,93 3 N N Prep N 1,37 3 N Prep N Prep N Prep N1,54 4 N Prep N Adj Adj 0,83 3 N Adj N 1,21 4 NNN 1,48 4 N Adj PP Prep N 0,74 3 N Prep Adj N 1,15 4 N N Adj 1,42 3 N N Adj 0,74 3 N Adv Adj 1 3 N Prep N Prep N Adj 1,23 5 N Adj Prep N Prep N Adj0,64 4 N Prep N Adv Adj 0,74 4 N Adj Prep Adj N 1 3 N Adv Adj 0,65 4 N Adj Adj Adj 0,73 4 N Adv Adj 0,94 3 N Adj N 0,55 4 N Prep N Prep Adj N 0,57 3 N Adj PP Prep N 0,76
Tabla 13: Comparacin de los primeros 20 patrones en espaol del corpus de referencia, el corpus paralelo y el corpus CREA.
331
Si se tienen en cuenta solo los patrones ms frecuentes del corpus paralelo, puede observarse que igualmente son las cuatro estructuras ms frecuentes del CREA. As puede afirmarse que las estructuras empleadas por los traductores y en el diccionario Mosby son estructuras que no son fruto de interferencias lingsticas y, por tanto, son perfectamente propias de espaol, y por extensin, del discurso especializado. En este sentido, no puede hablarse de calco de estructuras sintagmticas del ingls al espaol s, como sucede con el patrn Adj Adj N, un traductor emplea la estructura en espaol N Adj Adj que es el cuarto y sexto patrn ms frecuente en el corpus de anlisis y el CREA, respectivamente. Es importante tener en consideracin que no se han evaluado las traducciones ni los sintagmas nominales en cuanto a su correccin. Es posible que algunos de ellos estn errados o que haya mejores soluciones para un sintagma nominal. Sin embargo, puesto que las traducciones de la revista fueron realizadas por expertos o traductores profesionales y fueron sometidas a correccin de pruebas, asumimos que eran correctas. Lo que se quera verificar en este estudio es que ciertamente hay tendencias en la traduccin de la premodificacin compleja del ingls al espaol segn lo hemos indicado. Este es un primer paso para buscar ms regularidades, lo cual es muy relevante para los traductores y la formacin de traductores, ya que no podemos confiar nicamente en la intuicin del traductor.
8.6
Anlisis
de
los
patrones
en
ingls
los
equivalentes en espaol
Como se ha podido observar los patrones que se han encontrado en espaol para uno en ingls no estn interferidos segn se constata de la comparacin de los datos del corpus paralelo con los del corpus de anlisis extrado del Corpus Tcnic del IULA, el diccionario Mosby y el CREA de la RAE.
332
G. Quiroz
A continuacin, se presentan los patrones seleccionados en ingls y las soluciones de traduccin al espaol ms regulares del corpus paralelo. Hay 13 patrones en ingls de 20 seleccionados como muestra que tienen soluciones regulares en espaol y se pueden dividir segn su longitud, como se indica a continuacin. La dependencia ms frecuente en ambas lenguas se presenta dentro del patrn, de modo que sirve como forma de solucin para ese patrn. No todos los sintagmas de seis y siete tokens tienen una solucin en espaol en patrones superficiales. Este hecho indica una alta variabilidad gramatical no slo en ingls sino tambin en espaol. Slo hubo una solucin regular en los sintagmas de 5 tokens. El patrn [Adj [Adj [Adj [Adj N]]]] tiene la misma solucin en espaol (100%), [[[[N Adj] Adj] Adj] Adj]. Esto corresponde a una solucin tpica de derecha a izquierda, segn se ilustra en 8.
8. symptomatic left ventricular systolic dysfunction [Adj [Adj [Adj [Adj N]]]]
disfuncin sistlica ventricular izquierda sintomtica [[[[N Adj] Adj] Adj] Adj]
Los otros patrones no presentaron ninguna regularidad al menos en trminos de patrones superficiales. Los patrones en ingls con una longitud de 4 tokens presentan varias soluciones. Los patrones Adj Adj Adj N y Adj Adj N N tienen las mismas soluciones en espaol N Adj Adj Adj (100%) y N Prep N Adj Adj (100%), respectivamente, como se ejemplifica en 9 y 10.
9. postoperative endoscopic retrograde cholangiography colangiografa retrgrada endoscpica postoperatoria 10. central nervous system metastases [Adj [Adj [Adj N]]] [[[N Adj] Adj] Adj]
333
El patrn Adj N Adj N tiene dos soluciones N Adj Adj Adj con 4 ocurrencias (66,66%) y el patrn N Adj Prep Adj N con dos ocurrencias (33,33%), como puede observarse en los ejemplos 11, 12 y 13.
11. large-scale clinical trial ensayo clnico a gran escala 12. laparoscopic antegrade biliary stenting endoprtesis biliar antergrada laparoscopica 13. high baseline viral load cargas virales bsales elevadas [[Adj N] [Adj N]] [[N Adj]] [[Prep Adj N] [[Adj N] [Adj N]] [[[N Adj] Adj] Adj] [[Adj N] [Adj N]] [[[N Adj] Adj] Adj]
El patrn Adj N N N tiene cuatro soluciones diferentes en espaol, como se indica en los ejemplos 14 a 17. Los patrones N Prep N Prep N Adj y N Adj Prep N Prep N tienen 4 ocurrencias cada uno (33,3%, respectivamente). Los patrones N Adj Prep N N y N Adj Adj Prep N tienen cada uno 2 ocurrencias (16,7%).
14. global health status scale escala del estado de salud global 15. systematic hypertension control programme [[Adj N] [N N]] [[N Prep [[N Prep N] Adj]]] [[Adj N] [N N]]
programa sistemtico de control de la hipertensin [[N Adj] [Prep N Prep N]] 16. quantitative HCV RNA analysis anlisis cuantitativos de ARN VHC 17. stepwise Cox multivariate anlisis anlisis multivariable gradual de Cox [Adj [N N] N]] [[N Adj] [Prep N N]] [Adj [N [N N]]] [[[N Adj] Adj] Prep N]
334
G. Quiroz
El patrn N Adj N N con tres ocurrencias slo tiene una solucin (100%), como se ilustra en 18.
18. Cox multiple regression analysis anlisis de regresin mltiple de Cox [N [Adj N] N]] [[N [[Prep N Adj] Prep N]
El patrn N N N N con 7 ocurrencias tiene dos soluciones: N Adj Prep N N con 7 ocurrencias (71,42%) y N Prep N Adj con 2 ocurrencias (28,57%), como se muestra en 19 y 20.
19. baseline HCV RNA concentration concentracin basal de ARN VHC 20. calcium channel blocker nimodipine antagonista del calcio nimodipino [N [N N] N]] [[N Adj] [Prep N N]] [[[N N] N] N]] [N Prep [N Adj]]
Con el patrn ms productivo, Adj Adj N, 43 sintagmas (87,75%) de 49 ocurrencias se resolvieron con el mismo patrn en espaol (N Adj Adj), mientras que los otros seis sintagmas tienen tres soluciones diferentes. Esto sugiere una regularidad muy alta en este patrn. Este tipo de solucin, en la cual el adjetivo relacional acompaa al ncleo en forma de compuesto sintagmtico, ha sido analizado por otros autores (Crisma 1990; Zamparelli 1993)69, quienes plantean que este tipo de estructura en lenguas romances con adjetivos relacionales se asemeja mucho al ingls. No obstante, las otras soluciones pueden ser muy tiles en los casos en los que en espaol se prefiere un sustantivo en vez de un adjetivo. Parece que en espaol, en el caso de un adjetivo derivativo de una parte del cuerpo, en espaol se prefiere el sustantivo de la parte del cuerpo, como se deduce del ejemplo 2470.
21. abnormal biological value [Adj [Adj N]]
69 70
Autores citados por Demonte (1999: 156). En algunos otros casos sucede precisamente lo contrario como lo indica el ejemplo 26.
335
valor biolgico patolgico 22. basic new fuchsin nueva fucsina bsica 23. centrilobular parenchymal damage lesin parenquimatosa centro lobular 24. cardiogenic pulmonary oedema edema de pulmn cardiognico
[[N Adj] Adj] [Adj [Adj N]] [[Adj N] Adj] [Adj [Adj N]] [[[N Adj] Adj] Adj] [Adj [Adj N]] [N [Prep N Adj]]
Adems de la solucin presentada en 21, existen otras tres soluciones, como se muestra en los ejemplos de 22 a 24: Adj N Adj, N Adj Adj Adj y N Prep N Adj, todas tres con dos ocurrencias, respectivamente. La solucin ms comn para el patrn Adj N N es N Prep N Adj con 27 (43,54%) de 62 sintagmas nominales, como en el ejemplo 25.
25. anal canal dressing apsitos en el canal anal [[Adj N] N] [N [Prep N Adj]]
Las otras tres soluciones frecuentes para el patrn Adj N N que se ilustran de 26 a 29 son N Adj Adj con 12 ocurrencias (19,35%), N Adj Prep N con 9 ocurrencias (14,51%), N N Adj y N Adj, ambas con 5 ocurrencias (8,06%, respectivamente).
26. systolic blood pressure presin arterial sistlica 27. absolute neutrophil count recuento absoluto de neutrfilos 28. pathological Q wave onda Q patolgica [Adj [N N]] [[N Adj] Adj] [Adj [N N]] [[N Adj] Prep N] [Adj [N N]] [[N N] Adj]
336
G. Quiroz
29.
El patrn Adv Adj N con 3 ocurrencias tiene la misma solucin en espaol, N Adv Adj (100%), como en 30.
30. unexpectedly high response respuesta inesperadamente elevada [[Adv Adj] N] [N [Adv Adj]]
El patrn Adv PP N tiene la misma solucin con una variante en el Adv Adj como en 31 y 32, ambos casos con 2 ocurrencias (50% en cada caso). Esta inversin es opcional en espaol debido a la nominalizacin de la oracin.
31. individually sealed envelopes sobres cerrados individualmente [[Adv PP] N] [N [Adj Adv]]
Este ejemplo puede interpretarse como sobres que han sido separados de manera individual (o uno a uno).
32. serologically proven influenza gripe serolgicamente demostrada [[Adv PP] N] [N [Adv PP]]
En este caso, la interpretacin del sintagma se origina en la oracin gripe que se ha demostrado mediante anlisis serolgicos. Segn lo afirma Gotti (2003: 70-71), este patrn puede originarse a partir de una voz pasiva (cuasipasiva en espaol) modificada por un adverbio, el cual va unido por un guin (no en todos los casos) al participio de pasado (o adjetivo deverbal en espaol) del verbo y colocado antes del sustantivo. En un sintagma ms extenso, esto puede causar ambigedades, lo que a su vez, puede causar problemas de lectura o traduccin si las relaciones sintctico-semnticas no se identifican adecuadamente.
337
El patrn N Adj N tiene principalmente la misma solucin N Adj Adj con 6 ocurrencias de 12 (50%), como en el caso del ejemplo 32, pero tambin se encontraron los siguientes patrones: N Adj Prep N, N Prep N Adj y N Prep N Prep N, cada uno con 2 ocurrencias (16,66% en cada caso), como se ilustra en los ejemplos 33 a 35.
33. brain natriuretic peptide pptido natriurtico cerebral 34. peak expiratory flow pico de flujo espiratorio 35. chest radiographic findings hallazgos de la radiografa de trax [N [Adj N]] [[N Adj] Adj] [N [Adj N]] [N Prep [N Adj] [N [Adj N]] [N Prep [N Prep N]]
El patrn N N N con 29 ocurrencias tiene principalmente estas dos soluciones: N Prep N Adj con 11 ocurrencias (37,93%) y N Prep N Prep N con 8 ocurrencias (27,58%). No obstante, hubo otras soluciones tales como N Adj Prep N y N Prep N N, ambas con 4 ocurrencias (13,79% en cada caso). Los ejemplos de este patrn se presentan en 36 y 37.
36. aspartate aminotranferase concentration concentraciones de aspartato amino-transferasa 37. agarose gel electrophoresis elecfroforesis en gel de agarosa [[N N] N] [[N Prep N] Adj] [[N N] N] [[N Prep [N Prep N]
El patrn PP Adj N con 6 ocurrencias tiene la misma solucin N Adj PP, como en el ejemplo 38.
38. isolated systolic hypertension hipertensin sistlica aislada [PP [Adj N]] [[N Adj] Adj]
338
G. Quiroz
Tambin se pueden observar soluciones con respecto a las soluciones ms frecuentes en espaol para un patrn especfico en ingls. En este caso, la longitud del patrn en ingls no es relevante. Por ejemplo, el patrn en espaol N Adj Prep N es la solucin de 10 patrones en ingls de longitud diferente (3, 4 y 5), como se ensea en los ejemplos 39 a 44.
39. mean white blood cell counts recuentos medios de los leucocitos 40. baseline blood glucose concentrations concentraciones basales de glucemia 41. absolute neutrophil count recuento absoluto de neutrfilos 42. individual dietary components componentes individuales de la alimentacin 43. baseline HCV load carga basal de VHC 44. allergen-specific immunotherapy inmunoterapia especfica de alrgeno [Adj [[Adj [N N]] N]] [[N Adj] Prep N] [N [N [N N]]] [[N Adj] Prep N] [Adj [N N]] [[N Adj] Prep N] [Adj [Adj N]] [[N Adj] Prep N] [N [N N]] [N Adj] Prep N] [[N Adj] N] [N Adj] Prep N]
Aunque no es el propsito de este captulo el de analizar cada una de las soluciones del espaol con referencia de diferentes patrones en ingls, puede decirse que 15 patrones en espaol presentan el mismo comportamiento descrito antes para 19 patrones en ingls y 205 sintagmas involucrados.
339
8.7. Recapitulacin
En este captulo, se han presentado los resultados del anlisis del corpus paralelo y el contraste de estos con el corpus de referencia Tcnic del IULA, CREA y el diccionario Mosby. 1. En cuanto a la longitud de los sintagmas, el corpus paralelo presenta las mismas tendencias que los otros corpus. Los patrones de 3 tokens predominan ampliamente sobre las de ms longitud con un 64,3% de todas las ocurrencias. 2. En cuanto a la categora gramatical predominante en la
premodificacin, se dan las mismas tendencias en el uso del sustantivo como premodificador por excelencia con un 32,56%, seguido por el adjetivo con un 32,23%. corpus. 3. En cuanto a los patrones ms frecuentes, el corpus paralelo presenta las mismas tendencias de los otros corpus. Los patrones de Adj N N, Adj Adj N, N N N, entre otros, son igualmente muy frecuentes en los otros corpus. 4. De acuerdo con la dependencia sintctica, la solucin ms comn para los sintagmas de 3 tokens para la dependencia [C [B A]] son [[A B] C] con 86 ocurrencias y [A [B C]] con 27 ocurrencias y para la dependencia [[C B] A] es [A [B C]] con 39 ocurrencias. Para los sintagmas de 4 tokens existen 6 dependencias en ingls y 6 dependencias en espaol. La dependencia en ingls que presenta ms regularidad es [[D C] [B A]] con la dependencia en espaol [[A B] [C D]] con 4 ocurrencias y para la dependencia en ingls [D [C [B A]]] con [[[A B] C] D] y [A [B C D]] ambas con 4 ocurrencias, respectivamente. Para 340 Las otras categoras lxicas tienen poca presencia en la premodificacin. Sin embargo, dicho predominio es superior en los otros
G. Quiroz
la dependencia [D [C B] A]] en ingls, la dependencia ms regular en espaol es [[A B] [C D]] con 9 ocurrencias. 5. De acuerdo con el tipo de patrn, los patrones tienden a tener una sola solucin en espaol en muchos casos o predomina al menos una de ellas. As, los patrones Adj N N [N Prep N Adj], Adj Adj N [N Adj Adj], N N N [N Prep N Adj], N Adj N [N Adj Adj] y Adj N N N [N Prep N Prep N Adj] tienen las mismas soluciones o son las ms frecuentes y representan el 62,4% de todas las ocurrencias. 6. Finalmente, las soluciones presentadas en cada patrn y, hasta cierto punto, su orden y frecuencia son las mismas que se encontraron en el diccionario Mosby. Igualmente, son los patrones ms frecuentes en los corpus monolinges, excepto los casos mencionados. As, puede afirmarse que existen regularidades en el comportamiento de las soluciones de este tipo de sintagma del ingls al espaol y que no existen diferencias importantes en el uso de estos sintagmas con respecto a lo que produce un experto en cada lengua, como se ha observado en los corpus monolinges.
341
342
G. Quiroz
343
344
G. Quiroz
345
sintagmas nominales extensos especializados en ambas lenguas. Los resultados y conclusiones ms importantes se describen a continuacin. 1. Categora lxica predominante en la premodificacin y modificacin: los resultados muestran que es el sustantivo, y no el adjetivo, la categora por excelencia en ambas lenguas siendo ms equilibrado el porcentaje en espaol debido a la estructura sintagmtica de la lengua. Cabe destacar la presencia de los participios y los adverbios en ambas lenguas aunque en menor medida en espaol. En cambio, las categoras cerradas en espaol como las preposiciones representan un tercio de toda la modificacin del sintagma. Esto se debe a que la expansin de sintagmas por posmodificacin se hace mediante sustantivos que se encuentran dentro sintagmas preposicionales. Por tanto, el uso predominante del sustantivo en la premodificacin y modificacin refuerza el carcter nominalizador del discurso cientfico-tcnico. El sustantivo, como categora que se refiere a entidades, sustancias, individuos, lugares y objetos ms o menos concretos representa mejor las caractersticas del discurso cientfico-tcnico y, por eso, su alta aparicin en este tipo de discurso. Este aspecto favorece la objetivizacin del discurso debido al carcter estable, fijado y atemporal que proporciona la nominalizacin. Adems, la necesidad de crear, nombrar o describir nuevos objetos, procesos y eventos en ciencia hace del sustantivo la categora por excelencia no slo como ncleo del sintagma sino como modificador en funcin adjetival o a travs de sintagmas preposicionales, a pesar de que en lengua general es el adjetivo el modificador por excelencia. En resumen, el sustantivo es la categora lxica preferida en la premodificacin y en la posmodificacin en ambas lenguas y eso tambin se ve reflejado en la cantidad de patrones que no tienen adjetivos 42,46% contra los patrones que no tiene sustantivos (19,43%). As, existe ms del doble de patrones que no tienen adjetivos que aquellos que no tienen sustantivos, lo que tambin demuestra la preferencia del discurso cientfico-tcnico por las nominalizaciones.
346
G. Quiroz
2. Longitud de los sintagmas: los patrones de 3 tokens predominan ampliamente sobre las otras longitudes en ambas lenguas, seguidos de lejos por los patrones de 4 tokens y, por ltimo, los patrones de 5 y 6 tokens. Esta tendencia muestra que a mayor longitud del sintagma, menor frecuencia en un corpus. Aunque en esta tesis no se han trabajado sintagmas de 1 y 2 tokens, las tendencias muestran que su frecuencia debe ser inversamente proporcional a su longitud. Estos datos corroboran las afirmaciones de Quirk et al (1984: 13371338) en cuanto a la extensin de los sintagmas. Las consecuencias que se derivan de este hecho se resumen bsicamente en las posibilidades que tiene un traductor de encontrarse este tipo de unidades y, en la confeccin de diccionarios especializados para determinar la cantidad de unidades que se deben incluir segn la longitud. 3. Patrones ms frecuentes del corpus: los patrones ms frecuentes en ingls son N N N (30,05%), Adj N N (24,08%), Adj Adj N (10,71%) y el patrn N Adj N (5,88%). Estos cuatro patrones representan el 70,72% de todas las ocurrencias del corpus. De los patrones de 4 tokens, se pueden destacar los patrones Adj N N N y N N N N. Adems, se han clasificado los patrones por su extensin. Los patrones ms frecuentes de 5 tokens son: Adj Adj N N N, Adj N N N N, N N N N N, Adj Adj Adj N N, Adv PP N N N; los patrones ms frecuentes de 4 tokens Adj N N N, N N N N, Adj Adj N N, N Adj N N, Adj N Adj N, PP N N N, PP Adj N N; y los patrones ms frecuentes de 3 tokens son: N N N, Adj N N, Adj Adj N, N Adj N, PP N N, PP Adj N, Adv Adj N, N PP N, Adv PP N y Adj PP N. Si se comparan estos resultados a la luz de los resultados obtenidos por los autores que se han presentado en 2, puede verse que el patrn ms frecuente N N N no aparece dentro de los patrones de co-ocurrencia
347
presentados por Biber et al (1999) y Montero (1995)71 no lo presenta entre los ms frecuentes de su corpus. Sin embargo, en el anlisis contrastivo inglsespaol que hace Montero es el menos frecuente de los analizados. En el caso del patrn Adj N N est descrito como uno de los patrones de co-ocurrencia ms frecuentes en Biber et al y no aparece en Montero. El patrn Adj Adj N es el ms frecuente en el corpus lexicogrfico de Montero y, en Biber et al aparece slo la forma de co-ocurrencia Adj Adj-color N que en nuestro caso no ha sido relevante. Finalmente, est el patrn N Adj N que no est descrito en Biber et al pero es el cuarto ms frecuente de 3 tokens en Montero. De los patrones ms frecuentes de 3 tokens estudiados por Montero, el patrn Adv Adj N es el segundo ms frecuente, pero en nuestro corpus slo es el noveno ms frecuente. Todos los patrones presentados por Biber et al (1999) estn dentro de los 13 ms frecuentes de nuestro corpus (Adj N N, Adj Adj N, PP N N, Adv Adj N, Adv PP N, Adj PP N). Biber et al (1999) no presenta patrones de 4 y 5 tokens. En cambio, Montero (1996) presenta 3 patrones de 4 tokens (Adj N Adj N, Adj Adj Adj N, N N Adj N) y 4 patrones de 5 tokens (Adv Adj Adj N, Adj Adj Adj N N, Adv PPi N N N, Adj N N Adj N) aunque sus frecuencias son demasiado bajas (1 patrn con 5 ocurrencias y el resto de 1 ocurrencia). De stos, slo los patrones Adj N Adj N y Adj Adj Adj N estn dentro de los 20 ms frecuentes de nuestro corpus. Los otros dos patrones, N N Adj N y Adv Adj Adj N, no estn ni en los 10 ms frecuentes de 4 tokens. El adjetivo que antecede al ncleo en estos dos ltimos patrones est diferenciados en nuestro corpus con las categoras Adj y PP y, por tanto, tenemos los patrones N N PP N y Adv PP Adj N. Ninguno de los patrones
71 En este sentido la estadstica presenta en Montero (1995) no es clara ya que, por un lado, no hay un listado completo de patrones y, por otro lado, este patrn no aparece entre los ms frecuentes aunque luego se afirme que representa el 20,21% de los patrones de 3 tokens (Montero 1995, 294).
348
G. Quiroz
de 5 tokens est entre los 20 ms frecuentes de nuestro corpus de anlisis. Sin embargo, los patrones Adj Adj Adj N N y Adv PP N N N son los dos menos frecuentes de los 5 encontrados en nuestro corpus y el patrn Adj N N Adj N no aparece en nuestro corpus. En cuanto a los patrones ms frecuentes en espaol, los resultados muestran los patrones N Prep N Adj (31,66%), N Adj Prep N (16,13%), N Prep N Prep N (10,68%), N Adj Adj (6,73%) y el patrn N Adj PP (4,88%). Estos cinco patrones representan el 70,08% de todas las ocurrencias del corpus y, por tanto, presentan menor variacin sintctica. Entre los patrones de 4 y 5 tokens cabe destacar los patrones N Adj Prep N Adj, N Prep N Adj Prep N y N Adj Prep N Prep N Adj. Si se comparan nuestros resultados en espaol con los de otros autores, podemos ver que las estructuras ms frecuentes de nuestro corpus estn entre las ms frecuentes en Cardero (2004) y Cartagena (1998), o son considerados patrones prototpicos por Vivaldi (2004). De los 12 patrones estudiados por Cartagena (1998) solo 5 patrones estn dentro de los 20 ms frecuentes de nuestro corpus: N Prep N Adj Adj, N Prep N Adj Prep N, N Prep N Prep N Prep N, N Adj Prep N Prep N y N Adj Adj Prep N. Los otros 7 no se encuentran entre los ms frecuentes: N Adj Adj Adj, Adj N Adj Adj, N Adj Prep N Adj, N Adj Adj Adj Prep N, N Adj Adj Prep Adj N y N Adj Prep N Adj Adj. De los 4 patrones presentados por Vivaldi (2004) slo el patrn N Adj Adj Prep N Prep N no aparece entre los 20 ms frecuentes de nuestro corpus. Es importante resaltar que uno de los patrones ms frecuentes en nuestros corpus, N Adj Adj, es presentado como uno de los ms prototpicos por Vivaldi pero no por Cartagena (1998) ni por Cardero (2004). De los 15 patrones estudiados por Cardero (2004) hay 10 patrones que aparecen entre los ms frecuentes de nuestro corpus: N Prep N Prep N, N Prep 349
N Adj, N Prep Adj N, N Adv Adj, N Adj Prep N, N Adj N, N Prep N Prep N Prep N, N Prep N Prep N Adj y N Adj Prep N Prep N. Hay 5 patrones que no aparecen en nuestro corpus: N Adj Prep N Adj, N Adj Prep Adj N, N Adj Adj Adj, N Prep N Prep Adj N Prep N y N Prep Adj Conj Adj. En resumen, se ha logrado compilar y clasificar cuantitativamente un nmero considerable de patrones que no han sido hasta ahora estudiados por otros autores en ambas lenguas, y se ha logrado contrastar la presencia de estos patrones en otros corpus para observar su frecuencia y uso y, se ha constatado que no existe una diferencia cuantitativa importante entre nuestros datos y los de los otros corpus. As, los resultados de los corpus de anlisis permiten hacer las siguientes aseveraciones. Los patrones ms frecuentes de los lenguajes de especialidad no se diferencian de los patrones ms frecuentes de los diccionarios ni de los corpus monolinges. Incluso en los pocos casos de patrones de esta tesis, que no aparecen dentro de los 20 ms frecuentes del corpus CREA de la RAE, son patrones que estn presentes dentro de la consulta general y se ubican en el rango de los patrones de mediana frecuencia. Lo que no se puede probar aqu es si este tipo de patrones es ms frecuente en los discursos especializados que en lenguaje general ya que la consulta del CREA se hizo sobre todo el corpus. Es posible que la frecuencia sea mayor ya que los ejemplos proporcionados por la RAE tienden a ser especializados. Sin embargo, lo que se pretenda observar era la exclusividad o no de estos patrones en los discursos especializados y si las explicaciones lingsticas no se ajustaban a las de la lengua en general. Como consecuencia, estos patrones y las descripciones que se han hecho en 4 y 5 se han hecho desde la lengua general y no desde una perspectiva de una gramtica de los lenguajes especializados.
350
G. Quiroz
Se ha probado con el corpus lexicogrfico conformado por diccionarios de diferentes reas del conocimiento que la extensin de los sintagmas nominales complejos especializados no vara entre las ciencias duras y blandas, salvo en el caso del diccionario Routledge como se explic en 5.4.1. Es decir, existe una relacin directa entre la extensin del sintagma y la frecuencia de aparicin en el diccionario. Tampoco existe diferencia alguna entre los patrones ms extensos de las diferentes reas. 4. Aunque se han compilado sintagmas de hasta 8 tokens, no se ha podido describir, clasificar, ni predecir el comportamiento de sintagmas de ms de 6 tokens en los tres corpus de esta tesis y, por tanto, los resultados son parciales en este sentido. An as, no existe estudio alguno en las diferentes disciplinas relacionadas con el lenguaje que haya descrito, clasificado y explicado el comportamiento de sintagmas nominales extensos especializados en ingls y espaol de hasta 6 tokens. As, se ha demostrado que la existencia de los SNEE es una caracterstica de la lengua que puede presentarse con mayor frecuencia en el discurso especializado, adems, pueden describirse, clasificarse, explicarse y predecirse desde la gramtica de una lengua como todos los fenmenos lingsticos de los discursos de los mbitos de especialidad, como lo plantea la teora comunicativa de la terminologa TCT (Cabr 1999). 4. Relaciones de dependencia: la relacin de dependencia [C [[B A]] es la ms frecuente en todo el corpus en ingls con ms del 60% de todas las ocurrencias del corpus de anlisis, seguida de la relacin de dependencia [[C B] A] con un 24,14% de todas las ocurrencias. Por ltimo, la dependencia [[D C] [B A]] representa el 5,17% de todas las ocurrencias para patrones de 4 tokens. Los patrones que presentan una nica relacin de dependencias son: Adj Adj N, N Adj N, N PP N, PP Adj N, PP N N, Adv Adj N, Adj N N N y N N N N. De estos, los patrones Adj Adj N, N Adj N, N PP N, PP Adj N, PP N N tienen la misma relacin de dependencia sintctica [C [[B A]]. El nico patrn que tiene la dependencia sintctica [[C B] A] es Adv Adj N. En los dos patrones de 4 tokens, 351
Adj N N N y N N N N, la dependencia que predomina es [[D C] [B A]]. Los patrones que tienen dos relaciones de dependencia sintctica son: Adj N N y N N N. En el patrn Adj N N, la relacin de dependencia [C [[B A]] representa al 64,78% de las ocurrencias y [[C B] A] al 35,21%. En el caso del patrn N N N, la dependencia [[C B] A] representa al 87,93% y la dependencia [C [[B A]] al 12,07%. En espaol, la relacin de dependencia [A [B C]] es la ms frecuente en todo el corpus con ms del 50,5% de todas las ocurrencias del corpus de anlisis, seguida de la relacin de dependencia [[A B] C] con un 45,5%. Por ltimo, la dependencia [[A B] [C D]] representa el 3% de todas las ocurrencias para patrones de 4 tokens. Los patrones que presentan una nica relacin de dependencias son: N Prep Adj N, N Adj Prep N, N Adj PP, N Adj Adj y Adj N Prep N y N Adj Prep N Adj. De estos, N Adj Prep N, N Adj PP, N Adj Adj y Adj N Prep N tienen la misma forma de dependencia sintctica [[A B] C]. El nico patrn que tiene la dependencia sintctica [A [[B C]] es N Prep Adj N. El patrn de 4 tokens, N Adj Prep N Adj tiene la dependencia [[A B] [C D]]. Los patrones que tienen dos relaciones de dependencia sintctica son: N Prep N Prep N y N Prep N Adj. En el patrn N Prep N Prep N, la relacin de dependencia [A [[B C]] representa 70,37% de las ocurrencias y [[A B] C] al 29,62%. En el caso del patrn N Prep N Adj, la dependencia [A [[B C]] representa el 89,53% ocurrencias y [[A B] C] al 9,30%. Las consecuencias que se derivan de estos resultados se pueden resumir bsicamente en las posibilidades que tienen los traductores, estudiantes de ingls o espaol para propsitos especficos de interpretar estos sintagmas para su comprensin y traduccin. Estas relaciones de dependencia muestran que la interpretacin de sintagmas y sus posibles soluciones en otras lenguas no es lineal como lo han afirmado los autores presentados en 2.5. Igualmente, para la extraccin de trminos, las dependencias ms comunes para determinado patrn permitirn dar un peso ms especfico a estos dentro de la extraccin. Por ejemplo, los patrones de 4 ocurrencias presentan siempre la misma estructura de dependencia en forma binaria, lo que permite extraerlos de modo 352
G. Quiroz
confiable aunque no sean muy frecuentes. En el caso de patrones muy frecuentes como Adj Adj N en ingls con la misma dependencia sumaran un peso especfico mayor que el anterior. 5. Clases semnticas: las clases semnticas ms frecuentes de WordNet en el ncleo de los sintagmas del corpus de anlisis son [Link] (18,53%), [Link] (15,95%), [Link] (10,77%), [Link] (7,33%) y [Link] (7,33%). Estas cinco clases semnticas representan el 59,91% de todos los ncleos de la muestra. En UMLS, las clases semnticas ms frecuentes son Gene or Genome (9,48%), Biologically Active Substance (9,05%), Functional Concept (6,03%), Cell (5,6%) y Quantitative Concept (4,74%). Estas cinco clases representan el 34,9% de todos los ncleos. Las clases semnticas ms frecuentes en la premodificacin en WordNet son [Link] (21,59%), [Link] (15,72%), [Link] (11,53%), [Link] (9,01%) y, [Link] (4,4%). En UMLS las clases ms frecuentes son Gene or Genome (9,48%), Biologically Active Substance (9,05%), Functional Concept (6,03%), Cell (5,6%) y Quantitative Concept (4,74%). Obsrvese que WordNet 2.1 tiene ms capacidad de generalizacin pero UMLS presenta ms granularidad ya que las clases de los ncleos y la premodificacin estn ms distribuidas entre las diferentes clases. En espaol, las clases semnticas ms frecuentes de EuroWordNet en el ncleo son state (21%), act (12%), body (11%), cell (7,5%) y attribute (7%). Estas cinco clases semnticas representan el 58,5% de todos los ncleos de la muestra. Las clases semnticas ms frecuentes en la modificacin en
EuroWordNet son body (24,88%), [Link] (17%), substance (14,04%), state (11,33%) y cell (10,1%). Estas cinco clases semnticas representan el 77,35% de toda la modificacin de la muestra. Un aspecto importante en la modificacin es que el promedio de adjetivos en cada posicin tiende a aumentar de izquierda a
353
derecha, es decir, a medida que el modificador se aleja del ncleo existen ms probabilidades de ser adjetivo. 6. Patrones semnticos ms frecuentes: los patrones semnticos ms frecuentes en ingls en WordNet son animal notWN body (2,59%), animal substance body (2,59%), substance substance process (2,16%), body body substance (1,72%) y substance substance substance (1,72%). Estos patrones semnticos obtenidos a partir de WordNet representan el 10,78% de la muestra de anlisis. Los patrones ms frecuentes en UMLS son CHEM CHEM CONC (3,45%), LIVB CHEM GENE (2,59%), CHEM CHEM CHEM (2,16%), CHEM CONC CONC (2,16%) y CONC ANAT ANAT (2,16%). Estos patrones semnticos obtenidos de UMLS representan el 12,52% de toda la muestra de anlisis en ingls. Puede verse que en ambos programas no es posible obtener muchas generalizaciones en cuanto a los patrones ya que cada patrn semntico no abarca ms del 3,5% de todas las ocurrencias en el mejor de los casos. Sin embargo, los patrones ms frecuentes en ambos sistemas se correlacionan sintcticamente con los patrones superficiales ms frecuentes tanto en el corpus de anlisis en ingls como en el lexicogrfico: N N N, Adj Adj N y Adj N N, N Adj N, PP N N y PP Adj N y en menor medida Adv Adj N. Puesto que los patrones semnticos tienen las clases semnticas ms frecuentes, los patrones creados a partir de ellas y su asociacin a los patrones superficiales ms frecuentes muestra que son estas estructuras las ms estables dentro de este estudio en todo sentido. En espaol, los patrones ms frecuentes en EuroWordNet son state body all (3,5%), cell body body (2%), state body body (2%), act substance body (1,5%) y act substance substance (1,5%). Al igual que en ingls, estos patrones semnticos tan solo representan el 10,5% de la muestra de anlisis. Puede verse que, al igual que en ingls, no es posible obtener muchas generalizaciones en cuanto a los patrones ya que cada patrn semntico no abarca a ms del 3,5% de todas las ocurrencias en el mejor de los casos. Sin embargo, los patrones ms frecuentes se correlacionan sintcticamente con dos 354
G. Quiroz
de los patrones superficiales ms frecuentes tanto en el corpus de anlisis en ingls como en el lexicogrfico: N Prep N Adj y N Adj Adj/PP. Los resultados reflejan lo esperable en cuanto a las clases semnticas puesto que el rea temtica de este estudio, el genoma, tiene involucradas estas clases antes presentadas. Por tanto, su aporte a este estudio es limitado. Sin embargo, el anlisis realizado y la asociacin que se ha hecho entre los patrones superficiales y los semnticos permiten saber que existe un uso adecuado entre los patrones y las clases semnticas de un rea temtica determinada, e. g., economa. Si se tiene en cuenta que algunas reas del conocimiento estn bien desarrolladas en determinadas ontologas, es posible trasladar los resultados de este estudio hacia campos de aplicacin, como el etiquetaje de corpus, traduccin automtica, ontologas, extraccin de terminologa, lexicografa, etc. Los aspectos semnticos dentro de un campo determinado pueden dar un peso adicional para extraer terminologa. Por ejemplo, la suma de los factores siguientes con el patrn Adj Adj N permitir extraer candidatos a trminos con una mayor confiabilidad: patrn Adj Adj N, alta frecuencia, la misma dependencia sintctica [C [B A]], asociacin a patrones semnticos frecuentes CONC CONC CONC, CONC CONC DISO y CONC LIVB ANAT, adjetivos relacionales o paraterminolgicos y un ncleo terminolgico o paraterminolgico. En cuanto al corpus paralelo, se ha analizado cuantitativa y cualitativamente para caracterizar los sintagmas nominales extensos especializados en cuanto a las soluciones. Los resultados y conclusiones ms importantes se describen a continuacin. 1. Longitud de los sintagmas en el corpus paralelo: el corpus paralelo presenta las mismas tendencias que los otros corpus. Los patrones de 3 tokens predominan ampliamente sobre la dems longitud con un 64,3% de todas las ocurrencias.
355
2. Categora gramatical predominante en la premodificacin en el corpus paralelo: se dan las mismas tendencias en el uso del sustantivo como premodificador por excelencia con un 32,56%, seguido por el adjetivo con un 32,23%. corpus. 3. Patrones ms frecuentes en el corpus paralelo: el corpus paralelo presenta las mismas tendencias de los otros corpus. Los patrones de Adj N N (21,77%), Adj Adj N (16,43%), N N N (11,89%), N Adj N (4,49%), Adj N N N (4,24%) son igualmente muy frecuentes en los otros corpus. Estos 5 patrones representan al 58,82% de ocurrencias del corpus paralelo. De acuerdo con la extensin de los sintagmas, los patrones ms comunes de 3 tokens son: Adj N N, Adj Adj N, N N N, N Adj N, PP Adj N, PP N N, Adv Adj N, N PP N y Adv PP N; los de 4 tokens son Adj N N N, N N N N, Adj Adj N N, Adj Adj Adj N, N Adj N N, Adj N Adj N y N N Adj N; y los patrones de 5 tokens son Adj N N N N, N N N N N, Adj Adj N N N y Adj Adj Adj Adj N. 4. Relaciones de dependencia sintctica en el corpus paralelo: la correspondencia de los patrones ms comn en los sintagmas de 3 tokens para la dependencia en ingls [C [B A]] son [[A B] C] del espaol con 86 ocurrencias y [A [B C]] del espaol con 27 ocurrencias y para la dependencia [[C B] A] es [A [B C]] del espaol con 39 ocurrencias. Para los sintagmas de 4 tokens existen 6 dependencias en ingls y 6 dependencias en espaol. La dependencia en ingls que presenta ms regularidad es [[D C] [B A]] con la dependencia en espaol [[A B] [C D]] con 4 ocurrencias y para la dependencia en ingls [D [C [B A]]] con [[[A B] C] D] y [A [B C D]] ambas con 4 ocurrencias, respectivamente. Para la dependencia [D [C B] A]] en ingls, la dependencia ms regular en espaol es [[A B] [C D]] con 9 ocurrencias. 5. Relacin ente los patrones en ingls y los patrones equivalentes en espaol: los patrones en ingls tienden a tener un mismo patrn en espaol, donde en muchos casos- predomina uno de ellos. As, los patrones Adj N N [N 356 Las otras categoras lxicas tienen poca presencia en la premodificacin. Sin embargo, dicho predominio es superior en los otros
G. Quiroz
Prep N Adj], Adj Adj N [N Adj Adj], N N N [N Prep N Adj], N Adj N [N Adj Adj] y Adj N N N [N Prep N Prep N Adj] tienen los mismos patrones en espaol o son los ms frecuentes y representan el 62,4% de todas las ocurrencias. 6. Relacin de las soluciones del corpus paralelo y los corpus de contraste: los patrones en espaol presentados para cada patrn del ingls y, hasta cierto punto, su orden y frecuencia son los mismos que se encontraron en el diccionario Mosby. Igualmente, son los patrones ms frecuentes en los corpus monolinges, excepto los casos mencionados. As, puede afirmarse que existen regularidades en el comportamiento de las soluciones de este tipo de sintagma del ingls al espaol y que estas estructuras son igualmente frecuentes en la lengua general como se ha observado en los corpus monolinges. Finalmente, los resultados del corpus paralelo permiten afirmar que: 1. hay regularidades en los patrones encontrados en ingls y espaol tanto en la extensin como en las estructuras que demuestran que los SNEE son estructuras de la lengua que pueden describirse dentro del marco gramatical de cada lengua de hasta 6 tokens. 2. existen regularidades en las soluciones de esos patrones en ingls al espaol de hasta 6 tokens. En 5 casos existe una nica solucin (62,4%) y en los otros 7 casos dos o ms soluciones, pero con predominio de una de ellas. 3. no existen soluciones lineales como lo muestran las relaciones de dependencia. La pretendida modificacin lineal propuesta por muchos autores de traduccin (Linder, Lpez y Minett, Vivanco, etc.) no existe siempre como tal. Las restricciones proporcionadas por los adjetivos de muchos patrones ayudan en la solucin de muchos de ellos 4. las soluciones dadas por los traductores son las mismas que se han constatado en el diccionario Mosby del mismo mbito temtico que el corpus de
357
anlisis, con lo cual no se puede acusar a los traductores de interferencia sintctica. 5. los patrones empleados en las soluciones dadas por los traductores son estructuras frecuentes y propias del espaol como lo demuestra la comparacin con el corpus CREA de la RAE. 6. el uso de corpus demuestra, una vez ms, ser de gran utilidad para solucionar problemas lingsticos de la traduccin que no pueden dejarse simplemente a la intuicin del hablante ni dar reglas de manera prescriptiva a un problema complejo, pues se corre el riesgo de no ser sistemtico y cometer errores innecesarios. Por tanto, los estudios empricos son de mucha utilidad para solucionar este tipo de problemas y retroalimentar los postulados tericos de una disciplina. 7. el desarrollo de cualquier actividad cientfica debe sufrir el proceso normal de la ciencia: observar el objeto de estudio, describir su comportamiento, explicar y clasificar sus regularidades (y controlar las excepciones) y predecir el comportamiento del fenmeno en otras condiciones.
358
G. Quiroz
Est hiptesis se cumple plenamente ya que los resultados cuantitativos demuestran que este tipo de sintagmas est presente no slo en los corpus de anlisis del Corpus Tcnic del IULA sino tambin en los diferentes diccionarios de los corpus lexicogrficos y la consulta hecha al corpus CREA de la RAE (empleados como corpus de contraste). La mayor presencia de estos sintagmas en el discurso especializado no es posible probarlo directamente ya que la consulta al corpus CREA de la RAE es general y no se ha separado por mbitos ni niveles de especialidad. Sin embargo, los ejemplos proporcionados a travs de la consulta al CREA pueden considerarse especializados y, por tanto, puede afirmarse que esta tendencia se presenta en una consulta ms elaborada para los corpus monolinges generales. En ingls, no se ha hecho dicha consulta ya que los datos aportados por otros investigadores en este sentido confirman que su uso en el discurso especializado es mayor (Biber et al 1999). El anlisis ha demostrado que se han determinado las caractersticas de estos sintagmas desde la gramtica de la lengua general, entre las cuales se pueden mencionar los patrones predominantes y su extensin explicados anteriormente, los sustantivos que pertenecen preferentemente a la clase de deverbales por sufijacin y los adjetivos a la clase de denominales por sufijacin, lo cual permite restringir tambin a determinados patrones. Adems, se describi el conjunto de relaciones de dependencia asociadas a los patrones frecuentes del corpus y categoras semnticas que dependen del mbito de estudio. 2. Los sintagmas nominales extensos especializados pueden describirse, clasificarse, explicarse y predecirse desde la gramtica de una lengua como todos los fenmenos lingsticos de los discursos de los mbitos de especialidad. Esta hiptesis se cumple en parte ya que se han podido describir, clasificar y explicar slo los patrones ms frecuentes de hasta 6 tokens si bien se han extrado sintagmas de hasta 8 tokens. Lo cierto es que no nos hemos puesto un lmite mximo ya que tericamente no existe, pero s se ha establecido un lmite mnimo como se ha afirmado en la introduccin y la metodologa. As, se 359
han descrito y clasificado los patrones ms frecuentes de los corpus, su frecuencia de acuerdo con la extensin, la presencia de la categora lxica predominante en la modificacin, las caractersticas y restricciones morfolgicas de las diferentes categoras lxicas presentes en los sintagmas, las restricciones de las dependencias sintcticas en cada corpus de anlisis en general y en cada patrn, las clases semnticas que predominan en los ncleos y en la modificacin y los patrones semnticos obtenidos a partir de las clases y sus correlaciones con los patrones de superficie; todo dentro del marco formal y semntico de las gramticas generales del ingls y el espaol. Igualmente, se ha podido explicar y predecir el comportamiento de las descripciones antes descritas de los sintagmas nominales extensos especializados como fruto de una relacin pragmtica entre el emisor y el destinatario de un texto en el marco de los mbitos de especialidad. La situacin comunicativa de estos interlocutores y los objetivos que persiguen las ciencias permite explicar las caractersticas lingsticas de este tipo de sintagmas y su funcin como un elemento que permite vehicular gran cantidad de informacin en poco espacio y, por eso se emplean determinadas estructuras de superficie y se privilegia el uso del sustantivo como categora lxica y de determinado sufijos en las categoras lxicas estudiadas. Por eso, la extensin de los sintagmas y el fenmeno de nominalizacin presente son inherentes a la relacin pragmtica. Para aumentar la cobertura de la validacin de esta hiptesis sera necesario aumentar la cantidad de corpus, afinar los problemas de etiquetaje y la extraccin que ya se han comentado en la metodologa. De este modo, se obtendran ms sintagmas de mayor extensin y se podran describir, clasificar y analizar formal y semnticamente. De todos modos, somos conscientes de que entre ms extenso sea un sintagma ms irregularidades se pueden esperar en el patrn de superficie lo que dificultara su descripcin desde este punto de vista. An as, pensamos que una descripcin endgena por pares binarios del tipo Adv Adj, Adv PP, N N, Adj N, etc. como se ha hecho parcialmente para los sintagmas de 3 a 6 tokens puede ayudar en la descripcin y clasificacin de los sintagmas ms extensos. 360
G. Quiroz
3. Existen regularidades en el comportamiento de las soluciones de traduccin de este tipo de sintagma del ingls al espaol. Esta hiptesis se cumple en parte ya que tiene las mismas limitaciones de la hiptesis anterior. Sin embargo, esta tesis ha probado que existe un comportamiento sistemtico en los patrones equivalentes en espaol para determinado patrn en ingls como se observ en 8. A pesar de que no se encontraron regularidades importantes en patrones de ms 5 tokens, las regularidades encontradas en los patrones de 3 a 5 tokens son suficientes para refutar las propuestas intuitivas hechas por los diferentes autores de traduccin. Se han observado regularidades en el comportamiento de la extensin, restricciones de las dependencias sintcticas y el uso de un solo patrn en espaol para un patrn en ingls o, al menos el predominio de uno de ellos. Igualmente, las descripciones hechas parcialmente para los compuestos del tipo Adv Adj, Adv PP, N N, Adj N, etc. y sus correspondientes en espaol para los sintagmas de 3 a 5 tokens pueden ayudar a resolver patrones ms extensos. Por un lado, mediante la comparacin del diccionario Mosby y el corpus paralelo y, posteriormente, con el corpus CREA de la RAE se ha podido observar si las soluciones encontradas en el corpus paralelo son idiosincrsicas o estn interferidas por el ingls. La comparacin de estas soluciones de los diferentes corpus muestra, por un lado, que este comportamiento es similar en el diccionario Mosby, es decir, que los mismos patrones en ingls tienen las mismas soluciones en espaol y tienden igualmente a ser la solucin ms frecuente del patrn en cuestin. Por otro lado, este comportamiento se ve corroborado en el corpus CREA ya que todos los patrones en espaol que se han empleado como soluciones a los patrones en ingls estn presentes en la consulta. De hecho, son en su mayora los ms frecuentes de los analizados en el corpus CREA de los analizados, lo cual indica que son patrones propios del espaol y no estn interferidos desde el punto de vista formal.
361
Los resultados y las descripciones realizadas en esta tesis tienen implicaciones terico-descriptivas en diferentes reas del lenguaje. [Link]. Gramticas de la lengua general Parte de los resultados obtenidos en esta tesis pueden ser muy tiles en una gramtica descriptiva. Los resultados de la descripcin formal de los sintagmas nominales de los captulos 4 y 5, en especial, pero tambin la descripcin semntica de los captulos 6 y 7, demuestran que, al menos, las estructuras ms frecuentes del corpus y las restricciones morfolgicas y de dependencia sintctica deben ser descritas en las gramticas generales. Adems, si se tiene en cuenta que la sintagmacin es uno de los recursos sintcticos ms frecuentes para formar nuevas unidades de significado, su descripcin debera estar incluida en las gramticas. As, la estadstica sobre la frecuencia de los sintagmas de la lengua y los patrones ms frecuentes de acuerdo con la extensin pueden ser tiles para explicar el uso de este tipo de sintagmas en los registros cientfico-tcnicos, para dar cuenta de este tipo de estructuras en la lengua como fenmenos lingsticos propios de la lengua. 362
G. Quiroz
Igualmente la clasificacin y la
descripcin morfolgica y de
dependencias de los patrones ms frecuentes que se ha hecho debe estar dentro de una gramtica general. En primer lugar, la estadstica de las categoras lxicas descritas en los ncleos y la modificacin, la preferencia morfolgica de los ncleos y la modificacin de los sintagmas son relevantes para explicar las preferencias de ciertos tipos de discursos y explicar los fenmenos de nominalizacin presentes en la lengua. Igualmente las restricciones y asociaciones descritas parcialmente entre los compuestos Adv Adj, Adv PP, N N y Adj N permitirn explicar las relaciones internas de este tipo de sintagmas en la gramtica y el papel que estas estructuras juegan en la lexicalizacin de sintagmas nominales extensos. Si se observan las gramticas del ingls, este tipo de estructuras sintagmticas no est descrita adecuadamente, salvo las cuatro estructuras presentadas por Biber et al (1999), muchas de las ms frecuentes no estn descritas. Adems debe tenerse en cuenta que su frecuencia es alta y que muchas tienden a representar objetos, procesos, entre otros que tienden a lexicalizarse. En espaol no hay una sola gramtica prescriptiva o descriptiva que explique este tipo de sintagmas en espaol. En principio, este tipo de estructuras presenta una frecuencia muy alta si se comparan con otros fenmenos menos frecuentes descritos en las gramticas. Por ejemplo, las estructuras N Prep N Adj, N Adj Prep N, N Adj Adj, N Adj Adv, N Adj PP, entre otras deberan tener una descripcin en las gramticas generales del espaol no solo como estructuras de la lengua general sino como estructuras que son frecuentes en los discursos especializados. En este sentido, algunos aspectos sobre las restricciones de los adjetivos en algunas de estas estructuras han sido parcialmente descritos por Demonte (1999) y Bosque (1999).
363
La falta de descripcin de este tipo de estructuras sintagmticas puede deberse a que en espaol los sintagmas nominales se expanden bsicamente agregando complementos adjetivales o preposicionales. Sin embargo, no hay un inventario de la combinatoria de estos complementos en los sintagmas ni como se rigen las dependencias sintcticas dentro de ellos como se ha explicado en esta tesis. [Link]. Manuales de terminologa Si bien se reconoce la existencia de los sintagmas nominales extensos especializados en los diferentes manuales de terminologa y de LSP, su descripcin, como rasgo distintivo de los textos especializados y como problema terminolgico, no est adecuadamente explicada. En primer lugar, ningn manual de terminologa en espaol (Felber y Picht 1984, Cabr 1993, Arntz y Picht 1995, Fedor de Diego (1995) se explica la naturaleza, ni se clasifican ni explican las caractersticas lingsticas de los sintagmas nominales especializados a pesar de que se reconoce que, en promedio, el 85% de los trminos de un mbito no son unidades simples. Si se tiene en cuenta este porcentaje, existe un gran vaco en este sentido ya que muchos de los trminos compuestos o sintagmticos son de ms de 3 tokens. Por tanto, los datos aportados por esta tesis no slo en cuanto al corpus de anlisis sino del corpus lexicogrfico son un aporte en este sentido. Un manual de terminologa debe ser capaz de describir cuantitativamente las estructuras ms frecuentes de los diferentes corpus a nivel general, de acuerdo con la extensin y explicar su comportamiento lingstico como se ha hecho en los captulos 4 y 5. Igualmente debe dar cuenta de las categoras lxicas ms frecuentes, qu caractersticas morfolgicas presentan, cmo se asocian dentro de los sintagmas y que restricciones asignan a determinadas estructuras para ayudar en su lexicalizacin. En este sentido, esta tesis ha aportado los siguientes aspectos terico-metodolgicos.
364
G. Quiroz
1. se han analizado cuantitativamente las 20 estructuras ms frecuentes en todos los corpus y se han comparado para observar las regularidades de los corpus y los diccionarios. 2. se han clasificado de acuerdo con su extensin y analizado cuantitativamente en cuanto a su frecuencia en los corpus. 3. se ha establecido que la extensin no est asociada al rea temtica sino al tamao del corpus textual y lexicogrfico ya que entre ms entradas tenga un diccionario, menos entradas sintagmticas tiene. 4. se ha destacado el uso de otras categoras no prototpicas, como los participios de pasado y de presente y los adverbios y, el papel que estas juegan dentro de los sintagmas. 5. se han descrito los sufijos ms frecuentes en las diferentes categoras lxicas de los sintagmas y su naturaleza epistemolgica dentro del discurso especializado. 6. se han establecido las relaciones de dependencia de todos los patrones del corpus de anlisis de modo que permita a un terminlogo interpretar un trmino (Cabr 1993: 185). 7. se han establecido algunas equivalencias formales entre los patrones ms frecuentes del ingls al espaol. Esto es un aporte interesante para la terminologa bilinge ya que le permitir al terminlogo crear rpidamente sintagmas en espaol teniendo en cuenta los datos cuantitativos y cualitativos de esta tesis. As, se pueden suplir la falta de descripcin y el tratamiento de unidades sintagmticas en los manuales de terminologa.
365
[Link] Aporte a la TCT En esta tesis se ha partido de los principios terico-metodolgicos de la Teora comunicativa de la terminologa TCT (Cabr 1999) para extraer, describir, clasificar y explicar los sintagmas nominales extensos especializados, ya que estas unidades son unidades del lenguaje. Pensamos que esta tesis hace varios aportes y refrenda otros aspectos tericos y empricos a la teora. 1. se ha corroborado el principio de que todos los fenmenos lxicos y sintagmticos del discurso especializado pueden explicarse desde la gramtica de la lengua general. 2. Se ha corroborado el principio de Condicin de lenguaje natural en cuanto a que se han descrito una serie de patrones sintagmticos en ambas lenguas a partir de los datos recogidos de corpus y se han contrastado no slo con un corpus lexicogrfico sino con un corpus monolinge para dar cuenta de que no existe diferencia en las estructuras descritas con las de la lengua general, como lo propone la TCT. 3. se han descrito las caractersticas morfolgicas de las categoras lxicas de los patrones como en la lengua general, destacando la activacin de los procesos de nominalizacin de los discursos especializados.
Las aplicaciones de esta tesis se pueden resumir bsicamente en cuatro aspectos: la base de datos con los resultados para el ingls y el espaol, las recomendaciones para la enseanza de la traduccin y la enseanza de la terminologa y la extraccin de la terminologa.
366
G. Quiroz
[Link] La base de datos En esta tesis se ha construido una base de datos en la que se incluyen todos los datos analizados en cuanto a los dos corpus de anlisis con sus patrones superficiales, patrn de extraccin con las restricciones, la dependencia sintctica, las clases semnticas de los ncleos y la modificacin, los patrones semnticos, su extensin, contexto completo, fuente, nmero de documentos en los que aparece el patrn, la frecuencia absoluta del patrn, su extensin, entre otros datos. En cuanto al corpus paralelo, se proporciona la extensin, el sintagma, el patrn respectivo y la dependencia sintctica en ingls y, el sintagma, el patrn respectivo y la dependencia sintctica en espaol. Los datos se pueden filtrar desde cualquier campo para obtener los resultados descritos y explicados en esta tesis. En resumen, se presentan 1.055 registros en ingls, 1.102 en espaol y 210 del corpus paralelo con todos los datos antes descritos. Este recurso puede ser empleado principalmente para la enseanza de traduccin cientfico-tcnica y la enseanza de terminologa para traductores u otros profesionales como se explica ms adelante. [Link] Recomendaciones para la enseanza de la traduccin Si se tiene en cuenta que los sintagmas nominales extensos especializados son un problema frecuente en la traduccin, se esperara que el fenmeno estuviera descrito, explicado en los manuales de traduccin y se sugieran estrategias para traducirlos del ingls al espaol. Al contrario, en ninguno de los manuales de traduccin ni en artculos de traduccin se describen y se sugieren estrategias. A partir de los resultados de esta tesis, un profesor de traduccin puede proponer estrategias diferentes, disear guas didcticas para la enseanza de la traduccin de los SNEE y compilar material para ensear a traducir sintagmas nominales extensos especializados.
367
A continuacin, se sugieren algunas estrategias. Ante la presencia de un sintagma el alumno debe seguir la siguiente estrategia, que se deben complementar con las explicaciones de los principales patrones en 8.6. El aprendiz de traductor debe: 1. identificar los lmites del sintagma: el aprendiz de traductor debe saber donde comienza y donde termina el sintagma. Debe identificar ante todo el ncleo y despus los modificadores de derecha a izquierda hasta que encuentre un determinante, una preposicin o un verbo, principalmente. 2. identificar el patrn superficial del sintagma. 3. comparar si el patrn identificado est descrito en nuestra base de datos. 4. independientemente de si aparece o no en nuestra base de datos, el alumno debe identificar las relaciones de dependencia del sintagma para poder interpretarlo de modo correcto en ingls. 5. comparar su anlisis con las relaciones de dependencia de la base de datos para observar si se trata de la dependencia ms comn del patrn. 6. a continuacin, analizar los patrones en espaol encontrados para el patrn en ingls y los relaciona con la dependencia sintctica que ha analizado. 7. a partir de estos datos, interpretar los sintagmas en espaol y sugiere una traduccin de acuerdo con el patrn ms frecuente sin dejar de analizar las otras posibilidades que puedan existir. 8. Si fuera posible, guardar los datos en una base de datos terminolgica asociada a una memoria, de modo que si vuelve a aparecer dicho sintagma pueda recuperar la traduccin solucionada.
368
G. Quiroz
Igualmente, el profesor puede preparar sintagmas de la base de datos con las formas compuestas del tipo Adv Adj, Adv PP, N N y Adj N para observar lo siguiente: 1. identificar estas estructuras dentro del sintagma. 2. identificar las relaciones de dependencia que ocurren en los sintagmas. 3. interpretar estas relaciones de dependencia 4. interpretar las restricciones de tipo morfolgico que ocasionan dentro del sintagma como se ha discutido en 4.5.2 y 5.5.2. 5. hacer las interpretaciones posibles de estos compuestos en espaol. 6. proponer traducciones al espaol de estos compuestos dentro del sintagma. De este modo, el profesor de traduccin cubre los sintagmas ms extensos como se ha dicho antes. Igualmente, el profesor puede hacer resmenes de artculos de investigacin de diferentes reas para que el estudiante identifique este tipo de sintagmas, entre otros aspectos lingsticos dentro de la fase de anlisis del texto y luego los traduzca correctamente dentro de la fase de traduccin. [Link] Recomendaciones para la enseanza de la terminologa No son pocos los autores que afirman que los trminos polilexemticos componen la mayor parte de los trminos y de las nuevas denominaciones que se crean en un mbito de conocimiento. Sin embargo, ningn manual de terminologa o terminografa los describe, explica y sugiere estrategias para tratarlos adecuadamente. Slo en algunos artculos de terminologa se describen 369
algunas estructuras sintagmticas como se ha comentado antes. An as, solo se han descrito unos cuantos patrones, pero no los ms frecuentes. A partir de los resultados de esta tesis, un profesor de terminologa puede crear diferentes estrategias y crear material para tratar terminogrficamente este tipo de estructuras para la extraccin y anlisis de denominaciones. Por un lado, el profesor de terminologa puede emplear los patrones y los diferentes anlisis lingsticos expuestos en 4. y 5; y, por otro lado, los datos de traduccin de 8.6 pueden ser tiles para el tratamiento de terminologa bilinge. As, el aprendiz de terminlogo debe: 1. identificar los lmites del sintagma durante la fase de extraccin de los candidatos a trminos. El aprendiz de terminlogo debe saber donde comienza y donde termina el sintagma. Este dcoupage es un verdadero problema en las lenguas romances y para solucionarlo, se debe tener en cuenta las estructuras de la base de datos. 2. identificar el patrn superficial del sintagma teniendo en cuenta los 20 ms frecuentes encontrados en los corpus de anlisis y lexicogrfico, para dar una puntuacin a los ms frecuentes al comparar si el patrn identificado est descrito en nuestra base de datos. 3. durante la identificacin, tener en cuenta los tipos de ncleo ms productivos morfolgicamente para aumentar las posibilidades del candidato a trmino y asignar una puntuacin si el ncleo tiene un sufijo muy productivo. Por ejemplo, aquellos sintagmas que tienen el sufijo in y sus alomorfos tienen ms posibilidades de ser trmino que aquel sintagma con la misma estructura y similar modificacin pero sin un ncleo nominalizado (transmisin autosmica recesiva vs. forma autosmica recesiva). 4. observar los aspectos morfolgicos de la modificacin y asignar una puntuacin ms alta a las estructuras ms prototpicas que se han descrito. Por ejemplo, aquellas estructuras que tienen sufijos nominalizadores y adjetivos relacionales tendrn ms posibilidades de ser trminos. Por ejemplo, si un 370
G. Quiroz
sintagma tiene el patrn N Adj Adj y tiene un ncleo terminolgico, es decir, que pertenece al campo en cuestin y, adems los dos adjetivos son relacionales, entonces ese sintagma tiene ms posibilidades de ser trmino (gen supresor tumoral). En cambio, si uno de los adjetivos es calificativo ese sintagma tiene menos posibilidades que el anterior (insuficiencia renal crnica). 5. independientemente de si aparece o no en nuestra base de datos, el alumno debe identificar las relaciones de dependencia del sintagma para poder interpretarlo de modo correcto como lo propone Cabr (1993: 185). 6. debe comparar su anlisis con las relaciones de dependencia de la base de datos para observar si se trata de la dependencia ms frecuente del patrn. 7. si hace terminologa bilinge, analizar los patrones en espaol encontrados para el patrn en ingls y relacionarlos con la dependencia sintctica que ha analizado. 8. a partir de esta informacin, introducir los datos en una base de datos y asignarle un valor de acuerdo con los datos sugeridos en nuestra base de datos. [Link] Recomendaciones para la extraccin de la terminologa Al igual que las recomendaciones hechas para la enseanza de la terminologa, muchas de ellas tambin son tiles para la extraccin de terminologa. A continuacin, se describen algunas estrategias para que un extractor identifique las unidades sintagmticas que se han descrito en esta tesis. 1. tener en cuenta las estructuras ms frecuentes que hemos descrito tanto para los corpus de anlisis como para el corpus lexicogrfico. En general, casi todas pertenecen a las reglas [(SN SA)SN (SP (SN SA))SP (SP (SN SA))SP] y [(SN)SN (SP SN)SP (SP SN)SP SP SN)SP (SP (SN SA))SP|(SP SN)SP]. 371
2. se debe agregar, si es posible, un analizador sintctico para que especifique las relaciones de dependencia de los diferentes constituyentes y asignar una puntuacin mayor a los sintagmas de acuerdo con los datos del 4.3.5 y 5. 3.5. La mayor parte de los patrones responden a las dependencias, [C [[B A]] en ingls y [A [B C]] en espaol. 3. programar para que d mayor peso a aquellas estructuras que tienen como ncleo a un sustantivo del diccionario del sistema o que morfolgicamente tengan sufijos nominalizadores. 4. igualmente, el sistema debe dar ms peso a aquellas estructuras que tengan adjetivos relacionales y en especial a los que tengan los sufijos ms frecuentes -ico, -al (-ar), -nte, -ble, -eo, -ario, -ino, -ivo, oso y -udo y a las estructuras que tienen adverbios en -mente que indican rea temtica o formas adverbiales del latn como in vivo, in vitro, etc. 5. combinar la extraccin con informacin semntica del rea mediante el uso de diccionarios especializados u ontologas para que cada sintagma que tenga dicha informacin en su ncleo o parte de la modificacin sea mejor puntuado. Por tanto, si se combinan los patrones, la informacin sintctica, morfolgica y semntica, conjuntamente con la frecuencia y la dispersin del sintagma en el corpus podr extraerse sintagmas terminolgicos de ms de 2 tokens sin demasiado ruido.
G. Quiroz
correspondiente, tal como se haba planteado inicialmente. No quiere decir eso que no haya sintagmas ms extensos de 6, 7 y 8 tokens en los corpus analizados. De hecho, en ensayos previos se han obtenido mejores resultados en este sentido debido a que se hizo una extraccin manual. Esto se debe a que entre ms extenso sea el sintagma ms difcil es su extraccin automtica debido principalmente a problemas de etiquetaje y desambiguacin como se ha mostrado. As que sera necesario compilar grandes corpus para detectar sintagmas nominales ms extensos. De esta forma, se pueden obtener ms ocurrencias en ambas lenguas para hacer estadsticas ms confiables y comparar las regularidades en los casos de seis, siete o ms tokens. Somos conscientes de que, al menos en espaol, no es fcil compilar tales corpus paralelos con textos en formato IMMRAD. Para hacer generalizaciones, es necesario aumentar astronmicamente el corpus y, aun as, es muy probable que no haya suficientes sintagmas nominales para poder generalizar. Puesto que es una limitacin procedimental es preferible emplear otros procedimientos tal como analizar la estructura de los sintagmas en pares binarios, como se ha explicado antes. La segunda limitacin de esta tesis tiene que ver con el tipo de estadstica realizada ya que se hizo una estadstica descriptiva absoluta y no relativa frente al corpus ya que los datos de los diferentes corpus se trataron de igual manera. Sin embargo, la consulta hecha a la RAE, en la cual se tienen ambos tipos de estadstica, conserva en general los primeros 20 patrones aunque su orden s vara. Para ello, hubiera sido necesario obtener la dispersin de cada uno de los patrones pero no fue posible obtener esta medida por problemas tcnicos. En nuestros resultados puede observarse que hay patrones con frecuencias medias que aparecen en casi todos los documentos del corpus. Si se tuviera en cuenta la aparicin en los diferentes documentos del corpus en los primeros 20 patrones existe una tendencia importante entre la frecuencia y la aparicin de un patrn en los textos. Es decir, entre ms frecuente sea un patrn, aparece ms en los textos del corpus. Esta relacin no se correlaciona 373
exactamente con cuatro patrones (Adj N N, Adv Adj N, N N N N y Adj Adj N N) en los cuales hay una ligera variacin entre su frecuencia y un aparente porcentaje ms bajo. Sin embargo, ese porcentaje no es dramticamente bajo puesto que se encuentra dentro del rango de los 20 primeros. La tercera limitacin de esta investigacin radica en la metodologa de extraccin ya que se ha optado por hacer una exploracin piloto del corpus y obtener patrones de la bibliografa antes de la extraccin final. Posteriormente, se ha visto que poda explorarse antes el corpus lexicogrfico para posteriormente hacer la extraccin final del corpus. Esto no hubiera cambiado necesariamente los datos de la tesis ya que los patrones ms frecuentes aparecen en todos los corpus. Sin embargo, los datos pueden tener algunas variaciones en los patrones de mediana frecuencia ya que algunos patrones de los diccionarios no se exploraron en el corpus de anlisis. Esto no se hizo pues los datos de los diccionarios se adquirieron posteriormente y se usaron como corpus de contraste. Una ltima limitacin es que los datos cuantitativos relacionados con las categoras lxicas se deben mirar a la luz de los estudios relacionados con modificacin mltiple. Es posible que, si se hace un estudio que incluya patrones de 2 tokens, los datos puedan variar ya que el patrn N Adj es muy frecuente en la lengua. Esta tesis propone varias lneas de trabajo, de las que se pueden mencionar las siguientes. 1. Para afinar las generalizaciones sobre los patrones de esta tesis, es necesario contrastar los resultados contra un corpus general como se ha hecho, pero en este caso es necesario excluir las reas tcnicas del corpus para observar si los datos de esta tesis son lo suficientemente discriminantes para el discurso especializado.
374
G. Quiroz
2. Aunque los resultados de los anlisis no han proporcionado suficiente informacin para hacer generalizaciones sobre patrones semnticos, han sido tiles en cuanto a la informacin que se ha agregado a la muestra de modo que confirmar aspectos relacionados con la pertenencia de los sintagmas al rea temtica. Para propsitos terminolgicos es necesario continuar investigando en otras reas del conocimiento y contrastando el corpus de lengua general para establecer las tendencias que se han presentado en esta tesis. Este contraste permitir saber si el uso de una ontologa es lo suficientemente discriminante en los sintagmas para entrenar sistemas de extraccin de terminologa. As, la combinacin de patrones, frecuencia, dependencias, aspectos morfolgicos y restricciones sintcticas e informacin semntica del rea permitir minimizar el ruido que pueden ocasionar algunos patrones. Como se ha comentado en las limitaciones, sera interesante medir la dispersin de los patrones en un corpus, de manera que en las herramientas de explicitacin de los corpus se puedan introducir parmetros de uso. 3. Un rea de mucho inters es estudiar los patrones de colocaciones binarias dentro de la modificacin ya que al actuar como un conjunto sintctico y combinado con algunas caractersticas morfolgicas (i. e. adjetivos relacionales) pueden ayudar en la deteccin de unidades y servir de material para el entrenamiento de traductores. En esta misma lnea es necesario estudiar tambin aquellos patrones o sintagmas que tienen guiones o son irregulares para aportar ms soluciones en la descripcin y clasificacin de SNEE. 4. Finalmente, otro aspecto interesante puede ser trabajar en la interpretacin de las estructuras como lo propone Gotti (2003: 69-73), en el sentido de parafrasear oracionalmente estas estructuras nominales con el fin de hacer explcitas las relaciones semnticas entre los diferentes elementos. Este tipo de trabajo es de vital importancia para la enseanza de la traduccin y de lenguajes especializados.
375
376
G. Quiroz
Bibliografa
Abad Nebot; Ferraz M. A.; Torrego G. (1980). Curso de lengua espaola. Orientacin universitaria. Madrid: Editorial Alhambra. Abberton, Evelyn. (1977). Nominal Group Premodification Structures. En: Bald, W-R.; Ilson, R. (Ed.). Studies in English Usage: The Resources of a Present-Day English Corpus for Linguistic Analysis. Frankfurt am Main: Peter Lang. 29-72. Abril Mart, Isabel; Ortiz Urbano, Cocha. (1998). Formacin de intrpretes de conferencia en el mbito biosanitario ingls/espaol- la experiencia de la Facultad de Traduccin e interpretacin de la Universidad de Granada. En: Fernndez, Leandro; Ortega, Emilio (Coords.). Traduccin e interpretacin en el mbito biosanitario. Granada: Comares. Adelstein, Andrena. (1998). Condiciones de la reductibilidad lxica de los sintagmas terminolgicos. En: Actas del VI Simposio Iberoamericano de Terminologa RITerm, La Habana. [CD-ROM]. Alarcos, Emilio. (1980). Gramtica Funcional del Espaol. Madrid, Gredos. Alcaraz Var, Enrique. (2000). El ingls profesional y acadmico. Madrid: Alianza. Alonso, Araceli; Cabr, Teresa; De Yzaguirre, Llus; Teb, Carles. (2002). La utilizacin de corpus paralelos alineados en la docencia de la traduccin y de los lenguajes de especialidad. En: Iglesias, L.; Doval, S. (Ed.). Proceedings of the
377
Second International Contrastive Linguistics Conference. Santiago de Compostela: Publicacins de la Universidade de Santiago de Compostela. 71-82. Alvar Ezquerra, Manuel. (1993). La formacin de palabras en espaol. Serie Cuadernos de lengua espaola. Madrid: Arcos. Amaro de Melo, Bianca. (1998). Las unidades terminolgicas complejas en el reas de telecomunicaciones. Tesis de DEA no publicada. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. Dir. Teresa Cabr y Enilde Faulstich. Arntz, Reiner. (1982). Methoden der fachsprachlichen bersetzerausbildung im Sprachenpaar Spanisch und Deutsch. En: Rodrguez Richart, Jos; Thome, Gisela; Wilss, Wolfram (Ed.). Fachsprachenforschung und -lehre. Schwerpunkt Spanisch. Tubinga: Narr. 114-117. Arntz, Reiner. (1993). Terminological Equivalence and Translation. En: Sonneveld, Helmi; Loening, Kurt l. Terminology: Applications in Interdisciplinary Communication. Amsterdam: John Benjamins. 13-15. Arntz, Reiner; Picht, Heribert. (1995). Introduccin a la terminologa. Madrid: Pirmide. Assal, Allal; Delavigne, Valrie. (1993). Dcoupage des units terminologiques complexes: limite des critres linguistiques. En: Actes de la 4me journe ErlaGlat, "Langues de spcialit, outils et thories". Bretagne: ENST de Bretagne. 175-193. Banks, David. (Ed.). (2001). Le group nominal dans le texte spcialis. Paris: LHarmattan. Bark, Julia. (1980). Lets Write English. New York: Academic Press.
378
G. Quiroz
Barker, Ken. (1998). A Trainable Bracketer for Noun Modifiers. En: AI, 196210. Barker, Ken; Szpakowicz, Stan. (1998). Semi-Automatic Recognition of Noun Modifier Relationships. En: Coling-ACL 98, Proceedings 36th Annual Meeting of the Association for Computational Linguistics. Montreal: Coling. 96-102. Bauer, Laurie. (1982). English Word-Formation. Cambridge: Cambridge University Press. Bdard, Jean-Claude. (1986). La traduction technique: principes et pratique. Montreal: Linguatech. Bennett, Paul. (1993). A Multilingual Translation-Oriented Typology of Compound Nouns. En: T.A.L., 34 (2). 48-58. Bevilacqua, Cleci. (2004). Unidades fraseolgicas especializadas eventivas: descripcin y reglas de formacin en el mbito de la energa solar. Tesis doctoral. Barcelona, Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. Dir. Teresa Cabr. Biber, Douglas; Johansson, Stig; Leech, Geoffrey; Conrad, Susan; Finegan, Edward. (1999). Logman Grammar of Spoken and Written English. London: Logman. Blake, Gari; Bly, W. Robert. (1993). The Elements of Technical Writing. New York: MacMillan. Bodenreider, Olivier; McCray, Alexa. (2003). Exploring Semantic Groups through Visual Approaches. En: Journal of Biomedical Informatics, 36. 414 432.
379
Bosque, Ignacio. (1999). El sintagma adjetival: Modificadores y complementos del adjetivo. Adjetivo y participio. En: Bosque, Ignacio; Demonte, Violeta. Gramtica descriptiva de la lengua espaola, 1. Madrid: Espasa. 217-310. Bosque, Ignacio; Demonte, Violeta. Gramtica descriptiva de la lengua espaola, 1. Madrid: Espasa. Boughedaoui, Mourand. (1995). Les squences collocationnelles et la dynamique de la composition adjetivale. En: Les Cahiers de lApliut, 15 (1). 4758. Boughedaoui, Mourand. (1996). Essai de categorisation smantique des adjetives composs (1). En: Les Cahiers de lApliut, 16 (1). Boughedaoui, Mourand. (1996). Essai de categorisation smantique des adjetives composs (2). En: Les Cahiers de lApliut, 16 (2). 37-54. Boughedaoui, Mourand. (1997). Contribution lamlioration de la
comprhension et de la traduction des adjectifs composs en classe de langue de spcialit. En: Asp, 15-18. 225. Boughedaoui, Mourand. (1998). Comparative Study of the Distribution of Adverb-Adjective Combinations with a Special Concern in English for Statistics. En: Les Cahiers de lApliut, 17 (2). 37-54. Boughedaoui, Mourand. (2001). Contribution des associations syntagmatiques adjectivales la complexification du groupe nominal dans le texte spcialis. En: Banks, David (Ed.). Le group nominal dans le texte spcialis. Paris: LHarmattan. 137-150. Bourigault, Didier. (1993). Analyse syntaxique locale pour le reperage de termes complexes. En: T.A.L., 34 (2). 105-117.
380
G. Quiroz
Brown, Peter; Lai, Jennifer; Mercer, Robert. (1991). Aligning Sentences in Parallel Corpora. En: Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics. Berkeley: University of California. 169-176. Burgos, Diego. (2006). Concept and Usage-Based Approach for Highly Specialized Technical Term Translation. En: Gotti, M.; Sarcevic, S. (Ed.). Translation of Specialized Text. Linguistic Insights series. Berna: Peter Lang. Burgun, Anita; Bodenreider, Olivier. (2001). Comparing terms, concepts and semantic classes in WordNet and the Unified Medical Language System. En: Proceedings of NAACL'2001 Workshop. Association for Computational Linguistics. 77-82. Burnett, Rebeca. (1992). Technical Communication. Californa: Wadsworth. Cabr, Mara Teresa. (1993). La terminologa: teora, metodologa,
aplicaciones. Barcelona: Antrtida. [trad. Teb, Carles]. Cabr, Mara Teresa. (1999). Elementos para una teora de la terminologa: hacia un paradigma alternativo. En: Cabr, Mara Teresa. La Terminologa: representacin y comunicacin. Elementos para una teora de base comunicativa y otros artculos. Barcelona: Institut Universitari de Lingstica Aplicada. Universitat Pompeu Fabra. 69-92. Cabr, Mara Teresa. (1999). Hacia una teora comunicativa de la terminologa: aspectos metodolgicos. En: Cabr, Mara Teresa. La terminologa: Representacin y comunicacin. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. 129-150. Cabr, Mara Teresa. (1999). Una nueva teora de la terminologa: de la denominacin a la comunicacin. En: Cabr, Mara Teresa. La Terminologa: representacin y comunicacin. Elementos para una teora de base 381
comunicativa y otros artculos. Barcelona: Institut Universitari de Lingstica Aplicada. Universitat Pompeu Fabra. 109-128. Cabr, Mara Teresa. (1999). La terminologa: representacin y comunicacin. Una teora de base comunicativa y otros artculos. Barcelona: Institut Universitari de Lingstica Aplicada- Universitat Pompeu Fabra (Series monografies, 3). Cabr, Mara Teresa. (2002). Terminologa y lingstica: la teora de las puertas. En: Estudios de Lingstica Espaola (ELIES), 16. [[Link] Cabr, Mara Teresa. (2003). El lenguaje cientfico desde la terminologa. En: Gutirrez Rodilla, Bertha M. (Ed.). Aproximaciones al lenguaje de la ciencia. Burgos: Fundacin Instituto Castellano y Leons de la Lengua. 19-52. Cabr, Mara Teresa; Estop, Rosa. (2005). Unidades de conocimiento especializado, caracterizacin y tipologa. En: Cabr, M. Teresa.; Bach, Carme. Coneixement, llenguatge i discurs especialitzat. 69-94. Caf, Ligia. (1999). La Description et lanalyse des units terminologiques complexes en langue portugaise (varit brsilienne). Tesis doctoral no publicada. Universit Laval. Dir. Auger, Pierre; Faultish, Enilde. Calonge, Julio. (1995). El lenguaje cientfico y tcnico. En: Seco, M.; Salvador, G. (Ed.). La lengua espaola, hoy. Madrid: Fundacin Juan March. 175-186. Cardero Garca, Ana Mara. (2004). Lingstica y terminologa. Mxico: Facultad de Estudios Superiores-Acatln, Universidad Nacional Autnoma de Mxico.
382
G. Quiroz
Cardero, Ana Mara. (2000). En torno a la frecuencia de algunas estructuras sintcticas en terminologa. En: Actas de VIII Simposio Internacional de la Red Iberoamericana de Terminologa. Lisboa: Colibr. Cartagena, Nelson. (1998). Acerca de la variabilidad de los trminos sintagmticos en textos espaoles especializados. En: Wotjak, Gerd (Ed.). Estudios de fraseologa de espaol actual. Madrid y Frankfurt: Iberoamericana. 281-296. Casadei, Federica. (1994). Il lessico nelle strategie di presentazione dellinformazione scientifica: il caso della fisica. En: De Mauro, T. (Ed.). Studi sul trattamento linguistico dellinformazione scientifica. Roma: Bulzoni. 47-69. Chambers, Chris. (1994). Analysing and Generating English Compound Structures for Machine Translation. En: Bouillon, P.; Estival, D. (Ed.). Proceedings of the Workshop on Compound Nouns: Multilingual Aspects of Nominal Composition. Geneva: ISSCO. 125134. Chang, Jason; Chen, Mathis. H. (1997). An Alignment Method for Noisy Parallel Corpora based on Image Processing Techniques. En: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics. San Francisco, Madrid: UNED. Coates, Jennifer. (1977). A Corpus Study of Modifiers in Sequence. En: Bald, W-R.; Ilson, R. (Ed.). Studies in English Usage: The Resources of a PresentDay English Corpus for Linguistic Analysis. Frankfurt am Main: Peter Verlag. 9-27. Collet, Tanja. (1997). La rduction des units terminologiques complexes de type syntagmatique. En: Meta, 42 (1). 193-206.
383
Collet, Tanja. (2003). A Two-Level Grammar of the Reduction Process of French Complex Terms in Discourse En: Terminology 9 (3). 1-27. Corts, Jess Andrs. (2004). Anlisis lingstico de trminos comparados en ingls tcnico agrcola. Tesis de doctorado no publicada, Universidad Complutense de Madrid. Dir. Mara Luisa Vega. Coseriu. Eugenio. (1973). Einfhrung in die strukturelle Betrachtung des Worschatzes. Tubinga: Gunter Narr. Daille, Batrice; Dufour-Kowalski, S.; Morin, E. (2004). French-English MultiWord Terms Alignment Based on Lexical Content Anlisis. En: Proceedings Fourth International Conference on Language Ressources and Evaluation (LREC 2004), 3. 919-922. David, Sophie. (1993). Les units nominales polylexicales: lments de description et reconnaissance automatique. Tesis doctoral no publicada. Paris: Universit Denis Diderot. Dir. F. Corblin. De Mauro, Tullio (Ed.). (1994). Studi sul trattamento linguistico
dellinformazione scientifica. Roma: Bulzoni. Demonte, Violeta. (1999). El adjetivo: clases y usos. La posicin del adjetivo en el sintagma nominal. En: Bosque, Ignacio; Demonte, Violeta. Gramtica descriptiva de la lengua espaola, 1. Madrid: Espasa. 129-216. Dixon, Robert. (1977). Where Have All the Adjectives Gone? En: Studies in Language, 1. 19-80. Downing, Pamela. (1977). On the Creation and Use of English Compounds Nouns. En: Language, 53 (4). 810-842.
384
G. Quiroz
Drouin, Patrick. (1997). Une mthodologie d'identification automatique des syntagmes terminologiques: L'apport de la description du non-terme. En: Meta, 42 (1). 45-54. Durieux, Christiene. (1988). Fondament didactique de la traduction technique. Paris: Didier Erudition. Durieux, Christine. (1997). La Recherche terminologique en traduction: pour une approache hypertextuelle. En: Meta, 42 (4). 677-684. Escandell Vidal, M. Victoria. (1995). Los complementos del nombre. Madrid: Arco/Libros. Estop, Rosa. (1999). Extracci de terminologia: elements per a la construcci dun SEACUSE. Tesis Doctoral. Dir. Teresa Cabr. Institut Universitari de Lingstica Aplicada: Barcelona. Estop, Rosa. (2000). Los adjetivos en las unidades terminolgicas polilxicas: un anlisis morfosemntico. En: Organon, 14, (28/29). 233-246. Estop, Rosa. (2001). Les units de signification spcialises: largissant lobjet du travail en terminologie En: Terminology 7 (2), 217237. Estop, Rosa; Lorente, Merc; Folguer, Rosa-Anna. (2002). El rol de los adjetivos en los textos especializados. En: Actas del VIII Simposio Iberoamericano de Terminologa. [CD-ROM]. Estop, Rosa; Valero, Tony. (2002). Adquisicin de conocimiento especializado y unidades de significacin especializada en medicina. En: Panace@ - Boletn de Medicina y Traduccin, 3 (9-10), 72-82. [[Link]
385
Fhndrich,
Ursula.
(2005).
Terminology
Project
Management.
En:
Terminology 11 (2). 225-261. Faultisch, Enilde. (2003). Formao de termos: do constructo e das regras s evidncias empricas. En: Faulstich, Enilde; Pereira de Abreu, Sabrina. (Ed.). Lingstica Aplicada Terminologia e Lexicografia. Porto Alegre: UFRGS. 11-31. Fedor de Diego, Alicia. (1995). Terminologa: teora y prctica. Caracas: Equinoccio. Felber, Helmut; Picht, Heribert. (1984). Mtodos de terminografa y principios de investigacin terminolgica. Madrid: Instituto Miguel de Cervantes. Feliu, Judit. (2004). Relacions conceptuals i terminologia: anlisi i proposta de detecci semiautomtica. Tesis doctoral. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. Dir. Teresa Cabr. Fernndez, Salvador. (1986). Gramtica Espaola. Madrid: Arco/Libros. Finin, Timothy W. (1980). The Semantic Interpretation of Compound Nominals. University of Illinois, Urbana-Champaign. University Microfilms International. Finin, Timothy W. (1986). Contraining the Interpretation of Nominal Compounds in a Limited Context. En: Grishman, Ralph; Kittredge, Richard (Ed.). Analysing Language in Restricted Domains. New Jersey: Lawrence Erlbaum Associates. 163-173. Folguer, Rosana. (2002). Adjectius en el discurs espacialitzat: Una pirmera descripci dels adjectius en els textos del Genoma Hum. Tesis de DEA sin publicar. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. Dir. Merc Lorente. 386
G. Quiroz
Gale, William; Church, Kenneth. (1991). A Program for Aligning Sentences in Bilingual Corpora. En: Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics. Morriston, NJ.: University of California. 177-184. Gallardo San Salvador, Natividad. (1997). El orden de la descripcin de las caractersticas y su importancia para la denominacin y traduccin de un trmino: Casos que se presentan en trminos de nutricin. Tesis doctoral.. Departamento de Filologa Inglesa, Facultad de Filosofa y Letras, Universidad de Granada. Dir. Fernando Serrano V. Gallegos Shibya, Alfonso. (2000). Morfologa y registro: Algunas relaciones entre tradiciones discursivas y morfologa derivativa en espaol. En: Funcin, 20-24. 142-215. Gallegos Shibya, Alfonso. (2003). Nominalizacin y registro tcnico. Algunas relaciones entre morfopragmtica, tradiciones discursivas y desarrollo de la lengua en espaol. Tesis doctoral no publicada. Fakultt der Albert-LudwigsUniversitt Freiburg i Br. Dir. Elisabeth Cheaur. Galve, Ignacio Guilln. (1998). The Textual Interplay of Grammatical Metaphor on the Nominalizations Occurring in Written Medical English. En: Journal of Pragmatics, 30 (3). 363-385. Garca Yebra, Valentn. (1989b)[1997]. Teora y prctica de la traduccin, 2. Ed., II Vol. Madrid: Gredos. Georges, Thomas. (1996). Analytical Writing for Science and Technology. [[Link] [Consultado el 15 de julio de 2003].
387
Gili Gaya, Samuel. (1961). Curso Superior de Sintaxis Espaola, Barcelona, Biblograf. Giraldo Ortiz, John Jairo. (2005) Anlisis y descripcin de las siglas en el discurso especializado de genoma humano y de medio ambiente. Tesis de DEA no publicada. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. Dir.: M. Teresa Cabr. Gotti, Maurizio. (1991). I Linguaggi specialistici: caratteristiche linguistiche e criteri pragmatici. Firenze: La Nuova Italia. Gotti, Maurizio. (2003). Specialized Discourse: Linguistic Features and Changing Conventions. Linguistic Insights, 8. Berna: Peter Lang. Guzmn, Blanca Mercedes. (2002). Compuestos nominales del discurso cientfico escrito en ingls (microbiologa mdica): un estudio retricoterminolgico. Tesis de maestra no publicada. Facultad de Humanidades y Educacin, Universidad de los Andes. Dir. Dr. Franoise Salager Meyer. Halliday, Michael M. K. (1998). Things and Relations: Regrammaticising experience and technical knowledge. En: Martin, J.R. and Veel, Robert (Ed.). Reading Science: Critical and Functional Perspective on Discourses of Science. London: Roudledge. Halliday, Michael M. K.; Hasan, Ruqaiya. (1976). Cohesion in English. London: Logman. Halliday, Michael. M. K. (1991). An Introduction to Functional Grammar. London: Edward Arnold. Hanns, Michael. (1990). The Key to Technical Translation. Vol I y II. Amsterdam/Philadelphia: John Benjamins.
388
G. Quiroz
Herzog, Robert (1971). Gengenwartige Tendenzen in der terminologischen Wortbildung. En: Mitteilungsblatt fr Dolmetscher und bersetzer, 17 (9-10). 3-6. Herzog, Robert. (1978). On the Relative Order of Adjectives. En: Seiler, H. (Ed.). Language Universals. Tbingen: Gunten Narr. 165-184. Hoffmann, Lothar. (1987) [1975]. Kommunikationsmittel Fachsprache: Eine Einfhrung. Tbingen Gunter Narr: Tbinga. Hoffmann, Lothar. (1998). Llenguatges despecialitat: selecci de textes. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. Hlz-Mantari, Justa. (1984). Translatorishes Handeln. Helsinki: Soumalainen Tiedeakatemia. Horsella, Mara; Prez, Fresia. (1991). Nominal Compounds in Chemical English Literature: Towards an Approach to Text Typology En: English for Specific Purposes, 10. 125-138. Huddleston, Rodney; Pullum, Geoffrey. (2002). The Cambridge Grammar of the English Language. Cambridge: Cambridge University Press. Hurford, Jim. (1998). The interaction between numerals and nouns. En: Plank, F. (Ed.). Noun Phrase Structure in the Languages of Europe. Berln: Walter de Gruyter. 561-620. Iturrioz Leza, Jos Luis. (2000). Diversas Aproximaciones a la nominalizacin. De las Abstracciones a las macrooperaciones textuales. En: Funcin, 20-24. 32140.
389
Jastrab de Saint-Robert, Marie-Jose. (1987). Les syntagmes nominaux complexes en anglais et en franaise. En: Meta, 32 (3). 260-266. Kaul de Marlangeon, Silvia Beatriz. (2002). Los adverbios en -mente del espaol de hoy y su funcin semntica de cuantificacin. Frankfurt am Main: Vervuert/Madrid: Iberoamericana. Kirkman, John. (1992). Good Style: Writing for Science and Technology. London: Chapman & Hall. Kocourek, Rostilav (1981). Prerequisites for an Applicable Linguistic Theory of Terminology. En: Savard, Jean-Guy; Laforge, Lorne. Actes du 5e Congrs de lAssociation Internationale de Linguistique Applique. Qubec: Presses de l'Universit Laval. 216-228. Kocourek, Rostilav. (1991). La langue franaise de la technique et de la science: vers une linguistique de la langue savante, 2. ed. Wiesbaden: Brandstetter. Kornfeld, Laura; Resnik, Gabriela. (2002). Sintagmas terminolgicos con adjetivos pasivos. En: Actas del VIII Simposio Iberoamericano de Terminologa: La Terminologa, entre la globalizacin y la localizacin. Cartagena, Colombia. [[Link] Lacuesta, Ramn; Bustos, Eugenio. (1999). La derivacin nominal. En: Bosque, Ignacio y Demonte, Violeta. Gramtica descriptiva de la lengua espaola, 3. Madrid: Espasa. 4505-4594. Ladouceur, Jacques; Drouin, Patrick. (1997). Une analyse terminomtrique pour le reprage automatique des descripteurs complexes dans les textes de spcialit. En: Meta, 42 (1). 207-218.
390
G. Quiroz
Lagoudaki, Elina. (2006). Translation Memory Survey 2006. Imperial College London: London. [[Link] Le Masle, Karine. (2001). Syntagme nominal fleuve dans le droit de l'environnement: la dsignation des dchets. En: Banks, David (Ed.). Le group nominal dans le texte spcialis. Paris: LHarmattan. 65-72. Lehrberger, John. (1982). Automatic Translation and the Concept of Sublanguage. En: Kittredge, Richard; Lehrberger, John (Ed.). Sublanguage: Studies of Language in Restricted Semantic Domains. Berlin: Walter de Gruyter. 81-106. Leonard, Rosemary. (1984). The Interpretation of English Noun Sequences on the Computer. The Netherlands: Elsevier. Levi, Judith N. (1978). The Syntax and Semantics of Complex Nominals. New York: Academic Press. L'Homme, Marie-Claude. (1994). Traitement des groups nominaux en traduction automatique: opportunit dun codage conceptuel. En: Proceedings of the Workshop on Nominal Compounds: Multilingual Aspects of Nominal Composition. Bouillon, Pierre; Estival, Dominique (Ed.). Universit de Genve. 147-161. L'Homme, Marie-Claude. (1997). Mthode d'accs informatis aux
combinaisons lexicales en langue technique. En: Meta, 42 (1). 15-23. Limaye, M.; Pompian, R. (1991). Brevity versus Clarity: The Comprehensibility of Nominal Compounds in Business and Technical Prose. En: Journal of Business Communication, 28(1). 7-21.
391
Linder, Daniel. (2002). Translating Noun Clusters and Nounspeak in Specialized Computer Text. En: Chabas, Jos; Gaser, Rolf; Rey, Jolle (Ed.). Translating Science. Barcelona: Universitat Pompeu Fabra. Lpez Ferrero, Carmen. (2002). Aproximacin al anlisis de los discursos profesionales. En: Signos, 35 (51-52). 195-215. Lpez Guix, Juan Gabriel; Minett Wilkinson, Jacqueline. (1997). Manual de traduccin espaol-ingls. Barcelona: Gedisa. Lorente, Merc. (2001). Altres elements lxics. En: Sol, Joan (Dir.) Gramtica del catal contemporani (Gcc). Barcelona: Empries. 831-888. Lorente, Merc. (2002). Verbos y discurso especializado. Estudios de Lingstica Espaola (ELIES), 16 [Publicacin electrnica http:// [Link]] Maalej, Zouhair. (1994). English-Arabic Machine Translation of Nominal Compounds. En: Bouillon, P.; Estival, D. (Ed.) Proceedings of the Workshop on Compound Nouns: Multilingual Aspects of Nominal Composition. Geneva: ISSCO. 135-146. Magnini, B., Strapparava, C.; Pezzulo, G.; Gliozzo, A. (2002). The Role of Domain Information in Word Sense Disambiguation. En: Natural Language Engineering, 8 (4). 359373. Maillot, Jean. (1981). La Traduction scientifique et technique. Paris: Eyrolles. Malgorzata, Tryuk. (2000). La phrasologie en terminologie: Quelques problmes de traduction. En: Babel, 46 (1). 6676. Maniez, Franoise. (2001). Extraction dune phrasologie bilingue en langue de spcialit: corpus parallles et corpus comparable. En: Meta, 46 (3). 553-563. 392
G. Quiroz
Marcos, Francisco. (1984). Curso de Gramtica Espaola. Madrid: Cincel. Melamed, D. (1997). A Portable Algorithm for Mapping Bitext
Correspondence. En: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics. San Francisco, Madrid: UNED. Mndez Cedn, Beatriz. (2002). Estrategias fraseolgicas en el gnero discursivo de los artculos cientficos mdicos en lengua inglesa. Tesis doctoral no publicada. Universidad de Valladollid. Dir. Purificacin Nistal F. Meunier-Crespo, Mariette. (1997). Les locutions nominales dans les dictionnaires de spcialits. En: Meta, 42 (1). 69-71. Meyer, Ingrid; Mackintosh, Kristen. (1996). Refining the Terminographers Concept-Analysis Methods: How Can Phraseology Help? En: Terminology, 3 (1). 1-26. Miller, George 1967. The Psychology of Communication. New York: Basic Books. Montero, Begoa. (1995). Noun Premodifications vs. Postmodification in Scientific English. En: Unesco-Alsed LSP Newsletter 18, 2 (40). 14- 27. Montero, Begoa. (1995). La estructura del grupo nominal complejo en el ingls cientfico escrito. Sus componentes premodificadores y sus correspondencias en espaol. Microfilmed Doctorate Thesis. Valencia: Universitat de Valencia.
393
Montero, Begoa. (1996). Technical Communication: Complex Nominals Used to Express New Concepts in Scientific English - Causes and Ambiguity in Meaning. En: The ESP, 17 (1). 57-72. Myking, Johan. (1989). Complex Noun Phrase as a Problem of Terminological Practice. En: Laurn, Christer; Nordman, Marianne (Ed.). Special Language: From Humans Thinking to Thinking Machines. Clevedon: Multilingual Matters Ltd. 265-274. Naulleau, Eli. (1998). Apprentissage et filtrage syntaxico-smantique de syntagmes nominaux pertinents pour la recherche documentaire. Tesis doctoral. Universit Paris XIII. Dir. Daniel Kaiser. Newmark, Peter. (1981). Approaches to Translation. London: Oxford Pergamon Press. Newmark, Peter. (1988). A Textbook of Translation. London: Prentice Hall International. Nord, Christiane. (1991). Text Analysis in Translation. Amsterdam-Atlanta: Rodopi. Norman, Guy. (1999). Cmo escribir un artculo cientfico en ingls. Madrid: Astrazeneca. Olsen, Leslie; Huckin, Thomas. (1991). Technical Writing and Professional Communication for Nonnative Speakers of English. Nueva York: McGraw. Ormod, Janet. (2001). Construction discursive de noms composs dans des textes scientifiques anglais. En: Banks, David (Ed.). Le group nominal dans le texte spcialis. Paris: LHarmattan. 9-24.
394
G. Quiroz
Oster, Ulrike. (2003). Los trminos de la cermica en alemn y espaol: Anlisis semntico orientado a la traduccin de los compuestos nominales en espaol. Univesitat Jaume I. Tesis doctoral. Dir. Amparo Alcina Caudet; Pilar Elena Garca. Oster, Ulrike. (2005). Las relaciones semnticas de trminos polilexemticos. Frankfurt am Main: Peter Lang. Palmer, Harold. (1968). The Scientific Study and the Teaching of Languages. Oxford: OUP. Pinchuck, Isadore. (1977). Scientific and Technical Translation. London: Andre Deutsch. Portelance, Christine. (1989). Syntagmes et Paradigmes. En: Meta, 34 (3). 260-266. Pugh, A. K.; Ulijn, Jan. M. (1984). Reading for Professional Purposes. London: Hienemann. Pugh, Jeanette. (1984). Contrastive Analysis of Noun Compound Terms in English, French, and Spanish within a Restricted, Specialized Domain. En: Hartmann, R. R. K. Proceedings LeXeter 83. Tbigen: Niemeyer. 395-400. Quirk, Randoldh; Greenbaum, Sidney; Leech, Geoffrey; Svartik, Jan. (1985). A Comprenhensive Grammar of the English Language. London: Logman. Quiroz, Gabriel. (2006). Using an English-Spanish Parallel Corpus to Solve Complex Premodification in Noun Phrases. En: Gotti, M.; Sarcevic, S. (Ed.). Translation of Specialized Text. Linguistic Insights series. Berna: Peter Lang. Quiroz, Gabriel. (2005a). Los sintagmas nominales extensos especializados en ingls y en espaol: descripcin y clasificacin en un corpus de genoma. 395
Papers del IULA, Srie Monografies, 10. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. [[Link] Quiroz, Gabriel. (2005b). Los sintagmas nominales extensos especializados en ingls y en espaol: descripcin y clasificacin en un corpus de genoma. Papers del IULA, Srie Monografies, 10. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. Quiroz, Gabriel (2005c). Traduccin de sintagmas nominales especializados extensos del ingls al espaol: estado de la cuestin y perspectivas. En: Rodrguez, Emma, (compiladora). Didctica de la traduccin y la terminologa Vol. 2. Coleccin Estudios de Traduccin y terminologa. Facultad de Humanidad, Escuela Ciencias del Lenguaje, Universidad del Valle. 181-198. Quiroz, Gabriel. (2003). Los sintagmas nominales especializados extensos en ingls: Primera descripcin en un corpus de genoma. Trabajo de investigacin de primera lnea de doctorado. Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra, Barcelona. Dir. Merc Lorente. Quiroz, Gabriel; De Yzaguirre, Llus; Lorente, Merc. (2004). El uso de corpus paralelos para la identificacin de sintagmas terminolgicos extensos: ingeniera lingstica al servicio de problemas de la traduccin. En: Actas del [Link] Congreso Internacional de Traduccin Especializada. Barcelona: Universitat Pompeu Fabra. Quiroz, Gabriel; Lorente, Merce. (2006). Los sintagmas nominales extensos como un problema de la traduccin: descripcin y clasificacin. En: Cabr, MT. et al. (Ed.). Actas del IX Simposio Iberoamericano de Terminologa, Riterm (Srie activitats, 17). Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. 381-392.
396
G. Quiroz
Quiroz, Gabriel; Lorente, Merc; De Yzaguirre, Llus. (2004). El uso de corpus paralelos para la identificacin de sintagmas terminolgicos extensos: ingeniera lingstica al servicio de la traduccin. En: Gaser, Rolf; Guirado, Cristina and Rey, Jol. Insights into Scientific and Technical Translation. Barcelona: PPU. 229-240. Quiroz, Gabriel; Muoz, C.; Plested, C; Giraldo, J. (2000). Translating Medical Texts into a Foreign Language: Some Methodological Considerations. En: Hermes: Journal of Linguistics, 25. 49-61. Quiroz, Gabriel; Muoz, Carlos. (1997). La traduccin hacia lengua extranjera mediante rastreos terminolgicos en rea de la malaria. Tesis de especializacin no publicada. Medelln: Universidad de Antioquia. Rainer, Franz. (1999). La derivacin adjetival. En: Bosque, Ignacio y Demonte, Violeta. Gramtica descriptiva de la lengua espaola. Vol. 3. Madrid: Espasa. 4505-4594. Sager, Juan Carlos. (1990). A Practical Course in Terminology Processing. Amsterdam/Philadelphia: John Benjamins. Sager, Juan Carlos. (1992). The Translator as a Terminologist. En: Dollerup, Cay; Loddegaard, Anne (Ed.). Teaching Translation and Interpreting. Amsterdam/Philadelphia: John Benjamins. Sager, Juan Carlos; Dungworth, D.; McDonald, P. F. (1980). English Special Languages. Principles and Practice in Science and Technology. Wiesbaden: Brandstteter. Salager-Mayer, Franoise. (1984). Compound Nominal Phrases in ScientificTechnical Literature: Proportion and Rationale. En: Pugh, A. K.; Ulijn, J. M. (Ed.). Reading for Professional Purposes. London: Heinemann.
397
Salazar Burgos, Hada Rosabel. (2006). Descripcin y representacin de los adjetivos deverbales de participio en el discurso especializado. Tesis de DEA no publicada. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. Dir. Rosa Estop. Scarpa, Federica. (2001). La traduzione specializzata: Lingue speciali e mediazione lingstica. Milano: Editore Ulrico Hoepli. Srinivassan, V. (1993). Developing Terminology Management Software for Translators. En: Schmitz, Klaus Dirk (Ed.). TKE' 93. Cologne: Indeks. 393-399. Stockwell, Robert; Bowen, J. Donald; Martin, John W. (1965). The Grammatical Structures of English and Spanish. Chicago: University of Chicago Press. Swales, John. (1974). Writing Scientific English. [S.L]: Nelson. Swales, John. (1985). The Function of One Type of Particle in a Chemistry Book. En: Trimble, Louis. English for Science and Technology. Cambridge: Cambridge University Press. 40-52. Thouvenin, Susan P. (1996). The Identification and Exemplification of MultiWord Units within a Technical Corpus of English, Including an Investigation of Nominal Groups. Tesis de maestra, University of Aston. [[Link] Trimble, Louis. (1985). English for Science and Technology. Cambridge: Cambridge University Press. Vanderwenden, Lucretia. (1995). The Analysis of Noun Sequences Using Semantic Information Extracted from On-Line Dictionaries. Tesis doctoral, Georgetown University. Dir. Donald Loritz.
398
G. Quiroz
Varantola, Krista. (1984). On Noun Phrase Structures in Engineering English. Turku: Turun Yliopisto. Varela, Soledad. (2005). Morfologa lxica: la formacin de palabras. Madrid: Gredos. Vzquez-Ayora, Gerardo. (1977). Introduccin a la traductologa. Washington: Georgetown University Press. Velsquez, Gonzalo. (1994). Proceso, Mtodos y Tcnicas de la Traduccin. Medelln: Universidad de Antioquia. Ventola, Eija; Mauranen, Anna. (1996). Academic Writing Intercultural and Textual Issues. Amsterdam: John Benjamins. Vinay, Jean Paul; Dalbernet, Jean. (1958). Stylistique compare du franaise et de langlais. Paris: Didier. Vivaldi Palatresi, Jorge. (2004). Extraccin de candidatos a trminos mediante la combinacin de estrategias heterogneas. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. [CD-ROM] (Srie Tesis, 9). Vivancos Machimbarrena, Magdalena. (1994). Recursos estilsticos de la generalidad, impersonalidad y objetividad en el discurso cientfico ingls y espaol: su traduccin. En: Charlo Brea, L. (Ed.). Reflexiones sobre la traduccin. Cdiz: Universidad. 743-759. Vossen, Piek (Ed.). (1998). EuroWordNet: a Multilingual Database with Lexical Semantic Networks. Dordrecht: Kluwer Academic. Walker, David G. (1993). Translation Problems as They Occur in Everyday Practice. En: Schmitz, Klaus Dirk (Ed.). TKE' 93. Cologne: Indeks. 221-224.
399
Woolley, Reuben. (1997). Compound Nominal Groups in the Machine Translation of Medical English: Lexical Units or Analysable Sequences? Tesis de maestra. University of Aston. [[Link] WordNet 2.1 (2005). Help on WordNet Terminology. Princeton University. Wright, Sue Ellen; Wright, Leland D. (Ed.). (1993). Scientific and Technical Translation. Amsterdam: John Benjamins. Zabala, Igone. (1998). La traduccin al vasco de los sintagmas nominales complejos del lenguaje tcnico. En: Actes del III Congrs Internacional sobre Traducci, UAB. 589-603. Zielinski, Daniel; Ramirez, Yamile. (2005). Research Meets Practice: T-Survey 2005. Saarland: [S.D.]. [[Link]
400
G. Quiroz
Diccionario de uso del espaol de Amrica y Espaa [CD-ROM]. Barcelona: Editorial Spes Vox, 2003. Diccionario Espasa de Medicina [CD-ROM]. Madrid: Espasa, 1999. Diccionario ingls-espaol de Ciencias de Laboratorio Clnico IFCC [en lnea]. Leeds: Federacin Internacional de Qumica Clnica, 2000. [[Link] Diccionario Mosby medicina, enfermera y ciencias de la salud ingls-espaol [CD-ROM]. 5 ed. Madrid: Harcourt, 2000. E-diccionarios Espasa [CD-ROM]. Madrid: Espasa, 2003. EuroWordNet 1.6. [en lnea]. Barcelona: Universitat Politcnica de Catalunya. [[Link] [Link] Gran Diccionario de la Lengua Espaola [CD-ROM]. Barcelona: LaroussePlaneta, 1996. IEC Multilingual Dictionary [CD-ROM]. 6ta ed. Ginebra: International Electrotechnical Commission, 2005. IMF Terminology. Washington: International Monetary Fund, 2000. o
[[Link] ISI Multilingual Glossary of Statistical Terms [en lnea]. La Haya: International Statistical Institut, 2006. [[Link] Llus de Yzaguirre. (2004). Repoker: programa para la extraccin de datos lingsticos etiquetados. Barcelona: Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra. 401
Longman Dictionary of Contemporary English [CD-ROM]. Essex: Pearson Education Limited, 2003. Machinese Phrase Tagger online demo. Helsinki: Connexor Oy, 2005. [[Link]]. Random House Webster's Unabridged Dictionary [CD-ROM]. [S.L]: Random House Reference, 2006. Reed, Alan. (2002). Simple Concordance Programme, 4.0.7 [programa]. [[Link] Routledge Spanish Dictionary of Business, Commerce and
Finance/Diccionario Ingls de Negocios, Comercio y Finanzas [CD-ROM]. London: Routledge, 1999. Routledge Spanish Technical Dictionary/Diccionario tcnico ingls [CD-ROM]. London: Routledge, 1998. Stedman's Medical Dictionary 3.0 [CD-ROM]. [S.L]: Baltimore Williams & Wilkins, 1996. UMLS Knowledge Source Server (UMLSKS) [en lnea]. Washington: National Library of Medicine, 2006. [[Link] WordNet 2.1. [programa]. Princeton: Universidad de Princeton, 2006. [[Link]
402
G. Quiroz
403
404
G. Quiroz
N del patrn
N. de tokens
Patrn simple
Ejemplo
Patrn IULA a:[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="H6"&word!="containing|including|having|containing|producing|usi ng|causing|identifying|involving"] [pos="JA"] [pos="NN.*"]
Adv PP Adj N
Adv PP N
[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="H6"&word!="containing|including|having|containing|producing|usi oxidatively damaged dna / chromosomally encoded efflux ng|causing|identifying|involving"] [pos="NN.*"] a:[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="H6"&word!="containing|including|having|containing|producing|usi ng|causing|identifying|involving"] [pos="NN.*"] [pos="NN.*"] a:[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="H6"&word!="containing|including|having|containing|producing|usi ng|causing|identifying|involving"] [pos="NN.*"] [pos="NN.*"] [pos="NN.*"] 405
Adv PP N N
electrophoretically altered migration patterns / exogenously added mrna molecules highly conserved tyrosine kinase phosphorylation / covalently closed plasmid dna band
Adv PP N N N
Adv PP X N
chromosomally encoded penicillin-resistance genes / highly activated myofibroblastic cells morphologically identifiable apoptotic cells / right ventricular free wall
a:[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="H6"&word!="containing|including|having|containing|producing|usi ng|causing|identifying|involving"] [pos="X"&lemma!="that|which|who"] [pos="NN.*"] a:[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="JA"] [pos="JA"] [pos="NN.*"] [pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="JA"] [pos="NN.*"] a:[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="JA"] [pos="NN.*"] [pos="NN.*"] a:[pos="D6" & lemma=".*ly|in vitro|in vivo|ex vivo|very|long|overall|well|rather|right|in situ|upstream|a priori|almost|already|somewhat"] [pos="V6A66"&lemma!="have|be|do|make|suggest|reside"] [pos="NN.*"] [pos="H6"&word!="containing|including|having|containing|producing|usi ng|causing|identifying|involving"] [pos="NN.*"] [pos="NN.*"] [pos="H6"&word!="containing|including|having|containing|producing|usi ng|causing|identifying|involving"] [pos="JA"] [pos="NN.*"]{1,2}
7 8
3 4
right ventricular myocardium / sexually dimorphic cell in situ squamous carcinoma cells / clinically x-linked ichthyosis patients
9 10
3 3
Adv PP N PP N N
concomitantly reexpressed albumin / radioactively labelled nucleotides pulverized rat chow / verified mutation carriers polarized epithelial cells / blocking repetitive hybridization
11
PP Adj N
12
PP Adj N N
G. Quiroz
13
PP N N N
pulsed field gel electrophoresis a:[pos="H6"&word!="containing|including|having|containing|producing|u sing|causing|identifying|involving"] [pos="NN.*"] [pos="NN.*"] / conserved tyrosine kinase [pos="NN.*"] phosphorylation a:[pos="H6"&word!="containing|including|having|containing|producing|u sing|causing|identifying|involving"] [pos="V6A.*"&lemma!="have|be|do|make|suggest|reside"] [pos="NN.*"] [pos="H6"&word!="containing|including|having|containing|producing|usi ng|causing|identifying|involving"] [pos="X"&lemma!="that|which|who"] [pos="NN.*"] [pos="JA"] [pos="H6"&word!="containing|including|having|containing|producing|usi ng|causing|identifying|involving"] [pos="NN.*"]
14
PP|PPi PP N
corresponding cloned cdna / remaining labeled material activated huvec rna / advanced yac library
15
PP N N
16
Adj PP N
open reading frame / putative coding region human fetal brain / neuronal nicotinic acetylcholine
17
Adj Adj N
18
human mitochondrial ribosomal protein / human acute lymphoblastic leukemia human mitochondrial ribosomal protein genes / dominant nocturnal frontal lobe epilepsy
19
407
20
Adj Adj N N
somatic mitochondrial dna mutations / neuronal nicotinic acetylcholine receptors [pos="JA"] [pos="JA"] [pos="NN.*"] [pos="NN.*"] human mitochondrial atpbinding cassette membrane / high mtdna-specific pcr band intensities common c57bl/6j inbred background / tight west african cluster prandial insulin infusions / wild-type core protein fetal brain cdna library / human r-banded metaphase chromosomes
21
Adj Adj N N N
22
Adj N Adj N
23
Adj N N
24
Adj N N N
25
Adj N N N N
intracellular tyrosine kinase phosphorylation motif / histiocytic lymphoma cell line u937 human apoe genomic dna / fractional sex-average genetic map
a:[pos="JA"] [pos="NN.*"] [pos="NN.*"] [pos="NN.*"] [pos="NN.*"] a:[pos="JA"] [pos="X"&lemma!="that|which|who"] [pos="JA"] [pos="NN.*"] 408
26
Adj N Adj N
G. Quiroz
27
Adj N N
28 29
4 3
Adj N N N D|X X N
native agarose gel electrophoresis / allelespecific oligonucleotide analysis hybridization seventh transmembrane domains / xxx egfr mutant fluorescence in situ hybridization experiments / fluorescence in situ hybridization probes
30
N Adv N N
31
N PP Adj N
32
N PP N
33
N PP N N
34
N Adj Adj N
35
N Adj N
immunoglobulin heavy chain / muc7 genomic clones [pos="NN.*"] [pos="JA"] [pos="NN.*"] moloney murine leukemia virus / abi373a automatic dna sequencer
36
N Adj N N
37
N Adj N N
38
N N PP N
terminator cycle sequencing kit / arabidopsis suspension cultured cells polymerase chain reaction / plasmid dna purification restriction fragment length polymorphism / potassium channel gene cluster
39
NNN
40
NNNN
41
NNNNN
brain cdna lambda zap library / egfr-ras-map kinase signal transduction pathway
G. Quiroz
42
N N|X N
amino acid sequence / transmission disequilibrium test restriction endonuclease digestion / ct box-binding proteins drosophila dlg tumor suppressor / fibrosis transmembrane conductance regulator primed first-strand cdna / generalized tonic-clonic seizures apoe transgenic mice / 12specific genomic library agarose gel electrophoresis / polyacrylamide gel electrophoresis
43
NXN
44
NXNN
45
PP X N
46
X Adj N
47
XNN
48
XXN
laser-desorption time-of-flight mass / calcium-modulating [pos="X"&lemma!="that|which|who"] cyclophilin ligand [pos="X"&lemma!="that|which|who"] [pos="NN.*"] bilateral central epileptiform / experimental autoimmune uveoretinitis a:[pos="JA"] [pos="JA"] [pos="X"&lemma!="that|which|who"]
49
Adj Adj N
411
50
PP Adj Adj N
412
G. Quiroz
N. del patrn 1 2 3 4 5 6
N. de tokens 4 3 4 5 5 3
Patrn simple
Ejemplo escasa especificacin de la localizacin de algunas Adj N Prep D N Prep D poblaciones N diferentes enzimas de restriccin Adj N Prep N sndrome dismetablico de sobrecarga de hierro N Adj Prep N Prep N afectacin pulmonar en forma N Adj Prep N Prep N Adj de neumona atpica N Adj Prep N Prep N Prep N ND sndrome dismetablico de sobrecarga de hierro Adj Prep N Prep N
Patrn IULA [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="P"] [pos="E.*"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="V.*"&lemma!="ser|parecer|representar|dejar|tener|inclui r presentar|evolucionar|representar|producir|encontrar|revelar|d eterminar|distribuir|situar|quedar|permanecer|admitir|utilizar| conseguir|observar|amplificar|analizar|mostrar|describir|expres ar|guardar"] [pos="JQ.*"] [pos="JQ.*"] [pos="H.*" & lemma!="ser|parecer|representar|dejar|tener|incluir presentar|evolucionar|representar|producir|encontrar|revelar|d eterminar|distribuir|situar|quedar|permanecer|admitir|utilizar| conseguir|observar|amplificar|analizar|mostrar|describir|expres ar|guardar"] [pos="JQ.*"] [pos="JQ.*"] [pos="VC.*"] [pos="P"] [pos="N5.*"] 413
Adj N Adj
8 9
3 3
10
N Adj PP Prep N
11
N Adj PP
muerte celular programada anticuerpos monoclonales ligados a partculas magnticas secuencias cortas repetidas en tndem
12
13
N Adj PP Prep N
14
genes supresores relacionados con la neoplasia vesical miopata miotubular ligada al cromosoma loci altamente polimrficos ND cambios genotpicos y fenotpicos consecuentes ND cncer vesical cistoscpicamente visible genotipo heterocigoto compuesto
15 16 17 18 19 20
4 3 4 4 5 4
N Adj PP Prep D N N Adv Adj N PP Adj Prep D N N Adj Conj Adj Adj N Adj Adv PP Prep D N N Adj Adv Adj
[pos="N5.*"] [pos="JQ.*"] [pos="VC.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="VC.*" & lemma!="deber|asociar|administrar|encontrar|colocar|situar|ay udar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|involu crar|denominar|alcanzar"] [pos="N5.*"] [pos="JQ.*"] [pos="VC.*" & lemma!="deber|asociar|administrar|encontrar|colocar|situar|ay udar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|involu crar|denominar|alcanzar"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="VC.*" & lemma!="deber|asociar|administrar|encontrar|colocar|situar|ay udar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|involu crar|denominar|alcanzar"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="VC.*" & lemma!="deber|asociar|administrar|encontrar|colocar|situar|ay udar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|involu crar|denominar|alcanzar"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="VC.*" & lemma!="deber|asociar|administrar|encontrar|colocar|situar|ay udar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|involu crar|denominar|alcanzar"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="N5.*"] [pos="D6"] [pos="JQ.*"] [pos="N5.*"] [pos="H.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="C"] [pos="JQ.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="D4"] [pos="VC.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="D6"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="H.*|VC.*" & lemma!="asociar|dar|deber|administrar|encontrar|colocar|situa r|ayudar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|in volucrar|denominar|alcanzar"] 414
21
N Adj PP
G. Quiroz
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
3 4 4 4 3 4 5 3 4 4 4 5 5 3 5 4 4 4
N Adj D Adj N Adj Adj Adj N Adj Adj N N Adj Adj Prep D N
[pos="N5.*"] [pos="JQ.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N5-F6"] [pos="N5.*"] [pos="JQ.*" & lemma!="rara|vez"] [pos="N5.*" & lemma!="rara|vez"] N Adj N xido ntrico sintasa [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="JQ.*"] N Adj Prep D Adj N surco mayor de la doble hlice [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] N Adj Prep D Adj N Adj ND N Adj Prep D N brazo corto del cromosoma [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] asta anterior de la mdula [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] espinal [pos="JQ.*"] N Adj Prep D N Adj aislamiento selectivo mediante [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] la identificacin de islas [pos="P"] [pos="N5.*"] N Adj Prep D N Prep N tumores vesicales de alto grado N Adj Prep Adj N [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="JQ.*"] [pos="N5.*"] estructura espacial de varios [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] N Adj Prep Adj N Prep N dedos de zinc N Adj Prep N Prep N visualizacin directa tras [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N.*"] [pos="P"] Prep N tincin con bromuro de etidio [pos="N.*"] [pos="P"] [pos="N5.*"] fenotipo mutador de microsatlites N Adj Prep N [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="D6"] [pos="JQ.*"] N Adj Prep N Adv Adj ND alelo largo sin secuencias flanqueantes N Adj Prep N Adj [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] terapias regenerativas con N Adj Prep N N clulas madre [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="N.*"] actividades enzimticas de [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] N Adj Prep N Prep D N miofosforilasa en la biopsia [pos="A.*"] [pos="N5.*"] 415
diabetes mellitus insulinodependiente patrn mendeliano autosmico dominante hepatitis vrica crnica b anormalidades genticas responsables de la tumorignesis
[pos="N5.*"] [pos="JQ.*" & word!="afecta"] [pos="JQ.*" & word!="afecta"] [pos="N5.*"] [pos="JQ.*"] [pos="JQ.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="JQ.*"] [pos="N5.*"]
40 41 42 43 44
5 4 5 5 4
acidificacin intracelular en respuesta al ejercicio isqumico distancias genticas entre los diversos grupos tnicos N Adj Prep N Prep N defectos moleculares en pacientes con dficit en N Adj Prep N Prep N miofosforilasa Prep N episodios tromboemblicos por afectacin de vasos N Adj Prep N Prep N Adj pequeos clonaje posicional de genes mutados N Adj Prep N PP N Adj Prep N Prep D N Adj genes supresores relacionados con la neoplasia vesical enfermedad coronaria demostrada angiogrficamente clulas madre embrionarias protena quinasa c hibridacin in situ con fluorescencia fertilizacin in vitro con transferencia embrionaria actividad tirosincinasa sin necesidad de dimerizacin trisoma x con genes de crecimiento activos citlisis de las clulas infectadas
[pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="VC.*"] [pos="N5.*"] [pos="JQ.*"] [pos="VC.*" & lemma!="deber|asociar|administrar|encontrar|colocar|situar|ay udar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|involu crar|denominar|alcanzar"] [pos="N5.*"] [pos="JQ.*"] [pos="VC.*" & lemma!="deber|asociar|administrar|encontrar|colocar|situar|ay udar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|involu crar|denominar|alcanzar"] [pos="D6"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="N5.*"] [pos="N5.*"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N.*"] [pos="H.*" & lemma!="asociar|dar|deber|administrar|encontrar|colocar|situa r|ayudar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|in volucrar|denominar|alcanzar"] 416
45
N Adj PP
46 47 48 49 50 51 52
4 3 3 3 4 4 5
N Adj PP Adv N N Adj NNN N N Prep N N N Prep N Adj N N Prep N Prep N N N Prep N Prep N Adj
53
N Prep D N PP
G. Quiroz
54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
3 3 5 6 4 3 3 4 5 4 3 4 4 5 3 4 4 3
intrn del gen de la mioglobina betalactamasas de las N Prep D N Adj bacterias gramnegativas N Prep D N Adj Prep D motoneuronas del asta N Adj anterior de la mdula espinal impacto de los frmacos antihipertensivos sobre las N Prep D N Adj Prep D cifras de colesterol plasmtico N Prep N Adj N Prep D N Adj Prep D motoneuronas del asta N anterior de la mdula tratamiento con anticolinrgicos y antiinflamatorios N Prep Adj Conj Adj N Prep Adj Adj tcnicas de gentica molecular utilizacin de diversas tcnicas N Prep Adj Adj Prep N de clonaje N Prep Adj Adj Prep N introduccin de nuevas Adj tcnicas de biologa molecular neoplasias con diferente N Prep Adj Adj Adj potencial biolgico N Prep Adj N lipoprotenas de alta densidad tcnicas de alta resolucin N Prep Adj N Adj cromosmica haplotipos con fuertes N Prep Adj N Prep N desequilibrios de ligamiento activacin de diferentes rutas N Prep Adj N Prep N Adj de transmisin intracelular N Prep N Adj agenesia de cuerpo calloso patrn de herencia autosmico N Prep N Adj Adj dominante azoospermia en varones N Prep N Adv Adj sexualmente maduros tincin con anticuerpos N Prep N PP conjugados N Prep D N Prep D N
[pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N.*"] [pos="P"] [pos="A.*"] [pos="N.*"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="C"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="JQ.*"] [pos="P"] [pos="N.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="JQ.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="JQ.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="D6"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="H.*" & lemma!="asociar|dar|deber|administrar|encontrar|colocar|situa 417
72 73 74 75 76 77 78 79 80 81 82 83 84 85
4 4 5 5 4 5 5 3 5 4 4 4 4 4
N Prep N Adj Prep D N N Prep N Adj Prep N N Prep N Prep D N Prep N Prep N N Prep N Prep D N Prep N Prep D N N Prep N Prep D N Prep N N Prep N Prep D N Prep N Adj N Prep N Prep Adj N Prep N N Prep N Prep N N Prep N Prep N Adv Adj N Prep N Prep N Adj N Prep N Prep N Prep D N N Prep N Prep N Prep N N Prep N Prep N PP N Prep N PP Adv
migracin de genes mitocondriales al ncleo carcinoma de clulas transicionales de vejiga deteccin de polimorfismos mediante la introduccin de sitios de restriccin problemas de especificidad de la tcnica de deteccin de la mutacin deteccin de polimorfismos mediante la introduccin de sitios reaccin en cadena de la polimerasa con retrotranscripcin previa presencia de multitud de finas gotas de steres digestin con enzimas de restriccin confirmacin de azoospermia en varones sexualmente maduros diferenciacin de clulas con potencial adipognico transversin de guanina a citosina en el nucletido exceso de secrecin de hormona de crecimiento estrato de fibroblastos de ratn irradiados tipos de filamentos orientados horizontalmente
r|ayudar|iniciar|derivar|conocer|ocurrir|dar|liberar|contener|in volucrar|denominar|alcanzar"] [pos="N5.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="P"] [pos="A.*"] [pos="N.*"] [pos="N5.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="P"] [pos="N.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="D6"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="A.*"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="VC.*"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="VC.*"] [pos="D6"] 418
G. Quiroz
86 87 88 89 90 91 92 93 94 95 96 97
3 3 3 4 5 4 5 3 5 4 3 4
98 99
5 5
diabetes de tipo 1 agenesia de cuerpo calloso agua destilada estril alteraciones detectadas en la rm convencional N PP Prep D N Adj copias duplicadas por seleccin natural positiva N PP Prep N Adj Adj deficiencia combinada de hormonas hipofisarias N PP Prep N Adj estudios realizados con pautas N PP Prep N Adj Prep N cortas de doxiciclina secuencias repetidas en tndem N PP Prep N loci detectados por sondas de N PP Prep N Prep N Adj locus especfico microsatlite constituido por repeticiones en tndem N PP Prep N Prep N N PP Prep W conejos inmunizados con grf-1 sndrome dismetablico de sobrecarga de hierro N Adj Prep N Prep N afecciones otorrinolaringolgicas en pacientes con retinosis N Adj Prep N Prep N Adj pigmentaria N Adj Prep N Prep N adsorcin diferencial mediante Prep N clulas de rin de cobaya
[pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="X"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="VC.*"] [pos="JQ.*"] [pos="N5.*"] [pos="VC.*"] [pos="P"] [pos="A.*"] [pos="N.*"] [pos="JQ.*"] [pos="N5.*"] [pos="VC.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="JQ.*"] [pos="N5.*"] [pos="VC.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="N5.*"] [pos="VC.*"] [pos="P"] [pos="N.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="VC.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="VC.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="VC.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="VC.*"] [pos="P"] [pos="W"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="JQ.*"] [pos="N5.*"] [pos="JQ.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"] [pos="P"] [pos="N5.*"]
419
420
G. Quiroz
Patrn NNN Adj N N Adj Adj N N Adj N PP N N Adj N N N PP Adj N NNNN Adv Adj N N PP N Adj Adj N N Adv PP N Adj PP N N Adj N N Adj N Adj N PP N N N PP Adj N N Adj Adj Adj N Adv Adj N N Adv PP N N Adj Adj N N N Adj N N N N Adv Adj Adj N
Ejemplo polymerase chain reaction horizontal gene transfer human genomic DNA platelet dense granules reduced insulin responsiveness fetal brain cDNA library polarized epithelial cells restriction fragment length polymorphism anatomically modern humans ATP binding site human peripheral blood lymphocytes genetically engineered microorganisms neutral buffered formalin immunoglobulin heavy chain locus human APOE genomic DNA pulsed field gel electrophoresis inherited mitochondrial DNA diseases total human genomic DNA highly deleterious mtDNA mutations highly conserved phosphotyrosine domain human fetal brain cDNA library fat cell size distribution profile morphologically identifiable apoptotic cells
Tokens 3 3 3 3 3 4 3 4 3 3 4 3 3 4 4 4 4 4 4 4 5 5 4
NNNNN N N PP N PP Adj Adj N Adv PP Adj N N Adj Adj N N PP N N Adj Adj Adj N N Adv PP N N N N Adv N N PP PP N
V1aR mRNA transcription start site Arabidopsis suspension cultured cell polarized renal epithelial cells genetically determined immune response GEM11 human genomic library double stranded plasmid DNA mature neuronal nicotinic acetylcholine receptors covalently closed plasmid DNA band fluorescence in situ hybridization probes written informed consent
5 4 4 4 4 4 5 5 4 3
3 3 3 2 2 2 1 1 1 1
422
G. Quiroz
Patrn N Prep N Adj N Adj Prep N N Prep N Prep N N Adj Adj N Adj PP N Adj Prep N Adj N Prep N Adj Prep N Adj N Prep N N Adj Prep N Prep N N Prep Adj N N PP Prep N N Prep N Prep N Prep N N Prep N Prep N Adj N Prep N PP N Prep N Adj Adj N Adj PP Prep N N N Adj N Adj Prep N Prep N Adj N Adv Adj N Adj N N Adj Prep Adj N Adj N Adj N N Prep N
Ejemplo virus de la inmunodeficiencia humana artrosis degenerativa de la columna electroforesis en gel de agarosa diabetes mellitus insulinodependiente clulas alveolares descamadas membrana apical de las clulas epiteliales constriccin de las arterias coronarias del corazn alto grado de polimorfismo secrecin excesiva de hormona de crecimiento sulfonilurea de alta afinidad oligonucletidos repetidos en tndem hipocrecimiento por anomalas en genes de los gonosomas electroforesis en geles de campos pulsantes hibridacin con sonda marcada inoculacin con adenopatas satlites axilares protena mitocondrial sintetizada en el citosol hormona somatomamotropina corinica sndrome dismetablico de sobrecarga de hierro heterocigoto loci altamente polimrficos hepatitis vrica C cromatografa lquida de alta resolucin alto peso molecular amfotericina B en liposomas
Porcentaje 31,66 16,13 10,68 6,73 4,88 3,68 3,31 2,76 2,67 1,84 1,29 1,11 1,01 0,93 0,83 0,74 0,74 0,64 0,65 0,55 0,55 0,46 0,46
423
N Adj Prep N Prep N Prep N N Adj Adj Adj N Adj Prep N N N PP Prep N Adj N Prep Adj N Adj N Prep N Adj Prep N Adj N Adj PP Prep N Adj NNN N PP Prep N Prep N N Prep Adj N Prep N N Prep N N N Prep N Prep N Prep N Prep N Adj N Prep N Prep N N Adj Adj N N Adj Adj Prep N N Adj Adv Adj N Adj Adv PP Prep N N Adj PP Adv N Adj Prep Adj N Adj N Adj Prep Adj N Prep N N Adj Prep N Adv Adj N Adj Prep N PP N N Prep N Adj N N Prep N Prep N N N Prep N Prep N Adj N PP Adj N PP Adj Prep N N PP Prep N Prep N Adj N Prep Adj Adj Prep N N Prep Adj N Prep N Adj N Prep N Adj Prep N Prep N Adj
visualizacin directa tras tincin con bromuro de etidio poliquistosis renal autosmica recesiva terapias regenerativas con clulas madre metilasas codificadas por los genes kgmA Hibridacin con oligonucletidos alelo especficos motoneuronas del asta anterior de la mdula espinal anticuerpos monoclonales ligados a partculas magnticas citocromo c oxidasa lactamasas codificadas en plsmidos de enterobacterias resistencia a diferentes clases de antibiticos diabetes de tipo 1 mtodo de deleccin del cmulo de hierro en el cuerpo escasa especificacin de la localizacin de algunas poblaciones Hepatitis vrica crnica B anormalidades genticas responsables de la tumorignesis cncer vesical cistoscpicamente visible enfermedad neuromuscular no ligada al sexo bacterias gramnegativas relacionadas serolgicamente valores predictivos de los diversos mtodos diagnsticos genoma humano con idntico mapa de restriccin fuentes idneas de linfocitos inmunolgicamente activos clonaje posicional de genes mutados actividad transferasa en vellosidades curiales actividad proteincinasa sobre residuos de tirosina trisoma X con genes de crecimiento activos agua destilada estril alelos clonados diferentes del locus ratas modificadas por medio de ingeniera gentica cultivos con medios pobres en folato endarteritis de pequeos vasos con proliferacin endotelial actividad de la enzima responsable de la sntesis de xido ntrico
4 3 3 3 3 3 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,37 0,28 0,28 0,56 0,28 0,28 0,18 0,18 0,18 0,18 0,18 0,18 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09
424
G. Quiroz
N Prep N Adv Adj N Prep N PP Adv N Prep N Prep Adj N Prep N N Prep N Prep N Adv Adj N Prep N Prep N PP N Prep N Prep N Prep N Adj
azoospermia en varones sexualmente maduros familia de secuencias relacionadas evolutivamente lugares de reconocimiento para distintos factores de transcripcin confirmacin de azoospermia en varones sexualmente maduros hemoperfusin con cartucho de carbn activado va de transmisin de la seal de modo constante
1 1 1 1 1 1
425