La recerca en traducció basada
en corpus: aplicacions professionals
i didàctiques del projecte GENTT

Esther Monzó i Pilar Ordóñez
Universitat Jaume I

1. Introducció

El reconeixement automàtic d’unitats terminològiques, la detecció precoç de neologismes i l’anàlisi de la implantació de les formes normalitzades són alguns dels reptes que encara té pendents actualment el treball terminològic. Aquests tres

2. El projecte GENTT
2.1. Inicis i propòsits

El propòsit principal del grup GENTT ha estat, des del inicis, oferir una eina amb què els traductors puguin obtenir informació que tradicionalment han de cercar en fonts diverses i descentralitzades, i que, en certs contextos i per a determinats encàrrecs, els resulta poc rentable buscar a causa de la dificultat de localitzar, per exemple, textos paral·lels. Facilitar-li al professional la informació requerida és una tasca ambiciosa que havíem de descompondre i acotar (Monzó i García Izquierdo, 2005). Vam partir d’una primera taxonomia de gèneres professionals dels àmbits treballats i vam seleccionar els gèneres que podrien tenir major utilitat per raons diverses (bàsicament, vam seleccionar els més freqüents en la pràctica privada professional que són també els que els estudiants treballen en les assignatures de la titulació). Una vegada delimitats els gèneres, vam cercar-ne instàncies per anar bastint el corpus que, una vegada analitzat, ens permetria obtenir la informació textual, ideacional i interpersonal i formalitzar-la en una enciclopèdia de gèneres.

L’anàlisi s’ha fet per a una mostra reduïda de gèneres (Monzó, 2002, del Pozo, 2007, Aragonés, 2008) i, per bé que aquesta enciclopèdia és el nostre objectiu final per a tots els gèneres treballats, el corpus que hem anat configurant constitueix ja una eina de treball que ha donat fruits interessants en la pràctica docent i investigadora. El pas al món professional serà l’etapa que volem assolir amb el proper projecte, on treballem en sectors socioprofessionals molt concrets, com són el Servei de Traducció del Tribunal Superior de Justícia de la Comunitat Valenciana i el Servei d’Oncologia de l’Hospital Clínic Universitari de València.

Pel que fa als propòsits del grup GENTT, la trajectòria investigadora i l’evolució que hem travessat fins ara s’han fonamentat en les metes següents, que es corresponen amb les diferents etapes investigadores que ha viscut el nostre grup:

 1. Proporcionar als traductors professionals de tres àmbits d'especialitat (traductors de textos jurídics, mèdics i tècnics) una eina que els permeta reduir considerablement el temps dedicat a la documentació.
 2. Produir una enciclopèdia de gèneres en què puguen trobar-se instàncies reals dels documents que han de traduir-se juntament amb dades sobre els seus contextos de cultura i situació, la utilització que li donen els usuaris habituals, dades macro i microlingüístiques, com també la relació del gènere en qüestió amb altres que es troben disponibles en el corpus, especialment en altres idiomes.
 3. Aconseguir millores per a la traducció en l'àmbit formatiu, però també en la pràctica professional de la traducció especialitzada, per a la qual plantejarem una eina amb informació lingüística, textual i terminològica, conceptual i professional.

Des de la perspectiva tecnològica, aquests propòsits ens han permès evolucionar des del programa de gestió del corpus GENTT (Jennings, 2003) fins a una nova aplicació que descriurem tot seguit.

2.2. La situació actual

Superades les etapes que descrivíem en l’epígraf anterior, el grup GENTT acara en aquests moments el pas al món professional. A fi d’endinsar-nos en la pràctica real, centrarem la recerca en les comunitats socioprofessionals que integren els àmbits d’especialitat que treballem, a fi d’identificar, analitzar i, posteriorment, satisfer les necessitats detectades. Des del punt de vista metodològic, per bé que la recerca realitzada pel grup GENTT es caracteritza per l’aplicació d’una metodologia mixta (García Izquierdo, 2009) en la qual es combinen els mètodes quantitatiu i qualitatiu, en el propòsit actual d’analitzar les demandes documentals i traductores de les comunitats socioprofessionals, el vessant qualitatiu assoleix un protagonisme fonamental.

La investigació de les demandes documentals de les comunitats socioprofessionals s’estructura en distintes fases:

 1. Disseny d’enquestes;
 2. Selecció de mostres;
 3. Distribució d’enquestes;
 4. Buidatge d’enquestes; i
 5. Anàlisi i interpretació dels resultats.

En l’actualitat, hem completat les tres primeres fases:

 1. Disseny i codificació de les enquestes. S’han elaborat tres enquestes diferents (una per a cada àmbit d’especialitat); això no obstant, en les enquestes hi ha una part comuna relativa als recursos i les fonts de documentació utilitzades, i d’altres qüestions relacionades amb les llengües traduïdes i la direccionalitat. Per a la codificació, ens hem servit del programa Limesurvey (www.limesurvey.org).
 2. Selecció de mostres. La selecció de la mostra de població ha anat per camins diferents en funció de la realitat socioprofessional de l’àmbit d’especialitat. En l’àmbit tècnic s’ha realitzat una selecció aleatòria, en el mèdic s’ha filtrat la població abans de fer una selecció aleatòria i en l’àmbit jurídic estem en procés de realització d’un cens a partir del qual farem també una selecció aleatòria.
 3. Distribució de les enquestes. Les enquestes s’han distribuït en línia (web poll), a través del programa Limesurvey.

Des del punt de vista tecnològic, actualment ens trobem en un moment de transició cap a una nova aplicació en línia per al corpus. Aquesta nova aplicació ens permetrà avançar en la nostra recerca en els aspectes següents, entre d’altres: alimentació cooperativa del corpus; investigacions personalitzades, a través d’una eina de creació i emmagatzematge de subcorpus; la millora de les possibilitats de cerca a través de l’addició de criteris; la integració de possibilitats d’anàlisi, com ara l’anàlisi de freqüències; i amb tot això esperem que la nostra recerca avanci cap a la confecció d’un catàleg de gèneres utilitzats en els àmbits d’especialitat que estudiem i, en darrer terme, la construcció de coneixement especialitzat per a les comunitats de redactors i traductors.

Captura 1

Figura 1. Resultat d’una cerca en el corpus GENTT amb la cadena “court judgement”

3. Estudi de casos
3.1. El corpus GENTT en la didàctica de la traducció i la traducció especialitzada

En García Izquierdo (2005b), diversos membres de l’equip plantejaven les experiències pròpies d’ús del corpus GENTT en la docència d’assignatures de traducció general (Calzada Pérez, 2005, Ezpeleta, 2005) i especialitzada (Gamero Pérez, 2005, Montalt i Ressurecció, 2005, Montalt i Ressurrecció, Ezpeleta i García de Toro, 2005, Monzó, 2005) i de llengua per a traductors (García Izquierdo, 2005a), amb graus d’informatització diversos que oscil·len entre l’anàlisi manual detallat i la cerca de concordances en corpus extensos.

Les activitats que es plantegen en les propostes didàctiques del grup solen partir d’una selecció de textos basada en gèneres, atès que la recurrència de la situació comunicativa que hi dóna origen reverteix en una recurrència de convencions textuals, ideacionals i interpersonals que permet, fins a cert punt, predir els problemes, també recurrents, de traducció que ens hi trobarem. Tanmateix, els subcorpus que podem confeccionar automàticament a partir del corpus GENTT no es limiten al gènere al qual pertanyen els textos, sinó que permeten treballar des d’una varietat considerable de perspectives per incidir en els aspectes necessaris atenent a la planificació del curs. Així, les tasques poden focalitzar des de problemes de traducció (delimitar la selecció de subcorpus per gènere ha demostrat bons resultats en aquest cas) fins a nivells lingüístics (podem fer la tria per àmbit temàtic, registre o fins i tot idioma si ens interessa treballar les freqüències de mots, termes o expressions, o també per gènere (si perseguim l’anàlisi d’estructures semàntiques, col·locacions o fórmules fraseològiques), passant per contextos socioprofessionals (fent una selecció per autor) o aspectes conceptuals (delimitant per tema).

Un altre criteri en la confecció de subcorpus per al treball docent i discent és la proximitat de la situació comunicativa en què s’utilitzen els gèneres amb l’experiència dels estudiants. Començar treballant amb gèneres propers a l’experiència personal de l’estudiantat que participa en les assignatures permet parcel·lar més fàcilment l’atenció i els esforços requerits per executar les tasques. Tot i això, aquest criteri sol ser rellevant per seleccionar els primers corpus d’una matèria, però deixa de ser central a mesura que s’avança en la formació (Monzó, 2005).

En les activitats que els membres del grup GENTT plantegen en les assignatures, es varia també entre subcorpus monolingües i bilingües. Generalment, les activitats inicials en assignatures de traducció especialitzada posen l’èmfasi a observar els trets lingüístics dels registres d’especialitat en la llengua meta, per la qual cosa els subcorpus seleccionats presenten exemples en aquesta llengua i són monolingües. Aquestes són les tasques més treballades en la bibliografia especialitzada sobre ús de corpus en didàctica de la traducció (Bowker, 2000). D’altres activitats encaminades a detectar contextualment significats i usos de lèxic, terminologia o fraseologia també utilitzen corpus monolingües en la llengua de partida.

Un propòsit menys freqüent en l’ús de corpus monolingües fa referència a descobrir aspectes interpersonals de la comunicació en els contextos especialitzats. En el cas dels textos mèdics, Fleischman (2001) estudia un corpus heterogeni, també agrupat per gèneres, a fi de descobrir diferències de selecció i freqüència de mots en funció de l’emissor del text. En el si del grup GENTT, Monzó (2008) parteix de la caracterització que Bourdieu fa del llenguatge del Dret per dissenyar activitats amb què els estudiants coneguin els efectes discursius de la selecció de mots, termes, temps verbals o fins i tot tipografia.

En altres treballs, membres de l’equip GENTT han utilitzat també corpus monolingües (i paral·lels) de textos traduïts (Monzó, 2003, 2008). Tot i això, per tal d’assegurar el rigor metodològic, aquests textos s’han exclòs del corpus GENTT. La qüestió d’introduir extensivament traduccions en el corpus GENTT presenta diversos problemes, des de la localització de textos no publicats fins a la revisió de la qualitat, segons quins siguin els propòsits dels corpus.

Els corpus bilingües s’han demostrat útils per activitats avançades on els estudiants han de comparar el funcionament de patrons lèxics, terminològics, estructurals o fins i tot gràfics i tipogràfics en el parell de llengües de treball. En la bibliografia especialitzada, els corpus bilingües s’utilitzen especialment en l’extracció de termes i freqüències per a l’elaboració de glossaris terminològics entre dos o més parells de llengües (Teubert, 2007), però també hi treballem en activitats que tenen com a objecte la representació de macroestructures de gèneres en el parell de llengües de treball, la detecció de funcions pragmaticodiscursives en unitats fraseològiques, o la contrastivitat d’usos tipogràfics.

Una altra distinció que podríem establir entre les diverses activitats amb què els membres del grup exploten el corpus GENTT és el grau d’experimentalitat de les tasques. De vegades, el corpus s’utilitza com a font de dades que es presenten als estudiants perquè aquests hi reflexionen o duguin a terme altres tasques. D’altres, el propòsit de les activitats transcendeix l’exemple i s’endinsa en el món de la descripció (Toury, 1985). En aquests casos, l’estudiant investiga i “toca” el text; no se li diu com és, sinó que ho descobreix personalment. Aquesta experimentació en sessions de laboratori té un efecte potenciador de les capacitats dels estudiants. Podríem dir que el corpus no tan sols permet superar les limitacions socials (l’estudiant té l’oportunitat d’acarar gèneres que no es trobaria en els entorns socials que sovinteja) sinó que, informatitzat, el corpus també permet superar les limitacions humanes, atès que la rapidesa i versatilitat de les eines d’explotació de corpus ofereixen síntesis d’una quantitat de dades que l’ésser humà no podria treballar altrament.

L’avaluació que els membres de l’equip fem de l’ús de corpus en l’aula és altament positiva. Els resultats en tots els moments formatius dels estudiants potencien i agiliten l’aprenentatge durador. A més a més, el fet que els integrants de l’equip hàgim treballat conjuntament en projectes de millora educativa ha potenciat també una coordinació de tasques que permet desenvolupar i consolidar una metodologia de treball eficient, com també una consciència de la utilitat dels corpus en la tasca traductora (Oster, 2007). En aquest sentit, entenem que la coordinació de totes les assignatures de traducció esdevé essencial per assegurar la rendibilitat dels esforços tècnics i metodològics que sens dubte exigeix integrar l’ús de corpus en la formació dels futurs professionals.

3.2. Els corpus en la pràctica de la traducció jurídica

Com hem comentat en aquesta i altres publicacions del grup, la finalitat última del nostre treball és oferir a la comunitat professional una eina que permeti agilitar el flux de treball i millorar la qualitat del producte final en la traducció dels àmbits jurídic, tècnic i mèdic. Vam considerar indispensable que la selecció de gèneres permetés una àmplia representativitat dels contextos en què treballa el professional, que els textos complets que representaven cada gènere fossin suficients per obtenir dades representatives del llenguatge que es palesa en els gèneres, els registres i els àmbits en els distints idiomes, i que el detall de l’anàlisi permetés acarar una gamma àmplia dels problemes de traducció que presenten aquests gèneres, i que es relacionen amb les distintes funcions del llenguatge.

La solució que vam idear amb el nostre projecte, però, divergeix de la que han adoptat distintes institucions internacionals amb grans serveis de traducció. Ens referim especialment a les oficines de Nacions Unides i a les institucions europees. Els distints programes amb què s’hi treballa prioritzen clarament els corpus paral·lels, i els programes d’explotació permeten aconseguir ràpidament un historial de traduccions donades prèviament a termes o expressions. La limitació de gèneres amb què es treballa en aquestes institucions circumscriu també els problemes de traducció que se li poden presentar als traductors i, en tot cas, els fa recurrents, de manera que aquesta cerca sol tenir fruits ràpids i profitosos. D’aquesta forma es pot obtenir una solució satisfactòria amb una anàlisi superficial del problema. Un mot pot ser el germen d’una consulta, que sol presentar contextos de partida força semblants entre si i idonis per a l’encàrrec del qual parteix la consulta atesa la limitació de gèneres i la reiteració i predictibilitat consegüents dels problemes que s’hi donen. El nombre de traduccions prèvies obtingudes és freqüentment alt i, sovint, la varietat que aquestes presenten obliga a una anàlisi major de la idoneïtat de les propostes una vegada s’han obtingut.

El procés d’anàlisi-inferència-aplicació que ens hem plantejat des dels inicis en l’equip divergeix d’aquesta proposta pràctica. La nostra voluntat ha estat aïllar els problemes a partir d’una anàlisi prèvia detallada i minimitzar la varietat de les solucions que s’oferien al traductor a través de l’abstracció d’aquests problemes, la delimitació de patrons als quals s’ajusten el casos concrets i la formalització del raonament que ens porta a determinar quina solució els permet resoldre satisfactòriament. Aquest era el sentit de l’enciclopèdia i el que, potser, ens haurem de replantejar si volem oferir una eina eficient.

El moment actual és idoni en aquest sentit, atès que és ara quan comencem a treballar amb empreses i institucions, a catalogar els gèneres que fan servir en la seva activitat comunicativa, a conèixer les seves necessitats reals i a oferir-los sistematitzacions. Haurem d’analitzar els pros i els contres dels corpus comparables davant els corpus paral·lels que dia a dia demostren la seva eficiència en les institucions internacionals. Tradicionalment, les nostres recances envers la construcció d’un corpus paral·lel d’ajuda a la traducció, i que comparteixen molts investigadors de l’àmbit (Olohan, 2004), se sustentaven per la dificultat d’aconseguir traduccions efectives, amb qualitat contrastada. Aquest inconvenient desapareix quan treballem amb institucions i empreses que dia a dia produeixen un volum equiparable d’originals i traduccions, i que estan dispostes a donar-nos accés al seu treball. Potser el pas que ens proposem fer a continuació ens portarà a replantejar-nos les bases per aconseguir a la fi una eina més eficient per a la pràctica professional. Potser, també, trobarem oportuna una distinció entre corpus per a la pràctica docent i discent (fins i tot per a la formació en nous llocs de treball) i corpus per a la pràctica professional de persones que ja compten amb aquesta formació.

4. Perspectives de futur

Les perspectives de futur del grup GENTT, ara per ara, avancen cap a la integració de distintes aplicacions i funcionalitats en una interfície única que permeta una gestió intel·ligent i automatitzada de la documentació multilingüe i, d’aquesta forma, optimitzar la reutilització dels diversos recursos lingüístics que produeixen les institucions objecte d’estudi. El disseny d’aquesta interfície, evidentment, requereix un pas previ, que és l’anàlisi de necessitats de la població a la qual està destinada, això és, els sectors professionals que redacten i tradueixen els textos, i que en el projecte actualment en vigor són el Servei de Traducció del Tribunal Superior de Justícia de la Comunitat Valenciana i el Servei d’Oncologia de l’Hospital Clínic Universitari de València. Investigarem quines són les necessitats documentals d’aquests dos contextos concrets i, amb els resultats que obtinguem, dissenyarem les possibilitats d’automatització dels processos de gestió i recuperació de la informació per avançar en el sentit de produir una eina que permeta la redacció semicontrolada i la traducció assistida dels gèneres que es treballen en aquestes institucions.

En tot cas, el nostre fi és servir a la comunitat de traductors i a la comunitat docent, i per això el disseny últim dependrà de conèixer els fluxos de treball i el rendiment que poden oferir, contrastivament, els corpus paral·lels de textos o segments alineats, les eines de gestió terminològica, l’elaboració d’informació conceptual les eines de redacció i les eines d’anàlisi lingüística de corpus. En aquests moments, però, entenem que la clau és la integració de possibilitats en una sola eina, a la qual aspirem.

Bibliografia citada

Aragonés, M. T. (2008): Caracterización del género textual "patente". Análisis y descripción de las secuencias retóricas en un corpus multilingüe de patentes (español/inglés/francés/chino) y repercusiones para la traducción, Castelló de la Plana, Departament de Traducció i Comunicació, Universitat Jaume I.

Bowker, L. (2000). «Towards a Methodology for Exploiting Specialized Target Language Corpora as Translation Resources», International Journal of Corpus Linguistics 5 (1), p 17-52.

Calzada Pérez, M. (2005). «Vygotsky, Wordsmith y Gentt: corpus y herramientas electrónicas en la clase de traducción general» dins I. García Izquierdo (ed.) El género textual y la traducción. Reflexiones teóricas y aplicaciones pedagógicas, Berna, Peter Lang, p. 189-206.

Del Pozo, M. (2007): Problemas de contrastividad en la traducción de documentos de derecho marítimo inglés-español [Tesi doctoral], Castelló de la Plana, Departament de Traducció i Comunicació, Universitat Jaume I.

Ezpeleta, P. (2005). «La noción de género en la planificación de la docencia de la traducción de la primera lengua extranjera» dins I. García Izquierdo (ed.) El género textual y la traducción, Berna, Peter Lang.

Fleischmann, S. (2001). «Language and Medicine» dins D. Schiffrin i altres (ed.) The Handbook of Discourse Analysis, Oxford, Blackwell, p. 470-502.

Gamero Pérez, S. (2005). «El género y la traducción de la segunda lengua extranjera: alemán» dins I. García Izquierdo (ed.) El género textual y la traducción: reflexiones teóricas y aplicaciones pedagógicas, Berna, Peter Lang.

García Izquierdo, I. (2005a). «El género y la lengua propia: el español de especialidad» dins I. García Izquierdo (ed.) El género textual y la traducción. Reflexiones teóricas y aplicaciones pedagógicas, Berna, Peter Lang.

García Izquierdo, I. (2009). Divulgación médica y traducción: El género Información para pacientes. Berna: Peter Lang.

García Izquierdo, I. (ed.) (2005b). El género textual y la traducción. Reflexiones teóricas y aplicaciones pedagógicas,Berna, Peter Lang.

Jennings, S. (2003): The Development of Software Tools for Corpus-Based Genre Research in Translation Studies: A Practical Application in the Context of the Gentt Project [treball d'investigació], Castelló de la Plana, Departament de Traducció i Comunicació, Universitat Jaume I.

Montalt i Ressurecció, V. (2005). «El género como espacio de socialización del estudiante de traducción científicotécnica» dins I. García Izquierdo (ed.) El género textual y la traducción. Reflexiones teóricas y aplicaciones pedagógicas, Berna, Peter Lang.

Montalt i Ressurrecció, V.; P. Ezpeleta; C. García de Toro (2005). «El género textual: un concepto transversal e integrador en el diseño de asignaturas de traducción y lenguaje científico-técnicos» dins I. García Izquierdo (ed.) El género textual y la traducción. Reflexiones teóricas y aplicaciones pedagógicas, Berna, Peter Lang, p. 217-239.

Monzó, E. (2002). La professió del traductor jurídic i jurat. Descripció sociològica de la professió i anàlisi discursiva del transgènere. Barcelona, Castellón: CESCA, Universitat Jaume I.

Monzó, E. (2003). «Corpus-based Teaching: The Use of Original and Translated Texts in the training of legal translators», Translation Journal 7 (4), [revista en format electrònic < http://accurapid.com/journal/26edu.htm >].

Monzó, E. (2005). «Reeducación y desculturación a través de géneros en traducción jurídica, económica y administrativa» dins I. García Izquierdo (ed.) El género textual y la traducción. Reflexiones teóricas y aplicaciones pedagógicas, Berna, Peter Lang, p. 69-92.

Monzó, E. (2008). «Corpus-based activities in legal translation training», The Interpreter and Translator Trainer 2 (2), p 221-252.

Monzó, E.; I. García Izquierdo (2005). «Del corpus a l'enciclopèdia: Concepció i construcció de l'enciclopèdia de gèneres GENTT» dins M.T. Cabré i Castellví i C. Bach (ed.) Coneixement, llenguatge i discurs especialitzat, Barcelona, Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra; Documenta Universitària, p. 155-170.

Oster, U. (2007). «Working Towards Autonomy: Corpora in the translation classroom» dins G. Wotjak (ed.) Quo vadis Translatologie? Ein halbes Jahrhundert universitäre Ausbildung von Dolmetschern und Übersetzern in Leipzig. Rückschau, Zwischenbilanz und Perspektiven aus der Außensicht, Berlin, Timme, p. 311-325.

Teubert, W. (ed.) (2007). Text Corpora and Multilingual Lexicography,Amsterdam, John Benjamins.

Toury, G. (1985). «A Rationale for Descriptive Translation Studies» dins T. Hermans (ed.) The Manipulation of Literature. Studies in Literary Translation, Londres, Croom Helm, p. 16-41.