Printer Friendly

A CORPUS SPANISH PARAPHRASE: METHODOLOGY, PROCESSING AND ANALYSIS/UN CORPUS DE PARAFRASIS EN ESPANOL: METODOLOGIA, ELABORACION Y ANALISIS.

ABSTRACT

This work outlines the process of elaboration a paraphrase corpus for the Spanish language. It describes the methodology used for creating the corpus emphasising on one hand, the specification of the types of paraphrases involved in each level and, on the other, the linguistic resources used. Finally, a quantitative and qualitative analysis of the linguistic observed phenomena in the corpus is performed.

Keywords: Paraphrase, corpus, Natural Language Processing (NLP).

RESUMEN

En este articulo se describe el proceso de elaboracion de un corpus de parafrasis para el espanol. Se describe la metodologia empleada para llevarlo a cabo, haciendo hincapie en la especificacion de los tipos de parafrasis involucrados en cada nivel parafrastico y en los recursos linguisticos utilizados. Una vez constituido el corpus, se realiza un analisis cuantitativo y cualitativo detallado de los fenomenos linguisticos observados en el mismo.

Palabras clave: Parafrasis, corpus, Procesamiento del Lenguaje Natural (PLN).

Recibido: 04.08.2016. Aceptado: 25.10.2016.

1. INTRODUCCION

La parafrasis ha sido un tema de gran interes en los ultimos anos en el ambito del Procesamiento del Lenguaje Natural (PLN), ya que parafrasear automaticamente un texto es un recurso utilizado en muchas de sus aplicaciones, como la busqueda de respuestas, el resumen automatico y la traduccion automatica. Por este motivo, se han realizado muchas investigaciones en este sentido, como por ejemplo sistemas automaticos que generan parafrasis, diferentes clasificaciones de parafrasis y corpus de parafrasis. Sin embargo, para el espanol son pocos los trabajos existentes hasta el momento.

El presente trabajo tiene como referente la investigacion realizada por Castro, Sierra, Torres-Moreno y Da Cunha (2011), en la que se presento un metodo de deteccion de similitud textual que se evaluo empleando un corpus que incluia 12 textos originales en espanol parafraseados a dos niveles. La parafrasis de nivel bajo incluia unicamente variacion lexica y la parafrasis de nivel alto contenia variacion lexica, sintactica, de organizacion textual o discursiva, y fusion o separacion de oraciones. Dado que el tamano de ese corpus era reducido, en este trabajo se planteo ampliarlo para aumentar su representatividad y ponerlo a disposicion de investigadores de diferentes areas del PLN.

Asi, el presente articulo tiene un doble objetivo. Por un lado, el primer objetivo es describir la metodologia empleada para constituir el corpus, haciendo enfasis en la especificacion de los tipos de parafrasis involucrados en cada nivel parafrastico y en los recursos linguisticos utilizados. Por otro, una vez constituido el corpus, el segundo objetivo es realizar un analisis cuantitativo y cualitativo detallado de los fenomenos linguisticos observados en el mismo.

En el apartado 2 se realiza una revision de los trabajos sobre la definicion de parafrasis, las diferentes clasificaciones y los diferentes corpus de parafrasis. En el apartado 3 se expone la metodologia utilizada para la elaboracion del corpus de parafrasis en espanol. En el apartado 4 se analiza el corpus y se obtienen resultados. Finalmente, en el apartado 5 se plantean las conclusiones.

2. ESTADO DEL ARTE

2.1. Definiciones de parafrasis

Se ha definido la parafrasis como expresiones, formas linguisticas o verbalizaciones alternativas que transmiten la misma informacion de una expresion original dentro de un idioma (Fujita, 2005; Bannard y Callison-Burch, 2005; Zhou, Lin, Munteanu y Hovy, 2006); o bien como la reescritura del contenido mientras se preserva el significado original (Burrows, Potthast y Stein, 2013).

Por su parte, Barron-Cedeno, Vila, Marti y Rosso (2013) agregan que, si bien las parafrasis transmiten la misma informacion o contenido, tambien se debe considerar a aquellas que transmiten aproximadamente el mismo significado o contenido equivalente, lo que Bhagat (2009) denomina como "cuasi-parafrasis". Asimismo, Milicevic (2007) senala que la parafrasis es la relacion que une dos frases o expresiones linguisticas (sintagmas, periodos sintacticos) cuasi-sinonimicas. Tambien senala que la relacion de parafrasis no solo se da en dos pares de expresiones de una misma lengua (parafrasis intralinguistica), sino tambien entre pares de expresiones de lenguas diferentes (parafrasis interlinguistica). Estas definiciones se han dado en el area del PLN y resultan vagas o generales, ya que definir el concepto de parafrasis no es el fin de las investigaciones que se realizan en este ambito. Dichas investigaciones se centran en desarrollar tecnicas para la generacion y comprension automatica del lenguaje natural.

La parafrasis tambien se ha estudiado desde la perspectiva linguistica, especialmente en el analisis del discurso. Bajo este enfoque, se ha definido como la reformulacion en una situacion discursiva con un texto fuente de partida del cual se produce un texto nuevo. Algunos autores denominan este fenomeno como parafrasis reformulativa o reformulacion parafrastica, que se lleva a cabo por razones discursivas como enfasis, correccion o clarificacion, ademas de contribuir a la cohesion y desarrollo discursivo (Milicevic, 2007 y Barbeito, 2013).

Despues de la revision de diferentes definiciones se puede concluir que para la elaboracion de parafrasis es necesario el uso de conocimiento linguistico, ya que la parafrasis es un fenomeno que involucra una amplia gama de mecanismos (morfologicos, lexicos, semanticos, sintacticos y discursivos) con la finalidad de mantener el mismo significado o significado equivalente entre diferentes expresiones linguisticas (palabras, frases, oraciones, segmentos discursivos).

2.2. Clasificaciones de parafrasis

Las definiciones que se han dado sobre el concepto de parafrasis son generales. Respecto a las propuestas de clasificacion sobre parafrasis, existe una gran variedad de enfoques: desde clasificaciones muy exhaustivas hasta clasificaciones muy generales. Teniendo en cuenta el aspecto linguistico en el que se centran, se pueden mencionar la de Dras (1999), que se basa en la perspectiva sintactica; la de Bhagat (2009), que se centra en los mecanismos lexicos, y la de Fujita (2005), que se centra tanto en los mecanismos lexicos como en los sintacticos de la parafrasis.

Algunas clasificaciones resultan menos complejas, pues unicamente enlistan tipos de parafrasis que son utiles para un sistema o aplicacion especifica, o los tipos mas comunes encontrados en un corpus. Tal es el caso de los trabajos de Barzilay, Mckeown y Elhadad (1999); Kozlowski, McCoy y Vijay-Shanker (2003); Rinaldi, Dowdall, Kaljurand, Hess y Molla (2003); Dorr et al. (2004) y Boonthum (2005). Otras clasificaciones son mas generales, con dos o tres tipos de parafrasis, como la de Shimohata (2004).

Por su parte, tanto Vila, Marti y Rodriguez (2011, 2014) como Barron-Cedeno et al. (2013) realizan clasificaciones que abarcan un gran numero de fenomenos parafrasticos, con el objetivo de entender este fenomeno, pero sin ser exhaustivas. Estas clasificaciones no representan una simple lista de fenomenos parafrasticos, sino que estan basadas en una reflexion linguistica. Como antecedente de estas clasificaciones que ofrecen una vision amplia e inclusiva de la parafrasis, se encuentra Barron-Cedeno, Vila y Rosso (2010). Ademas, mirando en direccion al presente trabajo, la importancia de esta ultima clasificacion es que se realizo en espanol.

2.3. Corpus de parafrasis

Sierra (2008: 445) define corpus linguistico como "la recopilacion de un conjunto de textos--escritos y/u orales--basada en determinados criterios con el objetivo de realizar analisis linguisticos".

Este mismo autor senala que los corpus tienen un gran valor para las investigaciones linguisticas, pero que "su importancia trasciende este ambito y es materia de interes tanto para la linguistica teorica como aplicada, asi como para las investigaciones y desarrollos en el PLN" (Sierra, 2008: 446).

Existen diversos corpus que incluyen parafrasis, sin embargo, la mayoria se encuentra en ingles. Generalmente, los corpus de parafrasis estan compuestos por textos literarios o notas periodisticas de otras lenguas traducidos al ingles, o bien, notas periodisticas en ingles que narran el mismo evento. A continuacion se hace referencia a los corpus de parafrasis mas relevantes y a los contextos en los que fueron creados.

Barzilay (2003) implemento y evaluo el sistema MultiGen, que identifica y sintetiza la informacion redundante para realizar resumenes coherentes. Para esta investigacion se utilizaron dos tipos de corpus. El primero contiene varias traducciones al ingles de textos literarios escritos por autores extranjeros. Dichas traducciones fueron realizadas por diferentes traductores. El segundo contiene articulos de periodicos sobre el mismo evento descrito por diferentes periodistas. Barzilay explica que se trata de un corpus de parafrasis porque en el primero las traducciones preservan el significado de la fuente original, aunque pueden usar diferentes palabras y estructuras para transmitir el mismo significado; el cambio tambien se da por la creatividad del traductor. El segundo tambien es un corpus parafrastico dado que los articulos explican el mismo evento y coinciden en informacion, pero se diferencia del primero en que los periodistas seleccionan independientemente las formas linguisticas para verbalizarias.

Cohn, Callison-Burch y Lapata (2008) crearon un corpus de 900 pares de oraciones de parafrasis alineados a nivel palabra o frase. Estos pares fueron compilados de tres fuentes diferentes: el corpus Twenty Thousand Leagues Under the Sea (Leagues), el corpus Multiple-Translation Chinese (MTC), y el corpus Microsoft Research Paraphrase (MSRP). El primero fue creado por Tagyoung Chung y contiene dos traducciones al ingles de la novela francesa Veinte mil leguas de viaje submarino escrita por Jules Verne. El segundo fue creado por Huang, Graff y Doddington (2002) (1) y contiene 105 notas periodisticas de tres fuentes en chino mandarin traducidas al ingles. El tercero fue creado por Dolan y Brockett (2005) y contiene 5.801 pares de oraciones en ingles de notas periodisticas. Cada par de oraciones fue analizado por personas, quienes consideraron que 3.900 pares (67%) eran parafrasis, es decir, equivalentes semanticamente y 1.901 (33%) no lo eran.

El corpus paralelo monolingue usado por Barzilay y Elhadad (2003) contiene 103 pares de descripciones de ciudades obtenidas de la Enciclopedia Britanica y la Britannica Elementary. La Britannica Elementary contiene generalmente la informacion presentada en la Enciclopedia Britanica; sin embargo, en numerosos casos la entrada de la Britannica Elementary contiene informacion adicional o mas fechas. Este corpus fue anotado por dos hablantes nativos de ingles.

A su vez, Burrows, Potthast y Stein (2013) crearon el corpus Webis Crowd Paraphrase. Para la generacion de parafrasis se utilizo Amazon Mechanical Turk (AMT), un servicio comercial de externalizacion (2), que actua como intermediario entre los anotadores y los solicitantes. Como textos originales utilizaron 4.067 fragmentos elegidos al azar de 7.000 libros descargados de Project de Gutenberg (3). Para la creacion del corpus fue necesario que los anotadores tuvieran fluidez al leer y escribir en ingles.

En el caso de corpus que estan relacionados con el plagio se pueden mencionar varios casos. Potthast, Stein, Barron-Cedeno y Rosso (2010) crearon PAN-PC-10, un corpus que contiene 700.000 casos de plagio. El 40% de los casos son copias exactas y el 60% involucra algun tipo de parafrasis. El 94% de los casos de este corpus de parafrasis fueron generados automaticamente y el 6% manualmente. Los casos de parafrasis creados manualmente se recopilaron mediante AMT. Los anotadores debian tener fluidez en ingles, tanto para leer como para escribir. Se les solicito que rescribieran el texto original con la instruccion de que esta version rescrita debia tener el mismo significado que el original, pero debia incluir palabras y frases diferentes.

Clough y Stevenson (2011) elaboraron el corpus Plagiarized Short Answers, que consiste en 95 respuestas de entre 200 y 300 palabras a preguntas de ciencias de la computacion, en las cuales el plagio tuvo que ser simulado. Como textos fuente se tomaron cinco articulos de Wikipedia. Para la creacion del corpus participaron 19 anotadores que eran hablantes nativos del ingles y no nativos.

Castro et al. (2011) presentaron un metodo de deteccion de similitud textual basado en el discurso y la semantica. Dentro de esta investigacion crearon un corpus que se compone de 12 textos en espanol, obtenidos de Wikipedia, de revistas cientificas y de periodicos. Asimismo, los textos contienen tres tematicas: sushi, sexualidad y astronomia. Estos textos fueron parafraseados en nivel bajo, que consistia en variacion solamente lexica, y nivel alto, que consistia en variacion lexica, sintactica, de organizacion textual o discursiva y fusion o separacion de oraciones.

Barron-Cedeno et al. (2013) crearon el corpus de parafrasis Paraphrase for Plagiarism (P4P). P4P contiene una parte de los casos de plagio del corpus PANPC-10 anotados manualmente con base en la tipologia parafrastica que crearon. Este corpus contiene 847 pares fuente-plagio en ingles.

3. METODOLOGIA

3.1. Seleccion del corpus

Los textos que forman parte del corpus que se elaboro en esta investigacion se extrajeron del RSTSpanish Treebank (4) (Da Cunha, Torres-Moreno y Sierra, 2011), un corpus en espanol anotado con relaciones del discurso. Se conforma de textos especializados de multiples ambitos que incluyen tres niveles de especializacion, siguiendo la clasificacion de Cabre (1999): nivel alto, donde tanto el autor como el receptor del texto son especialistas del ambito (por ejemplo, articulos cientificos, actas de congresos, tesis doctorales, etc.); nivel medio, donde el autor del texto es un especialista del ambito y el receptor es un estudiante o un aprendiz (por ejemplo, libros de texto, manuales, etc.); nivel bajo, donde el autor del texto es un especialista y el receptor es el publico en general (por ejemplo, articulos y reportajes de divulgacion, sitios web de asociaciones, etc.).

En el caso de nuestro corpus se tomaron 12 textos de tres dominios muy diferentes: matematicas, psicologia y sexualidad. En total se emplearon 36 textos de una longitud entre 27 y 193 palabras. Los textos de matematicas son resumenes de articulos cientificos (abstracts) de las revistas Miscelanea Matematica (revista de divulgacion de la Sociedad Matematica Mexicana) y Divulgaciones Matematicas (revista de la Universidad de Zulia, Venezuela). Los textos de psicologia tambien son abstracts de la Revista Electronica de Psicologia de Iztacala. Asi, tanto los textos de matematicas como los de psicologia son textos especializados de nivel alto. Por el contrario, los textos del dominio de sexualidad son parte del Periodico Mural, un medio de difusion que el Departamento de Salud Publica de Mexico ofrece a la comunidad de la Facultad de Medicina. Estos textos estan destinados a estudiantes de dicha facultad y se emplean como complemento en la educacion alli impartida. Por lo tanto, los textos de sexualidad son textos de especializacion de nivel medio.

3.2. Marco teorico

En este trabajo se tuvieron en cuenta dos marcos teoricos: por un lado, la Teoria Comunicativa de la Terminologia (TCT) de Cabre (1999) y, por otro, la Rhetorical Structure Theory (RST) de Mann y Thompson (1988).

Dado que este corpus esta compuesto por textos especializados de nivel alto y de nivel medio, se tomo como marco teorico la TCT, que admite la variacion linguistica utilizada para la parafrasis baja (PB). La TCT concibe la terminologia como una materia interdisciplinar e intenta explicarla dentro de una teoria del lenguaje, una teoria de la comunicacion y en una teoria del conocimiento. Asi, el objeto de estudio de la TCT son los terminos, a los que define como unidades singulares y a la vez similares a otras unidades de comunicacion dentro de un esquema global de la representacion de la realidad, ya que considera que los terminos forman parte del lenguaje natural y de la gramatica de cada lengua. Por lo tanto, admite la variacion conceptual y denominativa de los terminos. La variacion conceptual se refiere al caracter polisemico de los terminos, puesto que algunos se pueden usar en diferentes ambitos o en el ambito especializado y en la comunicacion general. Respecto a la variacion denominativa consiste en la sinonimia, es decir, formas alternativas de denominacion del mismo concepto; sin embargo se senala que las relaciones de sinonimia pueden tener un valor similar o muy distinto de acuerdo con el contexto (Cabre, 1999; 2001).

Respecto a la RST, es una teoria de analisis discursivo mediante la cual es posible caracterizar la estructura jerarquica de un texto. Para realizar analisis con la RST se tienen en cuenta los segmentos discursivos (que pueden ser oraciones o partes de ellas), las relaciones discursivas o retoricas, y la estructura discursiva jerarquica del texto. Los segmentos discursivos tambien se denominan Unidades Discursivas Minimas, en ingles Elementary Discurse Units (EDUs) (Marcu, 2000). Las caracteristicas de las EDUs pueden variar dependiendo del analista; en nuestro caso se tomaron las que aparecen en Da Cunha e Iruskieta (2010). Por lo tanto, las EDUs deben incluir un verbo, ya sea en forma conjugada, en infinitivo o en gerundio. Asimismo, no se consideran EDUs a las oraciones de relativo, ni las de objeto directo o indirecto. Dependiendo la importancia que tenga una EDU dentro del texto y segun su relacion con otras EDUs, estas pueden ser:

a) Nucleo: incluye informacion relevante para los propositos del autor.

b) Satelite: incluye informacion adicional sobre el nucleo del que depende.

A su vez, las relaciones discursivas pueden ser de tipo Nucleo-Satelite (en las que el satelite depende del nucleo) o de tipo Multinuclear (si incluyen varios nucleos al mismo nivel). Ejemplos de relaciones Nucleo-Satelite son condicion, reformulacion, causa, resultado, elaboracion, etc. y de relaciones Multinucleates son lista, secuencia o contraste.

3.3. Seleccion y entrenamiento de los anotadores

Para la creacion del corpus se conto con tres anotadoras, todas pasantes de la licenciatura en Lengua y Literaturas Hispanicas de la Facultad de Filosofia y Letras de la UNAM. Se realizo una primera propuesta de clasificacion de los fenomenos parafrasticos basada en investigaciones de otros autores, principalmente en Castro et al. (2011), Barron-Cedeno et al. (2010) y Barron-Cedeno et al. (2013), ademas de propuestas propias, y se generaron ejemplos para cada tipo o subtipo parafrastico. Asimismo, se senalo la combinacion de algunos fenomenos parafrasticos.

La primera propuesta de clasificacion fue modificada a lo largo de la creacion del corpus, ya que algunos fenomenos no resultaban claros y confundian a las anotadoras. Por ejemplo, la definicion de eliminacion de contenido proposicional es vaga. Barron-Cedeno et al. (2010: 11) la definen como "eliminacion de una o mas piezas lexicas". Para esclarecer este fenomeno, se definio como eliminacion de verbos y, como consecuencia, transformacion de la oracion. Sin embargo, la confusion permanecia, pues no se entendia este fenomeno y no se diferenciaba de otros.

El ejemplo ofrecido es:

a) Juan hizo un intento para dejar de fumar.

b) Juan intento dejar de fumar (Barron-Cedeno et al. 2010: 11).

Visto desde otra perspectiva, este ejemplo puede clasificarse dentro del fenomeno de cambio de sustantivo a verbo y, como consecuencia, la eliminacion de palabras (hizo un). La principal duda es a que se refieren Barron-Cedeno et al. (2010) cuando hablan de contenido no proposicional. Raul Rodriguez (2013: 9) define contenido proposicional como la informacion en un sentido factico, es decir, "el tipo de informacion que puede ser verdadera o falsa". Aunado a esto, Perez Jimenez (1998: 262) menciona que "existen elementos que no contribuyen al significado proposicional del enunciado como los adverbios y adjetivos, especificamente los evaluativos". Lo anterior lo ejemplifica en:

a) Lamentablemente, ese joven delincuente robo mi coche.

La autora explica que los valores de verdad se determinan en la oracion ese joven delincuente robo mi coche, mientras que el adverbio evaluativo lamentablemente no forma parte del contenido proposicional, ya que el enunciado es verdadero, si es verdad que el delincuente hurto el coche, independientemente de que se juzgue un acto lamentable.

Tambien causaban confusion los fenomenos de insercion y eliminacion de adjuntos, asi como la insercion y eliminacion de especificadores. La confusion principal era ocasionada por la definicion de adjuntos y especificadores. Adjuntos se definen como complementos no seleccionados, pero compatibles con las caracteristicas semanticas de los nucleos. Los adjetivos y las oraciones de relativo se interpretan como adjuntos de los sustantivos, asi como los adverbios son adjuntos de los verbos (RAE, 2009: [section]1.12f). La funcion de los especificadores, por su parte, es determinar, situar y cuantificar. Se componen de determinantes (articulos, adjetivos demostrativos, posesivos) y cuantificadores (numerales cardinales) (Bosque y Gutierrez-Rexach, 2009).

Dado que estos cuatro tipos parafrasticos compartian clases de palabras, como el caso de los adjetivos, causaban duda sobre a cual pertenecian. Ademas, este tipo de eliminaciones e inserciones no abarcaban varias clases de palabras que se anadieron o se eliminaron, tales como preposiciones, abreviaturas, etc. Puesto que no eran utiles para la elaboracion del corpus, se decidio renombrarlos como eliminacion de palabras e insercion de palabras.

Tambien se decidio fusionar varios fenomenos en uno ya que su separacion no era util ni productiva. El cambio de verboide a forma conjugada verbal y el cambio verbal transitivo/intransitivo se fusionaron solamente en el cambio de forma verbal. Asimismo, se redujo la fusion de yuxtapuestas y fusion de oraciones copulativas al tipo parafrastico fusion de oraciones. En la Tabla I se muestra la clasificacion final para la anotacion.

3.4. Diseno y gestion del procedimiento de anotacion

Despues de que todas las anotadoras interiorizaron los criterios de anotacion, se le asignaron cuatro textos por ambito, en total, 12 textos a cada una. El tiempo de anotacion variaba segun la cantidad de terminos que contenia el texto, ademas de la disponibilidad de los recursos lexicograficos (diccionarios de lengua espanola, diccionario de antonimos y sinonimos), terminologicos (diccionarios especializados y bases de datos terminologicos) y textuales (textos de nivel alto, medio y alto de especializacion). Asimismo, algunos textos eran mas cortos que otros.

Los criterios empleados para realizar la anotacion son similares a los criterios utilizados en la investigacion de Castro et al. (2011). Se considero que la parafrasis baja (PB) consiste en la sustitucion por sinonimos, hiperonimos, hiponimos, meronimos y holonimos. La parafrasis alta (PA) consiste en la realizacion de los fenomenos de la PB, ademas de los fenomenos morfologicos, lexicos, semanticos, sintacticos y discursivos.

El proceso de anotacion se realizo de la siguiente manera: el texto original (OR) se dividio en oraciones y estas, de ser posible, en otros segmentos discursivos. Las anotadoras realizaron la PB y despues la PA de cada uno de los segmentos discursivos de cada texto. Sin embargo, si el texto era muy especializado las anotadoras preferian realizar primero la PA, ya que habia un mayor numero de tipos parafrasticos para elegir, en comparacion con los seis tipos parafrasticos de la PB. Posteriormente, realizaron el conteo de los fenomenos involucrados en el parafraseo. Finalmente, buscaron los textos de control (Pno), es decir, textos de las mismas tematicas de los textos originales y con longitudes similares, pero que no eran parafrasis (6).

En la creacion del corpus se contabilizo el tiempo utilizado para elaborar el parafraseo, tanto de nivel bajo como de nivel alto, como puede observarse en la Tabla II.

En el ambito de sexualidad, con un total de 50 horas con 13 minutos, fue en el que se empleo mas tiempo para realizar la parafrasis tanto de nivel bajo (21 horas con 31 minutos) como de nivel alto (28 horas con 42 minutos). La razon es que al tener mas recursos lexicograficos, terminologicos y textuales, llevaba mas tiempo decidir cual era la mejor opcion para parafrasear; ademas, buscar un termino en las bases de datos terminologicos o dentro de los diversos recursos textuales requeria mas tiempo.

Por el contrario, la seleccion de los textos no parafrasticos de sexualidad para el corpus de contraste fue la que consumio menos tiempo, debido a la gran cantidad de textos existentes en este ambito, como consecuencia del trabajo de difusion para la prevencion de las enfermedades de transmision sexual de las organizaciones o instituciones de salud publica.

Para el ambito de psicologia y para el de matematicas se emplea un tiempo similar. Sin embargo, es importante destacar que se utilizaron menos tipos parafrasticos en este ultimo, debido al poco conocimiento matematico de las anotadoras, a la falta de recursos lexicograficos y terminologicos, y al nivel de especializacion alto de los articulos.

4. ANALISIS CUANTITATIVO Y CUALITATIVO

4.1. Analisis cuantitativo del corpus

En este trabajo, la ji cuadrada se utilizo para determinar la asociacion que habia entre anotadoras (A, B, C) y ambitos (matematicas, psicologia y sexualidad). En la Tabla III se muestran los fenomenos parafrasticos permitidos en la PB en relacion con las anotadoras. El resultado obtenido fue p-value= 0.00522, por lo tanto, se concluye que los tipos parafrasticos no son independientes de las anotadoras.

En la Tabla IV se encuentra la relacion de diferentes ambitos con los fenomenos parafrasticos en la PB. El resultado obtenido fue p-value= 0.002526; por lo tanto, el uso de los tipos parafrasticos en la PB tampoco es independiente de los ambitos.

En conclusion, la sustitucion por sinonimos, la sustitucion por hiperonimos, la sustitucion por hiponimos, la sustitucion por meronimos y la sustitucion por holonimos en la PB dependen de las anotadoras y del ambito, concretamente por la densidad terminologica del texto.

Lo importante, por lo tanto, sera que se cuente con suficientes recursos lexicograficos, terminologicos y textuales de consulta.

En la Tabla V se muestra la relacion de las anotadoras y los tipos parafrasticos exclusivos de la PA. El resultado obtenido fue p-value= 3.059e-14; por lo tanto, el uso de los tipos parafrasticos exclusivos de la PA no es independiente de las anotadoras. La eleccion de los tipos parafrasticos depende del estilo de las anotadoras. Se considera estilo como el conjunto de caracteristicas en el modo de escribir de una persona que la distingue de las demas.

La anotadora A utilizo en mas ocasiones la sustitucion palabra-definicion (47 ocurrencias), la insercion de marcadores discursivos (27 ocurrencias) y el cambio de marcadores discursivos (13 ocurrencias).

La anotadora B fue la que mas utilizo los siguientes fenomenos: eliminacion de palabras (68 ocurrencias), cambio de derivacion (39 ocurrencias) y cambio de forma verbal (28 ocurrencias). Igualmente, esta anotadora fue la unica que utilizo el fenomeno de transformacion discurso directo/indirecto y la eliminacion de segmentos discursivos.

La anotadora C, a su vez, prefirio usar mas la insercion de palabras (116 ocurrencias), el cambio de orden de palabras (27 ocurrencias), insercion de segmentos discursivos (22 ocurrencias) y repeticion/elipsis (21 ocurrencias). Ademas, esta anotadora fue la unica que utilizo el cambio de composicion/descomposicion y el de conmutacion de negacion.

La Tabla VI muestra la relacion de los ambitos y tipos parafrasticos exclusivos de la PA. El resultado obtenido fue p-value= 1.026e-06; por lo tanto, se concluye que el uso de los tipos parafrasticos exclusivos de la PA no es independiente de los ambitos.

El fenomeno mas recurrente en el ambito de matematicas fue la insercion de oraciones de relativo, con 21 casos de las 46 apariciones de este tipo en todo el corpus. Las oraciones de relativo permitian agregar informacion sin modificar los terminos, especificamente con las oraciones subordinadas adjetivas explicativas. En muchas ocasiones era dificil realizar la sustitucion palabra-definicion, que es uno de los tipos parafrasticos mas usados en el corpus en el nivel parafrastico alto (PA). Esto se debe a la falta de recursos lexicograficos y terminologicos en este ambito. La sustitucion palabra-definicion permitia mantener el mismo significado o significado equivalente en estos textos altamente especializados. Asimismo, eran dificiles de realizar tambien la eliminacion e insercion de palabras, que son los tipos parafrasticos mas usados y elementales. Se utilizaron en pocas ocasiones por la falta de conocimiento de este ambito por parte de las anotadoras, puesto que no sabian si este tipo de modificaciones afectaria la cohesion y coherencia de los textos. Finalmente, el ambito de matematicas contenia textos altamente especializados, lo que dificultaba realizar otros fenomenos parafrasticos, pues son textos concisos y la terminologia no se presta a la variacion. En este ambito se realizo el unico caso de transformacion de discurso directo/indirecto.

Los fenomenos mas utilizados en el ambito de sexualidad fueron insercion de palabras (116 casos), sustitucion palabra-definicion (66 casos), insercion de marcadores discursivos (32 casos), cambio de orden de palabras (22 casos), insercion de segmentos discursivos (17 casos) y diferentes formas para realizar el mismo contenido semantico (12 casos). La insercion de palabras, la insercion de segmentos discursivos, e incluso la sustitucion de palabra-definicion se relacionan con la insercion de marcadores discursivos, ya que al aumentar la informacion del texto es necesario relacionarla mediante los marcadores discursivos. Respecto a la sustitucion palabra-definicion, se debe al gran numero de recursos terminologicos y textuales que existen en este ambito.

El tipo denominado diferentes formas para realizar el mismo contenido semantico fue posible porque se contaba con mas recursos textuales, los cuales eran en su mayoria de nivel de especializacion bajo. Gracias a esto era facil comprender los temas, lo que permitia mayores modificaciones lexicas, como este tipo parafrastico y el cambio de orden de palabras. En este ambito se encuentra el unico caso de cambio composicion/descomposicion y de conmutacion de negacion; este ultimo tipo parafrastico es posible porque la negacion puede manifestarse de maneras diversas: con determinantes y pronombres (nadie, ninguno, nada), adverbios (no, nunca, jamas, tampoco), conjunciones (ni, sino) y preposiciones (sin), por lo que es posible la alternancia negativa (no vino nadie > nadie vino) (RAE, 2009: [section]48.le,d,i; 48.3a).

En el ambito de psicologia los fenomenos mas utilizados fueron: eliminacion de palabras (con 60 apariciones), cambio de derivacion (con 41 apariciones), cambio de forma verbal (con 23 apariciones), repeticion/elipsis (con 18 apariciones), segmentacion de unidades discursivas (con 13 apariciones), cambio de marcadores discursivos (con 12 apariciones) y cambio de flexion (con 9 apariciones).

Los tipos eliminacion de palabras y cambios de derivacion estan relacionados. Especificamente, esta relacion surge cuando en el cambio de derivacion se realiza el cambio de adjetivo a sustantivo. Se elimina el sustantivo que es modificado por el adjetivo; ya que dicho adjetivo se convierte en sustantivo en el texto parafraseado.

Asimismo, estan vinculados el cambio de forma verbal y el cambio de flexion, siempre y cuando el cambio de forma verbal incluya cambio de numero, ya que esta modificacion se encuentra relacionada con el cambio de persona gramatical para mantener la concordancia.

Tambien la segmentacion de unidades discursivas y repeticion/elipsis estan relacionadas; la segmentacion se da por la insercion de informacion y, en diversas ocasiones, fue necesaria la repeticion del referente para darle cohesion al texto, ademas para dar enfasis al tema. El cambio de marcadores se dio principalmente entre marcadores de adicion (ademas > tambien, y > asimismo, tambien > igualmente), de concesion (aunque > a pesar de, aunque > aun cuando). Aunque menos frecuentes, tambien se utilizaron los marcadores discursivos consecutivos (luego > despues) y ordenadores (finalmente > para terminar). En este ambito se encuentra el unico caso de eliminacion de segmentos discursivos. El hecho de que solo exista un caso de este tipo parafrastico se debe a que es el mas radical, pues afecta el significado de la expresion fuente.

En conclusion, los tipos parafrasticos exclusivos de la PA se relacionan con las anotadoras y con los ambitos, es decir, si en el ambito es posible efectuar los tipos parafrasticos y si las anotadoras los eligen, pueden llevarse a cabo.

En la Tabla VII se observa que, en general, los tipos parafrasticos que mas se utilizaron en el corpus fueron la insercion de palabras, la eliminacion de palabras, la sustitucion de palabra-definicion, el cambio de derivacion, el cambio de forma verbal, la insercion de marcadores discursivos, el cambio de orden de palabras, la insercion de oraciones de relativo y la repeticion/elipsis.

Entre los fenomenos menos frecuentes del corpus se encuentran la sustitucion por aproximacion numerica, la sustitucion de un verbo por un conjunto de elementos equivalentes, la sustitucion por una sigla o un acronimo, y la transformacion de activa/pasiva.

4.2. Analisis cualitativo

4.2.1. Insercion de palabras

Las categorias que mas se insertaron fueron: conjunto de palabras (7) (135 casos), verbos (39 casos), adjetivos (22 casos), frases sustantivas (14 casos), frases preposicionales (14 casos) y preposiciones (11 casos). Aunque con menor frecuencia pero recurrentes: sustantivos (10 casos), adverbios (6 casos), pronombres (5 casos), frases adverbiales (1 caso), articulos (1 caso), terminos (1 caso), frases adjetivas (1 caso) y siglas (1 caso).

En numerosas ocasiones se anadieron los verbos haber, ser y existir. Segun Hernandez (2002: 15), con estos verbos se construyen las oraciones existenciales, que "son basicas en las lenguas". Asimismo, menciona que las oraciones existenciales presentan entidades del discurso y tienen una funcion de senalamiento espacial, es decir, ubican entidades en un espacio fisico o mental.

Tambien se inserto frecuentemente el verbo tener, que es una de las maneras de expresar posesion en espanol. Aguilar (2007: 13) menciona que "la posesion es un concepto constante en el lenguaje", que consiste en "establecer una conexion entre dos entidades basadas en el reconocimiento de que entre ellas existe un vinculo o union intrinseca" (Aguilar, 2007: 15). La autora senala, ademas, que este verbo expresa diferentes relaciones: parentesco, cualidades, espaciales, eventos, estados fisicos y mentales, entre otras.

Retomando a Hernandez (2002), la investigadora afirma que los verbos que expresan existencia, locacion y posesion estan relacionados en espanol, hecho relevante ya que en el corpus se eliminan este tipo de verbos y se insertan otros del mismo tipo; concretamente se muestra la relacion entre los verbos tener, ser y existir.

Por lo que concierne a la insercion de pronombres relativos, ya sean solos o acompanados de verbos, se opta por convertir el contenido en oraciones subordinadas adjetivas especificativas o explicativas. Ademas, los relativos pueden funcionar tambien como conjunciones e introducir oraciones subordinadas sustantivas de objeto directo.

La mayoria de la insercion de frases preposicionales en el corpus cumple con la funcion de complemento adnominal o preposicional, "relacion que se presenta cuando un sustantivo determina, aclara o precisa el significado de otro sustantivo" (Gili Gaya, 1983: [section]159).

Por lo que respecta a las preposiciones, se pueden insertar porque establecen relaciones entre diferentes clases de palabras: un verbo con un sustantivo o un sustantivo con otro sustantivo, entre otras. Esto permite que las palabras vayan determinandose y complementandose mutuamente para formar un conjunto comprensible (Seco, 1989). Las preposiciones que mas se insertaron en nuestro corpus fueron en, expresando ubicacion y de, una de las preposiciones mas usadas en espanol, que senalaba regularmente la relacion de pertenencia, es decir, que un elemento forma parte de un conjunto o clase.

4.2.2. Eliminacion de palabras

Las categorias que mas se eliminaron en este tipo parafrastico fueron: conjunto de palabras (29 casos), verbos (25 casos), sustantivos (14 casos), adjetivos (12 casos), frases preposicionales (10 casos), frases sustantivas (9 casos), preposiciones (9 casos), adverbios (4 casos), articulos (3 casos), pronombres (2 casos), terminos (1 caso) y frases adverbiales (1 caso).

La eliminacion de sustantivos se relaciona principalmente con el cambio de derivacion. Al convertir un adjetivo a un sustantivo se elimina el sustantivo que calificaba el adjetivo. La eliminacion de adjetivos y verbos tambien estan relacionadas con el cambio de derivacion.

La insercion y eliminacion de palabras se encuentran relacionadas, en muchos casos, con la eliminacion de una palabra porque se opta por la insercion de otra, sin que exista una relacion sinonimica, aunque tampoco se realiza un cambio radical en el significado de la expresion fuente.

En el caso de la eliminacion de adverbios, Alarcos (1973: 308-309) senala que los adverbios son una clase de palabra cuya funcion es la adjuncion, es decir, son "segmentos de una oracion cuya presencia o ausencia no afecta a la estructura esencial de la expresion y ademas gozan de cierta movilidad". Magana (2007) concluye que esto se debe a que los adverbios son unidades cuya funcion es autonoma.

La eliminacion de un pronombre relativo solo o con verbo se debe a que se opta por cambiar una oracion subordinada adjetiva especificativa o explicativa por una sola oracion. La eliminacion de preposiciones se debe a varios factores; uno de ellos es que al eliminar o sustituir el verbo se elimina la preposicion porque es el complemento del verbo del regimen preposicional (CVRP).

4.2.3. Sustitucion de palabra-definicion

La mayoria de las sustituciones en los diferentes ambitos eran unidades terminologicas (105 casos), debido a que los textos eran especializados. Tambien se realizo este tipo de sustitucion, aunque en menor cantidad, en unidades lexicas pertenecientes a la comunicacion general (11 casos).

4.2.4. Cambio de derivacion

El cambio de derivacion en el corpus se realizo de sustantivos a verbos, de sustantivos a adjetivos y de sustantivos a sustantivos, asimismo, cambio de adjetivos a sustantivos, de adjetivos a adverbios y de adjetivos a verbos. Los cambios mas utilizados fueron de sustantivo a verbo (23 casos), de adjetivo a sustantivo (17 casos) y de verbo a sustantivo (14 casos).

El cambio de sustantivos a verbos se da principalmente a infinitivos, forma no personal del verbo. Este cambio se debe a la forma hibrida del infinitivo, el cual presenta propiedades nominales y verbales.

La relacion del cambio de derivacion con la sustitucion por sinonimos se establecio porque en la mayoria de los casos se realizaba primero la PB, lo que ayudaba a la realizacion de la PA; ademas la sustitucion por sinonimos fue el cambio mas utilizado en la PB.

El cambio de sustantivo a verbo es posible tambien con una forma conjugada. En el corpus este cambio se hizo a presente, preterito, preterito perfecto compuesto y futuro; en la mayoria de los casos se anadio un se impersonal, debido que el sujeto no es importante en los textos especializados.

El cambio de verbos a sustantivos tiene relacion con la insercion de palabras, especialmente con la insercion de verbos, para mantener el significado.

4.2.5. Cambio de forma verbal

Este tipo parafrastico consistio en el cambio de tiempo. En el corpus se utilizaron: presente, preterito, futuro, antepresente y copreterito como se muestra en el Grafico 1.

El cambio de tiempo verbal se da principalmente entre presente, preterito y futuro, debido a que son los tiempos que se utilizan para escribir articulos cientificos, ya que se narra que se realizo y que se hara como trabajo futuro.

Tambien se incluyo el cambio de modo: indicativo y subjuntivo. Ademas, se considero el cambio de persona; en el corpus se llevo a cabo concretamente entre la primera persona del plural, la tercera persona del singular y la tercera persona del plural como se muestra en el Grafico 2. El cambio se realizo en estas personas debido a que son con las que se acostumbra redactar los textos cientificos.

Ademas, se incluyo el cambio de forma: perifrasis verbal y verboides. El cambio se realizo especialmente entre verboide y verbo conjugado (vease en el Grafico 3), debido a que un verbo conjugado morfologicamente contiene mayor informacion tal como: persona, numero, tiempo y modo. Tambien se realiza en varias ocasiones de verbo simple a perifrasis, puesto que aporta cierto matiz o alteraciones expresivas al significado del verbo (modal [obligacion, posibilidad, etc.] y aspectual [reiteracion, duracion, etc.]).

4.2.6. Cambio de orden de palabras

El cambio de orden de palabras se da principalmente entre sustantivos (19 casos) y/o terminos (20 casos). Ocurre entre sustantivos porque son clases de palabras muy frecuentes que pueden desempenar la funcion de sujeto, complemento directo, complemento indirecto, complemento agente y complemento de regimen de un verbo prepositivo. La capacidad de movilidad de esta clase de palabras se debe tambien a que tienen significado propio; ademas, el cambio de orden de palabras es posible si el contexto lo permite.

4.2.7. Insercion de oraciones de relativo

Las oraciones de relativo se pueden dividir en especificativas o restrictivas, y explicativas o incidentales. En el caso de la creacion del corpus, las oraciones de relativo se utilizan para atribuir a un sustantivo, sobre todo a terminos, una cualidad o caracteristica compleja.

En el corpus se usaron, en la mayoria de las ocasiones, oraciones subordinadas adjetivas explicativas (38 casos), ya que como Porto Dapena (1997) menciona, desde el punto de vista semantico, las oraciones adjetivas explicativas anaden informacion secundaria al antecedente, es decir, no modifican el significado del antecedente o consecuente. Esto es importante ya que la parafrasis consiste en mantener el mismo significado o significado equivalente.

Tambien se insertaron oraciones adjetivas especificativas (8 casos), aunque en menos ocasiones. Este tipo de oraciones restringe la extension del significado del antecedente, anadiendo una nueva informacion imprescindible que ayuda a la caracterizacion del antecedente, por lo que no se pueden eliminar.

4.2.8. Insercion de segmentos discursivos

En el corpus se usaron las relaciones discursivas de causa (4 casos), reformulacion (5 casos) y concesion (1 caso); en ocasiones se inserto solo el nucleo u oracion principal (3 casos), y segmentos discursivos mas amplios de estructura multinuclear (22 casos). La relacion de causa se define como la relacion entre EDUs en la que "el nucleo es una accion o situacion que encuentra su origen en lo que describe el contenido del satelite" (Castro, 2011: 33). La reformulacion es la relacion que se da cuando "el satelite contiene la misma informacion que su correspondiente nucleo pero expresada con otras palabras. En muchas ocasiones el satelite tiene mayor extension al nucleo" (Castro, 2011: 39). La concesion es "la relacion en la que el nucleo contiene una afirmacion y el satelite aporta cierta informacion que pareciera negar la validez de lo que se afirma en el nucleo, pero realmente es complementaria" (Castro, 2011: 33-34).

En cuanto a la estructura multinuclear se puede definir como segmento discursivo que contienen mas de un nucleo y solo nucleos (Castro, 2011).

4.2.9. Eliminacion de marcadores discursivos

Los marcadores discursivos son elementos marginales, ya que solo contribuyen al procesamiento (introducir, concluir o finalizar un tema o idea, ordenar una secuencia, dar cuenta de la diferencia entre una idea y otra) de un texto (Portoles, 1998). Por eso se pueden eliminar sin perder excesiva informacion. En el corpus los tipos de marcadores que mas se utilizaron fueron los conectores aditivos (4 casos) y los concesivos (3 casos), esto se debe a que se buscaba unir ideas y a la vez contraponerlas.

4.2.10. Sustitucion por una sigla o acronimo

Para que este fenomeno se pueda realizar es necesario que en el texto se mencionen instituciones o enfermedades, por ejemplo, que puedan expresarse tambien mediante siglas o acronimos. En el corpus se utilizo en cuatro ocasiones este tipo parafrastico en el caso de Clinica Universitaria de la Salud Integral (CUSI), Terapia Cognitiva-Conductual (TCC) y en dos ocasiones para sustituir Enfermedad Inflamatoria Pelvica (EIP).

5. CONCLUSIONES

En este articulo se ha descrito la metodologia del proceso de elaboracion de un corpus de parafrasis para el espanol, haciendo hincapie en la especificacion de los tipos de parafrasis involucrados en cada nivel parafrastico y en los recursos linguisticos utilizados. Tambien se ha realizado un analisis cuantitativo y cualitativo detallado de los fenomenos linguisticos observados en el corpus constituido.

Realizar parafrasis es una tarea compleja que requiere reflexion y conocimientos linguisticos. En esta investigacion, el proceso de la creacion del corpus se inicio con la explicacion de los tipos parafrasticos, ya que esto posibilitaba la realizacion de parafrasis mas complejas, especialmente en la PA.

Cepeda, Lopez y Santoyo (2013) afirman que la imposibilidad de realizar parafrasis se debe a la carencia o insuficiencia lexica, que en el caso de esta investigacion se trato de cubrir con recursos lexicograficos, terminologicos y textuales. Ademas, explican que esta imposibilidad se debe a la descontextualizacion o falta de familiaridad respecto de algunos conceptos teoricos. Esto quedo confirmado en el ambito de matematicas, puesto que, si bien se realizo la parafrasis, fue hecha con un numero reducido de tipos parafrasticos. Contrariamente, en el ambito de sexualidad habia un gran numero de informacion difundida por las organizaciones e instituciones de salud lo que permitio a las anotadoras una mejor comprension de los textos y, por tanto, el uso de un numero mayor de tipos parafrasticos.

Lo anterior quedo comprobado tambien en el analisis cuantitativo, pues fue visible que los fenomenos parafrasticos tanto en la PB como en la PA son dependientes del ambito y de los anotadores. Esto se debe al nivel de especializacion de los textos, de los recursos lexicograficos, terminologicos y textuales disponibles, ademas del estilo del anotador.

Debido a la combinacion de los tipos parafrasticos, se concluye que la parafrasis es un fenomeno linguistico que involucra una amplia gama de mecanismos (morfologicos, lexicos, semanticos, sintacticos y discursivos) con la finalidad de mantener el mismo significado o significado equivalente entre diferentes expresiones linguisticas (palabras, frases, oraciones, segmentos discursivos).

Sobre los tipos parafrasticos, ademas, los que mas se utilizaron en todo el corpus fueron la insercion y eliminacion de palabras. Tanto Bhagat (2009) como Barron-Cedeno et al. (2013) unieron estos dos fenomenos en uno solo, ya que se encuentran relacionados entre si. En este trabajo, por el contrario, se decidio separarlos debido a que cada uno contiene una gran cantidad de diferentes clases de palabras y porque no siempre se relacionan; en algunas ocasiones existia eliminacion sin que hubiera insercion o viceversa.

Los fenomenos parafrasticos son dificiles de identificar porque implican conocer la expresion fuente, ademas de que el investigador debe ser consciente de los cambios realizados en el parafraseo, por lo que se decidio crear las parafrasis y no solo recopilarlas.

Este trabajo ha suplido la carencia existente de corpus en espanol que incluyan parafrasis realizadas de manera manual. El corpus estara disponible de manera gratuita para la comunidad cientifica del ambito del PLN. Precisamente, el trabajo futuro que se plantea es el desarrollo de aplicaciones de PLN tomando como base el corpus desarrollado, como por ejemplo deteccion automatica de similitud textual.

MARGARITA A. MOTA MONTOYA

Grupo de Ingenieria Linguistica (GIL)

Instituto de Ingenieria (UNGEN)

Universidad Nacional Autonoma de Mexico (UNAM)

margaritamotamontoya@gmail.com

IRIA DA CUNHA

Departamento de Filologias Extranjeras y sus Linguisticas

Facultad de Filologia

Universidad Nacional de Educacion a Distancia (UNED)

iriad@flog.uned.es

FERNANDA LOPEZ-ESCOBEDO

Licenciatura en Ciencia Forense (LCF)

Facultad de Medicina (FM)

Universidad Nacional Autonoma de Mexico (UNAM)

flopeze@unam.mx

REFERENCIAS

Alarcos Llorach, Emilio. (1973). Estudios de gramatica funcional del espanol. Madrid: Gredos.

Aguilar, Nora. (2007). El verbo tener y las relaciones de posesion. Tesis de maestria en Linguistica Hispanica. Mexico: UNAM.

Bannard, Colin y Callison-Burch, Chris. (2005). Paraphrasing with Bilingual Parallel Corpora. En Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 597-604.

Barbeito,Vanina Andrea. (2013). La aposicion como estrategia parafrastica. Boletin de Filologia, 48(1), 11-32.

Barron-Cedeno, Alberto, Vila, Marta y Rosso, Paolo. (2010). Deteccion automatica de plagio: de la copia exacta a la parafrasis. En Panorama actual de la linguistica forense en el ambito legal y policial: Teoria y practica. Jornadas (in) formativas de linguistica forense. Madrid, Espana: Euphonia Ediciones SL.

Barron-Cedeno, Alberto, Vila, Marta, Marti, Antonia y Rosso, Paolo. (2013). Plagiarism Meets Paraphrasing: Insights for the Next Generation in Automatic Plagiarism Detection. Computational Linguistics, 39(4).

Barzilay, Regina. (2003). Information Fusion for Multidocument Summarization: Paraphrasing and Generation. Tesis de doctorado en filosofia. New York: Universidad de Columbia.

Barzilay, Regina y Elhadad, Noemie. (2003). Sentence Alignment for Monolingual Comparable Corpora. En Proceedings of the 2003 conference on Empirical methods in natural language processing, 25-32.

Barzilay, Regina, Mckeown, Kathleen y Elhadad, Michael. (1999). Information Fusion in the Context of Multi-Document. En Proceedings of the 37th annual meeting of the Association for Computational Linguistic on Computational Linguistics.

Bhagat, Rahul. (2009). Learning Paraphrases from Text. Tesis de doctorado en Ciencias de la computacion. Faculty of the Graduate School University of Southern California.

Boonthum, Chutima. (2005). iSTART: Paraphrase Recognition. Proceedings of the ACL 2004 workshop on Student research, Association for Computational Linguistics.

Bosque, Ignacio y Gutierrez-Rexach, Javier. (2009). Fundamentos de sintaxis formal. Madrid: Ediciones Akal.

Burrows, Steven, Potthast, Martin y Stein, Benno. (2013). Paraphrase Acquisition via Crowdsourcing and Machine Learning. ACM Transactions on Intelligent Systems and Technology (TIST), 4(3).

Cabre, Maria Teresa (1999). La terminologia: Representacion y comunicacion. Ele mentos para una teoria de base comunicativa y otros articulos. Barcelona: Institut Universitari de Linguistica aplicada Universitat Pompeu Fabra.

--(2001). La terminologia cientifico-tecnica: reconocimiento, analisis y extraccion de informacion formal y semantica. Barcelona: Institut Universitari de linguistica aplicada Universitat Pompeu Fabra.

Castro, Brenda. (2011). Deteccion de similitud textual mediante criterios de discurso y semantica. Tesis de licenciatura en Lengua y literaturas hispanicas. Mexico: UNAM.

Castro, Brenda, Sierra, Gerardo, Torres-Moreno, Juan-Manuel y Da Cunha, Iria. (2011). El discurso y la semantica como recursos para la deteccion de similitud textual. En Proceedings of the III RST Meeting (8 th Brazilian Symposium in Information and Human Language Technology, STIL 2011). Cuiaba, Brasil: Brazilian Computer Society.

Cepeda, Maria Luisa, Lopez, Maria del Refugio y Santoyo, Carlos. (2013). Relacion entre la parafrasis y el analisis de textos. En Revista Electronica de Investigacion Educativa, 15(1).

Clough, Paul y Stevenson, Mark. (2011). Developing a corpus of plagiarised short answers. Language Resources and Evaluation, 45(1), 5-24.

Cohn, Trevor, Callison-Burch, Chris y Lapata, Mirella. (2008). Constructing Corpora for the Development and Evaluation of Paraphrase Systems. En Computational Linguistics, 34(4).

Da Cunha, Iria e Iruskieta, Mikel. (2010). Comparing rhetorical structures in different languages: the influence of translation strategies. En Discourse Studies, 12(5), 563-598.

Da Cunha, Iria, Torres-Moreno, Juan-Manuel y Sierra, Gerardo (2011). On the Development of the RST Spanish Treebank. En Proceedings of the 5th Linguistic Annotation Workshop 49th Annual Meeting of the Association for Computational Linguistics (ACL). Portland, Oregon, USA: Association for Computational Linguistics.

Dolan, William B. y Brockett, Chris. (2005). Automatically constructing a corpus of sentential paraphrases. En Proceedings of the Third International Workshop on Paraphrasing.

Dorr, Bonnie, Green, Rebecca, Levin, Lori, Rambow, Owen, Farwell, David, Habash, Nizar, Helmreich, Stephen, Hovy, Eduard, Miller, Keith J., Mitamura, Teruko, Reeder, Florence y Siddharthan, Advaith. (2004). Semantic Annotation and Lexico-Syntactic Paraphrase. En Proceedings of the Workshop on Building Lexical Resources from Semantically Annotated Corpora, LREC.

Dras, Mark. (1999). Tree Adjoining Grammar and the Reluctant Paraphrasing of Text. Tesis de doctorado en Filosofia. Australia: Macquarie University.

Fujita, Atsushi. (2005). Automatic Generation of Syntactically well-formed and Semantically Appropriate Paraphrases. Tesis de doctorado en Ingenieria. Nara Institute of Science and Technology (NAIST).

Gili Gaya, Samuel. (1983). Curso superior de sintaxis Espanola. Barcelona: Vox.

Hernandez, Axel. (2002). Las construcciones existenciales con el verbo haber en espanol: estructura y evolucion. Tesis de maestria en Linguistica Hispanica. Mexico: UNAM.

Huang, Graff y Doddington (2002). Multiple-Translation Chinese Corpus. [En linea] Disponible en: https://catalog.ldc.upenn.edu/LDC2002T01

Kozlowski, Raymond, McCoy, Kathleen y Vijay-Shanker, K. (2003). Generation of single-sentence paraphrases from predicate/argument structure using lexicogrammatical resources. En Proceedings of the second international workshop on Paraphrasing- Volume 16, Association for Computational Linguistics.

Magana Juarez, Elsie. (2007). Adverbios temporales durativos: estudio diacronico de una clase gramatical. Tesis de maestria en Linguistica hispanica. Mexico: UNAM.

Mann, William C. y Thompson, Sandra A. (1988). Rhetorical structure theory: Toward a functional theory of text organization. Text & Talk: Text-Interdisciplinary Journal for the Study of Discourse, 8(3), 243-281.

Marcu, Daniel. (2000). The rhetorical parsing of unrestricted texts: A surface-based approach. Computational Linguistics 26(3).

Milicevic, Jasmina. (2007). La paraphrase: Modelisation de la paraphrase langagiere. Alemania: Editions scientifiques internationales.

Perez Jimenez, Isabel. (1998). Adverbios en -mente y adjetivos circunstanciales en la teoria de la relevancia". En Interlinguistica, (9). Salamanca: Universidad de Salamanca.

Porto Dapena, Jose Alvaro. (1997). Oraciones de relativo. Madrid: Arcos/Libros.

Portoles, Jose. (1998). Marcadores del discurso. Madrid: Ariel.

Potthast, Martin, Stein, Benno, Barron-Cedeno, Alberto y Rosso, Paolo. (2010). An Evaluation Framework for Plagiarism Detection. En Proceedings of the 23rd International conference on computational linguistics: Posters, 997-1005.

Real Academia Espanola y Asociacion de Academias de la Lengua Espanola. (2009). Nueva Gramatica Basica de la Lengua Espanola. Mexico: Editorial Espasa-Calpe y Planeta.

Rinaldi, Fabio, Dowdall, James; Kaljurand, Kaarel, Hess, Michael y Molla, Diego. (2003). Exploiting Paraphrases in a Question Answering System. En Proceedings of the second internacional workshop on Paraphrasing- Volume 16, Association for Computational Linguistics.

Rodriguez, Raul. (2013). Significado y contexto. Tesis de doctorado en Filosofia. Mexico: Universidad Nacional Autonoma de Mexico.

Seco, Rafael. (1989) Manual de gramatica espanola. Buenos Aires: Aguilar

Shimohata, Mitsuo. (2004). Acquiring Paraphrases from Corpora and Its Aplication to Machine Translation. Tesis de doctorado en Ingenieria. Nara, Japon: Graduate School of Information Science, Nara Institute of Science and Technology.

Sierra, Gerardo. (2008). Diseno de corpus textuales para fines linguisticos. En Proceedings of the IX Encuentro Internacional de Linguistica en el Noroeste, 2, 445-462.

Vila, Marta, Marti, Antonia y Rodriguez, Horacio. (2011). Paraphrase Concept and Typology. A Linguistically Based and Computationally Oriented Approach. En Revista Procesamiento del Lenguaje Natural.

Vila, Marta, Marti, Antonia y Rodriguez, Horacio. (2014). Is this a paraphrase? What kind? Paraphrase Boundaries and Typology? En Open Journal of Modern Linguistics.

Zhou, Liang, Lin, Chin-Yew, Munteanu, Dragos Stefan y Hovy, Eduard. (2006). ParaEval: Using Paraphrases to Evaluate Summaries Automatically. En Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, 447-454.

* Este trabajo fue posible gracias al apoyo del Consejo Nacional de Ciencias y Tecnologia (CONACyT) dentro del proyecto Deteccion y medicion automatica de similitud textual con la clave CB2012/178248. De igual manera, esta investigacion ha sido parcialmente financiada por un contrato de investigacion Ramon y Cajal (RYC-2014-16935) y el proyecto de investigacion APLE 2 (FFI2009-12188-C05-01) del Instituto Universitario de Linguistica Aplicada (IULA).

(1) https://catalog.ldc.upenn.edu/LDC2002T01

(2) Las empresas o los desabolladores que necesiten realizar tareas denominadas de inteligencia humana o "HIT" pueden acudir a Amazon Mechanical Turk (AMT) para acceder a miles de empleados bajo demanda, de calidad alta, a bajo costo y de todo el mundo. Esta opcion es de gran utilidad ya que, a pesar de que la tecnologia informatica continua mejorando, siguen existiendo cuestiones que los seres humanos pueden hacer de manera mas eficaz que las computadoras, como la identificacion de objetos en una foto o un video, la desduplicacion de datos, la transcripcion de grabaciones de audio o la busqueda de detalles en los datos, http://aws.amazon.com/es/mturk/

(3) Es un proyecto cuya finalidad ha sido crear una biblioteca de libros electronicos gratuitos. Este proyecto fue creado por Michael Hart en 1971.

(4) http://corpus.iingen.unam.mx/rst/

(5) Esta clasificacion se baso en la revision bibliografica de Dras (1999: 59-75), Barzilay, Mckeown y Elhadad (1999: 553), Boonthum (2005: 2-4), Kozlowski, McCoy y Vijay-Shanker (2003: 3), Bhagat (2009: 30-45), Barron-Cedeno, Vila y Rosso (2010: 9-12), Vila, Marti y Rodriguez (2011: 87-88), Barron-Cedeno, Vila, Marti y Rosso (2013: 921-925) y propuestas propias.

(6) El corpus de contraste permite comparar la similitud textual del texto original y los textos parafraseados (PB y PA) con la similitud textual del texto original con la no parafrasis (Pno), para evaluar sistemas de PLN.

(7) La categoria "conjunto de palabras" muestra las siguientes caracteristicas:

I. No tiene un significado independiente, por lo que no lo consideramos enunciado, ni segmento discursivo. Tampoco se considera en el conjunto de palabras a las frases u oraciones.

II. Puede terminar en articulos (definidos o indefinidos), preposiciones (en su mayoria "de"), adjetivos, adverbios, pronombres relativos o nexos que permiten insertar el conjunto de palabras en la expresion que se parafrasea. Incluso puede terminar en verbo, tanto en su forma conjugada, como en su forma no personal (participio o infinitivo), que a su vez tambien facilita la insercion del conjunto de palabras.

III. El numero de palabras que integran el denominado conjunto de palabras es variable; puede ser dos, tres, cuatro, etc.

IV. Las palabras que integran el conjunto, especialmente los sustantivos, son elegidos porque tienen relacion con el ambito (matematicas, psicologia y sexualidad), especificamente con el tema (matematicas: metodo de induccion y de recursion, funciones multivaluadas, funcion zeta e hipotesis de Riemann, sucesiones baricentricas, etc.; psicologia: teoria del vinculo, diferenciacion, celos y el tratamiento cognitivo conductual; sexualidad: ETS, VHB, gonorrea, enfermedad inflamatoria pelvica, sifilis, etapas de la sifilis, VIH).

V. Asimismo, el conjunto de palabras ayuda a la cohesion y coherencia, asi como a mantener el significado, ya sea similar o equivalente, de la expresion fuente.
Tabla I. Propuesta de clasificacion de fenomenos parafrasticos (5).

1. Cambios      1.1. Cambios   1.1.1.   Cambio de flexion (CF)
morfo-lexicos
                morfologicos   1.1.2.   Cambio de derivacion (CD)

                               1.1.3.   Cambio de composicion/
                                        descomposicion (CC/D)

                1.2. Cambios   1.2.1.   Sustitucion palabra-
                lexicos                 definicion (SP-D)

                               1.2.2.   Sustitucion por
                                        aproximacion numerica
                                        (SAN)

                               1.2.3.   Sustitucion por una
                                        sigla o acronimo (SSA)

                               1.2.4.   Cambio de forma verbal
                                        (CFV)

                               1.2.5.   Sustitucion de un verbo
                                        por un conjunto de
                                        elementos equivalentes
                                        (SVCEE)

                               1.2.6.   Insercion de palabras (IP)

                               1.2.7.   Eliminacion
                                        de palabras (EP)

                               1.2.8.   Cambio de orden
                                        de palabras (COP)

2. Cambios                     2.1.     Sustitucion por
semanticos                              sinonimos (SS)

                               2.2.     Sustitucion por
                                        hiperonimos (SHiper)

                               2.3.     Sustitucion por hiponimos
                                        (SHipo)

                               2.4.     Sustitucion por holonimos
                                        (SHol)

                               2.5.     Sustitucion por
                                        meronimos (SM)

                               2.6.     Sustitucion por
                                        antonimos (SA)

                               2.7.     Sustitucion accion-
                                        actante (SA-A)

                               2.8.     Sustitucion de accion por
                                        lugar prototipico (SALP)

                               2.9.     Sustitucion agente-
                                        instrumento (SA-I)

                               2.10.    Diferentes formas para
                                        realizar el mismo
                                        contenido semantico
                                        (DFRMCS)

3. Cambios      3.1. Cambios   3.1.1.   Transformacion de
estructurales                           pasiva/activa (TP/A)

                sintacticos    3.1.2.   Repeticion/elipsis (R/E)

                               3.1.3.   Conmutacion de
                                        negacion (CN)

                               3.1.4.   Insercion de oraciones
                                        de relativo (IOR)

                               3.1.5.   Eliminacion de oraciones
                                        de relativo (EOR)

                3.2. Cambios   3.2.1.   Transformacion de discurso
                discursivos             directo/indirecto (TDD/I)

                               3.2.2.   Fusion de oraciones (FO)

                               3.2.3.   Segmentacion de unidades
                                        discursivas (SUD)

                               3.2.4.   Insercion de marcadores
                                        discursivos (IMD)

                               3.2.5.   Eliminacion de marcadores
                                        discursivos (EMD)

                               3.2.6.   Insercion de segmentos
                                        discursivos (ISD)

                               3.2.7.   Eliminacion de segmentos
                                        discursivos (ESD)

                               3.2.8.   Cambio de marcadores
                                        discursivos (CMD)

                               3.2.9.   Cambio de orden de
                                        segmentos discursivos
                                        (COSD)

Tabla II. Contabilizacion de horas del parafraseo.

Ambitos           PB          PA         Total         Pno

Matematicas       18:00       23:23        41:23       09:29
Psicologia        18:42       23:44        42:26       09:15
Sexualidad        21:31       28:42        50:13       07:15

Total          58:13:00    75:49:00    134:02:00    25:59:00

Tabla III. Relacion de las anotadoras con
los fenomenos parafrasticos en la PB.

Anotadoras (PB)    SS     SHiper   SHipo   SM   SHol

Anotadora A         302     1        3     0     0
Anotadora B         409     6        2     0     6
Anotadora C         293     6        5     3     0

Total              1004     13      10     3     6

Tabla IV. Relacion de los ambitos con los fenomenos
parafrasticos en la PB.

Anotadoras (PB)    SS     SHiper   SHipo   SM   SHol

Matematicas         217     0        0     0     1
Psicologia          388     1        3     0     2
Sexualidad          399     12       7     3     3

Total             1004      13      10     3     6

Tabla V. Relacion de las anotadoras y los tipos
parafrasticos exclusivos de la PA.

Andadoras (PA)    CF       CD    DFRMCS    SP-D    CMD    CFV

Anotadora A        7       21         6      47     13     11
Anotadora B        8       39         8      32      7     28
Anotadora C        4       17         8      37      4     22

Total             19       77        22     116     24     61

Anotadoras (PA)   CN    TDD/I       SUD      IP    IMD    ISD

Anotadora A        0        0         7      32     27      4
Anotadora B        0        1         1     113     12      9
Anotadota C        1        0        16     116     22     22

Total              1        1        24     261     61     35

Andadoras (PA)    SVCEE     SA    SAN    CC/D    SSA    TA/P    R/E

Anotadora A           1      2      2       0      1       2     11
Anotadora B           1      1      4       0      2       0     10
Anotadora C           3      0      2       1      1       0     21

Total                 5      3      8       1      4       2     42

Anotadoras (PA)     IOR     EP    EMD     ESD    COP     CSD     CN

Anotadora A          15     14      0       0     13       1      0
Anotadora B          13     68      3       1     15       3      0
Anotadota C          18     37      8       0     27       8      1

Total                46    119     11       1     55      12      1

Tabla VI. Relacion de los ambitos y tipos
parafrasticos exclusivos de la PA.

Ambitos (PA)   CF       CD    DFRMCS    SP-D    CMD    CFV

Matematicas     7       11         4      30      6     20
Psicologia      9       41         6      20     12     23
Sexualidad      3       25        12      66      6     18

Total          19       77        22     116     24     61

Ambitos (PA)   CN    TDD/I       SUD      IP    IMD    ISD

Matematicas     0        1         5      42     14      8
Psicologia      0        0        13     103     15     10
Sexualidad      1        0         6     116     32     17

Total           1        1        24     261     61     35

Ambitos (PA)   SVCEE     SA    SAN    CC/D    SSA    TA/P    R/E

Matematicas        2      1      2       0      0       0     10
Psicologia         1      2      3       0      2       1     18
Sexualidad         2      0      3       1      2       1     14

Total              5      3      8       1      4       2     42

Ambitos (PA)     IOR     EP    EMD     ESD    COP    COSD     CN

Matematicas       21     12      3       0     12       5      0
Psicologia         8     60      3       1     21       6      0
Sexualidad        17     47      5       0     22       1      1

Total             46    119     11       1     55      12      1

Tabla VII Porcentaje de aparicion de los fenomenos
parafrasticos en todo el corpus.

                                                 Porcentaje
Fenomenos                                       de aparicion

Insercion de palabras                              25.81%
Eliminacion de palabras                            11.77%
Sustitucion de palabra-definicion                  11.47%
Cambio de derivacion                                7.61%
Cambio de forma verbal                              6.03%
Insercion de marcadores discursivos                 6.03%
Cambio de orden de palabras                         5.44%
Insercion de oraciones de relativo                  4.54%
Repeticion/elipsis                                  4.15%
Insercion de segmentos discursivos                  3.46%
Cambio de marcadores discursivos                    2.37%
Segmentacion de unidades discursivas                2.37%
Diferentes formas para realizar el mismo            2.17%
  contenido semantico
Cambio de flexion                                   1.90%
Cambio de orden de segmentos discursivos            1.20%
Eliminacion de marcadores discursivos               1.10%
Sustitucion por aproximacion numerica               0.80%
Sustitucion de un verbo por un conjunto             0.50%
  de elementos equivalentes
Sustitucion por una sigla o un acronimo             0.40%
Sustitucion por antonimos                           0.30%
Transformacion de activa/pasiva                     0.20%
Cambio composicion/descomposicion                   0.10%
Conmutacion de negacion                             0.10%
Transformacion de discurso directo/indirecto        0.10%
Eliminacion de segmentos discursivos                0.10%

Grafico 1. Procentaje del cambio de tiempos verbales.

presente > preterito         46%
presente > antepresente      27%
presente > futuro            18%
Pospreterito > copreterito    9%

Note: Table made from pie chart.

Grafico 2. Porcentaje del cambio de persona gramatical.

3a persona singular > 1a persona plural   67%
1a persona plural > 3a persona singular   17%
1a persona plural > 3a persona plural      8%
3a persona singular > 3a persona plural    8%

Note: Table made from pie chart.

Grafico 3. Porcentaje del cambio de forma verbal.

verboide > verbo conjugado   35%
verbp simple > perifrasis    26%
verboide > verboide          15%
Perifrasis > verbo simple    15%
Verboide > perifrasis         6%
Verbo conjugdo > verboide     3%

Note: Table made from pie chart.
COPYRIGHT 2016 Universidad de Concepcion- RLA
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2016 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Montoya, Margarita A. Mota; Da Cunha, Iria; Lopez-Escobedo, Fernanda
Publication:RLA: revista de linguistica teorica y aplicada
Article Type:Ensayo
Date:Jul 1, 2016
Words:10301
Previous Article:GRAMMAR APPLICATION IN THE CLASSROOM. OLD AND NEW TEACHING RESOURCES TO TEACH GRAMMAR/LA APLICACION DE LA GRAMATICA EN EL AULA. RECURSOS DIDACTICOS...
Next Article:TOWARDS AN EXPLANATORY MODEL OF THE PROCESS OF LITERACY IN ACADEMIC WRITING IN THE UNDERGRADUATE PROGRAMS OF HISTORY AND BIOLOGY/HACIA UN MODELO...
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters