Printer Friendly

"Digalo": herramienta de apoyo basico para estudiantes de L2.

1. Introduccion

La Linguistica Aplicada es un area que en los proximos anos se vera particularmente beneficiada con los avances en el Procesamiento del Lenguaje Natural (PLN), en particular en lo que respecta a la ensenanza de segundas lenguas. En este articulo, presentamos una herramienta computacional destinada a apoyar el aprendizaje del lexico y la escritura en L2 a nivel de principiantes. Dicha herramienta, llamada "Digalo", aunque ha sido desarrollada para el espanol, tambien esta pensada para extender su uso a otras lenguas.

La aplicacion "Digalo" consiste en varios modulos, uno de los cuales esta encargado de la deteccion de errores por medio del analisis sintactico de los valores de entrada, es lo que denominamos "estimacion de gramaticalidad". En los ultimos anos, la literatura linguistica se ha visto enriquecida con diversas propuestas en este sentido. La mayoria de las investigaciones se focalizan en la fonologia. Asi, Chul-Ho y col. (1998) proponen un sistema automatico deteccion de errores de pronunciacion en japones como L2, con envio de diagnosticos a los usuarios; mientras que Abhinav Sethy y Johnson (2005) presentan un sistema de dialogo hombremaquina, con reconocimiento de habla, basado en metodos probabilisticos, para detectar errores de pronunciacion en dialectos arabes y en pashtu en el marco del "Tactical Language Training System" (TLTS). Por otra parte, Lee y Seneff (2006), segun un modelo de generacion basado en n-gramas, tambien describe un sistema de dialogo hombre-maquina, pero para estudiantes de ingles, que permite corregir errores foneticos y conversacionales. Nuestra orientacion es morfosintactica, por lo que estas investigaciones no tienen mayores repercusiones en este trabajo.

En lo que concierne a la sintaxis encontramos sistemas especializados en la deteccion de errores puntuales, como las reglas de las preposiciones para el sueco (Eeg-Olofsson y Knutsson 2003) o el ingles (Chodorow, Tetreault y Han 2007), este ultimo elaborado a partir de un corpus de textos de hablantes no nativos. Bruck y Stenzhorn (2008) utilizan una estrategia dinamica para la deteccion automatica de errores en las gramaticas de generacion, lo que se aprovecha para deducir una regla gramatical incorrecta por medio de mineria de datos; Tschichold (2003), por su lado, enfoca los aspectos lexicos del aprendizaje de lenguas asistido por computadora. No esta de mas mencionar que el aprendizaje de la escritura tambien ha sido objeto de incursiones, como lo ejemplifican Hu y col. (2009) con su sistema de correccion de trazos de los caracteres chinos. Las capacidades de Fips en la deteccion de errores no necesitan ser probadas: no es la primera vez que Fips es utilizado con este proposito. Finalmente, aprovechando las caracteristicas de un analizador sintactico profundo, L'Haire y Vandeventer Faltin (2003) presentan el proyecto FreeText, el cual es un sistema automatizado de deteccion de errores para estudiantes del frances como lengua extranjera, cuya metodologia fue abordada con profundidad en Vandeventer Faltin (2003). Nosotros nos ubicamos en esta ultima tendencia, por las razones que detallamos a continuacion.

Aunque es cierto que la mayoria de los esfuerzos estan basados en metodos estocasticos, tambien es necesario decir que estos encuentran ciertos limites que nosotros queremos evitar. El aspecto mas importante para nosotros, en este sentido, es que los metodos probabilisticos a pesar de que permiten sentar rapidamente las bases para analizar las formas mas frecuentes de la oracion simple (1a), carecen de la fineza suficiente para el analisis de relaciones estructurales profundas (1b) (Leoni de Leon, Schwab y Wehrli 2008):

(1) a. Ana rompio el record.

b. El record de Luis fue roto por Ana.

Asi, por ejemplo, en (1a) tenemos una secuencia estandar Sujeto-Verbo-Objeto replanteada en (1b) como una pasiva, cuyo sujeto es modificado por un sintagma preposicional ("de Luis"). La distancia entre el nucleo de la frase ("fue roto") y el sujeto de la pasiva es, en terminos generales, demasiado grande para analizadores superficiales ("shallow parsers") que son los empleados en los metodos estocasticos. Por este motivo, las relaciones complejas en frases similares a (1b) son identificadas mas eficazmente por medio de analizadores sintacticos profundos (Wehrli 2007; Leoni de Leon, Schwab y Wehrli 2008). Esto y el hecho de que los recursos necesarios para desarrollar analizadores superficiales no son abundantes en espanol, nos hacen optar por un analizador sintactico profundo, concretamente por el parser Fips (Leoni de Leon, Schwab y Wehrli 2008; Wehrli 2007; Wehrli 2004) del Laboratorio de Analisis y de Tecnologia del Lenguaje (LATL) de la Universidad de Ginebra, el cual esta disponible en linea para varios idiomas (Laboratoire d'Analyse et de Technologie du Langage 2010).

Fips es un analizador sintactico profundo multilingue (disponible para ingles, frances, aleman, italiano, espanol y griego), cuya concepcion teorica es una adaptacion libre de la gramatica generativa chomskyana, con influencias de los modelos minimalista (Chomsky 2004; Chomsky 1995; Chomsky 1993) y "Simpler Syntax" (Culicover y Jackendoff 2005), asi como de la Gramatica Lexico-Funcional (Bresnan 2001). Dada una frase de entrada (2a), Fips brinda, como salida, el etiquetado sintactico correspondiente (2b), asi como las funciones y los ragos de los elementos de la oracion (cuadro 1):

(2) a. Anoche observamos la luna.

b. [TP[AdvP Anoche ][DP ] observamos [VP [DP la [NP luna ]]]]

No entraremos en los detalles del analisis sintactico efectuado por Fips, en las referencias de este articulo hay abundantes referencias en ese sentido. Sin embargo, si es necesario poner de relieve que el etiquetado sintactico de Fips reconoce el sujeto tacito, como es posible observarlo en el sintagma determinante vacio, [DP], en la oracion (2b); de estar ocupada la posicion de sujeto, en la columna vocablo apareceria el valor de entrada, y en la columna funcion estaria la indicacion SUBJ, por sujeto. Dos caracteristicas importantes apreciables en (2a) son que el analisis no es binario, sino trinario y que, en este caso, el sintagma principal esta marcado como TP (sintagma de tiempo, correspondiente al sintagma de la inflexion); esto se debe a que el simbolo inicial, CP (sintagma complementante), esta obviado por estar vacio, lo que no ocurriria, por ejemplo, si se tratra de una oracion interrogativa. En el etiquetado morfologico, es sobre el sintagma determinante "la" que recae el valor de objeto (columna funcion del cuadro 1), esto por cuanto en Fips se modeliza la Hipotesis DP, segun la cual, los sintagmas nominales son argumentos de los sintagmas determinantes.

En el caso de una oracion mal formada (3a), Fips reenvia un analisis incompleto encabezado por la advertencia que tenemos en (3b):

(3) a. Anoche ella observamos la luna.

b. *** no analysis

"Digalo" recupera los datos del etiquetador (cuadro 1), solo si el analisis sintactico es positivo.

Este articulo esta presentado en la forma de un "demo"; es decir, que nuestro objetivo primordial es mostrar el funcionamiento general de un software. Asi, en la seccion 2 elaboramos una descripcion general de la aplicacion "Digalo" que incluye detalles de la interaccion entre el usuario y el sistema. La seccion 3 brinda datos muy generales sobre la arquitectura del programa, antes de llegar a las conclusiones en la seccion 4.

2. Descripcion general

"Digalo" es una aplicacion web; es decir, ha sido desarrollada usando la tecnologia web como soporte principal. Esto implica que el programa esta almacenado en un servidor, por lo que los usuarios deben interactuar con el sistema a traves de un navegador. Es importante senalar que "Digalo" se encuentra en desarrollo, por lo que esta hospedado en un servidor de pruebas y no es libremente accesible por el momento.

Nuestra aplicacion consiste en una sola ventana con dos columnas (que denominadas A y B en la figura 1) y un espacio intermedio (indicado como C). Las columnas A y B consisten en listas de palabras clasificadas segun su categoria gramatical. En A tenemos dos pestanas, que permiten alternar entre sustantivos y adjetivos, y una lista de sustantivos; la columna B tiene una estructura similar para los verbos y los adverbios. El espacio intermedio C consiste en un cuadrado en el que se desplegaran las imagenes, la frase "Digalo en espanol", un campo de texto para introducir las frases y un boton para enviar las informaciones. El area de texto para los resultados no aparece en la pantalla hasta que se comience a enviar datos. En sintesis, el usuario dispone de dos columnas con el lexico, un area de imagenes dinamicas y un formulario para el envio de las frases por evaluar, tal y como aparece en la figura 1.

[FIGURA 1 OMITIR]

2.1. Interaccion con el usuario

Cada entrada lexica de "Digalo" esta asociada con una imagen que la evoca. Para acceder a esta informacion, el usuario debe colocar el puntero del raton sobre una palabra. El resultado de esta accion sera una imagen en el espacio reservado. Asi, si el puntero pasa sobre la palabra "casa", la celda del lema cambia de color anaranjado a amarillo y el usuario podra ver la imagen de una casa en el cuadro correspondiente; en la figura 2 vemos los resultados de esta accion para "lapiz" y "queso".

[FIGURA 2 OMITIR]

En el campo de texto, el usuario debe introducir la frase por evaluar. Una vez presionado el boton de "enviar la consulta", los datos son enviados al servidor del LATL donde se hospeda la version web de Fips, la cual devuelve como resultado el analisis sintactico. "Digalo" recibe un analisis completo en caso de una evaluacion exitosa; si la frase no pudo ser analizada (por agramaticalidad, por ejemplo), lo que se recibe es una nota de analisis incompleto, como lo indicamos en el ejemplo (3b), la cual es interpretada como una inadecuacion. En el primer caso, sobre el espacio del formulario, "Digalo" despliega la exclamacion "!Correcto!"; en el segundo, el sistema invita a tratar una nueva version de la frase indicando "!Otra vez!". En la figura 3 vemos un ejemplo exitoso con la frase "La mujer escribe en la pizarra"; mientras que la figura 4 ilustra el resultado de una frase erronea (un error de concordancia entre el sujeto y el verbo en la frase "La mujer saltamos en la pizarra").

[FIGURA 3 OMITIR]

[FIGURA 4 OMITIR]

En el caso de una frase correcta, si se ha utilizado el lexico de alguna de las columnas, los itemes lexicos empleados en la frase desaparecen de las columnas correspondientes: esto es lo que ocurre con "mujer", "escribir" y "pizarra" en la figura 3, los cuales son reconocidos en la frase introducida, sin importar que modo o tiempo aparezcan, para ser asociados con una forma canonica que es bajo la que aparecen en las columnas del lexico. La asociacion vocablolema es efectuada por el etiquedator de Fips (cuadro 1). Esta metodologia busca mejorar la competencia lexica y las habilidades escritura de estudiantes principiantes de L2, de preferencia bajo supervision de un profesor.

3. Arquitectura del sistema

"Digalo" es una aplicacion web completamente escrita en Perl (http://www. perl.org) consistente en cuatro modulos especializados. En primer lugar, tenemos Hable. pm, el cual administra la coherencia de los datos. En segundo lugar, el modulo Hamin.pm se encarga de desplegar la aplicacion propiamente dicha; es decir, el conjunto de paginas en HTML, con los formularios y los datos que median entre varios estados. El inventario lexico, consistente en un lema asociado a una imagen y una categoria gramatical es administrado por el modulo Lexadal.pm, que administra la estructura jerarquica de datos. Finalmente, el modulo Fips.pm es el que establece la comunicacion entre Fips, en los servidores del Laboratorio de Analisis y Tecnologia del Lenguaje en la universidad de Ginebra, y "Digalo", desarrollado por Leoni de Leon (2008) como parte de un modelo computacional lexico-sintactico de las locuciones del espanol.

4. Conclusiones

"Digalo" conjuga nuevas tecnologias, ensenanza de lenguas extranjeras y conocimiento teorico de la Linguistica en una original propuesta facilmente adaptable para su utilizacion en el aula o, incluso, para el estudio en casa, bajo condiciones minimas de supervision. La expansion de este proyecto a otras lenguas esta prevista; sin embargo primero es necesario afinar la version en espanol. La dependencia hacia analizador sintactico Fips del LATL, no nos permite aportar directamente nuestras propias modificaciones en el analizador sintactico, por lo que es necesario emprender iniciativas que nos dirijan al desarrollo de nuestra propia tecnologia de "parsing" (analisis sintactico automatizado); el hecho de que "Digalo" interactue con Fips por medio de un servicio web, muestra de que manera se pueden incluir otros sistemas similares. "Digalo" busca ante todo mejorar la competencia de estudiantes de L2. Las posibilidades son inmensas, por lo que esperamos mejorar sensiblemente esta aplicacion en el futuro proximo.

Reconocimientos

Quiero agradecer a la Rectoria, la Vicerrectoria de Investigacion, el Instituto de Investigaciones Linguisticas (INIL) y la Escuela de Filologia, Linguistica y Literatura de la Universidad de Costa Rica por su apoyo al proyecto No 745-A8-188, del cual "Digalo" forma parte, y que me permitio presentar esta propuesta en la Conferencia Bienal de la Sociedad Caribena de Linguistica.

Recepcion: 29/04/11. Aceptacion: 09/07/12.

Referencias

Abhinav Sethy Nicolaus Mote, Shrikanth S. Narayanan y Lewis Johnson. 2005. Modeling and automating detection of errors in Arabic language learner speech. InterSpeech ISCA: 177-180.

Bresnan, Joan. 2001. Lexical-Functional Syntax. Oxford: Blackwell.

Bruck, Tim vor der y Holger Stenzhorn. 2008. A Dynamic Approach for Automatic Error Detection in Generation Grammars. ECAI: 837-838.

Chodorow, Martin, Joel Tetreault y Na-Rae Han. 2007. Detection of Grammatical Errors Involving Prepositions. Proceedings of the Fourth ACL-SIGSEM Workshop on Prepositions. Online documents at URL < http://www.aclweb.org/anthology/W/W07/ W07-1600.pdf>.

Chomsky, Noam. 1993. A Minimalist Program for Linguistic Theory. The View from Building 20. Cambridge, Massachusetts: 3-52.

--. 1995. The Minimalist Program. Cambridge, Massachusetts: MIT Press.

--. 2004. Beyond Explanatory Adequacy. Structures and Beyond: The Cartography of Syntactic Structures. Ed. por Adriana Belletti. (3). Oxford: Oxford University Press: 104-131.

Chul-Ho, Jo y col. 1998. Automatic pronunciation error detection and guidance for foreign language learning. ICSLP (Paper 0741). Online documents at URL < http://www. shlrc.mq.edu.au/proceedings/icslp98/ PDF/AUTHOR/SL980741.PDF>.

Culicover, Peter W. y Ray Jackendoff. 2005. Simpler Syntax. Oxford Linguistics. Oxford University Press.

Eeg-Olofsson, Jens y Ola Knutsson. 2003. Automatic grammar checking for second language learners--the use of prepositions. Nodalida. Online documents at URL <http://www.nada.kth.se/~knutsson/ eegolofsson_knutsson.pdf>.

Hu, Zhihui y col. 2009. A Chinese Handwriting Education System with Automatic Error Detection. JSW 4.2: 101-107.

Laboratoire d'Analyse et de Technologie du Langage. 2010. Online documents at URL <http://www.latl.unige.ch>.

Lee, John y Stephanie Seneff. 2006. Automatic Grammar Correction for Second-Language Learners. INTERSPEECH-2006 ICSLP, Ninth International Conference on Spoken Language Processing. Pittsburgh, PA, USA.

Leoni de Leon, Jorge Antonio. 2008. Modele d'analyse lexico-syntaxique des locutions espagnoles. Ph.D. tesis, Universite de Geneve, Ginebra, Suiza, 24 de mayo. Online documents at URL <http://www. unige.ch/cyberdocuments/theses2008/ LeonideLeonJA/meta.html>.

Leoni de Leon, Jorge Antonio, Sandra Schwab y Eric Wehrli. 2008. Analisis sintactico profundo del espanol: un ejemplo del procesamiento de secuencias idiomaticas. Procesamiento del Lenguaje Natural. Ed. por Paloma Martinez Fernandez, Dolores Cuadra Fernandez y F. Javier Calle Gomez (41). Sociedad Espanola para el Procesamiento del Lenguaje Natural, Departamento de Informatica, Universidad de Jaen. Jaen: 37-44. Online documents at URL < http://www.sepln. org/ revistaSEPLN/revista/41/sec1-art5. pdf>.

L'Haire, Sebastien y Anne Vandeventer Faltin. 2003. Error Diagnosis in the FreeText Project. CALICO Journal 20.3: 481495. Online documents at URL < http://sebastien.lhaire.org/publis/06 L' haireVandeventer.pdf >.

Tschichold, Cornelia. 2003. Lexically Driven Error Detection and Correction. CALICO Journal 20.3: 549-559.

Vandeventer Faltin, Anne. 2003. Syntactic error diagnosis in the context of computer assisted language learning. Tesis doct. Geneva: Universite de Geneve.

Wehrli, Eric. 2004. Un modele multilingue d'analyse syntaxique.Structures et discourse:melanges offferts a Eddy Roulet. Ed. por Antoine Auchlin y col. Langue et pratiques discursives. Montreal: Editions Nota Bene: 311-329.

Wehrli, Eric. 2007. Fips, A "Deep" Linguistic Multilingual Parser. ACL 2007 Workshop on Deep Linguistic Processing. Prague, Czech Republic: Association for Computational Linguistics: 120-127. Online documents at URL < http:// www.aclweb.org/anthology/W/W07/ W07-1216 >.

Wikipedia (2010). Wikimedia Commons--Wikipedia, La enciclopedia libre. Online documents at URL < http://es.wikipedia. org/w/index.php?title=Wikimedia Commons& oldid=40474392 >.

Jorge Antonio Leoni de Leon, Profesor de la Escuela de Filologia, Linguistica y Literatura, Universidad de Costa Rica.

** Este articulo corresponde a las Ias Jornadas de Lexicografia, ademas esta Ponencia fue presentada en la 18a Conferencia Bienal de la Sociedad de Linguistica del Caribe, Universidad de las Antillas Occidentales, recinto de Cave Hill, Barbados, agosto de 2010.
Cuadro 1: Etiquetado morfologico

Vocablo      Rasgos              ID          Lema       Funcion

anoche       ADV                 511016629   anoche
observamos   VER-IND-PRE-1-PLU   511005165   observar
la           DET-SIN-FEM         511007887   el         OBJ
luna         NOM-SIN-FEM         511013755   luna
COPYRIGHT 2012 Universidad de Costa Rica
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2012 Gale, Cengage Learning. All rights reserved.

 
Article Details
Printer friendly Cite/link Email Feedback
Author:Leoni de Leon, Jorge Antonio
Publication:Kanina
Date:Jul 1, 2012
Words:3035
Previous Article:La funcion ideacional del lenguaje en las recetas de Apicio.
Next Article:La ortografia en el aula.
Topics:

Terms of use | Privacy policy | Copyright © 2018 Farlex, Inc. | Feedback | For webmasters