Printer Friendly

Diferencias en el lexico entre los periodicos La Nacion y Diario Extra desde la linguistica de Corpus: aplicacion de una metodologia.

Differences in the lexicon between newspapers La Nacion and Diario Extra from Corpus Linguistics: Implementation of a methodology

0. Introduccion

La Linguistica de Corpus es una metodologia empirica de analisis linguistico que se caracteriza por el empleo de herramientas computacionales. Como senalan McEnery y Hardie (2012), una perspectiva de analisis basada en los corpus sirve para hacer estudios en diversas areas de la linguistica, e incluso podria servir para proponer nuevas teorias del lenguaje basadas en los datos reales de los corpus. Este campo se relaciona con la Linguistica Computacional en tanto emplea programas computacionales para sus analisis; sin embargo, difieren en sus objetivos y aplicaciones (ver Villayandre Llamazares, 2010 para una introduccion a la Linguistica Computacional). Un aspecto que tienen en comun es el uso de corpus como punto de partida para la investigacion. En su introduccion a la Linguistica Computacional, Villayandre Llamazares (2010) senala en relacion con la Linguistica de Corpus:

Por otra parte, hay que entender e inscribir el empleo de corpus en Linguistica dentro de una perspectiva metodologica general que adopta el empirismo como forma de concebir el estudio de la lengua. En este sentido, el empleo de datos reales, de muestras de uso linguistico, resulta el complemento ideal y la referencia ineludible en cualquier investigacion que aspire a dar cuenta de algun aspecto relacionado con el lenguaje: los datos son los que apoyan o contradicen una postura teorica, los que permiten inferir reglas y generalizaciones, los que proporcionan informaciones cuantitativas, etc. Y tambien constituyen el material necesario como punto de partida para el desarrollo de una aplicacion practica (Villayandre Llamazares 2010, URL: http://www3.unileon.es/dp/dfh/Milka/LCH/ Corpus0.pdf).

En el presente estudio, se tomaron en cuenta dos herramientas computacionales para el analisis de datos: AntConc, para los analisis cuantitativos, y ATLAS.ti, para los analisis cualitativos. Estas se emplearon para realizar distintos tipos de analisis que permitieran identificar diferencias entre dos corpus. El proposito de este trabajo en particular es aplicar estas herramientas para reconocer las diferencias de lexico entre las secciones de El Pais y Deportes del periodico La Nacion, y Nacionales y Deportes del Diario Extra. Para este fin, se creo un corpus con 104 noticias, 56 de La Nacion y 48 del Diario Extra, con lo cual se obtuvo un total de 54 602 palabras. Se utilizo el concepto de redes semanticas para definir los focos de interes de cada periodico. Estas redes se crearon a partir de las palabras de mas alta frecuencia de los corpus de cada seccion. Esta prueba, junto con otras de caracter cuantitativo, resultaron utiles para establecer la comparacion entre los periodicos, pues mostraron diferencias significativas.

Se tomaron en cuenta el Diario Extra y La Nacion por ser periodicos de alta difusion en el ambito costarricense y por haber sido objeto de comparacion en otras investigaciones (cf. Curvardic Garcia y Vargas Castro, 2010). Se recolecto la primera noticia de cada seccion de cada periodico durante 29 dias consecutivos, del lunes 16 de abril al domingo 13 de mayo, para un total de 104 noticias (el Diario Extra no publica los domingos).

Siguiendo a Torruela y Llisterri (1999) para la clasificacion de corpus, la tipologia del corpus que se creo es la siguiente:

* Textual: se recopilaron muestras escritas de los periodicos disponibles en linea.

* Monolingue: se trata de periodicos escritos en la variedad de espanol de Costa Rica.

* Equilibrado: se recogio una noticia de cada seccion cada dia.

* Cerrado: se incluyeron 104 noticias, 54 602 palabras en total.

* Especializado: se analiza la variedad periodistica de las secciones de Nacionales y de Deportes.

* Cronologico: se recopilaron datos del 16 de abril al 13 de mayo.

* Simple: no se incluyen codificaciones (referencias bibliograficas) ni anotaciones (analisis morfologicos o sintacticos) en el corpus.

En el siguiente apartado, se define el concepto de red semantica que se empleo para determinar los focos de interes de cada seccion de ambos periodicos. Posteriormente, se procede a una descripcion de las herramientas que se utilizaron y de los procedimientos que se llevaron a cabo para los analisis del corpus. Seguidamente, se exponen los resultados de los analisis y se describen las diferencias identificadas a partir de la comparacion entre los corpus. Finalmente, se presentan diversas lineas de investigacion que podrian iniciarse a partir de los resultados obtenidos.

1. Marco conceptual

A veces percibimos dos textos como diferentes pero no sabemos porque. En este trabajo, se propone una comparacion a nivel de lexico entre dos periodicos del ambito costarricense, a partir de un analisis basado en herramientas computacionales propias de la Linguistica de Corpus. El proposito es identificar los focos de interes de cada seccion y establecer una comparacion entre los dos periodicos.

Para reconocer estos focos de interes, se trabajo con el concepto de red semantica como tecnica de representacion del conocimiento que permite establecer relaciones entre las palabras. Steyvers y Tenenbaum (2005) senalan que "las estructuras de las redes brindan representaciones intuitivas y utiles para modelar el conocimiento y la inferencia semantica" (2005: 41, traduccion libre). De acuerdo con este planteamiento, los conceptos se representan como nodos, a los cuales se asocian otros conceptos de manera jerarquica, como las ramas de un arbol (Collins y Quillian, 1969). La estructura de las redes semanticas, por tanto, se crea a partir de la asociacion de unas palabras con otras alrededor de un nodo (Yong, Mahmud y Woo, 2011). Esta tecnica de representacion del conocimiento coincide con las redes que se pueden crear utilizando el programa ATLAS.ti (ver seccion 2.5), el cual permite organizar los conceptos o las ideas alrededor de codigos (nodo central de una red semantica). Este programa tambien ofrece la opcion de asociar los conceptos de manera jerarquica; sin embargo, como en el presente estudio se trabajo con listas de palabras y no con textos, esto no fue necesario. Se procedio de la siguiente manera: una vez extraidas las palabras de mas alta frecuencia de cada seccion, estas se organizaron en redes semanticas utilizando el programa ATLAS.ti, alrededor de los codigos que resultaran pertinentes en cada caso. Como se menciono al inicio de esta seccion, el proposito de determinar las redes semanticas de cada seccion era comparar los focos de interes entre los periodicos para identificar posibles diferencias tematicas evidenciadas a nivel del lexico.

2. Marco metodologico

2.0. La Linguistica de Corpus

Se caracteriza por la utilizacion de herramientas computacionales que permiten la recoleccion, analisis y ordenamiento de los corpus. En esta seccion, se presentan las distintas herramientas, sus funcionalidades, y los analisis que posibilitan para el estudio del lexico de un texto, tal como lo presentan McEnery y Hardie (2012) en su libro en version digital Corpus Linguistics: Method, Theory and Practice.

2.1. Analizadores de concordancias

Para el analisis cuantitativo se utilizo una herramienta de la llamada "Tercera generacion" (decada de 1990 en adelante). A diferencia de las herramientas de "Segunda generacion", las de "Tercera generacion" pueden trabajar con grandes cantidades de datos a gran velocidad y cuentan con mas funciones. Procesan ademas distintos sistemas de escritura, con los que antes no se podia trabajar (ver McEnery y Hardie, 2012 para mas detalle). Entre los principales programas se encuentra AntConc, empleado en el presente analisis.

AntConc es un concordance o analizador de concordancias (McEnery y Hardie, 2012 para este y los subsiguientes conceptos). Esta es una herramienta que permite hacer analisis de concordancias, de listas de frecuencias de palabras, de colocaciones, de clusters (n-gramas o agrupaciones) y de palabras clave. Las concordancias son una lista de instancias de una cadena de caracteres (puede ser una frase, una palabra, o una parte de una palabra) que se pueden observar en sus co-textos (hacia la izquierda y hacia la derecha). Esta funcion se conoce tambien como KWIC (Key Word in Context). Las listas de frecuencias son listas de las instancias de un corpus ordenadas por frecuencia o alfabeticamente. Las colocaciones son las listas de palabras que estadisticamente tienen una mayor co-aparicion con la palabra que se escogio como nodo para la busqueda. Esta funcion resulta util para saber como se determina algo; es decir, analizando los co-textos en que aparece un nodo se puede observar como se define este nodo en el texto. Para el analisis de los corpus de La Nacion y Diario Extra se utilizaron las concordancias y las listas de frecuencias de palabras.

2.2. Estudios de frecuencias

AntConc es una herramienta estadistica de calculo de frecuencias util para los enfoques descriptivos cuantitativos de la lengua. A partir de estas herramientas se crean modelos probabilisticos, que se basan en la medida de frecuencia de las unidades (McEnery y Hardie, 2012). Las frecuencias de apariciones son uno de los elementos centrales dentro de este enfoque porque, desde esta perspectiva, los calculos de frecuencias pueden mostrar lo que es comun en una lengua, asi como los grados de "comunalidad" (commonality) o de "especificidad" (specificity) entre dos o mas corpus.

Los estudios de frecuencias permiten determinar no solo cuales son las palabras con frecuencias mas altas, sino que tambien muestran cuales palabras no son tan frecuentes, es decir, las que tienen frecuencia nula, minima o media. Se pueden identificar tambien cuales palabras en un corpus son de frecuencia 1; a estas formas se les llama hapax legomena (palabras que ocurren solamente 1 vez en un texto). El calculo de las frecuencias medias y altas permite obtener un indice del vocabulario basico de una lengua. Esta medida resulta relevante para disenar metodos para la ensenanza de primeras o segundas lenguas, asi como para la creacion de diccionarios (los indices de frecuencia ayudarian a determinar cuales palabras seria mas pertinente incluir en el diccionario). Por ultimo, cabe senalar que en los estudios cuantitativos se deben tomar en cuenta no solo las frecuencias mas altas de un corpus, sino todo el rango de frecuencias, e incluso los elementos que no aparecen. Este punto resulta relevante para el presente trabajo, porque tambien se tomaron en cuenta las palabras que aparecian solo en un corpus y no en el otro (especificidad de los corpus).

2.3. La estadistica descriptiva

El campo de la estadistica descriptiva se centra en la informacion cuantitativa del corpus. Gracias a las herramientas computacionales como AntConc, esta es la informacion mas simple que se puede extraer de un corpus. En los estudios de Linguistica de Corpus, generalmente se incluyen datos de estadistica descriptiva; es decir, informacion cuantitativa que no se trabaja con herramientas de medicion de significancia estadistica. Las medidas basicas son el conteo de frecuencias de aparicion de las palabras. Asi, se puede observar la frecuencia absoluta de una palabra, que es la cantidad de veces que aparece en un corpus. Sin embargo, cuando se compara la frecuencia de aparicion de una palabra entre dos corpus de tamano desigual (como sucedio, por ejemplo, entre los corpus de la seccion El Pais, La Nacion y Nacionales, Diario Extra), no se puede utilizar la frecuencia absoluta (pues es relativa la tamano del corpus), sino que se debe usar la prueba de significancia estadistica (vid infra).

Otra medida que se puede extraer del corpus es el porcentaje de vocabulario lexico y de vocabulario funcional. Como se vera posteriormente, el vocabulario funcional comprende aproximadamente la mitad de las muestras del corpus, sin embargo, se trata de unos cuantos tipos que se repiten muchas veces. Por otra parte, para el presente analisis, resulto pertinente extraer el vocabulario lexico pues a partir de este se crearon las redes semanticas de las secciones.

Ahora bien, para establecer el criterio de alta frecuencia en el corpus se utilizo el concepto de frecuencia normalizada, que es una frecuencia de 1 en 1000, o de 1 en 1 000 000 para los megacorpus (McEnery y Hardie, 2012). Siempre en un corpus las palabras de mas alta frecuencia son las palabras gramaticales: en este caso, de, el, la, que, y en, pues son las que mas se repiten (y conforman aproximadamente la mitad del corpus). No obstante, estas no aportan informacion en cuanto a los focos de interes de un texto. Por esta razon, se aplico una lista de exclusion o stoplist para excluir las palabras funcionales y conservar solamente las palabras de contenido, que son las que llevan esta informacion.

Los corpus de cada seccion tenian en promedio 12 520 palabras y como se adopto una base de normalizacion de 1 en 1000, se tomaron en cuenta las palabras que tuvieran una frecuencia de aparicion de 13 o mas. Es decir, se utilizo un criterio de frecuencia normalizada de f [mayor que o igual a] 13.

Para comparar la frecuencia de aparicion de dos terminos, se utilizo la prueba de significancia estadistica de Paul Rayson, en: http://corpora. lancs.ac.uk/clmtp/2-stat.php. Esta prueba indica si una palabras es significativamente mas frecuente en un corpus que en otro (los corpus de las distintas secciones difieren el tamano, asi que una comparacion de frecuencia normalizada no seria una medida fiable).

2.4. Variacion lexica

Para los analisis de variacion lexica o riqueza lexica en los corpus se toman en cuenta los conceptos de types (tipos) y tokens (muestras). Los tipos o formas de palabras son todas las palabras distintas de un corpus, mientras que las muestras, instancias, apariciones o casos son todas las palabras de un corpus (con sus repeticiones). Se puede establecer una relacion matematica entre las dos cifras para determinar la proporcion o ratio entre los tipos y las muestras y calcular asi la variacion (o variabilidad) lexica de un texto. Para obtener esta proporcion, se divide el numero de palabras distintas (tipos) entre el numero total de palabras (muestras). Como senala Sabaj (2004), "[e]l grado de variabilidad es un coeficiente que tiene un rango que va desde 0 a 1. Si el resultado del coeficiente tiende a 1, el corpus analizado es mas variable. Por el contrario, si el resultado tiende a 0, decimos que se trata de un corpus poco variable." Es importante senalar que, si se toma como parametro esta medida, los corpus tienen que ser de tamano similar para poder compararlos. Esto se debe a que la mayor repeticion se da en el vocabulario funcional, por lo que, cuanto mayor sea el corpus, mas instancias de aparicion tendra de vocabulario funcional, lo cual resultaria en una variacion lexica mas cercana a 0.

2.5. Analisis cualitativo de datos

Otro enfoque para el analisis de datos es la perspectiva cualitativa. La informacion no se organiza numericamente (como en AntConc), sino que se interpretan los datos para intentar explicarlos de alguna manera. Uno de los programas que facilita la organizacion de los datos cualitativos es ATLAS.ti, que forma parte de los programas conocidos como QDA ("qualitative data analysis'") (ver http:// onlineqda.hud.ac.uk/Intro QDA/what is qda. php). Este programa trabaja con codigos (codes), citas (quotations) y memos, los cuales permiten interpretar las relaciones entre los datos por medio de la creacion de redes. En el presente estudio, se trabajo con la lista de palabras de contenido de alta frecuencia para ilustrar cuales son los principales focos de interes de cada seccion. Las palabras se asocian a codigos, los cuales se convierten en el nodo central de una red semantica.

Para crear las redes semanticas, se trabajo simultaneamente con ATLAS.ti y con AntConc. En ATLAS.ti se crearon los codigos a partir de los campos semanticos que proponia la lista de las palabras con frecuencia igual o mayor a 13. Para verificar que una palabra pertenece a una red determinada, se utilizo el analizador de concordancias de AntConc, que muestra el co-texto en que aparece el termino. Por ejemplo, para ubicar la palabra "plan", se revisaron las concordancias en AntConc y se encontro que aparece en la mayoria de los casos en la aglomeracion o cluster "plan fiscal". De esta manera, se pudo asociar al codigo de "Economia". Otro ejemplo es la palabra "gobierno". En el corpus de La Nacion, luego de revisar las concordancias, se pudo identificar que pertenece al campo de la politica, mientras que este mismo termino en el corpus de Diario Extra, se emplea para hacer referencia a las repercusiones que este tiene en el pueblo: el aumento en las tarifas, la inflacion, el "buen" o "mal" gobierno; es decir, se centra mas en el ambito social.

2.6. Representatividad

Otro tema que cabe mencionar antes de presentar el analisis de los corpus es el la representatividad. El corpus de este trabajo es de modalidad escrita, de un registro especifico: la prensa. No se podria decir que es un corpus representativo de la lengua porque no contiene todos los tipos de registros y modalidades. Se trata mas bien de un corpus tematico: el discurso de la prensa en las secciones de Nacionales y Deportes de Diario Extra y de El Pais y Deportes de La Nacion. El objetivo del corpus es comparar el lexico empleado en los dos periodicos, por lo que se planteo en primera instancia la recoleccion de igual cantidad de noticias de cada periodico para que fuera equitativo. No obstante, Diario Extra no publica los domingos, asi que este corpus contaba con ocho noticias menos. Para mantener el criterio de representatividad, se penso eliminar las noticias de los domingos del periodico La Nacion. No se procedio de esta manera, sin embargo, porque la cantidad de palabras del corpus de Diario Extra, a pesar de tener ocho noticias menos, era mayor que la del corpus de La Nacion. Por esta razon, y para poder efectuar los calculos estadisticos que requieren corpus con una cantidad similar de palabras, no se eliminaron las ocho noticias de los domingos de La Nacion. Aun asi, el corpus de Diario Extra resulto mas grande que el de La Nacion.

3. Resultados

El corpus tiene un total de 54 602 palabras. Se selecciono la opcion "Treat all data as lowercase" (tratar todos los datos como minusculas) porque no se consideraron las diferencias entre terminos escritos con mayuscula y con minuscula (por ejemplo Gobierno/gobierno). Ademas, si no se seleccionaba esta opcion, las palabras que aparecian con mayuscula (por ejemplo por estar a inicio de una oracion) quedaban registradas como entradas diferentes, lo cual alteraba los datos. En este caso particular, los titulares de Diario Extra estan escritos todos en mayuscula, lo cual creaba un desfase en los conteos.

Se codificaron los archivos de texto de cada noticia segun: 1) el periodico (sigla LN para La Nacion y DE para Diario Extra), 2) la seccion (N para Nacionales y D para Deportes) y la fecha de la noticia. Todas las noticias se guardaron en formato .txt (formato de texto plano) para que se pudieran analizar en las herramientas AntConc y ATLAS.ti. Se conto con dos corpus principales, el de La Nacion y el de Diario Extra (disponibles a peticion), compuestos por las noticas correspondientes a cada periodico. Se aplico una lista de exclusion (205 tipos) con el vocabulario funcional (disponible a peticion) porque lo que interesaba extraer era el vocabulario lexico e identificar las palabras de contenido de mas alta frecuencia. La variacion lexica del corpus es la siguiente (Tabla 1):
TABLA 1

Variacion lexica del corpus

                        Tipos   %        Muestras   %

Vocabulario lexico      8034    97,51%   27 693     50,71%
Vocabulario funcional   205     2,49%    26 909     49,28%
Total                   8239    100%     54 602     100%

Hapax legomena: 4255 palabras


3.1. Analisis de los periodicos

El lexico de los periodicos La Nacion y Diario Extra se analizo tanto cuantitativa como cualitativamente. Para el analisis cuantitativo, se tomo en cuenta la cantidad de noticias, las muestras, los tipos, la proporcion entre muestras y tipos, el hapax legomena y las palabras de alta frecuencia, determinadas como las palabras que cuentan con una frecuencia mayor o igual a 13, luego de haber aplicado la lista de exclusion. Se obtuvieron los siguientes resultados (Tabla 2):
TABLA 2

Datos cuantitativos de las secciones analizadas de La Nacion y
Diario Extra

               El Pais,    Deportes,   Nacionales,    Deportes,
               La Nacion   La Nacion   Diario Extra   Diario Extra

Cantidad de    28          28          24             24
noticias

Muestras       16 382      8942        10 598         18 680
               (30,0%)     (16,4%)     (19,4%)        (34,2%)

Tipos          3553        2428        2763           3670

Proporcion     0,22        0,27        0,26           0,20
tipos/
muestras

Hapax          2021        1482        1608           2008
legomena

Frecuencia       81          29          28             100
[greater than    palabras    palabras    palabras       palabras
or equal to]
13 (con lista
de exclusion)


En cuanto al analisis cualitativo, se extrajeron codigos a partir de las palabras de mas alta frecuencia. Ya que estas podian no coincidir de un periodico a otro, los codigos no necesariamente coincidian, a pesar de tratarse de la misma seccion. Se utilizaron los siguientes codigos para crear las redes semanticas:

El Pais, La Nacion: "Economia", "Partidos politicos", "Poder Ejecutivo", "Poder Judicial", "Poder Legislativo", "Politica" (incluye codigos de "partidos politicos", "Poder Ejecutivo", "Poder Judicial" y "Poder Legislativo"), "Relaciones exteriores" y "Social".

Nacionales, Diario Extra: "Economia" y "Social". El resto de los codigos relacionados con "Politica" aplicados al corpus de El Pais, La Nacion, no resultaron pertinentes.

Deportes, La Nacion: "Futbol nacional", "Deportes en Europa" y "Juegos Olimpicos". Estos se pudieron agrupar en una sola red por la conexion entre los nodos que fueron utilizados en relacion con los distintos codigos.

Deportes, Diario Extra: "D.T. (director tecnico), presidentes de los equipos, arbitros, etc.", "Equipos de futbol", "Futbol nacional", "Jugadores de futbol", y "Partidos de futbol". Se necesitaron muchos mas codigos para tratar de explicar el campo de Deportes, Diario Extra que el de Deportes, La Nacion.

Para ejemplificar el tratamiento cualitativo de los datos y las redes semanticas que se pueden crear, a continuacion se presentan la red de "Economia" de El Pais, La Nacion (Figura 1).

[FIGURA 1 OMITIR]

No todas las redes semanticas son asi de sencillas. En el caso de Deportes, Diario Extra, por ejemplo, los codigos se encontraban interconectados, por lo que se pudo extraer una red global de esta seccion, la cual estaba compuesta por codigos que a su vez se ramifican en nodos; estos nodos, por su parte, pueden incluso estar relacionados con mas de un codigo. La complejidad de las redes se eleva cuanto mas se profundice en un solo tema, pues se agregan nodos que de una u otra manera van a estar interconectados. En el caso de El Pais, La Nacion, algunos codigos estaban interrelacionados, pero no todos. De este modo, se obtuvieron algunas redes mas complejas, por ejemplo la que conectaba al gobierno con los diferentes poderes, pero tambien se pudieron extraer otras redes independientes que no estaban directamente relacionadas con un unico tema central.

3.3. Comparacion entre los dos periodicos

3.3.1. Consideraciones generales

En primer lugar, llama la atencion que el corpus de Diario Extra es mas grande que el de la Nacion, aun cuando tenia ocho noticias menos. Sin embargo, la proporcion de cantidad de palabras esta invertida: en el periodico La Nacion, la seccion de El Pais tiene una mayor cantidad de palabras que la seccion de Deportes, mientras que en el Diario Extra, es la seccion de Deportes la que tiene mas palabras que la seccion de Nacionales.

La variacion lexica, indicada por la proporcion tipos/muestras en la Tabla 2, indicaria que las secciones de Deportes, La Nacion y Nacionales, Diario Extra tienen una variacion lexica mas elevada que las otras secciones; sin embargo, puesto que los corpus tienen un tamano diferente, esta comparacion no seria valida para determinar si un periodico tiene mayor o menor variacion que el otro. Las secciones que presentan una variacion ligeramente mas elevada son las secciones con menos palabras; esto se explica porque cuanto mas extenso el texto, mayor cantidad de muestras de vocabulario funcional va a tener (esta compuesto por pocos tipos que se repiten con alta frecuencia y constituye aproximadamente el 50% de las muestras totales). Aun asi, cabe senalar que la proporcion tipos/ muestras es similar entre las secciones que tienen una cantidad parecida de palabras. Se podria sugerir, por tanto, que no hay gran diferencia de variacion lexica entre los dos periodicos.

3.3.2. "Comunalidad" (commonality) y "especificidad" (specificity)

Para extraer las palabras propias de La Nacion y de Diario Extra se copiaron todas las palabras de cada periodico y se aplicaron como lista de exclusion al otro; de esta manera, quedan solo las palabras que no se encuentran en el otro periodico. Es decir, se aplico el corpus de La Nacion como lista de exclusion al corpus de Diario Extra, con lo cual quedaban las palabras que aparecen exclusivamente en el corpus de Diario Extra. Con la cantidad de palabras propias de Diario Extra, se calcula el porcentaje de estas palabras sobre el total de palabras del corpus del periodico para calcular el porcentaje de vocabulario especifico. El mismo procedimiento se realizo aplicando el corpus de Diario Extra al de La Nacion para calcular el porcentaje de vocabulario especifico de este periodico.

Para determinar el porcentaje de lexico comun (prueba de "comunalidad"), se aplicaron como lista de exclusion las listas de palabras propias de cada periodico al corpus entero. El porcentaje se calcula a partir de la cantidad de palabras restantes sobre el total de palabras del corpus (Tabla 3).

Este analisis muestra una diferencia significativa entre los dos periodicos: presentan un alto grado de especificidad en cuanto a los tipos. Como se menciono anteriormente, las muestras no son pertinentes porque en un corpus la mayor repeticion se da en el vocabulario funcional. Sin embargo, es notorio que comparten solamente el 28% del vocabulario de contenido. Los analisis de las redes semanticas demostraron que los focos de interes de cada seccion difieren de un periodico a otro. La prueba de comunalidad/ especificidad vendria a reforzar este resultado, pues revela que los periodicos usan palabras diferentes, presumiblemente para tratar temas distintos.

Las listas del total de palabras de cada periodico se aplicaron a cada seccion del otro periodico para determinar cuales eran las palabras especificas de esa seccion de ese periodico. En otras palabras, para identificar las palabras especificas de El Pais y de Deportes, La Nacion, se aplico, en cada caso, la lista de la totalidad de palabras del corpus del Diario Extra como lista de exclusion. De igual manera, para las secciones de Nacionales y de Deportes, Diario Extra, se aplico como lista de exclusion la lista de la totalidad de palabras de La Nacion.

Las siguientes palabras son especificas (siguiendo el criterio de frecuencia normalizada [mayor que o igual a] 13) de la seccion de El Pais, La Nacion: pln, conavi, notas, relacionadas (1), tregua, trocha, mopt, legislativo, directorio, presidencia, iv, tse. Todas corresponden al codigo de "politica", el cual que esta ausente en el corpus de Nacionales, Diario Extra. Incluso terminos en comun, como "gobierno", se refieren a asuntos sociales cuando se trata en el Diario Extra, y a asuntos politicos cuando se trata en La Nacion.

En cuanto a la seccion de Deportes, La Nacion, las palabras especificas: londres, futbol, notas, relacionadas (2). El periodico La Nacion contempla mas noticias sobre los deportes en el exterior, como lo demuestra la referencia a Londres, que no aparece en el Diario Extra. En cuanto a la palabra "futbol", en el corpus del Diario Extra aparece con tilde: "futbol".

En la seccion de Nacionales, Diario Extra, se encuentran las siguientes palabras especificas: mil, nuevas, placas. Aparentemente, cuando hablan de cantidades, escriben la palabra "mil" en vez de poner los ceros, como se hace en La Nacion. Ademas, es de importancia el tema de las placas nuevas, que atane a todos los que tengan carro. De nuevo, se puede observar que el foco es en el area social.

La seccion de Deportes, Diario Extra, tiene las siguientes palabras especificas: lagos y pci. "Lagos", es Cristian Lagos, delantero del Santos de Guapiles, y "pci" es Provident Capital Indemnity, nombre de la compania de Minor Vargas Calvo, presidente del Brujas F.C., que fue arrestado en Estados Unidos por fraude. Como mencionan Cuvardic Garcia y Vargas Castro (2010), el Diario Extra es un periodico sensacionalista, por lo que no es de extranar que una noticia como el arresto del presidente de un equipo de primera division aparezca repetidas veces en el corpus.

3.3.3 Pruebas de significancia estadistica

En este apartado se comparo la frecuencia de aparicion de distintos terminos en los corpus del Diario Extra (Corpus 1) y de La Nacion (Corpus 2) para determinar si la diferencia era significativa. Se utilizo la prueba de Paul Rayson que se encuentra en el sitio: http://corpora.lancs. ac.uk/clmtp/2-stat.php (McEnery & Hardie, 2012, para mas detalle). Como se senalo anteriormente, esta prueba permite determinar si la diferencia en la frecuencia de aparicion de una palabra entre dos corpus es significativa aun cuando los corpus son de distinto tamano. Esta prueba resulta necesaria porque no se puede comparar la cantidad de veces que aparece una palabra (frecuencia absoluta) entre corpus de distinto tamano, pues como es logico, cuantas mas palabras tenga un corpus, mas probabilidades tendria una palabra de aparecer. Por tanto, esta formula compara la frecuencia de aparicion en relacion con el corpus mismo, lo cual si es un resultado valido. Se presenta a continuacion el resultado de la palabra "saprissa" (Figura 2), para ejemplificar la aplicacion de la prueba

Como se puede observar, hay diferencias significativas en las frecuencias de uso de esta palabra, pues se hace alusion a "saprissa" significativamente mas en Diario Extra que en La Nacion. Un analisis mas extenso aplicando la prueba de significancia estadistica podria arrojar luz sobre que temas son tratados mas extensamente en cada periodico y si esa diferencia es significativa.

Conclusiones

Los analisis que resultaron de la aplicacion de las distintas herramientas computacionales de la Linguistica de Corpus permitieron identificar varias diferencias entre los corpus de La Nacion y del Diario Extra en distintos ambitos. Primero, los corpus correspondientes a cada periodico diferian en la cantidad de palabras, y se encontro que en cada caso una seccion tenia mas palabras que la otra, pero en relacion inversa: en La Nacion, el corpus de El Pais era mas grande que el de Deportes, mientras que en Diario Extra, el corpus de Deportes tenia una cantidad mucho mayor de palabras que el de Nacionales. Segundo, las redes semanticas de cada seccion no coincidian de un periodico a otro. Para organizar los conceptos de El Pais, La Nacion, se necesitaron mas codigos que para analizar la seccion de Nacionales, Diario Extra. Por el contrario, al clasificar las palabras de Deportes, Diario Extra, se tuvieron que crear mas codigos que los que fueron necesarios para ordenar las palabras de la misma seccion del periodico La Nacion. En la misma linea, se encontro una gran especificidad del lexico, lo que muestra que ademas de concentrar el vocabulario alrededor de nodos distintos, las palabras que eligen son en general distintas. En cuanto a la variedad lexica, esta no demostro ser un criterio distintivo para comparar los periodicos. Por ultimo, la frecuencia de uso de ciertas palabras difiere de un periodico a otro, lo cual refuerza la propuesta de discrepancia entre las redes semanticas de cada seccion.

Ahora bien, cabria preguntarse porque se necesitaron mas o menos codigos para definir las secciones. En este punto, resulta pertinente indicar que las secciones mas grandes de ambos periodicos (El Pais, La Nacion y Deportes, Diario Extra), fueron las que requirieron la mayor cantidad de codigos. Esto no es de extranar, pues si un corpus tiene mas palabras, tambien seria de esperar que sean mas los temas que se traten. Las secciones de menor tamano, siguiendo este razonamiento, tendrian menos focos de interes sencillamente por contar con un numero menor de palabras. Sin embargo, no todos los codigos coincidian, y precisamente con la prueba de comunalidad/especificidad se pudieron identificar cuales eran los temas que se trataban en un periodico que no se mencionaban en le otro. Futuros estudios podrian investigar los campos semanticos de otras secciones para evaluar si tambien se da esta diferencia entre los periodicos.

Por otra parte, el hecho mismo de que el corpus de Diaro Extra fuera de mayor tamano resulta interesante. Sus lectores ?leen mas?, ?tienen mas tiempo para leer?, ?tienen un periodo de atencion mas largo?, o sus periodistas ?usan mas palabras?, o, mas bien, ?dan mas detalle y elaboran mas las ideas? Para responder a estas preguntas, probablemente habria que evaluar los datos desde otras disciplinas, lo cual dara lugar, espero, a nuevas investigaciones.

Notas

(1.) Tanto en las secciones de El Pais como de Deportes, La Nacion, aparecen las palabras "notas" y "relacionadas" como palabras especificas, porque en las noticias de este periodico siempre se incluyen notas relacionadas con la noticia en cuestion; esto no se presenta en Diario Extra.

(2.) Ver nota anterior.

Bibiliografia

Collins, A. M. & M. R. Quillian. 1969. Retrieval Time from Semantic Memory. Journal of Verbal Learning and Verbal Behavior. 8,(2): 240-247. [WWW] URL: http:// cds.unibas.ch/~hills/cogsci1/readings/ Chapter25_Collins.pdf

Cuvardic Garcia, D. & E. Vargas Castro. 2010. Recursos linguisticos en la titulacion periodistica costarricense: el caso de La Nacion y el diario La Extra. Filologia y Linguistica. 36(1): 207-232. [WWW]. URL http://www.latindex.ucr.ac.cr/filologia-36-1/ filologia-36-1-10.pdf

McEnery, T & A. Hardie, A. 2012. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press. Suplemento web: http://corpora.lancs. ac.uk/clmtp/

Quesada Villalobos, P. 2006. Lexico del habla costarricense: estudio del capo semantico de la vivienda. Revista Pensamiento Actual, Universidad de Costa Rica. 6(7): 125-133. [WWW]. URL http://www.latindex.ucr. ac.cr/pnsac003/012 capitulo.pdf

Sabaj, O. 2004. Especificidad, especializacion y variabilidad verbal: Una aproximacion computacional en estadistica lexica. Revista Signos. 37(56): 75-89. [WWW] URL: http:// www.scielo.cl/scielo.php?pid=S071809342004005600006&script=sci arttext#joha

Steyvers, M, y J. B. Tenenbaum. 2005. The large-scale structure of semantic networks: statistical analysis and a model of semantic growth. Cognitive Science. 29(1): 41-78. [WWW] URL: http://web.mit.edu/cocosci/ Papers/03nSteyvers.pdf

Torruela, J. & J. Llisterri. 1999. Diseno de corpus textuales y orales. En Blecua, J.M. et al. (eds.). Filologia e informatica. Nuevas tecnologias en los estudios filologicos. Barcelona: Seminario de Filologia e Informatica, Universidad de Barcelona, Editorial Milenio: 45-77. [WWW]. URL: http://liceu.uab.es/~joaquim/ publicacions/Torruella Llisterri 99.pdf

Villayandre Llamazares, M. 2010. Linguistica Computacional II. Linguistica de corpus. Universidad de Leon. [WWW]. URL: http://www3.unileon.es/dp/dfh/Milka/ LCII/LC1.htm

Yong, K. K., R. R. Mahmud, & C. S. Woo. 2011. Lexical Database for Multiple Languages: Multilingual Word Semantic Network. World Academy of Science, Engineering & Technology. 80: 229-234.

Mariana Cortes Kandler *

* Universidad de Costa Rica. Departamento de Filosofia, Artes y Letras, Sede de Occidente, Costa Rica.

Correo electronico: mari.ckandler@gmail.com

Recepcion: 31/03/2014. Aceptacion: 07/01/2015.
TABLA 3.

Prueba de "comunalidad" / "especificidad"

                                           Tipos   Muestras

Total de palabras del corpus               8239    54 602
Total de palabras con lista de exclusion   2311    44 953
Porcentaje de "comunalidad"                28,0%   82,3%
Porcentaje de "especificidad"              72,0%   17,7%

FIGURA 2. Muestra: saprissa

Prueba de significancia (LL>3.84):

                      Corpus 1       Corpus 2

Frequency of X        133            21
(e.g. freq of word)

Total opportunities   29278          25325
for X (e.g. Corpus
size)

Calculate LL          [Clear form]

Item   01     %1    02     %2      LL

Word   133   0.45   21   0.08 +   75.38
COPYRIGHT 2015 Universidad de Costa Rica
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2015 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Cortes Kandler, Mariana
Publication:Kanina
Article Type:Ensayo critico
Date:Jan 1, 2015
Words:6529
Previous Article:Del Griego al Espanol: cortesia verbal y traduccion en el Hipolito de Euripides.
Next Article:El Ciudadano Kane: reflexiones desde una perspectiva psicosocial.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters