Printer Friendly

Efectos de compensacion entre indicadores de la complejidad de los idiomas.

1. Introduccion

El Atlas Mundial de Estructuras Linguisticas (WALS, por su sigla en ingles) es una publicacion que compila informacion sobre caracteristicas estructurales de los distintos idiomas que se hablan en el mundo. En su version electronica vigente (Dryer & Haspelmath, 2013) contiene datos de 2679 idiomas y dialectos, que corresponden a 192 caracteristicas pertenecientes a distintos componentes de la estructura gramatical de dichos idiomas.

Ninguna de las lenguas incluidas en el WALS tiene datos para todas las caracteristicas que aparecen en el atlas, y tampoco existe ninguna caracteristica que aparezca informada para todos los idiomas. La lengua con mayor cobertura es el ingles (159 caracteristicas informadas), pero hay muchos idiomas (por ejemplo, el asturiano o el taiwanes) para los cuales solo se presenta informacion acerca de una unica caracteristica. La caracteristica para la cual hay mas informacion es la que lleva el codigo 83A (orden de objeto y verbo en los enunciados), ya que para ella hay datos referidos a 1519 idiomas. En el otro extremo, la caracteristica 141A (sistemas de escritura) solo reporta informacion referida a 6 idiomas.

Si bien el numero de lenguas que aparecen en el WALS es muy grande, los editores de dicho atlas han elegido una muestra de 100 lenguas cuya inclusion en los distintos capitulos es requerida "siempre que sea posible". Se supone que esas lenguas forman una muestra relativamente balanceada en cuanto a su diversidad linguistica y geografica, si bien en su eleccion pesaron tambien algunos otros factores relacionados con la importancia poblacional o cultural, y con la disponibilidad de descripciones gramaticales detalladas. (1)

Aprovechando que el WALS concentra una cantidad muy importante de informacion, y que ha privilegiado la compilacion de datos sobre una muestra particular de idiomas, en este trabajo usaremos dicha muestra para llevar a cabo una serie de analisis estadisticos que buscan detectar posibles relaciones entre los valores de 60 caracteristicas diferentes. Dichas caracteristicas provienen de distintas categorias gramaticales, y han sido codificadas por medio de variables que pueden interpretarse como medidas de complejidad. (2)

Con las variables asi construidas procedimos a calcular correlaciones, usando tanto los coeficientes estandar (de Pearson) como los llamados "coeficientes de correlacion parcial". Despues de eso computamos cinco indices de complejidad, surgidos de agrupar las variables en categorias, y obtuvimos un indice de complejidad total (que es el promedio de los indices parciales). Esos indices tambien fueron analizados en terminos de su posible correlacion, y todo esto genero una serie de conclusiones relacionadas con la existencia de efectos de compensacion.

Un efecto de compensacion (trade-off) entre variables que miden la complejidad de los idiomas representa una situacion en la cual un nivel de complejidad mayor para cierto componente de la lengua aparece en correspondencia con un nivel de complejidad menor para otro componente. Este tipo de relacion puede ocurrir entre caracteristicas que pertenezcan a la misma categoria gramatical (por ejemplo, fonologia, morfologia, sintaxis), entre caracteristicas que pertenezcan a distintas categorias, o entre medidas que representen a tales categorias.

El presente trabajo esta organizado del siguiente modo. En la seccion 2 resenamos la literatura sobre trade-offs de complejidad, especialmente la que ha procurado hallar correlaciones negativas entre variables linguisticas. En la seccion 3 describimos la base de datos que hemos construido, y en la seccion 4 analizamos los principales estadisticos calculados para dicha base de datos, en terminos de la correlacion entre las variables. En la seccion 5 hacemos lo mismo para los indices de complejidad, y en la seccion 6 llevamos a cabo algunos calculos adicionales acerca de posibles comparaciones entre idiomas. Finalmente, la seccion 7 esta dedicada a resumir las principales conclusiones de todo el trabajo.

2. Resena de la literatura

La literatura sobre comparaciones interlinguisticas de complejidad es relativamente extensa y variada. Uno de sus trabajos mas citados es el de McWhorter (2001), que propone la construccion de medidas de complejidad para los diferentes subsistemas de la lengua (por ejemplo, fonologia, morfologia, sintaxis, vocabulario) basandose en la idea de que un idioma es mas complejo que otro si posee "mas distinciones y/o reglas explicitas". (3) Aplicando dicha definicion, McWhorter concluye que los "idiomas criollos" (creole languages) son siempre mas simples que los idiomas no criollos, ya que carecen de una serie de "sobrespecificaciones" que son tipicas de las 3 lenguas mas tradicionales. (4)

La hipotesis de McWhorter se opone a una larga tradicion linguistica que considera que "todos los idiomas son igualmente complejos". Dicha tradicion no se basa en una medicion sistematica de indicadores de complejidad, sino en distintos enfoques teoricos que suponen tal igualdad. (5) Desde que la linguistica cuantitativa comenzo a desarrollar medidas de complejidad de los idiomas y a analizar la posible correlacion entre dichas medidas, sin embargo, la hipotesis de igual complejidad ha sido vista en general como falsa.

Uno de los articulos mas importantes que intento medir la correlacion entre indicadores de complejidad en un entorno interlinguistico es el de Shosted (2006), que estudia la posible existencia de correlacion negativa entre complejidad fonologica y morfologica en una muestra de 32 idiomas. En ese articulo, que termina concluyendo que no existe una correlacion estadisticamente significativa entre esas medidas, el autor mide la complejidad fonologica usando el numero teorico de posibles tipos de silabas en cada idioma, en tanto que su medida de complejidad morfologica viene dada por el numero de posibles tipos de inflexion verbal. En la misma linea de investigacion, Nichols (2009) mide la complejidad interlinguistica en cinco categorias (fonologia, morfologia, clases de palabras, sintaxis y vocabulario) usando distintos indices, que calcula como promedios de varias medidas de complejidad en una muestra de 68 idiomas. Si bien no encuentra correlaciones negativas significativas entre dichos indices, si halla una correlacion positiva significativa entre su medida de complejidad morfologica y su medida de complejidad sintactica.

Otro enfoque alternativo para medir la complejidad es usar medidas "empiricas" de dicho fenomeno. Fenk-Oczlon & Fenk (2008), por ejemplo, calculan una serie de cocientes (fonemas por silaba, silabas por palabra, fonemas por palabra, palabras por enunciado, etc.) que provienen de traducciones de varias oraciones simples (escritas originalmente en aleman) a 33 lenguas distintas. Luego computan coeficientes de correlacion entre estos cocientes, y llegan a una serie de conclusiones que implican la existencia de correlaciones negativas significativas entre los mismos. (6)

Otra rama de la literatura es la que se inicio con el trabajo de Nettle (1995), que relaciona la extension de las palabras (medida usando una muestra de palabras para distintos idiomas) y la complejidad fonologica (medida usando indicadores teoricos tales como el numero de fonemas distintos que tiene cada idioma). En dicho estudio, que uso una muestra de solo 10 idiomas, su autor encontro una correlacion negativa muy fuerte entre talas medidas, lo cual genero toda una literatura posterior con muchas mas observaciones y con metodologias de computo mas sofisticadas (por ejemplo, Wichmann, Rama & Holman, 2011; y Moran & Blasi, 2014).

Otros enfoques del problema de medicion de la complejidad se restringen a alguna categoria linguistica en particular, como la fonologia, la morfologia o la sintaxis. Maddieson (2007), por ejemplo, mide la complejidad fonologica usando tres indicadores distintos: inventario de fonemas (vocalicos y consonanticos), sistemas tonales y estructura silabica. Al buscar correlaciones entre dichas medidas, solo encuentra un coeficiente positivo y significativo entre el inventario de consonantes y la estructura silabica (es decir, cuanto mas consonantes tiene un idioma, mas compleja parece ser la estructura de las silabas que utiliza), y un coeficiente negativo (menos significativo) entre complejidad del sistema tonal y estructura silabica. (7)

Otro ejemplo de busqueda de efectos de compensacion dentro de una categoria linguistica particular es el que lleva a cabo Sinnemaki (2008), que se enfoca en tres medidas alternativas de la complejidad (sintactica) de la marcacion de los argumentos en la frase (que son la marcacion de nucleos, la marcacion de complementos, y el uso de un orden fijo para los distintos tipos de palabras). Despues de definir esas medidas en base a su capacidad para discriminar argumentos, Sinnemaki halla una correlacion negativa significativa entre la marcacion de complementos y el orden fijo de palabras, asi como correlaciones tambien negativas pero no significativas entre marcacion de nucleos y marcacion de complementos, y entre marcacion de nucleos y orden fijo de palabras.

Varios de los trabajos sobre efectos de compensacion entre indicadores de complejidad han utilizado datos tomados del WALS. Esto ocurre con los articulos ya citados de Maddieson (2007), Sinnemaki (2008) y Moran & Blasi (2014), y con numerosos articulos relacionados con temas de complejidad linguistica y correlacion, tales como los de Parkvall (2008), Dahl (2011) y Matasovic (2014).

En este articulo intentaremos encontrar efectos de compensacion entre medidas de complejidad que ocurren tanto a nivel general (o sea, entre distintas categorias linguisticas) como a nivel particular (o sea, dentro de una misma categoria). Esto se debe a que la base de datos que hemos construido se refiere a un numero relativamente grande de caracteristicas linguisticas, que pueden a su vez agruparse en categorias. Todas nuestras medidas de complejidad, sin embargo, seran de caracter teorico o tipologico, ya que no provienen de textos especificos sino de las gramaticas de los diferentes idiomas, compiladas por los autores de los distintos capitulos del WALS.

3. Descripcion de los datos

Tal como mencionamos en la introduccion, nuestra base de datos contiene informacion sobre 60 variables, y se refiere a las lenguas incluidas en la muestra de 100 idiomas del WALS. Esas variables se armaron usando informacion sobre 60 caracteristicas idiomaticas, y en todos los casos son "variables binarias", es decir, variables que toman un valor igual a uno en ciertos casos, e igual a cero en otros.

El criterio usado para definir las variables fue asignar un valor igual a uno a los idiomas que fueran mas complejos en terminos de cierta caracteristica, y un valor igual a cero a los idiomas que fueran mas simples en terminos de dicha caracteristica. Para hacerlo, seleccionamos todas las caracteristicas para las cuales la informacion del WALS nos permitiera clasificar a los idiomas de acuerdo con alguna medida de complejidad. Por ejemplo, la caracteristica 1A (inventario de fonemas consonanticos) es la base para definir una variable segun la cual un idioma es complejo si tiene 26 o mas consonantes, y simple si tiene 25 o menos. Del mismo modo, la variable basada en la caracteristica 66A (tiempo pasado) le asigna un valor igual a uno (complejo) a los idiomas que hacen algun tipo de distincion gramatical entre formas verbales del pasado y del presente, y un valor igual a cero (simple) a los que no hacen ningun tipo de distincion de esa clase.

Muchas caracteristicas informadas en el WALS fueron excluidas del analisis porque no sirven para generar variables que puedan ser facilmente interpretadas como medidas de complejidad. La caracteristica 3A (cociente entre consonantes y vocales) es un ejemplo de esa situacion, ya que no esta claro que un idioma que tenga un cociente elevado entre consonantes y vocales sea mas complejo o mas simple que otro que tenga pocas consonantes por vocal. Lo mismo ocurre con la caracteristica 31A (sistemas de asignacion de genero), ya que un sistema en el cual las palabras son masculinas o femeninas no es ni mas simple ni mas complejo que otro en el cual las clases de palabras esten basadas en otro tipo de consideracion. Esto contrasta con el uso que hacemos de la caracteristica 30A (numero de generos), que es la base de una variable segun la cual un idioma es complejo si los sustantivos estan marcados por algun tipo de distincion de clase (basada o no en el sexo) y simple si no hace ninguna distincion gramatical de genero.

La construccion de nuestra base de datos tambien esta condicionada por el hecho de que hay muchas observaciones para las cuales el WALS no nos da una informacion completa. Esto se debe a que solamente cinco idiomas de la muestra (ingles, finlandes, frances, indonesio y turco) tienen datos para todas las caracteristicas seleccionadas, y solo siete de tales caracteristicas (48A, 100A, 104A, 107A, 108A, 109A y 113A) tienen datos para los 100 idiomas. El numero de datos faltantes es igual a 532, lo cual es relativamente poco si consideramos la cantidad total de datos que tiene la base que hemos construido (igual a 6000). La reconstruccion de dichos datos, sin embargo, requirio un esfuerzo considerable, y para eso tuvimos que usar distintas estrategias.

Varios datos que faltaban fueron relativamente faciles de inferir usando informacion correspondiente a dialectos de la misma lengua (por ejemplo, arabe saudita en vez de arabe egipcio, o quechua norperuano en vez de quechua ecuatoriano). En otros casos en los cuales eso no fue posible, buscamos idiomas que pertenecieran a la misma subfamilia (por ejemplo, holandes en vez de aleman, o cebuano en vez de tagalo). En otros casos tuvimos que recurrir a una reconstruccion mas indirecta, usando informacion de idiomas que no estuvieran filogeneticamente tan cerca pero que estuvieran ligados por una relacion de tipo geografico (por ejemplo, yurok en vez de karok, o igbo en vez de yoruba). Dichos procedimientos, obviamente, tienen cierto grado de imprecision y estan sujetos a posibles errores de medicion, pero de cualquier modo entendemos que la probabilidad de tales errores es baja porque en todos los casos los idiomas estan clasificados en grupos binarios (simples o complejos), y esos grupos estan distribuidos de un modo relativamente regular entre familias linguisticas y zonas geograficas.

Las 60 caracteristicas usadas para construir nuestra base de datos pertenecen a distintas areas del WALS, que son: fonologia (11 caracteristicas), morfologia (6 caracteristicas), categorias nominales (14 caracteristicas), sintaxis nominal (4 caracteristicas), categorias verbales (10 caracteristicas), orden de las palabras (5 caracteristicas), enunciados simples (8 caracteristicas), y vocabulario (2 caracteristicas). Para llevar a cabo algunos analisis agregados de complejidad, sin embargo, procedimos a reclasificar esas caracteristicas usando un esquema diferente, y terminamos con una clasificacion en cinco categorias: fonologia (11 variables), morfologia (11 variables), sintaxis (12 variables), sistema verbal (13 variables) y vocabulario (13 variables). (8)

Cuando la informacion que aparece en el WALS para una caracteristica en particular permite dividir la muestra de distintas maneras, hicimos la division entre idiomas simples y complejos de modo de que el numero de observaciones en cada conjunto fuera relativamente parejo. Por ejemplo, la caracteristica 41A (contrastes de distancia en demostrativos) clasifica a las lenguas en cinco grupos, de acuerdo con el numero de contrastes marcados por distintas palabras o afijos. Basandonos en dicha distribucion, consideramos que los idiomas que no tenian contrastes de este tipo y los que tenian solo un contraste (por ejemplo, el ingles, que contrasta "this" con "that") eran simples, y que, en cambio, los idiomas con mas de un contraste (por ejemplo, el espanol, que contrasta "este", "ese" y "aquel") eran complejos. Con este criterio, nos quedaron 48 idiomas complejos y 52 idiomas simples. Si hubieramos usado otra forma de dividir la muestra, podriamos habernos quedado con 96 idiomas complejos y solo 4 idiomas 8 simples (si hubieramos considerado que solamente eran simples los idiomas sin ningun contraste entre demostrativos) o con 91 idiomas simples y solo 9 complejos (si hubieramos exigido mas de tres contrastes para que un idioma fuera catalogado como complejo).

Tomando en cuenta los 100 idiomas y las 60 caracteristicas como un todo, nuestra clasificacion genero 2637 datos complejos (44%) y 3363 datos simples (56%). La variable con un porcentaje mayor de observaciones complejas es la que corresponde a la caracteristica 130A (dedo y mano), con 91 idiomas que usan distintas palabras para los conceptos de "dedo" y "mano", y solo 9 idiomas que usan la misma palabra. La variable con un menor porcentaje de observaciones complejas, en cambio, es la que corresponde a la caracteristica 11A (vocales anteriores redondeadas), con 7 idiomas que poseen al menos una vocal anterior redondeada como fonema, (9) y 93 idiomas que no tienen ninguna de esas vocales. Si observamos las distintas lenguas, vemos que la que tiene un porcentaje mayor de observaciones complejas es el idioma abjasio (que pertenece a la familia caucasica noroccidental y se habla en un zona cerca al Mar Negro), el cual tiene 41 caracteristicas complejas y 19 simples. Los idiomas con mas observaciones simples, en cambio, son el tailandes y el hmong njua (que pertenece a la familia hmong mien, y se habla en China), que tienen 14 caracteristicas complejas y 46 simples.

4. Analisis de correlacion entre variables binarias

El primer paso para estudiar la posible existencia de efectos de compensacion entre medidas de la complejidad de los 100 idiomas de la muestra tomada del WALS consiste en computar coeficientes de correlacion entre las 60 variables seleccionadas. Como todas las variables son binarias, sus correlaciones pueden inferirse utilizando los numeros que aparecen en tablas de contingencia tales como la del cuadro 1, que ejemplifica el caso de las variables derivadas de la caracteristica 12A (estructura silabica) y 13A (tono). En el puede verse el numero de observaciones que pertenecen a las cuatro situaciones posibles que ocurren en la muestra: lenguas no tonales con estructura silabica simple (39 observaciones), lenguas no tonales con estructura silabica compleja (29 observaciones), lenguas tonales con estructura silabica simple (29 observaciones), y lenguas tonales con estructura silabica compleja (3 observaciones).

Para calcular el coeficiente de correlacion estandar (r) entre estas dos variables, tambien llamado "coeficiente de Pearson", basta utilizar esta formula:

r = N(S,NT) * N(C,T) - N(S,T) * N(C, NT)/ [raiz cuadrada de (N(S) * N(C) * N(NT) * N(T))] = (39 * 3 - 29 * 29/[raiz cuadrada de (68 * 32 * 68 * 32)] = -0.3327 ;

donde N(S,NT), N(C,T), N(S,T) y N(C,NT) son los numeros en cada una de las cuatro celdas de la tabla de contingencia, y N(S), N(C), N(NT) y N(T) son las cantidades totales de observaciones referidas a estructuras silabicas simples, estructuras silabicas complejas, lenguas no tonales y lenguas tonales.

En este caso, el resultado de aplicar esta formula indica la existencia de una correlacion negativa, que resulta ser estadisticamente significativa. (10) La misma implica que es mas probable que los idiomas que tienen una estructura silabica relativamente simple utilicen el tono como un modo de distinguir entre distintas palabras (o entre distintas formas gramaticales de las palabras), en tanto que es raro que los idiomas con una estructura silabica mas compleja empleen el tono en esa funcion. Esto puede verse como un ejemplo de trade-off entre fenomenos de complejidad idiomatica, ya que mayor complejidad en una dimension (estructura silabica) se relaciona con mayor simplicidad en otra (tono) y viceversa.

Si computamos los coeficientes de correlacion estandar para los 1770 pares de variables que pueden formarse utilizando las 60 caracteristicas seleccionadas, vemos que hay 795 que son negativos (44,9%) y 975 que son positivos (55,1%). La mayoria de ellos, sin embargo, son estadisticamente insignificantes, y solo 85 coeficientes (4,8%) son a la vez negativos y significativos a un 5% de probabilidad (es decir, negativos y mayores que 0,2 en valor absoluto). (11) Entre ellos podemos mencionar algunos casos tales como el coeficiente que relaciona las caracteristicas 100A (alineamiento morfosintactico en frases verbales) y 119A (predicacion nominal y espacial), cuya correlacion (r = -0,3021) indica que los idiomas que marcan el objeto en las frases verbales son mas proclives a usar el mismo verbo para predicados nominales (por ejemplo, "Juan es un hombre") y espaciales (por ejemplo, "Juan esta en su casa"). (12) Otro caso de correlacion negativa, que tiene lugar entre variables lexicas y cuyo coeficiente es igual a -0,2359, es el que indica que, cuando un idioma usa la misma palabra para "mano" y "brazo" (caracteristica 129A), entonces tiende a usar una palabra diferente para "dedo" (caracteristica 130A).

El uso de coeficientes de correlacion estandar para detectar la existencia de efectos de compensacion es relativamente simple de calcular, pero tiene la desventaja de que no toma en cuenta la posible interaccion con otras variables relevantes. (13) Para resolver este problema pueden calcularse coeficientes de correlacion parcial, que son medidas de la dependencia lineal entre dos variables que surgen cuando se elimina la influencia de otras variables. Para computar esos coeficientes, puede comenzarse armando una matriz de correlacion de todas las variables bajo analisis, y luego invertirla. Una vez hecho eso, puede utilizarse la siguiente formula:

r = - [p.sub.xy]/ [raiz cuadrada de ([P.sub.xx] * [P.sub.yy]) ;

donde pxy es el coeficiente que corresponde al par de variables x e y en la matriz de correlacion inversa, y pxx y pyy son los coeficientes que corresponden a dichas variables en la diagonal principal de dicha matriz inversa. (14)

Si llevamos a cabo ese procedimiento en nuestra muestra de 100 idiomas y 60 variables, terminaremos con otra matriz cuyos 1770 coeficientes de correlacion para todos los posibles pares de variables son negativos (878 casos, 49,6%) o positivos (892 casos, 50,4%). El numero de coeficientes negativos y estadisticamente significativos es ahora mayor que el que aparece en la matriz de correlacion estandar, ya que en esta matriz de correlaciones parciales encontramos 162 coeficientes negativos y significativos (9,15%). Entre ellos podemos mencionar el caso de las caracteristicas 1A (inventario de fonemas consonanticos) y 2A (inventario de tipos vocalicos), cuya correlacion negativa (r = -0,3163) indica que los idiomas con mas consonantes tienden a tener relativamente menos fonemas vocalicos y viceversa. Medida a traves de un coeficiente estandar, dicha correlacion es negativa pero no significativa (r = -0,1622).

Otro coeficiente que puede interpretarse como indicativo de un efecto de compensacion, y que es estadisticamente significativo si lo computamos como una correlacion parcial (y no si lo calculamos como un coeficiente de correlacion estandar), es el que corresponde a las caracteristicas 23A (marcacion del objeto directo) y 30A (numero de generos). Dicho coeficiente (igual a -0,3437 usando correlacion parcial, y a 0,0750 usando correlacion estandar) indica que los idiomas que no marcan el objeto directo con un afijo determinado tienen una mayor tendencia a diferenciar gramaticalmente las palabras por genero. Lo mismo ocurre con otras correlaciones tales como las que pueden establecerse entre las caracteristicas 68A (tiempo perfecto) y 70A (modo imperativo), entre las caracteristicas 84A (orden de objeto, verbo y complemento oblicuo) y 92A (particulas interrogativas polares), etc.

Un instrumento adicional que puede incluirse, a fin de mejorar la medicion de los posibles efectos de compensacion entre distintas caracteristicas del WALS, es el uso de variables extralinguisticas. Una posibilidad relativamente directa consiste en adicionar variables que representen caracteristicas de tipo geografico, tales como variables binarias que tomen un valor igual a uno cuando un idioma pertenece a determinada region e igual a cero en caso contrario. Como el WALS divide a los idiomas en seis macro-areas, hemos construido cinco variables que corresponden a las lenguas incluidas en cada una de dichas areas, que son Africa (16 idiomas), Australia (7 idiomas), Papunesia (17 idiomas), Norteamerica (18 idiomas) y Sudamerica (13 idiomas). (15)

Otras tres variables binarias adicionales se refieren a caracteristicas filogeneticas o de parentesco idiomatico. Tales son las que corresponden a idiomas que pertenecen a tres familias con un numero relativamente grande de observaciones en la muestra de 100 idiomas del WALS, que son las de los grupos indoeuropeo (8 idiomas), austronesio (8 idiomas) y Niger-Congo (7 idiomas). Tambien introdujimos otras tres variables que toman un valor igual a uno cuando una lengua pertenece a una de las siguientes subregiones incluidas dentro de alguna de las seis macro-areas: Asia sudoriental (birmano, hmong njua, mandarin, meithei, tailandes y vietnamita), Mesoamerica (jacalteco, mixteco, otomi, rama, yaqui y zoque) y el Amazonas (apurina, barasano, canela-kraho, hixkaryana, piraha, sanuma, wari y yagua).

La ultima variable extralinguistica que hemos construido tiene que ver con diferencias entre idiomas utilizados por un gran numero de hablantes e idiomas hablados por un numero mas pequeno de personas. (16) Esta variable le asigna un valor igual a uno a las 33 lenguas cuyo numero total de hablantes supera los 5 millones (mandarin, ingles, espanol, hindi, arabe, ruso, japones, aleman, frances, indonesio, coreano, turco, vietnamita, persa, canares, hausa, birmano, tagalo, yoruba, suajili, oromo, tailandes, malgache, griego, zulu, quechua, bereber, hebreo, mongol, finlandes, guarani, georgiano y hmong njua), y un valor igual a cero a los 67 idiomas restantes.

Utilizando las 12 nuevas variables creadas, resulta posible calcular nuevos coeficientes de correlacion parcial. Los mismos nos senalan 881 casos de correlacion negativa (49,8%) y 889 casos de correlacion positiva (50,2%). El numero de coeficientes negativos y significativos es ahora igual a 243 (13,7%), lo cual implica un incremento adicional respecto de nuestros dos calculos previos. (17)

[GRAFICO 1 OMITIR]

Las diferencias entre los resultados de los tres calculos de coeficientes de correlacion pueden apreciarse a traves de las funciones de distribucion acumulada representadas en el grafico 1. Las mismas surgen de ordenar los 1770 coeficientes generados por cada estimacion del menor al mayor, y evaluar las frecuencias que corresponden a los distintos valores de tales coeficientes. Lo representado en el grafico 1 se refiere exclusivamente a la parte de la distribucion que corresponde a los valores negativos de los respectivos coeficientes calculados por los tres diferentes metodos ("simple", "parcial (1)" y "parcial (2)"), y el ultimo de ellos (es decir, el que incluye la interaccion con las 12 variables extralinguisticas) es el que genera las mayores frecuencias de coeficientes negativos y significativos para los tres niveles de probabilidad 17 generalmente utilizados en estadistica (10%, 5% y 1%).

Los efectos del uso de correlaciones parciales y de la inclusion de variables extralinguisticas en el calculo de los coeficientes pueden verse tambien si uno observa un conjunto reducido de casos como el representado en el cuadro 2. En dicho cuadro aparecen los coeficientes de correlacion estandar y de correlacion parcial para cuatro variables fonologicas (las correspondientes a las caracteristicas 1A, 2A, 12A y 13A), con y sin la inclusion de las variables extralinguisticas. Puede verse asi que, mientras el unico coeficiente de correlacion estandar que resulta negativo y significativo es el que corresponde a las caracteristicas 12A (estructura silabica) y 13A (tono), el uso de tecnicas de correlacion parcial (caso 1) genera que tambien el coeficiente de correlacion negativo entre las caracteristicas 1A (consonantes) y 2A (tipos vocalicos) sea estadisticamente significativo. A su vez, el uso de variables extralinguisticas en el computo de los coeficientes de correlacion parcial (caso 2) hace que el coeficiente que surge de relacionar las caracteristicas 1A y 13A sea negativo y significativo. Esta ultima relacion parece ser positiva y no significativa si la calculamos mediante un coeficiente de correlacion estandar, y negativa y no significativa si la calculamos sin tener en cuenta su posible interaccion con las 12 variables extralinguisticas.

Notese ademas que el numero de coeficientes negativos informados en el cuadro 2 (tanto significativos como no significativos) tambien se incrementa cuando pasamos de las correlaciones estandar a las correlaciones parciales. En la primera de dichas situaciones solo hay 2 coeficientes negativos, pero ese numero aumenta a 5 cuando los coeficientes se calculan utilizando metodos de correlacion parcial.

5. Analisis de complejidad agregada

Otro modo de buscar efectos de compensacion entre indicadores de complejidad linguistica es el que surge de relacionar distintos grupos de caracteristicas. Para hallar dichas relaciones, hemos agrupado las 60 variables en cinco categorias (fonologia, morfologia, sintaxis, sistema verbal y vocabulario), y con ellas hemos creado indices de complejidad. Dichos indices son promedios de variables binarias, y sus valores, por lo tanto, son numeros racionales que se encuentran en el espacio entre cero y uno. Esos numeros, a su vez, pueden promediarse y generar un "indice de complejidad total", cuyo valor para cada idioma se ubica tambien entre cero y uno. (18)

Los indices de complejidad permiten ordenar a los distintos idiomas del mas complejo al mas simple, y producen rankings que difieren segun la categoria de que se trate. La lengua con un indice mas alto de complejidad total, dentro de las incluidas en la muestra de 100 idiomas del WALS, es el abjasio, que tambien se ubica primero en los rankings parciales de complejidad fonologica, verbal y lexica. (19) En la categoria morfologica, en cambio, el ranking esta encabezado por el burushaski (que es una lengua aislada, hablada en Pakistan), en tanto que el ranking de complejidad sintactica tiene en primer lugar al idioma karok (que se habla en Estados Unidos, y que tambien es una lengua aislada). Entre los idiomas con menores indices de complejidad, por su parte, estan el rapanui (fonologia), el cree (fonologia), el sango (sistema verbal), el mixteco (sintaxis y vocabulario) y el tailandes (morfologia y sintaxis). El tailandes es tambien el idioma con un menor indice de complejidad total. (20)

Cada indice tiene una distribucion de frecuencias entre idiomas cuyos parametros principales son la media ([micron]) y el desvio estandar ([sigma]). El indice con menor media es el de complejidad fonologica ([micron] = 0,2882), y el de mayor media es el de complejidad morfologica ([micron] = 0,5573). El indice de complejidad total tiene un valor promedio que esta entre esos dos extremos ([micron] = 0,4390), y que ademas es muy cercano a la media que exhiben los indices de complejidad correspondientes a la sintaxis, el sistema verbal y el vocabulario. El indice de complejidad total, sin embargo, tiene un desvio estandar menor ([sigma] = 0,0942), que contrasta con los valores que pueden calcularse para los distintos indices parciales. Estos ultimos van desde un minimo de 0,1311 (vocabulario) a un maximo de 0,2078 (morfologia).

[GRAFICO 2 OMITIR]

El efecto de estas diferencias en las frecuencias estimadas para los distintos indices de complejidad puede apreciarse en el grafico 2, en el cual hemos representado sendas aproximaciones de las mismas utilizando la llamada "distribucion normal". Notese que los valores del indice de complejidad total estan relativamente concentrados alrededor de la media, en tanto que las distribuciones de los indices parciales (en especial los referidos a la fonologia, la morfologia y el sistema verbal) estan mucho mas dispersas a lo largo de todo el espacio de probabilidad. Esta diferencia en cuanto a la dispersion de los indices puede verse como una evidencia en favor de la existencia de efectos de compensacion entre medidas de complejidad, ya que indica que los idiomas son mas desiguales cuando se los evalua usando una unica categoria linguistica (por ejemplo, fonologia, morfologia o sistema verbal), y menos desiguales cuando se utiliza una medida de su complejidad total.

Una posibilidad adicional para analizar la existencia de efectos de compensacion entre distintos indices de complejidad es computar los coeficientes de correlacion entre ellos. Como en este caso las variables no son binarias, la formula que debemos usar para calcular los coeficientes de correlacion estandar es la siguiente:

r = [SIGMA]([x.sub.1] - [bar.x])([y.sub.i] - [bar.y])/[raiz cuadrada de ([SIGMA][([x.sub.1] - [bar.x]).sup.2] * [SIGMA] [([y.sub.1] - [bar.y].sup.2] ;

donde [x.sub.i] e [y.sub.i] son los valores de dos indices distintos para el mismo idioma, y [bar.x] e [bar.y] son los valores promedio para dichos indices en la muestra de 100 idiomas.

Tal como vimos en la seccion anterior, los coeficientes estandar pueden transformase en coeficientes de correlacion parcial a traves de un proceso de inversion matricial (caso 1), el cual puede ser a su vez mejorado mediante la inclusion de las 12 variables extralinguisticas ya descriptas (caso 2). Los resultados de dichos procedimientos, aplicados a los cinco indices parciales de complejidad definidos mas arriba, aparecen en el cuadro 3.

Los valores de los coeficientes de correlacion expuestos brindan cierto apoyo a la existencia de efectos de compensacion entre los indices de complejidad, pero dicho apoyo es bastante mas debil que el encontrado en la seccion anterior para algunos casos individuales. Notese que, cuando computamos correlaciones estandar, ningun coeficiente negativo es significativamente distinto de cero. Mas aun, los unicos valores negativos corresponden a la relacion entre complejidad fonologica y sintactica (r = -0,1370), y a la relacion entre complejidad fonologica y lexica (r = -0,1079).

Cuando introducimos tecnicas de correlacion parcial (caso 1), aparece un tercer coeficiente de correlacion negativo (no significativo): el referido a la relacion entre complejidad sintactica y complejidad del sistema verbal. Un cuarto coeficiente negativo no significativo (fonologia vs. morfologia) surge cuando incluimos variables extralinguisticas en el calculo de los coeficientes de correlacion parcial (caso 2), pero esa inclusion hace que el valor absoluto del coeficiente negativo que era originalmente el mas alto (fonologia vs. sintaxis) se reduzca, pasando de "r = -0,1814" a "r = -0,0142". Tambien genera, sin embargo, el unico coeficiente negativo que resulta ser estadisticamente significativo en todo el cuadro, que es el que relaciona la complejidad fonologica con la complejidad del vocabulario (r = -0,2026).

Un ejercicio adicional que podemos llevar a cabo cuando clasificamos a las caracteristicas linguisticas en categorias es ver si los coeficientes negativos que hallamos en la seccion 4 pertenecen a variables incluidas en la misma categoria o a variables incluidas en categorias distintas. El cuadro 4 nos muestra la distribucion de tales coeficientes, calculada a traves de las proporciones entre el numero de coeficientes negativos y significativos, y el total de coeficientes incluidos en cada celda de la matriz.

De los valores informados en el cuadro 4 surge que la celda con el mayor porcentaje es siempre la correspondiente a variables fonologicas versus variables lexicas (vocabulario), con valores de 9,8%, 10,5% y 19,6%. Esto es consistente con el hecho de que tales categorias son las que exhiben los mayores coeficientes de correlacion entre sus respectivos indices de complejidad. Tambien puede observarse que la categoria que tiene un mayor porcentaje de coeficientes de correlacion negativos y significativos entre sus propias variables es la sintaxis (6,1%, 12,1% y 21,2%), y esto vale tanto para los coeficientes de correlacion estandar como para los dos tipos calculados de coeficientes de correlacion parcial.

6. Comparacion entre idiomas

Tal como mencionamos en la seccion 2, la literatura sobre efectos de compensacion entre medidas de complejidad interlinguistica esta relacionada con la hipotesis de que todos los idiomas son igualmente complejos. Los datos compilados para este trabajo son una fuente util para estudiar la razonabilidad de dicha hipotesis, la cual puede ser evaluada utilizando distintos tipos de medicion.

La respuesta mas simple que puede darsele a la pregunta sobre la igualdad de la complejidad entre idiomas es rotundamente negativa, ya que en nuestra muestra hay cuatro lenguas (abjasio, burushaski, aleman y koasati) cuyos indices de complejidad total estan por encima de 0,6 puntos, y al mismo tiempo hay otras tres lenguas (tailandes, vietnamita y hmong njua) cuyos indices de complejidad estan por debajo de 0,25 puntos. Mas aun, si dividimos la muestra en dos partes (los 50 idiomas con mayores indices de complejidad total, versus los 50 idiomas con menores indices) y calculamos sus respectivas medias, vemos que el primer grupo tiene un indice promedio igual a 0,5139, en tanto que el segundo tiene un indice promedio de 0,3641. La diferencia entre dichas medidas es por lo tanto igual a 0,1498, y ese numero es estadisticamente distinto de cero para cualquier nivel razonable de probabilidad.

La hipotesis de igual complejidad, sin embargo, tambien se puede analizar de una manera mas moderada. Supongamos, por ejemplo, que encontramos que un idioma es mas complejo que otro en cierta categoria, pero que el segundo es mas complejo que el primero en otra categoria. Podemos entonces decir que esos dos idiomas son igualmente complejos en cierto sentido, ya que la mayor complejidad que uno de ellos exhibe en una dimension esta compensada por la mayor complejidad del otro en una dimension diferente.

En nuestra muestra de 100 lenguas, hay 4950 pares posibles de idiomas. En 3951 de ellos (79,82%) hay algun trade-off como el descripto en el parrafo anterior (es decir, el primer idioma tiene un indice de complejidad mas elevado en una categoria, y el segundo tiene un indice de complejidad mas elevado en otra categoria). Existen sin embargo 307 casos (6,02%) en los cuales un idioma es mas complejo que otro en las cinco categorias en las cuales hemos agrupado las caracteristicas bajo estudio, y otros 692 casos mas (13,98%) en los cuales hay un idioma que es mas complejo que otro en alguna categoria e igualmente complejo en las restantes.

Para algunos idiomas, inclusive, este tipo de situaciones son particularmente comunes. El abjasio, por ejemplo, tiene indices de complejidad mas altos en las cinco categorias que otros 38 idiomas incluidos en la muestra del WALS, y hay 23 idiomas mas que tampoco lo superan en ninguna categoria. En el extremo opuesto, el warao (que es una lengua amerindia aislada que se habla en Venezuela) tiene indices de complejidad menores que otros 34 idiomas en las cinco categorias, y existe ademas un grupo adicional de 23 lenguas a las cuales no supera en complejidad en ninguna categoria.

[GRAFICO 3 OMITIR]

La dominacion en terminos de complejidad de una lengua sobre otra puede apreciarse utilizando diagramas de telarana como el que aparece en el grafico 3. En el hemos dibujado tres poligonos irregulares que representan distintos idiomas (aleman, ingles y bereber) en un espacio pentadimensional que captura la complejidad en cada una de nuestras categorias linguisticas. El area de cada poligono puede ser vista como una medida de la complejidad total del respectivo idioma, y el hecho de que un poligono este totalmente incluido en otro representa una senal de dominacion en terminos de complejidad. Por ejemplo, el pentagono correspondiente al idioma ingles esta incluido dentro del que corresponde al idioma aleman, puesto que el aleman es mas complejo que el ingles en las cinco categorias que estamos analizando. Por el contrario, el pentagono que representa al bereber no esta completamente incluido en ninguno de los otros dos pentagonos (a los cuales tampoco el incluye). Esto se debe a que el bereber es menos complejo que el aleman y que el ingles en lo que se refiere a su sistema verbal y a su vocabulario, pero mas complejo que ellos en su morfologia y en su sintaxis.

El uso de este tipo de comparaciones multidimensionales tambien se puede extender a todo el conjunto de variables definidas en la seccion 3. Si hacemos eso, hallaremos una interpretacion particular bajo la cual nuestra base de datos de 100 idiomas genera un apoyo relativamente fuerte a la hipotesis de igual complejidad. La misma tiene que ver con el siguiente hecho: no hay ninguna lengua en la muestra que sea tan simple como para no tener un valor de complejidad mayor que cualquier otra lengua en por lo menos una caracteristica. De hecho, si chequeamos los 4950 pares de idiomas, veremos que en todos ellos siempre hay al menos una caracteristica para la cual el primer idioma es mas complejo que el segundo, y al menos otra caracteristica para la cual el segundo idioma es mas complejo que el primero.

Consideremos, por ejemplo, uno de los casos mas extremos, que es el que relaciona los idiomas zulu y suajili. El zulu tiene un indice de complejidad total igual a 0,5336, el cual se encuentra bien por encima de la media (ocupa el puesto 17 en el ranking de 100 idiomas). El suajili, en cambio, tiene un indice de complejidad total de 0,4344, algo por debajo de la media (ocupa el puesto 52). El zulu sobrepasa en complejidad al suajili en cuatro de las cinco categorias que hemos definido en el presente trabajo, y en la restante (morfologia) ambos son igualmente complejos. El zulu, ademas, es mas complejo que el suajili en siete caracteristicas diferentes (7A, 13A, 41A, 64A, 65A, 129A y 143F), pero el suajili lo supera en una caracteristica (37A: articulos definidos). Por ende, si pensamos que, por tener articulos definidos, el suajili es capaz de compensar los diferentes aspectos de tipo fonologico, sintactico, verbal y lexico en los cuales el zulu es mas complejo, entonces podemos decir que, en cierto sentido, el suajili y el zulu son igualmente complejos (o, por lo menos, que ninguno de los dos es mas complejo que el otro en todas las posibles dimensiones linguisticas analizadas). (21)

Otro ejemplo particularmente extremo es el que aparece cuando comparamos el idioma abjasio con el hmong njua. El abjasio es mas complejo que el hmong njua en 33 caracteristicas, y ese es el maximo numero de caracteristicas para las cuales una lengua supera a otra en nuestra base de datos. Mas aun, los indices de complejidad del abjasio son mayores que los del hmong njua en las cinco categorias en las cuales hemos dividido la muestra. El hmong njua, sin embargo, es mas complejo que el abjasio en 6 caracteristicas (13A, 41A, 55A, 84A, 92A y 107A). Si esto alcanza para compensar las multiples variables para las cuales el abjasio es mas complejo que el hmong njua (que incluyen estructura silabica, consonantes no habituales, morfologia flexiva, pronombres de cortesia, numero de generos, numero de casos, alineamiento morfosintactico, negacion, casi todas las categorias verbales, etc.) es por lo tanto un asunto relacionado con la importancia relativa que uno le de a esas seis caracteristicas.

7. Consideraciones finales

Las conclusiones que pueden extraerse de los distintos tipos de analisis realizados, utilizando la informacion de la muestra de 100 idiomas del WALS, dependen mucho del aspecto de la comparacion en el cual uno este mas interesado. Por ejemplo, si solo observamos los coeficientes de correlacion estandar de las 60 variables binarias que hemos construido, una conclusion posible es que los efectos de compensacion entre medidas de complejidad tienen poca importancia, ya que solamente unos pocos pares de variables (4,8% del total) generan coeficientes estadisticamente significativos cuyo signo es negativo. La misma conclusion puede obtenerse si miramos los coeficientes de correlacion estandar entre los cinco indices de complejidad calculados. En dicho conjunto hay solamente dos valores negativos (fonologia vs. sintaxis, y fonologia vs. vocabulario) y ninguno de ellos es estadisticamente significativo al 5% de probabilidad.

La importancia relativa de los trade-offs de complejidad, sin embargo, se incrementa considerablemente cuando tomamos en cuenta la posible interdependencia entre las distintas variables linguisticas, y mas aun cuando controlamos por factores de tipo geografico, filogenetico y de tamano poblacional. Utilizando tecnicas de correlacion parcial, que permiten incluir todos esos elementos, hallamos que algunas correlaciones negativas importantes aparecen con cierta claridad, tales como las que relacionan consonantes con vocales, estructura silabica con tono, numero de generos con marcacion del objeto directo, marcacion de la persona verbal con predicacion nominal y espacial, contrastes de distancia en los demostrativos con conjuncion de la frase nominal, etc. Tambien encontramos una correlacion negativa y significativa entre los indices de complejidad fonologica y lexica, y una proporcion relativamente elevada de correlaciones negativas y significativas entre variables de tipo sintactico.

La existencia de efectos de compensacion entre indicadores de complejidad, sin embargo, no implica necesariamente que todos los idiomas sean igualmente complejos en ningun sentido especifico. (22) En la muestra de 100 idiomas del WALS, por ejemplo, hay algunas lenguas que son complejas en una gran cantidad de caracteristicas, en tanto que hay otras que son simples en la mayor parte de ellas. Mas aun, existen muchos pares de idiomas para los cuales una lengua es mas compleja que la otra en las cinco categorias utilizadas para clasificar las distintas caracteristicas idiomaticas (fonologia, morfologia, sintaxis, sistema verbal y vocabulario). Sin embargo, lo que no existe en la muestra bajo estudio es ningun idioma que domine a ningun otro en todas las caracteristicas, y esto implica que cualquiera de dichos idiomas es mas complejo que cualquiera de los 99 restantes en al menos una variable.

De cualquier modo, si quisieramos encontrar un caso, fuera de nuestra muestra de 100 idiomas, para el cual un idioma o dialecto estuviera completamente dominado por otro, la busqueda no deberia ser demasiado dificil. Por ejemplo, es muy probable que un idioma criollo sea mas simple que su lengua madre en varias caracteristicas linguisticas, y que no sea mas complejo que ella en el resto de las caracteristicas. Lo que es probablemente imposible, sin embargo, es encontrar un idioma (criollo o no) que sea tan simple que no supere en complejidad a ningun otro idioma en ninguna caracteristica. El unico caso de este tipo seria una lengua que fuera simple en las 60 caracteristicas bajo analisis, ya que para cada una de dichas caracteristicas existen varios ejemplos de idiomas simples. Dicha lengua, por cierto, no existe en la muestra de 100 idiomas del WALS (en la cual los ejemplos mas simples tienen al menos 14 caracteristicas complejas), y tampoco es probable que exista fuera de dicha muestra. (23)

Si analizamos el problema de esta manera, los efectos de compensacion entre indicadores de complejidad idiomatica deben necesariamente existir, al menos en cierto grado. Una manera de ver eso es pensar en terminos del enfoque propuesto por la "linguistica sinergetica", cuya idea basica es que el lenguaje es un sistema organizado y autorregulado cuyas propiedades provienen de la interaccion de distintos requisitos. (24) Entre ellos pueden mencionarse los requisitos de codificacion (necesidad de proveer expresiones para distintos significados), economia (necesidad de utilizar el menor numero posible de elementos para producir las expresiones deseadas) y estabilidad (necesidad de modificar el idioma lo menos posible para que pueda ser comprendido).

Si utilizamos este enfoque analizar el fenomeno de la complejidad idiomatica, podemos pensar que la misma es buena para satisfacer el requisito de codificacion, pero mala para satisfacer el requisito de economia. Como todo idioma necesita balancear el cumplimiento de ambos requisitos, a fin de funcionar como un medio de comunicacion eficiente, es improbable que haya idiomas demasiado simples o demasiado complejos (o, mas aun, demasiado simples o demasiado complejos en todos sus componentes). Esta seria la principal base teorica para justificar la existencia de efectos de compensacion entre indicadores de complejidad. Sin embargo, la necesidad de estabilidad puede hacer que algunos idiomas se vuelvan mas complejos que otros por razones historicas, ya que los cambios que se producen en un nivel de complejidad no necesariamente generan cambios opuestos en otro nivel (en virtud del costo que los mismos pueden tener en terminos de la comprension de la lengua por parte de personas que vienen utilizandola en su forma previa). Como los idiomas estan sujetos a distintas presiones para ir modificandose (ligadas con su evolucion cultural, tamano de la poblacion, contacto con otros idiomas, etc.), y esto puede implicar procesos de simplificacion o complejizacion, el requisito de estabilidad hace que algunas lenguas se vuelvan mas simples o mas complejas que otras en un numero variable de caracteristicas. (25) Esta fuerza, sin embargo, nunca tendra la capacidad suficiente como para eliminar completamente los efectos de compensacion, ya que eso implicaria una violacion de las reglas que ayudan a satisfacer simultaneamente los requisitos de codificacion y de economia.

Como conclusion general de todo el analisis, por lo tanto, podemos afirmar que nuestro estudio permite visualizar la existencia de efectos de compensacion entre indicadores de complejidad idiomatica, pero tambien permite comprobar que dichos efectos suelen estar ocultos, debido a la interferencia de otros factores linguisticos y extralinguisticos. Sus senales mas evidentes, sin embargo, surgen de considerar los siguientes hechos estilizados:

a) Las correlaciones negativas entre variables de complejidad se incrementan cuando controlamos por el efecto de otras variables;

b) La distribucion de la complejidad total entre idiomas tiene un desvio estandar menor que la distribucion de la complejidad en cualquier componente particular del lenguaje (fonologia, morfologia, sintaxis, sistema verbal o vocabulario); y,

c) Si tomamos una lista lo suficientemente larga de caracteristicas linguisticas, cuya presencia o ausencia pueda interpretarse como un indicador de complejidad, no hay ningun idioma que domine a ningun otro en todas esas caracteristicas (especialmente si comparamos lenguas que no sean demasiado parecidas entre si, como es el caso de las incluidas en la muestra de 100 idiomas del WALS).

Referencias bibliograficas

Coloma, German (2013). Un modelo estadistico de ecuaciones simultaneas sobre la interaccion de variables fonologicas, Documento de Trabajo Nro 519. Buenos Aires, Universidad del CEMA.

Coloma, German (2014). La existencia de correlacion negativa entre distintos aspectos de la complejidad de los idiomas, Documento de Trabajo Nro 536. Buenos Aires, Universidad del CEMA.

Dahl, Osten (2011). Are Small Languages More or Less Complex than Big Ones? Linguistic Typology 15: 171-175.

Dryer, Matthew (2009). Problems Testing Typological Correlations with the Online WALS. Linguistic Typology 13: 121-135.

Dryer, Matthew & Martin Haspelmath (2013). The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology.

Fenk-Oczlon, Gertraud & August Fenk (2008). Complexity Trade-Offs Between the Subsystems of Language. En M. Miestamo, K. Sinnemaki & F. Karlsson (eds.), Language Complexity: Typology, Contact and Change, 43-65. Amsterdam: John Benjamins.

Fenk-Oczlon, Gertraud & August Fenk (2011). Complexity Trade-Offs in Language Do Not Imply an Equal Overall Complexity. En V. Solovyev & V. Polyakov (eds.), Text Processing and Cognitive Techonlogies, 145-148. Kazan: Kazan State University Press.

Joseph, John & Frederick Newmeyer (2012). 'All Languages Are Equally Complex': The Rise and Fall of a Consensus. HistoriographiaLinguistica 39: 341-368.

Kohler, Reinhard (2005). Synergetic Linguistics. En G. Altmann, R. Kohler & R. Piotrowski (eds.), Quantitative Linguistics: An International Handbook, 760-774. Berlin: De Gruyter.

Maddieson, Ian (2007). Issues of Phonological Complexity: Statistical Analysis of the Relationship Between Syllable Structures, Segment Inventories and Tone Contrasts. En M. Sole, P. Beddor & M. Ohala (eds.), Experimental Approaches to Phonology, 93-103. Nueva York: Oxford University Press.

Matasovic, Ranko (2014). Verbal and Adnominal Agreement: Areal Distribution and Typological Correlations. Linguistic Typology 18: 171-214.

McWhorter, John (2001). The World's Simplest Grammars Are Creole Grammars. Linguistic Typology 5: 125-166.

Miestamo, Matti (2008). Grammatical Complexity in a Cross-Linguistic Perspective. En

M. Miestamo, K. Sinnemaki & F. Karlsson (eds.), Language Complexity: Typology, Contact and Change, 23-41. Amsterdam: John Benjamins.

Moran, Steven & Damian Blasi (2014). Cross-Linguistic Comparison of Complexity Measures in Phonological Systems. En F. Newmayer & L. Preston (eds.), Measuring Grammatical Complexity, 217-240. Nueva York: Oxford University Press.

Nettle, Daniel (1995). Segmental Inventory Size, Word Length and Communicative Efficiency. Linguistics 33: 359-367.

Nichols, Johanna (2009). Linguistic Complexity: A Comprehensive Definition and Survey. En G. Sampson, D. Gil & P. Trudgill (eds.), Language Complexity as an Evolving Variable, 110-125. Oxford: Oxford University Press.

Parkvall, Mikael (2008). The Simplicity of Creoles in a Cross-Linguistic Perspective. En M. Miestamo, K. Sinnemaki & F. Karlsson (eds.), Language Complexity: Typology, Contact and Change, 265-285. Amsterdam: John Benjamins.

Prokhorov, A. V. (2002). Partial Correlation Coefficient. En M. Hazewinkel (ed.), Encyclopedia of Mathematics. Nueva York: Springer.

Sampson, Geoffrey (2009). A Linguistic Axiom Challenged. En G. Sampson, D. Gil & P. Trudgill (eds.), Language Complexity as an Evolving Variable, 1-18. Oxford: Oxford University Press.

Shosted, Ryan (2006). Correlating Complexity: A Typological Approach. Linguistic Typology 10: 1-40.

Sinnemaki, Kaius (2008). Complexity Trade-Offs in Core Argument Marking. En M. Miestamo, K. Sinnemaki & F. Karlsson (eds.), Language Complexity: Typology, Contact and Change, 67-88. Amsterdam: John Benjamins.

Trudgill, Peter (2009). Sociolinguistic Typology and Complexification. En G. Sampson, D. Gil & P. Trudgill (eds.), Language Complexity as an Evolving Variable, 98-109. Oxford: Oxford University Press.

Wichmann, Soren, Taraka Rama & Eric Holman (2011). Phonological Diversity, Word Length and Population Sizes Across Languages: The ASJP Evidence. Linguistic Typology 15: 157-177.
Apendice 1: Lista de idiomas en la muestra del WALS

Nro.  Idioma                  Macro-area      Familia

1     Abiasio                 Eurasia         Caucasica Noroccidental
2     Acoma                   Norteamerica    Keresana
3     Alamblak                Papunesia       Sepik
4     Aleman                  Eurasia         Indo-Europea
5     Amele                   Papunesia       Trans-Neoguineana
6     Apurina                 Sudamerica      Arahuaca
7     Arabe (Egipcio)         Eurasia         Afro-Asiatica
8     Arapesh (Montanes)      Papunesia       Kombio
9     Asmat                   Papunesia       Trans-Neoguineana
10    Bagirmi                 Africa          Nilo-Sahara
11    Barasano                South America   Tucanoana
12    Bereber (Marroqui)      Africa          Afro-Asiatica
13    Birmano                 Eurasia         Sino-Tibetana
14    Burushaski              Eurasia         Burushaskiana
15    Canares                 Eurasia         Dravidica
16    Canela-Kraho            Sudamerica      Macro-Ge
17    Chamorro                Papunesia       Austronesia
18    Chukchi                 Eurasia         Chukotkana
19    Coreano                 Eurasia         Coreanica
20    Cree (Praderas)         Norteamerica    Algica
21    Daga                    Papunesia       Dagana
22    Dani (Valle Inferior)   Papunesia       Trans-Neoguineana
23    Espanol                 Eurasia         Indo-Europea
24    Finlandes               Eurasia         Uralica
25    Fiyiano                 Papunesia       Austronesia
26    Frances                 Eurasia         Indo-Europea
27    Georgiano               Eurasia         Kartveliana
28    Gooniyandi              Australia       Bunubana
29    Grebo                   Africa          Niger-Congo
30    Griego (Moderno)        Eurasia         Indo-Europea
31    Groenlandes (Oeste)     Eurasia         Eskimo-Aleutiana
32    Guarani                 Sudamerica      Tupiana
33    Hausa                   Africa          Afro-Asiatica
34    Hebreo (Moderno)        Eurasia         Afro-Asiatica
35    Hindi                   Eurasia         Indo-Europea
36    Hixkaryana              Sudamerica      Caribana
37    Hmong Njua              Eurasia         Hmong-Mien
38    Imonda                  Papunesia       Fronteriza
39    Indonesio               Papunesia       Austronesia
40    Ingles                  Eurasia         Indo-Europea
41    Jacalteco               Norteamerica    Maya
42    Japones                 Eurasia         Japonica
43    Karok                   Norteamerica    Karokiana
44    Kayardild               Australia       Tangkica
45    Kewa                    Papunesia       Trans-Neoguineana
46    Khoekhoe                Africa          Khoisan
47    Kiowa                   Norteamerica    Tanoana
48    Koasati                 Norteamerica    Muskogeana
49    Koyraboro Senni         Africa          Nilo-Sahara
50    Krongo                  Africa          Kadugliana
51    Kutenai                 Norteamerica    Salish
52    Lakhota                 Norteamerica    Siouan
53    Lango                   Africa          Nilo-Sahara
54    Lavukaleve              Papunesia       Papu Oriental
55    Lezguiano               Eurasia         Daguestaniana
56    Luvale                  Africa          Niger-Congo
57    Makah                   Norteamerica    Wakashana
58    Malgache                Africa          Austronesia
59    Mandarin                Eurasia         Sino-Tibetana
60    Mangarrayi              Australia       Mangarrayiana
61    Mapuche                 Sudamerica      Araucana
62    Maricopa                Norteamerica    Hokan
63    Martuthunira            Australia       Pama-Nyungan
64    Maung                   Australia       Iwaidjana
65    Maybrat                 Papunesia       Papu Occidental
66    Meithei                 Eurasia         Sino-Tibetana
67    Mixteco (Chalcatongo)   Norteamerica    Oto-Mangueana
68    Mongol (Khalkha)        Eurasia         Altaica
69    Ngiyambaa               Australia       Pama-Nyungan
70    Oneida                  Norteamerica    Irocuoiana
71    Oromo (Harar)           Africa          Afro-Asiatica
72    Otomi (Mezquital)       Norteamerica    Oto-Mangueana
73    Paiwan                  Papunesia       Austronesia
74    Persa                   Eurasia         Indo-Europea
75    Piraha                  Sudamerica      Mura
76    Quechua (Ecuatoriano)   Sudamerica      Quechuana
77    Rama                    Norteamerica    Chibchana
78    Rapanui                 Papunesia       Austronesia
79    Ruso                    Eurasia         Indo-Europea
80    Sango                   Africa          Niger-Congo
81    Sanuma                  Sudamerica      Yanomana
82    Slave                   Norteamerica    Na-Dene
83    Suajili                 Africa          Niger-Congo
84    Supyire                 Africa          Niger-Congo
85    Tagalo                  Papunesia       Austronesia
86    Tailandes               Eurasia         Tai-Kadai
87    Tiwi                    Australia       Tiwiana
88    Tukang Besi             Papunesia       Austronesia
89    Turco                   Eurasia         Altaica
90    Vasco                   Eurasia         Vasconica
91    Vietnamita              Eurasia         Austro-Asiatica
92    Warao                   Sudamerica      Waraoana
93    Wari                    Sudamerica      Chapacurana
94    Wichita                 Norteamerica    Caddoana
95    Wichi                   Sudamerica      Mataca
96    Yagua                   Sudamerica      Peba-Yaguana
97    Yaqui                   Norteamerica    Uto-Azteca
98    Yoruba                  Africa          Niger-Congo
99    Zoque (Copainala)       Norteamerica    Mixe-Zoque
100   Zulu                    Africa          Niger-Congo

Apendice 2: Lista de variables binarias de complejidad

Nro.    Caracteristica                Compleja (variable = 1) si:

        Fonologia

1A      Inventario de fonemas         Inventario de consonantes >
        consonanticos                 25.

2A      Inventario de tipos           Tipos de vocales > 6.
        vocalicos

4A      Sonoridad de oclusivas y      La sonoridad es distintiva
        fricativas                    en al menos un fonema
                                      oclusivo o fricativo.

6A      Consonantes uvulares          Existe al menos un fonema
                                      consonantico uvular.

7A      Consonantes glotalizadas      Existe al menos un fonema
                                      consonantico glotalizado.

10A     Vocales nasalizadas           La nasalizacion es
                                      distintiva en al menos un
                                      fonema vocalico.

11A     Vocales anteriores            Existe al menos un fonema
        redondeadas                   vocalico anterior
                                      redondeado.

12A     Estructura silabica           La estructura silabica es
                                      compleja.

13A     Tono                          El tono es distintivo.

14A     Posicion del acento           La posicion del acento no
                                      esta fija en una silaba
                                      determinada.

19A     Presencia de consonantes no   Hay al menos una consonante
        habituales                    "no habitual" (labial/
                                      velar, clic, faringea,
                                      /[theta]/).

        Morfologia

20A     Fusion de formantes           El idioma no es "aislante".
        flexivos

22A     Sintesis en la flexion de     Categorias por palabra > 5.
        los verbos

23A     Marcacion del objeto          Existe alguna marcacion del
        directo                       objeto.

26A     Prefijacion y sufijacion en   Existe morfologia flexiva
        la morfologia flexiva         (prefijacion, sufijacion o
                                      ambas).

28A     Sincretismo de casos          Existe marcacion de casos.

29A     Sincretismo en la marcacion   Existe marcacion verbal de
        de la persona o el numero     persona o numero
        en la conjugacion verbal      (sincretica o no
                                      sincretica).

30A     Numero de generos             Numero de generos > 1.

34A     Ocurrencia del plural         Todos los sustantivos
        nominal                       tienen forma plural, y su
                                      uso es obligatorio.

48A     Marcacion de la persona en    Hay algun tipo de marcacion
        adposiciones                  de persona.

49A     Numero de casos               Numero de casos > 1.

51A     Posicion de cliticos y        Existen afijos de caso o
        afijos de caso                cliticos adposicionales.

        Sintaxis

58A     Flexion posesiva              Existe flexion posesiva.
        obligatoria

59A     Clasificacion de los          Existen dos o mas clases de
        posesivos                     clasificadores posesivos.

81A     Orden de sujeto, verbo y      No hay un orden dominante.
        objeto

84A     Orden de objeto, verbo y      No hay un orden dominante.
        complemento oblicuo

92A     Particulas interrogativas     Existen particulas
        polares                       interrogativas polares.

98A     Alineamiento                  El alineamiento no es
        morfosintactico en frases     neutral.
        nominales

100A    Alineamiento                  El alineamiento no es
        morfosintactico en frases     neutral.
        verbales

104A    Orden de los marcadores de    Hay marcadores para el
        persona en los verbos         agente y para el paciente
                                      de los verbos transitivos.

113A    Negacion simetrica y          Hay estructuras distintas
        asimetrica                    para las formas afirmativas
                                      y negativas.

119A    Predicacion nominal y         Hay distintos verbos para
        espacial                      la predicacion nominal y
                                      espacial.

143E    Morfemas negativos            Existen morfemas negativos
        preverbales                   preverbales.

143F    Morfemas negativos            Existen morfemas negativos
        posverbales                   posverbales.

        Sistema verbal

65A     Aspecto perfecto e            Hay marcacion gramatical
        imperfecto                    del aspecto perfecto e
                                      imperfecto.

66A     Tiempo pasado                 Hay marcacion gramatical
                                      del tiempo pasado.

67A     Tiempo futuro                 Hay una forma flexiva del
                                      tiempo futuro.

68A     Tiempos perfectos             Existen tiempos perfectos
                                      diferenciados.

69A     Posicion de los afijos de     Hay formas flexivas para
        tiempo y aspecto              marcar el tiempo o el
                                      aspecto.

70A     Modo imperativo               Hay al menos una forma para
                                      el imperativo de segunda
                                      persona.

73A     Modo optativo                 Hay una forma flexiva del
                                      modo optativo.

77A     Distinciones semanticas de    Existen marcadores
        evidencialidad                gramaticales de
                                      evidencialidad.

79A     Irregularidades               Hay irregularidades
        relacionadas con el tiempo    relacionadas con el tiempo,
        o el aspecto verbal           el aspecto o ambos.

80A     Irregularidades               Los verbos son distintos si
        relacionadas con el numero    la persona es singular o
                                      plural.

107A    Construcciones pasivas        Existen construcciones
                                      pasivas.

108A    Construcciones antipasivas    Existen construcciones
                                      antipasivas (paciente
                                      implicito u oblicuo).

109A    Construcciones aplicativas    Existen construcciones
                                      aplicativas (benefactivas o
                                      no benefactivas).

        Vocabulario

37A     Articulos definidos           Hay articulos definidos.

38A     Articulos indefinidos         Hay articulos indefinidos.

39A     Distincion                    Hay distintos pronombres
        inclusiva/exclusiva en        personales plurales
        pronombres independientes     inclusivos y exclusivos.

40A     Distincion                    Hay distintas formas
        inclusiva/exclusiva en        verbales plurales
        formas verbales               inclusivas y exclusivas.

41A     Contrastes de distancia en    Hay mas de un contraste de
        demostrativos                 distancia.

44A     Distincion de genero en       Existe algun tipo de
        pronombres personales         distincion de genero entre
        independientes                pronombres personales.

45A     Pronombres personales de      Existe algun tipo de
        cortesia                      distincion de cortesia en
                                      pronombres de segunda
                                      persona.

47A     Pronombres reflexivos e       Los intensificadores son
        intensificadores              distintos de los pronombres
                                      reflexivos.

55A     Clasificadores numerales      Existen clasificadores
                                      numerales.

63A     Conjuncion de la frase        Las conjunciones para
        nominal                       frases nominales y
                                      comitativas son diferentes.

64A     Conjuncion nominal y verbal   Las conjunciones para
                                      frases nominales y verbales
                                      son diferentes.

129A    Mano y brazo                  Existen palabras distintas
                                      para "mano" y "brazo".

130A    Dedo y mano                   Existen palabras distintas
                                      para "dedo" y "mano".

Apendice 3: Indices de complejidad

Idioma            Fonologia     Morfolog     Sintaxis

Abjasio              0.6364       0.8182       0.5000
Acoma                0.4545       0.4545       0.8333
Alamblak             0.3636       0.8182       0.5000
Aleman               0.5455       0.8182       0.5000
Amele                0.2727       0.4545       0.6667
Apurina              0.1818       0.7273       0.4167
Arabe                0.5455       0.6364       0.4167
Arapesh              0.1818       0.5455       0.5833
Asmat                0.0000       0.3636       0.5833
Bagirmi              0.5455       0.6364       0.5000
Barasano             0.3636       0.7273       0.5000
Bereber              0.4545       0.9091       0.6667
Birmano              0.4545       0.4545       0.5000
Burushaski           0.5455       1.0000       0.5000
Canares              0.3636       0.7273       0.4167
Canela               0.1818       0.3636       0.4167
Chamorro             0.1818       0.3636       0.3333
Chukchi              0.1818       0.7273       0.6667
Coreano              0.2727       0.5455       0.3333
Cree                 0.0000       0.6364       0.6667
Daga                 0.0909       0.5455       0.4167
Dani                 0.0909       0.7273       0.5833
Espanol              0.2727       0.6364       0.4167
Finlandes            0.2727       0.8182       0.4167
Fiyiano              0.1818       0.4545       0.5833
Frances              0.6364       0.6364       0.3333
Georgiano            0.4545       0.8182       0.3333
Gooniyandi           0.0000       0.5455       0.6667
Grebo                0.5455       0.6364       0.3333
Griego               0.2727       0.8182       0.5000
Groenlandes          0.1818       0.8182       0.5000
Guarani              0.1818       0.4545       0.5833
Hausa                0.4545       0.5455       0.4167
Hebreo               0.2727       0.7273       0.4167
Hindi                0.4545       0.8182       0.4167
Hixkaryana           0.1818       0.5455       0.4167
Hmong Njua           0.3636       0.0000       0.3333
Imonda               0.2727       0.6364       0.5000
Indonesio            0.1818       0.0909       0.3333
Ingles               0.4545       0.7273       0.2500
Jacalteco            0.2727       0.4545       0.4167
Japones              0.3636       0.4545       0.4167
Karok                0.3636       0.6364       0.8333
Kayardild            0.0000       0.5455       0.5000
Kewa                 0.1818       0.6364       0.4167
Khoekhoe             0.2727       0.6364       0.6667
Kiowa                0.4545       0.6364       0.6667
Koasati              0.3636       0.8182       0.7500
Koyraboro            0.1818       0.1818       0.4167
Krongo               0.3636       0.6364       0.4167
Kutenai              0.3636       0.3636       0.5833
Lakhota              0.4545       0.5455       0.5833
Lango                0.3636       0.4545       0.4167
Lavukaleve           0.0909       0.7273       0.5000
Lezguiano            0.6364       0.6364       0.4167
Luvale               0.1818       0.7273       0.5000
Makah                0.5455       0.2727       0.6667
Malgache             0.1818       0.4545       0.3333
Mandarin             0.3636       0.1818       0.3333
Mangarrayi           0.0909       0.8182       0.6667
Mapuche              0.0909       0.6364       0.4167
Maricopa             0.2727       0.7273       0.5000
Martuthunira         0.0000       0.5455       0.3333
Maung                0.0909       0.4545       0.5833
Maybrat              0.0000       0.6364       0.4167
Meithei              0.1818       0.5455       0.4167
Mixteco              0.4545       0.4545       0.2500
Mongol               0.3636       0.5455       0.3333
Ngiyambaa            0.1818       0.5455       0.5833
Oneida               0.2727       0.7273       0.6667
Oromo                0.4545       0.7273       0.4167
Otomi                0.5455       0.4545       0.5000
Paiwan               0.1818       0.3636       0.3333
Persa                0.2727       0.6364       0.4167
Piraha               0.2727       0.4545       0.4167
Quechua              0.4545       0.8182       0.5000
Rama                 0.1818       0.4545       0.5833
Rapanui              0.0000       0.1818       0.4167
Ruso                 0.3636       0.8182       0.4167
Sango                0.6364       0.2727       0.2500
Sanuma               0.1818       0.4545       0.3333
Slave                0.5455       0.6364       0.5000
Suajili              0.2727       0.6364       0.4167
Supyire              0.3636       0.2727       0.4167
Tagalo               0.0909       0.2727       0.2500
Tailandes            0.2727       0.0000       0.2500
Tiwi                 0.0000       0.4545       0.6667
Tukang Besi          0.0909       0.2727       0.5833
Turco                0.3636       0.8182       0.4167
Vasco                0.2727       0.7273       0.5833
Vietnamita           0.3636       0.0000       0.2500
Warao                0.0909       0.4545       0.3333
Wari                 0.2727       0.3636       0.4167
Wichita              0.1818       0.5455       0.5000
Wichi                0.1818       0.3636       0.7500
Yagua                0.1818       0.5455       0.5000
Yaqui                0.1818       0.6364       0.4167
Yoruba               0.4545       0.2727       0.2500
Zoque                0.0909       0.8182       0.5833
Zulu                 0.4545       0.6364       0.5000
Maximo               0.6364       1.0000       0.8333
Minimo               0.0000       0.0000       0.2500
Promedio             0.2882       0.5573       0.4742
Desvio Std.          0.1685       0.2078       0.1317

Idioma               Verbos      Vocabul        Total

Abjasio              0.7692       0.6923       0.6832
Acoma                0.3846       0.2308       0.4716
Alamblak             0.5385       0.3846       0.5210
Aleman               0.5385       0.6154       0.6035
Amele                0.4615       0.3077       0.4326
Apurina              0.3846       0.3077       0.4036
Arabe                0.4615       0.3077       0.4735
Arapesh              0.3077       0.3846       0.4006
Asmat                0.5385       0.3846       0.3740
Bagirmi              0.1538       0.3077       0.4287
Barasano             0.3846       0.6923       0.5336
Bereber              0.3077       0.3846       0.5445
Birmano              0.1538       0.4615       0.4049
Burushaski           0.7692       0.4615       0.6552
Canares              0.6923       0.5385       0.5477
Canela               0.3077       0.3077       0.3155
Chamorro             0.4615       0.3846       0.3450
Chukchi              0.3077       0.3077       0.4382
Coreano              0.4615       0.6154       0.4457
Cree                 0.3077       0.6923       0.4606
Daga                 0.3077       0.2308       0.3183
Dani                 0.5385       0.3077       0.4495
Espanol              0.6154       0.6923       0.5267
Finlandes            0.4615       0.3077       0.4554
Fiyiano              0.3077       0.5385       0.4132
Frances              0.6923       0.6154       0.5828
Georgiano            0.7692       0.3077       0.5366
Gooniyandi           0.3846       0.3846       0.3963
Grebo                0.6154       0.2308       0.4723
Griego               0.5385       0.6923       0.5643
Groenlandes          0.5385       0.3077       0.4692
Guarani              0.3846       0.6154       0.4439
Hausa                0.2308       0.4615       0.4218
Hebreo               0.4615       0.4615       0.4679
Hindi                0.6154       0.2308       0.5071
Hixkaryana           0.5385       0.5385       0.4442
Hmong Njua           0.0769       0.3846       0.2317
Imonda               0.6154       0.3077       0.4664
Indonesio            0.3077       0.4615       0.2751
Ingles               0.3846       0.4615       0.4556
Jacalteco            0.5385       0.3846       0.4134
Japones              0.3846       0.5385       0.4316
Karok                0.6154       0.3846       0.5667
Kayardild            0.3846       0.3846       0.3629
Kewa                 0.6154       0.3077       0.4316
Khoekhoe             0.4615       0.6154       0.5305
Kiowa                0.5385       0.3846       0.5361
Koasati              0.5385       0.5385       0.6017
Koyraboro            0.3846       0.3077       0.2945
Krongo               0.6154       0.4615       0.4987
Kutenai              0.3077       0.3846       0.4006
Lakhota              0.2308       0.5385       0.4705
Lango                0.3846       0.3077       0.3854
Lavukaleve           0.3077       0.6154       0.4483
Lezguiano            0.6923       0.3077       0.5379
Luvale               0.4615       0.5385       0.4818
Makah                0.3077       0.5385       0.4662
Malgache             0.3846       0.4615       0.3632
Mandarin             0.2308       0.6154       0.3450
Mangarrayi           0.3846       0.6923       0.5305
Mapuche              0.3077       0.4615       0.3826
Maricopa             0.6154       0.3077       0.4846
Martuthunira         0.4615       0.3846       0.3450
Maung                0.4615       0.4615       0.4104
Maybrat              0.0769       0.3846       0.3029
Meithei              0.4615       0.5385       0.4288
Mixteco              0.3846       0.1538       0.3395
Mongol               0.5385       0.2308       0.4023
Ngiyambaa            0.3846       0.3077       0.4006
Oneida               0.5385       0.4615       0.5333
Oromo                0.4615       0.4615       0.5043
Otomi                0.5385       0.3077       0.4692
Paiwan               0.4615       0.4615       0.3604
Persa                0.5385       0.5385       0.4805
Piraha               0.2308       0.2308       0.3211
Quechua              0.4615       0.3846       0.5238
Rama                 0.3846       0.5385       0.4286
Rapanui              0.1538       0.5385       0.2582
Ruso                 0.4615       0.3846       0.4889
Sango                0.0000       0.2308       0.2780
Sanuma               0.3077       0.5385       0.3632
Slave                0.6923       0.4615       0.5671
Suajili              0.5385       0.3077       0.4344
Supyire              0.4615       0.4615       0.3952
Tagalo               0.5385       0.6154       0.3535
Tailandes            0.1538       0.4615       0.2276
Tiwi                 0.3846       0.3846       0.3781
Tukang Besi          0.4615       0.3846       0.3586
Turco                0.6154       0.4615       0.5351
Vasco                0.7692       0.6154       0.5936
Vietnamita           0.1538       0.4615       0.2458
Warao                0.3846       0.2308       0.2988
Wari                 0.1538       0.5385       0.3491
Wichita              0.6923       0.4615       0.4762
Wichi                0.3077       0.5385       0.4283
Yagua                0.3077       0.4615       0.3993
Yaqui                0.6923       0.4615       0.4777
Yoruba               0.0769       0.3846       0.2878
Zoque                0.6923       0.6923       0.5754
Zulu                 0.6154       0.4615       0.5336
Maximo               0.7692       0.6923       0.6832
Minimo               0.0000       0.1538       0.2276
Promedio             0.4377       0.4377       0.4390
Desvio Std.          0.1717       0.1311       0.0942


(1) La lista completa de idiomas esta reproducida en el apendice 1.

(2) La lista completa de variables esta reproducida en el apendice 2.

(3) Esta definicion se relaciona con lo que algunos autores denominan "complejidad absoluta", que se define como "el numero de partes de un sistema". Sobre este punto, vease Miestamo (2008).

(4) Se denomina "idioma criollo" a una lengua natural que ha surgido como una version simplificada de otra lengua natural, pero que luego de varias generaciones ha ganado autonomia respecto de aquella.

(5) Para una resena de esta literatura, vease Sampson (2009) y Joseph & Newmeyer (2012).

(6) Sobre este tema, vease tambien Coloma (2014).

(7) Sobre este tema, vease tambien Coloma (2013).

(8) Para saber que caracteristica pertenece a que categoria, vease el apendice 2.

(9) Uno de dichos idiomas es el frances, que usa ese tipo de vocales en palabras como "sur", "peu" y "soeur".

(10) La significacion estadistica quiere decir que no es probable que el verdadero valor de un coeficiente sea cero. Para este coeficiente de correlacion en particular, la probabilidad de que el mismo sea cero puede estimarse como igual a 0,07%. Para dos variables cualesquiera, cuya correlacion se calcule usando 100 observaciones, el coeficiente de correlacion es estadisticamente significativo a un nivel de probabilidad del 5% (es decir, la probabilidad de que la verdadera correlacion sea cero es menor que 5%) si el coeficiente es mayor que 0,2 en valor absoluto.

(11) El numero de coeficientes de correlacion positivos y significativos tambien es relativamente bajo (186 casos, o sea el 10,5% de todos los coeficientes calculados).

(12) Ese seria, por ejemplo, el caso del ingles, que usa el mismo verbo (to be) para ambas situaciones.

(13) Una buena explicacion de esa desventaja, en el contexto de las correlaciones que se obtienen usando variables tipologicas tomadas del WALS, es la que aparece en Dryer (2009).

(14) Para una explicacion mas completa del concepto de correlacion parcial, vease Prokhorov (2002).

(15) La sexta macro-area definida en el WALS es Eurasia (29 idiomas), la cual funciona en nuestro analisis estadistico como "grupo de control" (default group).

(16) Sobre este tema, vease Dahl (2011).

(17) Estos numeros son los que corresponden a los coeficientes de correlacion parcial entre las 60 variables linguisticas originales. El procedimiento de calculo genera tambien otros 786 coeficientes (que surgen de incluir las 12 nuevas variables), cuyos valores no pueden ser comparados con los resultados previos.

(18) Esto ultimo es parecido a lo que hace Parkvall (2008), quien tambien utiliza mayoritariamente informacion del WALS (en su caso, de una edicion anterior) y la complementa con otras fuentes. El indice creado por Parkvall es un promedio de 47 variables, y tambien se mueve en el rango entre 0 y 1.

(19) En esas categorias, el abjasio comparte el primer puesto con otros idiomas, tales como el frances, el lezguiano y el sango (fonologia), el burushaski, el georgiano y el vasco (sistema verbal), y el barasano, el espanol y el zoque (vocabulario).

(20) La lista completa de indices esta reproducida en el apendice 3.

(21) El suajili y el zulu son tambien idiomas que pertenecen a la misma sub-familia (bantu) y, quizas por eso, comparten un gran numero de caracteristicas: tienen el mismo valor en 52 de las 60 variables binarias definidas en el presente trabajo. El caso con mayor superposicion de este tipo es el que relaciona al vietnamita y el tailandes, que no tienen un origen comun pero si pertenecen a la misma area linguistica. Estas dos lenguas solo difieren en las caracteristicas 7A y 37A (en las cuales el vietnamita el mas complejo) y en la caracteristica 129A (en la cual el tailandes es mas complejo).

(22) Sobre este tema, vease Fenk-Oczlon & Fenk (2011).

(23) El extremo opuesto (es decir, una lengua que sea compleja en las 60 caracteristicas analizadas) es tambien igualmente improbable.

(24) Para una buena resena de esta literatura, vease Kohler (2005).

(25) Este es el argumento basico de una rama de la literatura que relaciona la complejidad idiomatica con factores sociolinguisticos. Vease, por ejemplo, Trudgill (2009).

German Coloma

* Universidad del CEMA; Av. Cordoba 374, Buenos Aires, C1054AAP, Argentina. Telefono: 6314-3000. Correo electronico: gcoloma@cema.edu.ar. Agradezco los comentarios de Damian Blasi, Guiomar Ciapuscio, Veronica Nercesian y Frans Plank a una version anterior del presente trabajo. Las opiniones expresadas en esta publicacion son las del autor y no necesariamente las de la Universidad del CEMA.
Cuadro 1: Tabla de contingencia entre
estructura silabica y tono

Estructura         No
silabica / Tono   Tonal   Tonal   Total

Simple              39      29      68
Compleja            29       3      32
Total               68      32     100

Cuadro 2: Coeficientes de correlacion entre variables fonologicas

Caracteristica                    1A        2A        12A      13A

Correlacion estandar
1A: Consonantes                 1.0000
2A: Tipos vocalicos             -0.1622   1.0000
12A: Estructura silabica        0.1485    0.0161    1.0000
13A: Tono                       0.0990    0.1666    -0.3327   1.0000

Correlacion parcial (caso 1)
1A: Consonantes                 1.0000
2A: Tipos vocalicos             -0.3163   1.0000
12A: Estructura silabica        -0.0025   0.2122    1.0000
13A: Tono                       -0.0944   -0.0372   -0.3180   1.0000

Correlacion parcial (caso 2)
1A: Consonantes                 1.0000
2A: Tipos vocalicos             -0.4108   1.0000
12A: Estructura silabica        -0.0019   0.1693    1.0000
13A: Tono                       -0.3424   -0.1763   -0.2653   1.0000

Cuadro 3: Coeficientes de correlacion entre indices de complejidad

Indice de complejidad           Fonolog   Morfolog   Sintaxis

Correlacion estandar
  Fonologia                     1.0000
  Morfologia                    0.1688     1.0000
  Sintaxis                      -0.1370    0.2908     1.0000
  Sistema verbal                0.1618     0.5721     0.1271
  Vocabulario                   -0.1079    0.0857     0.1365
Correlacion parcial (caso 1)
  Fonologia                     1.0000
  Morfologia                    0.1458     1.0000
  Sintaxis                      -0.1814    0.2848     1.0000
  Sistema verbal                0.0793     0.5432    -0.0415
  Vocabulario                   -0.1092    0.0213     0.0976
Correlacion parcial (caso 2)
  Fonologia                     1.0000
  Morfologia                    0.0169     1.0000
  Sintaxis                      -0.0142    0.2431     1.0000
  Sistema verbal                0.0575     0.4112    -0.0905
  Vocabulario                   -0.2026    0.0687     0.2433

Indice de complejidad           Verbos    Vocabul

Correlacion estandar
  Fonologia
  Morfologia
  Sintaxis
  Sistema verbal                1.0000
  Vocabulario                   0.0940     1.0000
Correlacion parcial (caso 1)
  Fonologia
  Morfologia
  Sintaxis
  Sistema verbal                1.0000
  Vocabulario                   0.0695     1.0000
Correlacion parcial (caso 2)
  Fonologia
  Morfologia
  Sintaxis
  Sistema verbal                1.0000
  Vocabulario                   0.0908     1.0000

Cuadro 4: Proporcion de coeficientes de correlacion
negativos y significativos

Categoria                       Fonolog   Morfolog   Sintaxis

Correlacion estandar
  Fonologia                       3.6%
  Morfologia                      1.7%       1.8%
  Sintaxis                        8.3%       6.1%       6.1%
  Sistema verbal                  2.8%       1.4%       5.1%
  Vocabulario                     9.8%       3.5%       5.1%
Correlacion parcial (caso 1)
  Fonologia                      10.9%
  Morfologia                      7.4%       9.1%
  Sintaxis                        8.3%       5.3%      12.1%
  Sistema verbal                  7.0%      10.5%       8.3%
  Vocabulario                    10.5%      10.5%       5.8%
Correlacion parcial (caso 2)
  Fonologia                      16.4%
  Morfologia                     10.7%      16.4%
  Sintaxis                       11.4%      12.9%      21.2%
  Sistema verbal                 11.2%      16.8%      16.7%
  Vocabulario                    19.6%       7.7%      12.8%

Categoria                       Verbos    Vocabul

Correlacion estandar
  Fonologia
  Morfologia
  Sintaxis
  Sistema verbal                  2.6%
  Vocabulario                     5.9%       5.1%
Correlacion parcial (caso 1)
  Fonologia
  Morfologia
  Sintaxis
  Sistema verbal                 10.3%
  Vocabulario                    11.2%       7.7%
Correlacion parcial (caso 2)
  Fonologia
  Morfologia
  Sintaxis
  Sistema verbal                 12.8%
  Vocabulario                    13.6%      14.1%
COPYRIGHT 2015 Universidad del CEMA, Argentina
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2015 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Title Annotation:linguistica y estadistica
Author:Coloma, German
Publication:Serie Documentos de Trabajo
Article Type:Ensayo critico
Date:Oct 1, 2015
Words:13566
Previous Article:La "economia politica" de la regulacion del uso del suelo agricola.
Next Article:Optimal relevance in imperfect information games.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters