Printer Friendly

Un modelo estadistico de ecuaciones simultaneas sobre la interaccion de variables fonologicas.

1. Introduccion

El objetivo de este trabajo es proponer un metodo para analizar bases de datos linguisticas utilizando analisis de regresion estadistico. Este metodo se basa en correr sistemas de ecuaciones simultaneas, y su proposito es encontrar una serie de relaciones entre distintas variables que sean parte de un mismo fenomeno linguistico.

Para ilustrar este metodo hemos construido una base de datos de 100 idiomas distintos con cuatro grandes caracteristicas fonologicas (numero de fonemas consonanticos, numero de fonemas vocalicos, distincion por acento y distincion por tono). Despues de calcular los principales estadisticos descriptivos de dicha base de datos (incluyendo los coeficientes de correlacion entre las variables), le aplicamos el metodo de ecuaciones simultaneas, para ver si las relaciones halladas cuando cada variable se correlacionaba con otra permanecian si uno consideraba las posibles interacciones entre las cuatro variables. Despues de eso, refinamos el metodo en busca de posibles "relaciones estructurales" entre las variables, usando un sistema recursivo en el cual cada variable influencia a otra y es a su vez influenciada por una tercera variable.

El resto del articulo se organiza del siguiente modo. En la seccion 2 explicamos la logica basica de la regresion de sistemas de ecuaciones simultaneas, y su posible uso para analizar bases de datos linguisticos. En la seccion 3 resenamos parte de la literatura sobre analisis multilinguisticos de variables fonologicas, y resumimos los principales resultados que dicha literatura ha obtenido utilizando distintas metodologias. En la seccion 4 describimos la base de datos construida por nosotros y calculamos sus principales estadisticos descriptivos. En la seccion 5 aplicamos el metodo de regresion de ecuaciones simultaneas a la base de datos, y encontramos algunas relaciones que son consistentes con los estadisticos descriptivos de la seccion 4. Tambien construimos un sistema recursivo de ecuaciones, el cual nos sirve para resolver una contradiccion que tiene que ver con el signo de algunas correlaciones halladas previamente, y que resultaban contraintuitivas. Finalmente, en la seccion 6 elaboramos algunas conclusiones acerca de todo el trabajo.

2. El metodo de regresion con ecuaciones simultaneas

En el campo de la estadistica, una regresion es un metodo por el cual el comportamiento de una variable se compara con el de una o mas variables adicionales para detectar si existen relaciones entre ellas que ayuden a explicar un proceso natural que ligue las variables bajo analisis. Desarrollado originalmente para aplicaciones en las ciencias biologicas, el analisis de regresion ha sido utilizado de manera muy frecuente desde hace muchos anos en relacion a innumerables problemas de las ciencias fisicas y sociales, asi como tambien en distintas ramas de la linguistica tales como fonetica, fonologia, sociolinguistica, etc (1).

La idea basica de una regresion es analizar varias variables que se supone que, de manera conjunta, explican determinado fenomeno, y ver si esa explicacion puede ser medida a traves de coeficientes que relacionan esas variables con otra que refleje la intensidad del fenomeno bajo estudio. Supongamos, por ejemplo, que queremos testear una teoria que postula que el numero de fonemas consonanticos de un idioma esta inversamente relacionado en el numero de fonemas vocalicos. Supongamos que nuestra teoria predice ademas que el numero de fonemas consonanticos tambien se podria relacionar con otras variables adicionales, como pueden ser su estructura en terminos de acento y de tono. En un caso como ese, podriamos correr una regresion con la siguiente forma lineal:

Consonantes = c(1) + c(2) x Vocales + c(3) x Acento + c(4) x Tono (1);

donde Consonantes es la cantidad de fonemas consonanticos que corresponde a cada una de las lenguas que estamos analizando, Vocales es la cantidad de fonemas vocalicos, Acento es una variable categorica cuyo valor es igual a uno si el idioma usa al acento como un modo de distinguir entre palabras, y Tono es otra variable categorica cuyo valor es igual a uno si el idioma es tonal (e igual a cero en caso contrario). En un contexto como ese, c(1), c(2), c(3) y c(4) son los coeficientes a estimar en el analisis de regresion, y sus valores son las mejores aproximaciones lineales para las relaciones que existen entre la variable Consonantes y las tres variables explicativas postuladas.

El tipico uso del analisis de regresion, ejemplificado mediante la ecuacion (1), ocurre cuando uno postula ciertas relaciones que van en una "direccion particular", es decir, cuando se cree que varias variables (en este caso, Vocales, Acento y Tono) tienen algun poder explicativo acerca del comportamiento de otra variable (en este caso, Consonantes). En muchas situaciones, sin embargo, uno podria pensar que, asi como las variables Vocales, Acento y Tono pueden tener algun poder para explicar parcialmente el numero de fonemas consonanticos de un idioma, tambien puede haber alguna relacion inversa que vaya desde Consonantes hacia variables como Vocales, Acento y Tono. En esas situaciones, la metodologia ordinaria de correr regresiones tales como la que aparece en la ecuacion (1) puede perder eficacia, ya que ahora no estamos seguros si la relacion que encontremos implicara que Vocales, Acento y Tono son variables que explican el comportamiento de la variable Consonantes, o si en realidad es esta ultima variable la que tiene algo que ver con una posible explicacion relacionada con la ocurrencia de fenomenos tales como el numero de fonemas vocalicos o la distincion entre palabras segun su acentuacion o su tono en cierta muestra de idiomas.

Una forma de encarar problemas como ese es chequear primero si existe alguna clase de relacion entre las variables involucradas, y la forma mas simple de hacer eso es calcular los llamados "coeficientes de correlacion" entre las variables. Dichos coeficientes son por definicion simetricos (o sea, la correlacion entre Consonantes y Vocales es la misma que la correlacion entre Vocales y Consonantes) y en su calculo no se utiliza ninguna informacion que tenga que ver con la relacion entre cada par de variables y una o mas variables diferentes. Los coeficientes de correlacion, sin embargo, pueden calcularse para cualquier par de variables respecto del cual tengamos informacion (asi, en el ejemplo previo se pueden calcular seis coeficientes distintos, que corresponden a los pares Consonantes/Vocales, Consonantes/Acento, Vocales/Acento, Vocales/Tono, Consonantes/Tono y Acento/Tono).

El analisis de correlacion, sin embargo, tiene una deficiencia importante en comparacion con el analisis de regresion, ya que no permite controlar por factores relacionados con la interaccion de varias variables. Una forma de resolver este problema es correr una regresion con mas de una ecuacion al mismo tiempo. Esta es precisamente la idea del metodo de regresion de ecuaciones simultaneas, que busca calcular un conjunto de coeficientes que correspondan a varias ecuaciones que se corren al mismo tiempo (2).

En este trabajo mostraremos varios resultados relacionados con las interacciones entre las cuatro variables fonologicas definidas en los parrafos anteriores. Una posibilidad para capturar las relaciones entre esas variables es correr un sistema de ecuaciones del siguiente tipo:

Consonantes = c(11) + c(2) x Vocales + c(3) x Acento + c(4) x Tono (2);

Vocales = c(21) + c(12) x Consonantes + c(5) x Acento + c(6) x Tono (3);

Acento = c(31) + c(13) x Consonantes + (15) x Vocales + c(7) x Tono (4);

Tono = c(41) + c(14) x Consonantes + c(16) x Vocales + c(17) x Acento (5);

donde los coeficientes a estimar son c(11), c(21), c(31) y c(41) (que son las constantes de las cuatro ecuaciones), y c(2), c(3), c(4), c(5), c(6), c(7), c(12), c(13), c(14), c(15), c(16) y c(17) (que son las "pendientes" de cada variable respecto de cada una de las otras variables incluidas en el analisis de regresion).

El uso de ecuaciones simultaneas permite la introduccion de varios procedimientos que el analisis de regresion uniecuacional no puede utilizar. El mas importante es el uso de coeficientes de correlacion entre los residuos de las ecuaciones. Esto implica que, cuando estimamos una ecuacion, estamos al mismo tiempo utilizando informacion de los resultados que obtenemos al estimar las otras ecuaciones, y dicha informacion puede ser util para mejorar la precision y la eficiencia estadistica de los coeficientes a estimar (3).

Otra ventaja de usar ecuaciones simultaneas es la posibilidad de introducir relaciones entre los coeficientes de distintas ecuaciones. Supongamos, por ejemplo, que creemos que las relaciones entre las variables son tales que el cambio en una variable inducido por otra tiene que ser igual a la inversa del cambio en la segunda variable inducido por la primera (este podria ser el caso si estamos estimando "ecuaciones de equilibrio" en las que, por ejemplo, el efecto de Consonantes sobre Vocales es igual a la inversa del efecto de Vocales sobre Consonantes). En ese caso, nuestro sistema podria modificarse del siguiente modo:

Consonantes = c(11) + c(2) x Vocales + c(3) x Acento + c(4) x Tono (6) ;

Vocales = c(21) + (1/c(2)) x Consonantes + c(5) x Acento + c(6) x Tono (7);

Acento = c(31) + (1/c(3)) x Consonantes + (1/c(5)) x Vocales + c(7) x Tono (8);

Tono = c(41) + (1/c(4)) x Consonantes + (1/c(6)) x Vocales + (1/c(7)) x Acento (9);

lo cual equivale a correr el sistema descripto por las ecuaciones (2)/(5) imponiendole las restricciones "c(12) = 1/c(2)", "c(13) = 1/c(3)", "c(14) = 1/c(4)", "c(15) = 1/c(5)", "c(16) = 1/c(6)" y "c(17) = 1/c(7)".

El uso de ecuaciones simultaneas tambien es bueno para incorporar una caracteristica que es comun en muchos problemas estadisticos, que es la "endogeneidad" de ciertas variables. Esto tiene que ver con que, si una variable (por ejemplo, Consonantes) depende del valor de otra variable (por ejemplo, Vocales) pero tambien ocurre que la segunda variable depende de la primera, entonces ninguna de ellas esta determinada verdaderamente por la otra, sino que ambas estan determinadas simultaneamente por un proceso gobernado por un entorno preestablecido. Para incorporar estos problemas de endogeneidad, tenemos que usar "variables instrumentales". Estas son variables que se supone que estan relacionadas con las variables endogenas bajo analisis, pero que tienen la propiedad de estar determinadas exogenamente (es decir, fuera del problema estadistico que estamos analizando). En el caso de las cuatro variables fonologicas de los sistemas (2)/(5) y (6)/(9), podemos pensar que Consonantes, Vocales, Acento y Tono son todas variables endogenas, y podemos "instrumentarlas" utilizando variables relacionadas con la inclusion de los distintos idiomas de nuestra muestra en diferentes familias o areas geograficas. Esas variables podrian ser variables categoricas que tomaran un valor igual a uno cuando cierta observacion pertenece a un grupo particular (por ejemplo, cuando corresponde a un idioma sino-tibetano, o a un idioma sudamericano) y un valor igual a cero en caso contrario. Con la inclusion de estas variables, cada variable endogena queda reemplazada por una funcion de un conjunto de variables exogenas.

El procedimiento descripto en el parrafo anterior, conocido como "estimacion en dos etapas", puede combinarse con el uso de coeficientes de correlacion entre los residuos de las ecuaciones. Si hacemos eso, agregamos una etapa adicional a la estrategia de estimacion, y por eso es que el procedimiento como un todo se conoce como "estimacion en tres etapas" (4).

La endogeneidad, sin embargo, tambien puede estar ligada a procesos que relacionen variables de un modo mas particular o "estructural". Podria ser posible que una variable (por ejemplo, el numero de fonemas consonanticos) tuviera un papel en la determinacion del valor de otra variable (por ejemplo, el numero de fonemas vocalicos), pero que esa segunda variable fuera a su vez el principal factor explicativo de una tercera variable (por ejemplo, la probabilidad de que el tono sea un elemento distintivo en determinada lengua). El proceso podria inclusive continuar, ya que la tercera variable podria ser parte de la explicacion del nivel de una cuarta variable (por ejemplo, la probabilidad de que el acento sea un elemento distintivo), y esa variable podria por su parte influir en el nivel del primer fenomeno analizado (que en nuestro ejemplo es el numero de fonemas consonanticos). Una situacion como esa genera una especie de "sistema recursivo", en el cual las distintas variables endogenas se relacionan de cierta manera especifica. El caso descripto mas arriba, por ejemplo, puede representarse a traves del siguiente conjunto de ecuaciones:

Consonantes = c(11) + c(2) x Acento (10);

Vocales = c(21) + c(3) x Consonantes (11);

Acento = c(31) + c(4) x Tono (12);

Tono = c(41) + c(5) x Vocales (13).

Por supuesto, el sistema formado por las ecuaciones (10)/(13) es solo uno de los muchos ejemplos posibles de sistemas recursivos que pueden construirse utilizando las cuatro variables analizadas en nuestro ejemplo. Seis de esos sistemas tienen las mismas propiedades estructurales (o sea, cada variable como determinante de una segunda, y determinada a su vez por una tercera, sin repeticiones).

3. El analisis multilinguistico de variables fonologicas

El problema descripto en la seccion anterior para ilustrar el posible uso de un metodo de regresion de ecuaciones simultaneas es un ejemplo de analisis multilinguistico de variables fonologicas. Que nosotros sepamos, la literatura sobre estos temas no ha utilizado dicho metodo. Resulta sin embargo util resenar algunas de las contribuciones de esa literatura, a fin de apreciar los principales resultados que podrian compararse con los que obtendremos en el presente trabajo.

El enfoque cuantitativo de la tipologia fonologica se remonta por lo menos a un articulo de Kramsky (1959), que fue uno de los primeros en analizar una muestra de idiomas para encontrar relaciones entre el numero de vocales, el numero de consonantes y otras variables tales como el numero de fonemas por palabra y la frecuencia relativa de los distintos tipos de sonido. Ese trabajo fue tambien el primero en hallar cierta correlacion negativa entre distintos rasgos fonologicos (que en ese caso fueron la ocurrencia de consonantes oclusivas y la ocurrencia de consonantes liquidas).

La mayoria de las contribuciones de los analisis multilinguisticos de variables fonologicas se han concentrado desde ese momento en descubrir "principios fonologicos universales" de los idiomas. En lo que respecta a los sistemas vocalicos, por ejemplo, existen muchos trabajos que respaldan la validez de la llamada "teoria de la dispersion", segun la cual los sonidos vocalicos tienden a localizarse a la maxima distancia posible unos de otros (5). En lo que respecta a los sistemas consonanticos, en cambio, la regularidad mas importante parece ser el hecho de que los sistemas con pocas consonantes exhiben solo "sonidos basicos", y que las articulaciones mas elaboradas y complejas solo aparecen cuando el numero de fonemas consonanticos de un idioma se vuelve mas grande (6).

El estudio estadistico de principios fonologicos universales tambien se ha enfocado en algunas relaciones entre las consonantes y las vocales. Marsico y otros (2004), por ejemplo, han explorado la existencia de "redundancia" en los sistemas fonologicos, encontrando que los inventarios foneticos tienden a maximizar el uso de un conjunto relativamente pequeno de rasgos distintivos sin necesidad de hacer distinciones innecesarias entre los sonidos. Mas aun, Coupe, Marsico y Pellegrino (2009) hallaron que no habia correlacion entre la complejidad de los sistemas consonanticos y la complejidad de los sistemas vocalicos de las distintas lenguas, pero si encontraron una relacion entre dichas medidas de complejidad fonologica y una serie de factores geograficos.

Los factores geograficos tambien aparecen de manera muy preponderante en la literatura sobre la relacion entre complejidad fonologica (medida a traves de un indice de fonemas vocalicos, fonemas consonanticos y estructura tonal) y la distancia a un punto en el cual supuestamente se produjo el origen del habla humana. Esta literatura, que comenzo con el trabajo de Atkinson (2011), ha producido una implicancia muy fuerte, relacionada con la posible aparicion del lenguaje en el sudoeste de Africa, y genero tambien un intenso debate entre especialistas en tipologia cuantitativa. Dicho debate sirvio para arrojar luz sobre posibles relaciones entre otras variables (tales como el numero de fonemas y el tamano de la poblacion, la complejidad fonologica y la cantidad de fonemas por palabra, etc) (7).

La tipologia cuantitativa tambien ha estudiado la relacion entre el acento y el tono. Hyman (2009), por ejemplo, encontro que los idiomas con un "sistema tonal" pueden separarse de manera estadisticamente significativa de los idiomas con un "sistema de distincion por el acento", y que el resto de los idiomas no incluidos en ninguna de las dos categorias puede verse como una mezcla de esos dos sistemas canonicos. Maddieson (2007), por otro lado, calculo los indices de correlacion entre numero de consonantes y numero de vocales respecto de una medida de la complejidad del sistema tonal de las lenguas, pero no encontro relaciones significativas entre dichas variables.

La contribucion de Maddieson tambien se enfoco en la posible correlacion entre variables fonologicas basicas (consonantes, vocales, tono) y medidas de la complejidad de la estructura silabica de los idiomas, encontrando una correlacion positiva entre el numero de fonemas consonanticos y la complejidad silabica, y una correlacion negativa entre la complejidad silabica y la complejidad tonal. Esta ultima correlacion puede verse como un signo de la existencia de posibles "fenomenos compensatorios", a traves de los cuales la complejidad en un subsistema del lenguaje deberia estar compensada por la simplicidad en otro subsistema. Estos fenomenos compensatorios han sido tambien explorados en estudios multilinguisticos que utilizan otras variables ademas de las puramente fonologicas. Fenk-Oczlon y Fenk (2004), por ejemplo, han hallado relaciones negativas entre el numero de fonemas por silaba y el numero de silabas por palabra, y entre el numero de silabas por palabra y el numero de palabras por enunciado. Shosted (2006), en cambio, no encontro ninguna relacion clara entre la complejidad fonologica y morfologica de los idiomas que analizo, en el marco de un estudio en el cual la complejidad fonologica esta medida a traves del numero de fonemas por silaba y la complejidad morfologica esta medida a traves del grado en el cual los verbos aparecen marcados por distintos tipos de inflexion (8).

Aunque los coeficientes de correlacion puedan ser utiles como herramientas descriptivas y como signos de posibles relaciones estructurales entre componentes de los sistemas linguisticos, los mismos tambien podrian ser enganosos si las variables estuvieran interrelacionadas con otras caracteristicas adicionales, tal como hemos mencionado en la seccion anterior del presente trabajo. Dryer (2009), por ejemplo, ha advertido acerca de posibles "conclusiones no fundamentadas" de las correlaciones tipologicas cuando existen factores geograficos que crean la ilusion de una relacion entre dos caracteristicas que en rigor no estan vinculadas entre si. En la misma linea de razonamiento, Bickel (2011) ha sostenido que una modelizacion exitosa de la distribucion de las caracteristicas de las lenguas necesita un enfoque multivariado, y que algunos fenomenos que podrian tener una "tendencia universal" (por ejemplo, el signo de un coeficiente de correlacion entre dos variables) podria quedar estadisticamente distorsionado si los fenomenos en cuestion aparecieran mezclados con otro fenomeno que produce la impresion de que dicha tendencia no existe.

En nuestra opinion, el metodo que proponemos aqui para analizar la interaccion entre distintas variables linguisticas puede ser util para resolver algunos de los problemas hallados por la tipologia linguistica para llevar a cabo analisis multilinguisticos de variables fonologicas. En las proximas secciones veremos asi que el metodo de regresion con ecuaciones simultaneas presenta una serie de posibilidades interesantes para descartar posibles "correlaciones espurias", tal como quedara ilustrado a traves de un ejercicio empirico que relaciona el numero de consonantes, el numero de vocales, la distincion entre sonidos acentuados y no acentuados, y la estructura tonal de los idiomas.

4. Descripcion de los datos

Para ejemplificar la metodologia propuesta en la solucion del problema descripto en la seccion 2, hemos construido una base de datos de 100 observaciones, que corresponden a diferentes idiomas. Dichos idiomas fueron elegidos en base a la disponibilidad de datos confiables, y por eso es que la muestra incluye a todos los idiomas con mas de 40 millones de hablantes de primera lengua a nivel mundial. A fin de tomar en cuenta la importancia relativa de los distintos grupos idiomaticos, incluimos tambien ejemplos de las principales familias de idiomas que aparecen en fuentes tales como Lewis, Simons y Fennig (2013). Terminamos asi con 34 idiomas indoeuropeos, 9 idiomas sino-tibetanos, 9 idiomas de la familia Niger-Congo, 7 idiomas afroasiaticos, 7 idiomas altaicos, 6 idiomas austronesios, 4 idiomas dravidicos, 3 idiomas de la familia Tai-Kadai, 2 idiomas austroasiaticos, 2 idiomas uralicos y 2 idiomas caucasicos. Tambien incluimos representantes de varias familias menos importantes, que son sin embargo significativas por razones historicas o por el numero de idiomas que contienen. Esas familias son las que corresponden a los idiomas algonquianos, araucanos, atabascos, esquimo-aleutianos, jaqui, khoisan, mayas, nilo-saharianos, oto-mangueanos, pamanyungan, papues, quechuas, tupi, uto-aztecas y vascuences (9).

En el cuadro 1 se muestran los valores promedio de las cuatro variables fonologicas que usamos en este estudio, agrupando a los idiomas en varias categorias. Algunas de ellas son propiamente familias idiomaticas (sino-tibetana, dravidica), mientras que otras son el resultado de agrupar distintas familias. Algunas familias importantes se dividen en subgrupos, tales como la familia indoeuropea que incluye a los idiomas latinos (portugues, gallego, espanol, catalan, frances, italiano y rumano), germanicos (ingles, holandes, aleman, danes, sueco, noruego e islandes), eslavos (ruso, ucraniano, bulgaro, serbio-croata, esloveno, checoslovaco y polaco), indoarios (hindi-urdu, bengali, punjabi, marathi, gujarati, sindhi y nepali) y otros idiomas (persa, pashto, kurdo, armenio, griego e irlandes, mas la lengua vasca, que si bien no es indoeuropea tiene una larga tradicion de contacto con idiomas de esa familia).

Tambien hemos dividido en dos a la familia Niger-Congo, distinguiendo por un lado un grupo atlantico africano (wolof, ewe, igbo y yoruba) y un grupo bantu (lingala, swahili, shona, xhosa y zulu, al que le hemos adicionado un idioma khoisan llamado "khoekhoe"). Los idiomas afroasiaticos, en cambio, aparecen en una unica categoria, que incluye tres lenguas semiticas (arabe, amarico y hebreo), dos lenguas cushiticas (oromo y somali), una lengua chadica (hausa), una lengua del grupo bereber (shilha) y el idioma nilo-sahariano llamado "dinka". Lo mismo ocurre con las lenguas sino-tibetanas incluidas en nuestra muestra, que son siete variedades del idioma chino (mandarin, cantones, taiwanes, changsha, gan, hakka y wu), mas dos lenguas tibeto-birmanas (tibetano y birmano). Los idiomas altaicos incluidos en nuestra muestra, por su parte, son tres idiomas del grupo turco (turco, azeri y uzbeco) y cuatro idiomas orientales (mongol, manchuriano, coreano y japones).

Las seis lenguas austronesias que hemos seleccionado (malayo-indonesio, javanes, tagalog, malgache, maori y hawaiano) han sido agrupadas con la lengua papu llamada "skou" y con el idioma australiano (pama-nyungan) llamado "nyangumarta", basicamente por razones de tipo geografico. Lo mismo ocurre con los idiomas Tai-Kadai (tailandes, lao y kam) y los idiomas austroasiaticos (vietnamita y camboyano), que constituyen una unica categoria "Austro-Tai", y con los idiomas caucasicos (georgiano y cabardiano) que han sido agrupados junto con los idiomas uralicos (finlandes y hungaro). En contraposicion, las cuatro lenguas dravidicas incluidas en la muestra (tamil, telugu, kannada y malayalam) constituyen una unica categoria relativamente homogenea.

Los diez idiomas aborigenes americanos que hemos incluido, finalmente, han sido agrupados en dos categorias, correspondientes a America del Norte y a America del Sur. En el primero de dichos grupos incluimos a los idiomas de las familias algonquiana (cheyenne), atabasca (navajo), esquimo-aleutiana (inuit), maya (yucateco), otomangueana (zapoteco) y uto-azteca (nahuatl), en tanto que en el segundo grupo aparecen los idiomas que pertenecen a las familias quechua (cusqueno), jaqui (aymara), tupi (guarani) y araucana (mapuche).

Tal como puede observarse en el cuadro 1, los 100 idiomas incluidos en la muestra tienen un promedio de cerca de 25 fonemas consonanticos y 8,6 fonemas vocalicos. Veintinueve por ciento de ellos usan al acento como un rasgo fonologico distintivo, y 30% de ellos son lenguas tonales. La distribucion de estas caracteristicas entre los grupos, sin embargo, es muy desigual. Mientras los idiomas bantu-khoisan tienen un promedio de 41 fonemas consonanticos, el grupo austronesio tiene un promedio de 16 fonemas consonanticos y menos de 6 fonemas vocalicos. Este ultimo numero contrasta con los 16 fonemas vocalicos que tienen en promedio las lenguas germanicas. En lo que se refiere al acento, este rasgo resulta distintivo en el 86% de los idiomas latinos incluidos en nuestra muestra, pero no esta presente para nada en las lenguas indoarias, sino-tibetanas, Austro-Tai, dravidicas y norteamericanas. La proporcion de lenguas tonales en nuestra muestra, en cambio, alcanza el 100% en la familia sinotibetana, pero es igual a cero en toda la familia indoeuropea (y tambien en los grupos correspondientes a los idiomas dravidicos, caucasicos, uralicos y sudamericanos).

Las relaciones entre las cifras de nuestra base de datos pueden ser descriptas tambien en terminos de los coeficientes de correlacion entre las variables, que son los numeros que aparecen en el cuadro 2. En el vemos que las cifras mas altas en valor absoluto corresponden a los coeficientes que relacionan a Acento con las otras tres variables (que son todas negativas y mayores que 0,1), mientras que los otros tres coeficientes (que corresponden a las correlaciones entre Consonantes y Vocales, Consonantes y Tono, y Vocales y Tono) son positivos y menores que 0,04 (10). Esto parece indicar que dichas correlaciones son menos importantes que las otras tres. Las tres correlaciones menos significativas muestran tambien un signo contraintuitivo, ya que las tres variables analizadas (Consonantes, Vocales y Tono) deberian supuestamente tener coeficientes de correlacion negativos entre ellas (11).

Una posible explicacion de esta contradiccion acerca del signo de los coeficientes de correlacion tiene que ver con la idea de que las cuatro variables fonologicas analizadas en este trabajo estan interrelacionadas. Asi, cuando tratamos de capturar la relacion parcial entre dos esas cuatro variables (por ejemplo, entre Consonantes y Vocales) usando un coeficiente de correlacion, es posible que dicho coeficiente de correlacion este sesgado por la existencia de una relacion indirecta entre cada una de esas variables y una tercera (por ejemplo, Acento). Esa relacion indirecta puede ser lo suficientemente fuerte como para crear la falsa impresion de que la relacion directa entre las variables originales tiene cierto signo cuando en realidad tiene un signo diferente. Una manera practica de enfrentar este problema es correr un sistema de ecuaciones simultaneas, en el cual las relaciones entre las diferentes variables se determinen al mismo tiempo. Eso deberia producir los "signos correctos" a la hora de calcular los coeficientes de correlacion parcial, y controlar por las interferencias generadas por los efectos indirectos entre varias variables que estan interactuando de manera simultanea.

5. Regresiones con ecuaciones simultaneas

Siguiendo la metodologia descripta en la seccion 2, procedimos a estimar una serie de coeficientes que corresponden a las regresiones especificadas en el sistema de ecuaciones (2)/(5). A efectos de hacer eso, usamos primero el metodo de las regresiones aparentemente no relacionadas (SUR), y luego controlamos por endogeneidad usando una estimacion en tres etapas basada en minimos cuadrados lineales (el llamado "metodo de minimos cuadrados en tres etapas") (12). Como varios de los coeficientes resultaron ser estadisticamente insignificantes (ya que sus valores de probabilidad eran todos mayores que 0,1), eliminamos de las regresiones a las variables que los generaban, e incluimos solo aquellas variables cuyos coeficientes fueran estadisticamente significativos. Finalmente impusimos varias restricciones relacionadas con la simetria de los efectos en cada una de las ecuaciones, y terminamos con un sistema que se parece al descripto en las ecuaciones (6)/(9).

Todos estos resultados aparecen en el cuadro 1, que muestra los coeficientes estimados y los valores de probabilidad para cuatro sistemas diferentes (13). El primero de ellos (Regresion A) incluye todas las variables como explicativas en todas las ecuaciones, y esta estimado mediante el metodo SUR. La regresion B es similar a la regresion A, pero excluye a las variables cuyos coeficientes tienen valores de probabilidad mayores que 0,1 (o sea, Vocales y Tono, en la ecuacion 1, Consonantes y Tono, en la ecuacion 2, y Consonantes y Vocales, en la ecuacion 4). La regresion C es similar a la regresion B, pero impone las restricciones de que los coeficientes de la variable Acento en las ecuaciones 1, 2 y 4 tienen que ser igual a la inversa de los coeficientes de las variables Consonantes, Vocales y Tono en la ecuacion 3. La regresion D, por ultimo, es similar a la regresion C, pero fue corrida utilizando un metodo de minimos cuadrados en tres etapas en el cual las cuatro variables dependientes (Consonantes, Vocales, Acento y Tono) se consideran endogenas, y las variables instrumentales utilizadas son dieciseis variables categoricas que representan los distintos grupos idiomaticos (que son los mismos que aparecen para describir los datos en el cuadro 1).

Los resultados obtenidos son satisfactorios en el sentido de que resultan consistentes con los coeficientes de correlacion reportados en el cuadro 2. Esto es asi porque los seis coeficientes que son estadisticamente significativos en la regresion A corresponden a los tres coeficientes de correlacion con los mayores valores absolutos en el cuadro 2 (Consonantes/Acento, Vocales/Acento y Acento/Tono). Los signos de estos coeficientes, ademas, son siempre negativos (tal como ocurre con los coeficientes de correlacion reportados en el cuadro 2), y el mayor de ellos (Acento/Tono) esta relacionado con los coeficientes de regresion mas significativos. Mas aun, los valores obtenidos en la regresion A para los coeficientes que miden la correlacion entre Consonantes y Vocales, Consonantes y Tono, y Vocales y Tono tambien son negativos, si bien todos ellos resultan ser estadisticamente insignificantes.

El enfoque alternativo de estimacion por ecuaciones simultaneas propuesto en la seccion 2 (al que denominamos "sistema recursivo") tambien puede ser aplicado utilizando la informacion disponible en nuestra base de datos. Para chequear cual de las posibles alternativas era la mejor, procedimos a correr los seis sistemas univariados mencionados al final de la seccion 2. Los coeficientes obtenidos aparecen en el cuadro 4. Todos ellos fueron calculados utilizando minimos cuadrados en tres etapas, las cuatro variables dependientes fueron consideradas endogenas, y las variables instrumentales empleadas fueron las mismas dieciseis variables categoricas usadas en la regresion D (reportada en el cuadro 3). En este caso, todos los coeficientes estimados para todas las variables en todas las regresiones resultaron ser estadisticamente significativos a un nivel de probabilidad del 1%.

Teniendo en cuenta los signos de los coeficientes en estos seis sistemas de ecuaciones, los mejores resultados parecen ser los que corresponden a la regresion 4, que fueron obtenidos con el sistema usado como ejemplo en la seccion 2 (ecuaciones (10)/(13)). Esos resultados sugieren que Acento tiene un efecto negativo sobre el numero de consonantes (o sea, que la existencia de distincion entre sonidos acentuados y no acentuados vuelve innecesario el uso de un gran numero de fonemas consonanticos), el cual tiene a su vez un efecto negativo sobre el numero de vocales (o sea, que un idioma con un gran numero de fonemas consonanticos necesita menos fonemas vocalicos que un idioma con menos fonemas consonanticos, controlando por los demas factores). Un numero grande de fonemas vocalicos, sin embargo, parece reducir la probabilidad de que un idioma desarrolle una distincion fonologica entre distintos tonos, pero la existencia de dicha distincion fonologica reduce a su vez la probabilidad de que el acento sea un rasgo distintivo en el idioma en cuestion.

Esta forma de analizar las relaciones entre Consonantes, Vocales, Acento y Tono es tambien util para resolver la contradiccion empirica que encontramos al final de la seccion 3, donde obtuvimos coeficientes de correlacion positivos para las relaciones Consonantes/Vocales, Consonantes/Tono y Vocales/Tono. Con el sistema recursivo correspondiente a la regresion 4, lo que hallamos son relaciones negativas (y no positivas) entre Consonantes y Vocales, y entre Vocales y Tono. La relacion supuestamente positiva entre Tono y Consonantes, por su parte, la podemos explicar por el efecto indirecto que juega la variable Acento, la cual esta influida negativamente por la distincion por tonos y es a su vez un determinante negativamente relacionado con el numero de fonemas consonanticos. Todo esto puede por lo tanto verse como una evidencia en favor de la existencia de fenomenos compensatorios entre las variables fonologicas, por los cuales la complejidad en una dimension esta relacionada con la simplicidad en otra.

Los resultados de todos los otros sistemas recursivos propuestos cuyos resultados aparecen en el cuadro 4 exhiben en cambio una o mas incoherencias, y pueden por lo tanto ser descartados. La regresion 1, por ejemplo, sugiere que el numero de fonemas vocalicos se incrementa cuando hay distincion por acento, en tanto que la regresion 2 parece indicar que tener mas consonantes induce la aparicion de distinciones por acento. La regresion 3, por el contrario, parece indicar que cuantos mas fonemas vocalicos tenga un idioma, mas probable es que exhiba distinciones basadas en el acento y en el tono, mientras que la regresion 5 nos dice que la distincion por el acento tiende a incrementar el numero de vocales, y que la distincion por tonos tiende a incrementar el numero de consonantes. La regresion 6, por ultimo, sugiere que un mayor numero de vocales incrementa la probabilidad que el acento sea un rasgo fonologico distintivo, y que un mayor numero de consonantes induce el uso de un mayor numero de fonemas vocalicos.

6. Conclusiones

El metodo propuesto en este articulo, que es relativamente comun en otras ciencias sociales tales como la economia y la politica, es, segun nuestra opinion, una fuente muy prometedora para detectar posibles relaciones en sistemas linguisticos en los cuales haya varias variables que juegan un papel al mismo tiempo. En particular, dicho metodo puede ser muy util cuando enfrentamos situaciones en las cuales no sabemos bien que fenomenos estan influenciando el comportamiento de las variables involucradas, y especialmente cuando sospechamos que dicho comportamiento es recursivo (es decir, que una variable esta influenciando a otra, la cual esta a su vez influenciando a una tercera, que a su vez parece tener influencia sobre la primera variable).

Aplicando el metodo de regresion con ecuaciones simultaneas, podemos dar un primer paso en la deteccion de la estructura linguistica que esta detras de las variables involucradas en determinado proceso. En este trabajo, por ejemplo, tratamos de avanzar hacia un modelo estadistico de interaccion de variables fonologicas que relacionara el numero de fonemas consonanticos, el numero de fonemas vocalicos y la distincion entre sonidos por acento y por tono, para una muestra representativa de los idiomas del mundo. Estimando varios sistemas de regresion con ecuaciones simultaneas, terminamos con algunas conclusiones acerca de las variables analizadas, y esas conclusiones fueron capaces de llevarnos mas alla de lo que puede obtenerse observando solamente los valores promedios de las variables o los coeficientes de correlacion entre ellas.

Como resultado de nuestros analisis de regresion, aparecieron dos modelos relativamente generales: un "modelo de ecuaciones de equilibrio" y un "modelo recursivo". El primero de ellos enfatiza la importancia de la distincion por acento como un determinante de las otras tres variables, y senala que los idiomas en los que el acento es distintivo tienden a tener pocos fonemas vocalicos, pocos fonemas consonanticos y ninguna distincion entre tonos (14). En el lado opuesto del espectro, el modelo predice tambien que las lenguas tonales, que tienen relativamente muchos fonemas vocalicos y consonanticos, no desarrollaran una distincion fonologica entre sonidos acentuados y no acentuados (15).

En el modelo recursivo, en cambio, Tono esta negativamente correlacionado con Acento, que a su vez esta negativamente correlacionado con Consonantes, que a su vez esta negativamente correlacionado con Vocales, que a su vez esta negativamente correlacionado con Tono. Esto implica que si un idioma no es tonal, tendera a tener una distincion fonologica entre sonidos acentuados y no acentuados, pocos fonemas consonanticos y relativamente muchos fonemas vocalicos (16). Por el contrario, los idiomas en los cuales existen distinciones por tono tenderan a no desarrollar una distincion por acento, y en general tendran muchos fonemas consonanticos y relativamente pocos fonemas vocalicos (17).

Todas estas conclusiones pueden ser relacionadas con resultados similares hallados en la literatura resenada en la seccion 3. Las predicciones del modelo recursivo, por ejemplo, son consistentes con lo encontrado por Hyman (2009) acerca de los sistemas de distincion por acento y por tono, en tanto que las predicciones del modelo de ecuaciones de equilibrio pueden usarse para explicar por que Maddieson (2007) no encontro ninguna correlacion apreciable entre Consonantes, Vocales y Tono (cuya relacion, de acuerdo con dicho modelo, es indirecta y ocurre a traves de la interaccion con la variable Acento).

Los resultados obtenidos a traves del uso de nuestras regresiones con ecuaciones simultaneas pueden verse como un punto a favor de la busqueda de generalizaciones estadisticas y no categoricas dentro del campo de la tipologia linguistica (18). Tambien pueden interpretarse como tendencias del lenguaje, en el sentido de que pueden representar "estados estacionarios" o "puntos estables" hacia los cuales deberian converger las estructuras fonologicas. De acuerdo con esta perspectiva, por ejemplo, un idioma sin distincion por tonos que tiene relativamente pocas consonantes y vocales seria propenso a desarrollar una distincion entre sonidos acentuados y no acentuados, en tanto que un idioma tonal (sin distincion por acento) tendria presumiblemente que exhibir una tendencia a incrementar su numero de fonemas. Los idiomas que no siguen estas reglas, por lo tanto, podrian estar en una situacion "inestable", y la prediccion del modelo seria que algunas de sus caracteristicas fonologicas actuales cambiaran probablemente en el futuro, hasta alcanzar alguna de las configuraciones de equilibrio halladas a traves del analisis estadistico.

Los metodos de regresion con ecuaciones simultaneas, ademas, podrian ser usados tambien para analizar distintos conjuntos de variables en comparaciones multilinguisticas. Una posible via para futuras investigaciones podria ser aumentar el conjunto de caracteristicas fonologicas incluidas en el analisis, introduciendo variables adicionales que ayuden a explicar el grado de complejidad de las consonantes y las vocales (tales como el uso de consonantes no pulmonicas y de articulaciones dobles, la distincion por sonoridad y por aspiracion, el uso de vocales anteriores labializadas, la distincion por duracion y por nasalizacion de los sonidos, etc). Con esos agregados, el conjunto de ecuaciones simultaneas puede ampliarse, y pueden llegar a descubrirse nuevas relaciones estructurales. Otra posible extension de este trabajo es usar ecuaciones simultaneas para hacer una regresion de un sistema de relaciones que tambien incluya otras variables linguisticas relacionadas con caracteristicas morfologicas, sintacticas o lexicas. En ese caso, podriamos esperar que este metodo fuera util para arrojar algo mas de luz sobre la posible existencia de fenomenos compensatorios mas sofisticados entre los diferentes componentes de los sistemas linguisticos.
Apendice: Base de datos de variables fonologicas

El siguiente cuadro muestra todos los datos utilizados en los
sistemas de regression de ecuaciones simultaneas corridos en el
presente trabajo.

Idioma             Grupo   Consonantes   Vocales   Acento   Tono

Aleman              GE              20        15        1      0
Amarico             AA              25         5        1      0
Arabe               AA              29         6        0      0
Armenio             OI              30         6        0      0
Aymara              SA              27         3        0      0
Azeri               AL              24         9        0      0
Bengali             IA              32         8        0      0
Birmano             ST              31         8        0      1
Bulgaro             ES              22         6        1      0
Cabardiano          CU              53         3        1      0
Camboyano           AT              21        21        0      0
Cantones            ST              19        11        0      1
Catalan             LA              23         7        1      0
Changsha            ST              19         6        0      1
Checoslovaco        ES              25         9        0      0
Cheyenne            NA              10         3        0      1
Coreano             AL              19        18        0      0
Danes               GE              15        20        1      0
Dinka               AA              20         7        0      1
Esloveno            ES              21         8        1      0
Espanol             LA              19         5        1      0
Ewe                 AC              28         7        0      1
Finlandes           CU              13         8        0      0
Frances             LA              20        13        0      0
Gallego             LA              21         7        1      0
Gan                 ST              18         7        0      1
Georgiano           CU              28         5        1      0
Griego              OI              18         5        0      0
Guarani             SA              18        12        0      0
Gujarati            IA              31         8        0      0
Hakka               ST              17         7        0      1
Hausa               AA              28        10        0      1
Hawaiano            AU               8        10        0      0
Hebreo              AA              22         5        1      0
Hindi-Urdu          IA              34        11        0      0
Holandes            GE              18        14        0      0
Hungaro             CU              25        14        0      0
Igbo                AC              26         8        0      1
Ingles              GE              24        11        0      0
Inuit               NA              14         6        0      0
Irlandes            OI              35        11        0      0
Islandes            GE              32        16        0      0
Italiano            LA              23         7        1      0
Japones             AL              16         5        1      1
Javanes             AU              20         6        0      0
Kam                 AT              25         6        0      1
Kannada             DR              34        11        0      0
Khoekhoe            BK              31         8        0      1
Kurdo               OI              31         8        1      0
Lao                 AT              28        18        0      1
Lingala             BK              24         7        1      1
Malayalam           DR              39        12        0      0
Malayo-Indonesio    AU              18         6        0      0
Malgache            AU              27         4        0      0
Manchuriano         AL              20         6        0      0
Mandarin            ST              19         6        0      1
Maori               AU              10         5        0      0
Mapuche             SA              22         6        0      0
Marathi             IA              44         6        0      0
Maya Yucateco       NA              21        10        0      1
Mongol              AL              26        14        0      0
Nahuatl             NA              15         8        0      0
Navajo              NA              28        16        0      1
Nepali              IA              27        11        0      0
Noruego             GE              23        19        1      0
Nyangumarta         AU              17         3        1      0
Oromo               AA              24         5        0      0
Pashto              OI              30         7        1      0
Persa               OI              23         6        1      0
Polaco              ES              31         6        0      0
Portugues           LA              19         7        1      0
Punjabi             IA              30        10        0      0
Quechua Cusqueno    SA              25         3        0      0
Rumano              LA              22         7        1      0
Ruso                ES              21         6        1      0
Serbio-Croata       ES              25         5        1      0
Shilha              AA              33         3        0      0
Shona               BK              48         5        0      1
Sindhi              IA              46        10        0      0
Skou                AU              13         7        0      1
Somali              AA              22        20        0      1
Sueco               GE              18        17        1      0
Swahili             BK              32         5        0      0
Tagalog             AU              16         5        1      0
Tailandes           AT              21         9        0      1
Taiwanes            ST              22         6        0      1
Tamil               DR              16        10        0      0
Telugu              DR              33        11        0      0
Tibetano            ST              28         8        0      1
Turco               AL              22         8        0      0
Ucraniano           ES              27         6        1      0
Uzbeco              AL              26         6        0      0
Vasco               OI              25         5        1      0
Vietnamita          AT              22        11        0      1
Wolof               AC              26        15        1      0
Wu                  ST              27         6        0      1
Xhosa               BK              59        12        0      1
Yoruba              AC              18        11        0      1
Zapoteco            NA              20         5        1      1
Zulu                BK              52        12        0      1

Abreviaturas utilizadas: AA = Afroasiatico; AC = Atlantico africano;
AL = Altaico; AT = Austro-Tai; AU = Austronesio (incluye papuano y
Pama-Nyungan); BK = Bantu-Khoisan; CU = Caucasico-Uralico;
DR = Dravidico; ES = Eslavo; GE = Germanico; IA = Indoario;
LA = Latino; NA = Norteamericano; OI = Otros idiomas indoeuropeos
(incluye vasco); SA = Sudamericano; ST = Sino-tibetano.


Referencias bibliograficas

Atkinson, Quentin (2011): "Phonemic Diversity Supports Serial Founder Effect Model of Language Expansion from Africa", Science, vol 332, pp 346-349.

Becker-Kristal, Roy (2010): Acoustic Typology of Vowel Inventories and Dispersion Theory: Insights from a Large Cross-Linguistic Corpus. Los Angeles, Universidad de California.

Bickel, Balthasar (2011): "Statistical Modeling of Language Universals", Linguistic Typology, vol 15(2), pp 401-413.

Bickel, Balthasar (2013): "Distributional Typology: Statistical Inquiries into the Dynamics of Linguistic Diversity". Zurich, Universidad de Zurich.

Brown, Keith (2006): Encyclopedia of Language and Linguistics, 2da edicion. Amsterdam, Elsevier.

Comrie, Bernard (2009): The World's Major Languages, 2da edicion. Oxford, Routledge.

Coupe, Christophe, Egidio Marsico y Francois Pellegrino (2009): "Structural Complexity of Phonological Systems", en F. Pellegrino et al.: Approaches to Phonological Complexity. Berlin, Mouton De Gruyter.

Donohue, Mark y Johanna Nichols (2011): "Does Phoneme Inventory Size Correlate with Population Size?", Linguistic Typology, vol 15(2), pp 161-170.

Dryer, Matthew (2009): "Problems Testing Typological Correlations with the Online WALS", Linguistic Typology, vol 13(7), pp 121-135.

Fenk-Oczlon, Gertraud y August Fenk (2004): "Systemic Typologies and Crosslinguistic Regularities", en V. Solovyev y V. Polyakov: Text Processing and Cognitive Technologies. Moscu, MISA.

Gary, Jane y Rubino, Carl (2001): Facts About the World's Languages: An Encyclopedia of the World's Major Languages. Nueva York, H. W. Wilson.

Greene, William (2011): Econometric Analysis, 7ma edicion. Nueva York, Prentice-Hall.

Hyman, Larry (2009): "How (Not) to Do Phonological Typology: The Case of Pitch Accent", Language Sciences, vol 31, pp 213-238.

IPA (1999): Handbook of the International Phonetic Association. Cambridge, Cambridge University Press.

Jaeger, Florian, Peter Graff, William Croft y Daniel Pontillo (2011): "Mixed Effects Models for Genetic and Areal Dependencies in Linguistic Typology", Linguistic Typology, vol 15(2), pp 281-320.

Johnson, Keith (2008): Quantitative Methods in Linguistics. Oxford, Blackwell.

Kennedy, Peter (2008): A Guide to Econometrics, 6ta edition. Nueva York, Wiley.

Kramsky, Jiri (1959): "A Quantitative Typology of Languages", Language and Speech, vol 2(2), pp 72-85.

Lewis, Paul, Gary Simons y Charles Fennig (2013): Ethnologue: Languages of the World, 17ma edition. Dallas, SIL International.

Lindblom, Bjorn y Ian Maddieson (1988): "Phonetic Universals in Consonant Systems", en L. Hyman y C. N. Li (eds.): Language, Speech and Mind. Oxford, Routledge.

Maddieson, Ian (2007): "Issues of Phonological Complexity: Statistical Analysis of the Relationship Between Syllable Structures, Segment Inventories and Tone Contrasts", en M. Sole, P. Beddor y M. Ohala: Experimental Approaches to Phonology. Nueva York, Oxford University Press.

Marsico, Egidio, Ian Maddieson, Christophe Coupe y Francois Pellegrino (2004): "Investigating the 'Hidden' Structure of Phonological Systems", Proceedings of the 30th Meeting of the Berkeley Linguistics Society, pp 256-267.

Shosted, Ryan (2006): "Correlating Complexity: A Typological Approach", Linguistic Typology, vol 10(7), pp 1-40.

Silnitsky, George (2003). "Correlation of Phonetic and Morphological Systems of Indo-European Languages", Journal of Quantitative Linguistics, vol 10(2), pp 129-141.

Wichmann, Soren, Taraka Rama y Eric Holman (2011): "Phonological Diversity, Word Length and Population Sizes Across Languages: The ASJP Evidence", Linguistic Typology, vol 15(2), pp 177-198.

(1) Para ilustraciones de estas aplicaciones, vease Johnson (2008), capitulo 3.

(2) Para una explicacion de la logica detras de este metodo, vease Kennedy (2008), capitulo 10.

(3) El procedimiento que hace uso de estos coeficientes de correlacion es conocido como "metodo de las regresiones aparentemente no relacionados" (SUR, por su sigla en ingles), y es el que utilizaremos en nuestras estimaciones de la seccion 5. Para una explicacion sobre la logica detras de este metodo, vease Greene (2011), capitulo 10.

(4) Vease Kennedy (2008), capitulo 10, o Greene (2011), capitulo 10.

(5) Para un buen resumen de esa teoria y un interesante analisis cuantitativo de las relaciones entre el numero de vocales y el area abarcada por dichas vocales en el "espacio de formantes", vease Becker-Kristal (2010).

(6) Este resultado fue mencionado originalmente por Lindblom y Maddieson (1988).

(7) Para una serie de analisis acerca de estas relaciones, vease Donohue y Nichols (2011), Wichman, Rama y Holman (2011) y Jager y otros (2011).

(8) Otro trabajo en el cual tampoco se encontro evidencia de correlacion negativa entre estructuras linguisticas es Silnitsky (2003). Dicho estudio, referido a los idiomas indoeuropeos, no hallo ninguna correlacion significativa entre las variables fonologicas y las variables gramaticales analizadas.

(9) En la descripcion de los idiomas de nuestra muestra tratamos siempre de usar la fuente disponible mas confiable. La mayoria de las descripciones proviene asi de trabajos que aparecen en IPA (1999), Gary y Rubino (2001), Brown (2006), Comrie (2009), y de articulos publicados por el Journal of the International Phonetic Association en su seccion denominada "Illustrations of the IPA".

(10) De hecho, el unico coeficiente estadisticamente significativo del cuadro es el que corresponde a la correlacion entre Acento y Tono (p = 0.0029), en tanto que los que corresponden a los pares Consonantes/Acento (p = 0.1176) y Vocales/Acento (p = 0.1040) estan cerca de ser significativos a un nivel de probabilidad del 10%. Los tres coeficientes con signo positivo, en cambio, no resultan para nada significativos desde el punto de vista estadistico, ya que sus valores de probabilidad son iguales a 0,4377, 0,3803 y 0,4301.

(11) Ese, por lo menos, seria el signo esperado si creyeramos en la existencia de fenomenos compensatorios, por los cuales la complejidad en una dimension estuviera compensada por cierta simplicidad en otra dimension.

(12) Para una explicacion de este metodo, vease Greene (2011), capitulo 10.

(13) All the regressions whose results are reported in this paper were performed using the software package EViews 3.5.

(14) Este modelo es bueno para explicar la estructura fonologica de la mayoria de los idiomas latinos, en los cuales el acento es generalmente distintivo. Dichos idiomas tienden a tener menos fonemas vocalicos y consonanticos que el promedio, y no han desarrollado la distincion por tonos.

(15) Ese seria el caso general de los idiomas de la familia Niger-Congo, en los cuales la distincion por acento no es comun pero si lo es la distincion por tono, junto con un numero relativamente grande de vocales y consonantes.

(16) Ese seria el caso general para los idiomas germanicos.

(17) Este ultimo conjunto de rasgos no aparece como una caracteristica general de ningun grupo de idiomas de nuestra muestra, pero se aplica a varios casos particulares tales como los de los idiomas birmano, ewe, igbo, kam, khoekhoe, shona, tibetano y wu.

(18) Para una discusion acerca de estas concepciones, vease Bickel (2013).

German Coloma (Universidad del CEMA, Buenos Aires, Argentina) *

* Las opiniones son personales y no representan necesariamente las de la Universidad del CEMA.
Cuadro 1: Valores promedio de las variables fonologicas por grupo de
idiomas

Grupo               Idiomas   Consonantes   Vocales   Acento   Tono

Indoeuropeo              35         25.86      9.23      54%     0%
  Latino                  7         21.00      7.57      86%     0%
  Germanico               7         21.43     16.00      57%     0%
  Eslavo                  7         24.57      6.57      71%     0%
  Indoario                7         34.86      9.14       0%     0%
  Otros                   7         27.43      6.86      57%     0%
Niger-Congo              10         34.40      9.00      20%    80%
  Atlantico               4         24.50     10.25      25%    75%
  Bantu-khoisan           6         41.00      8.17      17%    83%
Sino-tibetano             9         22.22      7.22       0%   100%
Afroasiatico              8         25.38      7.63      25%    38%
Altaico                   7         21.86      9.43      14%    14%
Austronesio               8         16.13      5.75      25%    13%
Austro-Tai                5         23.40     13.00       0%    80%
Dravidico                 4         30.50     11.00       0%     0%
Amerindio                10         20.00      7.20      10%    40%
  Norteamericano          6         18.00      8.00      17%    67%
  Sudamericano            4         23.00      6.00       0%     0%
Uralico-Caucasico         4         29.75      7.50      50%     0%
Total                   100         24.92      8.62      29%    30%

Cuadro 2: Coeficientes de correlacion entre las variables

Variable      Consonantes   Vocales    Acento    Tono

Consonantes        1.0000
Vocales            0.0159    1.0000
Acento            -0.1198   -0.1270    1.0000
Tono               0.0308    0.0178   -0.2741   1.0000

Cuadro 3: Resultados de las regresiones de ecuaciones
simultaneas

Concepto                Regresion A        Regresion B

                      Coefic    Prob     Coefic    Prob

Ec 1 (Consonantes)
  Constante           26.603   0.0000    26.139   0.0000
  Vocales            -0.0250   0.9059
  Acento             -4.4045   0.0282   -4.2025   0.0282
  Tono               -0.6363   0.7476
Ec 2 (Vocales)
  Constante           9.6174   0.0000    9.2329   0.0000
  Consonantes        -0.0056   0.9059
  Acento             -2.3267   0.0142   -2.1136   0.0198
  Tono               -0.6101   0.5148
Ec 3 (Acento)
  Constante           0.9223   0.0000    0.8966   0.0000
  Consonantes        -0.0107   0.0282   -0.0103   0.0276
  Vocales            -0.0253   0.0142   -0.0238   0.0155
  Tono               -0.4903   0.0000   -0.4827   0.0000
Ec 4 (Tono)
  Constante           0.5499   0.0012    0.4457   0.0000
  Consonantes        -0.0016   0.7476
  Vocales            -0.0070   0.5148
  Acento             -0.5149   0.0000   -0.5024   0.0000

Concepto                Regresion C        Regresion D

                      Coefic    Prob     Coefic    Prob

Ec 1 (Consonantes)
  Constante           26.399   0.0000    26.739   0.0000
  Vocales
  Acento             -5.1010   0.0000   -6.2727   0.0000
  Tono
Ec 2 (Vocales)
  Constante           9.5925   0.0000    9.5266   0.0000
  Consonantes
  Acento             -3.3534   0.0000   -3.1262   0.0000
  Tono
Ec 3 (Acento)
  Constante           8.0311   0.0000    7.2005   0.0000
  Consonantes        -0.1960   0.0000   -0.1594   0.0000
  Vocales            -0.2982   0.0000   -0.3199   0.0000
  Tono               -0.9510   0.0000   -0.6013   0.0000
Ec 4 (Tono)
  Constante           0.6050   0.0000    0.7823   0.0000
  Consonantes
  Vocales
  Acento             -1.0516   0.0000   -1.6630   0.0000

Cuadro 4: Coeficientes de las regresiones de ecuaciones
recursivas

Concepto              Regr 1    Regr 2    Regr 3

Ec 1 (Consonantes)
  Constante          40.7951    5.2225    34.0545
  Vocales            -1.8417    2.2851
  Acento                                 -31.4984
  Tono
Ec 2 (Vocales)
  Constante           5.8736   10.7897    10.8758
  Consonantes
  Acento              9.4705
  Tono                         -7.2324    -7.5193
Ec 3 (Acento)
  Constante           1.1720    0.1159    -0.4680
  Consonantes                   0.0070
  Vocales                                  0.0879
  Tono               -2.9398
Ec 4 (Tono)
  Constante          -0.1860    2.8117    -0.8965
  Consonantes         0.0195               0.0480
  Vocales
  Acento                       -8.6612

Concepto              Regr 4     Regr 5     Regr 6

Ec 1 (Consonantes)
  Constante           32.0154   19.5118     29.8536
  Vocales
  Acento             -24.4669
  Tono                          18.0275    -16.4454
Ec 2 (Vocales)
  Constante           18.4667    4.1987     -0.8407
  Consonantes         -0.3951                0.3796
  Acento                        15.2459
  Tono
Ec 3 (Acento)
  Constante            0.7273    1.1328     -0.0308
  Consonantes                   -0.0338
  Vocales                                    0.0372
  Tono                -1.4575
Ec 4 (Tono)
  Constante            0.9118    1.2273      1.5483
  Consonantes
  Vocales             -0.0710   -0.1076
  Acento                                    -4.3044
COPYRIGHT 2013 Universidad del CEMA, Argentina
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2013 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Coloma, German
Publication:Serie Documentos de Trabajo
Date:Sep 1, 2013
Words:9658
Previous Article:Electoral cycles in international reserves: evidence from Latin America and the OECD.
Next Article:Party alignment and political budget cycles: the Argentine provinces.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters