Printer Friendly

Uso de la transformacion de Fourier de orden fraccional al determinar los coeficientes cepstral en las frecuencias mel para la verificacion de locutores.

Using the Fourier transformation of fractional order when determining the cepstral coefficients in the mel frequencies for the verification of speakers

I. Introduccion

El estudio de los sistemas biometricos bidimensionales que se ha desarrollado hasta el dia de hoy, reviste cierta dificultad generalizada en lo concerniente a la representacion, analisis y procesamiento de imagenes. Este es el caso, por ejemplo, de la caracterizacion utilizando el iris (iris, retina), huella dactilar, geometria vascular de la mano, geometria de la cara, escritura, firma, entre otros. La voz es diferente a los sistemas biometricos mencionados anteriormente, pues ademas de involucrar procesamiento unidimensional, considera una mezcla de caracteristicas fisicas y del comportamiento como la articulacion de las palabras, el estado animico, el contexto y demas variables que se encuentran asociadas al proceso del habla. Usar la voz como patron de reconocimiento tiene muchas ventajas debido a que su registro puede ser tomado sin contacto directo con el locutor y de manera natural. Esto haria ideal el uso de la voz en gran cantidad de sistemas, pero los metodos actuales para representar una senal de voz no brindan la confiabilidad necesaria para aplicaciones que la requieren al mas alto grado, como por ejemplo las transacciones bancarias [1][2]. Es bien conocido que el objetivo principal que persigue la solucion al problema de verificacion de locutores es aumentar la tasa de aciertos al maximo, reduciendo al minimo la tasa de falso rechazo y la tasa de falsa aceptacion, la cual se realiza para un conjunto cerrado finito de hablantes. El presente trabajo propone, por primera vez, la introduccion de un grado de libertad adicional a la solucion del problema, por medio del uso de la Transformacion de Fourier de orden Fraccional FrFT, como metodo para la parametrizacion de la voz mediante los coeficientes cepstral en las frecuencias mel MFCC. La FrFT es una generalizacion de la transformacion de Fourier estandar FT, que brinda la posibilidad de analizar una senal en el dominio tiempo-frecuencia. Con la introduccion del orden de la transformacion, una nueva variable en el proceso de verificacion de locutores, se mejora el proceso de corroborar el hablante [3].

II. Transformacion de Fourier de orden fraccional

La FrFT encuentra gran aplicabilidad en la generalizacion y mejoramiento en las areas donde la transformacion estandar y el concepto del dominio espacio-frecuencia son utilizados. Ademas, la FrFT es parte importante en el estudio de otros sistemas, permitiendo una generalizacion de la nocion bien establecida de dominio frecuencial, y aumenta asi, el conocimiento sobre el producto espacio directo-frecuencia [4].

A. Definicion integral

La FrFT de orden a es una operacion canonica lineal definida por la integral [5]:

[EXPRESSION MATHEMATIQUE NON REPRODUCTIBLE EN ASCII.] (1)

Con nucleo de transformacion

[EXPRESSION MATHEMATIQUE NON REPRODUCTIBLE EN ASCII.] (2)

Donde [alpha] [equivalent to] [a[pi]]/[2] y [K.sub.[alpha]] = 1-i cot [alpha] y. Para a = 0 y a = [+ o -]2 el nucleo se define como [K.sub.0] (u,u') = [delta](u - u')

y y [K.sub.[+ o -]2](u,u') = [delta](u + u') Para a = 1 se encuentra que [K.sub.[alpha]] = l y,

[EXPRESSION MATHEMATIQUE NON REPRODUCTIBLE EN ASCII.] (3)

Esta ultima expresion corresponde a la bien conocida, transformada de Fourier estandar de la senal f (u). De la misma forma [f.sub.-1](u) es la transformada de Fourier inversa estandar.

B. Algunas propiedades importantes

La FrFT puede ser considerada como un operador que realiza una rotacion. Es posible asumir la transformacion como una rotacion con las siguientes propiedades [6]:

1) Rotacion nula [R.sup.0.sub.[pi]] = I 2) Coherencia con la FT [R.sup.2] = F 3) Adicion de Rotaciones [R.sup.[beta]] [R.sup.[alpha]] = [R.sup.[alpha]+[beta]] 4) Rotacion de 2[pi] [R.sup.2[pi]] = I 5) Propiedad de translacion:

[F.sub.[alpha]]f(x + k) = exp[-ik sin [alpha](x + [k]/[2] cos [alpha])][F.sub.[alpha]][(f).sub.[x+kcos[alpha]]] (5)

6) Regla de similitud:

[F.sub.[alpha]]f(-x) = [F.sub.[alpha]-[pi]]f(x) (6)

7) Propiedad de la convolucion (2):

[EXPRESSION MATHEMATIQUE NON REPRODUCTIBLE EN ASCII.] (7)

donde, b = 0,5 cot(0,5[pi] a).

La distribucion de Wigner-Ville es una representacion tiempo-frecuencia de la energia de la senal. La transformada fraccionaria de orden a de una senal posee una distribucion de Wigner igual a la original, solo que rotada un angulo de a[pi]/2 radianes en el plano tiempo-frecuencia. Esto permite que el concepto de "warping" que se realiza en el espacio temporal para aplicaciones de reconocimiento del habla y del locutor (deformacion del eje correspondiente al tiempo), se pueda hacer tambien en el dominio fraccionario. Por otra parte, interferencia, ruido y otras fuentes de variabilidad en la senal podrian ser facilmente removidos en un dominio fraccionario como se muestra en la Fig. 1. Cuando la senal y el ruido se solapan tanto en el tiempo como en la frecuencia, puede suceder que en un dominio fraccionario las senales lleguen a separarse totalmente [3].

[FIGURA 1 OMITIR]

III. Breve introduccion a la verificacion actual de locutores

El reconocimiento del locutor es un termino generico para la clasificacion de la identidad basandose en una senal acustica. Para la identificacion del locutor la persona se clasifica como un integrante de un conjunto finito de locutores, requiriendose una comparacion de una determinada expresion hablada con un conjunto de referencias de cada locutor potencial. Como resultado se determina la identidad de la persona o el evento de no pertenecer al grupo presente en el proceso de entrenamiento. Para el caso de la verificacion del locutor se pide una clave (ingresada por medio fisico o mediante reconocimiento de otra caracteristica biometrica), y luego con la senal de voz se comprueba si realmente es quien dice ser, clasificandose como poseedora o no de la identidad manifestada [8][9]. El reconocimiento en conjunto abierto consiste en decidir si un locutor pertenece a un conjunto P de locutores conocidos, sin buscar decidir cual de los P locutores es. La verificacion de locutor se reduce al caso particular de la identificacion en un conjunto abierto con P = 1. Los sistemas de verificacion de locutores se pueden dividir en dos grandes grupos: dependientes e independientes del texto. En los sistemas dependientes del texto se requiere la pronunciacion de las mismas palabras usadas en el entrenamiento del sistema, mientras que en los independientes se puede usar cualquier texto, implicando una complejidad muy superior [8]. Generalmente el desempeno de un sistema de verificacion de locutores se evalua de acuerdo a dos tipos de errores:

* Tasa de falsa aceptacion (TFA): probabilidad de verificar erroneamente a un impostor.

* Tasa de falso rechazo (TFR): probabilidad de no verificar como valido a un usuario del sistema.

Una forma sencilla de evaluar el desempeno de un sistema de verificacion de locutores es utilizar una funcion de costo dada por,

C = [c.sub.1]TFA + [c.sub.2]TFR (8)

Donde [c.sub.1] y [c.sub.2] corresponden a los pesos acordados a cada uno de estos errores [2]. El valor que se le asignen a los pesos depende de las caracteristicas del sistema. Por ejemplo, si se desea tener un sistema con alta seguridad se debe dar mayor peso a la tasa de falsa aceptacion para rechazar de manera mas efectiva a los intrusos. Cuando se da un valor de 0,5 a los dos pesos la funcion de costo representa la media de las tasas, la cual se conoce como HTER (del ingles, "Half Total Error Rate").

A. Limitaciones de los sistemas biometricos basados en la voz

Gran parte de los sistemas biometricos de reconocimiento de voz que se han desarrollado basan su analisis y representacion en la transformacion de Fourier estandar; resultados de investigaciones arrojan tasas de error de alrededor del 10%, lo cual no es despreciable en la practica [8]. En la actualidad, los sistemas mas difundidos que utilizan reconocimiento de voz poseen una etapa dedicada al calculo de la transformada de Fourier, para el analisis referente a las caracteristicas representadas en el espacio de frecuencias. El problema por el cual la comercializacion de los sistemas biometricos de reconocimiento de voz no se ha dado, radica en que no ha sido posible obtener una adecuada caracterizacion de la senal de voz que permita discernir entre un locutor y otro: la parametrizacion no satisface el objetivo del sistema. Los sistemas que pretenden alcanzar tasas de error reducidas implican tiempos de ejecucion impracticos; por otro lado, cuando el sistema de reconocimiento ha sido entrenado, la identificacion o verificacion se deben hacer en las mismas condiciones en las que se ha entrenado el sistema, esto es, con el mismo equipo, microfono, ubicacion, ruido, entre otros. En realidad hay muchos aspectos que aun no han sido entendidos, y muchos otros incluso no se conocen. Actualmente, la capacidad de un sistema de reconocimiento automatico del habla es bastante inferior que la de un ser humano; el desempeno decae rapidamente con pequenas modificaciones tales como el cambio del microfono que se utiliza o las condiciones del canal entre otros.

Varias son las razones por las que el reconocimiento de la voz es generalmente dificil: Primero, el habla natural es continua; no existen pausas entre las palabras, haciendo dificil determinar sus limites. Tambien los locutores cambian su pensamiento en la mitad de una frase, pronunciando incorrectamente los fonemas o agregando silabas sostenidas para hacer una pausa (por ejemplo "eee...", "mmm...").

Segundo, el habla natural puede variar su velocidad y la articulacion de los fonemas dependiendo del contexto, de las emociones, de la misma forma que la pronunciacion de ciertas palabras cambia de una persona a otra. El espectro varia, a menudo dramaticamente, si una de estas modificaciones se presenta incluso con los tamanos de las ventanas que se toman en los sistemas actuales [3]. Tercero, la grabacion de la voz varia con la acustica de la habitacion, las particularidades del canal, las caracteristicas del microfono y el ruido de fondo.

Por ejemplo, usar un microfono a diferentes grados de inclinacion cambia su respuesta en frecuencia e incluso se podrian presentar efectos no deseados como fonemas nasales mucho mas fuertes por tener el microfono cerca de la nariz.

Todos estos factores cambian las caracteristicas de la senal, una diferencia que los humanos usualmente podemos compensar, pero que los actuales sistemas de reconocimiento no, haciendo de un sistema biometrico un poco mas complejo que los demas sistemas conocidos [8]. Los algoritmos para el entrenamiento de sistemas de reconocimiento tambien deben ser elegidos cuidadosamente, pues grandes tiempos de entrenamiento no son practicos. Algoritmos que toman demasiado tiempo para ejecutarse pueden ser de un gran interes teorico, pero dado que la mayoria presentan errores no permitirian llevar a cabo un verdadero desarrollo experimental. Pero aun con todas las limitaciones existentes, la investigacion de sistemas basados en voz es motivada por el mercado potencial que estos representan, calculandose que las ganancias y ahorros que se obtendrian de simples aplicaciones telefonicas ascienden a cientos de millones de dolares por ano [9].

B. Sistemas actuales de verificacion

Para el proceso de reconocimiento, se divide la senal de voz en tramas tipicamente de 10 a 30 [ms], creandose un vector de caracteristicas. Despues de obtener una secuencia de vectores se comparan con diferentes modelos previamente almacenados para tratar de determinar quien es el locutor. No obstante, se puede reducir la cantidad de datos por medio de la parametrizacion, disminuyendo la complejidad computacional del proceso de reconocimiento y transformando la senal de voz en un nuevo espacio de caracteristicas, donde es mas sencillo distinguir al locutor. En este sentido los coeficientes LPC (del ingles, "Linear Prediction Coding") y Cepstrum, con sus asociados respectivos, son las caracteristicas mas usadas en el reconocimiento, siendo los ultimos los mas estables entre las pronunciaciones repetidas de una misma persona [8].

C. Filtros mel

El comportamiento del oido humano, en cuanto a la percepcion de las frecuencias se refiere, es de tipo logaritmico.

Los sistemas convencionales de reconocimiento del habla y del locutor, asi como la verificacion del locutor, hacen uso de esta propiedad al introducir en sus algoritmos un filtrado, denominado filtrado mel (de melodia) al espectro de la senal de voz y analizar los coeficientes obtenidos. El filtrado mel aproxima el comportamiento del oido a una escala logaritmica de frecuencias representada por la siguiente funcion,

[f.sub.mel] = 2595 x log (1 + f/700 Hz) (9)

La teoria de los filtros mel ha sido ampliamente desarrollada, aunque la obtencion de estos filtros se hizo de manera experimental [10].

F. Coeficientes Cepstral en las frecuencias mel

Como producto de un procedimiento de filtrado y posteriormente, una transformacion Coseno Discreta (DCT --del ingles, "Discrete Cosines Transform"), se obtienen los coeficientes cepstral en las frecuencias mel (MFCC --del ingles, "Mel Frequency Cepstral Coefficients"). La transformacion Coseno se realiza con el fin de disminuir la extension de los vectores obtenidos a partir del filtrado mel. El esquema general utilizado para la obtencion de los MFCC se observa en la Fig. 2. Aunque existen otras tecnicas, estas no han sido ampliamente difundidas y aceptadas [2].

[FIGURA 2 OMITIR]

Los coeficientes MFCC son los parametros mas utilizados y aceptados para la extraccion de caracteristicas del habla y del locutor. Los vectores generados por estos coeficientes son utilizados en el entrenamiento y prueba de sistemas de reconocimiento y verificacion [2]. El objeto de la tecnica propuesta y presentada aqui se centra precisamente en los coeficientes mel y las distintas implicaciones que puede llegar a tener el hecho de que para la verificacion del locutor, en lugar de usar su representacion en el espacio frecuencial, se use una representacion generalizada en el espacio tiempo-frecuencia, la cual permite la introduccion de un grado de libertad adicional, que se ha mostrado util en otras aplicaciones.

G. Modelado estadistico

Entre los modelos mas usados para el reconocimiento de locutores estan [8]:

* Los parametricos:

* Redes neuronales (ANN--del ingles "Artificial Neural Networks").

* Modelos ocultos de Markov (HMM--del ingles "Hidden Markov Models").

* Los no parametricos:

* Cuantificacion vectorial (VQ--del ingles "Vector Quantization").

* Vecino mas cercano (NN--del ingles "Nearest Neighbor").

* Maquinas de vectores de soporte (SVM del ingles "Support Vector Machines").

El modelo parametrico presenta la ventaja de necesitar pocos datos para definir la funcion de densidad de probabilidad. Entre menos datos mas limitado es el modelo. Si el modelo es muy restrictivo, es posible que no sea suficientemente ajustado a la realidad que se pretende modelar. El modelo no parametrico, puesto que es menos restrictivo, permite un mejor modelado pero requiere un numero mayor de vectores de caracteristicas, especialmente cuando la dimension de los vectores es elevada. De hecho, la cantidad de datos necesarios para representar las caracteristicas de la voz de un determinado locutor crece exponencialmente con la dimension de los vectores. Esto restringe el uso de los modelos no parametricos y de vectores de caracteristicas con un numero elevado de componentes [8].

La tecnica del vecino mas cercano, que se usara aqui, calcula la distancia Euclidiana entre los vectores obtenidos durante el entrenamiento con los de la fase de prueba, obteniendo una matriz de distancias para cada uno de los locutores. El vecino mas cercano esta determinado por la minima distancia entre el vector de prueba y todos los vectores de entrenamiento para cada locutor. Las distancias minimas obtenidas para cada locutor se promedian y se comparan para hallar cual es el locutor que ha proporcionado la menor distancia [8].

IV. Sistema propuesto, basado en la frft

A. Descripcion del sistema

Las pruebas se hicieron usando EUSTACE, la base de datos de voz en ingles de la Universidad de Edinburgh [11]. La base de datos se compone de las grabaciones de seis locutores. De cada uno de los locutores se usaron catorce grabaciones de la misma palabra. Las grabaciones son tomadas a 16 kHz y cuantificadas a 16 bits. Para el proceso de enventanado se toman 100 ventanas de 16 [ms] cada segundo. Finalmente, cada una de las ventanas es parametrizada por 13 coeficientes. Como resultado del proceso de parametrizacion se obtiene una matriz de dimension 13xN, donde N representa el numero de ventanas tomadas de la senal en cuestion. El proceso de parametrizacion se realizo usando los coeficientes MFCC. Para su obtencion se utilizo el algoritmo provisto por el Auditory Toolbox de Interval Research Corporation [12], donde fue introducida la FrFT a cambio de la FT estandar. Un banco de cuarenta filtros para modelar el sistema de percepcion auditivo humano es usado. Finalmente, se utilizo la tecnica del vecino mas cercano para evaluar el desempeno del sistema por las ventajas descritas previamente, se trata de comparar los desempenos de la FrFT frente a la FT al momento del calculo de los MFCC.

B. Uso de la FrFT en los coeficientes MFCC

Es necesario hacer claridad acerca del hecho que la teoria de los bancos de filtros y de los coeficientes MFCC se ha desarrollado para el dominio frecuencial. Se habla de las implicaciones a causa de la inclusion de la FrFT sobre los MFCC y no perder de vista el esquema usualmente utilizado, pero se debe resaltar que al no estar en el espacio inverso o de frecuencias, no se trata de los coeficientes MFCC en dicho espacio, sino en el espacio tiempo-frecuencia a donde la transformacion de Fourier de orden fraccional nos conduce.

C. Analisis del mejor dominio fraccionario: Evaluacion del error y del desempeno

Para analizar cual es el mejor dominio fraccionario para el reconocimiento de locutores se evaluo la TFA, la TFR y la HTER, desde el orden 0,1 hasta el orden 1,0 con un paso de 0,1 como se observa en la TABLA I. Se hicieron pruebas con tres radios de aceptacion para el modelo de decision: radio de una desviacion estandar, de 1,5 desviaciones estandar y de 2 desviaciones estandar, como se evidencia en la tabla.

DOS DESVIACIONES ESTANDAR.

Como se observa, los resultados mejoran a medida que los ordenes se acercan a la unidad. Esto podria explicarse por el hecho que el filtrado mel es originalmente definido para el espacio frecuencial [10]. Se realizaron pruebas con ordenes fraccionales cercanos a 1, buscando afinar la busqueda donde se tiene la representacion estandar de los MFCC, en pasos mas cerrados de 0,01 como se observa en la TABLA II [3]. Las celdas sombreadas senalan los valores mas bajos alcanzados.

Generalmente la comparacion de sistemas de verificacion de locutores es muy limitada debido a las multiples condiciones experimentales que se presentan y los diversos entornos de trabajo al que se enfrenta un sistema, de ahi que sea mas conveniente usar bases de datos ya establecidas como la Eustace. Sin embargo, con el proposito de brindar una vision del desempeno de sistemas ya en uso se encuentra que la HTER es de alrededor del 3% para sistemas dependientes del texto con grabaciones con muy bajo ruido. Si por ejemplo se usan grabaciones tomadas via telefonica el desempeno de la HTER puede variar del 2 al 15%. Para sistemas que usan microfonos de bajo desempeno, lo cual implica mayor ruido, se presentan tasas HTER del 20 al 30% [1][2].

Un analisis de los resultados de las tablas anteriores conduce a que los ordenes con mejores resultados en HTER son 0,99; 0,97 y 0,99, para los radios 1, 1,5 y 2 veces la desviacion estandar respectivamente. Puesto que el proposito de un sistema es brindar igual importancia tanto a la TFA y la TFR [2], el radio de decision de 1,5 veces la desviacion estandar es el que brinda los desempenos mas proximos en las dos medidas. Por lo tanto, de acuerdo a los resultados, tomar para el orden el intervalo [0,96-0,98] brinda el desempeno mas equilibrado para el funcionamiento del sistema, de acuerdo con estos resultados. Un sistema de verificacion donde no sea importante la falsa aceptacion pero si el falso rechazo, servicio de atencion de clientes por ejemplo, tendra interes en utilizar un orden fraccional de 0,99 donde la tasa de falso rechazo es nula. Para aplicaciones donde se requiera de mayor seguridad el orden fraccional a elegir sera tambien de 0,99, pero con un radio de aceptacion menor, una desviacion estandar a cambio de dos por ejemplo.

Otra manera de presentar los resultados obtenidos es usar la curva ROC (del ingles, "Receiver Operating Characteristic"), "), la Fig. 3. El mejor metodo posible de verificacion se situaria en un punto en la esquina superior izquierda, o coordenada (0,100) del espacio ROC (no accesible en la figura donde ella se ha ampliado para efecto de una mejor visualizacion de los resultados), representando un 100% de sensibilidad (ningun falso negativo) y un 100% tambien de especificidad (ningun falso positivo). Como un buen criterio de desempeno, la distancia del punto resultado a dicha coordenada "ideal", el mejor orden fraccional para el caso de un radio de aceptacion de una desviacion estandar, seria 0,96. La diferencia entre las distancias correspondientes al orden 1,00 o FT frente al orden 0,96 es facilmente calculable y es 1,42.

[FIGURA 3 OMITIR]

D. Costo computacional

Dado que el unico cambio que se propone, frente a las tecnicas de hoy en dia, es la utilizacion de la FrFT en reemplazo de la FFT que dispone Matlab; se evalua el costo computacional de dicho cambio. Cabe aclarar que el tiempo de ejecucion depende de las caracteristicas del equipo utilizado para realizar las pruebas y las condiciones a las que este sometido. El equipo utilizado presenta un procesador AMD Athlon 64 X2 de 1,8 GHz y 960 MB de memoria RAM. Sin ejecutar otro programa distinto a Matlab el tiempo de ejecucion empleado con el metodo convencional es en promedio de 293,21 [s]. El tiempo de procesamiento usando la FrFT en las mismas condiciones es en promedio de 320,57 [s], presentandose un aumento en el tiempo de procesamiento de 27,36 [s], lo cual representa un incremento del 9,33% del tiempo total que toma el sistema para el calculo de las distintas tasas de error.

V. Analisis de resultados y conclusiones

El presente trabajo propone modificar la etapa de parametrizacion en un sistema de verificacion de locutores con la introduccion de la FrFT en substitucion de la FFT.

Se estudiaron los coeficientes cepstral en las frecuencias mel (MFCC) por ser el metodo de parametrizacion mas usado por los sistemas actuales de reconocimiento. El metodo estadistico de decision por el vecino mas cercano, es la tecnica no parametrica que mejor se ajusta a las condiciones del presente trabajo. Los resultados obtenidos muestran que a aunque los filtros mel estan disenados para ser usados en el dominio frecuencial, los menores porcentajes de HTER se obtienen con una FrFT de orden fractional proximo a la unidad. Al realizar pruebas con mayor resolucion, centesimas de orden, en la proximidad del orden uno se encontro que con un orden en el intervalo [0,96-0,98] se obtiene una mejora de mas del 1,4% con respecto a un sistema basado en la transformada de Fourier estandar. Puesto que el banco de filtros mel fue obtenido de manera experimental, la FrFT permite realizar una sintonizacion que adapta los filtros a la senal de voz del locutor en cuestion en un espacio de representacion tiempo-frecuencia cercano al puramente frecuencial. Aunque la mejora es pequena en numeros, es significativa cuando se trate el problema en volumen, y abre la posibilidad para un rediseno de los bancos de filtros en combinacion con un modelo estadistico mas elaborado que permita obtener mejores resultados en el dominio fraccionario.

En la busqueda de mejorar los resultados aqui obtenidos se proponen las siguientes acciones: Uso de la fase para la obtencion de los coeficientes MFCC; la mayoria de los sistemas de verificacion del locutor como se evidencio anteriormente utilizan exclusivamente la magnitud de los coeficientes que representan el espectro de la senal, dejando de lado la informacion que contiene la fase. Estudios recientes muestran el potencial del uso de la informacion que contiene la fase en la verificacion [13]. Uso de la convolucion fraccionaria invariante por traslacion; la definicion usual de la convolucion fraccionaria exhibe solo parcialmente propiedades de invariancia que no permiten su uso en varias aplicaciones de procesamiento de senales. Una nueva definicion, realizada por R. Torres et al. [7], podria llegar a ser util para mejorar los resultados de la presente investigacion. Pruebas con bases de datos independientes del texto, basados en los resultados prometedores obtenidos que aplican unicamente para sistemas texto-dependientes. Los sistemas texto-independientes no fueron revisados, por lo tanto seria pertinente analizar los resultados para la inclusion de la FrFT. Pruebas con LPC; los coeficientes LPC junto con los coeficientes mel son los mas usados en el reconocimiento de voz. Cada uno de estos coeficientes representa caracteristicas distintas, por lo tanto una parametrizacion que contenga una combinacion de estos dos puede ser muy util teniendo en cuenta los efectos que puede llegar a tener la inclusion de la FrFT. Dado que en la actualidad se requieren varias capas de procesamiento de la senal para obtener un resultado que aun no satisface las necesidades reales de un sistema de verificacion del locutor, queda la duda si las tecnicas empleadas son las adecuadas, por lo que se considera que despues de muchos anos de investigacion la verificacion de locutor es aun un problema abierto sin resolver [2]. Esto motiva a que se pruebe el sistema basado en la FrFT con otras capas de procesamiento como por ejemplo la normalizacion de los datos entre otras.

Agradecimientos

Los dos primeros autores agradecen al grupo GOTS por el apoyo brindado. De la misma manera agradecen al profesor Jaime Guillermo Barrero Perez de la E3T y a los ingenieros Euclides Alfonso Rueda Diaz e Idriss Tyler Sandoval Villamizar. Su apoyo fue muy valioso en la realizacion del trabajo de investigacion cuyos resultados se presentan aqui.

Referencias

[1] Reynolds D.A. An Overview of Automatic Speaker Recognition Technology. IEEE ICASSP 2002. 2002, vol. IV, pp. 4072-4075.

[2] Bimbot, F.; Bonastre, J.F.; Fredouille, C.; Gravier, G.; MagrinChagnolleau, I.; Meignier, S.; Merlin, T.; Ortega-Garcia, J.; PetrovskaDelacretaz, D. and Reynolds, D.A. A Tutorial on Text-Independent Speaker Verification. EURASIP 2004. 2004, vol. 4, pp. 430-451.

[3] Srikaya, R.; Gao, Y. and Saon, G. Fractional Fourier Transform features for speech recognition. IEEE ICASSP 2004. 2004, vol. I, pp. 529-532.

[4] Ozaktas, H.M.; Zalevsky, Z. and Kutay, M.A. The Fractional Fourier Transform: with applications in optics and signal processing. Chichester: John Wiley & Sons, 2001. Wiley Series in Pure and Applied Optics Series, #39, 513pp. ISBN: 978-0471963462.

[5] Namias, V The fractional order Fourier transform and its application to quantum mechanics. J. Inst. Math. Appl., 1980, vol. 25, pp. 241-265.

[6] Almeida, L.B. The Fractional Fourier Transform and Time-Frequency Representations. IEEE Transactions on signal processing. 1994, vol. 42, num. 11, pp. 3084-3091.

[7] Torres, R.; Pellat-Finet P and Torres Y. Fractional convolution, fractional correlation and their translation invariance properties. Signal processing. 2010, vol. 90, num. 6, pp. 1976-1984.

[8] Faundez Z., M. Tratamiento digital de voz e imagen y aplicacion a la multimedia. Mexico: Marcombo, 2000. 288pp. ISBN: 9788426712448.

[9] Gold B. and Morgan N. Speech and audio signal processing. New York: John Wiley & Sons, first edition, 1999. 537pp. ISBN: 9788126508228.

[10] Stevens, S.S.; Volkmann, J. and E. B. Newman, E.B. A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America. 1937, vol. 8, num. 3, pp. 185-190.

[11] White, L.S. and King, S. The EUSTACE speech corpus. Centre for Speech Technology Research, University of Edinburgh. 2003. [web online]. <http://www.cstr.ed.ac.uk/projects/eustace>. [Consulta: 01-42011]

[12] Malcolm Slaney. Auditory Toolbox version 2. Interval Research Corporation. 1998. [web online]. <http://cobweb.ecn.purdue. edu/~malcolm/interval/1998-010/>. [Consulta: 01-4-2011]

[13] Wang, N.; Ching PC. and Lee, T. Robust Speaker Verification Using Phase Information of Speech. National Cheng Kung University. The Proceedings of ISCLSP 2010, The 7th International Symposium on Chinese Spoken Language Processing. Tainan & Sun Moon Lake, Taiwan, november 29 to december 3 de 2010. IEEE Conference Publications, pp. 483-487.

Recibido Abril 22 de 2103--Aceptado Noviembre 15 de 2013

(1) Producto derivado del proyecto de Investigacion "Centro de excelencia en nuevos materiales--CENM/ Tratamiento de Senales", apoyado por la VIE (Vicerrectoria de Investigacion y Extension de la Universidad Industrial de Santander, Bucaramanga, Colombia) a traves del apoyo a la vinculacion del GOTS, Grupo de Optica y Tratamiento de Senales al CENM, Centro de Excelencia de Nuevos Materiales, Union Temporal legalmente constituida.

(2) Una definicion alterna ha sido formulada recientemente por R. Torres et al. [7].

Edgar F. Maldonado Orduz recibio su titulo de Ingeniero Electronico de la Universidad Industrial de Santander, Colombia, en el ano 2011.

Master en Comunicaciones Mobiles de Telecom ParisTech, Francia, actualmente es consultor de telecomunicaciones en Paris, Francia.

Su area de interes actual son los sistemas de telecomunicaciones y sistemas OFDM.

David Daniel Bertel Mendoza recibio su grado de Ingeniero Electronico de la Universidad Industrial de Santander en el ano 2011.

Ha trabajado como asistente de investigacion en el campo de la Radiopropagacion y Servicios de localizacion en el grupo de investigacion RadioGIS, Bucaramanga, Colombia, y en el area de tratamiento de tratamiento imagenes en Fraunhofer IPT, Aachen, Alemania.

Actualmente realiza tesis de Maestria en la RWTH Aachen University, Aachen, Alemania, en Caracterisacion de antenas activas.

Yezid Torres Moreno recibio su grado de Doctor en optica y tratamiento de la senal en la Universidad de Franche Comte, Besaron, Francia en 1983. Se vinculo a la Escuela de Fisica de la Universidad Industrial de Santander, Bucaramanga, Colombia en 1984 donde es Profesor Titular de fisica.

Ha realizado varias estancias postdoctorales, en el Laboratoire d'Optique PM. Duffieux, Besaron, France, le Centre d'Optique Photonique et laser COPL, Quebec, Canada, Laboratorio de Procesado de Imagenes, Terrassa, Espana, Ecole Normale Superieure de Telecommunications de Bretagne, Brest, Francia y la Florida Atlantic University, Boca Raton, USA.

Su campo de interes actual, en donde orienta su investigacion, es el de los haces con momento angular orbital y las aplicaciones de la tecnica de la transformada de Fourier de tiempo promedio.

Edgar F. Maldonado Orduz, David Daniel Bertel Mendoza, Yezid Torres Moreno

E.F. Maldonado Orduz, D.D. Bertel Mendoza son egresados de la Escuela de Ingenierias Electrica, Electronica y Telecomunicaciones, Facultad de Ingenierias Fisico-Mecanicas de la Universidad Industrial de Santander, A.A. 678, Bucaramanga, Colombia (correos-e: edgar.maldonado@radiogis. uis.edu.co; david.bertel@radiogis.uis.edu.co).

Y. Torres Moreno, es Profesor Titular, miembro del GOTS, Grupo de Optica y Tratamiento de Senales, Escuela de Fisica, Facultad de Ciencias, Universidad Industrial de Santander, A.A. 678, Bucaramanga, Colombia (correo-e: ytorres@uis.edu.co).
TABLA I.
RESULTADOS CON DISTINTOS ORDENES FRACCIONALES
EN%. (A) EL RADIO DE ACEPTACION ES UNA DESVIACION
ESTANDAR. (B) EL RADIO DE ACEPTACION ES 1,5
DESVIACIONES ESTANDAR. (C) EL RADIO DE ACEPTACION ES

Orden     TFA [%]   TFR [%]   HTER[%]

0,1       41,4      78,57     60,0
0,2       53,3      78,57     66,0
0,3       47,1      69,05     58,1
0,4       50,0      71,43     60,7
0,5       46,7      66,67     56,7
0,6       47,1      64,29     55,7
0,7       44,3      66,67     55,5
0,8       40,0      59,52     49,8
0, [??]   31,9      57,14     44,5
1,0       21,9      57,14     39,5

Orden     TFA [%]   TFR [%]   HTER[%]

0,1       63,8      73,81     68,8
0,2       70,5      64,29     67,4
0,3       69,0      59,52     64,3
0,4       63,3      52,38     57,9
0,5       60,0      52,38     56,2
0,6       61,9      40,48     51,2
0,7       62,9      38,10     50,5
0,8       57,6      33,33     45,5
0, [??]   48,1      30,95     39,5
1,0       40,0      28,57     34,3

Orden     TFA [%1   TFR [%1   HTER[%1

0,1       77,6      59,52     68,6
0,2       80,5      52,38     66,4
0,3       79,5      35,71     57,6
0,4       74,3      33,33     53,8
0,5       77,6      30,95     54,3
0,6       77,1      23,81     50,5
0,7       76,7      19,05     47,9
0,8       74,3      21,43     47,9
0, [??]   67,1      7,14      37,1
          55,2      2,38      28,8

TABLA II.
RESULTADOS CON ORDENES FRACCIONALES CERCANOS A
1 EN%. (A) EL RADIO DE ACEPTACION ES UNA DESVIACION
ESTANDAR. (B) EL RADIO DE ACEPTACION ES 1,5
DESVIACIONES ESTANDAR. (C) EL RADIO DE ACEPTACION ES
DOS DESVIACIONES ESTANDAR.

Orden   TFA [%]   TFR [%]   HTER [%]

0,91    28,6      59,52     44,0
0,92    28,6      59,52     44,0
0,93    27,6      59,52     43,6
0,94    26,7      59,52     43,1
0,95    25,2      59,52     42,4
0,96    23,3      59,52     41,4
0,97    23,3      57,14     40,2
0,98    22,4      54,76     38,6
0,99    21,9      54,76     38,3
1,00    21,9      57,14     39,5

Orden   TFA [%]   TFR [%]   HTER [%]

0,91    45,2      30,95     38,1
0,92    44,3      26,19     35,2
0,93    43,8      26,19     35,0
0,94    42,4      26,19     34,3
0,95    41,4      28,57     35,0
0,96    41,0      26,19     33,6
0,97    38,1      28,57     33,3
0,98    38,6      28,57     33,6
0,99    40,5      28,57     34,5
1,00    40,0      28,57     34,3

Orden   TFA [%]   TFR [%]   HTER[%]

0,91    66,2      7,14      36,7
0,92    63,8      9,52      36,7
0,93    60,5      9,52      35,0
0,94    59,5      9,52      34,5
0,95    59,5      9,52      34,5
0,96    56,7      7,14      31,9
0,97    56,2      4,76      30,5
0,98    54,8      2,38      28,6
0,99    55,7      0,00      27,9
1,00    55,2      2,38      28,8
COPYRIGHT 2013 Universidad Catolica de Pereira
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2013 Gale, Cengage Learning. All rights reserved.

 
Article Details
Printer friendly Cite/link Email Feedback
Author:Maldonado Orduz, Edgar F.; Bertel Mendoza, David Daniel; Torres Moreno, Yezid
Publication:Entre Ciencia e Ingenieria
Date:Dec 1, 2013
Words:6168
Previous Article:Modelo de la cadena de abastecimiento del sector madera y muebles de la Region Caribe de Colombia.
Next Article:Medidas de calidad de voz en una red GSM sobre software libre.
Topics:

Terms of use | Privacy policy | Copyright © 2018 Farlex, Inc. | Feedback | For webmasters