Printer Friendly

TECHNIQUES FOR DETECTING VOICE FUNDAMENTAL FREQUENCY IN REAL ENVIRONMENTS/TECNICAS DE DETECCION DE LA FRECUENCIA FUNDAMENTAL DE LA VOZ EN ENTORNOS REALES/TECNICAS DE DETECCAO DA FREQUENCIA FUNDAMENTAL DA VOZ EM ENTORNOS REAIS.

1. Introduccion

La comunicacion juega un papel primordial en la vida diaria de los seres humanos. Las personas con discapacidad auditiva tienen dificultad a la hora de conseguir empleo [1] y acceder a servicios basicos, por ejemplo la educacion y la salud [2], [3]. Es imperioso desarrollar e implementar soluciones que ayuden a mejorar la comunicacion de estas personas; sin embargo, muchas de las soluciones encontradas en la literatura no se pueden llevar a una implementacion real porque carecen de usabilidad. Las soluciones encontradas para mejorar la comunicacion en personas con discapacidad auditiva son:

* Pendiente. En [4] proponen un pendiente que, al colgarse del cuello de la persona, detecta las senas que se estan realizando frente a el; el problema radica en que este pendiente limita el area donde se pueden realizar las senas y algunas de estas requieren de movimientos mas amplios.

* Anillos. En [5] y [6] proponen anillos que se encargan de detectar el movimiento de las manos y se comunican con un dispositivo encargado de realizar el procesamiento y la traduccion. Esta forma es mucho mas portable y comoda para la persona con discapacidad auditiva; no obstante, se requieren algoritmos sin mucho peso computacional para que el procesamiento se pueda realizar en un dispositivo portatil y la traduccion sea rapida.

* Procesamiento de imagenes. En [7] proponen un sistema en dos direcciones para mejorar la comunicacion entre personas sordas y oyentes. El sistema captura la imagen de la sena, la reconoce y la convierte a texto; ademas es capaz de detectar audio y convertirlo en texto o en la imagen de la sena. El lenguaj e de senas se basa en movimientos, los movimientos para describir las letras del abecedario son, en la mayoria de los casos, posiciones estaticas de los dedos de la mano, lo que facilita su deteccion y procesamiento, asi como el despliegue de la letra detectada en una imagen para el caso del sentido opuesto de la comunicacion; sin embargo, los movimientos que describen las palabras que comunmente utilizamos--hola, casa, perro--requieren no solo de posiciones especificas de los dedos de las manos, sino tambien del movimiento de los brazos, de tal forma que el procesamiento de estos datos mediante el reconocimiento de imagenes y la conversion de audio a una secuencia de imagenes que describa el movimiento implica un alto peso computacional. Lo anteriormente expuesto, junto con la necesidad de una camara que en todo momento este capturando los movimientos de la persona con discapacidad auditiva, hacen de esta una solucion poco practica para implementar en la vida real.

* Sistemas de control gestual. Actualmente, se estan utilizando tecnologias como el Kinect[R] [8] o Leap Motion[R] [9] para implementar soluciones que permitan detectar el lenguaje de senas. Las pruebas realizadas hasta el momento muestran buenos resultados en el desempeno de estos detectores, siempre y cuando la persona que esta realizando las senas se encuentre en el rango de vision del dispositivo. El principal factor desfavorable de estas propuestas consiste en la falta de portabilidad.

Las soluciones anteriormente expuestas muestran que existe un interes muy grande por encontrar soluciones que permitan mejorar la comunicacion con discapacidad auditiva; empero, se considera que no se han tenido en cuenta ni la usabilidad de la solucion, ni el caso en el que la persona con discapacidad auditiva es la receptora.

El hecho de que no existan muchas soluciones para ayudar a las personas con discapacidad auditiva a recibir la informacion que se brinda de forma oral puede basarse en que muchas de ellas son capaces de leer los labios y asi detectar lo que se les esta diciendo; incluso, algunas personas son capaces de hablar al imitar los movimientos de los labios. Ahora bien, se debe tener en cuenta varios factores: el primero de ellos es que no todas las personas vocalizan bien, por lo que no es posible detectar el movimiento de los labios de todas las personas; el segundo es que la persona con discapacidad auditiva necesitaria poder ver todo el tiempo la boca de la persona con la que esta hablando, y el tercero es que no es posible detectar el movimiento de los labios de mas de una persona, mientras que nuestro cerebro es capaz de detectar, separar y comprender lo que dicen varias personas al tiempo. La solucion que busca superar las limitaciones mencionadas y hacerlo de tal forma que se centre en la usabilidad--con el fin de que pueda ser implementada en la vida real--requiere un algoritmo capaz de detectar diferentes senales de voz, que se pueden traslapar en el tiempo, separarse y traducirse a texto individual, de tal forma que la persona con discapacidad auditiva vea en una pantalla la conversacion que esta ocurriendo a su alrededor.

El proposito de esta revision de la literatura es caracterizar el proceso de generacion de la voz para entender asi las dificultades al momento de detectar su frecuencia fundamental y, finalmente, determinar la viabilidad de implementar los metodos de deteccion de esta frecuencia en entornos reales, donde se tiene presencia de ruido e interferencias.

2. Materiales y metodos

Para esta revision de la literatura se consultaron bases de datos especializadas como Scopus, IEEE y ScienceDirect, y ademas se realizaron busquedas en Google Scholar. Todas las busquedas se limitaron al periodo comprendido entre el 2013 y el 2017. Las busquedas en bases de datos especializadas se realizaron mediante cadenas de busqueda que abarcaran los principales temas que deberian abordar los articulos.

Con el fin de encontrar que tan aptos son los metodos de deteccion de la frecuencia fundamental de la voz, propuestos hasta el momento, para ser implementados en entornos reales, se plantea realizar un mapeo sistematico (MS) siguiendo las directrices expuestas en [10]. El MS se realiza en cinco pasos, mostrados en la figura 1: en el primer paso, se definen las preguntas que se quieren responder con la investigacion; el segundo paso consiste en realizar la busqueda y en el tercer paso, los resultados son analizados para determinar si se incluyen o no dentro del ms los articulos incluidos se clasifican en el cuarto paso, y, en el quinto paso, se mapean.

2.1 Definicion de las preguntas de investigacion

Se busca conocer los principales metodos para el reconocimiento de la frecuencia fundamental de la voz, averiguar si existen metodos que contemplen la presencia de ruido y, si es posible, realizar el reconocimiento simultaneo de multiples frecuencias fundamentales.

De acuerdo con el proposito, se definen tres preguntas de investigacion:

PI1: ?cuales son las principales formas con las que se realiza la deteccion de la frecuencia fundamental de la voz?

PI2: ?es posible realizar la deteccion de la frecuencia fundamental de la voz en presencia de ruido?

PI3: ?es posible realizar la deteccion simultanea de multiples frecuencias fundamentales?

2.2 Busqueda de informacion

El segundo paso del ms es la busqueda de informacion. Para esto es necesario definir cadenas de busqueda (CB) y las bases de datos especializadas en temas de ingenieria donde se van a realizar estas busquedas. Se definieron tres CB:

CB1: "pitch detection" AND "voice"

CB2: "pitch detection" AND "voice" AND "noise"

CB3: "pitch detection" AND "voice" AND "multi"

Las busquedas realizadas en las tres bases de datos especializadas arrojaron los resultados que se muestran en la tabla 1.

2.3 Inclusion o exclusion de articulos

Los articulos incluidos deben ser aquellos que aporten a la resolucion de las preguntas de investigacion planteadas. Para esto con cada articulo se analizan su titulo, sus palabras clave, su resumen, y, en caso de que despues de esto no exista claridad sobre la posible inclusion o exclusion del articulo, se leen la introduccion y las conclusiones. Los articulos incluidos se muestran en la tabla 2.

2.4 Esquema de clasificacion

Los articulos seleccionados se clasifican en tres grandes grupos, de acuerdo a su aporte en la resolucion de alguna de las tres preguntas de investigacion.

Una segunda clasificacion se realiza entre los articulos para determinar cuales son los principales metodos empleados en la deteccion de la frecuencia fundamental de la voz; las categorias definidas en esta clasificacion se basan en la planteada en [11]. La lectura de los resumenes de los articulos permite dilucidar en cada caso el metodo base para dicha deteccion.

Las categorias definidas se muestran en la figura 2.

i. Temporales

La deteccion de la frecuencia fundamental en el dominio del tiempo se basa en la cuasiperiodicidad temporal de la senal de voz. De esta forma, se busca detectar la envolvente temporal correspondiente a la frecuencia fundamental. Algunos metodos temporales calculan la correlacion entre diferentes funciones y las muestras de la senal.

ii. Espectrales

En el dominio de la frecuencia, la deteccion de la frecuencia fundamental trata de encontrar la presencia de frecuencias con mayor intensidad para encontrar asi los armonicos mas cercanos a la frecuencia fundamental.

iii. Temporales y espectrales

En el analisis realizado, tanto en el dominio temporal como en el espectral, se descompone la senal en multiples subbandas y se aplican las tecnicas en el dominio del tiempo a cada una de ellas.

3. Resultados

El procesamiento de las senales de voz tiene varias etapas: la primera consiste en identificar los momentos en que existe o no presencia de una senal de voz. En [12] realizan un estudio comparativo de las diferentes tecnicas para la deteccion de la voz. La fase que corresponde al reconocimiento de la senal de voz ha sido ampliamente estudiada. En [13] estudian los mecanismos mas robustos para el reconocimiento automatico de las senales de voz.

Con el fin de que la persona sorda detecte la fuente de informacion, es necesario realizar la deteccion y reconocimiento de voz, asi como identificar a la persona o personas que estan hablando.

3.1 Deteccion de la frecuencia fundamental de la voz

El sonido es producto de la vibracion de las particulas del aire, que se genera por los cambios de presion que produce un cuerpo al vibrar. La propagacion del sonido se da en forma de onda sinusoidal que se caracteriza, entre otras cosas, por su frecuencia. La voz en los seres humanos se produce por el aparato fonador cuando el aire que sale de los pulmones pasa por la traquea y provoca una oscilacion en las cuerdas vocales [14]. Estas no son en realidad cuerdas, sino mas bien pliegues, como se observa en la figura 3, cuyo periodo de oscilacion es el inverso de la frecuencia fundamental de la voz y le da su sonido caracteristico [15]. Los organos que componen el aparato fonador no tienen como funcion principal la generacion de la voz --son parte de los sistemas respiratorio y digestivo--; esto lleva a pensar que la voz surgio como una necesidad evolutiva de los seres humanos [16].

La deteccion de la frecuencia fundamental de la voz tiene multiples aplicaciones en las areas de la salud, la seguridad, la computacion, el entretenimiento y el control, entre otras.

3.2 Salud

En el area de la salud, existen diferentes propuestas para realizar la deteccion de enfermedades mediante el analisis de la frecuencia fundamental de la voz [18].

La deteccion de la enfermedad de Parkinson mediante las caracteristicas de la voz del paciente se propone en [19]. Para esto, utilizaron la relacion entre los armonicos y el ruido, y las variaciones que ciclo a ciclo podria tener la frecuencia fundamental. Los resultados muestran que, al comparar los resultados de las personas que padecen la enfermedad de Parkinson y quienes no, no hay una diferencia significativa, con lo cual se concluyo que este metodo no es efectivo para detectar la enfermedad. Sin embargo, es posible detectar diferentes patologias de la voz, ya que estas se deben a problemas en las cuerdas vocales.

En [20] se analizan los parametros mas relevantes al momento de realizar la deteccion de diferentes patologias de la voz; para esto se basan en los datos almacenados en tres bases de datos diferentes, lo que permite obtener asi una precision de hasta el 99,68%. Se concluye que la deteccion de la frecuencia fundamental de la voz es una herramienta que busca ayudar a los medicos a diagnosticar enfermedades en las primeras etapas. Se aclara que el diagnostico no debe basarse unicamente en estos resultados, sino que ademas debe realizarse un examen medico al paciente.

Los ciclos de apertura y cierre de las cuerdas vocales se estudian para detectar patologias de la voz en [21], donde mediante un filtraje pasa bajas sucesivo encuentran irregularidades en dichos ciclos. Al evaluar sus resultados en dos bases de datos diferentes obtuvieron una precision, en ambos casos, superior al 94%; con esto se concluye que las irregularidades en los ciclos de las cuerdas vocales son utiles para detectar patologias de la voz. En [22] tambien se propone la deteccion de las diferentes patologias de la voz, pero en este caso se realiza un analisis temporal y espectral de la senal que excita la cavidad glotica--caja cartilaginosa ubicada al final de la traquea, donde se encuentran las cuerdas vocales--los resultados alcanzados mediante simulacion muestran una alta precision, alrededor del 90%; se concluye que aumentar el orden de derivacion aumentaria la precision. Finalmente, en [23], se utilizan las maquinas de vectores de soporte (SVM) (1) para clasificar las diferentes patologias de la voz. Se concluye a partir de los resultados obtenidos que este estudio es un paso inicial para alcanzar la modulacion automatica de tono para la electro laringe y las interfaces de habla silenciosa.

La deteccion de la diafonia en pacientes se propone en [24]. El algoritmo propuesto esta basado en el metodo de estimacion espectografico de la relacion entre los armonicos y el ruido, y los resultados obtenidos permiten concluir que con este metodo es posible detectar la diafonia. Por otro lado, un metodo no invasivo, con capacidad de aprender y adaptar los limites de decision, para detectar enfermedades en la laringe es propuesto en [25]; los resultados de simulacion muestran una especificidad del 94%, con lo cual se concluye que este metodo es util tanto para detectar enfermedades en la laringe como para monitorear el progreso de los tratamientos.

3.3 Seguridad

En seguridad, es deseable identificar a una persona de acuerdo a su voz. Para lograr esto, en [26] parten de la creacion de una base de datos tomando personas de diferente sexo. La base de datos se crea con muestras de senales de voz diciendo un texto predefinido; luego, se realiza el reconocimiento de patrones utilizando los modelos ocultos de Markov (HMM). Los resultados muestran que se obtiene una mayor precision cuando se modelan por separado las senales de hombres y mujeres. El metodo propuesto es eficiente al momento de identificar a una persona segun su voz; sin embargo, las pruebas realizadas fueron ideales, por lo que se deben realizar pruebas y ajustes para lograr un metodo eficiente en presencia de ruido.

En [27] se propone un sistema de reconocimiento de voz basado en redes neuronales artificiales, con el fin de que sea capaz de imitar el proceso de aprendizaje del cerebro y logre, asi, diferenciar muchas voces--dada la gran cantidad de voces que un sistema de seguridad podria llegar a percibir--. Los resultados muestran que, en efecto, las redes neuronales permiten realizar el reconocimiento imitando el proceso de aprendizaje del cerebro; no obstante, se concluye que existe una falla en lo referente a seguridad, ya que este sistema solo puede identificar las voces que ya ha aprendido con anterioridad.

Otra aplicacion relacionada con el area de seguridad se muestra en [28], en el cual se propone un esquema de autenticacion mediante el reconocimiento de la voz. Este esquema se utiliza para identificar a las partes que se desean comunicar antes de establecer la comunicacion. Los resultados obtenidos muestran que el metodo propuesto permite realizar con precision el reconocimiento de la voz, pero ademas se concluye que el protocolo de conexion debe continuar mejorandose, con el fin de evitar ataques de seguridad.

En el marco de la investigacion forense, se estudia la viabilidad de diferenciar las voces [29] incluso si se comparan las de gemelos. Los resultados muestran que, cuando se comparan la voz de una misma persona y la voz de diferentes personas existe una diferencia apreciable, por lo que se concluye que es posible realizar la identificacion haciendo uso de la distancia euclidiana para calcular la similitud entre las voces.

3.4 Computacion

El desarrollo de la tecnologia, y en particular del big data, ha impulsado nuevos servicios en los dispositivos electronicos, como lo son la traduccion simultanea de voz a texto y las busquedas por voz en la Web [30].

El avance hacia las nuevas interfaces entre humanos y computadores busca que su interaccion sea mas intuitiva, para lo cual se quiere que las maquinas sean capaces de interpretar las senales sociales que se encuentran inmersas en la voz y los gestos, entre otros [31]. Con el fin de que el computador pueda garantizar la satisfaccion del usuario, se quiere que este sea capaz de detectar sus emociones. Dotarlo con propiedades afectivas permitira que el computador tenga la capacidad de realizar acciones con el fin de aumentar la satisfaccion del usuario. En [32] se plantea un algoritmo de deteccion de emociones en la voz que emplea svm en el proceso de clasificacion; los resultados muestran que este es un metodo eficiente y sencillo para realizarla. Ademas, se concluye que las diferentes funciones de Kernel influyen en la precision de los resultados, siendo las funciones lineales y cuadraticas las que mayor eficiencia alcanzar para detectar emociones como miedo, felicidad y tristeza; la funcion polinomica es la de peor desempeno.

Detectar las emociones en la voz es el objetivo que se quiere alcanzar en [33], dado que se ha demostrado que los algoritmos para detectar emociones que hacen distincion en el genero de la persona que habla son mas precisos que aquellos que no toman este factor en consideracion. Los autores proponen una etapa inicial en la cual se detecte el genero de la persona para, de acuerdo a esto, realizar el procesamiento que busca detectar las emociones en la senal de voz. Esto les permitio alcanzar una precision de alrededor del 90% en la deteccion de emociones entre dos estados, por lo que se concluye que la diferenciacion de genero es crucial para la deteccion de emociones, pero es necesario definir mas parametros para diferenciar las distintas emociones. En [34], los autores proponen un algoritmo para detectar emociones en la voz cuando se tienen conversaciones normales y no relacionadas con la actuacion --que son el tipo de datos que analizan la mayoria de estos estudios--. Los datos alcanzados permiten concluir que si es posible detectar emociones en conversaciones normales. El principal aporte de este estudio fue mostrar que, con el fin de obtener mayor informacion de las senales de voz, se debe implementar un sistema con memoria para determinar las emociones en la conversacion.

3.5 Entretenimiento

En el entretenimiento, la habilidad de identificar quien esta hablando o cantando es muy util, como se muestra en [35], trabajo en el que se propone un esquema que, combinando las senales de audio y video, es capaz de rastrear a las personas que estan hablando en el escenario, aunque la camara se encuentre alejada y las personas esten dandole la espalda. Se concluye que los metodos propuestos permiten mejorar el desempeno, y se plantea como paso a seguir el estudio de la correlacion entre los gestos y el habla para mejorar asi el sistema planteado. Modificar el tono de voz de una persona o mejorar las caracteristicas de dialogos susurrados son retos que se abordan en la transformacion y conversion de la voz. En [36] se realiza una revision de los sistemas de conversion de voz; el rango de aplicacion para los algoritmos de transformacion y conversion de la voz es muy amplio y no se limita unicamente al entretenimiento: abarca desde la reconstruccion de dialogos para mejorar el desempeno de sistemas de telecomunicaciones, hasta la implementacion de ayudas para personas con problemas de audicion.

3.6 Control

El espectro de una palabra dicha por diferentes personas puede llegar a variar de tal manera que la palabra no llegue a ser reconocida si se compara con una muestra espectral de dicha palabra. En los sistemas de control se busca distinguir comandos de voz para controlar los sistemas; por esto, en [37] se plantea un sistema de reconocimiento de comandos de voz que, a pesar de las posibles variaciones de la senal de entrada (ninos, adultos, voces enfermas), sea capaz de reconocer los comandos. Para esto, se utiliza un metodo para detectar individualmente los fonemas que conforman cada comando. Los resultados obtenidos muestran que se consigue una mayor precision que otros metodos de reconocimiento. Se concluye que es posible realizar el reconocimiento de los comandos incluso en ruso, idioma conocido por su complejidad fonetica.

Un sistema de traduccion de voz a lenguaje de senas se introduce en [38]; su implementacion se realiza mediante el control de una mano robotica de bajo costo, ya que se puede imprimir en 3D. Esta mano es capaz de reproducir el alfabeto mediante dactilografia, las etapas de control y procesamiento se realizan por separado. En este caso se utiliza una tarjeta Arduino para el control y una Raspberry Pi para el procesamiento. Los resultados de este trabajo corroboran la conclusion de que la implementacion de manos roboticas para la traduccion de habla a lenguaje de senas es razonable y realizable.

Hasta el momento se han mostrado algunas de las multiples aplicaciones que existen con respecto a la deteccion de la frecuencia fundamental de la voz, pero el procesamiento digital de la misma es una disciplina con mas de dos decadas de antiguedad que aun tiene mucho por perfeccionar. En [39] se explica por que es un gran reto el procesamiento de la voz; las senales de este tipo son muy complejas y de una alta variabilidad, tanto en su composicion espectral como en su intensidad en el tiempo. Existen muchos factores que afectan el reconocimiento de la voz: el ruido del ambiente, la estructura del lugar y las caracteristicas anatomicas y fisiologicas de la persona que habla, entre otros. Sin embargo, las senales de voz se pueden asumir cuasiperiodicas para facilitar el procesamiento.

En [40] se analizan las dificultades de determinar la frecuencia fundamental debidas a las caracteristicas de las senales de voz. La articulacion de palabras trasmitidas mediante la voz, que se conoce como habla, tiene las siguientes caracteristicas:

* El habla no es un proceso estacionario, ya que las caracteristicas del aparato fonador pueden cambiar abruptamente en el tiempo.

* Es posible que el tiempo total cuando hay presencia de habla solo dure unos pocos periodos fundamentales.

* Las combinaciones posibles entre la vocalizacion generada en el tracto vocal y las voces hacen que las estructuras temporales lleguen a ser casi infinitas.

* El rango espectral en el que puede estar la frecuencia fundamental es muy grande (50-800 Hz).

* La excitacion que genera la voz no siempre es uniforme, aun en condiciones normales (la persona no padece patologias en los organos del aparato fonador).

3.7 Metodos de deteccion de la frecuencia fundamental de la voz

Los articulos seleccionados de acuerdo al ms realizado son los siguientes:

1. Improving pitch estimation by enhancing harmonics [41]

Se propone un metodo de deteccion de la frecuencia fundamental de la voz en el dominio de la frecuencia. La senal de voz pasa por una etapa de preprocesamiento cuando se mejora la diferenciacion de los armonicos, lo que da como resultado un mejor desempeno en presencia del ruido.

2. Multi-band summary correlogram-based pitch detection for noisy speech [42]

En este articulo se propone un metodo para la deteccion tanto en el dominio del tiempo como en el de la frecuencia. La senal se divide por subbandas y un proceso de mejoramiento de armonicos. Posteriormente, se encuentra la correlacion.

La correlacion de resumen de multibanda (MBSC) presenta un mejor desempeno que los metodos tradicionales del dominio del tiempo; ademas, tiene un buen comportamiento en presencia de ruido.

3. Two-pitch tracking in co-channel speech using modified group delay functions [43]

Las funciones de retardo de grupo estan comenzando a cobrar importancia tanto en la deteccion como en el reconocimiento del habla, dado que con estas se obtiene una mejor resolucion que con el espectro de magnitud calculado mediante la transformada de Fourier. El trabajo citado rastrea la frecuencia predominante, la cual una vez detectada se elimina junto con sus armonicos mediante un filtro de barrido para detectar la segunda frecuencia predominante. El rastreo de las frecuencias se realiza mediante el analisis de las funciones de retardo de grupo.

4. Multiple comb filters and autocorrelation of the multi-scale product for multi-pitch estimation [44]

En el estudio citado, se procesa la senal de voz en diferentes ambientes ruidosos. Con el fin de detectar las frecuencias fundamentales, se hace uso de la autocorrelacion temporal. Luego, se detecta la frecuencia fundamental predominante; y una vez conocida, se elimina junto con sus componentes armonicas mediante un filtro de barrido. La senal resultante es procesada nuevamente para detectar la segunda frecuencia fundamental.

5. Tracking pitch period using particle filters [45]

En el estudio nombrado se utiliza un filtro de particulas para realizar la deteccion continua de la frecuencia fundamental de la voz en presencia de ruido; el metodo de deteccion se realiza en el dominio del tiempo. El proceso consiste en calcular las variaciones de la frecuencia fundamental cuando se tiene habla muy ruidosa. Los resultados muestran que con este metodo es posible determinar continuamente la frecuencia fundamental de la voz en casos no ideales.

6. Multipitch tracking with continuous correlation feature and hybrid DBNS/HMM model [46]

En este trabajo se propone un metodo para estimar continuamente la frecuencia fundamental de la voz en el dominio del tiempo, cuando otras senales del mismo tipo interfieren en la senal de voz. Utilizan las redes de creencias profundas (DBN) para encontrar las frecuencias mas probables y despues emplean HMM para determinar la frecuencia, las continuas iteraciones generan un contorno del habla del cual se puede determinar su periodo. Este metodo muestra ser mas eficiente frente a otros que no realizan el analisis de continuidad.

7. A novel method for pitch detection via instantaneous frequency estimation using polynomial chirplet transform [47]

La frecuencia instantanea de una senal de voz se puede determinar mediante la transformada wavelet, la transformada de Fourier de corto tiempo o la distribucion Wigner Ville; sin embargo, es posible obtener un mayor orden de generalizacion al representar la frecuencia como una funcion de mayor orden polinomica del tiempo. Esto se logra utilizando la transformacion polinomica de Chirplet (PCT). Con la PCT no es necesario asumir el habla como un proceso estacionario, por lo que su frecuencia puede variar en el tiempo, los resultados obtenidos muestran precision para determinar las frecuencias fundamentales de diferentes hombres y mujeres.

8. Automatic speaker recognition using a unique personal feature vector and gaussian mixture models [48]

El reconocimiento de la frecuencia fundamental de la voz se realiza utilizando la herramienta de simulacion Matlab. Para esto se define el vector de la huella de la voz y se utilizan los modelos mezclados gaussianos para el proceso de clasificacion. La huella de la voz corresponde a las caracteristicas de esta. Con el fin de obtener dichas caracteristicas, se realiza el analisis cepstral. Una vez conformado el vector, se utilizara para realizar el reconocimiento. Se observa, sin embargo, que la informacion aportada por el analisis en el dominio del tiempo puede llegar a ser redundante.

9. A method of speech periodicity enhancement using transform-domain signal decomposition [49]

Partiendo de la caracteristica de la cuasiperiodicidad de las senales de voz, se plantea la mejora de la periodicidad aplicada al residuo de la prediccion lineal del habla con el fin de mejorar el desempeno en situaciones con habla ruidosa. El algoritmo propuesto consiste en un proceso adaptativo para definir los pesos que determinan la porcion del habla periodica y la aperiodica. La mejora en la periodicidad del habla depende de la lengua, siendo mas eficiente en lenguas tonales que no tonales.

10. A multipitch tracking algorithm for noisy and reverberant speech [50]

La deteccion de la frecuencia fundamental se realiza tanto en el dominio del tiempo como en el de la frecuencia, y se consideran efectos adversos sobre la senal de habla, como el ruido y la reverberacion producida por el multitrayecto. Utilizando descriptores temporales y espectrales se calculan las probabilidades de las posibles frecuencias mediante HMM. Los resultados obtenidos muestran mayor eficiencia que otros metodos de deteccion, sobre todo en habla con reverberancia.

11. Pitch contour extraction of singing voice in polyphonic recordings of Indian classical music [51]

Las grabaciones de la musica clasica india se clasificaron y se seleccionaron aquellas en las cuales predomina el canto y son armonicas. La estimacion se realiza mediante el analisis de Fourier con la transformada de Fourier ejecutando la interpolacion parabolica entre los picos espectrales. El metodo propuesto no cae en el error de estimacion de la frecuencia por octava y tiene una gran precision considerando la calidad de las grabaciones.

12. Pitch detection method based on morphological filtering and HHT [52]

Se propone un metodo de deteccion en el dominio de la frecuencia para habla ruidosa. Esta senal pasa por un filtro morfologico para remover el ruido. Posteriormente la transformada Hilbert-Huang (HHT) es aplicada y se calcula la energia instantanea. Esta energia permite detectar los momentos de cierre y apertura de las cuerdas vocales. Los ciclos de las cuerdas vocales permiten inferir el valor de la frecuencia fundamental de la voz.

El numero de articulos que aporta a la resolucion de las tres preguntas de investigacion se muestra en la figura 4. Dado que en todos los textos se realiza la deteccion de la frecuencia fundamental de la voz, todos brindan informacion sobre los metodos actualmente mas utilizados para esto; mientras que cinco articulos (1, 2, 5, 9 y 12) contemplan la presencia de ruido y cuatro la deteccion de multiples frecuencias fundamentales (3, 4, 6 y 10).

Para responder a la primera pregunta de investigacion, que busca identificar los principales metodos para la deteccion de la frecuencia fundamental de la voz, se agruparon los diferentes articulos en las categorias definidas en el esquema de clasificacion, los resultados obtenidos se sintetizaron en la figura 5.

Los metodos mas explorados son los espectrales, en los cuales se realizan transformaciones basadas en la transformada de Fourier para mejorar la deteccion de la frecuencia fundamental, tales como las funciones de retardo de grupo, la transformada Cepstrum, la transformada Chirplet polinomica y la transformada Hilbert-Huang. El dominio del tiempo emplea modelos probabilisticos para encontrar la autocorrelacion de la senal. En estos casos, se busca mejorar la periodicidad de la senal y se emplean redes neuronales. El metodo que considera analisis en los dominios del tiempo y la frecuencia es el que toma en cuenta multiples frecuencias fundamentales, ruido y ademas reverberacion en la senal de voz recibida. Con esto se busca que la informacion adicional brindada al realizar el analisis en los dos dominios mejore la precision en la deteccion.

Es importante determinar cuales son los metodos utilizados cuando se considera la presencia de ruido en la senal de voz. Los resultados encontrados se muestran en la figura 6, en la que se observa que el analisis espectral es el mas estudiado. Los articulos 1 y 9 buscan mejorar la periodicidad de la senal para garantizar la correcta deteccion, segun [41] y [49], mientras que otras propuestas utilizan metodos que implican un mayor procesamiento, como el articulo 5, segun [45], en el que se utiliza un filtro de particulas.

El uso de filtros como una etapa de preprocesamiento para mitigar la presencia de ruido en la senal es util cuando se tienen componentes de ruido que no se solapan con el ancho de banda de la senal.

En los casos en los que se consideran multiples frecuencias fundamentales, los metodos mas utilizados son los del dominio del tiempo, aunque la diferencia no es tan marcada como en el caso del

De los cuatro articulos que consideran multiples voces combinadas en la senal de audio, solo [43] y [44] consideran la deteccion simultanea de dos frecuencias fundamentales diferentes. Para esto proponen un procesamiento por fases, en las cuales, una vez detectada la primera frecuencia, se elimina junto con sus armonicos y la senal resultante se analiza nuevamente para detectar la segunda frecuencia. Los dos articulos realizan su analisis en dominios diferentes (tiempo y frecuencia).

4. Discusion y conclusiones

Los resultados obtenidos por las diferentes aplicaciones que realizan deteccion de la frecuencia fundamental de la voz revelan la importancia del proceso de adquisicion de datos, dado que es posible obtener diferentes niveles de precision de acuerdo a la base de datos consultada. Ademas, factores como la frecuencia de muestreo, el entorno y las posibles anomalias en la voz de las personas analizadas pueden influir notablemente en los resultados.

La eficacia de los metodos para la deteccion de la frecuencia fundamental de la voz varia de acuerdo a la aplicacion en la que se utilicen; por ejemplo, en el area de la salud, para detectar enfermedades en la voz se solicita al paciente que diga de forma sostenida una vocal. Esto es de gran ayuda cuando se asume la periodicidad de las senales de voz, pero no se lograrian los mismos resultados con un proceso de habla aleatorio.

Los resultados arrojados por el presente mapeo sistematico muestran que los metodos en el dominio del tiempo se utilizan cuando se requiere una mayor precision, pero conllevan un mayor tiempo de procesamiento, por lo que habria que evaluar su viabilidad para aplicaciones en tiempo real.

La revision de la literatura arrojo que existen pocos estudios que comparen los metodos mas novedosos para la deteccion de la frecuencia fundamental de la voz, como las diferentes variaciones de la transformada de Fourier para la deteccion en el dominio de la frecuencia o el uso de diferentes filtros.

El procesamiento por fases permite identificar dos frecuencias fundamentales diferentes, pero no se encontraron trabajos que planteen la deteccion de un numero mayor. La dificultad radica en que se asume que la senal tendra una frecuencia fundamental dominante que se identifica en la primera fase del procesamiento. Esta, junto con sus armonicos, es eliminada mediante un filtro y la senal resultante se analiza nuevamente para encontrar la segunda frecuencia fundamental; sin embargo, otras frecuencias fundamentales podrian no diferenciarse lo suficiente del resto de componentes espectrales para ser identificadas.

Se debe tener en cuenta, ademas, que los humanos cuentan con dos oidos. El tener un oido en cada lado de la cabeza permite identificar la direccion del sonido y ubicar la fuente, por lo que se debe estudiar la posibilidad de disenar arreglos de microfonos para mejorar la deteccion de multiples voces.

En dos articulos [44] y [45] se proponen metodos para detectar la frecuencia fundamental de la voz de forma continua, pero no se contempla la deteccion simultanea de diferentes frecuencias fundamentales, por lo que no existen trabajos que aborden todos los factores necesarios para realizar el reconocimiento de multiples voces en entornos reales y efectuar el procesamiento en tiempo real.

Aunque el campo del procesamiento digital de la voz ha estado presente por varias decadas, todavia existen retos por superar en esta area. Esto se evidencia en las dificultades que presentan aun los sistemas que intentan entender la voz.

Los metodos actuales para la deteccion de la frecuencia fundamental de la voz utilizan diferentes transformas, como la HHT o la PCT, para obtener una mayor resolucion en el espectro; ademas, se hace uso de filtros de alta discriminacion como los filtros de barrido. Con el fin de aumentar la precision se emplean algoritmos basados en redes neuronales o filtros de particulas, pero los metodos que emplean estos algoritmos tienen un mayor tiempo de procesamiento. Finalmente, en el dominio del tiempo son muy utilizados los modelos ocultos de Markov.

El procesamiento que se le da a la senal de voz antes de ser procesada para detectar su frecuencia fundamental es crucial, dado que factores como el muestreo de la senal y la ecualizacion previa al procesamiento, entre otros, son cruciales a la hora de determinar el desempeno del metodo de deteccion; ello se muestra en las variaciones obtenidas de acuerdo a la base de datos seleccionada en las aplicaciones de la deteccion de la frecuencia fundamental de la voz.

doi: https://doi.org/ 10.16925/in.v23i13.2006

Referencias

[1] D. R. Terry, L. Quynh y B. Hoang, "Moving forward with dignity: Exploring health awareness in an isolated Deaf community of Australia", Disabil. Health J., vol. 9, no. 2, pp. 281-288, 2016. [Online]. doi: http:// dx.doi.org/10.1016/j.dhjo.2015.n.002.

[2] A. Iglesias, J. Jimenez, P. Revuelta y L. Moreno, "Avoiding communication barriers in the classroom: the APEINTA project", Interact. Learn. Environ., vol. 4820, no. September, pp. 1-15, 2014. [Online]. doi: https://doi.org/10.1080/10494820.2014.924533

[3] R. Perkins, T Battle, J. Edgerton y J. Mcneill, "A Survey of Barriers to Employment for Individuals Who Are Deaf", J. Am. Deaf. Rehabil. Assoc., vol. 49, no. 1, pp. 66-85, 2015. [Online]. Disponible en http:// repository.wcsu.edu/jadara/vol49/iss2/3/.

[4] T Starner, J. Auxier, D. Ashbrook y M. Gandy, "The Gesture Pendant: a self-illuminating, wearable, infrared computer vision system for home automation control and medical monitoring", Iswc, pp. 87-94, 2000. [Online]. doi: https://doi.org/10.1109/ ISWC.2000.888469

[5] J. Wang, "Magic Ring: A Self-contained Gesture Input Device on Finger", Proc. 12th Int. Conf. Mob. Ubiquitous Multimed., vol. 13, pp. 3-6, 2013. [Online]. doi: https://doi.org/10.1145/2541831.2541875

[6] M. Wilhelm, D. Krakowczyk, F. Trollmann y S. Albayrak, "eRing: multiple finger gesture recognition with one ring using an electric field", Proceedings of the 2nd international Workshop on Sensor-based Activity Recognition and Interaction-WOAR '15, 2015, pp. 1-6. [Online]. doi: https://doi. org/10.1145/2790044.2790047

[7] S. R. Ghorpade and S. K. Waghamare, "Full Duplex Communication System for Deaf & Dumb People", vol. 5, no. 5, pp. 224-227, 2015. [Online]. Disponible en http://www.ijetae.com/files/Volume5Issue5/IJETAE_0515_38.pdf.

[8] X. Chai, G. Li, Y. Lin, Z. Xu, Y. Tang y X. Chen, "Sign Language Recognition and Translation with Kinect", en The 10th IEEE International Conference on Automatic Face and Gesture Recognition, 2013, pp. 2226. [Online]. Disponible en http://iip.ict.ac.cn/sites/ default/files/publication/2013_FG_xjchai_Sign%20 Language%20Recognition%20and%20Translation%20with%20Kinect.pdf.

[9] L. E. Potter, J. Araullo y L. Carter, "The Leap Motion controller", Proceedings of the 25th Australian Computer-Human Interaction Conference on Augmentation, Application, Innovation, Collaboration-OZCHI '13,2013, pp. 175-178. [Online]. Disponible en http:// dl.acm.org/citation.cfm?doid=2541016.2541072.

[10] K. Petersen, R. Feldt, S. Mujtaba y M. Mattsson, "Systematic mapping studies in software engineering", 12th International Conference on Evaluation and Assessment in Software Engineering, pp. 68-77, 2008. [Online]. Disponible en http://dl.acm.org/citation.cfm?id=2227123.

[11] L. Sukhostat y Y. Imamverdiyev, "A Comparative Analysis of Pitch Detection Methods Under the Influence of Different Noise Conditions", J. Voice, vol. 29, no. 4, pp. 410-417, 2014. [Online]. doi: http:// dx.doi.org/10.1016/j.jvoice.2014.09.016.

[12] M. MakyH. Yu, "A studyofvoice activitydetection techniques for NIST speaker recognition evaluations", Comput. Speech Lang., vol. 28, no. 1, pp. 295-313, 2014. [Online]. doi: http://dx.doi.org/10.1016/j.csl.2013.07.003.

[13] J. Li, L. Deng, Y. Gong y R. Haeb-Umbach, "An Overview of Noise-Robust Automatic Speech Recognition", IEEE/ACM Trans. Audio, Speech, Lang. Process, vol. 22, no. 4, pp. 745-777, Abr. 2014. [Online]. doi: https://doi.org/10.1109/TASLP.2014.2304637

[14] B. Torres, Anatomia funcional de la voz, Espana: Paidotribo, 2008. [Online]. Disponible en http://www. medicinadelcant.com/cast/1.pdf.

[15] D. Talkin, W. B. Kleijn y K. K. Paliwal, "A Robust Algorithm for Pitch Tracking (RAPT)", Speech Co ding and Synthesis, Netherlands: Elsevier, 1995. [Online]. Disponible en https://www.ee.columbia. edu/~dpwe/papers/Talkin95-rapt.pdf.

[16] R. Dosal Gonzalez, "Produccion de la voz y el habla. La fonacion", pp. 1-27, 2014. [Online]. Disponible en http://repositorio.unican.es/xmlui/bitstream/handle/10902/5583/DosalGonzalezR.pdf?sequence=1

[17] Clinica de Mayo, "Cuerdas vocales abiertas y cerradas -Mayo Clinic" [Online]. Disponible en http:// www.mayoclinic.org/es-es/diseases-conditions/vocal-cord-paralysis/multimedia/vocal-cords-open-and-closed/img-20008069.

[18] C. M. Travieso, J. B. Alonso, J. R. Orozco-Arroyave, J. F. Vargas-Bonilla, E. Noth y A. Revelo-Garcia, "Detection of Different Voice Diseases Based on the Nonlinear Characterization of Speech Signals", Expert Syst. Appl., vol. 82, pp. 184-195, 2017. [Online]. doi: https://doi.org/10.1016Zj.eswa.2017.04.012

[19] A. Kacha, C. Mertens, F. Grenez, S. Skodda y J. Schoentgen, "On the harmonic-to-noise ratio as an acoustic cue of vocal timbre of Parkinson speakers", Biomed. Signal Process. Control, p. 7, 2016. [Online]. doi: http://dx.doi.org/10.1016/j.bspc.2016.09.004.

[20] A. Al-Nasheri et al., "An Investigation of Multidimensional Voice Program Parameters in Three Different Databases for Voice Pathology Detection and Classification", J. Voice, vol. 31, no. 1, pp. 113-118, 2017. [Online]. doi: http://dx.doi.org/10.1016/j. jvoice.2016.03.019

[21] G. Muhammad, G. Altuwaijri y M. Alsulaiman, "Automatic Voice Pathology Detection and Classification Using Vocal Tract Area Irregularity", EMS '13 Proceedings of the 2013 European Modelling Symposium, 2016, vol. 6, pp. 164-168. [Online]. doi: https:// doi.org/10.1016/j.bbe.2016.01.004

[22] G. Muhammad et al., "Pathology Detection Using Interlaced Derivative Pattern on Glottal Source Excitation", Biomed. Signal Process. Control, vol. 31, pp. 156-164, 2017. [Online]. doi: http://dx.doi.org/10.1016/j.bspc.2016.08.002.

[23] W. De Armas, K. A. Mamun y T. Chau, "Vocal Frequency Estimation and Voicing State Prediction with Surface EMG Pattern Recognition", SPEECH Commun., vol. 63-64, pp. 15-26, 2014. [Online]. doi: http://dx.doi.org/10.1016/j.specom.2014.04.004.

[24] N. Vieira and P. H. Sansa, "Measurement of Signal-to-Noise Ratio in Dysphonic Voices by Image Processing of Spectrograms", vol. 62, pp. 17-32, 2014. [Online]. doi: https://doi.org/10.1016/j.specom.2014.04.001

[25] H. Ghasemzadeh, M. Tajik y M. Khalil, "Detection of Vocal Disorders Based on Phase Space Parameters and Lyapunov Spectrum", Biomed. Signal Process. Control, vol. 22, pp. 135-145, 2015. [Online]. doi: http://dx.doi.Org/10.1016/j.bspc.2015.07.002.

[26] K. Selvan, A. Joseph y K. K. Anish Babu, "Speaker Recognition System for Security Applications", IEEE Recent Advances in Intelligent Computational Systems Speaker, 2013, pp. 1-5. [Online]. Disponible en http://ieeexplore.ieee.org/document/6745441/.

[27] R. Achkar, M. El-halabi, E. Bassil, R. Fakhro y M. Khalil, "Voice Identity Finder Using the Back Propagation Algorithm of an Artificial Neural Network", Procedia Procedia Comput. Sci., vol. 95, pp. 245-252, 2016. [Online]. doi: http://dx.doi.org/10.1016/j.procs.2016.09.322.

[28] S. Adibi, "Telematics and Informatics A low overhead scaled equalized harmonic-based voice authentication system", Telemat. Informatics, vol. 31, no. 1, pp. 137-152, 2014. [Online]. doi: http://dx.doi. org/10.1016/j.tele.2013.02.004.

[29] E. San Segundo, A. Tsanas y P. Gomez-vilda, "Euclidean Distances as measures of speaker similarity including identical twin pairs : A forensic investigation using source and fi lter voice characteristics", Forensic Sci. Int., vol. 270, pp. 25-38, 2017. [Online]. doi: http://dx.doi.org/10.1016/j.forsciint.2016.11.020.

[30] J. H. Ahnn, "Scalable Big Data Computing for the Personalization of Machine Learned Models and its Application to Automatic Speech Recognition Service", in IEEE International Conference on Big Data (Big Data), 2014, pp. 1-8. [Online]. Disponible en http:// ieeexplore.ieee.org/abstract/document/7004349/.

[31] J. Wagner, F. Lingenfelser, T Baur, I. Damian, F. Kistler y E. Andre, "The Social Signal Interpretation (SSI) Framework Multimodal Signal Processing and Recognition in Real-Time", Proceedings of the 21st ACM International Conference on Multimedia. pp. 21-25, 2013. [Online]. Disponible en http://dl.acm. org/citation.cfm?id=2502223.

[32] P. P. Dahake, K. Shaw y P. Malathi, "Speaker Dependent Speech Emotion Recognition using MFCC and Support Vector Machine", International Conference on Automatic Control and Dynamic Optimization Techniques, 2016, pp. 1080-1084. [Online]. Disponible en http://ieeexplore.ieee.org/document/7877753/.

[33] E. Andre and T. Vogt, "Improving Automatic Emotion Recognition from Speech via Gender Differentiation", Language Resources and Evaluation Conference, 2006. pp. 1-6. [Online]. Disponible en https://www.informatik.uni-augsburg.de/lehrstuehle/hcm/publications/2006-LREC/.

[34] R. Chakraborty, M. Pandharipande y S. Kopparapu, "Event Based Emotion Recognition for Realistic Non-Acted Speech", TENCON 2015-2015 IEEE Reg. 10 Conf., 2015. pp. 1-5. [Online]. Disponible en http:// ieeexplore.ieee.org/document/7372953/?reload=true&arnumber=7372953.

[35] E. DArca, N. M. Robertson y J. Hopgood, "Using the Voice Spectrum for Improved Tracking of People in a Joint Audio-Video Scheme", en IEEE International Conference on Acoustics, Speech and Signal Processing, 2013, pp. 3622-3626. [Online]. Disponible en http://ieeexplore.ieee.org/document/6638333/.

[36] S. H. Mohammadi and A. Kain, "An Overview of Voice Conversion Systems", Speech Commun., vol. 88, pp. 65-82, 2017. [Online]. doi: http://dx.doi.org/10.1016/j.specom.2017.01.008.

[37] A. V Savchenko and L. V Savchenko, "Towards the Creation of Reliable Voice Control System Based on a Fuzzy Approach", Pattern Recognit. Lett., vol. 65, pp. 145-151, 2015. [Online]. doi: http://dx.doi. org/10.1016/j.patrec.2015.07.013.

[38] J. Gatti, C. Fonda, L. Tenze y E. Canessa, "Voice-Controlled Artificial Handspeak System", International Journal of Artificial Intelligence & Applications, vol. 5, no. 1, pp. 107-112, 2014. [Online]. doi: https://doi. org/10.5121/ijaia.2014.5108

[39] C. G. Le Prell and O. H. Clavier, "Effects of noise on speech recognition : Challenges for communication by service members Hearing in Noise Test Speech Perception in Noise", Hear. Res., vol. 349, pp. 76-89, 2016. [Online]. doi: http://dx.doi.org/10.1016Zj.heares.2016.10.004.

[40] W. J. Hess, "Pitch and Voicing Determination of Speech with an Extension Toward Music Signals", Springer Handbook of Speech Processing, Springer, 2008, pp. 181-212. [Online]. Disponible en http:// link.springer.com/10.1007/978-3-540-49127-9_10.

[41] K. Wu, D. Zhang y G. Lu, "IPEEH: Improving pitch estimation by enhancing harmonics", Expert Syst. Appl., vol. 64, pp. 317-329, 2016. [Online]. doi: http://dx.doi.org/10.1016/j.eswa.2016.08.018

[42] L. N. Tan y A. Alwan, "Multi-Band Summary Correlogram-Based Pitch Detection for Noisy Speech", Speech Commun., vol. 55, no. 7-8, pp. 841-856, 2013. [Online]. doi: http://dx.doi.org/10.1016/j.specom.2013.03.001.

[43] R. Rajan y H. A. Murthy, "Two-Pitch Tracking in Co-Channel Speech Using Modified Group Delay Functions", Speech Commun., vol. 89, pp. 37-46, 2017. [Online]. doi: http://dx.doi.org/10.1016/j.specom.2017.02.004.

[44] J. Zeremdini, M. Anouar, B. Messaoud y A. Bouzid, "Multiple Comb Filters and Autocorrelation of the Multi-Scale Product for Multi-Pitch Estimation", Appl. Acoust., vol. 120, pp. 45-53, 2017. [Online]. doi: http://dx.doi.org/10.1016/j.apacoust.2017.01.013

[45] G. Zhang y S. Godsill, "Tracking Pitch Period Using Particle Filters", in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2013, pp. 1-4. [Online]. Disponible en http://ieeexplore.ieee. org/document/6701846/.

[46] J. ie Lin, G. Zhang, B. Fu y Y. Hao, "Multipitch Tracking With Continuous Correlation Feature and Hybrid DBNS/HMM Model", 11th International Computer Conference on Wavelet Actiev Media Technology and Information Processing(ICCWAMTIP), 2014, pp. 218-221. [Online]. Disponible en http:// ieeexplore.ieee.org/document/7073394/.

[47] G. Naganjaneyulu, M. V. Ramana y A. Narasimhadhan, "A Novel Method for Pitch Detection via Instantaneous Frequency Estimation using Polynomial Chirplet transform", IEEE Region 10 Conference (TENCON), 2016, no. 2, pp. 1250-1253. [Online]. Disponible en http://ieeexplore.ieee.org/ document/7848211/.

[48] K. Kaminski, E. Majda y A. Dobrowolski, "Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models", in Signal Processing: Algorithms, Architectures, Arrangements y Applications (SPA), 2013, pp. 220-225. [Online]. Disponible en http://ieeexplore.ieee.org/ document/6710629/.

[49] F. Huang, T. Lee, W B. Kleijn y Y. Kong, "A Method of Speech Periodicity Enhancement Using Transform-Domain Signal Decomposition", Speech Commun., vol. 67, pp. 102-112, 2015. [Online]. doi: http://dx.doi.org/10.1016/j.specom.2014.12.001.

[50] Z. Wang and J. DeLiang, "A Multipitch Tracking Algorithm for Noisy and Reverberant Speech", IEEE International Conference on Acoustics, Speech and Signal Processing, 2010, pp. 4218-4221. [Online]. Disponible en http://ieeexplore.ieee.org/document/5495702/.

[51] K. Akant and S. Limaye, "Pitch contour extraction of singing voice in polyphonic recordings of Indian classical music", International Conference on Electronic Systems, Signal Processing and Computing Technologies, 2014, pp. 123-128. [Online]. Disponible en http://ieeexplore.ieee.org/document/6745358/.

[52] W Yao-qi, W Xiao-peng, L. Tao y L. Wei-wei, "Pitch detection Method Based on Morphological Filtering and HHT", J. China Railw. Soc., 2014. pp. 56-61. [Online]. Disponible en http://en.cnki.com.cn/Article_en/CJFDTOTAL-TDXB201407010.htm.

Maria Manuela Silva Zambrano (1), Harold Armando Romo Romero (2), Jesus Mauricio Ramirez Viafara (3), Diana Maria Galvis Zambrano (4)

(1) Ingeniera Electronica y de Telecomunicaciones. Docente de la Facultad de Ingenieria Electronica y Telecomunicaciones. Universidad del Cauca. Popayan, Colombia Correo electronico: mariasilva@unicauca.edu.co

(2) Magister en Electronica y de Telecomunicaciones. Docente Facultad de Ingenieria Electronica y Telecomunicaciones. Universidad del Cauca. Popayan, Colombia

(3) Magister en Electronica y de Telecomunicaciones. Docente Facultad de Ingenieria Electronica y Telecomunicaciones. Universidad del Cauca. Popayan, Colombia

(4) Medico General. Pontificia Universidad Javeriana. Bogota, Colombia

Fecha de recibido: 28 de abril del 2017 Fecha de aprobado: 25 de agosto del 2017

Caption: Figura 1. Proceso de mapeo sistematico Fuente: elaboracion propia

Caption: Figura 2. Esquema de clasificacion Fuente: elaboracion propia

Caption: Figura 3. Aparato fonador Fuente: [17]

Caption: Figura 4. Articulos por pregunta de investigacion Fuente: elaboracion propia

Caption: Figura 6. Metodos de deteccion de la frecuencia fundamental con ruido Fuente: elaboracion propia

Caption: Figura 7. Metodos de deteccion de multiples frecuencias fundamentales Fuente: elaboracion propia
Tabla 1. Resultados de la busqueda inicial

Cadena   IEEE   ScienceDirect   Scopus

CB1       62         47           23
CB2       28         35           6
CB3       4           1           1
Total     94         83           30

Fuente: elaboracion propia

Tabla 2. Articulos incluidos

Cadena   IEEE   SciencDirect   Scopus

ss1       2          0           1
ss2       1          3           1
ss3       1          2           1
Total     4          5           3

Fuente: elaboracion propia

Figura 5. Agrupacion de acuerdo al metodo de deteccion de la
frecuencia fundamental

Frecuencia            9%
Tiempo                55%
Tiempo y frecuencia   36%

Fuente: elaboracion propia

Note: Table made from pie chart.
COPYRIGHT 2017 Universidad Cooperativa de Colombia
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2017 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Zambrano, Maria Manuela Silva; Romero, Harold Armando Romo; Viafara, Jesus Mauricio Ramirez; Zambran
Publication:Revista Ingenieria Solidaria
Date:Sep 1, 2017
Words:8441
Previous Article:ORGANIZATIONAL STRUCTURES AND ADAPTATION TO CHANGING ENVIRONMENTAL CONDITIONS: CHALLENGES AND IMPLICATIONS/ESTRUCTURAS ORGANIZACIONALES Y ADAPTACION...
Next Article:STATE OF THE ART OF SERIOUS GAMES ON ANDROID MOBILE PLATFORM FOR LEARNING SOFTWARE MODELING/ESTADO DEL ARTE DE LOS JUEGOS SERIOS SOBRE PLATAFORMA...
Topics:

Terms of use | Privacy policy | Copyright © 2020 Farlex, Inc. | Feedback | For webmasters