Rev. Tecno Lógicas No. 26, ISSN 0123-7799, Junio de 2011, pp. 27-45 Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Juan R. Orozco-Arroyave1 Jonny A. Uribe2 Jesús F. Vargas-Bonilla3 Resumen El labio y/o paladar hendido (LPH) es una malformación, que tiene orígenes de tipo genético y ambiental. En Colombia, 6 de ca- da 10000 niños nacen con esta malformación, mientras en el resto del mundo la proporción se encuentra en 1 de cada 10000. El LPH trae consigo patologías en el habla tales como: hipernasalidad, hi- ponasalidad, golpe glótico, entre otras. De todas estas patologías, la hipernasalidad es la más recurrente en pacientes con LPH, apa- reciendo aproximadamente en el 90% de los casos. En este trabajo se hace un análisis, basado en resultados experimentales, del desempeño del Operador de Energía de Teager (TEO, por las siglas en inglés de Teager Energy Operator), para la detección de hiper- nasalidad en pacientes con LPH. Se analiza una versión generali- zada del TEO con el fin de validar su capacidad discriminante en la detección de hipernasalidad, aplicándolo sobre una base de da- tos con registros de voz reales, de niños con LPH y niños control. Los resultados obtenidos comprueban que el TEO posee gran capa- cidad discriminante, y puede aportar información relevante en el proceso de detección de hipernasalidad. 1 Grupo de Investigación en Telecomunicaciones Aplicadas, GITA, Universidad de Antioquia, Medellín-Colombia, rafa.orozco@gmail.com 2 Grupo de Investigación en Telecomunicaciones Aplicadas, GITA, Universidad de Antioquia, Medellín-Colombia, sirjoy.ur@gmail.com 3 Grupo de Electrónica de Potencia, Automatización y Robótica, GEPAR, Universidad de Antioquia, jfvargas@udea.edu.co Fecha de recepción: 16 de Agosto de 2010 Fecha de aceptación: 09 de Enero de 2011 [28] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas Palabras clave Hipernasalidad, Operador de energía de Teager (TEO), Labio y/o Paladar Hendido (LPH). Abstract The Cleft Lip and Palate (CLP) is a multi-factorial malfor- mation that has genetic and environmental origins. In Colombia, 6 of 10000 children born with this malformation, while in the rest of the world, the proportion is about 1 of each 10000. The CLP origi- nates some kinds of pathologies in the speech such as hypernasali- ty, hyponasality, glottal coup, among others. From all of these pa- thologies, the hypernasality is the most frequent in CLP patients, appearing approximately, in 90% of the cases. In this work, based on experimental results, a performance analysis of the Teager En- ergy Operator (TEO) is made in the framework of the hypernasali- ty detection on CLP patients. A generalized version of TEO is ap- plied to validate its discrimination capacity over a dataset contain- ing real voice registers of children with CLP and healthy children. The results showed that TEO has discrimination capacity and can contribute with important information in the hypernasality detec- tion issue. Keywords Hypernasality, Teager Energy Operator (TEO), Cleft Lip and Palate (CLP). Revista Tecno Lógicas No. 26, Junio de 2011 [29] 1. INTRODUCCIÓN Los pacientes con LPH presentan problemas de emisión vocal y resonancia, tales como: hipernasalidad, hiponasalidad, golpe glóti- co, entre otros (Castellanos, 2005). Debido a que el 90% de los pacientes con LPH son hipernasales, es de especial interés científi- co estudiar esta patología (Castellanos, et al. 2006). Desde la dé- cada de 1970, existen estudios sobre análisis acústico de voces patológicas (Fujimura & Lindqvist, 1971). Estas investigaciones han orientado a los investigadores hacia el análisis del espectro de la voz, particularmente en las bajas frecuencias. Algunas alteraciones de las señales en el tiempo pueden ser es- tudiadas mediante características acústicas; una de las más estu- diadas por los investigadores es el período fundamental de la señal vocal, conocida en inglés como Pitch. Mediante esta característica se busca medir el período de vibración de las cuerdas vocales; cuando esta medida se aleja de valores previamente identificados como normales, es posible inferir que el tracto vocal objeto de estudio está sufriendo algún tipo de patología (Kasuya et al., 1983). Otra característica es el Jitter, que representa la variación que el pitch sufre a lo largo del tiempo. Así mismo, la variación de amplitud en el Pitch, constituye el denominado Shimmer, que es otro de los patrones importantes en la identificación de patologías de voz (Kasuya et al., 1983). Además del análisis efectuado en el dominio temporal, es posi- ble apoyarse en los modelos clásicos de producción del habla para proponer métricas que permitan dar cuenta de patologías como la hipernasalidad. En general, se han encontrado métricas que to- man en cuenta el ruido turbulento producido por el tracto vocal en condiciones patológicas. Es así como se han planteado la relación de harmónicos a ruido (HNR, por las siglas en inglés de Harmonic to Noise Excitation Ratio) (Yumoto, 1982), la Energía de Ruido Normalizada (NNE, por las siglas en inglés de Normalized Noise Energy), formulada inicialmente en (Kasuya et al., 1986) y la relación de excitación glotal a ruido (GNE, por las siglas en inglés de Glottal to Noise Excitation Ratio) (Michaelis et al., 1997), como métricas útiles en la detección de patologías en la voz. [30] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas El problema de la detección automática de patologías en la voz también ha sido tratado en el dominio espectral, particularmente en la detección de hipernasalidad los autores han enfocado sus esfuerzos en el análisis de la región de baja frecuencia del espectro vocal. Glass & Zue (1985), concentraron su búsqueda en dicha región, formulando seis características acústicas potencialmente útiles para la detección de nasalización en el idioma Inglés. Las características son: El centro de masa en las bajas fre- cuencias del espectro de la voz (0 a 100 Hz); la desviación estándar alrededor del centro de masa; el porcentaje de tiempo máximo en que hay un polo extra en las bajas frecuencias; el porcentaje de tiempo mínimo en que hay un polo extra en las bajas frecuencias; el máximo valor de profundidad del valle que existe entre el pri- mer polo y el polo extra debido a la nasalización; y el mínimo valor de la diferencia promedio entre el primer polo y el polo extra. Apoyándose en el trabajo de Glass, Chen (1996; 1997) buscó detectar nasalización en el francés y en el inglés, encontrando de forma recurrente dos polos adicionales en el espectro, uno antes y otro después del primer formante para vocablos nasales, por lo cual formuló las diferencias entre la amplitud del primer formante A1, y las amplitudes de los polos extra P0 y P1, como dos métricas de nasalidad en la voz. Por su parte, Vijayalakshmi & Ramasubba (2005) exploraron el espectro de la voz buscando detectar hipernasalidad. Apoyándo- se en la teoría propuesta en Murthy et al. (1989), utilizaron las funciones de retraso de grupo para mejorar la resolución espectral, detectando un pico adicional situado en 250 Hz para voces hiper- nasales. Posteriormente, tomando como base el resultado anterior, Vijayalakshmi et al. (2007) probaron la capacidad de detección de hipernasalidad de su técnica usando funciones de retraso de grupo de banda limitada y obtienen resultados de hasta el 88,7% de acierto, en la vocal /i/. Recientemente, Vijayalakshmi et al. (2009) presentaron una técnica para detección de hipernasalidad basada en la modifica- ción de los polos del espectro de predicción lineal (LP, por las si- glas en inglés de Linear Prediction) de la voz. El método consiste en calcular el espectro LP con 28 coeficientes, con el fin de poder identificar los picos adicionales debidos a las componentes de Revista Tecno Lógicas No. 26, Junio de 2011 [31] nasalización. Una vez detectado el pico más alto, éste es aplanado mediante la modificación de la magnitud del polo correspondiente en el diagrama de polos y ceros, luego se procede a generar otra señal de voz sintetizada, y finalmente la señal original y la sinteti- zada son comparadas mediante el coeficiente de correlación. Cuando el coeficiente es mayor que 0,65 se estima que la muestra es normal, pues el espectro con polo aplanado es muy similar al espectro original, de lo contrario se estima que la muestra es hi- pernasal, pues la modificación del espectro genera una diferencia sustancial con respecto al original, lo cual hace que ambas señales estén poco correlacionadas. Otra de las técnicas que pueden ser aplicadas para la detección de hipernasalidad, es utilizar operadores matemáticos para modi- ficar las señales bajo estudio, ofreciendo mejores prestaciones en el dominio transformado. Cairns et al. (1994) proponen una técnica de detección de hipernasalidad basada en el operador de energía de Teager (TEO). La aplicación del Operador de Energía de Teager (TEO), para la detección de hipernasalidad en la voz, permite tener en cuenta diferentes componentes en frecuencia que apare- cen en el espectro de voz hipernasal, las cuales pueden ser separa- das utilizando dicho operador. Cairns et al. (1996) hace la compa- ración entre los perfiles de energía de Teager de voces con hiper- nasalidad simulada limitadas en banda, usando filtros pasabaja y pasabanda, y posteriormente aplicando la correlación como medida de diferencia entre ambos perfiles; de igual forma lo hace para las señales de voz sana. Sus resultados indican que existe mayor nivel de correlación entre los perfiles filtrados provenientes de voces sanas que entre los perfiles filtrados provenientes de voces hipernasales. El resul- tado obtenido por Cairns, valida el hecho de que en el espectro de la señal hipernasal aparecen picos y valles extra, debidos al exceso de nasalización en la señal de voz. Para su experimento, Cairns trabajó con 11 personas sanas, y para el registro de las voces hi- pernasales, estas mismas personas simularon la patología. Adicio- nalmente, para las pruebas de clasificación entre vocales sanas e hipernasales, utilizó sólo la vocal /a/ y la /i/. Para tener certeza acerca de la existencia de la patología en los registros simulados, éstos fueron evaluados usando un Nasometro de Kay Elemetrics. [32] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas Por otro lado, Pruthi (2004) y Pruthi & Espy-Wilson (2005; 2007) analizaron el espectro de la voz con el fin de detectar nasali- zación en el idioma Inglés, y trabaja con registros de 630 personas sanas que pronunciaron 10 frases cada una. El trabajo de Pruthi, mejoró lo planteado por Cairns en varios aspectos: en vez de utili- zar filtros pasabajas y pasabanda, usó dos filtros pasabanda cen- trados en el primer formante, uno de ellos con banda estrecha (100 Hz), y otro con mayor ancho de banda (1000 Hz). El primer for- mante fue calculado usando un rastreador basado en el algoritmo ESPS (Talkin, 1987), diferente a la técnica empleada por Cairns. En el presente artículo, se busca validar los resultados obteni- dos por Cairns pero utilizando una base de datos más amplia, con registros de voces hipernasales reales, provenientes de voces de niños con LPH. Adicionalmente, se implementan versiones alter- nativas del TEO, a partir de la generalización presentada en Kve- dalen (2003) y de lo presentado en Ying (1993). Para comprobar la capacidad discriminante de las diferentes versiones del TEO, se implementó un clasificador cuadrático basado en la covarianza de las características, obteniendo tasas de acierto en la clasificación de 93,81%. Comprobando que el TEO posee gran capacidad dis- criminante para la detección de hipernasalidad. El resto del artículo está organizado así: en el marco teórico se presentan algunos conceptos empleados en los experimentos reali- zados. En la sección de metodología, se describen tanto la base de datos empleada como el clasificador implementado. Posteriormen- te se presentan la discusión y los resultados obtenidos. Finalmen- te, aparecen las conclusiones más importantes derivadas de este trabajo. 2. MARCO TEÓRICO 2.1 Formantes Vocálicos e Hipernasalidad Los sonidos que son generados por la vibración de las cuerdas vocales, están caracterizados por un alto contenido armónico; a partir del espectro de dichos sonidos, es posible identificar reso- nancias, las cuales aparecen como picos en la envolvente del espec- Revista Tecno Lógicas No. 26, Junio de 2011 [33] tro y reciben el nombre de formantes vocálicos, también conocidos como formantes orales, cuya posición, amplitud y ancho de banda se ven alterados debido a la hipernasalidad. De acuerdo con Pruthi & Espy-Wilson (2007), el primero de los formantes puede estar rodeado de picos adicionales debidos a la nasalización excesiva de la voz, formando así espectros multicomponente. 2.2 Perfiles de Energía Teager Dada una señal , su perfil de energía Teager se define, de acuerdo con (Kaiser, 1990), como en (1):   )1()1()()( 2  nxnxnxnxd (1) Una de las características de este operador es su sensibilidad a entradas multicomponente. Sea una señal compuesta tal que . Su perfil está dado por (2): )]1()1()][1()1([)]()([))(( 2  ngnsngnsngnsnx  )](),([)](),([)]([)]([ nsngngnsngns crosscross   (2) Donde ).1()1()()()](),([  nsngnsngnsngcross Esto significa que el operador de energía no obedece al principio de superposi- ción, y añade términos extra  cross para señales multicompo- nente. 2.3 Correlación sobre los Perfiles de Energía de Teager El CTEO (Correlation Teager Energy Operator), es una métri- ca propuesta en Cairns et al. (1996) para detectar hipernasalidad. Su razonamiento puede ser descrito de la siguiente forma: la señal de voz sana contiene sólo formantes orales (3),  )(FSNORMAL (3) [34] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas Donde representa los formantes orales. Por su parte, la voz hipernasal contiene formantes, anti formantes (valles en el espectro) y formantes nasales (4):   )()()(  NFAFFSNASAL (4) Donde representa los anti formantes (el signo menos da cuenta de que los antiformantes aparecen como valles en el espec- tro), y son los formantes extra debidos a la hipernasalidad de la señal de voz. Si una voz sana se filtra con un filtro pasabajas apropiado, es posible extraer el primer formante, dado por en (5): )()( 1  FLPFSNORMAL  (5) Mientras que al aplicar este mismo filtro a una señal hiperna- sal, aparecen términos adicionales a , tales como los antiforman- tes y los formantes nasales (6):   )()()()( '' 1  FNFAFLPFSNASAL (6) Si en vez de utilizar un filtro pasabajas, usamos uno pasaban- da alrededor de , aparecerá sólo el primer formante tanto para la voz normal (7) como para la voz hipernasal (8): )()( 1  FBPFSNORMAL  (7) )()( 1  FBPFSNASAL  (8) Buscando explotar esta asimetría, el TEO es calculado sobre las señales filtradas, tanto pasabajas como pasabanda, para luego medir la correlación entre ambas respuestas. Dado que el filtrado pasabajas sobre la voz hipernasal dejará una señal multicompo- nente, su perfil de energía Teager tendrá una contribución debida a los términos cruzados  cross , es decir, los perfiles de energía de la señal pasabajas y pasabanda para la voz hipernasal serán dife- rentes, mientras que para la voz normal, éstos serán similares Revista Tecno Lógicas No. 26, Junio de 2011 [35] tanto para la señal pasabaja como para la señal pasabanda. De esta forma, entre más bajo sea el valor de la correlación para los perfiles de Energía de las señales pasabajas y pasabanda, más diferentes serán las señales analizadas. En el trabajo de Cairns se utiliza la función de correlación para cuantificar la diferencia entre los perfiles obtenidos, se emplean las voces de 11 personas sanas. Para obtener datos de muestras de voz hipernasales, las mismas 11 personas sanas simularon voces hipernasales. El nivel de nasalización de cada registro hipernasal simulado, fue validado usando un nasómetro de Kay Elemetrics. Finalmente, para el ejercicio de clasificación, Cairns utilizó sólo las vocales /a/ e /i/. Por otra parte, Pruthi (2007), buscando detectar nasalización en el idioma Inglés, mejora el trabajo de Cairns eliminando la necesidad de efectuar sincronización de Pitch y utilizando dos filtros pasabanda en vez de uno pasabaja y uno pasabanda. En su trabajo, las frecuencias centrales de los filtros se encuentran alre- dedor del primer formante, cuya ubicación es conocida mediante un rastreador de formantes ESPS (Talkin, 1987). Uno de los filtros es de banda estrecha (100 Hz), mientras que el otro posee mayor ancho de banda (1000 Hz). Para sus validaciones, Pruthi utiliza una base de datos exten- sa, compuesta por 6300 frases. Sus resultados muestran que la correlación de los perfiles de energía Teager contribuye en la clasi- ficación de un sonido como nasal o normal. En el presente artículo, se aplica el concepto presentado por Cairns para la detección de hipernasalidad en registros de voz reales. Adicionalmente, se exploran otras implementaciones del TEO, las cuales se describen a continuación: 2.4 TEO Generalizado De acuerdo con Kvedalen (2003), el TEO puede ser generaliza- do de tal forma que la expresión matemática es como en (9):   mm d nxnxnxnx 12 )1()1()()(  (9) [36] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas Donde y Considerando esta expresión, se efectuaron diversas pruebas con el fin determinar cuáles son los valores de y más adecuados para efectos de detección de hipernasalidad. 2.5 TEO Basado en la FFT Ying et al. (1993) plantean la posibilidad de calcular la energía de una señal de voz utilizando una forma modificada del Operador de Energía de Teager (TEO). La forma matemática propuesta por Ying et al. se muestra en (10): 2 1 1 2 )(          i nn iSi (10) Donde n denota el TEO modificado, es el la densidad es- pectral de potencia de la n-ésima trama de voz, calculada usando la FFT, e es el valor de la frecuencia en el dominio discreto. 3. METODOLOGÍA 3.1 Base de Datos La base de datos utilizada para el desarrollo de este trabajo, fue la misma utilizada en Castellanos (2005). La cual fue suminis- trada por el grupo de Control y Procesamiento Digital de Señales (GC&PDS) de la Universidad Nacional de Colombia, sede Maniza- les. Está conformada por registros de voces provenientes de 110 niños sanos y 156 con LPH, los cuales fueron diagnosticados como hipernasales por un experto en Fonoaudiología. Para este trabajo, fueron considerados los registros provenien- tes de la pronunciación sostenida de las cinco vocales del idioma Español. Los registros tuvieron una duración promedio de 300 ms, y fueron capturados en condiciones controladas: dentro de una cabina sono-amortiguada, utilizando un micrófono omnidireccional de alta ganancia, cableado profesional balanceado (conectores XLR) y una tarjeta de audio profesional. Todos los registros fueron Revista Tecno Lógicas No. 26, Junio de 2011 [37] digitalizados con una frecuencia de muestreo de 48000 muestras por segundo, utilizando 16 bits en la cuantización. 3.2 Implementación Considerando los buenos resultados obtenidos en Pruthi & Espy-Wilson (2007), usando filtros FIR pasabanda de orden 200, para las pruebas realizadas también fueron implementados filtros de este tipo. A pesar de que Pruthi presenta todos sus resultados usando anchos de banda de y para los filtros de banda estrecha y banda ancha, respectivamente, considerando que la hipernasalidad afecta el ancho de banda del primer formante, dichos valores fueron variados para analizar el comportamiento de las métricas bajo diferentes condiciones de ancho de banda. Es necesario resaltar que los resultados de Pruthi fueron obtenidos trabajando con voces sanas, y su objetivo era detectar nasalización en el idioma Inglés, no hipernasalidad. Con el objetivo de verificar la validez de la metodología propuesta por él, aplicándola a la detección de hipernasalidad, se hicieron pruebas estadísticas para diferentes valores de anchos de banda en los filtros. Los valores de los anchos de banda probados fueron: para 50 Hz, 100 Hz, 150 Hz,…, 600 Hz y para 900 Hz, 1000 Hz y 1100 Hz. Adicionalmente, se evaluó la capacidad de discriminación de dos variaciones del TEO; la primera variación corresponde al caso generalizado con valores de exponente m = 1, 2,…, 5, y retraso M = 1, 2,…, 5, y la segunda, cuando es calculado a partir de la densidad espectral de potencia ponderada (Ying, 1993). La prueba estadística fue hecha mediante el test de Kruscal-Wallis, definien- do la siguiente hipótesis nula: El CTEO presenta la misma distribución para las clases normal e hipernasal. En todas las pruebas realizadas, el valor del estadístico Chi- Cuadrado fue tan grande, que el correspondiente valor de la pro- babilidad de aceptación de la hipótesis nula fue siempre cero. Debido a esto, se decidió utilizar los valores del estadístico como indicador de aumento o disminución en la capacidad discriminante de la métrica. Esto es posible teniendo en cuenta que los valores de [38] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas y son correspondientes, es decir, un valor alto de produce un valor pequeño de y viceversa (NIST, 2010). Mediante la prueba estadística se comprobó que métricas cal- culadas provenían de dos poblaciones diferentes (voces sanas e hipernasales), y que por ende éstas seguían distribuciones diferen- tes. Posterior a la prueba estadística, se seleccionaron algunas de las métricas con mejores resultados (diferentes valores de m y M), dejando los anchos de banda fijos en los valores implementados por Pruthi ( 50 Hz y 900 Hz) y se implementó un clasifi- cador cuadrático, el cual se describe a continuación. 3.3 Clasificador Cuadrático En general, con el fin de dividir el espacio de características en regiones de decisión, y buscando minimizar la rata de errores, se define el siguiente conjunto de funciones discriminantes (Duda et al., 2001) dadas por (11): (11) Tomando distribuciones normales multivariadas para los da- tos, es decir, con densidad de probabilidad dada por (12): ⁄ ⁄ [ ] (12) Donde es un vector columna con componentes, es un vec- tor de medias, es la matriz de covarianzas con dimensión , denota el determinante de la matriz y su inversa. es la transpuesta de . Es posible expandir la expresión de (11) obteniendo un conjun- to de funciones discriminantes para datos con densidad normal, así (13): (13) = 1 2 𝑇 1 2 2 1 2 + ( ) Revista Tecno Lógicas No. 26, Junio de 2011 [39] Cuando las matrices de covarianza se consideran iguales pero arbitrarias, para todas las clases, como en el clasificador imple- mentado en este trabajo, las características serán clasificadas dentro de hiperelipsoides iguales, tales que el hiperelipsoide de la clase estará centrado alrededor del vector de medias . Dado que para el caso descrito es independiente de , al igual que el término , éstos pueden ser ignorados en (13) y de esta forma obtener el conjunto de funciones discriminantes que fueron implementadas en el presente artículo (14): (14) El término se define como distancia cua- drática de Mahalanobis (Duda et al., 2001), de tal forma que la regla de decisión para agrupar un vector de características en una clase u otra es: Un vector de características pertenece a la clase cuando la distancia de Mahalanobis entre el vector y la media de es la menor. 3.4 Resumen de las Pruebas e Implementaciones Realizadas Las implementaciones efectuadas, para cada una de las técni- cas presentadas en este artículo, son resumidas a continuación: Se consideraron las cinco vocales del castellano; el ancho de banda fue modificado de 50 Hz hasta 600 Hz, en pasos de 50 Hz; el ancho de banda fue probado para los valores de 900 Hz, 1000 Hz y 1100 Hz; el valor de m en (8) fue modificado para valores enteros consecutivos de 1 a 5; el valor de M en (8) fue modificado para valores enteros de 1 a 5; fueron implementadas dos versiones de TEO; y se eligieron los mejores resultados de la prueba de hipóte- sis para aplicarlos al clasificador cuadrático, considerando como características, los valores de las métricas por cada trama, la media y los cuartiles de dichos valores. Los resultados obtenidos son analizados en la siguiente sección [40] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas 4. RESULTADOS Y DISCUSIÓN Dentro de las pruebas realizadas, como se dijo anteriormente, fue implementado el TEO utilizado por Pruthi, donde , , y de acuerdo con (9), y . Tambien se probó con el TEO formulado por Ying en (10), para diferentes valores de ancho de banda y ; adicionalmente, aplicando la forma generalizada del TEO, fueron variados tanto los anchos de banda como los valores del exponente y el retraso . La Fig. 1, muestra cómo cambia el valor del estadístico Chi- Cuadrado del CTEO cuando se deja el exponente fijo en y se aumenta el valor del retraso con . Los resultados mos- trados, corresponden a valores diferentes de anchos de banda para cada vocal. Esto es lógico si se considera que la es- tructura del primer formante es diferente para cada una de las vocales. Fig. 1. Valores de Chi-Cuadrado para las vocales „aeiou‟ cuando m=2 y M=1,2,…,5 Revista Tecno Lógicas No. 26, Junio de 2011 [41] La Tabla 1 especifica los anchos de banda implementados en los filtros para cada vocal presentada en la Fig. 1. Con el fin de analizar la incidencia del cambio tanto del exponente , como del retraso , se probaron diferentes combinaciones de valores para filtros con diferentes anchos de banda. Cada una de las líneas en la Fig. 2, muestra los valores más altos obtenidos del estadístico Chi-Cuadrado, y se resaltan los máximos valores para cada vocal. En el eje horizontal, se indican las combinaciones de exponente y retraso implementadas, de acuerdo con el formato: 𝑇 . Nótese que los primeros dos datos en el eje horizontal, correspon- den con los obtenidos aplicando el método propuesto por Pruthi y el método propuesto por Ying, respectivamente. Tabla 1. Valores de anchos de banda por vocal, implementados en los filtros utilizados para medir el CTEO mostrado en la Fig. 1 Vocal BW1 BW2 A 600 1100 E 50 900 I 600 1100 O 50 900 U 600 1100 Fig. 2. Valores de Chi-Cuadrado para el CTEO con diferentes combinaciones de m y M [42] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas La Tabla 2 muestra cuáles fueron los valores de ancho de ban- da utilizados para obtener los máximos resaltados en la Fig. 2. Para la clasificación automática de voces sanas e hipernasales, se implementó un clasificador cuadrático, el cual considera poblacio- nes de diferente tamaño y diferente covarianza. Los resultados obtenidos, presentados en la Tabla 3, muestran el porcentaje de acierto en la clasificación y la desviación estándar obtenida luego de diez pruebas con cada combinación de exponente y retraso; dichas combinaciones fueron elegidas de acuerdo con la Tabla 2. Tabla 2. Anchos de banda implementados para obtener los máximos valores de Chi- Cuadrado resaltados en la Fig. 2 Vocal M M bw1 bw2 Chi-Cuadrado a 4 3 25 450 2156 e 5 5 25 450 8919 i 2 3 300 550 3538 o 5 5 25 450 5434 u 2 5 300 550 1387 Tabla 3. Porcentajes de acierto en la clasificación de voces sanas e hipernasales, usando un clasificador cuadrático y las combinaciones de m y M de la Tabla 2 m M % de acierto Desviación estándar 4 3 93,76% 0,58% 5 5 93,81% 0,61% 2 3 93,60% 0,54% 2 5 93,79% 0,54% Pruthi 92,59% 0,51% Ying 92,64% 0,61% 5. CONCLUSIONES En el trabajo presentado, se evaluó la capacidad discriminante del TEO, aplicando la metodología propuesta por Cairns y com- plementada por Pruthi. En este caso, dicha metodología fue apli- cada a la detección de hipernasalidad en voces reales de niños con LPH. Los resultados muestran que la capacidad discriminante del Revista Tecno Lógicas No. 26, Junio de 2011 [43] CTEO puede aumentar a partir de la modificación de los paráme- tros de retraso M y de exponente m, en la definición generalizada de los perfiles de energía Teager (TEO). Los valores altos obteni- dos para el estadístico Chi-cuadrado, permiten afirmar que las muestras provienen de dos distribuciones diferentes. Con base en esto, fue implementado un clasificador cuadrático para poblaciones con diferente covarianza y se obtuvieron porcentajes de acierto en la clasificación de alrededor del 93%. Debido a que los resultados dados por Cairns habían sido ob- tenidos probando con voces hipernasales simuladas, y que los resultados de Pruthi habían sido obtenidos buscando nasalización y no hipernasalidad, era difícil afirmar de forma directa, que las metodologías propuestas por estos autores iban a tener buen desempeño en la clasificación de voces sanas e hipernasales reales. Los resultados presentados en este artículo, permiten sugerir que el CTEO es una métrica con gran poder de discriminación en voces con hipernasalidad y que debe ser tenida en cuenta en la imple- mentación de sistemas multicomponente que busquen identificar dicha patología en la voz. 6. AGRADECIMIENTOS Este trabajo es financiado por el centro de excelencia ARTICA, a través del proyecto Nº1115-470-22055. Los autores agradecen a ARTICA, COLCIENCIAS, el Ministerio de TIC y la Clínica Noel de Medellín por su constante apoyo en el desarrollo de este proyec- to. Así mismo, los autores agradecen al Comité para el Desarrollo de la Investigación (CODI), de la Universidad de Antioquia, por su apoyo a través del proyecto “Sistema de almacenamiento de histo- rias fonoaudiológicas de pacientes con Labio y/o Paladar Hendido (LPH)”. 7. REFERENCIAS Cairns, D.A., Hansen, J.H., Riski, J.E., (1994); Detection of hypernasal speech using a nonlinear operator, Proceedings of IEEE Conference on Engineering in Medicine and Biology Society, 253-254. [44] Operador de Energía de Teager para la Detección de Hipernasalidad en Niños con Labio y Paladar Hendido Revista Tecno Lógicas Cairns, D.A., Hansen, J.H., Riski, J.E., (1996); A noninvasive technique for detecting hypernasal speech using a nonlinear, IEEE Transactions on Biomedical Engineering, 43(1), 35-45. Castellanos, G., (2005); Análisis acústico de voz y de posturas labiales en pacientes de 5 a 15 años con labio y/o paladar hendido corregido en la zona centro del país, Reporte de actividades, COLCIENCIAS. Castellanos, G., Daza, G., Sanchez, L., Castrillon, O., Suarez, J., (2006); Acoustic speech analysis for hypernasality detection in children, Proc. 28th Annual Int. Conf. of the IEEE Engineering in Medicine and Bi- ology Society EMBS '06, 5507-5510. Chen, M.Y., (1996); Acoutic correlates of nasality in speech, PhD Thesis, Harvard-MIT division of Health Sciences and Technology, USA. Chen, M.Y., (1997); Acoustic correlates of English and French nasalized vowels, Journal of the Acoustical Society of America, 102(4), 2360- 2370. Duda, R.O., Hart, P.E., Stork, D.G., (2001); Pattern Classification, Edito- rial John Wiley & Sons. 2a Edición, Canada. Fujimura, O., Lindqvist, J., (1971); Sweep-tone measurements of the vocal tract characteristics, Journal of the Acoustical Society of America, 49(2), 541-558. Glass, J.R., Zue, V.W., (1985); Detection of nasalized vowels in American English, Proc. Int Acoustics, Speech, and Signal Processing ICASSP, 1569-1572. Kaiser, J.F., (1990); On a simple algorithm to calculate the „energy‟ of a signal, Proc. Int Acoustics, Speech, and Signal Processing ICASSP, 381-384. Kasuya, H., Kobayashi, Y., Kobayashi, T., (1983); Characteristics of pitch period and amplitude perturbations in pathologic voice, IEEE Inter- national Conference on Acoustics, Speech, and Signal Processing ICASSP, 1372-1375. Kasuya, H., Ogawa, S., Kikuchi, Y., (1986); An adaptive comb filtering method as applied to acoustic analysis of pathological voice, IEEE In- ternational Conference on Acoustics, Speech, and Signal Processing ICASSP, 669-672. Kvedalen, E., (2003); Signal processing using the Teager Energy Operator and other nonlinear operators, Master Thesis, Department of Infor- matics, University of Oslo, Norway. Revista Tecno Lógicas No. 26, Junio de 2011 [45] Michaelis, D., Gramss, T., Strube, H.W., (1997); Glottal to Noise Excita- tion Ratio - a new measure for describing pathological voices, Acta Acustica, 83, 700-706. Murthy, H.A., Madhu, K.V., Yegnanarayana, B., (1989); Formant extrac- tion from phase using weighted group delay function, Electronics Let- ters, 25(23). NIST, (2010); NIST/SEMATECH e-Handbook of Statistical Methods, Disponible on-line en: http://www.itl.nist.gov/div898/handbook/ Pruthi, T. (2005); Analysis, vocal-tract modeling and automatic detection of vowel nasalization, PhD Thesis, University of Maryland, USA. Pruthi, T., Espy-Wilson, C., (2004); Acoustic parameters for automatic detection of nasal manner, Journal of Speech Communication, 43(3), 225-239. Pruhi, T., Espy-Wilson, C., (2007); Acoustic Parameters for the Automatic Detection of Vowel Nasalization, INTERSPEECH, 1925-1928. Talkin, D., (1987); Speech formant trajectory estimation using dynamic programming with modulated transition costs, Journal of the Acousti- cal Society of America, 82(S1). Vijayalakshmi, P., Ramasubba, M., (2005); The Analysis on Band-Limited Hypernasal Speech Using Group Delay Based Formant Extraction Technique, Proc. Interspeech. Conf, 665-668. Vijayalakshmi, P., Ramasubba, M., O'Shaghnessy, D., (2007); Acoustic analysis and detection of hypernasality using a group delay function, IEEE Transactions on biomedical engineering, 54(4). Vijayalakshmi, P., Nagarajan, T., Jayanthan, R.V., (2009); Selective pole modification-based technique for the analysis and detection of hyper- nasality, Proc. Of TENCON, IEEE Region 10, 1-5. Ying, G.S., Mitchell, C.D., Jamieson, L.H., (1993); Endpoint detection of isolated utterances based on a modified Teager energy measurement, Proc. IEEE Int Acoustics, Speech, and Signal Processing ICASSP, 732-735. Yumoto, E., Gould, W.J., Baer, T., (1982); Harmonics to Noise Ratio as hoarseness index of degree of hoarseness, Journal of the Acoustical Society of America, 71(6).