Generación de información acústica sintética usando redes neuronales: variational autoencoder y conditional variational autoencoder
QRCode
Share this
Date
2023Author
Citation
Metadata
Show full item recordPDF Documents
Title
Synthetic Acoustic Information Generation Using Neural Networks Variational Autoencoder And Conditional Variational Autoencoder
Abstract
Los datos acústicos se encuentran en muchas áreas de la vida y contienen un sinnúmero de información de alto valor para diferentes aplicaciones en la ciencia. Una vez los datos acústicos se digitalizan con dispositivos capaces de registrar la gama audible humana y ultrasónica, este potencial puede ser explorado y aprovechado, más aún con el poder que nos ofrece la inteligencia artificial para el análisis de datos e identificación de patrones. A pesar de todo ello, la grabación o recopilación de estos datos acústicos esconde muchos desafíos, ya sean por el esfuerzo logístico, limitaciones técnicas o de medios, que en su mayoría dejan brechas temporales sin información, incluso se dan fallos del dispositivo o por la misma técnica de grabación, que muchas veces se da por fracciones tiempo. Considerando estas situaciones, exploramos en este trabajo la posibilidad de generar información acústica sintética que se encuentre dentro del dominio de estudio para cubrir estos espacios de información, a partir de la implementación de redes neuronales autoencoder variacional (VAE) y autoencoder variacional condicional (CVAE), junto con las técnicas de generación por interpolación o basadas en etiquetas de clase. Para alcanzar nuestro objetivo se realizan pruebas sobre un conjunto de datos experimental de imágenes (MNIST) para posteriormente trabajar, con un conjunto de datos reales basado en información acústica de sonidos ambientales (UrbanSound8K). Durante este proceso se ejecutan tareas de caracterización embebida con el modelo pre-entrenado VGGish, optimización de hiperparámetros con el apoyo de la API Optuna, visualización y comprobación de resultados sobre espacios latentes mediante técnicas de visualización en baja dimensionalidad t-SNE. Medios que permitieron alcanzar el propósito de este trabajo e identificando cómo las arquitecturas VAE y CVAE, basadas en redes neuronales autoencoder, son modelos efectivos para esta aplicación en la generación sintética de información acústica dentro del dominio de estudio
Abstract
Acoustic data is found in many areas of life and contains a wealth of information of high value for different applications in science. Once acoustic data is digitized with devices capable of recording the human and ultrasonic audible range, and this potential can be explored and harnessed, even more so with the power of artificial intelligence for data analysis and pattern identification. Despite all this, the recording or collecting these acoustic data hides many challenges, either by the logistical effort, technical or media limitations, which mostly leave temporary gaps without information, even device failures, or by the same recording technique, which often occurs for fractions of time. Considering these situations, we explore in this work the possibility of generating synthetic acoustic information that is within the domain of study to cover these information gaps from the implementation of neural networks variational autoencoder (VAE) and conditional variational autoencoder (CVAE), along with generation techniques by interpolation or based on class labels. To achieve our goal, tests are performed on an experimental image dataset (MNIST) to later work with a real dataset based on acoustic information of environmental sounds (UrbanSound8K). During this process, embedded characterization tasks are executed with the pre-trained VGGish model, hyperparameter optimization with the support of the Optuna API, and visualization and verification of results on latent spaces using low dimensional t-SNE visualization techniques. Tools that allowed achieving the purpose of this work and identifying how VAE and CVAE architectures, based on autoencoder neural networks, are effective models for this application in the synthetic generation of acoustic information within the domain of study
Palabras clave
Autoencoders; Generación de información sintética; Incrustación de vecinos estocásticos distribuidos en t (t-SNE); Optimización de hiperparámetros (Optuna); Red pre-entrenada VGGish; Sonidos ambientaleskeywords
Autoencoders; Environmental sounds; Hyperparameter optimization (Optuna); Synthetic information generation; t-Distributed stochastic neighbor embedding (t-SNE); VGGish pre-trained networkCollections
- Ingeniería de Sistemas [114]