Metodología para mejorar la calidad de medición de material particulado pm2.5 de la red de sensores de bajo costo del proyecto ciudadanos científicos del Valle de Aburrá, utilizando técnicas de aprendizaje de máquina
QRCode
Share this
Date
2021Author
Citation
Metadata
Show full item recordPDF Documents
Title
Methodology to improve the measurement quality of pm2.5 particulate matter from the low-cost sensor network of the Aburrá Valley scientific scientists project, using machine learning techniques
Abstract
Las redes de sensores (WSNs) de bajo costo, entre otras cosas, son implementadas para dar respuesta a la necesidad actual de conocer a fondo las dinámicas de la contaminación en entornos urbanos y rurales, y las consecuencias que el material particulado y los gases de efecto invernadero generan en la salud humana. Dichas redes se caracterizan por los bajos costos de operación y bajo consumo energético con respecto a las estaciones referencia usadas en la actualidad. Sin embargo, las redes de sensores de bajo costo son cuestionadas en gran medida por la calidad de los datos, debido a la cantidad de información perdida y las tecnologías usadas para determinar la concentración, ya que en la actualidad no se cuenta con protocolos de ajuste y aseguramiento de medida estandarizados.
Lo anterior evidencia la problemática de interés a resolver en este trabajo, para el cual, fueron usados los datos capturados durante el año 2018 de la red NOVA de sensores de bajo costo implementada en la ciudad de Medellín y el Valle de Aburrá. En consecuencia, este trabajo se centra en el planteamiento de una metodología de adaptación y aplicación de técnicas de factorización de matriz (MF), dadas las características de la técnica para estimar datos a partir de la información presente en el conjunto de datos, con el objetivo de mejorar la calidad de la misma, ya que actualmente la base de datos cuenta con 5% de información anómala y aproximadamente el 40% son no medidos.
Por lo tanto, en este trabajo se presentan los resultados obtenidos que se pueden distribuir en tres enfoques: el primero abarca todo el estudio del estado del arte sobre la aplicación de sensores de bajo costo para la vigilancia de la contaminación atmosférica, el uso técnicas de ajuste y la implementación de algoritmos para la estimación de información perdida, entre los que se encuentran las técnicas basadas en MF (Capítulo 1); el segundo se centra en el planteamiento, diseño, sintonización de un modelo de MF y la evaluación del mismo con respecto a técnicas mencionadas en la literatura, para la cual, fue usada una metodología de eliminación de datos aleatoria y de huecos con el fin de evaluar el error de ajuste entre el dato real y el eliminado artificialmente (Capítulos
2-4). Finalmente, en el tercer enfoque se presenta una propuesta de mejora a los resultados obtenidos, planteando una técnica de MF basada en redes neuronales denominada Deep Matrix Factorization (DMF), y el análisis comparativo de desempeño entre la técnica MF y la técnica de DMF con diferentes modificaciones, usando información espacio-temporales incorporadas por medio de Embedding Layers (Capítulo 5 y sección de conclusiones). De este trabajo se encontró que la técnica DMF presenta mejor desempeño respecto al modelo MF. Adicionalmente, la inclusión de información espacial al modelo DMF (DMF3) permite un mejor aprendizaje de la dinámica de la red, logrando un menor error de estimación que el logrado con el modelo DMF estándar (DMF1).
Abstract
Low-cost sensor networks (WSNs), among other things, are implemented to
respond to the current need for an in-depth understanding of the dynamics of pollution
in urban and rural environments, and the consequences of particulate matter
and greenhouse gases on human health. These networks are characterized
by low operating costs and low energy consumption compared to the reference
stations used today.However, low-cost sensor networks are largely questioned by
the quality of the data, due to the amount of information lost and the technologies
used to determine the accumulation of pollutants, since currently there are no
standardized protocols for adjustment and measurement assurance.
The above mentioned evidences the problem of interest to be solved in this
work, for which, the data captured during the year 2018 from the NOVA network
of low cost sensors implemented in the city of Medellin and the Aburrá Valley
V
were used. Consequently, this work is focused on the proposal of an adaptation
methodology and application of matrix factorization (MF) techniques, given the
characteristics of the technique to estimate data from the information present in
the data set, with the aim of improving its quality, since currently the database has
5% of anomalous information and approximately 40% are not measured.
Therefore, this study presents the results obtained that can be distributed in
three approaches. The first one covers the whole study of the state of the art
on the application of low cost sensors for air pollution monitoring, the use of adjustment
techniques and the implementation of algorithms for the estimation of
lost information, among which are the techniques based on MF (Chapter 1). The
second focuses on the approach, design, tuning, and evaluation of a MF model
with respect to techniques mentioned in the literature, for which a gap and random
data elimination methodology was used to evaluate the fit error between the
actual data and the artificially eliminated data (Chapters 2-4). Finally, the third
approach presents a proposal to improve the results obtained, proposing a MF
technique based on neural networks called Deep Matrix Factorization (DMF), and
the comparative analysis of performance between the MF technique and the DMF
technique with different modifications, using spatial-temporal information incorporated
by means of Embedding Layers (Chapter 5 and conclusions section). From
this work it was found that the DMF technique presents better performance than
the MF model. Additionally, the inclusion of spatial information to the DMF model
(DMF3) allows a better learning of network dynamics, achieving a lower estimation
error than that achieved with the standard DMF model (DMF1).