Metodología para la selección de la métrica de distancia en Neighborhood Kernels para clasificación semi-supervisada de secuencias proteicas
QRCode
Share this
Date
2016Advisor
Publisher
Instituto Tecnológico MetropolitanoCitation
Metadata
Show full item recordPDF Documents
Abstract
Este trabajo presenta una metodología para la selección de métricas de distancia, entre Geométricas y Bio-inspiradas, en un clasificador semi-supervisado de máquinas de vectores de soporte (SVM), para la clasificación de secuencias proteicas de plantas terrestres (base de datos Embryophyta). Primero se construyó una matriz kernel mediante un proceso de extracción y selección de características, por otro lado, se construyó una matriz para las distancias Euclídea, Mahalanobis, Mismatch y Gappy. Ambas matrices fueron usadas en el algoritmo Neighbordooh kernel para obtener una matriz semi-supervisada para un clasificador SVM optimizado con PSO y W-SVM, cuyo modelo de predicción fue evaluado calculando la matriz de confusión entre los datos de entrenamiento y los datos de prueba obtenidos mediante validación cruzada, posteriormente se calcula la media geométrica con base en la sensibilidad y la especificidad. Los resultados demuestran que la metodología presentada es eficiente para seleccionar la métrica de distancia apropiada según la función molecular. La métrica Euclídea fue seleccionada como la de mejor desempeño para siete funciones, con porcentajes de acierto que van desde 49.94% hasta el 74.3%. Mismatch por su parte, fue seleccionada para tres funciones, con desempeños desde 51.63% hasta 80.78%, y por último, Gappy fue seleccionada para cuatro funciones, con aciertos desde 43.11% hasta 68.5%. Para terminar, es importante resaltar que este proyecto de investigación permitió la creación de la línea de investigación en algoritmos bioinformáticos en el ITM, además derivó cuatro trabajos de grado de pregrado y dos nuevos estudiantes de la Maestría en Automatización y Control Industrial
Abstract
This Project presents a methodology to select between Geometric and Bio-inspired distance metrics in a semi-supervised classifier using Support Vector Machine (SVM) to classify protein sequences from land plants (Embryophyta dataset). First, a kernel matrix was built in a process of extraction and feature selection, on the other hand, another matrix was built to Euclidean, Mahalanobis, Mismatch and Gappy distances. Both matrices were used in the Neighborhood kernel algorithm to obtain a semi-supervised matrix to an optimized SVM classifier using PSO and W-SVM. The prediction model was evaluated calculating a confusion matrix between training data and test data, with partitions from cross-validation method; after was calculated a geometric mean with the sensitivity and specificity. The results show that the methodology presented is efficient to select the best metric according to the molecular function. The Euclidean metric was selected as the best one for seven functions, with score from 49.94% to 74.3%. Mismatch was selected for three functions, with score from 51.63% to 80.78%, and Gappy was selected for four functions, with score from 43.11% to 68.5%. On the other hand, it is important to stand out that this work allowed to create a new research line in Bioinformatic algorithm in the ITM, in addition, this one derived four Degree works in Engineering and two new students of Maestría en Automatización y Control industrial