Predicción de interacciones proteína-proteína mediante un método basado en aprendizaje de máquina para el análisis de la proteína NS5A del virus GB tipo C
View/ Open
QRCode
Share this
Date
2019Publisher
Instituto Tecnológico MetropolitanoCitation
Metadata
Show full item recordPDF Documents
Abstract
La predicción de interacciones proteína-proteína ha sido una herramienta importante para demostrar la causa de una gran cantidad de enfermedades en los seres vivos. Para tal fin, se destacan los métodos basados en aprendizaje de máquina, resaltando aquellos en los cuales se pueden extraer la mayor cantidad de características. Estos métodos, a pesar de que pueden procesar una gran cantidad de datos en un tiempo más corto en comparación de los métodos físicos, pueden tardar una cantidad considerable de tiempo, además de que el uso de funciones kernel no son habitualmente optimizadas. Por tal motivo, en los últimos años se han desarrollado metodologías basadas en aprendizaje de máquina basadas en kernels con el fin de aumentar el rendimiento de las predicciones. En el transcurso del siguiente documento, se desarrolla una metodología de aprendizaje de máquina con múltiples kernel acompañada de un ajuste de parámetros por medio de programación cuadrática y optimización metaheurística, donde se extraen las interacciones positivas y negativas, luego se filtran las secuencias con respecto a su homología por medio de una herramienta llamada CD-HIT cumpliendo con un porcentaje de homología no mayor al 90% . La caracterización consiste en el cálculo de frecuencias de aminoácidos que coinciden en características físico-químicas descritas en la base de datos AAindex. La implementación consiste en una combinación lineal que incluye hasta 10 kernels que cumplen con condiciones específicas en cuanto a los pesos, los cuales se encuentran por medio de la optimización cuadrática y que resultan en una matriz final a partir de la secuencia inicial de kernels. Finalmente se realiza la clasificación teniendo en cuenta la optimización por enjambres de partículas para sintonizar el parámetro C. Como resultado, se obtienen resultados consistentes y competentes con respecto a los predictores existentes en la literatura actual ya los supera en algunos indicadores, para lo cual en el presente documento se evidencian rendimientos que se encuentran alrededor del 80 %. Por lo anterior, se puede afirmar que el aprendizaje por múltiples kernel y la optimización de parámetros puede mejorar notablemente el clasificador para el caso de la predicción de interacciones proteína-proteína
Abstract
Prediction of protein-protein interactions has been an important tool show the cause of a large number of diseases in living beings. For it, the methods based on machine learning are highlighted, and those in which the greatest number of features can be extracted take advantage among others. Those methods, can process a large amount of data in a shorter time compared to physical methods. For this reason, methodologies based on machine learning have been developed in recent years in order to increase the performance of predictions. In the course of the following document, a machine learning methodology with multiple kernels is shown, together with an adjustment of parameters by means of quadratic programming and metaheuristic optimization. These experiments are initially based on the extraction of interactions from the database called DIP (Database of interacting proteins), based on the sequences with respect to their homology are filtered through a tool called CD-HIT and continue to the next stage. The characterization consists in the calculation of amino acid frequencies that coincide in physical-chemical characteristics described in the AAindex database, and as such, taking into account that the amino acid sequences are comprised between 20 amino acids, 7 different groups are formed with respect to your properties. The implementation consists of a defined linear combination that includes up to 10 kernels that meet specific conditions that result in a final matrix of the initial sequence of kernels. As a result, consistent and valid results are obtained with respect to the existing predictors in the current literature, therefore, this document evidences performances around 80 %. Thus, It can be stated that multiple kernel learning and parameter optimization can significantly improve the classifier for the prediction of protein-protein interactions