Desarrollo de librería para el método Spectral Clustering
QRCode
Share this
Date
2018Advisor
Citation
Metadata
Show full item recordPDF Documents
Abstract
La clasificación de datos con diferentes características, a lo largo del tiempo ha sido una necesidad en diferentes campos como la química, la medicina, la electrónica, entre otras. Hoy en día con el nacimiento de tecnologías basadas en Big data y teniendo en cuenta que los datos de cierta forma controlan el mundo, es imperativo desarrollar métodos para clasificar la información de una forma correcta y eficiente. Actualmente se han desarrollado varios algoritmos capaces de cumplir a cabalidad con esta tarea, entre los más comunes tenemos los K vecinos mas cercanos para conjuntos de datos con etiquetas conocidas o lo que se conocer como aprendizaje supervisado, K-means y Spectral Clustering para conjuntos de datos sin etiquetar o aprendizaje no supervisado. En el primer problema una de las falencias que se encuentra es clara, usualmente no se tienen los datos etiquetados, por el costo que conlleva algo así, situación que complica en gran manera el uso de este tipo de algoritmos. Los otros dos algoritmos anteriormente mencionados, tienen un funcionamiento similar. La diferencia de estos se encuentra en la forma de distribución de los datos, para el caso del K-means los datos deben ser linealmente separables y tener formas compactas y separadas entre grupos, mientras que para el spectral clustering, esta distribución no es importante, porque el método encuentra la distribución óptima, esto teniendo en cuenta ciertos parámetros de entrada que son la clave de éxito del algoritmo.
Este trabajo particularmente se enfoca en el desarrollo del método spectral clustering, y las diferentes estrategias que existen para encontrar una matriz de afinidad, que es el núcleo del método, como método de desarrollo se hizo uso del álgebra lineal para de esta manera expresar las diferentes funciones en forma matricial y así tener algoritmos más eficientes.Para el proyecto se utilizaron bases de datos sintéticos, con distribuciones no separables linealmente y que no presentan necesariamente una forma compacta, que es el problema específico que busca resolver el método spectral clustering, además de ellos se grafican las diferentes matrices de afinidad y los resultados de agrupamiento de los algoritmos, para que se tenga una vista de qué tan eficaz puede llegar a ser el algoritmo.