<?xml version="1.0" encoding="UTF-8"?><?xml-model type="application/xml-dtd" href="http://jats.nlm.nih.gov/publishing/1.1d3/JATS-journalpublishing1.dtd"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.1d3 20150301//EN" "http://jats.nlm.nih.gov/publishing/1.1d3/JATS-journalpublishing1.dtd">
<article xmlns:ali="http://www.niso.org/schemas/ali/1.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" dtd-version="1.1d3" specific-use="Marcalyc 1.2" article-type="research-article" xml:lang="es">
<front>
<journal-meta>
<journal-id journal-id-type="redalyc">3442</journal-id>
<journal-title-group>
<journal-title specific-use="original" xml:lang="es">TecnoLógicas</journal-title>
</journal-title-group>
<issn pub-type="ppub">0123-7799</issn>
<issn pub-type="epub">2256-5337</issn>
<publisher>
<publisher-name>Instituto Tecnológico Metropolitano</publisher-name>
<publisher-loc>
<country>Colombia</country>
<email>tecnologicas@itm.edu.co</email>
</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="art-access-id" specific-use="redalyc">344262603021</article-id>
<article-id pub-id-type="doi">https://doi.org/10.22430/22565337.1454</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Artículos de investigación</subject>
</subj-group>
</article-categories>
<title-group>
<article-title xml:lang="es">Clasificación multiclase y visualización de quejas de organismos oficiales en twitter</article-title>
<trans-title-group>
<trans-title xml:lang="en">Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter</trans-title>
</trans-title-group>
</title-group>
<contrib-group>
<contrib contrib-type="author" corresp="no">
<contrib-id contrib-id-type="orcid">http://orcid.org/0000-0001-9577-2350</contrib-id>
<name name-style="western">
<surname>Hernández-Pajares</surname>
<given-names>Beatriz</given-names>
</name>
<xref ref-type="aff" rid="aff1"/>
<email>beatriz.hernandezpajares@ey.es</email>
</contrib>
<contrib contrib-type="author" corresp="no">
<contrib-id contrib-id-type="orcid">http://orcid.org/0000-0003-3390-0251</contrib-id>
<name name-style="western">
<surname>Pérez-Marín</surname>
<given-names>Diana</given-names>
</name>
<xref ref-type="aff" rid="aff2"/>
<email>diana.perez@urjc.es</email>
</contrib>
<contrib contrib-type="author" corresp="no">
<contrib-id contrib-id-type="orcid">http://orcid.org/0000-0001-5114-7633</contrib-id>
<name name-style="western">
<surname>Frías-Martínez</surname>
<given-names>Vanessa</given-names>
</name>
<xref ref-type="aff" rid="aff3"/>
<email>vfrias@umd.edu</email>
</contrib>
</contrib-group>
<aff id="aff1">
<institution content-type="original">MSc. en Ingeniería de Computación, Centro de Inteligencia Artificial, Wavespace, Madrid-España, beatriz.hernandezpajares@ey.es</institution>
<institution content-type="orgname">Wavespace</institution>
<country country="ES">España</country>
</aff>
<aff id="aff2">
<institution content-type="original">PhD. en Ingeniería de Computación, Departamento de Ingeniería de Sistemas, Universidad Rey Juan Carlos, Madrid-España, diana.perez@urjc.es</institution>
<institution content-type="orgname">Universidad Rey Juan Carlos</institution>
<country country="ES">España</country>
</aff>
<aff id="aff3">
<institution content-type="original">PhD. en Ingeniería de Computación, Facultad de Estudios de Información y UMIACS, Universidad de Maryland, College Park-Estados Unidos, vfrias@umd.edu</institution>
<institution content-type="orgname">Universidad de Maryland</institution>
<country country="US">Estados Unidos</country>
</aff>
<pub-date pub-type="epub-ppub">
<season>Enero-Abril</season>
<year>2020</year>
</pub-date>
<volume>23</volume>
<issue>47</issue>
<fpage>109</fpage>
<lpage>120</lpage>
<history>
<date date-type="received" publication-format="dd mes yyyy">
<day>02</day>
<month>08</month>
<year>2019</year>
</date>
<date date-type="accepted" publication-format="dd mes yyyy">
<day>16</day>
<month>10</month>
<year>2019</year>
</date>
</history>
<permissions>
<copyright-year>2020</copyright-year>
<copyright-holder>Instituto Tecnológico Metropolitano</copyright-holder>
<ali:free_to_read/>
<license xlink:href="https://creativecommons.org/licenses/by-nc-sa/4.0/">
<ali:license_ref>https://creativecommons.org/licenses/by-nc-sa/4.0/</ali:license_ref>
<license-p>Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.</license-p>
</license>
</permissions>
<abstract xml:lang="es">
<title>Resumen</title>
<p>Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en <italic>microblogging</italic> de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 <italic>tweets</italic> de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente.</p>
</abstract>
<trans-abstract xml:lang="en">
<title>Abstract</title>
<p>Social networks generate massive amounts of information. Current Natural Language techniques allow the automatic processing of that information, and Data Mining enables the automatic extraction of useful info. However, a state-of-the-art review reveals that many classification methods only distinguish two classes. This paper presents a procedure to automatically classify tweets into several classes (more than two). The steps of the procedure are described in detail so that any researcher can follow them. The accuracy and coverage (instead of only coverage as usual in the literature) of two automatic classifiers (SVM and Random Forests) were analyzed in a comparative study. The procedure was applied to automatically identify more than two types of complaint from 190,000 tweets. According to the results, Random Forests should be used because they achieve an average accuracy of 81.46 % and an average coverage of 59.88 %.</p>
</trans-abstract>
<kwd-group xml:lang="es">
<title>Palabras clave</title>
<kwd>Minería de texto</kwd>
<kwd>clasificación multiclase</kwd>
<kwd>redes sociales</kwd>
<kwd>Twitter</kwd>
</kwd-group>
<kwd-group xml:lang="en">
<title>Keywords</title>
<kwd>Text Mining</kwd>
<kwd>Multiclass Classification</kwd>
<kwd>Social Networks</kwd>
<kwd>Twitter</kwd>
</kwd-group>
<counts>
<fig-count count="4"/>
<table-count count="0"/>
<equation-count count="0"/>
<ref-count count="29"/>
</counts>
<custom-meta-group>
<custom-meta>
<meta-name>Cómo citar / How to cite</meta-name>
<meta-value>B. Hernández-Pajares, D. Pérez-Marín y V. Frías-Martínez, “Clasificación multiclase y visualización de quejas de organismos oficiales en twitter”, <italic>TecnoLógicas</italic>, vol. 23, no. 47, pp. 109-120, 2020. <ext-link ext-link-type="uri" xlink:href="https://doi.org//10.22430/22565337.1454">https://doi.org//10.22430/22565337.1454</ext-link>
</meta-value>
</custom-meta>
</custom-meta-group>
</article-meta>
</front>
<body>
<sec>
<title>
<bold>1. INTRODUCCIÓN</bold>
</title>
<p>Las redes sociales acumulan una gran cantidad de usuarios que conversan digitalmente, guardan textos y comentan textos de otros usuarios. En particular, en la actualidad, Facebook posee más de 2217 millones de usuarios, que la convierten en la red social más usada, y Twitter cuenta con más de 326 millones de usuarios <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref1">1</xref>]</sup>, que a diario generan unos 500 millones de <italic>tweets</italic> en todo el mundo <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref2">2</xref>]</sup>.</p>
<p>Esta gran cantidad de información resulta muy difícil de procesar manualmente, por este motivo se utilizan técnicas de Procesamiento de Lenguaje Natural, que permiten automatizar su procesamiento. Este trabajo, se centra en el uso de métodos estadísticos <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref3">3</xref>], [<xref ref-type="bibr" rid="redalyc_344262603021_ref4">4</xref>]</sup>, en la eliminación de términos que se consideran superfluos, en la normalización de los textos y la aplicación de técnicas de lematización, para reducir las palabras a su raíz y parametrizar los documentos, mediante la asignación de un peso a cada uno de los términos relevantes, con la técnica tf-idf <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref5">5</xref>]</sup>.</p>
<p>La minería de textos (<italic>text mining</italic>) consiste en un conjunto de técnicas que permiten extraer información relevante y desconocida, de manera automática, de grandes volúmenes de información textual, normalmente, en lenguaje natural y por lo general no estructurada <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref6">6</xref>]</sup>. En este trabajo, se revisan varios métodos de clasificación automática como svm, con varias funciones kernel y Random Forests. Se compara la precisión y cobertura obtenida para la identificación automática de clases que etiqueten el contenido de <italic>tweets</italic> recopilados automáticamente de organismos oficiales.</p>
<p>El objetivo es proporcionar un procedimiento para la clasificación automática multiclase de la información contenida en <italic>tweets</italic> de usuarios de organismos oficiales y su representación gráfica. Se enfatiza en la necesidad de que la clasificación sea multiclase y en la búsqueda de los métodos de clasificación automática, cuando dos clases no cubran todos los casos existentes en la información <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref7">7</xref>]</sup>; así mismo, se selecciona Twitter, puesto que contiene un gran volumen de textos disponibles, con api abierta para procesarlos. La escogencia de los usuarios de Twitter pertenecientes a organismos oficiales obedece al interés que puedan tener en identificar de qué están hablando los ciudadanos y, concretamente, de qué se están quejando.</p>
<p>La (<xref ref-type="fig" rid="gf1">Fig. 1</xref>) proporciona una visión global del procedimiento sugerido, que consta de las siguientes fases:</p>
<p>
<fig id="gf1">
<label>Fig. 1.</label>
<caption>
<title>Visión global del procedimiento de clasificación y visualización.</title>
</caption>
<alt-text>Fig. 1. Visión global del procedimiento de clasificación y visualización.</alt-text>
<graphic xlink:href="344262603021_gf2.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>1) Recopilación de datos a través del api de Twitter (.json)</p>
<p>2) Etiquetado de una parte de los datos recopilados de forma supervisada (.txt)</p>
<p>3) Clasificación de forma automática de los datos no etiquetados (svm versus Random Forests)</p>
<p>4) Visualización geolocalizada 2D y 3D de los <italic>tweets</italic> etiquetados.</p>
<p>Al aplicar este procedimiento en 190 000 <italic>tweets</italic> recopilados durante un año de Metro, Protección Civil, Policía, y Gobierno de México (organismos seleccionados por presentar libre acceso), y etiquetar más de 2000 de estos <italic>tweets</italic> a mano, para entrenar en los métodos de clasificación automática, se recomienda el uso de Random Forests como método de clasificación, ya que se obtiene una precisión media del 81.46 % y una cobertura media del 59.88 %.</p>
<p>Este artículo se compone de las siguientes secciones: en la Sección 2, se recoge el estado del arte; en la Sección 3, se presenta la propuesta de clasificación automática multiclase de <italic>tweets</italic>, y, por último, en la Sección 4, termina el artículo con las principales conclusiones y líneas de trabajo futuro.</p>
</sec>
<sec>
<title>
<bold>2. REVISIÓN DEL ESTADO DEL ARTE</bold>
</title>
<p>En general, en la clasificación de <italic>microblogging</italic> hay que tener en cuenta la técnica o combinación de técnicas para la recopilación de <italic>tweets</italic> y su clasificación, el dominio, idioma y tipo de clasificador, según el número de clases con las que es capaz de trabajar.</p>
<p>Respecto a la recopilación de <italic>tweets</italic> —con base en que el objetivo es clasificar los tópicos en clases generales para facilitar la recuperación de información—, esta se puede hacer mediante servicios web como What the Trend <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref8">8</xref>]</sup>.</p>
<p>De esta manera, todos los <italic>tweets</italic> que contienen un <italic>trending topic</italic> constituyen un documento. En el caso de que un <italic>tweet</italic> contenga más de dos <italic>trending topics</italic>, este se guarda en todos los documentos relevantes.</p>
<p>Se experimentan dos enfoques para la clasificación de tópicos: 1) el enfoque Bag-of-Words <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref9">9</xref>]</sup> para la clasificación de textos y 2) la clasificación network-based <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref10">10</xref>].</sup>
</p>
<p>En el método de clasificación basado en textos, se construyen vectores de palabras con definiciones de <italic>trending topics</italic> y <italic>tweets</italic>, y se asignan los pesos tf-idf <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref11">11</xref>]</sup>, para clasificar los tópicos mediante el clasificador multinomial Naive Bayes (nb) <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref12">12</xref>].</sup> En el método de clasificación basado en la red, se identifican los cinco tópicos similares más relevantes para un tópico dado, con base en el número de usuarios influyentes comunes.</p>
<p>Se construyen los modelos predictivos, para lo cual se utilizan varias técnicas de clasificación y se selecciona el que tiene como resultado la mejor precisión de clasificación. Gracias al uso de Naive Bayes Multinomial (nbm) <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref13">13</xref>]</sup>, Naive Bayes (nb) <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref12">12</xref>
</sup>] y Support Vector Machines (svm-l) <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref14">14</xref>]</sup> con kernels lineales, se obtiene que la precisión de la clasificación es una función del número de <italic>tweets</italic> y la frecuencia de los términos.</p>
<p>Los resultados arrojados fueron: para nbm, con 100 <italic>tweets</italic> y 1000 términos, se obtiene un <italic>accuracy</italic> del 65.36 %. Para svm, con esos mismos datos, se obtiene un 59.81 % y con nb un 45.31 % de <italic>accuracy</italic>.</p>
<p>Al emplear la clasificación network-based con diferentes técnicas de clasificación, se consigue un <italic>accuracy</italic> del 70.96 %, para el árbol de decisión C 5.0 <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref15">15</xref>]</sup> como mejor resultado.</p>
<p>Para mejorar el filtrado de la información, otros autores proponen usar un pequeño conjunto de características específicas del dominio, extraídas a partir del perfil del autor y del texto, para clasificar noticias, eventos y mensajes privados <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref16">16</xref>]</sup>.</p>
<p>En general, se puede decir que, para la clasificación, se suelen usar combinaciones de minería de datos y Procesamiento de Lenguaje Natural <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref17">17</xref>]</sup>, así como comparaciones de nb, svm y knn entre otras técnicas <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref18">18</xref>]</sup>.</p>
<p>Respecto al dominio, suele ser habitual que esté relacionado con emociones <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref19">19</xref>]</sup>, opiniones <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref20">20</xref>]</sup>, situaciones de emergencia <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref21">21</xref>]</sup> o con análisis de redes sociales <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref22">22</xref>]</sup>.</p>
<p>En cuanto al lenguaje, suele ser inglés, aunque también hay casos en los que se dan otros idiomas como turco o multiidioma, con técnicas que pueden aplicarse a cualquier idioma <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref23">23</xref>]</sup>.</p>
<p>Sobre el número de clases que puedan clasificarse, lo habitual es que sean dos, esto es, que sean clasificadores biclase.</p>
<p>En los últimos años también se están proponiendo algunos clasificadores multiclase, capaces de clasificar más de dos clases, con lo cual se obtienen valores de precisión entre 68.16 y 73.24 <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref17">17</xref>], [<xref ref-type="bibr" rid="redalyc_344262603021_ref24">24</xref>]</sup>.</p>
<p>Por último, se registran mejoras en la clasificación de <italic>tweets</italic>, al tener en cuenta no solo su contenido sino también url, <italic>retweets</italic> y usuarios influyentes <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref18">18</xref>]</sup> y, en general, el multiequitado de la web social con procesamiento multinúcleo <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref25">25</xref>]</sup>.</p>
</sec>
<sec>
<title>
<bold>3.      PROPUESTA DE CLASIFICACIÓN AUTOMÁTICA MULTICLASE DE <italic>TWEETS</italic>
</bold>
</title>
<p>Es importante destacar que, normalmente, en la literatura se encuentran clasificadores biclase limitados en el dominio, en el idioma y las técnicas que utilizan. La propuesta de este trabajo está contextualizada en el dominio social, particularmente, en las quejas.</p>
<p>Se centra en el lenguaje castellano, pero, como en <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref23">23</xref>]</sup>, las técnicas se pueden aplicar a otros idiomas. Utiliza como técnicas svm y Random Forests, como en <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref17">17</xref>]</sup>, que está basado en técnicas de minería de datos y Procesamiento de Lenguaje Natural, o en <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref18">18</xref>]</sup>, que usan svm, entre otras técnicas.</p>
<p>De esta manera, la principal contribución propuesta es un clasificador multiclase para el dominio social, en castellano, aplicable a otros idiomas, que sigue los pasos principales de Minería de Datos, que se irán describiendo en detalle en los siguientes subapartados:</p>
<p>1) Selección del conjunto de datos, tanto en lo que se refiere a las variables que se quieren predecir como a las variables que sirven para hacer el cálculo.</p>
<p>2) Transformación del conjunto de datos de entrada, también conocido como pre-procesamiento de los datos, con el objetivo de prepararlo para aplicar la técnica de Minería de Datos que mejor se adapte a los datos y al problema.</p>
<p>3) Selección y aplicación de la técnica de Minería de Datos, y construcción del modelo predictivo de clasificación.</p>
<p>4) Extracción de conocimiento mediante una técnica de Minería de Datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema</p>
<p>5) Interpretación y evaluación de datos.</p>
<p>Una vez obtenido el modelo, se procede a su validación, tras comprobar que las conclusiones que arroja son válidas y satisfactorias.</p>
<sec>
<title>
<bold>3.1 Recogida de datos</bold>
</title>
<p>En primer lugar, se recogieron de forma paralela <italic>tweets</italic> de dos formas diferentes a, través de las funciones que proporciona el api Stream de Twitter. Con base en la idea que se planteó —identificar las quejas de los usuarios de México D. F.—, se recopilaron de forma genérica todos los <italic>tweets</italic> localizados dentro de las coordenadas que cercan la ciudad de México D. F., mediante la opción que nos proporciona la función post statuses/filter, llamada “locations”.</p>
<p>De forma adicional y paralela, también se recopilaron los <italic>tweets</italic> de algunos de los organismos oficiales que se encuentran en México D. F. Para eso, se buscaron los organismos oficiales existentes en México; finalmente, se seleccionaron cuatro de ellos, en los que se intuyó podría haber más posibilidades de recopilar quejas de usuarios. Los usuarios seleccionados son: el Metro, la Protección Civil, el Gobierno y la Policía.</p>
<p>Para conseguir la recopilación de estos <italic>tweets</italic>, se empleó otra función llamada “follow” que recoge todos los <italic>tweets</italic> pertenecientes a un identificador (id) único para cada uno de los usuarios.</p>
<p>Con este objetivo, se desarrolló un <italic>script</italic> que se ejecutó de forma continua durante un año, al almacenar los <italic>tweets</italic> en ficheros con extensión “.json”.</p>
</sec>
<sec>
<title>
<bold>3.2  Extracción de datos</bold>
</title>
<p>Una vez terminada la recogida de datos, se procedió al tratamiento y extracción de los datos necesarios para hacer la clasificación. Para atender a la estructura de un <italic>tweet</italic> y a la cantidad de campos que contiene, el procedimiento a seguir fue el estudio de cada uno de esos campos a fin de establecer cuáles eran los necesarios para este proceso de clasificación y cuáles no.</p>
<p>Finalmente, se decidió que los únicos campos necesarios iban a ser el texto del <italic>tweet</italic>, representado por el campo “text”, que contiene una longitud de 140 caracteres alfanuméricos, y la ubicación geográfica del <italic>tweet</italic>, representada por el campo “coordinates”, que contiene la latitud y longitud de su ubicación. Se tomó esta decisión, de acuerdo al objetivo marcado inicialmente para la recogida y clasificación de <italic>tweets</italic> geolocalizados, con lo que el campo “coordinates” proporciona la geo-localización del <italic>tweet, </italic>que servirá para ubicarlo en la visualización, y el campo “text” proporciona la información necesaria para la identificación de quejas.</p>
<p>Para poder extraer cada uno de estos campos del fichero. json, se empleó una librería desarrollada en código Java llamada “twitter4j” <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref26">26</xref>]</sup>, cuya funcionalidad permite procesar el api de Twitter.</p>
<p>El texto y la geolocalización de todos los <italic>tweets</italic> recogidos para cada uno de los usuarios específicos se guardan en un fichero “.txt”, para su posterior clasificación.</p>
<p>De esta forma, se crean cuatro ficheros “.txt”, que contienen un total de 34 839 <italic>tweets</italic> para el Gobierno de México D. F., 123 873 para el Metro, 4122 para la Protección Civil y, finalmente, 13 944 <italic>tweets</italic> para la Policía.</p>
</sec>
<sec>
<title>
<bold>3.3  Aplicación de técnicas de Procesamiento de Lenguaje Natural</bold>
</title>
<p>Con los datos guardados en el fichero “.txt”, el siguiente paso es aplicar técnicas estadísticas de Procesamiento de Lenguaje Natural a los textos <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref3">3</xref>]</sup>. Este tipo de procesamiento representa el modelo clásico de los sistemas de recuperación, y se caracteriza porque cada documento está descrito por un conjunto de palabras clave denominadas <italic>término índice</italic>. En este modelo, el procesamiento de los documentos consta de las siguientes etapas:</p>
<p>—Preprocesado de los documentos: se eliminan aquellos elementos que se consideran superfluos. Consta de tres fases básicas:</p>
<p>-Eliminación de elementos del documento que no son objeto de indexación; en este caso, pueden ser etiquetas, enlaces http, etc.</p>
<p>-Normalización de textos, que consiste en homogeneizar todo el texto e identificar N-Gramas que pueden ser unigramas (1-gramas), bigramas o digramas (2-gramas), trigramas (3-gramas), etc.</p>
<p>-Lematización de los términos, cuyo objetivo es reducir una palabra a su raíz mediante algoritmos de radicación o <italic>stemming</italic>, que permiten representar de un mismo modo las distintas variantes de un término, con el fin de reducir el tamaño del vocabulario y mejorar, en consecuencia, la capacidad de almacenamiento de los sistemas y el tiempo de procesamiento de los documentos.</p>
<p>—Parametrización: se hace una cuantificación de las características (es decir, de los términos) de los documentos, mediante la asignación de un peso a cada uno de los términos relevantes de un documento. El peso de un término se calcula normalmente mediante la función tf-idf (en inglés, Term Frecuency-Inverse Document Frecuency) <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref5">5</xref>]</sup>, que consiste en una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras.</p>
</sec>
<sec>
<title>
<bold>3.4 Métodos de identificación de clases</bold>
</title>
<p>Con los textos preprocesados, el siguiente paso para poder iniciar el proceso de clasificación es identificar cuáles van a ser las clases bajo las cuales se van a catalogar los <italic>tweets</italic>. Para eso, se emplearon dos técnicas: k-means y nubes de palabras, que se describen a continuación.</p>
<p>El método k-means tiene como objetivo la partición de un conjunto n en k grupos, en el que cada observación pertenece al grupo más cercano a la media. Una de las aplicaciones de este algoritmo es emplearlo como preprocesamiento para otros algoritmos, por ejemplo, para buscar una configuración inicial.</p>
<p>Es en este aspecto, cobra sentido la aplicación de este método en la identificación de clases para la colección de <italic>tweets</italic>. Se empleó k-means para obtener varios grupos de términos y observar si entre ellos se encontraba alguno que pudiera ser identificado como queja.</p>
<p>Para la obtención de diferentes <italic>clusters</italic> que pudieran ofrecer una idea inicial de algunas de las clases, se probó con múltiples números <italic>clusters</italic>, hasta que, con el número 12, se obtuvo una muestra orientativa de <italic>clusters</italic> que contenían un conjunto de seis términos en cada uno de ellos, y se hizo la función k-means, también disponible en el programa R.</p>
<p>En los resultados de los diferentes <italic>clusters</italic> obtenidos, se identificaron <italic>a priori</italic> quejas como robo, maltrato animal, circulación, extorsión, abandono. Con esta idea inicial, se consiguieron algunas de las etiquetas que posteriormente serían verificadas como clases, con las que se etiquetaría el <italic>training set</italic>.</p>
<p>El método nubes de palabras (<italic>wordclouds</italic>) permite obtener una representación visual, en forma de nubes de palabras, sobre la frecuencia con la que se repite cada una de las palabras.</p>
<p>La <xref ref-type="fig" rid="gf2">Fig. 2</xref> muestra un ejemplo de nubes de palabras, identificadas para el usuario Policía. Estas etiquetas se pueden usar de forma complementaria a las identificadas en los k-means.</p>
<p>
<fig id="gf2">
<label>Fig. 2.</label>
<caption>
<title>Ejemplo de identificación de clases, obtenida con k-means.</title>
</caption>
<alt-text>Fig. 2. Ejemplo de identificación de clases, obtenida con k-means.</alt-text>
<graphic xlink:href="344262603021_gf3.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>El resto de los <italic>tweets</italic>, que no pertenecían a ninguna de las clases identificadas, fueron etiquetados con la clase “No Etiquetado”, que correspondía con un alto porcentaje de los <italic>tweets</italic>. Debido a esto, se identificó el problema de las Clases No Balanceadas, que ocurre cuando en un problema de clasificación hay muchas más instancias de unas clases que de otras.</p>
<p>Las clases que tienen minoría de instancias son las que rara vez aparecen, pero son, asimismo, las que más importancia tienen <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref27">27</xref>]</sup>.</p>
</sec>
<sec>
<title>
<bold>3.5  Clasificación automática multiclase</bold>
</title>
<p>El siguiente paso es obtener un clasificador de forma supervisada, para poder clasificar de forma automática los tweets recogidos. En este ámbito, cabe aclarar que los métodos de clasificación automática se engloban dentro del concepto de Aprendizaje Automático, cuyo objetivo es crear programas capaces de generalizar comportamientos, a partir de una información no estructurada. Este es, por lo tanto, un proceso de inducción al conocimiento.</p>
<p>En el Aprendizaje Automático existen técnicas de clasificación supervisada y no supervisada. La clasificación supervisada cuenta con modelos ya clasificados, que permiten clasificar los no clasificados.</p>
<p>Se pueden diferenciar dos fases en este tipo de clasificación:</p>
<p>1) En la primera fase, se dispone de un conjunto de entrenamiento o de aprendizaje y de otro llamado de test o de validación; estos sirven para construir un modelo o regla general para la clasificación. El proceso de entrenamiento es cuando un clasificador debe aprender cómo clasificar los objetos, al generalizar, a partir de los datos de entrenamiento, las situaciones no vistas.</p>
<p>2) En la segunda fase, se clasifican los objetos o muestras de las que se desconoce la clase a la que pertenecen.</p>
<p>La salida de un clasificador supervisado puede ser la etiqueta de la clase del nuevo objeto clasificado, un conjunto de etiquetas ordenadas por la probabilidad de ser la etiqueta correcta, así como un vector numérico, en el que cada valor representa el valor de pertenencia otorgado por el clasificador a cada clase.</p>
<p>En la actualidad, existen diversos clasificadores supervisados. Entre los más usados, se encuentran el Vecino más Cercano (KNN), las Redes Neuronales (ANN), el clasificador Bayesiano (NB), los Random Forests (RF), y la Máquina de Soporte de Vectores (SVM).</p>
<p>A diferencia de la clasificación supervisada, la clasificación no supervisada no cuenta con conocimiento a priori, por lo que se tiene un área de conocimiento disponible para la tarea de clasificación.</p>
<p>A la clasificación no supervisada se le suele llamar también clustering. En este tipo de clasificación, se cuenta con “objetos” o muestras que tienen un conjunto de características, de las que no se sabe a qué clase o categoría pertenecen; en razón a esto, su finalidad es el descubrimiento de grupos de “objetos” cuyas características afines permitan separar las diferentes clases.</p>
<p>Para la clasificación de las clases identificadas en la sección anterior, se optó por la técnica de clasificación supervisada.</p>
<p>En particular, se etiquetó un conjunto de 2000 tweets de un total de 13 944, recogidos de la Policía de forma manual y leído texto por texto. En estos casos, juega un papel importante la objetividad para identificar a qué etiqueta pertenece cada uno de los tweets; por este motivo, el encargado de etiquetarlos debe hacerlo con la mayor objetividad posible.</p>
<p>Posteriormente, para entrenar los clasificadores, los pasos a realizar son:</p>
<p>1)     Dado un conjunto de 2000 tweets etiquetados por completo, se subdivide en dos conjuntos de tweets diferentes: el conjunto de entrenamiento (trainingset), que contiene el 60 % de los tweets seleccionados de forma aleatoria, y el conjunto de testeo (testset) que contiene el restante 40 % de los tweets. El conjunto de entrenamiento abarca las clases etiquetadas, en cambio, en la predicción, el conjunto de testeo no.</p>
<p>2)     Esto se hace para ver qué precisión y cobertura alcanza el clasificador sobre una muestra inicial.</p>
<p>3)     Se aplica el clasificador sobre el conjunto de entrenamiento y, a continuación, una predicción entre el resultado obtenido por el clasificador y el conjunto de testeo.</p>
<p>4)     Mediante una matriz de confusión, en la que cada columna representa el número de predicciones de cada clase y cada fila el número de instancias de la clase real, se visualizan los resultados predichos y se calcula la precisión y la cobertura para cada una de las clases, a fin de obtener, finalmente, una media de la precisión y una media de la cobertura.</p>
<p>Con el conjunto de entrenamiento etiquetado, se procedió a hacer un estudio de SVM y Random Forests como clasificadores a entrenar para clasificar los tweets. Los resultados recogidos en las (<xref ref-type="fig" rid="gf3">Fig. 3</xref>) y (<xref ref-type="fig" rid="gf4">Fig. 4</xref>) indican que, tanto en el caso de aplicar o no función de pesos, Random Forests obtiene mejores resultados, por lo que fue el clasificador escogido. Se pueden encontrar más tablas en <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref28">28</xref>]</sup>.</p>
<p>
<fig id="gf3">
<label>Fig. 3.</label>
<caption>
<title>Comparación de los resultados de los clasificadores sin aplicar la función de pesos</title>
</caption>
<alt-text>Fig. 3. Comparación de los resultados de los clasificadores sin aplicar la función de pesos</alt-text>
<graphic xlink:href="344262603021_gf4.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>
<fig id="gf4">
<label>Fig. 4.</label>
<caption>
<title>Comparación de los resultados de los clasificadores con pesos</title>
</caption>
<alt-text>Fig. 4. Comparación de los resultados de los clasificadores con pesos</alt-text>
<graphic xlink:href="344262603021_gf5.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Para este proceso de clasificación, en este caso no se selecciona el 40 % de las muestras aleatoriamente, para separar el conjunto de testeo del conjunto de entrenamiento. En su lugar, el conjunto de entrenamiento serán los tweets etiquetados de forma manual y el conjunto de testeo los tweets que se van a etiquetar de forma automática.</p>
<p>Tras hacer la predicción de la clasificación automática, se construye una matriz que contiene una nueva columna añadida con la clase a la que pertenece cada uno de los <italic>tweets</italic> no etiquetados inicialmente, con el fin de añadir esa columna al fichero de <italic>tweets</italic> y hacer las visualizaciones como se explica en el siguiente apartado.</p>
<p>
<bold>4.  CONCLUSIONES Y TRABAJO FUTURO</bold>
</p>
<p>En este trabajo se ha investigado el procedimiento para una clasificación automática multiclase de los <italic>tweets</italic> recogidos de algunos de los organismos oficiales de México D. F., cuyos datos almacenados rondan los 190 000 <italic>tweets</italic> acopiados a lo largo de un año.</p>
<p>Con este objeto, se hizo un estudio comparativo de varios clasificadores supervisados según sus resultados de precisión y cobertura, lo que arrojó que, Random Forests, con unos resultados de precisión en el entrenamiento entre el 58.46 % y el 100 %, y de cobertura de entre el 33.33 % y el 92.68 %, es el clasificador propuesto.</p>
<p>Estos resultados son interesantes para el estado del arte, puesto que, al revisar la literatura, los datos se suelen limitar a valores de <italic>accuracy</italic> y no de precisión-cobertura por separado.</p>
<p>En particular, el trabajo mayormente vinculado al desarrollo de esta parte del proyecto es el adelantado por Malkani &amp; Gillie en 2012, que emplea svm multiclase y Random Forests, para la clasificación de dos conjuntos de datos con clases diferentes centrados en tópicos y actitudes.</p>
<p>En este caso, se han empleado estos clasificadores de forma diferente. svm se probó con one-vs-one y distintos tipos de kernel, aunados a la función pesos y Random Forests, con 150 árboles aleatorios; asimismo, la función pesos fue usada para identificar ocho clases diferentes de quejas en usuarios específicos.</p>
<p>En consecuencia, la principal contribución al estado del arte radica en la clasificación multiclase al usar clasificadores Support-Vector Machines (svm) multiclase y Random Forests (rf) para 35 000 <italic>tweets</italic>, para la identificación de quejas. De lo anterior, se obtuvo como resultado:</p>
<p>—Con svm:</p>
<p>-Precisión: entre 55.83 % y 92.26 %</p>
<p>-Cobertura: entre 33.33 % y 76.53 %</p>
<p>—Para rf:</p>
<p>-Precisión: entre 58.46 % y 100 %</p>
<p>-Cobertura: entre 33.33 % y 92.68 %.</p>
<p>Además, las técnicas utilizadas son aplicables a otros idiomas y dominios.</p>
<p>El código y el <italic>dataset</italic> se han publicado en <sup>[<xref ref-type="bibr" rid="redalyc_344262603021_ref29">29</xref>]</sup> para otros investigadores que requieran avanzar en sus estudios.</p>
<p>Respecto al trabajo futuro, se está trabajando en mejorar la precisión y cobertura obtenidas con otros métodos de clasificación y añadir mayor variedad de organismos oficiales.</p>
</sec>
</sec>
</body>
<back>
<ref-list>
<title>6. REFERENCIAS</title>
<ref id="redalyc_344262603021_ref1">
<label>[1]</label>
<mixed-citation>[1] S. Galeano, “Cuáles son las redes sociales con más usuarios del mundo (2019),”<italic> M4rketing Ecommerce</italic>, 2019. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://marketing4ecommerce.net/cuales-redes-sociales-con-mas-usuarios-mundo-2019-top/">https://marketing4ecommerce.net/cuales-redes-sociales-con-mas-usuarios-mundo-2019-top/</ext-link>. [Accedido: 27-Jan-2020].</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Galeano</surname>
<given-names>S.</given-names>
</name>
</person-group>
<source>Cuáles son las redes sociales con más usuarios del mundo (2019)</source>
<year>2019</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref2">
<label>[2]</label>
<mixed-citation>[2] K. Smith, “44 estadísticas de Twitter,” <italic>Brandwatch</italic>, 2016. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://www.brandwatch.com/es/blog/44-estadisticas-twitter/">https://www.brandwatch.com/es/blog/44-estadisticas-twitter/</ext-link> [Accedido: 27-Jan-2020].</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Smith</surname>
<given-names>K.</given-names>
</name>
</person-group>
<source>https://www.brandwatch.com/es/blog/44-estadisticas-twitter/</source>
<year>2020</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref3">
<label>[3]</label>
<mixed-citation>[3] C. D. Manning y H. Schiitze,<italic> Foundations of Statistical Natural Language Processing: Massachusetts Institute of Technology</italic>: MIT Press. Cambridge, 1999. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://www.cs.vassar.edu/~cs366/docs/Manning_Schuetze_StatisticalNLP.pdf">https://www.cs.vassar.edu/~cs366/docs/Manning_Schuetze_StatisticalNLP.pdf</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Manning</surname>
<given-names>C. D.</given-names>
</name>
<name>
<surname>Schiitze</surname>
<given-names>H.</given-names>
</name>
</person-group>
<source>Foundations of Statistical Natural Language Processing</source>
<year>1999</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref4">
<label>[4]</label>
<mixed-citation>[4] M. Vallez y R. Pedraza-Jimenez, “El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y áreas afines,” <italic>Hipertext.net</italic>, vol. 5, 2007. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://www.raco.cat/index.php/Hipertext/article/view/59496">https://www.raco.cat/index.php/Hipertext/article/view/59496</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Vallez</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Pedraza-Jimenez</surname>
<given-names>R.</given-names>
</name>
</person-group>
<source>Hipertext.net</source>
<year>2007</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref5">
<label>[5]</label>
<mixed-citation>[5] tf-idf, “What does tf-idf mean?”. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://www.tfidf.com/cgi-sys/suspendedpage.cgi">http://www.tfidf.com/cgi-sys/suspendedpage.cgi</ext-link>. [Accedido: 27-Jan-2020].</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<collab>tf-idf</collab>
</person-group>
<source>What does tf-idf mean</source>
<year>2019</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref6">
<label>[6]</label>
<mixed-citation>[6] C. C. Aggarwa y C. Zhai, <italic>Mining Text Data</italic>: Boston, MA: Springer US, 2012. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-1-4614-3223-4">https://doi.org/10.1007/978-1-4614-3223-4</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Aggarwa</surname>
<given-names>C. C.</given-names>
</name>
<name>
<surname>Zhai</surname>
<given-names>C.</given-names>
</name>
</person-group>
<source>Mining Text Data</source>
<year>2012</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref7">
<label>[7]</label>
<mixed-citation>[7] Z. Malkani y E. Gillie, “<italic>Supervised Multi-Class Classification of Tweets</italic>,” pp. 1–6, Dec. 2012. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://pdfs.semanticscholar.org/bc78/1a147a3fe8477ade06ccf22a3aabe12236ea.pdf">https://pdfs.semanticscholar.org/bc78/1a147a3fe8477ade06ccf22a3aabe12236ea.pdf</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Malkani</surname>
<given-names>Z.</given-names>
</name>
<name>
<surname>Gillie</surname>
<given-names>E.</given-names>
</name>
</person-group>
<source>Supervised Multi-Class Classification of Tweets</source>
<year>2012</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref8">
<label>[8]</label>
<mixed-citation>[8] Twitter, “What The Trend,” 2009. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://twitter.com/whatthetrend">https://twitter.com/whatthetrend</ext-link>
</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<collab>Twitter</collab>
</person-group>
<source>https://twitter.com/whatthetrend</source>
<year>2009</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref9">
<label>[9]</label>
<mixed-citation>[9] K. Lee, D. Palsetia, R. Narayanan, M. M. A. Patwary, A. Agrawal, y A. Choudhary, “Twitter Trending Topic Classification,” en <italic>2011 IEEE 11th International Conference on Data Mining Workshops</italic>, Vancouver 2011. pp. 251–258. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ICDMW.2011.171">https://doi.org/10.1109/ICDMW.2011.171</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Lee</surname>
<given-names>K.</given-names>
</name>
<name>
<surname>Palsetia</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Narayanan</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Patwary</surname>
<given-names>M. M. A.</given-names>
</name>
<name>
<surname>Agrawal</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Choudhary</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>Twitter Trending Topic Classification</source>
<year>2011</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref10">
<label>[10]</label>
<mixed-citation>[10] Y. Zhu, X. Shen, y W. Pan, “Network-based support vector machine for classification of microarray samples,” <italic>BMC Bioinformatics</italic>, vol. 10, no S21, Jan. 2009. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/1471-2105-10-S1-S21">https://doi.org/10.1186/1471-2105-10-S1-S21</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Zhu</surname>
<given-names>Y.</given-names>
</name>
<name>
<surname>Shen</surname>
<given-names>X.</given-names>
</name>
</person-group>
<source>https://doi.org/10.1186/1471-2105-10-S1-S21</source>
<year>2009</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref11">
<label>[11]</label>
<mixed-citation>[11] J. Ramos, “Using tf-idf to determine word relevance in document queries,” en <italic>Proceedings of the first instructional conference on machine learning</italic>, Piscataway, 2003, pp. 133–142.</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Ramos</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>Using tf-idf to determine word relevance in document queries</source>
<year>2003</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref12">
<label>[12]</label>
<mixed-citation>[12] I. Rish, “An empirical study of the naive Bayes classifier,” en<italic> IJCAI 2001 workshop on empirical methods in artificial intelligence</italic>, 2001, pp. 41–46. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.330.2788">http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.330.2788</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Rish</surname>
<given-names>I.</given-names>
</name>
</person-group>
<source>An empirical study of the naive Bayes classifier</source>
<year>2001</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref13">
<label>[13]</label>
<mixed-citation>[13] E. Anguiano-Hernández, <italic>Naive Bayes Multinomial para clasificación de texto usando un esquema de pesado por clases</italic>, pp.1-8, Apr. 2009. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://ccc.inaoep.mx/~esucar/Clases-mgp/Proyectos/MGP_RepProy_Abr_29.pdf">http://ccc.inaoep.mx/~esucar/Clases-mgp/Proyectos/MGP_RepProy_Abr_29.pdf</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Anguiano-Hernández</surname>
<given-names>E.</given-names>
</name>
</person-group>
<source>Naive Bayes Multinomial para clasificación de texto usando un esquema de pesado por clases</source>
<year>2009</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref14">
<label>[14]</label>
<mixed-citation>[14] N. Cristianini y J. Shawe-Taylor, <italic>An Introduction to Support Vector Machines and Other Kernel-based Learning Methods</italic> Cambridge: University Press, 2000. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1017/CBO9780511801389">https://doi.org/10.1017/CBO9780511801389</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Cristianini</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>Shawe-Taylor</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>An Introduction to Support Vector Machines and Other Kernel-based Learning Methods</source>
<year>2000</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref15">
<label>[15]</label>
<mixed-citation>[15] RuleQuest Research “<italic>About us</italic>,” 2018. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://rulequest.com/about-us.html">https://rulequest.com/about-us.html</ext-link>. [Accedido: 21-Sep-2019].</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<collab>RuleQuest Research</collab>
</person-group>
<source>About us</source>
<year>2018</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref16">
<label>[16]</label>
<mixed-citation>[16] B. Sriram, D. Fuhry, E. Demir, H. Ferhatosmanoglu, y M. Demirbas, “Short text classification in twitter to improve information filtering,” en <italic>Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’10</italic>, Geneva, 2010, pp. 841–842. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/1835449.1835643">https://doi.org/10.1145/1835449.1835643</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Sriram</surname>
<given-names>B.</given-names>
</name>
<name>
<surname>Fuhry</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Demir</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Ferhatosmanoglu</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Demirbas</surname>
<given-names>M.</given-names>
</name>
</person-group>
<source>Short text classification in twitter to improve information filtering</source>
<year>2010</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref17">
<label>[17]</label>
<mixed-citation>[17] J. Nazura y B. L. Muralidhara, “Semantic classification of tweets: A contextual knowledge based approach for tweet classification,” en <italic>2017 8th International Conference on Information, Intelligence, Systems &amp; Applications (IISA)</italic>, Larnaca, 2017, pp.1-6. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/IISA.2017.8316358">https://doi.org/10.1109/IISA.2017.8316358</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Nazura</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Muralidhara</surname>
<given-names>B. L.</given-names>
</name>
</person-group>
<source>Semantic classification of tweets: A contextual knowledge based approach for tweet classification</source>
<year>2017</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref18">
<label>[18]</label>
<mixed-citation>[18] P. Selvaperumal y A. Suruliandi, “A short message classification algorithm for tweet classification,” en <italic>2014 International Conference on Recent Trends in Information Technology</italic>, Chennai, 2014. pp. 1–3. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ICRTIT.2014.6996189">https://doi.org/10.1109/ICRTIT.2014.6996189</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Selvaperumal</surname>
<given-names>P.</given-names>
</name>
<name>
<surname>Suruliandi</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>2014 International Conference on Recent Trends in Information Technology</source>
<year>2014</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref19">
<label>[19]</label>
<mixed-citation>[19] R. C. Balabantaray, M. Mohammad, y N. Sharma, “Multi-Class Twitter Emotion Classification: A New Approach,”<italic> Int. J. Appl. Inf. Syst.</italic>, vol. 4, no. 1, pp. 48–53, Sep. 2012. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5120/ijais12-450651">https://doi.org/10.5120/ijais12-450651</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Balabantaray</surname>
<given-names>R. C.</given-names>
</name>
<name>
<surname>Mohammad</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Sharma</surname>
<given-names>N.</given-names>
</name>
</person-group>
<source>Int. J. Appl. Inf. Syst.</source>
<year>2012</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref20">
<label>[20]</label>
<mixed-citation>[20] E. D’Andrea, P. Ducange, A. Bechini, A. Renda, y F. Marcelloni, “Monitoring the public opinion about the vaccination topic from tweets analysis,” <italic>Expert Syst. Appl.</italic>, vol. 116, pp. 209–226, Feb. 2019. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.eswa.2018.09.009">https://doi.org/10.1016/j.eswa.2018.09.009</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>D’Andrea</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Ducange</surname>
<given-names>P.</given-names>
</name>
<name>
<surname>Bechini</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Renda</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Marcelloni</surname>
<given-names>F.</given-names>
</name>
</person-group>
<source>Expert Syst. Appl.</source>
<year>2019</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref21">
<label>[21]</label>
<mixed-citation>[21] M. Habdank, N. Rodehutskors, y R. Koch, “Relevancy assessment of tweets using supervised learning techniques: Mining emergency related tweets for automated relevancy classification,” en <italic>2017 4th International Conference on Information and Communication Technologies for Disaster Management (ICT-DM)</italic>, Münster, 2017, pp. 1–8. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ICT-DM.2017.8275670">https://doi.org/10.1109/ICT-DM.2017.8275670</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Habdank</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Rodehutskors</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>Koch</surname>
<given-names>R.</given-names>
</name>
</person-group>
<source>Relevancy assessment of tweets using supervised learning techniques: Mining emergency related tweets for automated relevancy classification</source>
<year>2017</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref22">
<label>[22]</label>
<mixed-citation>[22] J. F. Franco-Bermúdez y W. L. Ruiz-Castañeda, “Análisis de redes sociales para un sistema de innovación generado a partir de un modelo de simulación basado en agentes,” <italic>TecnoLógicas</italic>, vol. 22, no. 44, pp. 21–44, Jan. 2019. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.22430/22565337.1183">https://doi.org/10.22430/22565337.1183</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Franco-Bermúdez</surname>
<given-names>J. F.</given-names>
</name>
<name>
<surname>Ruiz-Castañeda</surname>
<given-names>W. L.</given-names>
</name>
</person-group>
<source>TecnoLógicas</source>
<year>2019</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref23">
<label>[23]</label>
<mixed-citation>[23] R. S. Ghaly, E. Elabd, y M. A. Mostafa, “Tweets classification, hashtags suggestion and tweets linking in social semantic web,” en <italic>2016 SAI Computing Conference (SAI)</italic>, London, 2016. pp. 1140–1146. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/SAI.2016.7556121">https://doi.org/10.1109/SAI.2016.7556121</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Ghaly</surname>
<given-names>R. S.</given-names>
</name>
<name>
<surname>Elabd</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Mostafa</surname>
<given-names>M. A.</given-names>
</name>
</person-group>
<source>Tweets classification, hashtags suggestion and tweets linking in social semantic web</source>
<year>2016</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref24">
<label>[24]</label>
<mixed-citation>[24] E. Yar, I. Delibalta, L. Baruh, y S. S. Kozat, “Online text classification for real life tweet analysis,” en <italic>2016 24th Signal Processing and Communication Application Conference (SIU)</italic>, Zonguldak, 2016. pp. 1609–1612. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/SIU.2016.7496063">https://doi.org/10.1109/SIU.2016.7496063</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Yar</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Delibalta</surname>
<given-names>I.</given-names>
</name>
<name>
<surname>Baruh</surname>
<given-names>L.</given-names>
</name>
<name>
<surname>Kozat</surname>
<given-names>S. S.</given-names>
</name>
</person-group>
<source>Online text classification for real life tweet analysis</source>
<year>2016</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref25">
<label>[25]</label>
<mixed-citation>[25] J. M. Rodriguez, D. Godoy, C. Mateos, y A. Zunino, “A multi-core computing approach for large-scale multi-label classification,” <italic>Intell. Data Anal</italic>., vol. 21, no. 2, pp. 329–352, Mar. 2017. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3233/IDA-150375">https://doi.org/10.3233/IDA-150375</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Rodriguez</surname>
<given-names>J. M.</given-names>
</name>
<name>
<surname>Godoy</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Mateos</surname>
<given-names>C.</given-names>
</name>
<name>
<surname>Zunino</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>Intell. Data Anal</source>
<year>2017</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref26">
<label>[26]</label>
<mixed-citation>[26] Twitter4J.org, “Overview”. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://twitter4j.org/javadoc/index.html">http://twitter4j.org/javadoc/index.html</ext-link>
</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<collab>Twitter4J.org</collab>
</person-group>
<source>Overview</source>
<year>2018</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref27">
<label>[27]</label>
<mixed-citation>[27] R. Longadge, S. Dongre y L. Malik, “Class Imbalance Problem in Data Mining Review,”<italic> Int. J. Comput. Sci. Netw.</italic>, vol. 2, no. 1, pp. 83–87, May, 2013. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://journaldatabase.info/articles/class_imbalance_problem_data_mining.html">http://journaldatabase.info/articles/class_imbalance_problem_data_mining.html</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Longadge</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Dongre</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Malik</surname>
<given-names>L.</given-names>
</name>
</person-group>
<source>Int. J. Comput. Sci. Netw.</source>
<year>2013</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref28">
<label>[28]</label>
<mixed-citation>[28] B. Hernández-Pajares, “Clasificación Automática Multiclase de Tweets y su Representación Gráfica,”(Tesis de Maestría), Facultad de ingeniería, Madrid, Universidad Rey Juan Carlos, 2013. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://eciencia.urjc.es/handle/10115/11914">https://eciencia.urjc.es/handle/10115/11914</ext-link>
</mixed-citation>
<element-citation publication-type="thesis">
<person-group person-group-type="author">
<name>
<surname>Hernández-Pajares</surname>
<given-names>B.</given-names>
</name>
</person-group>
<source>Clasificación Automática Multiclase de Tweets y su Representación Gráfica</source>
<year>2013</year>
</element-citation>
</ref>
<ref id="redalyc_344262603021_ref29">
<label>[29]</label>
<mixed-citation>[29] B. Hernández-Pajares, D. Pérez-Marín y V. Frías-Martínez, “TFM_code”, 2013. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://urjc-my.sharepoint.com/personal/diana_perez_urjc_es/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fdiana%5Fperez%5Furjc%5Fes%2FDocuments%2Fpublicaciones%2F2020%2Ftecnologicas%2Fcode%2Ezip&amp;parent=%2Fpersonal%2Fdiana%5Fperez%5Furjc%5Fes%2FDocuments%2Fpublicaciones%2F2020%2Ftecnologicas&amp;originalPath=aHR0cHM6Ly91cmpjLW15LnNoYXJlcG9pbnQuY29tLzp1Oi9nL3BlcnNvbmFsL2RpYW5hX3BlcmV6X3VyamNfZXMvRVhBb0JNSzJuSU5FbjZuaXoxenNMaTBCb3lWQzc5RmdzUFQ0dk1UbmJjdEFVQT9ydGltZT01X3BzMmtiTTEwZw">https://urjc-my.sharepoint.com/personal/diana_perez_urjc_es/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fdiana%5Fperez%5Furjc%5Fes%2FDocuments%2Fpublicaciones%2F2020%2Ftecnologicas%2Fcode%2Ezip&amp;parent=%2Fpersonal%2Fdiana%5Fperez%5Furjc%5Fes%2FDocuments%2Fpublicaciones%2F2020%2Ftecnologicas&amp;originalPath=aHR0cHM6Ly91cmpjLW15LnNoYXJlcG9pbnQuY29tLzp1Oi9nL3BlcnNvbmFsL2RpYW5hX3BlcmV6X3VyamNfZXMvRVhBb0JNSzJuSU5FbjZuaXoxenNMaTBCb3lWQzc5RmdzUFQ0dk1UbmJjdEFVQT9ydGltZT01X3BzMmtiTTEwZw</ext-link>
</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<name>
<surname>Hernández-Pajares</surname>
<given-names>B.</given-names>
</name>
<name>
<surname>Pérez-Marín</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Frías-Martínez</surname>
<given-names>V.</given-names>
</name>
</person-group>
<source>TFM_code</source>
<year>2013</year>
</element-citation>
</ref>
</ref-list>
</back>
</article>