• Communities & Collections
    • By Issue Date
    • Authors
    • Titles
    • Subjects
    • Document type
    • español
    • English
    • português (Brasil)
  • Self archiving
  • Browse 
    • Communities & Collections
    • By Issue Date
    • Authors
    • Titles
    • Subjects
    • Document type
  • English 
    • español
    • English
    • português (Brasil)
  • Login
View Item 
  •   Institutional repository ITM
  • Revistas
  • Revistas Científicas
  • TecnoLógicas
  • Vol. 23 Núm. 47 (2020)
  • View Item
  •   Institutional repository ITM
  • Revistas
  • Revistas Científicas
  • TecnoLógicas
  • Vol. 23 Núm. 47 (2020)
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

All of ITMCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument typeThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument type

My Account

LoginRegister

Statistics

View Usage Statistics
Statistics GTMView statistics GTM

Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter

Thumbnail
QRCode
Share this
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
Date
2020-01-30
Author
Hernández-Pajares, Beatriz
Pérez-Marín, Diana
Frías-Martínez, Vanessa

Citation

       
TY - GEN T1 - Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter AU - Hernández-Pajares, Beatriz AU - Pérez-Marín, Diana AU - Frías-Martínez, Vanessa Y1 - 2020-01-30 UR - http://hdl.handle.net/20.500.12622/4600 AB - Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente.   ER - @misc{20.500.12622_4600, author = {Hernández-Pajares Beatriz and Pérez-Marín Diana and Frías-Martínez Vanessa}, title = {Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter}, year = {2020-01-30}, abstract = {Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente.  }, url = {http://hdl.handle.net/20.500.12622/4600} }RT Generic T1 Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter A1 Hernández-Pajares, Beatriz A1 Pérez-Marín, Diana A1 Frías-Martínez, Vanessa YR 2020-01-30 LK http://hdl.handle.net/20.500.12622/4600 AB Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente.   OL Spanish (121)
Bibliographic managers
Refworks
Zotero
BibTeX
CiteULike
Metadata
Show full item record
Abstract
Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente.  
Abstract
Social networks generate massive amounts of information. Current Natural Language techniques allow the automatic processing of that information, and Data Mining enables the automatic extraction of useful info. However, a state-of-the-art review reveals that many classification methods only distinguish two classes. This paper presents a procedure to automatically classify tweets into several classes (more than two). The steps of the procedure are described in detail so that any researcher can follow them. The accuracy and coverage (instead of only coverage as usual in the literature) of two automatic classifiers (SVM and Random Forests) were analyzed in a comparative study. The procedure was applied to automatically identify more than two types of complaint from 190,000 tweets. According to the results, Random Forests should be used because they achieve an average accuracy of 81.46 % and an average coverage of 59.88 %.
Palabras clave
Minería de texto; clasificación multiclase; redes sociales; Twitter
keywords
Text Mining; Multiclass Classification; Social Networks; Twitter
URI
http://hdl.handle.net/20.500.12622/4600
Statistics Google Analytics
Collections
  • Vol. 23 Núm. 47 (2020) [15]

Departamento de Biblioteca y Extensión Cultural
bibliotecaitm@itm.edu.co

Contact Us | Send Feedback