<?xml version="1.0" encoding="UTF-8"?><?xml-model type="application/xml-dtd" href="http://jats.nlm.nih.gov/publishing/1.1d3/JATS-journalpublishing1.dtd"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.1d3 20150301//EN" "http://jats.nlm.nih.gov/publishing/1.1d3/JATS-journalpublishing1.dtd">
<article xmlns:ali="http://www.niso.org/schemas/ali/1.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" dtd-version="1.1d3" specific-use="Marcalyc 1.2" article-type="research-article" xml:lang="es">
<front>
<journal-meta>
<journal-id journal-id-type="redalyc">3442</journal-id>
<journal-title-group>
<journal-title specific-use="original" xml:lang="es">TecnoLógicas</journal-title>
</journal-title-group>
<issn pub-type="ppub">0123-7799</issn>
<issn pub-type="epub">2256-5337</issn>
<publisher>
<publisher-name>Instituto Tecnológico Metropolitano</publisher-name>
<publisher-loc>
<country>Colombia</country>
<email>tecnologicas@itm.edu.co</email>
</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="art-access-id" specific-use="redalyc">344255453015</article-id>
<article-id pub-id-type="doi">https://doi.org/10.22430/22565337.788</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Artículos de investigación</subject>
</subj-group>
</article-categories>
<title-group>
<article-title xml:lang="es">Modelo para detección automática de errores léxico-sintácticos en textos escritos en español</article-title>
<trans-title-group>
<trans-title xml:lang="en">Model
for automatic detection of  lexical-syntactic errors in texts written in
Spanish</trans-title>
</trans-title-group>
<alt-title alt-title-type="lt-running">TecnoLógicas, ISSN-p
0123-7799 / ISSN-e 2256-5337, Vol. 21, No. 41, enero-abril de 2018, pp. 199-209</alt-title>
</title-group>
<contrib-group>
<contrib contrib-type="author" corresp="no">
<name name-style="western">
<surname>Bustamante-Rodríguez</surname>
<given-names>María D.</given-names>
</name>
<xref ref-type="aff" rid="aff1"/>
<email>mariabustamante@itm.edu.co</email>
</contrib>
<contrib contrib-type="author" corresp="no">
<name name-style="western">
<surname>Piedrahita-Ospina</surname>
<given-names>Alberto A.</given-names>
</name>
<xref ref-type="aff" rid="aff2"/>
<email>albertopiedrahita@itm.edu.co</email>
</contrib>
<contrib contrib-type="author" corresp="no">
<name name-style="western">
<surname>Ramírez-Velásquez</surname>
<given-names>Iliana M.</given-names>
</name>
<xref ref-type="aff" rid="aff3"/>
<email>ilianaramirez@itm.edu.co</email>
</contrib>
</contrib-group>
<aff id="aff1">
<institution content-type="original">Magíster en Educación, Facultad de Ciencias
Exactas y Aplicadas, Instituto Tecnológico Metropolitano, Medellín-Colombia,
mariabustamante@itm.edu.co</institution>
<institution content-type="orgname">Instituto Tecnológico Metropolitano</institution>
<country country="CO">Colombia</country>
</aff>
<aff id="aff2">
<institution content-type="original">Magíster en Ingeniería de Sistemas, Facultad
de Ciencias Exactas y Aplicadas, Instituto Tecnológico Metropolitano,
Medellín-Colombia, albertopiedrahita@itm.edu.co</institution>
<institution content-type="orgname">Instituto Tecnológico Metropolitano</institution>
<country country="CO">Colombia</country>
</aff>
<aff id="aff3">
<institution content-type="original">Magíster en Automatización y Control
Industrial, Facultad de Ciencias Exactas y Aplicadas, Instituto Tecnológico
Metropolitano, Medellín-Colombia, ilianaramirez@itm.edu.co</institution>
<institution content-type="orgname">Instituto Tecnológico
Metropolitano</institution>
<country country="CO">Colombia</country>
</aff>
<pub-date pub-type="epub-ppub">
<season>May-August 2019</season>
<year>2018</year>
</pub-date>
<volume>21</volume>
<issue>42</issue>
<fpage>199</fpage>
<lpage>209</lpage>
<history>
<date date-type="received" publication-format="dd mes yyyy">
<day>29</day>
<month>09</month>
<year>2017</year>
</date>
<date date-type="accepted" publication-format="dd mes yyyy">
<day>08</day>
<month>03</month>
<year>2018</year>
</date>
</history>
<permissions>
<copyright-statement>Los artículos publicados por la revista TecnoLógicas son obras literarias y científicas protegidas por las leyes de Derecho de Autor. Con la firma de la Declaración de Originalidad, así como con la entrega de la obra para su consideración o posible publicación, los autor autorizan de forma gratuita, al INSTITUTO TECNOLÓGICO METROPOLITANO –ITM- para la publicación, reproducción, comunicación, distribución y transformación de la obra e igualmente declaran bajo la gravedad del juramento que la obra es original e inédita de exclusiva autoría de los remitentes.</copyright-statement>
<copyright-year>2018</copyright-year>
<copyright-holder>Instituto Tecnológico Metropolitano</copyright-holder>
<ali:free_to_read/>
<license xlink:href="https://creativecommons.org/licenses/by/3.0/">
<ali:license_ref>https://creativecommons.org/licenses/by/3.0/</ali:license_ref>
<license-p>Esta obra está bajo una Licencia Creative Commons Atribución 3.0 Internacional.</license-p>
</license>
</permissions>
<abstract xml:lang="es">
<title>Resumen</title>
<p> La valoración de textos escritos es una tarea que considera principalmente dos aspectos: el sintáctico y el semántico. El primero de ellos, se enfoca en la forma del texto y el segundo en el significado. La puesta en marcha de dicha tarea realizada en forma manual implica un esfuerzo en tiempo y recursos, que se puede reducir si parte del proceso se lleva a cabo de forma automática. De acuerdo con los antecedentes revisados en la corrección automática de textos, se identifican diferentes técnicas, entre ellas la lingüística, la cual se centra en los elementos sintácticos, semánticos y pragmáticos. Así, la investigación en curso se orienta a la revisión automática de textos escritos en español desde el punto de vista de la sintaxis, como punto de partida para garantizar la coherencia y la cohesión en la composición de textos, lo que puede ser de utilidad e impacto en el medio académico. Con el propósito de llevar a cabo este estudio se recolectó y analizó un conjunto de textos de estudiantes de un programa académico, al cual se le aplicó técnicas de procesamiento de lenguaje natural y aprendizaje de máquina. Adicionalmente, se realizó una corrección manual con la finalidad de comparar ambos resultados. De esta manera, se determinó que hay correspondencia entre ellos, lo cual permitió concluir que el método automático sirve de apoyo en el proceso de corrección sintáctica de un texto escrito en español.    </p>
</abstract>
<trans-abstract xml:lang="en">
<title>Abstract</title>
<p> Evaluating written texts is a task that mainly considers two aspects: syntactics and semantics. The first one focuses on the form of the text, and the second one, on its meaning. Conducting this task manually implies an effort in time and resources that can be reduced if part of the process is carried out automatically. According to the reviewed literature, there are different techniques for automatically correcting texts. One of them is the linguistic approach, which focuses on syntactic, semantic, and pragmatic elements. Likewise, this ongoing research is concerned with the automatic evaluation of syntactic errors in texts written in Spanish as a starting point to ensure coherence and cohesion in text composition, which may be useful in the academic environment. In order to carry out this study, a set of texts by students enrolled in an academic program was collected and analyzed by applying natural language processing and machine learning techniques. Additionally, the content of the corpus was manually corrected to compare the results of both methods, and correspondence was established between them. For this reason, it was concluded that the automatic method supports the syntactic correction process of a text written in Spanish.    </p>
</trans-abstract>
<kwd-group xml:lang="es">
<title>Palabras clave</title>
<kwd>Lingüística
computacional</kwd>
<kwd>análisis de texto</kwd>
<kwd>procesamiento de lenguaje natural</kwd>
<kwd>inteligencia artificial</kwd>
<kwd> sintaxis</kwd>
</kwd-group>
<kwd-group xml:lang="en">
<title>Keywords</title>
<kwd>Computational linguistics</kwd>
<kwd> text analysis</kwd>
<kwd>natural
language processing</kwd>
<kwd>artificial intelligence</kwd>
<kwd> syntax</kwd>
</kwd-group>
<counts>
<fig-count count="5"/>
<table-count count="1"/>
<equation-count count="0"/>
<ref-count count="20"/>
</counts>
</article-meta>
</front>
<body>
<sec>
<title/>
<p>
<disp-quote>
<p> Cómo citar / How to cite </p>
<p> M. D. Bustamante-Rodríguez, A. A. Piedrahita-Ospina, y I. M. Ramírez-Velásquez, Modelo para detección automática de errores léxico-sintácticos en textos escritos en español. TecnoLógicas, vol. 21, no. 42, pp. 199-209, 2018.</p>
</disp-quote>
</p>
</sec>
<sec>
<title>1. INTRODUCCIÓN</title>
<p> La lingüística computacional también conocida como Procesamiento del Lenguaje Natural (PLN) es un campo interdisciplinario alienado con las áreas de la lingüística aplicada y la inteligencia artificial, el cual tiene como finalidad diseñar e implementar aplicaciones informáticas que emulen habilidades humanas a situaciones que involucran el lenguaje [<xref ref-type="bibr" rid="redalyc_344255453015_ref1">1</xref>]. La inteligencia artificial se define como el estudio de los agentes que reciben percepciones del entorno, implementan funciones que estructuran las secuencias de las percepciones en acciones. Tales funciones se pueden representar de diferentes formas, como sistemas de producción, planificadores condicionales en tiempo real, redes neuronales, agentes reactivos y sistemas para la toma de decisiones. Por ello, la inteligencia artificial sintetiza y automatiza tareas intelectuales siendo relevante para cualquier ámbito de la actividad intelectual humana [<xref ref-type="bibr" rid="redalyc_344255453015_ref2">2</xref>]. De otro lado, y de manera muy general, la lingüística moderna se ocupa del estudio científico de las lenguas naturales: su evolución histórica, su estructura interna y el conocimiento que los hablantes poseen de su propia lengua [<xref ref-type="bibr" rid="redalyc_344255453015_ref3">3</xref>]. </p>
<p> El campo híbrido que cobija la inteligencia artificial y la lingüística moderna es el ya mencionado, lingüística computacional o procesamiento del lenguaje natural, que estudia la manera de construir modelos del lenguaje con la finalidad de ser entendibles por los computadores [<xref ref-type="bibr" rid="redalyc_344255453015_ref4">4</xref>]. El entendimiento del lenguaje va más allá del entendimiento de las sentencias, se fundamenta en su comprensión y en la de su contexto [<xref ref-type="bibr" rid="redalyc_344255453015_ref2">2</xref>]. </p>
<p> En esta línea, cabe acotar que se abordaron para este estudio los presupuestos de la ciencia del texto [<xref ref-type="bibr" rid="redalyc_344255453015_ref5">5</xref>], dado que se analizan tanto las características y estructuras generales del uso de la lengua, como los contextos comunicativos en los que este sistema se pone en juego. </p>
<p> Se parte de la definición de texto como una unidad de significado constituida por una secuencia de proposiciones que cumplen con los criterios de cohesión y coherencia. La coherencia es la relación que se establece entre proposiciones enteras, postulados y conceptos que enmarcan el sentido del texto y le dan continuidad temática. Además, permite comprender la relación entre proposiciones independientes, la cual se evidencia en un nivel semántico y referencial. Aparte de resultar coherente, un texto debe tener cohesión, es decir, mantener conexión e hilaridad entre las partes de esas proposiciones, mediante conectores léxicos y gramaticales. Bajo estas condiciones, todo texto posee, a su vez, una macroestructura y una microestructura. La primera es de naturaleza semántica, puesto que define aquellas interrelaciones que se derivan del texto completo y permiten que este mantenga un sentido global. Mientras que la microestructura, hace referencia a la secuencia de oraciones que conforman el texto. </p>
<p> La microestructura, desde el punto de vista de la sintaxis, permite identificar, entre otras, las reglas para construir oraciones inteligibles, así como las posibilidades para combinarlas haciendo un uso adecuado de las categorías gramaticales. Es por ello que las estructuras oracionales constituyen una unidad fundamental de sentido que debe ser comprensible e interpretable. En esa línea, para garantizar las condiciones necesarias de cohesión y coherencia global en un texto, es indispensable especificar los errores sintácticos que se presenten tanto en oraciones como en secuencias de oraciones, durante el proceso de evaluación del mismo. </p>
<p> De otro lado, la creación de modelos computacionales que permitan escribir programas informáticos capaces de realizar tareas en donde interviene el lenguaje natural [<xref ref-type="bibr" rid="redalyc_344255453015_ref6">6</xref>], ellos son de gran utilidad para la puesta en marcha de procesos automáticos de corrección sintáctica de textos escritos. A la inteligencia artificial le compete la codificación de programas con facultades cognitivas, en esta línea, la lingüística computacional o PLN se encarga del tratamiento de la estructura lingüística, integrándose como módulo de entrada/salida dentro de un sistema compuesto [<xref ref-type="bibr" rid="redalyc_344255453015_ref7">7</xref>]. </p>
<p> La Lingüística Computacional (LC) se ocupa de investigar los mecanismos que posibilitan la comunicación entre las personas por medio del lenguaje, agregando el uso de las ciencias de la computación. Como parte de las aplicaciones en este campo, se encuentran la generación de discursos, recuperación de información, extracción de información, traducción automática, reconocimiento de voz, búsqueda de respuestas, entre otras. Así mismo, se utilizan diferentes modelos o métodos para llevar a cabo el proceso de lenguaje natural, entre ellos modelos probabilísticos del lenguaje, los cuales se definen como una distribución de probabilidad sobre un conjunto de cadenas de caracteres o de palabras contenidas en una colección base y vasta de textos escritos (corpus), o modelos basados en gramáticas [<xref ref-type="bibr" rid="redalyc_344255453015_ref2">2</xref>]. En esta línea, se han reportado trabajos que incluyen el uso de n-gramas y su sintaxis para predecir los rasgos de edad, género y personalidad que tiene el autor de un determinado texto, dichos rasgos son denominados como etiquetas; el método que se describe tiene un enfoque de aprendizaje supervisado, donde un clasificador es entrenado independientemente para cada etiqueta; de esta manera, la predicción para una instancia es la unión de las salidas de cada clasificador, utilizan los n-gramas sintácticos como marcadores de personalidad junto con el uso del clasificador [<xref ref-type="bibr" rid="redalyc_344255453015_ref8">8</xref>]. </p>
<p> A partir del concepto n-gramas sintácticos (sn-gramas) y tomando como base los n-gramas de palabras tradicionales, otros investigadores llevaron el análisis sintáctico a los métodos de aprendizaje automático; ellos reportan que los sn-gramas se construyen siguiendo caminos en árboles sintácticos ya que los gramas vecinos son tomados siguiendo relaciones sintácticas en árboles sintácticos, y no tomando palabras como aparecen en un texto, de acuerdo con sus resultados, los sn-gramas se pueden aplicar en cualquier tarea de Procesamiento de Lenguaje Natural (PLN), reemplazando los n-gramas tradicionales; aplicaron tres clasificadores: Máquinas de Soporte Vectorial (SVM), Redes Bayesianas (NB) y J48; de los tres, los mejores resultados fueron presentados por el clasificador SVM [<xref ref-type="bibr" rid="redalyc_344255453015_ref9">9</xref>] .  </p>
<p> La clasificación de documentos multi-lengua en redes sociales, se ha llevado a cabo a través de la implementación de un algoritmo que combina los n-gramas de caracteres y los n-gramas de etiquetas gramaticales. Cabe notar que la extracción de información estilística codificada en los documentos se realizó a partir de una normalización dinámica dependiente del contexto. El algoritmo se aplicó a dos corpus, primero el denominado “Comentarios de la Ciudad de México en el tiempo” y los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015. Los resultados presentaron una exactitud cercana al 90 % [<xref ref-type="bibr" rid="redalyc_344255453015_ref10">10</xref>]. </p>
<p> Como se ha venido describiendo, en la lingüística computacional se desarrollan aproximaciones a las problemáticas de extracción de información, paráfrasis y minería de datos en textos; a través de técnicas, tales como redes neuronales artificiales, árboles de decisión y en general, algoritmos de aprendizaje supervisado. En esta ruta, se han reportado proyectos en los que se busca procesar textos por medio de técnicas de aprendizaje automático, en donde desarrollaron un conjunto de herramientas, con diversos fines, entre los que se encuentran construcción de material de entrenamiento, procesamiento de datos estructurados y detección de similitudes entre fragmentos de textos. En su totalidad, el sistema creado incluye una aplicación web que permite la manipulación de datos de diversos orígenes, tales como archivos con información proveniente de motores de bases de datos, para aplicar en ellos técnicas de análisis de texto; una segunda aplicación se refiere a la lectura y edición de corpus, la realización del etiquetado sobre los corpus agregando información lingüística; y una tercera para la detección de similitudes [<xref ref-type="bibr" rid="redalyc_344255453015_ref11">11</xref>]. </p>
<p> Al considerar de manera más específica el concepto de Lingüística de Corpus, este encuadra como un enfoque metodológico para el estudio de las lenguas, además, representa oportunidades para la descripción y análisis de discursos, la construcción de gramáticas, diccionarios y otros, tanto de discursos generales como especializados, orales y escritos [<xref ref-type="bibr" rid="redalyc_344255453015_ref12">12</xref>]. Sin embargo, en la literatura consultada, se han encontrado propuestas para describir textos desde el punto de vista semántico, en particular, han presentado el diseño de un constructor automático de modelos de dominio de conocimiento de forma automática sin corpus preexistente para describir semánticamente un contexto, tal constructor se basa en técnicas y métodos para la construcción de corpus a partir de fuentes digitales, mediante el desarrollo de librerías de software que automaticen las fases del sistema propuesto [<xref ref-type="bibr" rid="redalyc_344255453015_ref13">13</xref>]. </p>
<p> De otro lado, un texto corto, por ejemplo, un resumen, expone lo esencial de un tema específico, ha sido material para entrenar y probar modelos útiles para determinar la calidad lingüística. Otros investigadores proponen una evaluación sistemática de diversas clases de métricas a partir de la captura de varios aspectos de un texto, en este caso, un resumen. Los aspectos que tuvieron en cuenta para evaluar la calidad lingüística fueron: gramática, no redundancia, claridad referencial, enfoque, estructura y coherencia. Además, entre los factores que influyen en dicha calidad están la elección de palabras, la forma referencial de las entidades y la coherencia local. Utilizaron el clasificador SVM para marcar los resúmenes de las características definidas, las puntuaciones obtenidas en cada aspecto y característica, donde finalmente presentaron valores entre 78.5 y 92.9. El primer valor corresponde a la característica <italic>nombre de la entidad</italic> en el aspecto gramatical y el segundo, a la característica <italic>continuidad</italic> en el aspecto referencia [<xref ref-type="bibr" rid="redalyc_344255453015_ref14">14</xref>]. </p>
<p> De otro lado, se han señalado métodos de detección automática de unidades lingüísticas, de patrones léxicos o de palabras que expresan lo opuesto al sentido literal. En esta línea [<xref ref-type="bibr" rid="redalyc_344255453015_ref15">15</xref>] se reporta un método para detectar de manera automática marcadores discursivos del español, dichos marcadores son elementos que establecen relaciones entre segmentos textuales con la finalidad de ordenar la lectura. Por medio de este método, el autor logró un resultado de 98 % de precisión y 97 % de cobertura. Adicionalmente, [<xref ref-type="bibr" rid="redalyc_344255453015_ref16">16</xref>] propone un modelo de detección de ironía en textos escritos en español. Para su evaluación, se construyó un corpus compuesto de mensajes de <italic>microblogging</italic> (tweets) en español, los cuales fueron etiquetados como irónicos y no irónicos por evaluadores humanos, y en términos generales, el modelo detectó una ironía de aproximadamente 78 %. </p>
<p> Las aplicaciones generadas a partir de investigaciones en el área, han sido de gran apoyo para facilitar la evaluación de la calidad lingüística, sin embargo, en el ámbito educativo, se considera importante tener a la mano, una herramienta ágil como apoyo a la corrección automática de textos escritos desde el punto de vista de la sintaxis. De acuerdo a lo expuesto, se presenta una propuesta para llevar a cabo la tarea en mención, haciendo uso de las bondades permitidas por las técnicas del procesamiento de lenguaje natural, tales como la extracción de información y minería de textos basada en reglas y en aprendizaje de máquina supervisado.</p>
</sec>
<sec>
<title>2. METODOLOGÍA</title>
<p>Como paso inicial, se
recolectaron los escritos de los estudiantes, previo consentimiento informado. Dichos
escritos conformaron el conjunto de datos para ser analizados. Dada su
naturaleza, fue necesario en primer lugar definir un corpus, el cual actúa como
un repositorio de palabras y expresiones equívocas de la lengua española, los
cuales son susceptibles de afectar la coherencia y la cohesión de textos
escritos. Posteriormente, se implementó el modelo computacional, el cual
clasifica, detecta y señala los errores presentes en el texto de acuerdo con el
corpus definido. Por último, se genera un informe que contiene el número total
de palabras y el número de errores señalados. Con estos datos, se calcula el
cociente entre el número de errores señalados y el número total de palabras,
este valor se denomina Índice de Densidad de Errores (IDE). Cabe aclarar, que
este índice tiene una relación directa con problemas de coherencia y cohesión
en los textos analizados.</p>
<sec>
<title>2.1 Composición del corpus</title>
<p> El corpus está constituido por un listado de expresiones que no cumplen con las reglas sintácticas definidas conforme con los postulados de la gramática de la lengua española, centrado en el nivel de análisis sintáctico que corresponde a la manera en que se combinan y se disponen las oraciones y, de esta manera, determinar la ruta para la detección de errores de escritura en las relaciones sintácticas de concordancia, selección y posición [<xref ref-type="bibr" rid="redalyc_344255453015_ref17">17</xref>].  </p>
<sec>
<title>2.2 Modelo léxico-sintáctico</title>
<p> El corpus está constituido por un listado de expresiones que no cumplen con las reglas sintácticas definidas de acuerdo con los postulados de la gramática de la lengua española, centrado en el nivel de análisis sintáctico que corresponde a la manera en que se combinan y se disponen las oraciones y de esta manera, determinar la ruta para la detección de errores de escritura en las relaciones sintácticas de concordancia, selección y posición [<xref ref-type="bibr" rid="redalyc_344255453015_ref17">17</xref>]. </p>
<p> El modelo está implementado en dos fases: la primera se encarga de etiquetar las palabras dentro del texto de acuerdo con su categoría gramatical o léxica y su función sintáctica en la oración. En esta etapa, se utilizó la librería NLTK, la cual es un kit de herramientas bajo un lenguaje de programación Python, que permite el procesamiento de lenguaje natural. Sobre esta plataforma, se desarrollaron POS Tagger (acrónimo en inglés de Part-Of-Speech Tagger), el cual, afín con los autores, se define como una pieza de software que procesa un texto escrito, y asigna a cada palabra una etiqueta que se refiere a la parte del discurso que le corresponde, tales como: sustantivo, verbo, adjetivo, entre otros. El POS Tagger consta de tres modos: etiquetar, entrenar y probar. El modo etiquetar usa un modelo pre-entrenado con aprendizaje de máquina supervisado para asignar etiquetas al texto, por su parte, el modo entrenar permite crear un nuevo modelo para etiquetar los datos que se proveen, finalmente, el modo probar permite observar qué tan correctas son las etiquetas asignadas [<xref ref-type="bibr" rid="redalyc_344255453015_ref18">18</xref>], [<xref ref-type="bibr" rid="redalyc_344255453015_ref19">19</xref>]. </p>
<p> El grupo de etiquetas propuesto por [<xref ref-type="bibr" rid="redalyc_344255453015_ref20">20</xref>], representa la información morfosintáctica de las palabras para varios idiomas, entre ellos el español e incluye las categorías: sustantivo, verbo, adjetivo, pronombre, determinante, artículo, adverbio, preposición y conjunción. Cada categoría se define mediante una nomenclatura que consta de atributos, valores y códigos, los cuales permiten distinguir la función morfosintáctica de cada palabra dentro de la oración. No todos los atributos correspondientes a cada categoría están definidos para el español, en ese caso se asigna el valor cero (0) en el respectivo atributo. Por ejemplo, a la entidad sustantivo se atribuye cuatro atributos: tipo (común y propio), género (masculino, femenino, neutro), número (singular y plural) y caso (nominativo, genitivo, dativo, acusativo y vocativo). Así, un sustantivo común, femenino, plural es etiquetado como N1220, el cero es asignado ya que el atributo caso no está definido para el vocablo analizado. </p>
<p> El texto con las palabras etiquetadas, avanza hacia el proceso de detección sintáctica de errores (fase 2). Para ello, se construyó un corpus de expresiones que no cumplen con las reglas sintácticas, permitiendo así resaltar dentro del texto los errores que caben dentro de la categoría gramatical o léxica, los cuales repercuten en la coherencia, puesto que representan falta de claridad e imprecisión en las ideas expuestas en el texto. En cuanto a la cohesión, esta clase de errores demuestra falta de conexión entre ideas y párrafos. La<xref ref-type="fig" rid="gf1"> Fig. 1</xref> representa esquemáticamente el modelo.</p>
<p>
<fig id="gf1">
<label>Fig. 1.</label>
<caption>
<title>Arquitectura del modelo léxico-sintáctico.</title>
</caption>
<alt-text>Fig. 1. Arquitectura del modelo léxico-sintáctico.</alt-text>
<graphic xlink:href="344255453015_gf1.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: autores.</attrib>
</fig>
</p>
<p> El detector automático de errores que se exhibe en la <xref ref-type="fig" rid="gf1">Fig. 1</xref>, se detalla en el pseudocódigo presentado en la <xref ref-type="fig" rid="gf2">Fig. 2</xref>. </p>
<p>
<fig id="gf2">
<label>Fig. 2.</label>
<caption>
<title>Pseudocódigo que representa el detector de errores.</title>
</caption>
<alt-text>Fig. 2. Pseudocódigo que representa el detector de errores.</alt-text>
<graphic xlink:href="344255453015_gf2.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:
autores.</attrib>
</fig>
</p>
<p>El proceso de detección
de errores comienza con la lectura del resultado de la clasificación
proveniente del texto a analizar, posteriormente se hace lectura de las
expresiones contenidas en el corpus arriba definido. Para cada expresión en el corpus,
se calcula el número de ocurrencias de dicha expresión en el texto, si esta
cantidad es mayor a cero se cuenta como error, el dato se acumula y se resalta
la palabra o expresión. Adicionalmente, se hace conteo del número total de
palabras en el texto y calcula el IDE.</p>
<sec>
<title>2.3 Validación del modelo</title>
<p> Se trabajó con un conjunto de diez textos escritos, donde cada uno consta entre 52 y 183 palabras. Los escritos han sido elaborados por estudiantes de un programa académico de posgrado, cuya primera lengua es el español. El aplicativo trabaja con archivos de entradas que constituyen el corpus, el cual está compuesto palabras, oraciones y secuencias de oraciones. La herramienta señala una palabra o secuencia de palabras, de acuerdo con la existencia o no de errores sintácticos, los cuales impactan la coherencia y cohesión de un texto, puesto que al tener estos errores, la oración como unidad mínima de sentido, no es inteligible. Adicionalmente, brinda la posibilidad de declarar diversos tipos de expresiones que se ajustan a categorías gramaticales, tales como clases o subclases de palabras, artículos, pronombres, adverbios, preposiciones, conjunciones, los verbos ser y haber, así mismo, las categorías léxicas como son sustantivos, adjetivos, la mayoría de los verbos y adverbios. </p>
<p> Los textos recolectados fueron evaluados de manera manual para detectar errores en el campo de la sintaxis y la semántica. Posteriormente, los mismos escritos pasaron por la herramienta con la finalidad de comparar los resultados de la revisión automática con la manual.</p>
</sec>
</sec>
</sec>
</sec>
<sec>
<title>3. RESULTADOS Y DISCUSIÓN</title>
<p>De acuerdo con el procedimiento
descrito, los resultados obtenidos se muestran en la <xref ref-type="table" rid="gt1">Tabla 1</xref>, en la cual se
exponen los IDE para los diez textos analizados.</p>
<p>
<table-wrap id="gt1">
<label>Tabla 1.</label>
<caption>
<title>Índice de
Densidad de Errores de cada uno de los textos</title>
</caption>
<alt-text>Tabla 1. Índice de
Densidad de Errores de cada uno de los textos</alt-text>
<alternatives>
<graphic xlink:href="344255453015_gt1.png" position="anchor" orientation="portrait"/>
<table style="border-collapse:collapse;" id="gt1-526564616c7963">
<tbody>
<tr>
<td style="width:51.2pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 5.4pt 0cm 5.4pt">
  No.
  </td>
<td style="width:92.8pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 5.4pt 0cm 5.4pt" colspan="2">
  Número de palabras
  </td>
<td style="width:92.1pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 5.4pt 0cm 5.4pt">
  Índice de densidad de
  errores
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;border:none;   padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  1
  </td>
<td style="width:92.8pt;border:none;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt" colspan="2">
  119
  </td>
<td style="width:92.1pt;border:none;   padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,034
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  2
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  157
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,038
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  3
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  84
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,071
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  4
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  183
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,032
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  5
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  84
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,036
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  6
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  154
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,019
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  7
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  94
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,010
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  8
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  85
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,047
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  9
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  78
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,025
  </td>
</tr>
<tr style="height:11.35pt">
<td style="width:51.2pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  10
  </td>
<td style="width:92.8pt;padding:0cm 5.4pt 0cm 5.4pt;   height:11.35pt" colspan="2">
  52
  </td>
<td style="width:92.1pt;padding:0cm 5.4pt 0cm 5.4pt;height:11.35pt">
  0,038
  </td>
</tr>
<tr>
<td style="width:112.05pt;border:none;border-top:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt" colspan="2"/>
<td style="width:31.95pt;border:none;border-top:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt"/>
<td style="width:92.1pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 5.4pt 0cm 5.4pt">
  0,35
  </td>
</tr>
<tr>
<td style="border:none"/>
<td style="border:none"/>
<td style="border:none"/>
<td style="border:none"/>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: autores.</attrib>
</table-wrap>
</p>
<p> Como se puede observar en la <xref ref-type="table" rid="gt1">Tabla 1</xref>, el Índice de Densidad de Errores presentado es información relevante al momento de calificar un texto desde el punto de vista de la sintaxis, por lo tanto, se verifica que el aplicativo es una herramienta de apoyo para llevar a cabo el proceso de evaluación, debido a que resalta los errores y calcula el IDE como insumo local para establecer problemas globales en la coherencia y cohesión de los textos analizados. </p>
<p> Para mostrar la comparación entre el método manual y el método automático de la detección de errores, se consideraron tres textos que ejemplifican la correspondencia entre el IDE y las fallas con respecto a la coherencia y la cohesión del texto. Las <xref ref-type="fig" rid="gf3">Fig. 3</xref>, <xref ref-type="fig" rid="gf4">4</xref> y <xref ref-type="fig" rid="gf5">5</xref> muestran los errores sintácticos marcados por el docente en la parte superior y la parte inferior presenta los marcados por el aplicativo. De acuerdo con la revisión de los resultados de la detección por ambos métodos, se puede afirmar en primera instancia, que la herramienta es consistente para la detección automática de errores sintácticos de un conjunto textos, dado que mantiene similitud con la evaluación manual de los mismos.</p>
<p>
<fig id="gf3">
<label>Fig. 3.</label>
<caption>
<title> Texto muestra analizado de forma automática y manual.</title>
</caption>
<alt-text>Fig. 3.  Texto muestra analizado de forma automática y manual.</alt-text>
<graphic xlink:href="344255453015_gf3.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:
autores</attrib>
</fig>
</p>
<p>
<fig id="gf4">
<label>Fig. 4.</label>
<caption>
<title>Texto muestra analizado de forma manual y automática.</title>
</caption>
<alt-text>Fig. 4. Texto muestra analizado de forma manual y automática.</alt-text>
<graphic xlink:href="344255453015_gf4.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:
autores.</attrib>
</fig>
</p>
<p>
<fig id="gf5">
<label>Fig. 5.</label>
<caption>
<title>Texto muestra analizado de forma manual y automática. </title>
</caption>
<alt-text>Fig. 5. Texto muestra analizado de forma manual y automática. </alt-text>
<graphic xlink:href="344255453015_gf5.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:
autores.</attrib>
</fig>
</p>
<p> En los textos analizados, la herramienta identificó errores recurrentes en las relaciones sintácticas de concordancia nominal y verbal, en cuanto a número y género entre sujeto y predicado. Respecto a la relación sintáctica de selección, señaló errores como omisión de preposiciones o conjunciones y el uso innecesario de las mismas. Algunos de ellos se encuentran ejemplificados en las <xref ref-type="fig" rid="gf3">Fig. 3</xref>, <xref ref-type="fig" rid="gf4">4</xref> y <xref ref-type="fig" rid="gf5">5</xref>. </p>
<p> Cabe aclarar que, en algunos casos, la herramienta no señaló ningún error sintáctico, pero el evaluador humano identificó problemas de coherencia, tales como: imprecisión en las ideas expuestas, poca claridad entre las ideas principales y secundarias y falta de fluidez en la línea temática. En cuanto a problemas de cohesión, el evaluador identificó falta de conexión lógica entre ideas y párrafos. </p>
<p> Luego del análisis de 1090 palabras contenidas en los diez textos considerados en la prueba, el docente señaló un total de 21 errores sintácticos y el aplicativo 37. Con esta información se estimó la diferencia porcentual entre la cantidad de errores marcados entre el método automático y el manual, lo cual arrojó un valor de 76 %, es decir, el método automático supera en un 76 % al manual, en cuanto a la detección de errores en los textos mencionados evaluados por un experto en el área.  </p>
</sec>
<sec>
<title>4. CONCLUSIONES</title>
<p> Al comparar los dos métodos, el manual y el automático, el análisis automático señaló mayor cantidad de errores sintácticos, mientras que el manual evidenció mayor identificación de errores semánticos. Esto permite inferir que la atención simultánea a elementos formales del texto, como el formato, elementos ortográficos y tipográficos, número de textos evaluados, tiempo dedicado a su lectura, entre otros, inciden en la revisión manual y pueden representar la omisión de errores sintácticos. Esto es relevante, puesto que marcar tales errores es el insumo principal para la posterior edición del estudiante, su omisión en el proceso de evaluación, puede representar dificultades para comprender falencias en criterios más amplios como la cohesión y coherencia. </p>
<p> En el caso de las relaciones de posición entre complemento, sujeto y posibles errores en la ubicación del verbo, la herramienta detectó menor cantidad de errores. Esto se puede explicar debido a la ambigüedad propia de los campos semánticos, así como a la presencia de otras variables en la macroestructura, como la adecuación e intención comunicativa del texto, las cuales se identifican en la evaluación manual, pues el lector conoce el contexto en el que el texto es presentado. </p>
<p> Dado lo anterior, se proyecta una aplicación de la herramienta que no solo detecte errores en la composición y combinación de una secuencia de oraciones, sino también, errores en expresiones de tipo discursivo, errores de cohesión, tales como redundancias, repeticiones debido a la ausencia de anáforas y catáforas, así como problemas de coherencia global. Esto implicaría ampliar el corpus para el análisis, así como enriquecer el campo sintáctico y funciones de la herramienta. Adicionalmente se consideraría el análisis del caso cuando ambos sistemas no dan respuesta. </p>
<p> Finalmente, es posible establecer que la cantidad de tiempo requerida para la corrección sintáctica, disminuyó al utilizar la corrección automática como un apoyo en el proceso de evaluación de los textos seleccionados.</p>
</sec>
</body>
<back>
<ref-list>
<title>5. REFERENCIAS</title>
<ref id="redalyc_344255453015_ref1">
<label>[1]</label>
<mixed-citation>[1]       J. Gómez-Guinovart, “Fundamentos de lingüística computacional: bases teóricas, líneas de investigación y aplicaciones,” <italic>Bibliodoc Anu. Bibl. Doc. e Inf.</italic>, pp. 135–146, 1998.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Gómez-Guinovart</surname>
<given-names>J.</given-names>
</name>
</person-group>
<article-title>Fundamentos de lingüística computacional: bases teóricas, líneas de
investigación y aplicaciones</article-title>
<source>Bibliodoc Anu. Bibl. Doc. e Inf.</source>
<year>1998</year>
<fpage>135</fpage>
<lpage>146</lpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref2">
<label>[2]</label>
<mixed-citation>[2]       S. Russell and P. Norvig,<italic> Artificial intelligence: a modern approach.</italic> Prentice Hall, 1995.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Russell</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Norvig</surname>
<given-names>P.</given-names>
</name>
</person-group>
<source>Artificial intelligence: a modern approach</source>
<year>1995</year>
<publisher-name>Prentice Hall</publisher-name>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref3">
<label>[3]</label>
<mixed-citation>[3]       J. Corredor-Tapias and L. F. Nieto-Ruiz, “Un vistazo a los pilares de la lingüística moderna: Saussure, Chomsky y Van Dijk. Del estructuralismo a la lingüística textual,” <italic>Cuad. Lingüística Hispánica</italic>, no. 9, pp. 83–96, 2007.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Corredor-Tapias</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Nieto-Ruiz</surname>
<given-names>L. F.</given-names>
</name>
</person-group>
<article-title>Un vistazo a los pilares de la lingüística moderna: Saussure, Chomsky y Van
Dijk. Del estructuralismo a la lingüística textual</article-title>
<source>Cuad. Lingüística Hispánica</source>
<year>2007</year>
<issue>9</issue>
<fpage>83</fpage>
<lpage>96</lpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref4">
<label>[4]</label>
<mixed-citation>[4]       G. Sidorov, <italic>Construcción no lineal de n-gramas en la lingüística computacional.</italic> Sociedad Mexicana de Inteligencia Artificial, 2013.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Sidorov</surname>
<given-names>G.</given-names>
</name>
</person-group>
<source>Construcción no lineal de n-gramas en la lingüística computacional</source>
<year>2013</year>
<publisher-name>Sociedad Mexicana de Inteligencia Artificial</publisher-name>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref5">
<label>[5]</label>
<mixed-citation>[5]       T. A. Van Dijk, “Texto y Contexto. Semántica y pragmática del discurso,” <italic>Estud. Linguística Apl.</italic>, no. 2, pp. 131–133, 1982.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Van Dijk</surname>
<given-names>T. A</given-names>
</name>
</person-group>
<article-title>Texto y Contexto.
Semántica y pragmática del discurso</article-title>
<source>Estud. Linguística Apl.</source>
<year>1982</year>
<issue>2</issue>
<fpage>131</fpage>
<lpage>133</lpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref6">
<label>[6]</label>
<mixed-citation>[6]       J. Allen, <italic>Natural language understanding</italic>, 2nd ed. Benjamin/Cummings Publishing Company, 1995.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Allen</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>Natural language understanding</source>
<year>1995</year>
<publisher-name>Benjamin/Cummings Publishing Company</publisher-name>
<edition>2</edition>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref7">
<label>[7]</label>
<mixed-citation>[7]       A. Moreno-Sandoval, <italic>Lingüística computacional</italic>. Madrid, España: Editorial Síntesis, 1998.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Moreno-Sandoval</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>Lingüística computacional</source>
<year>1998</year>
<publisher-loc>España</publisher-loc>
<publisher-name>Editorial Síntesis</publisher-name>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref8">
<label>[8]</label>
<mixed-citation>[8]       J. Posadas-Durán et al., “Syntactic n-grams as features for the author profiling task,” <italic>Work. Notes Pap. CLEF</italic>, p. 5, 2015.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Posadas-Durán</surname>
<given-names>J.</given-names>
</name>
</person-group>
<article-title>Syntactic n-grams as features for the author
profiling task</article-title>
<source>Work. Notes Pap. CLEF</source>
<year>2015</year>
<fpage>5</fpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref9">
<label>[9]</label>
<mixed-citation>[9]       G. Sidorov, F. Velásquez, E. Stamatatos, A. Gelbukh, and L. Chanona-Hernández, “Syntactic N-grams as machine learning features for natural language processing,” <italic>Expert Syst. Appl.</italic>, vol. 41, no. 3, pp. 853–860, Feb. 2014.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Sidorov</surname>
<given-names>G.</given-names>
</name>
<name>
<surname>Velásquez</surname>
<given-names>F.</given-names>
</name>
<name>
<surname>Stamatatos</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Gelbukh</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Chanona-Hernández</surname>
<given-names>L.</given-names>
</name>
</person-group>
<article-title>Syntactic N-grams as machine learning features for natural language
processing</article-title>
<source>Expert Syst. Appl.</source>
<year>2014</year>
<volume>41</volume>
<issue>3</issue>
<fpage>853</fpage>
<lpage>860</lpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref10">
<label>[10]</label>
<mixed-citation>[10]    C. González-Gallardo, J. Torres-Moreno, A. Montes-Rendón, and G. Sierra, “Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales,” <italic>Linguamática</italic>, vol. 8, no. 1, pp. 21–29, 2016.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>González-Gallardo</surname>
<given-names>C.</given-names>
</name>
<name>
<surname>Torres-Moreno</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Montes-Rendón</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Sierra</surname>
<given-names>G.</given-names>
</name>
</person-group>
<article-title>Perfilado de autor multilingüe en redes sociales
a partir de n-gramas de caracteres y de etiquetas gramaticales</article-title>
<source>Linguamática</source>
<year>2016</year>
<volume>8</volume>
<issue>1</issue>
<fpage>21</fpage>
<lpage>29</lpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref11">
<label>[11]</label>
<mixed-citation>[11]    J. Castillo et al., “Desarrollo de sistemas de análisis de texto,” in <italic>XIX Workshop de Investigadores en Ciencias de la Computación</italic>, 2017, pp. 58–62.</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Castillo</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>Desarrollo de sistemas de análisis de texto</source>
<year>2017</year>
<fpage>58</fpage>
<lpage>62</lpage>
<conf-name>XIX Workshop de Investigadores en Ciencias de la Computación,</conf-name>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref12">
<label>[12]</label>
<mixed-citation>[12]    G. Parodi, “Lingüística de corpus: una introducción al ámbito,” <italic>RLA. Rev. lingüística teórica y Apl.</italic>, vol. 46, no. 1, pp. 93–119, 2008.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Parodi</surname>
<given-names>G.</given-names>
</name>
</person-group>
<article-title>Lingüística de corpus: una
introducción al ámbito</article-title>
<source>RLA. Rev. lingüística teórica y Apl.</source>
<year>2008</year>
<volume>46</volume>
<issue>1</issue>
<fpage>93</fpage>
<lpage>119</lpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref13">
<label>[13]</label>
<mixed-citation>[13]    E. A. P. Del Castillo, J. A. A. Valencia, and A. Pomares Quimbaya, “Constructor automático de modelos de dominios sin corpus preexistente,” <italic>Soc. Española para el Proces. del Leng. Nat.</italic>, vol. 59, pp. 129–132, 2017.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Del Castillo</surname>
<given-names>E. A. P.</given-names>
</name>
<name>
<surname>Valencia</surname>
<given-names>J. A. A.</given-names>
</name>
<name>
<surname>Pomares Quimbaya</surname>
<given-names>A.</given-names>
</name>
</person-group>
<article-title>Constructor automático de modelos de dominios sin
corpus preexistente</article-title>
<source>Soc. Española para el Proces. del Leng. Nat., vol. 59</source>
<year>2017</year>
<fpage>129</fpage>
<lpage>132</lpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref14">
<label>[14]</label>
<mixed-citation>[14]    E. Pitler, A. Louis, and A. Nenkova, “Automatic evaluation of linguistic quality in multi-document summarization,” in <italic>Proceedings of the 48th annual meeting of the Association for Computational Linguistics, Association for Computational Linguistics</italic>, 2010, pp. 544–554.</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Pitler</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Louis</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Nenkova</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>Automatic evaluation of linguistic quality in multi-document summarization</source>
<year>2010</year>
<fpage>544</fpage>
<lpage>554</lpage>
<conf-name>Proceedings of the 48th annual meeting of the Association for Computational Linguistics</conf-name>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref15">
<label>[15]</label>
<mixed-citation>[15]    W. Koza, “Marcadores discursivos del español. Descripción y propuesta de detección automática,” <italic>Rev. Epistemol. y Ciencias Humanas</italic>, vol. 2, pp. 109–120, 2009.</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Koza</surname>
<given-names>W.</given-names>
</name>
</person-group>
<article-title>Marcadores discursivos del
español. Descripción y propuesta de detección automática</article-title>
<source>Rev. Epistemol. y Ciencias Humanas</source>
<year>2009</year>
<volume>2</volume>
<fpage>109</fpage>
<lpage>120</lpage>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref16">
<label>[16]</label>
<mixed-citation>[16]    M. Pinto-Cruces, “Modelo de detección automática de ironía en textos en español,” Universidad del Bío-Bío, 2017.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Pinto-Cruces</surname>
<given-names>M.</given-names>
</name>
</person-group>
<source>Modelo de detección automática de ironía en textos en español,” Universidad del Bío-Bío</source>
<year>2017</year>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref17">
<label>[17]</label>
<mixed-citation>[17]    Real Academia Española, <italic>Nueva gramática de la lengua española manual</italic>, 1st ed. Espasa, 2010.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<collab>Real Academia Española</collab>
</person-group>
<source>Nueva gramática de la lengua española manual</source>
<year>2010</year>
<publisher-name>Espasa</publisher-name>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref18">
<label>[18]</label>
<mixed-citation>[18]    K. Toutanova, D. Klein, C. D. Manning, and Y. Singer, “Feature-rich part-of-speech tagging with a cyclic dependency network,” in <italic>Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - NAACL ’03</italic>, 2003, vol. 1, pp. 173–180.</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Toutanova</surname>
<given-names>K.</given-names>
</name>
<name>
<surname>Klein</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Manning</surname>
<given-names>C. D.</given-names>
</name>
<name>
<surname>Singer</surname>
<given-names>Y.</given-names>
</name>
</person-group>
<source>Feature-rich part-of-speech tagging with a cyclic dependency network</source>
<year>2003</year>
<fpage>173</fpage>
<lpage>180</lpage>
<conf-name>Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - NAACL ’03</conf-name>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref19">
<label>[19]</label>
<mixed-citation>[19]    K. Toutanova and C. D. Manning, “Enriching the knowledge sources used in a maximum entropy part-of-speech tagger,” in <italic>Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics -</italic>, 2000, vol. 13, pp. 63–70.</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Toutanova</surname>
<given-names>K.</given-names>
</name>
<name>
<surname>Manning</surname>
<given-names>C. D.</given-names>
</name>
</person-group>
<source>Enriching the knowledge sources used in a maximum entropy part-of-speech tagger</source>
<year>2000</year>
<fpage>63</fpage>
<lpage>70</lpage>
<conf-name>Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics</conf-name>
</element-citation>
</ref>
<ref id="redalyc_344255453015_ref20">
<label>[20]</label>
<mixed-citation>[20]    G. Leech and A. Wilson, <italic>EAGLES Recommendations for the Morphosyntactic Annotation of Corpora.</italic> EAGLES, 1996.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Leech</surname>
<given-names>G.</given-names>
</name>
<name>
<surname>Wilson</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>EAGLES Recommendations for the Morphosyntactic Annotation of Corpora</source>
<year>1996</year>
<publisher-name>EAGLES</publisher-name>
</element-citation>
</ref>
</ref-list>
</back>
</article>