<?xml version="1.0" encoding="UTF-8"?><?xml-model type="application/xml-dtd" href="http://jats.nlm.nih.gov/publishing/1.1d3/JATS-journalpublishing1.dtd"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.1d3 20150301//EN" "http://jats.nlm.nih.gov/publishing/1.1d3/JATS-journalpublishing1.dtd">
<article xmlns:ali="http://www.niso.org/schemas/ali/1.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" dtd-version="1.1d3" specific-use="Marcalyc 1.2" article-type="research-article" xml:lang="es">
<front>
<journal-meta>
<journal-id journal-id-type="redalyc">3442</journal-id>
<journal-title-group>
<journal-title specific-use="original" xml:lang="es">TecnoLógicas</journal-title>
</journal-title-group>
<issn pub-type="ppub">0123-7799</issn>
<issn pub-type="epub">2256-5337</issn>
<publisher>
<publisher-name>Instituto Tecnológico Metropolitano</publisher-name>
<publisher-loc>
<country>Colombia</country>
<email>tecnologicas@itm.edu.co</email>
</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="art-access-id" specific-use="redalyc">344263272011</article-id>
<article-id pub-id-type="doi">https://doi.org/10.22430/22565337.1585</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Artículos de investigación</subject>
</subj-group>
</article-categories>
<title-group>
<article-title xml:lang="es">Modelo computacional para reconocimiento de lenguaje de señas en un contexto colombiano</article-title>
<trans-title-group>
<trans-title xml:lang="en">Computational Model for Sign Language Recognition in a Colombian Context</trans-title>
</trans-title-group>
</title-group>
<contrib-group>
<contrib contrib-type="author" corresp="no">
<contrib-id contrib-id-type="orcid">http://orcid.org/0000-0002-3562-4441</contrib-id>
<name name-style="western">
<surname>Ortiz-Farfán</surname>
<given-names>Nelson</given-names>
</name>
<xref ref-type="aff" rid="aff1"/>
<email>nmortizf@unal.edu.co</email>
</contrib>
<contrib contrib-type="author" corresp="no">
<contrib-id contrib-id-type="orcid">http://orcid.org/0000-0002-5887-1672</contrib-id>
<name name-style="western">
<surname>Camargo-Mendoza</surname>
<given-names>Jorge E.</given-names>
</name>
<xref ref-type="aff" rid="aff2"/>
<email>jecamargom@unal.edu.co</email>
</contrib>
</contrib-group>
<aff id="aff1">
<institution content-type="original">MSc en Ingeniería de Sistemas y Computación, Departamento de Ingeniería de Sistemas e Industrial, Universidad Nacional de Colombia, Bogotá-Colombia, nmortizf@unal.edu.co</institution>
<institution content-type="orgname">Universidad Nacional de Colombia</institution>
<country country="CO">Colombia</country>
</aff>
<aff id="aff2">
<institution content-type="original">PhD en Física, Departamento de Física, Universidad Nacional de Colombia, Bogotá-Colombia, jecamargom@unal.edu.co</institution>
<institution content-type="orgname">Universidad Nacional de Colombia</institution>
<country country="CO">Colombia</country>
</aff>
<pub-date pub-type="epub-ppub">
<season>Mayo-Agosto</season>
<year>2020</year>
</pub-date>
<volume>23</volume>
<issue>48</issue>
<fpage>197</fpage>
<lpage>232</lpage>
<history>
<date date-type="received" publication-format="dd mes yyyy">
<day>27</day>
<month>01</month>
<year>2020</year>
</date>
<date date-type="accepted" publication-format="dd mes yyyy">
<day>17</day>
<month>04</month>
<year>2020</year>
</date>
</history>
<permissions>
<copyright-statement>2020</copyright-statement>
<copyright-year>2020</copyright-year>
<copyright-holder>Instituto Tecnológico Metropolitano</copyright-holder>
<ali:free_to_read/>
<license xlink:href="https://creativecommons.org/licenses/by-nc-sa/4.0/">
<ali:license_ref>https://creativecommons.org/licenses/by-nc-sa/4.0/</ali:license_ref>
<license-p>Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.</license-p>
</license>
</permissions>
<self-uri content-type="html" xlink:href="https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1585">https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1585</self-uri>
<abstract xml:lang="es">
<title>Resumen</title>
<p>Este documento presenta la implementación de un software de reconocimiento de lenguaje de señas colombiano para personas sordas. Para este propósito, el Aprendizaje de Máquina será usado como base del sistema específico. Hoy en día no existe un repositorio público de imágenes o video que contenga estas señas ni la información necesaria para alcanzar esta meta, siendo uno de los principales impedimentos para iniciar la tarea. Por esta razón, se comenzó con la construcción de un repositorio. Pese a las dificultades de tiempo de los participantes, cinco personas realizaron las señas ante una cámara de video, de donde se obtuvieron las imágenes que compondrían el repositorio. Una vez hecho esto, las imágenes se usaron como datos de entrenamiento de un modelo computacional óptimo que puede predecir el significado de una nueva imagen presentada. Evaluamos el rendimiento del método utilizando medidas de clasificación y comparando diferentes modelos. La medición conocida como Accuracy fue un factor importante para medir los diferentes modelos obtenidos y así elegir el más adecuado. Los resultados muestran que es posible proporcionar nuevas herramientas a las personas sordas para mejorar la comunicación con otras personas que no conocen el lenguaje de señas. Una vez que se han elegido los mejores modelos, se prueban con nuevas imágenes, similares a las del entrenamiento, donde se puede ver que el mejor modelo logra una tasa de éxito de alrededor del 68 % de las 22 clases utilizadas en el sistema.</p>
</abstract>
<trans-abstract xml:lang="en">
<title>Abstract</title>
<p>This document presents the implementation of a Colombian sign language recognition software for deaf people. For this purpose, Machine Learning will be used as the basis of the specific system. Today there is no public repository of images or video that contains these signs or the information necessary to achieve this goal, being one of the main obstacles to undertake the task. For this reason, the construction of a repository was started. Despite the time constraints of the participants, five people carried out the signs in front of a video camera, from which the images that would make up the repository were obtained.Once this was done, the images were used as training data for an optimal computer model that can predict the meaning of a new image presented. We evaluated the performance of the method using classification measures and comparing different models. The measurement known as Accuracy was an important factor in measuring the different models obtained and thus choosing the one most suitable. Results show that it is possible to provide new tools to deaf people to improve communication with others who do not know sign language. Once the best models have been chosen, they are tested with new images, similar to those in the training, where it can be seen that the best model achieves a success rate of around 68 % of the 22 classes used in the system.</p>
</trans-abstract>
<kwd-group xml:lang="es">
<title>Palabras clave</title>
<kwd>Personas sordas</kwd>
<kwd>Aprendizaje de Maquina</kwd>
<kwd>modelo computacional</kwd>
<kwd>lenguaje de señas</kwd>
</kwd-group>
<kwd-group xml:lang="en">
<title>Keywords</title>
<kwd>Deaf people</kwd>
<kwd>Machine Learning</kwd>
<kwd>computational model</kwd>
<kwd>sign language</kwd>
</kwd-group>
<counts>
<fig-count count="45"/>
<table-count count="8"/>
<equation-count count="0"/>
<ref-count count="23"/>
</counts>
<custom-meta-group>
<custom-meta>
<meta-name>Cómo citar / How to cite</meta-name>
<meta-value>N. Ortiz-Farfán, J. E. Camargo-Mendoza, “Modelo computacional para reconocimiento de lenguaje de señas en un contexto colombiano”, <italic>TecnoLógicas</italic>, vol. 23, no. 48, pp. 197-232, 2020. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.22430/22565337.1585">https://doi.org/10.22430/22565337.1585</ext-link>
</meta-value>
</custom-meta>
</custom-meta-group>
</article-meta>
</front>
<body>
<sec>
<title>
<bold>1.  INTRODUCCIÓN</bold>
</title>
<p>La necesidad de realizar el presente trabajo surge a raíz de problemáticas de comunicación entre las personas sordas y las oyentes en diferentes entidades de servicios, ya sean de carácter público o privado. Hoy en día se cuenta con una plataforma en línea para tener acceso de un intérprete de lenguaje de señas, pero su disponibilidad y confidencialidad de los datos no es del todo completa, por lo que se requiere buscar nuevas estrategias informáticas que abarquen una solución más automática.</p>
<p>En la sociedad colombiana actual, la población sorda ha mejorado su calidad de vida con el apoyo de las tecnologías de la información. Parte de este proceso se debe a las normas y leyes establecidas por la Constitución Política y decretos de diferentes ministerios que buscan dar igualdad de oportunidades a las personas, sin importar si presenta una discapacidad.</p>
<p>Por ejemplo, hoy día es posible que la población sorda pueda acceder a instituciones educativas universitarias de forma virtual, como se indica en <xref ref-type="bibr" rid="redalyc_344263272011_ref1">[1]</xref>, basándose en las leyes que se mencionan en el artículo. En este trabajo, los autores Luz Myriam Rojas Rojas, Néstor Arboleda Toro, Leidy Johanna Pinzón Jaime mencionan cómo el uso de la tecnología ha permitido que la población discapacitada acceda a programas de la facultad de la Universidad Pedagógica y Tecnológica de Colombia (UPTC), de manera remota y con apoyo de traductores digitales.</p>
<p>Pero no solo la educación ha sido abierta a esta inclusión; también en el deporte se ha intentado establecer un lenguaje de señas específico, como se menciona en <xref ref-type="bibr" rid="redalyc_344263272011_ref2">[2]</xref>. En el artículo, se logra evidenciar, a través de un estudio en 11 ciudades, cómo el lenguaje de señas puede tener diferentes gestos y no se tiene un estándar como se espera. Ejemplo de esto, como se ve en la (<xref ref-type="fig" rid="gf1">Fig. 1</xref>), es la representación de una tarjeta roja con cuatro gestos diferentes, que podrán ser entendidos dependiendo de la edad, la región o los antecedentes educativos de las personas que la usan. En esta investigación se declara que el Lenguaje de Señas Colombiano (LSC) es una lengua nueva con no más de 90 años y considerada minoritaria.</p>
<p>
<fig id="gf1">
<label>Fig. 1.</label>
<caption>
<title>Lengua de señas para representar una tarjeta roja en Cali</title>
</caption>
<alt-text>Fig. 1. Lengua de señas para representar una tarjeta roja en Cali</alt-text>
<graphic xlink:href="344263272011_gf2.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: [<xref ref-type="bibr" rid="redalyc_344263272011_ref1">1</xref>].</attrib>
</fig>
</p>
<p>Sin embargo, a pesar de los avances obtenidos hasta el momento, mucha población oyente colombiana desconoce el LSC, haciendo que en interacciones con personas sordas la comunicación no pueda ser efectiva. Esta problemática se puede presentar con mayor recurrencia en entidades públicas y privadas, que prestan servicios en general y que atienden público.</p>
<p>Para solventar esta problemática, el Ministerio de Tecnologías de la Información y las Comunicaciones de Colombia (MinTIC) ha desarrollado en los últimos años el Servicio de Intérprete En Línea (SIEL), al cual se accede a través del portal web Centro de Relevo como se observa en la (<xref ref-type="fig" rid="gf2">Fig. 2</xref>) <xref ref-type="bibr" rid="redalyc_344263272011_ref3">[3]</xref>.</p>
<p>
<fig id="gf2">
<label>Fig. 2.</label>
<caption>
<title>Servicio de Intérprete en Línea, SIEL</title>
</caption>
<alt-text>Fig. 2. Servicio de Intérprete en Línea, SIEL</alt-text>
<graphic xlink:href="344263272011_gf3.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:<xref ref-type="bibr" rid="redalyc_344263272011_ref3"> [3]</xref>.</attrib>
</fig>
</p>
<p>A través de este portal, las personas sordas u oyentes crean una cuenta con la cual solicitan el servicio del intérprete.</p>
<p>Deben contar además con ciertos requerimientos técnicos de hardware y de permisos de red o uso de navegadores específicos, que en algunas entidades puede simbolizar un riesgo de seguridad <xref ref-type="bibr" rid="redalyc_344263272011_ref4">[4]</xref>.</p>
<p>A pesar de ser un buen servicio, uno de los mayores inconvenientes es que depende de la renovación del convenio anual con el Estado, lo cual no ofrece cobertura total.</p>
<p>Tampoco se ofrece soporte ni garantía de la confidencialidad de los datos que se tratan, afectando la privacidad de la población sorda. Los servicios poseen una duración de solo 30 minutos, lo cual puede no cubrir toda la necesidad de la persona sorda que lo solicita, teniendo que establecer una nueva sesión que retrasa el proceso de comunicación.</p>
<p>Dadas las problemáticas existentes, se desea investigar la existencia de un software que sea capaz de reconocer estas señas de manera automática y que se encuentre disponible la mayor cantidad del tiempo posible del año en las entidades colombianas para dar atención a la población sorda. Sin embargo, la complejidad de tener un sistema que sea capaz de reconocer los gestos del lenguaje de señas con las tecnologías tradicionales conlleva a pensar que otro tipo de solución informática se pueda implementar garantizando la fiabilidad en su proceso.</p>
<p>Dados los avances tecnológicos de las últimas décadas, nuevas investigaciones en reconocimiento de imágenes y videos y el uso de algoritmos de inteligencia artificial (IA) por grandes empresas como Google, Amazon, Facebook, entre otros, proponen el uso del aprendizaje de máquina, o Machine Learning (ML) en inglés, para solucionar este tipo de problemas. Prueba de ello es el uso que hace Google de este tipo de tecnología para detectar la presencia de cáncer de seno con mayor precisión que los métodos, que utilizan una gran cantidad de imágenes históricas que poseen la enfermedad para luego compararlas con el estado actual del paciente <xref ref-type="bibr" rid="redalyc_344263272011_ref5">[5]</xref>.</p>
<p>Es por esa razón, que el objetivo principal de este trabajo consistió en determinar qué tan exactos pueden ser los modelos construidos con aprendizaje de máquina, más específicamente con Deep Learning (DL) o Aprendizaje Profundo para reconocer imágenes de señas empleadas por personas sordas en Colombia y si pueden ser usados en la industria para dar apoyo a esta población en sus necesidades, especialmente cuando requieren servicios públicos y/o privados de las diferentes entidades a nivel nacional.</p>
</sec>
<sec>
<title>
<bold>2.   ESTADO DEL ARTE</bold>
</title>
<p>En algunos países es común ver la construcción de sistemas que permiten traducir texto a señas usadas por personas sordas para establecer una comunicación desde el oyente hacia esta comunidad.</p>
<p>Un ejemplo de ello es el software construido en <xref ref-type="bibr" rid="redalyc_344263272011_ref6">[6]</xref>, en el que se evidencia cómo a través de una aplicación web, luego de seleccionar una expresión o palabra, aparece una imagen de un avatar o una persona pregrabada representando en el lenguaje de señas el respectivo concepto (<xref ref-type="fig" rid="gf3">Fig. 3</xref>).</p>
<p>
<fig id="gf3">
<label>Fig. 3.</label>
<caption>
<title>Video de expresión: “¿Qué animales están fuera de la casa?” en idioma turco</title>
</caption>
<alt-text>Fig. 3.  Video de expresión: “¿Qué animales están fuera de la casa?” en idioma turco</alt-text>
<graphic xlink:href="344263272011_gf4.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref6">[6]</xref>.</attrib>
</fig>
</p>
<p>En Brasil, el uso de sistemas de reconocimiento de lenguaje de señas es más común, y se busca que desde diferentes fuentes se pueda transformar la información hacia las señas que son usadas por las personas sordas. En <xref ref-type="bibr" rid="redalyc_344263272011_ref7">[7]</xref> se describe cómo el uso de la multiplataforma llamada VLibras es usada para transformar texto y video para que un avatar exprese lo que se quiere transmitir hacia la persona sorda (<xref ref-type="fig" rid="gf4">Fig. 4)</xref>. Sin embargo, este tipo de comunicación es de persona oyente hacia persona sorda, pero no contempla el otro sentido de la comunicación, es decir, desde persona sorda hacia el oyente, quien en la mayoría de los casos desconoce el lenguaje de señas.</p>
<p>
<fig id="gf4">
<label>Fig. 4.</label>
<caption>
<title>Aplicación VLibras para traducir textos y videos en diferentes plataformas hacia avatares que realizan señas</title>
</caption>
<alt-text>Fig. 4. Aplicación VLibras para traducir textos y videos en diferentes plataformas hacia avatares que realizan señas</alt-text>
<graphic xlink:href="344263272011_gf5.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref7">[7]</xref>.</attrib>
</fig>
</p>
<p>Así mismo, en muchas situaciones cotidianas la comunicación es principalmente verbal y uno de los mayores inconvenientes para establecer comunicación entre el lenguaje verbal y el lenguaje de señas de las personas sordas es que no existe un estándar definido.</p>
<p>Esto sucede ya sea a nivel universal o local como se describe en <xref ref-type="bibr" rid="redalyc_344263272011_ref8">[8]</xref>, en donde se plantea una posible solución para mitigar esta problemática en la India. Los autores consideraron el uso de una notación escrita intermedia que permita asociar estos 2 componentes (<xref ref-type="fig" rid="gf5">Fig. 5</xref>).</p>
<p>
<fig id="gf5">
<label>Fig. 5.</label>
<caption>
<title>Uso de notaciones para relacionar el lenguaje verbal y el lenguaje de señas</title>
</caption>
<alt-text>Fig. 5.  Uso de notaciones para relacionar el lenguaje verbal y el lenguaje de señas</alt-text>
<graphic xlink:href="344263272011_gf6.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref8">[8]</xref>.</attrib>
</fig>
</p>
<p>No obstante, esto no resuelve la problemática inicial correspondiente entre la comunicación de una persona hacia un oyente, ya que el uso de estas notaciones tampoco está centralizado y generalizado para todo el público.</p>
<p>Otro de los inconvenientes existentes consiste en que cada país puede tener sus propias definiciones e incluso no siempre existe una relación entre las señas y el lenguaje hablado <xref ref-type="bibr" rid="redalyc_344263272011_ref9">[9]</xref>.</p>
<p>Incluso en Colombia, cada región, zona o departamento cuenta con algunas señas propias, aunque eso sí, otras de las que se usan son universales.</p>
<p>Debido a esto, se decide trabajar con las señas ofrecidas en la página web del Instituto Nacional de Sordos de Colombia (INSOR) y las manejadas por un intérprete de señas de la ciudad de Bogotá en sus labores diarias.</p>
<p>Se comienza investigando sistemas automáticos capaces de reconocer señas digitalmente. El primero de ellos que se menciona en <xref ref-type="bibr" rid="redalyc_344263272011_ref9">[9]</xref> consiste en tomar muestras de las señas que se usan para construir un repositorio de datos de entrenamiento y con la ayuda de la técnica de aprendizaje de maquina denominada Support Vector Machine (SVM) o Maquinas de Soporte Vectorial, se clasifica en las diferentes clases que se tienen en este repositorio. La recolección de estas señales se hace con el apoyo de un sensor de movimiento o de tecnología de cámaras de video, de acuerdo con (<xref ref-type="fig" rid="gf6">Fig. 6</xref>).</p>
<p>
<fig id="gf6">
<label>Fig. 6.</label>
<caption>
<title>Registro señas con sensores y cámaras.</title>
</caption>
<alt-text>Fig. 6. Registro señas con sensores y cámaras.</alt-text>
<graphic xlink:href="344263272011_gf7.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref9">[9]</xref>.</attrib>
</fig>
</p>
<p>Un sistema similar se propone en India en 2016, <xref ref-type="bibr" rid="redalyc_344263272011_ref10">[10]</xref> donde a una imagen se le hace un procesamiento con un filtro y se obtienen los patrones a reconocer (manos, figura de cabeza, torso, etc.). El sistema propuesto consiste en adquirir imágenes, aplicarles filtros en blanco y negro para evitar interferencia de los colores, detectar las características de las formas de cada señal y asignar una clasificación, de acuerdo con el diagrama de bloques de (<xref ref-type="fig" rid="gf7">Fig. 7</xref>).</p>
<p>
<fig id="gf7">
<label>Fig. 7.</label>
<caption>
<title>Diagrama de bloques de sistema de reconocimiento de señas en India</title>
</caption>
<alt-text>Fig. 7.  Diagrama de bloques de sistema de reconocimiento de señas en India</alt-text>
<graphic xlink:href="344263272011_gf8.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref10">[10]</xref>.</attrib>
</fig>
</p>
<p>En <xref ref-type="bibr" rid="redalyc_344263272011_ref10">[10] </xref>el entrenamiento de cada seña es realizado y la modificación de cada imagen para obtener las características específicas de acuerdo con (<xref ref-type="fig" rid="gf8">Fig. 8</xref>).</p>
<p>
<fig id="gf8">
<label>Fig. 8.</label>
<caption>
<title>Entrenamiento de imágenes de lenguaje de señas sorda en India</title>
</caption>
<alt-text>Fig. 8.  Entrenamiento de imágenes de lenguaje de señas sorda en India</alt-text>
<graphic xlink:href="344263272011_gf9.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref10">[10]</xref>.</attrib>
</fig>
</p>
<p>En <xref ref-type="bibr" rid="redalyc_344263272011_ref11">[11]</xref> se construyó un modelo en un ambiente controlado, donde la información capturada por vídeo se procesó a través de parámetros espaciales y temporales como se observa en (<xref ref-type="fig" rid="gf9">Fig. 9</xref>).</p>
<p>
<fig id="gf9">
<label>Fig. 9.</label>
<caption>
<title>Sistema de interpretación de gestos basados en la visión</title>
</caption>
<alt-text>Fig. 9.  Sistema de interpretación de gestos basados en la visión</alt-text>
<graphic xlink:href="344263272011_gf10.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref11">[11]</xref>.</attrib>
</fig>
</p>
<p>Los resultados y conclusiones obtenidos de <xref ref-type="bibr" rid="redalyc_344263272011_ref11">[11]</xref> determinaron que esta técnica no es adecuada, dado que parámetros como luz, locación de la persona, fondos dinámicos y no uniformes, tono de piel de la persona y calidad de la imagen procesada varían los resultados.</p>
<p>Un sistema más complejo y robusto se propone en 2018 en <xref ref-type="bibr" rid="redalyc_344263272011_ref12">[12]</xref> para reconocer señas de la lengua tailandesa. Este sistema es similar a los descritos, solo que el clasificador es una red neuronal de muchas capas que da una gran precisión, según (<xref ref-type="fig" rid="gf10">Fig. 10</xref>).</p>
<p>
<fig id="gf10">
<label>Fig. 10.</label>
<caption>
<title>Sistema de reconocimiento de señas usando redes neuronales.</title>
</caption>
<alt-text>Fig. 10.  Sistema de reconocimiento de señas usando redes neuronales.</alt-text>
<graphic xlink:href="344263272011_gf11.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref12">[12]</xref>.</attrib>
</fig>
</p>
<p>Este tipo de sistemas es más robusto, pero requiere un mayor entrenamiento y mayor cantidad de datos de entrenamiento.</p>
<p>En el lenguaje de señas, es necesario tener en cuenta la existencia de gestos dinámicos y estáticos. Con base en el trabajo de doctorado de Ronchetti Franco en la Universidad Nacional de la Plata, Argentina <xref ref-type="bibr" rid="redalyc_344263272011_ref13">[13]</xref>, desde el punto de vista informático, una seña o gesto dinámico es aquel que requiere del movimiento de alguna parte del cuerpo para dar un significado. Por su parte, la seña o gesto estático solo necesita una pose en un solo instante para proporcionar un significado o idea <xref ref-type="bibr" rid="redalyc_344263272011_ref13">[13]</xref>.</p>
<p>En el momento de revisar la literatura, se encuentra que en <xref ref-type="bibr" rid="redalyc_344263272011_ref14">[14]</xref> la forma de trabajar los gestos dinámicos es grabarlos en video y luego obtener varias <italic>frames</italic> o capturas de imágenes secuenciales, etiquetando todo el conjunto de imágenes como una sola clase. Se debe tener en cuenta que muchas de las imágenes obtenidas del video pueden ser ruido o información que no será útil para clasificar, por lo que se hace una limpieza para tener los datos de entrenamiento que se usaran en una Convolutional Neural Network (CNN) o Red Neuronal Convolucional, como se ve en (<xref ref-type="fig" rid="gf11">Fig. 11</xref>).</p>
<p>
<fig id="gf11">
<label>Fig. 11.</label>
<caption>
<title>Manejo de gestos dinámicos con las manos para entrenar en una CNN</title>
</caption>
<alt-text>Fig. 11.  Manejo de gestos dinámicos con las manos para entrenar en una CNN</alt-text>
<graphic xlink:href="344263272011_gf12.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:<xref ref-type="bibr" rid="redalyc_344263272011_ref14"> [14]</xref>.</attrib>
</fig>
</p>
<p>Los resultados del experimento muestran en (<xref ref-type="fig" rid="gf12">Fig. 12</xref>) una matriz de confusión con porcentajes de aciertos muy altos para la mayoría de las señas <xref ref-type="bibr" rid="redalyc_344263272011_ref14">[14]</xref>.</p>
<p>
<fig id="gf12">
<label>Fig. 12.</label>
<caption>
<title>Matriz de Confusión reconocimiento de gestos estáticos y dinámicos usando CNN</title>
</caption>
<alt-text>Fig. 12.  Matriz de Confusión reconocimiento de gestos estáticos y dinámicos usando CNN</alt-text>
<graphic xlink:href="344263272011_gf13.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref14">[14]</xref>.</attrib>
</fig>
</p>
<p>Recientemente en <xref ref-type="bibr" rid="redalyc_344263272011_ref15">[15]</xref> se realizó un estudio de las diferentes técnicas para clasificar imágenes que se puedan aplicar a un determinado concepto árabe, utilizando técnicas de DL (<xref ref-type="fig" rid="gf13">Fig. 13</xref>).</p>
<p>
<fig id="gf13">
<label>Fig. 13.</label>
<caption>
<title>Lenguaje de señas del alfabeto árabe</title>
</caption>
<alt-text>Fig. 13.  Lenguaje de señas del alfabeto árabe</alt-text>
<graphic xlink:href="344263272011_gf14.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref15">[15]</xref>.</attrib>
</fig>
</p>
<p>En esta investigación se encontró que el mejor <italic>Accuracy</italic> se obtenía al aplicar CNN con un valor de 97.82 % sobre un conjunto de datos relacionados con el alfabeto de señas americano. En el contexto del alfabeto árabe se obtuvo un <italic>Accuracy</italic> de 98.05 %, definiendo esta técnica como la que mejores resultados brinda.</p>
<p>En <xref ref-type="bibr" rid="redalyc_344263272011_ref16">[16] </xref>se realizó un trabajo de reconocimiento de lengua de señas usando técnicas de CNN, en el cual se adquiere la imagen a color, se procesa a escala de grises y se realiza la extracción de la seña en la imagen para poder clasificarla dentro de la categoría para que luego sea predicha por el sistema (<xref ref-type="fig" rid="gf14">Fig. 14</xref>).</p>
<p>
<fig id="gf14">
<label>Fig. 14.</label>
<caption>
<title>Arquitectura del sistema de clasificación de lengua de señas en India usando CNN</title>
</caption>
<alt-text>Fig. 14.  Arquitectura del sistema de clasificación de lengua de señas en India usando CNN</alt-text>
<graphic xlink:href="344263272011_gf15.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:<xref ref-type="bibr" rid="redalyc_344263272011_ref16"> [16]</xref>.</attrib>
</fig>
</p>
<p>En este sistema se extraen características de cada una de las imágenes examinadas de prueba. El <italic>Accuracy</italic> obtenido para el sistema es cercano al 86 %, lo cual es bueno teniendo en cuenta además que el sistema permite obtener texto de voces introducidas al sistema (<xref ref-type="fig" rid="gf15">Fig. 15</xref>).</p>
<p>
<fig id="gf15">
<label>Fig. 15.</label>
<caption>
<title>Extracción de la seña Victoria de una imagen pre procesada</title>
</caption>
<alt-text>Fig. 15. Extracción de la seña Victoria de una imagen pre procesada</alt-text>
<graphic xlink:href="344263272011_gf16.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref16">[16]</xref>
</attrib>
</fig>
</p>
<p>Un trabajo similar se tiene para reconocer gestos de manos haciendo uso de aprendizaje multimodal<xref ref-type="bibr" rid="redalyc_344263272011_ref17"> [17]</xref>. En este se toman como insumo imágenes en 3 diferentes ambientes, a color, escala de grises con profundidad y video. Cada una de las entradas es tratada con CNN y finalmente los resultados se unen para ser la entrada de un clasificador SVM para detectar los gestos de mano presentes (<xref ref-type="fig" rid="gf16">Fig. 16</xref>).</p>
<p>
<fig id="gf16">
<label>Fig. 16.</label>
<caption>
<title>Arquitectura sistema multimodal para reconocer gestos de la mano usando CNN y SVM</title>
</caption>
<alt-text>Fig. 16. Arquitectura sistema multimodal para reconocer gestos de la mano usando CNN y SVM</alt-text>
<graphic xlink:href="344263272011_gf17.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref17">[17]</xref>
</attrib>
</fig>
</p>
<p>El <italic>Accuracy </italic>obtenido por este sistema fue 97.66 % usando 1100 imágenes como entrenamiento y 300 de prueba, con una validación cruzada con 5 pliegues.</p>
<p>Se observa que las CNN independientes de las imágenes a color y en escala de grises dan valores de <italic>Accuracy</italic> de 93.17 % y 92.61 %, mientras que para las de movimiento que usaron solo una Neural Network (NN) o Red Neuronal el <italic>Accuracy </italic>fue de 82.83 %, lo que demuestra que las CNN ofrecen mejor clasificación.</p>
<p>En Bangladesh <xref ref-type="bibr" rid="redalyc_344263272011_ref18">[18]</xref> una situación similar a la que se plantea en el presente artículo se intentó solucionar, dando como resultado que después de revisar varias técnicas de aprendizaje computacional del estado del arte, las CNN son las más eficientes para reconocer este tipo de gestos.</p>
<p>En esta investigación se construye el repositorio de datos desde cero, utilizando los números del 0 al 35, tratando como tal un problema de clasificación de 36 clases.</p>
<p>Cada clase tenía un total de 50 imágenes y el repositorio en su totalidad tenía 1800 imágenes, cada una de ellas en formato JPG y con dimensiones de 128x128 pixeles (<xref ref-type="fig" rid="gf17">Fig. 17</xref>).</p>
<p>
<fig id="gf17">
<label>Fig. 17.</label>
<caption>
<title>36 clases de números representados en lenguaje de señas en Bangladesh</title>
</caption>
<alt-text>Fig. 17.  36 clases de números representados en lenguaje de señas en Bangladesh</alt-text>
<graphic xlink:href="344263272011_gf18.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref18">[18]</xref>.</attrib>
</fig>
</p>
<p>La arquitectura del sistema construido constó de 10 capas de convolución con función de activación <italic>Relu</italic>, un <italic>Kernel</italic> de 3x3, capas de <italic>Dropout</italic> con valores entre 25 y 50 % para evitar <italic>Overfitting </italic>y una capa final con función de activación <italic>Softmax </italic>(tasa de <italic>Learning Rate</italic> se deja con valor de 0.001 con un optimizador Adam) (<xref ref-type="fig" rid="gf18">Fig. 18</xref>).</p>
<p>
<fig id="gf18">
<label>Fig. 18.</label>
<caption>
<title>Arquitectura de la CNN de clasificación de caracteres en Bangladesh</title>
</caption>
<alt-text>Fig. 18.  Arquitectura de la CNN de clasificación de caracteres en Bangladesh</alt-text>
<graphic xlink:href="344263272011_gf19.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref18">[18].</xref>
</attrib>
</fig>
</p>
<p>Como resultado, el sistema obtuvo un Accuracy de 92.65 % para los datos de entrenamiento y de un 92.74 % para los datos de prueba.</p>
<p>Con base en lo anterior y dado que las redes neuronales con DL han tomado gran fuerza en la industria y la investigación, se elige un modelo de una CNN para este proyecto.</p>
<p>Muchas de las CNN existentes hoy en día se basan en métodos ingenieriles (experimentación, prueba y error) para obtener sistemas que funcionen correctamente. Cuando se busca una CNN que se relacione con la detección de gestos se encuentra en <xref ref-type="bibr" rid="redalyc_344263272011_ref19">[19]</xref> un foro con la detección del alfabeto universal de lenguaje de señas que se visualiza en (<xref ref-type="fig" rid="gf19">Fig. 19</xref>).</p>
<p>
<fig id="gf19">
<label>Fig. 19.</label>
<caption>
<title>Reto KAGGLE para detectar alfabeto de Lenguaje de Señas Universal</title>
</caption>
<alt-text>Fig. 19.  Reto KAGGLE para detectar alfabeto de Lenguaje de Señas Universal</alt-text>
<graphic xlink:href="344263272011_gf20.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:<xref ref-type="bibr" rid="redalyc_344263272011_ref19"> [19]</xref>.</attrib>
</fig>
</p>
<p>La (<xref ref-type="fig" rid="gf20">Fig. 20</xref>) muestra la implementación de una CNN usando 2 capas convolucionales y 2 capas de <italic>Pooling</italic> como capas intermedias, haciendo uso de un <italic>Kernel</italic> o filtro de 3x3 (estándar manejado en CNN) y logrando un <italic>Accuracy</italic> de 85 % para un total de 24 clases <xref ref-type="bibr" rid="redalyc_344263272011_ref19">[19]</xref>.</p>
<p>
<fig id="gf20">
<label>Fig. 20.</label>
<caption>
<title>Red CNN con Dropout para 24 clases</title>
</caption>
<alt-text>Fig. 20.  Red CNN con Dropout para 24 clases</alt-text>
<graphic xlink:href="344263272011_gf21.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
</sec>
<sec>
<title>
<bold>3.   IMPLEMENTACIÓN</bold>
</title>
<sec>
<title>
<bold>3.1  Construcción del Repositorio de Imágenes</bold>
</title>
<p>Dado que el INSOR aún no cuenta con un repositorio digital de lenguaje de señas, se construye uno para el sistema. Se usa como guía el contenido de la página web de la entidad que se detalla en (<xref ref-type="fig" rid="gf21">Fig. 21</xref>) y el conocimiento de una interprete <xref ref-type="bibr" rid="redalyc_344263272011_ref20">[20]</xref>.</p>
<p>
<fig id="gf21">
<label>Fig. 21.</label>
<caption>
<title>Página Web Diccionario de Gestos de INSOR</title>
</caption>
<alt-text>Fig. 21. Página Web Diccionario de Gestos de INSOR</alt-text>
<graphic xlink:href="344263272011_gf22.png" position="anchor" orientation="portrait"/>
<attrib>Fuente:<xref ref-type="bibr" rid="redalyc_344263272011_ref20"> [20]</xref>.</attrib>
</fig>
</p>
<p>El lenguaje de señas se constituye de gestos dinámicos y estáticos. De los videos y el apoyo de la intérprete de señas se revisa gestos estáticos fáciles de replicar. Con respecto a los gestos dinámicos, algunos se conforman de gestos estáticos que poseen desplazamientos lineales durante el tiempo (es decir, la postura de las manos o el torso es el mismo, pero existe un movimiento de translación). De este último grupo, se seleccionarán algunas señas y se etiquetarán en diferentes momentos temporales con la misma palabra o expresión, de acuerdo con lo expresado en <xref ref-type="bibr" rid="redalyc_344263272011_ref20">[20]</xref>.</p>
<p>Por ejemplo, en la siguiente seña (<xref ref-type="fig" rid="gf22">Fig. 22</xref>) presente en la página, se ve que las manos de la persona que realiza el gesto se mueven horizontalmente, mientras que su torso se mantiene estático. La idea es tomar gestos donde parte de las manos se vea relacionada con el torso o incluso partes de la cabeza como el mentón o la sien <xref ref-type="bibr" rid="redalyc_344263272011_ref20">[20]</xref>.</p>
<p>
<fig id="gf22">
<label>Fig. 22.</label>
<caption>
<title>Gesto dinámico de traslación lineal para indicar Televisión</title>
</caption>
<alt-text>Fig. 22.  Gesto dinámico de traslación lineal para indicar Televisión</alt-text>
<graphic xlink:href="344263272011_gf23.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: <xref ref-type="bibr" rid="redalyc_344263272011_ref20">[20]</xref>
</attrib>
</fig>
</p>
<p>Con estos criterios establecidos, se construye un repositorio de imágenes con 22 diferentes gestos del lenguaje de señas de la página Web del INSOR y la experiencia del intérprete. Cada uno de estos gestos serán las diferentes clases del sistema. Se toma la idea de un procedimiento hecho en Argentina <xref ref-type="bibr" rid="redalyc_344263272011_ref13">[13]</xref> en la que se trabajan con M intérpretes o personas que conocen el lenguaje de señas para tener más datos que entrene el modelo.</p>
<p>De esta cantidad de personas, la sugerencia en <xref ref-type="bibr" rid="redalyc_344263272011_ref13">[13]</xref> es que solo M-1 serán usadas para la etapa de entrenamiento y la persona restante se incluirá durante la etapa de prueba.</p>
<p>En el presente caso, se entrenó el modelo con 5 personas y la última persona (interprete) se incluyó con los otros para evaluar el prototipo de software.</p>
<p>El criterio para elegir las señas se basa en su facilidad para replicar y, adicionalmente, que los movimientos no involucren complejidad para ser detectadas.</p>
<p>El listado de las señas correspondientes a las diferentes clases del sistema es el siguiente:</p>
<p>- Atardecer</p>
<p>- Baño</p>
<p>- Casa</p>
<p>- Color</p>
<p>- Escuchar</p>
<p>- Gracias</p>
<p>- Hola1 (usando 2 dedos)</p>
<p>- Hola2 (usando 4)</p>
<p>- Hoy</p>
<p>- Mamá</p>
<p>- Mucho gusto</p>
<p>- Nombre</p>
<p>- Novio</p>
<p>- Papá</p>
<p>- Profesor</p>
<p>- ¿Qué paso?</p>
<p>- Siéntese</p>
<p>- Televisión</p>
<p>- Tener curiosidad</p>
<p>- Tener algo como posesión</p>
<p>- Universidad</p>
<p>- Yo</p>
<p>A continuación, se muestran algunas de las 22 señas obtenidas de los videos con las diferentes personas que servirán como insumo para la construcción del repositorio, (<xref ref-type="fig" rid="gf23">Fig. 23</xref> a <xref ref-type="fig" rid="gf25">25</xref>). El total de imágenes del repositorio obtenidas es de 3168 con una distribución uniforme para las 22 clases.</p>
<p>
<fig id="gf23">
<label>Fig. 23.</label>
<caption>
<title>Seña estática de la palabra YO</title>
</caption>
<alt-text>Fig. 23. Seña estática de la palabra YO</alt-text>
<graphic xlink:href="344263272011_gf24.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>
<fig id="gf24">
<label>Fig. 24.</label>
<caption>
<title>Seña estática de la palabra CASA</title>
</caption>
<alt-text>Fig. 24. Seña estática de la palabra CASA</alt-text>
<graphic xlink:href="344263272011_gf25.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>
<fig id="gf25">
<label>Fig. 25.</label>
<caption>
<title>Seña dinámica de la palabra TELEVISOR</title>
</caption>
<alt-text>Fig. 25. Seña dinámica de la palabra TELEVISOR</alt-text>
<graphic xlink:href="344263272011_gf26.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Todas las imágenes contienen una resolución de 640x380 y guardadas en formato PNG. Estas imágenes son obtenidas como <italic>frames</italic> cada 0.0033 segundos de videos en blanco y negro donde se grabó a cada una de las personas realizándolas. Luego, cada imagen se guardó con un título numérico y se asoció con una etiqueta en un listado completo del repositorio en un archivo de Excel.</p>
</sec>
<sec>
<title>
<bold>3.2  Procesamiento de imágenes</bold>
</title>
<p>La ventaja de construir el repositorio de señas es la de tener una distribución uniforme de las diferentes clases que la conforman. En total, las 3168 imágenes construidas poseen un total de 144 imágenes por cada una de las expresiones o palabras a clasificar (o clases del sistema).</p>
<p>Con esto en mente, se construyó una matriz de 2 dimensiones en Python del tipo <italic>Array</italic>, donde estas imágenes puedan ser representadas numéricamente con el fin de ser tratada por la CNN.</p>
<p>Dado que las imágenes capturadas poseen una resolución alta, gracias a la cámara comercial con la que fue adquirida, el primer paso es ajustar su tamaño sin que se pierda calidad. Con un ajuste en el tamaño de 320x240 pixeles se observa poca modificación de las imágenes originales.</p>
<p>Dado que computacionalmente una imagen es una matriz de números enteros, cada imagen se ajusta a un vector de tamaño 76 800 (valor resultante de multiplicar 320x240) y de esa manera todas las imágenes se almacenan en una matriz más fácil de manejar (3368 x 76800), justo como se detalla en (<xref ref-type="fig" rid="gf26">Fig. 26</xref>).</p>
<p>
<fig id="gf26">
<label>Fig. 26.</label>
<caption>
<title>Proceso de conversión de matriz 2x2 a vector de 1 dimensión usado en imágenes</title>
</caption>
<alt-text>Fig. 26.  Proceso de conversión de matriz 2x2 a vector de 1 dimensión usado en imágenes</alt-text>
<graphic xlink:href="344263272011_gf27.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>A su vez, en un archivo de Excel cada nombre de archivo de imagen es asignado con una etiqueta de su correspondiente significado o expresión de seña, en el mismo orden en que la matriz tiene guardada la imagen. Con la librería Pandas de Python, se cargó este archivo de Excel (almacenado en formato CSV) y se visualizaron los primeros registros de la asociación del nombre de la imagen con su etiqueta como se ve en (<xref ref-type="fig" rid="gf27">Fig. 27</xref>).</p>
<p>
<fig id="gf27">
<label>Fig. 27.</label>
<caption>
<title>Validación en Pandas de archivo de etiquetas asociadas con el nombre de archivo de imagen</title>
</caption>
<alt-text>Fig. 27.  Validación en Pandas de archivo de etiquetas asociadas con el nombre de archivo de imagen</alt-text>
<graphic xlink:href="344263272011_gf28.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Dado que para la CNN se trabaja con datos numéricos, la variable de salida se representa por medio de ‘0’ y ‘1’ con la técnica conocida como <italic>One Hot Code</italic>.</p>
<p>En este caso, Python permite realizar esta transformación dando como resultado una matriz de 3168 registros (cantidad de imágenes) por 22 columnas (las 22 clases del sistema, donde cada salida es un conjunto de 21 ‘0’ y un ‘1’ que representa esa clase en determinada posición).</p>
<p>A continuación, se separaron los datos en aquellos que se usan para entrenar y los que se usan para probar el modelo a construir. Se indica que el 70 % de los datos es para entrenamiento y de manera estratificada, con el fin de conservar el balanceo de clases. Se adiciona también un valor de semilla en la aleatoriedad en estos datos con el fin de que en una próxima simulación se tengan las mismas imágenes y etiquetas elegidas aleatoriamente para la separación. Se valida nuevamente la distribución de las señas después de la separación y esta fue de 100 imágenes para los datos de entrenamiento.</p>
<p>Se aplicó un proceso de normalización sobre los datos para manejar los valores numéricos, tanto de los datos de entrenamiento como de prueba entre 0 y 1.</p>
<p>Para ello se determinaron los valores máximo y mínimo de las imágenes que son 255 y 0, respectivamente. Dada la simplicidad de estos valores, la normalización consistió en dividir todos los datos por el valor de 255, dando como resultado que para los datos de entrenamiento o <italic>Train</italic> el valor máximo y mínimo son 1 y 0, mientras que para los datos de Test son 1 y 0.003, resultado de la división flotante. Con esto, los datos ya están procesados y listos para construir el modelo.</p>
</sec>
<sec>
<title>
<bold>3.3  Construcción del Modelo</bold>
</title>
<p>El modelo se construye luego de haber realizado el procesamiento de las diferentes imágenes que servirán como datos fuente de entrenamiento. La arquitectura de este modelo es la misma planteada heurísticamente en <xref ref-type="bibr" rid="redalyc_344263272011_ref19">[19]</xref>, reconocimiento de alfabeto de señas de personas sordas, con la diferencia de que no se agregó inicialmente una capa de <italic>Dropout</italic> para ver como este factor altera una CNN totalmente interconectada.</p>
<p>En una red neuronal son muchos los hiperparámetros que varían para obtener diferentes resultados, haciendo que sea complejo cambiarlos todos a la vez (costo computacional). Los hiperparámetros de una red neuronal más comunes son el número de neuronas por capa, las funciones de activación presentes, el tipo de optimizador, la tasa de aprendizaje o <italic>Learning Rate</italic>, el número de épocas o interacciones de entrenamiento, momento, entre otros.</p>
<p>Por fortuna, la sencillez del modelo a usar permitió variar el número de neuronas existentes en las capas convolucionales junto con sus funciones de activación correspondientes. Para encontrar los parámetros óptimos se usó la técnica <italic>Grid Search</italic>, donde se variaron estos parámetros dentro un rango establecido y se combinaron los mismos. La arquitectura y funcionamiento básico de la red neuronal a implementar se describen a continuación.</p>
<p>La primera capa es convolucional con un <italic>Kernel</italic> o filtro de 3x3 ejecutado sobre cada una de las imágenes de entrada. Es la responsable de recibir los datos por lo que se indica que estos deben venir en una dimensión de 320 x3 40. El número de neuronas y función de activación de la capa son parámetros por encontrar.</p>
<p>La capa que procede es de <italic>MaxPooling</italic> cuya matriz es de 2x2 y permite reducir el número de parámetros de salida de la capa de entrada. Esta capa toma el máximo valor de la imagen de cada 4 pixeles cercanos organizados en 2x2.</p>
<p>La tercera capa es similar a la primera con la diferencia de que no recibe la misma cantidad de entradas, ya que por la capa de <italic>MaxPooling</italic> el número es reducido.</p>
<p>Nuevamente, las neuronas y función de activación se definieron variables en esta capa.</p>
<p>La cuarta es una capa <italic>MaxPooling</italic> similar a la segunda, usada para reducir aún más el número de parámetros de la CNN. No tuvo neuronas al igual que la segunda.</p>
<p>Luego de pasar por las 2 capas de Convolución y <italic>MaxPooling</italic>, se usó una capa <italic>Flatten</italic> para que todas las salidas convergieran hacia una salida. Finalmente, se agregó una capa de 22 neuronas igual al número de clases existentes en el sistema, con una función de activación <italic>Softmax,</italic> asegurando que las probabilidades obtenidas den una sola clase predicha como salida.</p>
<p>Por simplicidad, se dejó como optimizador el valor de “<italic>Adam</italic>” y la pérdida o <italic>Loss</italic> de la red neuronal es categórica <italic>Crossentropy</italic>. La medida para ver la eficiencia del algoritmo es el <italic>Accuracy</italic>.</p>
<p>El proceso de <italic>Grid Search</italic> se acompañó de una técnica denominada <italic>Cross Validation</italic>
<xref ref-type="bibr" rid="redalyc_344263272011_ref21">[21]</xref>. Esta técnica consiste en que de los datos de entrenamiento de los datos originales se vuelve a hacer otra división. Esta división transforma todo el segmento de datos en conjuntos de datos más pequeños (N conjuntos) para entrenar N-1 y el restante para validar el modelo obtenido en el entrenamiento como se observa en (<xref ref-type="fig" rid="gf28">Fig. 28</xref>).</p>
<p>
<fig id="gf28">
<label>Fig. 28.</label>
<caption>
<title>Cross Validation con 5 pliegues. Sobre los datos de entrenamiento se hacen nuevas divisiones y se itera</title>
</caption>
<alt-text>Fig. 28.  Cross Validation con 5 pliegues. Sobre los datos de entrenamiento se hacen nuevas divisiones y se itera</alt-text>
<graphic xlink:href="344263272011_gf29.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Este proceso es iterativo y se realiza N veces haciendo que cada conjunto al final sea usado como datos de validación.</p>
<p>Los resultados obtenidos se promedian para cada una de las combinaciones de hiperparámetros (número de neuronas y funciones de activación en este caso).</p>
<p>Los parámetros que se variaron para los hiperparámetros son los siguientes:</p>
<p>
<bold>Numero de neuronas</bold> = [10, 15, 20, 25 y 30].</p>
<p>
<bold>Funciones de Activación</bold> = [Relu, Tanh, Linear y Sigmoid] (más usados en la industria).</p>
<p>Una vez establecido, se entrenó el modelo indicando que se pueden hacer múltiples <italic>jobs</italic> en paralelo y usar un valor de 15 épocas. No se incluye un numero de tamaño de <italic>batch</italic> por lo que el sistema tomó por defecto un valor de 32. En el momento de realizar computacionalmente esta simulación, los recursos de Memoria y CPU tomaron valores picos cercanos al 100 %.</p>
<p>Dado que se tienen 5 diferentes números de neuronas, 4 diferentes funciones de activación y un valor de <italic>Cross Validation </italic>igual a 5 pliegues para mejores resultados, el <italic>Grid Search</italic> realizó 100 procesos de entrenamiento sobre la CNN con 2217 datos de entrenamiento. Después de unas cuantas horas de simulación, los resultados obtenidos se grafican en un mapa de calor de número de neuronas vs. la función de activación que se observa en (<xref ref-type="fig" rid="gf29">Fig. 29</xref>).</p>
<p>
<fig id="gf29">
<label>Fig. 29.</label>
<caption>
<title>Mapa de calor Grid Search. Funciones de activación vs número de neuronas por capas</title>
</caption>
<alt-text>Fig. 29.  Mapa de calor Grid Search. Funciones de activación vs número de neuronas por capas</alt-text>
<graphic xlink:href="344263272011_gf30.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>De los resultados obtenidos, la mejor combinación ocurrió cuando las capas convolucionales tienen un numero de 25 neuronas cada una y sus funciones de activación son <italic>Tanh</italic>, con un<italic> Accuracy</italic> en promedio de 0.983. En general, los Accuracy para las funciones de activación <italic>Relu, Tanh</italic> y <italic>Linear</italic>, sin importar la cantidad de neuronas en capas, se encuentra por encima del 90 %, siendo óptimas para trabajar.</p>
<p>Por el contrario, la función de activación <italic>Sigmoid</italic> ofrece resultados muy bajos inferiores al 5 % por lo que es descartada en su totalidad.</p>
<p>En el momento de evaluar los datos de prueba con el mejor resultado, el <italic>Accuracy</italic> obtenido es de 0.988, razón por la cual se construyó el modelo base especifico con estos parámetros.</p>
<p>El modelo obtenido se entrena de manera similar a como se hizo con el <italic>Grid Search</italic>, solo que sin usar <italic>Cross Validation</italic> y procesos en paralelo. Al usar 15 épocas y un tamaño de <italic>batch</italic> de 128 sobre las 2217 imágenes de entrenamiento, el <italic>Loss</italic> del modelo es 0.2348 y el <italic>Accuracy</italic> de 0.9693.</p>
<p>La (<xref ref-type="fig" rid="gf30">Fig. 30</xref>) muestra cómo evolucionó el <italic>Loss</italic> en función del número de épocas.</p>
<p>
<fig id="gf30">
<label>Fig. 30.</label>
<caption>
<title>Loss del modelo durante el entrenamiento por varias épocas</title>
</caption>
<alt-text>Fig. 30.  Loss del modelo durante el entrenamiento por varias épocas</alt-text>
<graphic xlink:href="344263272011_gf31.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Igualmente, en (<xref ref-type="fig" rid="gf31">Fig. 31</xref>) el <italic>Accuracy</italic> en función del número de épocas se ve como este aumenta para llegar a valores cercanos al 0.9.</p>
<p>
<fig id="gf31">
<label>Fig. 31.</label>
<caption>
<title>Accuracy del modelo durante el entrenamiento por varias épocas</title>
</caption>
<alt-text>Fig. 31. Accuracy del modelo durante el entrenamiento por varias épocas</alt-text>
<graphic xlink:href="344263272011_gf32.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Nuevamente se evaluaron los datos de test (951 imágenes) con un <italic>Loss</italic> igual al 0.2498 y el <italic>Accuracy</italic> de 0.9631, valores muy buenos para que el modelo sea usado.</p>
</sec>
<sec>
<title>
<bold>3.4  Evaluación del Modelo</bold>
</title>
<p>Del modelo obtenido, se agregó una capa <italic>Dropout</italic> similar a la inicial del modelo de <xref ref-type="bibr" rid="redalyc_344263272011_ref19">[19]</xref> (valor de 0.2).</p>
<p>Al realizar el entrenamiento, el <italic>Loss</italic> es 0.1396 y el <italic>Accuracy</italic> 0.9707 sobre las mismas imágenes de entrenamiento. Las curvas de <italic>Loss</italic> y <italic>Accuracy</italic> con respecto a las mismas 15 épocas son (<xref ref-type="fig" rid="gf32">Fig. 32</xref> y <xref ref-type="fig" rid="gf33">Fig. 33</xref>), respectivamente. Para los mismos datos de test, el <italic>Loss</italic> es 0.1516 y el <italic>Accuracy</italic> 0.9642.</p>
<p>
<fig id="gf32">
<label>Fig. 32.</label>
<caption>
<title>Loss del modelo con Dropout durante el entrenamiento por varias épocas</title>
</caption>
<alt-text>Fig. 32.  Loss del modelo con Dropout durante el entrenamiento por varias épocas</alt-text>
<graphic xlink:href="344263272011_gf33.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>
<fig id="gf33">
<label>Fig. 33.</label>
<caption>
<title>Accuracy del modelo con Dropout durante el entrenamiento por varias épocas</title>
</caption>
<alt-text>Fig. 33.  Accuracy del modelo con Dropout durante el entrenamiento por varias épocas</alt-text>
<graphic xlink:href="344263272011_gf34.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>A continuación, se tomó el modelo base inicial y se le agregaron 2 capas más convolucionales y de <italic>MaxPool</italic> y se construyeron 2 modelos adicionales con y sin <italic>Dropout</italic>. Se obtuvo otro modelo adicional, agregando 2 capas más convolucionales (para un total de 6) y de <italic>MaxPool</italic> con <italic>Dropout</italic>.</p>
<p>Todos estos modelos son construidos desde ceros y se entrenan nuevamente sus pesos desde ceros. Los resultados alcanzados en <italic>Loss</italic> son los de la <xref ref-type="table" rid="gt1">Tabla 1</xref> y los nombres de los modelos usaron acrónimos como CV5 (<italic>Cross Validation </italic>de 5), DP (<italic>Dropout</italic>) y LY (<italic>Layer</italic>) para diferenciarlos. Por su parte el <italic>Accuracy</italic> obtenido es la <xref ref-type="table" rid="gt2">Tabla 2</xref>.</p>
<p>
<table-wrap id="gt1">
<label>Tabla 1</label>
<caption>
<title>Resumen Modelos Loss agregando capas y Dropout</title>
</caption>
<alt-text>Tabla 1 Resumen Modelos Loss agregando capas y Dropout</alt-text>
<alternatives>
<graphic xlink:href="344263272011_gt2.png" position="anchor" orientation="portrait"/>
<table style="border-collapse:collapse;border:none;  " id="gt2-526564616c7963">
<tbody>
<tr style="height:15.75pt">
<td style="width:117.75pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.75pt">Nombre del Modelo</td>
<td style="width:182.8pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.75pt">Descripción</td>
<td style="width:76.35pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.75pt">
<italic>Loss Train</italic>
</td>
<td style="width:80.9pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.75pt">
<italic>Loss Test</italic>
</td>
</tr>
<tr style="height:15.75pt">
<td style="width:117.75pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.75pt">modeloFinalCV5</td>
<td style="width:182.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.75pt">Modelo Base</td>
<td style="width:76.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.75pt">0.2348</td>
<td style="width:80.9pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.75pt">0.2498</td>
</tr>
<tr style="height:15.75pt">
<td style="width:117.75pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">modeloDPFinalCV5</td>
<td style="width:182.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:76.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">0.1396</td>
<td style="width:80.9pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">0.1516</td>
</tr>
<tr style="height:15.75pt">
<td style="width:117.75pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">modeloDP2LYFinalCV5</td>
<td style="width:182.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">Base con <italic>Dropout</italic> 0.2 y 2 capas más</td>
<td style="width:76.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">0.1265</td>
<td style="width:80.9pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">
<bold>0.1091</bold>
</td>
</tr>
<tr style="height:15.75pt">
<td style="width:117.75pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">modelo2LYFinalCV5</td>
<td style="width:182.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">Modelo Base con 2 capas más</td>
<td style="width:76.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">0.1180</td>
<td style="width:80.9pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">0.1450</td>
</tr>
<tr style="height:15.75pt">
<td style="width:117.75pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">modeloDP3LYFinalCV5</td>
<td style="width:182.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">Base con <italic>Dropout</italic> 0.2 y 4 capas más</td>
<td style="width:76.35pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">0.8524</td>
<td style="width:80.9pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.75pt">0.8105</td>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: elaboración propia.</attrib>
</table-wrap>
</p>
<p>
<table-wrap id="gt2">
<label>Tabla 2</label>
<caption>
<title>Resumen Modelos Accuracy agregando capas y Dropout</title>
</caption>
<alt-text>Tabla 2 Resumen Modelos Accuracy agregando capas y Dropout</alt-text>
<alternatives>
<graphic xlink:href="344263272011_gt3.png" position="anchor" orientation="portrait"/>
<table style="border-collapse:collapse;border:none;  " id="gt3-526564616c7963">
<tbody>
<tr style="height:15.95pt">
<td style="width:119.05pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.95pt">Nombre del Modelo</td>
<td style="width:178.75pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.95pt">Descripción</td>
<td style="width:75.5pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.95pt">
<italic>Accuracy Train</italic>
</td>
<td style="width:80.25pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.95pt">
<italic>Accuracy Test</italic>
</td>
</tr>
<tr style="height:15.95pt">
<td style="width:119.05pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.95pt">modeloFinalCV5</td>
<td style="width:178.75pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.95pt">Modelo Base</td>
<td style="width:75.5pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.95pt">0.9693</td>
<td style="width:80.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.95pt">0.9631</td>
</tr>
<tr style="height:15.95pt">
<td style="width:119.05pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">modeloDPFinalCV5</td>
<td style="width:178.75pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:75.5pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">0.9707</td>
<td style="width:80.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">0.9642</td>
</tr>
<tr style="height:15.95pt">
<td style="width:119.05pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">modeloDP2LYFinalCV5</td>
<td style="width:178.75pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">Base con <italic>Dropout</italic> 0.2 y 2 capas más</td>
<td style="width:75.5pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">0.9698</td>
<td style="width:80.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">
<bold>0.9758</bold>
</td>
</tr>
<tr style="height:15.95pt">
<td style="width:119.05pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">modelo2LYFinalCV5</td>
<td style="width:178.75pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">Modelo Base con 2 capas más</td>
<td style="width:75.5pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">0.9711</td>
<td style="width:80.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">0.9558</td>
</tr>
<tr style="height:15.95pt">
<td style="width:119.05pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">modeloDP3LYFinalCV5</td>
<td style="width:178.75pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">Base con <italic>Dropout</italic> 0.2 y 4 capas más</td>
<td style="width:75.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">0.8169</td>
<td style="width:80.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.95pt">0.8548</td>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: elaboración propia.</attrib>
</table-wrap>
</p>
<p>Como siguiente paso, se usó la técnica de <italic>Transfer Learning</italic>. Se usó el modelo inicial obtenido con los pesos obtenidos en las capas convolucionales y <italic>MaxPool</italic> dentro de un nuevo modelo. Esto permitió agregar más capas a su arquitectura para que solo entrenaran las adicionales.</p>
<p>Esta técnica es muy útil ya que permitió ahorrar tiempos en el proceso de entrenamiento. Se revisó el <italic>Accuracy</italic> generado por las nuevas capas o modificaciones a la arquitectura de la red CNN del modelo base. En este caso, se adicionaron capas de <italic>Dropout, Flatten</italic> y <italic>Softmax</italic> para ver su comportamiento.</p>
<p>Al hacer el proceso, se observó que el <italic>Accuracy</italic> de entrenamiento es de 0.9869 y el de Test es 0.9831, valores superiores al del modelo inicial. Por su parte el <italic>Loss</italic> de entrenamiento es 0.1019 y la de Test es 0.1316, menores al del modelo base. Las gráficas de <italic>Accuracy</italic> y <italic>Loss</italic> en los datos de entrenamiento son las (<xref ref-type="fig" rid="gf34">Fig. 34</xref> y <xref ref-type="fig" rid="gf35">Fig. 35</xref>).</p>
<p>
<fig id="gf34">
<label>Fig. 34.</label>
<caption>
<title>Loss del modelo con Dropout durante el entrenamiento por varias épocas usando Transfer Learning</title>
</caption>
<alt-text>Fig. 34.  Loss del modelo con Dropout durante el entrenamiento por varias épocas usando Transfer Learning</alt-text>
<graphic xlink:href="344263272011_gf35.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>
<fig id="gf35">
<label>Fig. 35.</label>
<caption>
<title>Accuracy del modelo con Dropout durante el entrenamiento por varias épocas usando</title>
</caption>
<alt-text>Fig. 35.   Accuracy del modelo con Dropout durante el entrenamiento por varias épocas usando</alt-text>
<graphic xlink:href="344263272011_gf36.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Se construyen modelos similares a los anteriores con la misma estructura, usando los pesos del modelo base sin modifican durante el entrenamiento. Para el caso de <italic>Transfer Learning</italic>, los modelos obtenidos tienen en su nombre el acrónimo TL (<italic>Transfer Learning</italic>) para indicar que se usó esta técnica. El <italic>Loss</italic> y <italic>Accuracy</italic> de estos modelos se ven en las <xref ref-type="table" rid="gt3">Tablas 3</xref> y <xref ref-type="table" rid="gt4">4</xref> respectivamente</p>
<p>
<table-wrap id="gt3">
<label>Tabla 3</label>
<caption>
<title>Resumen Modelos Loss con Transfer Learning</title>
</caption>
<alt-text>Tabla 3 Resumen Modelos Loss con Transfer Learning</alt-text>
<alternatives>
<graphic xlink:href="344263272011_gt4.png" position="anchor" orientation="portrait"/>
<table style="border-collapse:collapse;border:none;  " id="gt4-526564616c7963">
<tbody>
<tr style="height:15.1pt">
<td style="width:119.15pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.1pt">Nombre del Modelo</td>
<td style="width:185.8pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.1pt">Descripción</td>
<td style="width:73.35pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.1pt">
<italic>Loss Train</italic>
</td>
<td style="width:75.7pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.1pt">
<italic>Loss Test</italic>
</td>
</tr>
<tr style="height:15.1pt">
<td style="width:119.15pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.1pt">modeloFinalCV5</td>
<td style="width:185.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.1pt">Modelo Base</td>
<td style="width:73.35pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.1pt">0.2348</td>
<td style="width:75.7pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.1pt">0.2498</td>
</tr>
<tr style="height:15.1pt">
<td style="width:119.15pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">modeloDPFinalCV5TL</td>
<td style="width:185.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:73.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">0.1019</td>
<td style="width:75.7pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">
<bold>0.1316</bold>
<bold/>
</td>
</tr>
<tr style="height:15.1pt">
<td style="width:119.15pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">modeloDPFinalCV52LTL</td>
<td style="width:185.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">Base con <italic>Dropout </italic>0.2 y 2 capas más</td>
<td style="width:73.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">0.2866</td>
<td style="width:75.7pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">0.2917</td>
</tr>
<tr style="height:15.1pt">
<td style="width:119.15pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">modeloFinalCV52LTL</td>
<td style="width:185.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">Modelo Base con 2 capas más</td>
<td style="width:73.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">0.1909</td>
<td style="width:75.7pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">0.2137</td>
</tr>
<tr style="height:15.1pt">
<td style="width:119.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">modeloDPFinalCV54LTL</td>
<td style="width:185.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">Base con <italic>Dropout</italic> 0.2 y 4 capas más</td>
<td style="width:73.35pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">0.9976</td>
<td style="width:75.7pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.1pt">0.9705</td>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: elaboración propia.</attrib>
</table-wrap>
</p>
<p>
<table-wrap id="gt4">
<label>Tabla 4</label>
<caption>
<title>Resumen Modelos Accuracy con Transfer Learning</title>
</caption>
<alt-text>Tabla 4 Resumen Modelos Accuracy con Transfer Learning</alt-text>
<alternatives>
<graphic xlink:href="344263272011_gt5.png" position="anchor" orientation="portrait"/>
<table style="border-collapse:collapse;border:none;  " id="gt5-526564616c7963">
<tbody>
<tr style="height:15.25pt">
<td style="width:119.55pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.25pt">Nombre del Modelo</td>
<td style="width:186.45pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.25pt">Descripción</td>
<td style="width:73.6pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.25pt">
<italic>Accuracy Train</italic>
</td>
<td style="width:75.95pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.25pt">
<italic>Accuracy Test</italic>
</td>
</tr>
<tr style="height:15.25pt">
<td style="width:119.55pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.25pt">modeloFinalCV5</td>
<td style="width:186.45pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.25pt">Modelo Base</td>
<td style="width:73.6pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.25pt">0.9693</td>
<td style="width:75.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.25pt">0.9631</td>
</tr>
<tr style="height:15.25pt">
<td style="width:119.55pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">modeloDPFinalCV5TL</td>
<td style="width:186.45pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:73.6pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">0.9869</td>
<td style="width:75.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">
<bold>0.9831</bold>
<bold/>
</td>
</tr>
<tr style="height:15.25pt">
<td style="width:119.55pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">modeloDPFinalCV52LTL</td>
<td style="width:186.45pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">Base con <italic>Dropout</italic> 0.2 y 2 capas más</td>
<td style="width:73.6pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">0.9310</td>
<td style="width:75.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">0.9190</td>
</tr>
<tr style="height:15.25pt">
<td style="width:119.55pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">modeloFinalCV52LTL</td>
<td style="width:186.45pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">Modelo Base con 2 capas más</td>
<td style="width:73.6pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">0.9666</td>
<td style="width:75.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">0.9568</td>
</tr>
<tr style="height:15.25pt">
<td style="width:119.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">modeloDPFinalCV54LTL</td>
<td style="width:186.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">Base con <italic>Dropout</italic> 0.2 y 4 capas más</td>
<td style="width:73.6pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">0.7740</td>
<td style="width:75.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.25pt">0.7991</td>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: elaboración propia.</attrib>
</table-wrap>
</p>
<p>Finalmente, se aplicó <italic>Fine Tuning</italic> tomando como referencia el procedimiento realizado con <italic>Transfer Learning</italic>. En este proceso, se tomaron los pesos de las capas convolucionales del modelo base y se construyeron modelos similares al procedimiento anterior. La diferencia radicó en que en las capas adicionales se comenzó con un valor de <italic>Learning Rate</italic> de 0.001 y entrenando cada modelo durante 5 épocas para hacer un calentamiento. Luego se disminuyó el <italic>Learning Rate</italic> a 0.00001 y se entrenó con 15 épocas. En (<xref ref-type="fig" rid="gf36">Fig. 36</xref>) se observa el comportamiento del Loss al final de las 15 épocas y en (<xref ref-type="fig" rid="gf37">Fig. 37</xref>) el <italic>Accuracy</italic> del modelo base con <italic>Dropout</italic>.</p>
<p>
<fig id="gf36">
<label>Fig. 36.</label>
<caption>
<title>Loss del modelo con Dropout durante el entrenamiento por varias épocas usando</title>
</caption>
<alt-text>Fig. 36.   Loss del modelo con Dropout durante el entrenamiento por varias épocas usando</alt-text>
<graphic xlink:href="344263272011_gf37.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>
<fig id="gf37">
<label>Fig. 37.</label>
<caption>
<title>Accuracy del modelo con Dropout durante el entrenamiento por varias épocas usando Fine Tuning</title>
</caption>
<alt-text>Fig. 37. Accuracy del modelo con Dropout durante el entrenamiento por varias épocas usando Fine Tuning</alt-text>
<graphic xlink:href="344263272011_gf38.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>En este caso, los nombres de los modelos poseen el acrónimo FT (<italic>Fine Tuning</italic>) y los resultados de <italic>Loss</italic> y <italic>Accuracy</italic> se ven en la <xref ref-type="table" rid="gt5">Tabla 5</xref> y <xref ref-type="table" rid="gt6">Tabla 6</xref>.</p>
<p>
<table-wrap id="gt5">
<label>Tabla 5</label>
<caption>
<title>Resumen Modelos Loss con Fine Tuning</title>
</caption>
<alt-text>Tabla 5 Resumen Modelos Loss con Fine Tuning</alt-text>
<alternatives>
<graphic xlink:href="344263272011_gt6.png" position="anchor" orientation="portrait"/>
<table style="border-collapse:collapse;border:none;  " id="gt6-526564616c7963">
<tbody>
<tr style="height:14.2pt">
<td style="width:127.35pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:14.2pt">Nombre del Modelo</td>
<td style="width:184.25pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:14.2pt">Descripción</td>
<td style="width:78.0pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:14.2pt">
<italic>Loss Train</italic>
</td>
<td style="width:77.95pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:14.2pt">
<italic>Loss Test</italic>
</td>
</tr>
<tr style="height:14.2pt">
<td style="width:127.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:14.2pt">modeloFinalCV5</td>
<td style="width:184.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:14.2pt">Modelo Base</td>
<td style="width:78.0pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:14.2pt">0.2348</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:14.2pt">0.2498</td>
</tr>
<tr style="height:14.2pt">
<td style="width:127.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">modeloDPFinalCV5TLFT</td>
<td style="width:184.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:78.0pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">0.0613</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">
<bold>0.0791</bold>
<bold/>
</td>
</tr>
<tr style="height:14.2pt">
<td style="width:127.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">modeloDPFinalCV52LTLFT</td>
<td style="width:184.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">Base con <italic>Dropout </italic>0.2 y 2 capas más</td>
<td style="width:78.0pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">0.7268</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">0.8139</td>
</tr>
<tr style="height:14.2pt">
<td style="width:127.35pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">modeloFinalCV52LTLFT</td>
<td style="width:184.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">Modelo Base con 2 capas más</td>
<td style="width:78.0pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">0.7156</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">0.8346</td>
</tr>
<tr style="height:14.2pt">
<td style="width:127.35pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">modeloDPFinalCV54LTLFT</td>
<td style="width:184.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">Base con <italic>Dropout</italic> 0.2 y 4 capas más</td>
<td style="width:78.0pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">2.2961</td>
<td style="width:77.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:14.2pt">2.2951</td>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: elaboración propia.</attrib>
</table-wrap>
</p>
<p>
<table-wrap id="gt6">
<label>Tabla 6</label>
<caption>
<title>Resumen Modelos Accuracy con Fine Tuning</title>
</caption>
<alt-text>Tabla 6 Resumen Modelos Accuracy con Fine Tuning</alt-text>
<alternatives>
<graphic xlink:href="344263272011_gt7.png" position="anchor" orientation="portrait"/>
<table style="border-collapse:collapse;border:none;  " id="gt7-526564616c7963">
<tbody>
<tr style="height:15.0pt">
<td style="width:129.8pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">Nombre del Modelo</td>
<td style="width:219.7pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">Descripción</td>
<td style="width:63.8pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt" colspan="2">
<italic>Accuracy Train</italic>
</td>
<td style="width:54.25pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">
<italic>Accuracy Test</italic>
</td>
</tr>
<tr style="height:15.0pt">
<td style="width:129.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">modeloFinalCV5</td>
<td style="width:219.7pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">Modelo Base</td>
<td style="width:40.1pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">0.9693</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt" colspan="2">0.9631</td>
</tr>
<tr style="height:15.0pt">
<td style="width:129.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">modeloDPFinalCV5TLFT</td>
<td style="width:219.7pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:40.1pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.9932</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt" colspan="2">
<bold>0.9894</bold>
<bold/>
</td>
</tr>
<tr style="height:15.0pt">
<td style="width:129.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">modeloDPFinalCV52LTLFT</td>
<td style="width:219.7pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Base con <italic>Dropout</italic> 0.2 y 2 capas más</td>
<td style="width:40.1pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.8466</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt" colspan="2">0.8128</td>
</tr>
<tr style="height:15.0pt">
<td style="width:129.8pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">modeloFinalCV52LTLFT</td>
<td style="width:219.7pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Modelo Base con 2 capas más</td>
<td style="width:40.1pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.8805</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt" colspan="2">0.8286</td>
</tr>
<tr style="height:15.0pt">
<td style="width:129.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">modeloDPFinalCV54LTLFT</td>
<td style="width:219.7pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Base con <italic>Dropout</italic> 0.2 y 4 capas más</td>
<td style="width:40.1pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.3717</td>
<td style="width:77.95pt;border:none;border-bottom:   solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt" colspan="2">0.4100</td>
</tr>
<tr>
<td style="border:none"/>
<td style="border:none"/>
<td style="border:none"/>
<td style="border:none"/>
<td style="border:none"/>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: elaboración propia.</attrib>
</table-wrap>
</p>
<p>Como se pudo observar, modificando el modelo base se obtuvieron diferentes modelos modificando su arquitectura, agregando más capas convolucionales o <italic>Dropout</italic> e, incluso, usando los pesos de las capas iniciales y entrenando las capas adicionales usando <italic>Transfer Learning . Fine Tuning</italic>. Dado que el <italic>Accuracy</italic> es la medida que se tomó para medir la eficiencia de los modelos y tomando en cuenta los resultados de las Tablas 2, 4 y 6 se decide tomar cuatro modelos para usar en el prototipo y evaluar con nuevas imágenes similares al del proceso de entrenamiento y test. Estos fueron el modelo base (<italic>Accuracy</italic> de 0.9631), el modelo base con 2 capas convolucionales más, junto con un <italic>Dropout</italic> y con pesos iniciales sin entrenar (<italic>Accuracy</italic> de 0.9758), al usar <italic>Transfer Learning </italic>el modelo base con los mismos pesos de las capas convolucionales y aplicando <italic>Dropout .Accuracy</italic> de 0.9831) y finalmente con <italic>Fine Tuning </italic>el modelo base con <italic>Dropout</italic> teniendo en cuenta que se modificó el <italic>Transfer Learning</italic> y se hizo un proceso de calentamiento de 5 épocas (<italic>Accuracy</italic> de 0.9831).</p>
<p>En la <xref ref-type="table" rid="gt7">Tabla 7</xref> se resumen los mejores modelos obtenidos de las técnicas empleadas y que se usaron para construir y evaluar el prototipo tomando como referencia el <italic>Accuracy</italic>.</p>
<p>
<table-wrap id="gt7">
<label>Tabla 7</label>
<caption>
<title>Resumen Modelos Accuracy</title>
</caption>
<alt-text>Tabla 7 Resumen Modelos Accuracy</alt-text>
<alternatives>
<graphic xlink:href="344263272011_gt8.png" position="anchor" orientation="portrait"/>
<table style="width:471.6pt;border-collapse:collapse;border:none;" id="gt8-526564616c7963">
<tbody>
<tr style="height:13.2pt">
<td style="width:126.4pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">Nombre del Modelo</td>
<td style="width:140.05pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">Técnica usada</td>
<td style="width:77.95pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">Descripción</td>
<td style="width:77.95pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">
<italic>Accuracy</italic>
<italic> Train</italic>
</td>
<td style="width:49.25pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">
<italic>Accuracy Test</italic>
</td>
</tr>
<tr style="height:13.2pt">
<td style="width:126.4pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">modeloFinalCV5</td>
<td style="width:140.05pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">Modelo Base Obtenido</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">Modelo Base</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">0.9693</td>
<td style="width:49.25pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:13.2pt">0.9631</td>
</tr>
<tr style="height:13.2pt">
<td style="width:126.4pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">modeloDP2LYFinalCV5</td>
<td style="width:140.05pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">Modificación del modelo base agregando Capas y <italic>Dropout</italic>
</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">Base con <italic>Dropout</italic> 0.2 y 2 capas más</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">0.9698</td>
<td style="width:49.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">0.9758</td>
</tr>
<tr style="height:13.2pt">
<td style="width:126.4pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">modeloDPFinalCV5TL</td>
<td style="width:140.05pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">Modificación del modelo base agregando <italic>Dropout </italic>y usando <italic>Transfer Learning</italic>
</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:77.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">0.9869</td>
<td style="width:49.25pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">0.9831</td>
</tr>
<tr style="height:13.2pt">
<td style="width:126.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">modeloDPFinalCV5TLFT</td>
<td style="width:140.05pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">Modificación del modelo base agregando <italic>Dropout </italic>y usando <italic>Fine Tuning</italic>
</td>
<td style="width:77.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:77.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">0.9932</td>
<td style="width:49.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:13.2pt">0.9894</td>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: elaboración propia.</attrib>
</table-wrap>
</p>
<p>Por su parte, en la <xref ref-type="table" rid="gt8">Tabla 8</xref> se muestran los valores de errores de estos mismos modelos usando el parámetro <italic>Loss.</italic>
</p>
<p>
<table-wrap id="gt8">
<label>Tabla 8</label>
<caption>
<title>Resumen Modelos Loss</title>
</caption>
<alt-text>Tabla 8 Resumen Modelos Loss</alt-text>
<alternatives>
<graphic xlink:href="344263272011_gt9.png" position="anchor" orientation="portrait"/>
<table style="width:477.0pt;border-collapse:collapse;border:none;" id="gt9-526564616c7963">
<tbody>
<tr style="height:15.0pt">
<td style="width:134.5pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">Nombre del Modelo</td>
<td style="width:5.0cm;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">Técnica usada</td>
<td style="width:92.1pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">Descripción</td>
<td style="width:2.0cm;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">
<italic>Accuracy Train</italic>
</td>
<td style="width:51.95pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;      padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">
<italic>Accuracy</italic>
<italic>Test</italic>
</td>
</tr>
<tr style="height:15.0pt">
<td style="width:134.5pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">modeloFinalCV5</td>
<td style="width:5.0cm;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">Modelo Base Obtenido</td>
<td style="width:92.1pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">Modelo Base</td>
<td style="width:2.0cm;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">0.2348</td>
<td style="width:51.95pt;border:none;   padding:0cm 3.5pt 0cm 3.5pt;height:15.0pt">0.2498</td>
</tr>
<tr style="height:15.0pt">
<td style="width:134.5pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">modeloDP2LYFinalCV5</td>
<td style="width:5.0cm;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Modificación del modelo base agregando Capas y <italic>Dropout</italic>
</td>
<td style="width:92.1pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Base con <italic>Dropout</italic> 0.2 y 2 capas más</td>
<td style="width:2.0cm;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.1265</td>
<td style="width:51.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.1091</td>
</tr>
<tr style="height:15.0pt">
<td style="width:134.5pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">modeloDPFinalCV5TL</td>
<td style="width:5.0cm;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Modificación del modelo base agregando <italic>Dropout </italic>y usando <italic>Transfer Learning</italic>
</td>
<td style="width:92.1pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:2.0cm;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.1019</td>
<td style="width:51.95pt;border:none;padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.1316</td>
</tr>
<tr style="height:15.0pt">
<td style="width:134.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">modeloDPFinalCV5TLFT</td>
<td style="width:5.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Modificación del modelo base agregando <italic>Dropout </italic>y usando <italic>Fine Tuning</italic>
</td>
<td style="width:92.1pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">Base con <italic>Dropout</italic> 0.2</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.0613</td>
<td style="width:51.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 3.5pt 0cm 3.5pt;   height:15.0pt">0.0791</td>
</tr>
</tbody>
</table>
</alternatives>
<attrib>Fuente: elaboración propia.</attrib>
</table-wrap>
</p>
<p>Fuente: elaboración propia.</p>
</sec>
</sec>
<sec>
<title>
<bold>4.   RESULTADOS</bold>
</title>
<sec>
<title>
<bold>4.1  Construcción del prototipo de software</bold>
</title>
<p>Como siguiente paso, se construyó un prototipo de software con la ayuda del <italic>Framework FLASK </italic>que permita hacer uso de los modelos construidos. De esta manera, un usuario final puede interactuar con los mismos de manera sencilla y a través de una Interfaz Gráfica de Usuario (GUI). Es importante resaltar que esta actividad se hizo con el fin de que los modelos fueran más sencillos de evaluar. Primero, se construye pensando en el intérprete como usuario experto de señas y conocedor de las necesidades de la población sorda.</p>
<p>En (<xref ref-type="fig" rid="gf38">Fig. 38</xref>) se define como actor al usuario que usará el prototipo de software, en este caso la persona intérprete de lengua de señas. El actor carga una imagen que contenga a una persona haciendo un gesto de las 22 señas establecidas. Luego ejecutara la orden para que el sistema sea capaz de mostrar la imagen cargada junto con una etiqueta que indica explícitamente cuál es de las 22 señas. Al finalizar la tarea, la persona intérprete regresa a la página de inicio para comenzar de nuevo.</p>
<p>
<fig id="gf38">
<label>Fig. 38.</label>
<caption>
<title>Caso de uso del sistema</title>
</caption>
<alt-text>Fig. 38.  Caso de uso del sistema</alt-text>
<graphic xlink:href="344263272011_gf39.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>El prototipo de software, al tratarse de una aplicación Web, consta de diferentes objetos que interactúan entre sí de manera dinámica, como se aprecia en (<xref ref-type="fig" rid="gf39">Fig. 39</xref>).</p>
<p>
<fig id="gf39">
<label>Fig. 39.</label>
<caption>
<title>Diagrama de secuencias del sistema</title>
</caption>
<alt-text>Fig. 39. Diagrama de secuencias del sistema</alt-text>
<graphic xlink:href="344263272011_gf40.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>El primero de ellos es el intérprete que realiza una interacción con la GUI, donde carga la información y ve la respuesta del sistema. A su vez, esta GUI interactúa con el <italic>Backend</italic> o lógica del sistema que transforma la información recibida, la pasa al modelo obtenido y brinda una respuesta hacia la GUI. Dado que no se almacena esta información en una base de datos por el momento, no se cuenta con un objeto de persistencia de la información.</p>
<p>A continuación, se detalla la lógica del software con una descripción de las actividades secuenciales de su lógica y de forma visual en (<xref ref-type="fig" rid="gf40">Fig.40</xref>). El proceso de clasificación de imágenes en una de las señas establecidas es:</p>
<p>-Carga de la imagen de la señal de la página principal</p>
<p>-Carga del modelo de entrenamiento obtenido</p>
<p>-Almacenamiento de la imagen a matriz en escala de grises</p>
<p>-Almacenamiento de la imagen en formato RGB</p>
<p>-Transformación de la matriz de escala de grises a vector de una dimensión</p>
<p>-Ajuste de vector en formato de ingreso para la red neuronal</p>
<p>-Aplicar modelo a vector y guardar resultado en variable numérica de salida</p>
<p>-Convertir variable de salida en etiqueta de clase</p>
<p>-Enviar etiqueta de salida a página de respuesta</p>
<p>-Mostrar imagen almacenada en formato RGB en página de respuesta.</p>
<p>
<fig id="gf40">
<label>Fig. 40.</label>
<caption>
<title>Diagrama de actividades del sistema</title>
</caption>
<alt-text>Fig. 40.  Diagrama de actividades del sistema</alt-text>
<graphic xlink:href="344263272011_gf41.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
</sec>
<sec>
<title>
<bold>4.2  Definición de pruebas de modelos</bold>
</title>
<p>Para validar la eficiencia del prototipo, más específicamente del modelo construido, se realizó una prueba de concepto con la persona intérprete de LSC, con el fin de que desde el área usuaria se tenga una calificación objetiva del sistema. Para ello, basados en la información de <xref ref-type="bibr" rid="redalyc_344263272011_ref22">[22]</xref> los 4 pasos de la validación del prototipo fueron los siguientes:</p>
<p>-<bold>Comprender el problema a resolver</bold>: se deseaba tener un software que fuera capaz de reconocer automáticamente un determinado conjunto de señas usado por las personas sordas en su comunicación diaria.</p>
<p>-<bold>Definir un <italic>target</italic>
</bold>: las personas que harán uso de este software son aquellas que conocen este lenguaje ya que son las expertas y podrán decidir qué tan bueno es el prototipo para reconocer las expresiones o palabras realizadas.</p>
<p>-<bold>Mapear el recorrido:</bold> se desarrollarán una serie de actividades para que la persona que conoce el lenguaje de señas interactúe con el prototipo y de acuerdo con unas condiciones establecidas de su evaluación del producto.</p>
<p>-<bold>Bocetar la solución:</bold> este paso se omite, ya que el prototipo de software construido no varía por su arquitectura lógica o física establecida, sino por la calidad de los datos que se usan para construir el modelo. No obstante, de acuerdo con los resultados la retroalimentación obtenida es de gran valor para construir a futuro mejores modelos que soporten el prototipo y con ello un producto final de calidad.</p>
<p>De igual manera, con base en lo establecido en<xref ref-type="bibr" rid="redalyc_344263272011_ref23"> [23]</xref>, se complementó la validación haciendo que la persona que conocía el lenguaje de señas interactuara con un software de fácil accesibilidad, de acuerdo con sus recomendaciones, manteniéndolo lo más simple posible. Dado que se probaría con nuevos datos y los resultados esperados podían variar, las hipótesis que se tenían fueron que algunas señas serían acertadas en su totalidad y otras no, razón por la cual en la validación se definieron condiciones para determinar mejor el asertividad del sistema.</p>
<p>Finalmente, la persona intérprete realizó las pruebas de manera objetiva, y una vez se obtuvieron los resultados, se le consultó su opinión sobre la viabilidad del uso de este modelo en un sistema de producción.</p>
<p>Con esta finalidad, se elaboró una lista de actividades y condiciones que se debían cumplir para poder realizar la evaluación del modelo. Estas fueron:</p>
<p>-<bold>Actividad 1:</bold> tomar nuevas imágenes de las personas que ayudaron a construir el repositorio, dentro de un ambiente similar al previamente usado, haciendo de nuevo las señas.</p>
<p>-<bold>Actividad 2:</bold> incluir a la persona intérprete en estas nuevas imágenes realizando las 22 señas.</p>
<p>-<bold>Actividad 3:</bold> en un fólder especifico de Test, crear para cada seña un fólder con el nombre de cada seña y guardar en ellas las imágenes de las 6 personas haciendo estos gestos.</p>
<p>-<bold>Actividad 4:</bold> para simplificar la evaluación, tanto en gestos estáticos como dinámicos, se toma una imagen de cada persona y en secuencia que completen la seña.</p>
<p>-<bold>Actividad 5:</bold> construir en un archivo Excel una matriz de confusión con la seña a realizar y la seña reconocida por el software.</p>
<p>Adicionalmente, incluir el nombre de la persona que realiza el gesto. Separar por cada uno de los modelos a evaluar.</p>
<p>-<bold>Condición 1:</bold> para cada seña evaluada, dado que se trabaja con 6 personas, se aceptará que el software es capaz de reconocer una seña si y solo si el 50 % o más de imágenes evaluadas son acertadas; en otras palabras, si 3 o más personas haciendo la seña son reconocidas correctamente, se puede decir que el software es capaz de reconocer correctamente esa seña.</p>
<p>-<bold>Condición 2:</bold> si una seña es categorizada erróneamente en otra clase que se repite 3 o más veces en las diferentes personas, la clasificación del sistema es errada. Si entra en conflicto con 3 personas categorizadas como correctas se considera una clase errónea.</p>
<p>-<bold>Evaluación:</bold> se considera el porcentaje de asertividad del modelo como la relación entre el número correcto de clases clasificadas sobre el total de clases existentes.</p>
<p>Con base en estas actividades y criterios, se construyeron los fólderes de (<xref ref-type="fig" rid="gf41">Fig. 41</xref>) para que la evaluación fuera más organizada y transversal para todos los modelos, teniendo así el mismo punto de comparación de los modelos obtenidos.</p>
<p>
<fig id="gf41">
<label>Fig. 41.</label>
<caption>
<title>Folder con señas de Test clasificado por gestos</title>
</caption>
<alt-text>Fig. 41. Folder con señas de Test clasificado por gestos</alt-text>
<graphic xlink:href="344263272011_gf42.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Al realizar las pruebas de concepto, se observó que se tienen aciertos y clasificaciones erróneas en las diferentes imágenes. Por ejemplo, al pasar una de las imágenes con la seña de CASA se tiene un acierto correcto de acuerdo con (<xref ref-type="fig" rid="gf42">Fig. 42</xref>).</p>
<p>
<fig id="gf42">
<label>Fig. 42.</label>
<caption>
<title>Seña de CASA de test clasificada correctamente</title>
</caption>
<alt-text>Fig. 42.  Seña de CASA de test clasificada correctamente</alt-text>
<graphic xlink:href="344263272011_gf43.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Sin embargo, si se evalúa una seña como escuchar, se observa en la (<xref ref-type="fig" rid="gf43">Fig. 43</xref>) que se clasificó una imagen específica con otra clase de manera errónea.</p>
<p>
<fig id="gf43">
<label>Fig. 43.</label>
<caption>
<title>Seña de ESCUCHA de test clasificada erróneamente</title>
</caption>
<alt-text>Fig. 43.  Seña de ESCUCHA de test clasificada erróneamente</alt-text>
<graphic xlink:href="344263272011_gf44.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>Por su parte, al evaluar una nueva imagen de otra persona se obtuvieron aciertos como en la clase COLOR de la (<xref ref-type="fig" rid="gf44">Fig. 44</xref>), mientras que con la clase TENERPOSESION se equivocó al clasificarla como YO en (<xref ref-type="fig" rid="gf45">Fig. 45</xref>).</p>
<p>
<fig id="gf44">
<label>Fig. 44.</label>
<caption>
<title>Seña de COLOR de persona nueva de test clasificada correctamente</title>
</caption>
<alt-text>Fig. 44.  Seña de COLOR de persona nueva de test clasificada correctamente</alt-text>
<graphic xlink:href="344263272011_gf45.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<p>
<fig id="gf45">
<label>Fig. 45.</label>
<caption>
<title>Seña de TENERPOSESION de persona nueva de test clasificada erróneamente.</title>
</caption>
<alt-text>Fig. 45.  Seña de TENERPOSESION de persona nueva de test clasificada erróneamente.</alt-text>
<graphic xlink:href="344263272011_gf46.png" position="anchor" orientation="portrait"/>
<attrib>Fuente: elaboración propia.</attrib>
</fig>
</p>
<sec>
<title>
<bold>4.3 Pruebas de los modelos</bold>
</title>
<p>Los resultados obtenidos para cada modelo se resumen a continuación:</p>
<p>
<bold> -Modelo Inicial:</bold> el modelo inicial pudo reconocer 5 de 22 clases y entre ellas pudo predecir con una nueva persona. Algunas señas en donde la cantidad de dedos era la diferencia, tenían ambigüedad (“Hola1”, “Hola2”).  Muchas señas se confundieron por la posición diagonal de los brazos y no fue capaz de realizar diferencias en la parte de las manos. La seña “Gracias” es confundida como imagen base debido a que su pose es un patrón que se repite en las demás.</p>
<p>
<bold> -Modelo Inicial añadiendo Dropout y 2 Capas (convolucionales y MaxPool) más:</bold> este modelo reconoció 15 de 22 clases. Al reconocer una nueva persona la asoció con las señales “Color” y “Yo”, por ende, no fue capaz de detectarla correctamente. Los desaciertos obtenidos los relacionó con 5 clases diferentes de manera distribuida (“Color”, “Profesor”, “TenerPosesión” y “Universidad” y “Yo”).</p>
<p>
<bold> -Modelo Inicial con Dropout y Transfer Learning:</bold> este modelo reconoció 7 señas de 22 clases. No pudo reconocer nuevo rostro y lo asocia con la clase “Yo”. Los demás desaciertos obtenidos se confunden de manera distribuida entre todas las clases del sistema, presentando mayor inclinación con la clase “Yo”.</p>
<p>
<bold> -Modelo con Dropout y Fine Tuning:</bold> este modelo tuvo como acierto solo 5 clases de 22. Para una nueva persona la clasificó entre las clases “Gracias” y “Yo”. La clase “Novio” se clasifico la mitad de las imágenes tanto correctas como erróneas por lo que de acuerdo a la condición establecida no fue acertada. En general, el desacierto de imágenes se estableció entre las clases “Gracias”, “Hola2” y “MuchoGusto”.</p>
<p>Un experimento adicional realizado consistió en tomar las imágenes de prueba y borrar los rostros de las personas, obteniendo que las clases reconocidas son los mismos resultados y descartando el hecho de que los rostros puedan jugar un factor clave en la predicción.</p>
</sec>
</sec>
<sec>
<title>
<bold>4.4  Resultados de las pruebas</bold>
</title>
<p>De los resultados obtenidos, el mejor modelo es el que tomó el modelo base y le agrego un <italic>Dropout</italic> con 2 capas convolucionales más. Al tenerse 15 de 22 clases clasificadas correctamente, la eficiencia del prototipo de software es de un 68 %, lo cual es mejor que un modelo de probabilidad de distribución uniforme donde la eficiencia seria 1 dividido por el número de clases (22 en este caso que es igual a 4,5 %). Aunque este número es muy alto, no llega a un umbral aceptable como lo es igual o superior a 80 %, razón por la cual la persona intérprete no recomienda aún utilizarlo en ambientes productivos hasta que se mejore este número.</p>
<p>A pesar del resultado obtenido, el hecho de que el sistema sea capaz de clasificar nuevas imágenes con un porcentaje mayor al 50 % permite contestar la pregunta planteada para este proyecto. En definitiva, el aprendizaje de maquina sí puede ser usado para construir un software que sea capaz de reconocer señas de la LSC; sin embargo, su calidad dependerá de los datos que se usen para su modelo. Pese a que la cantidad de datos obtenidos con el apoyo de 5 personas dio buenos resultados, se debe contar con más imágenes de muchas más personas, factor muy crítico, ya que la disponibilidad de personas que se presten para este proyecto es compleja.</p>
<p>En comparación con la técnica SVM usada en el trabajo descrito en <xref ref-type="bibr" rid="redalyc_344263272011_ref11">[11]</xref>, se observa que el uso de CNN es mejor, ya que no se realiza tanto preprocesamiento de las imágenes, sino que, por el contrario, el sistema es capaz de detectar automáticamente en los patrones de gestos de las manos y otras partes del cuerpo la definición de cada clase o seña. Comparten en común que las calidades de las imágenes son muy importantes para la calidad del trabajo y que a mayor cantidad de clases la tarea se hace más compleja.</p>
<p>Por su parte, comparado con el trabajo desarrollado en <xref ref-type="bibr" rid="redalyc_344263272011_ref13">[13]</xref>, la cantidad de clases es menor en un tercio. Se comparte en común el construir un repositorio desde ceros, pero la cantidad de cálculos matemáticos más el uso de tecnología de sensores que se utilizaron generan que la técnica empleada en el trabajo descrito sea más engorrosa. Ambos trabajos ofrecen buenos resultados, por lo que hacer mezclas de las técnicas empleadas más los utensilios adicionales empleados permitirán realizar un mayor reconocimiento de señas de este tipo de lenguaje.</p>
<p>Dados los resultados obtenidos de predicción con personas conocidas, este software podría ser usado por entidades que en sus organigramas cuenten con personal de la población sorda. Incluso permitiría que las mismas entidades ya puedan ser más incluyentes con esta población en el mercado laboral sin que hayauna barrera de comunicación entre estas personas y los sistemas de información con ambientes de trabajo similares a los del INSOR.</p>
<p>Por ahora, la opción de SIEL es la más indicada para trabajar la interacción entre personas oyentes y sordas de público en general.</p>
<p>Dado que el lenguaje de señas por su propia naturaleza posee regionalismos en diferentes partes del país, uno de los mayores retos consistió en obtener un repositorio con señas representativas para el contexto colombiano. Para ello se debía contar con el apoyo de una institución gubernamental, como por ejemplo el INSOR. Lo primero que se debía establecer era a qué nivel de detalle se tomarían las muestras de las regiones colombianas, y si se hiciera por regiones naturales o si se hiciera por departamentos.</p>
<p>Sin importar el nivel de detalle escogido, el procedimiento a realizar era el mismo para la construcción del modelo computacional: primero construir el repositorio de imágenes con sus respetivas etiquetas de las palabras o expresiones autóctonas o específicas de la región. Posteriormente, realizar la construcción del modelo usando los mismos algoritmos de entrenamiento que se utilizaron para el prototipo y validar el mismo. Con base en la necesidad del software a implementar se puede construir un prototipo para cada región o uno central donde en su navegabilidad permita seleccionar la región donde se usará. Sin embargo, si una persona de otra región lo usara y ejecuta una seña propia de su región que no se encuentra registrada el sistema, no sería capaz de reconocerlo.</p>
<p>Dado lo anterior, el mejor método a usar es primero designar las regiones de interés y con base en ello seleccionar personal en cada una de ellas encargado de tomar los diferentes datos con los mismos estándares (tamaño de imágenes, luz, resolución de cámara, etc.) y posteriormente, de manera centralizada, construir un solo modelo que aplique para todo el país. Este mismo procedimiento podrá repetirse en otros países hacia futuro.</p>
</sec>
</sec>
<sec>
<title>
<bold>5.   CONCLUSIONES</bold>
</title>
<p>La construcción de un modelo CNN depende de muchos factores, dada su complejidad de manejar múltiples hiperparámetros (número de neuronas por capa, funciones de activación, numero de capas convolucionales, pesos iniciales de las capas y variación del <italic>Learning Rate</italic> modificados en el presente trabajo). En el entrenamiento de las imágenes creadas para el repositorio del presente trabajo, se observó que al aplicar el proceso de <italic>Grid Search </italic>con múltiples pliegues y <italic>Cross Validation</italic>, no todas las funciones de activación responden adecuadamente y que incluso la linealidad no es un factor determinante que asegure la construcción de un buen modelo, como se vio en el caso de la función <italic>Sigmoid </italic>que dio pobres resultados de <italic>Accuracy</italic> mientras que la <italic>Relu</italic> ofreció mejores.</p>
<p>En el momento de evaluar los diferentes modelos, se evidenció que el uso del factor de <italic>Dropout</italic> mejora la medición del <italic>Accuracy</italic> y <italic>Loss</italic> del modelo, demostrando que una CNN totalmente conectada o que una mayor cantidad de conexiones entre capas de las neuronas no aseguran un mejor aprendizaje. También fue muy evidente que, en todos los modelos construidos experimentalmente, el variar el número de capas tiene un comportamiento en común y es que tener más número de capas adicionales al modelo original no fue garantía para mejorar el<italic> Accuracy . Loss</italic> iniciales, sino que, por el contrario, lo degradaban.</p>
<p>Durante la prueba de concepto muchas señas llegaron a confundirse porque sus patrones son muy similares. A diferencia de estados del arte tradicionales, donde lo que se evalúa son las expresiones hechas con las manos, en el LSC el uso de otras partes del cuerpo como los codos, posiciones cruzadas de los brazos, contacto con el mentón o la frente puede llegar a ser un desafío mayor para la detección de patrones usando las técnicas de convolucionales de imágenes o filtros. Aquí juega un papel importante el ambiente construido para obtener las imágenes, ya que a pesar de que se trabajó con luz artificial, la luz solar del ambiente logra generar ruido e impactar en los resultados. Se requeriría contar con un espacio mucho más cerrado y controlado como los ofrecidos en sets de grabación para obtener una mejora considerable.</p>
<p>En este proyecto se usó una pequeña muestra de gestos. Con los resultados obtenidos, y cuando se piense en agregar muchas más señas se requerirán muchos recursos más, no solo a nivel computacional (procesamiento en paralelo de diversas maquinas), sino también de personal, factor que muchas veces es difícil de conseguir por el desconocimiento de la LSC, a nivel poblacional en general. Adicionalmente, la poca voluntad de las personas para conocer este lenguaje y ayudar a construir un repositorio de datos, que en Colombia no existe a la fecha, es una de las mayores barreras que podrían ser solucionadas con programas del Gobierno que permitan sacar adelante este tipo de iniciativas.</p>
<p>A pesar de que cada país, o incluso regiones, cuente con señas propias que impiden que sean universales para todas las personas sordas, el procedimiento aplicado en el presente trabajo es transversal y puede ser replicado en cada contexto social. De acuerdo con la semántica de la lengua, se construirá en cada región el respectivo repositorio, pero los algoritmos usados y simulaciones ejecutadas sí serán las mismas, dando a entender que lo que varía es la fuente de los datos, cuyo insumo es uno de los mayores componentes de este tipo de tecnologías.</p>
<p>A futuro, se espera que este trabajo pueda ser usado para construir no solo reconocimiento de imágenes, sino que además posibilite que las palabras o etiquetas obtenidas permitan obtener una semántica con Procesamiento Natural de Lenguaje PLN con el fin de mejorar la comunicación entre la población sorda y los oyentes.</p>
</sec>
</body>
<back>
<ref-list>
<title>
<bold>REFERENCIAS</bold>
</title>
<ref id="redalyc_344263272011_ref1">
<label>[1]</label>
<mixed-citation>[1] L. M. Rojas-Rojas, N. Arboleda-Toro, y L. J. Pinzón-Jaime, “Caracterización de población con discapacidad visual, auditiva, de habla y motora para su vinculación a programas de pregrado a distancia de una universidad de Colombia”, <italic>Rev. Electrónica Educ.,</italic> vol. 22, no. 1, pp. 1-28, Jan. 2018. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.15359/ree.22-1.6">https://doi.org/10.15359/ree.22-1.6</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Rojas-Rojas</surname>
<given-names>L. M.</given-names>
</name>
<name>
<surname>Arboleda-Toro</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>Pinzón-Jaime</surname>
<given-names>L. J.</given-names>
</name>
</person-group>
<source>Rev. Electrónica Educ.</source>
<year>2018</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.15359/ree.22-1.6">https://doi.org/10.15359/ree.22-1.6</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref2">
<label>[2]</label>
<mixed-citation>[2] Y. M. Cortés Bello, A. G. Barreto Muñoz, “Variación sociolingüística en la lengua de señas colombiana: observaciones sobre el vocabulario deportivo, en el marco de la planificación lingüística” <italic>Forma y Función</italic>, vol. 26, no. 2 pp. 149-170. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://www.scielo.org.co/pdf/fyf/v26n2/v26n2a07.pdf">http://www.scielo.org.co/pdf/fyf/v26n2/v26n2a07.pdf</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Cortés Bello</surname>
<given-names>Y. M.</given-names>
</name>
<name>
<surname>Barreto Muñoz</surname>
<given-names>A. G.</given-names>
</name>
</person-group>
<source>Forma y Función</source>
<year>2013</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="http://www.scielo.org.co/pdf/fyf/v26n2/v26n2a07.pdf">http://www.scielo.org.co/pdf/fyf/v26n2/v26n2a07.pdf</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref3">
<label>[3]</label>
<mixed-citation>[3] Centro de relevo Colombia, Ministerio de Tecnologías de la Información y las Comunicaciones “Servicio de Interpretación en línea SIEL” (s/f). Disponible en: <ext-link ext-link-type="uri" xlink:href="https://centroderelevo.gov.co/632/w3-propertyvalue-15254.html">https://centroderelevo.gov.co/632/w3-propertyvalue-15254.html</ext-link>
</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<collab>Centro de relevo Colombia</collab>
</person-group>
<source>Servicio de Interpretación en línea SIEL” (s/f)</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://centroderelevo.gov.co/632/w3-propertyvalue-15254.html">https://centroderelevo.gov.co/632/w3-propertyvalue-15254.html</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref4">
<label>[4]</label>
<mixed-citation>[4] Centro de relevo Colombia, “Instructivo para la implementación de los servicios de centro de relevo,” (s/f)  Google Docs. [En línea]. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://drive.google.com/file/d/1swrQp_skuDd_fBbVHI0Vu7EWwp4C9UZp/view">https://drive.google.com/file/d/1swrQp_skuDd_fBbVHI0Vu7EWwp4C9UZp/view</ext-link>
</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<collab>Centro de relevo Colombia</collab>
</person-group>
<source>Instructivo para la implementación de los servicios de centro de relevo</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://drive.google.com/file/d/1swrQp_skuDd_fBbVHI0Vu7EWwp4C9UZp/view">https://drive.google.com/file/d/1swrQp_skuDd_fBbVHI0Vu7EWwp4C9UZp/view</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref5">
<label>[5]</label>
<mixed-citation>[5] H.  Ziady, CNN Business “Google's AI system can beat doctors at detecting breast cancer,” Jan. 2020. Accedido: 07-mar-2020.  Disponible en: <ext-link ext-link-type="uri" xlink:href="https://edition.cnn.com/2020/01/02/tech/google-health-breast-cancer/index.html">https://edition.cnn.com/2020/01/02/tech/google-health-breast-cancer/index.html</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Ziady</surname>
<given-names>H.</given-names>
</name>
</person-group>
<source>Google's AI system can beat doctors at detecting breast cancer</source>
<year>2020</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://edition.cnn.com/2020/01/02/tech/google-health-breast-cancer/index.html">https://edition.cnn.com/2020/01/02/tech/google-health-breast-cancer/index.html</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref6">
<label>[6]</label>
<mixed-citation>[6] G. Eryiğit, et al. “Building the first comprehensive machine-readable Turkish sign language resource: methods, challenges and solutions”, <italic>Lang Resources &amp; Evaluation. </italic>Vol. 54. pp. 97–121, Apr. 2019. <ext-link ext-link-type="uri" xlink:href="http://doi.org/10.1007/s10579-019-09465-5">http://doi.org/10.1007/s10579-019-09465-5</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Eryiğit</surname>
<given-names>G.</given-names>
</name>
</person-group>
<source>Lang Resources &amp; Evaluation</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="http://doi.org/10.1007/s10579-019-09465-5">http://doi.org/10.1007/s10579-019-09465-5</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref7">
<label>[7]</label>
<mixed-citation>[7]    R.E.O. Costa, et al. “Towards an open platform for machine translation of spoken languages into sign languages”. <italic>Machine Translation, </italic>vol. 33, pp. 315–348, Aug. 2019. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s10590-019-09238-5">https://doi.org/10.1007/s10590-019-09238-5</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Costa</surname>
<given-names>R.E.O.</given-names>
</name>
</person-group>
<source>Machine Translation</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s10590-019-09238-5">https://doi.org/10.1007/s10590-019-09238-5</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref8">
<label>[8]</label>
<mixed-citation>[8]    V. Kumar Vivek, y S. Srivastava, “Toward Machine Translation Linguistic Issues of Indian Sign Language”. En: Agrawal S., Devi A., Wason R., Bansal P. (eds) Speech and Language <italic>Processing for Human-Machine Communications. Advances in Intelligent Systems and Computing</italic>, vol. 664. Springer, Singapore.  <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-981-10-6626-9_14">https://doi.org/10.1007/978-981-10-6626-9_14</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Kumar Vivek</surname>
<given-names>V.</given-names>
</name>
<name>
<surname>Srivastava</surname>
<given-names>S.</given-names>
</name>
</person-group>
<source>Toward Machine Translation Linguistic Issues of Indian Sign Language</source>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-981-10-6626-9_14">https://doi.org/10.1007/978-981-10-6626-9_14</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref9">
<label>[9]</label>
<mixed-citation>[9]    L. Quesada, G. López, y L. Guerrero, “Automatic recognition of the American sign language fingerspelling alphabet to assist people living with speech or hearing impairments”, J<italic>. Ambient Intell. Humaniz. Comput</italic>., vol. 8, no. 4, pp. 625-635, Mar. 2017.<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s12652-017-0475-7">https://doi.org/10.1007/s12652-017-0475-7</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Quesada</surname>
<given-names>L.</given-names>
</name>
<name>
<surname>López</surname>
<given-names>G.</given-names>
</name>
<name>
<surname>Guerrero</surname>
<given-names>L.</given-names>
</name>
</person-group>
<source>J. Ambient Intell. Humaniz. Comput.</source>
<year>2017</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s12652-017-0475-7">https://doi.org/10.1007/s12652-017-0475-7</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref10">
<label>[10]</label>
<mixed-citation>[10]  J. L. Raheja, A. Mishra, y A. Chaudhary, «Indian sign language recognition using SVM», <italic>Pattern Recognit. Image Anal</italic>., vol. 26, no. 2, pp. 434-441, Jun. 2016.<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1134/S1054661816020164">https://doi.org/10.1134/S1054661816020164</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Raheja</surname>
<given-names>J. L.</given-names>
</name>
<name>
<surname>Mishra</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Chaudhary</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>Pattern Recognit. Image Anal.</source>
<year>2016</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1134/S1054661816020164">https://doi.org/10.1134/S1054661816020164</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref11">
<label>[11]</label>
<mixed-citation>[11]  D. C. García Cortes, “Reconocimiento de Gestos de Manos como Mecanismo de Interacción Humano – Computador” (Tesis de Maestría), Facultad de Ingeniería, Universidad Nacional de Colombia, 2014. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://bdigital.unal.edu.co/46239/1/300497.2014.pdf">http://bdigital.unal.edu.co/46239/1/300497.2014.pdf</ext-link>
</mixed-citation>
<element-citation publication-type="thesis">
<person-group person-group-type="author">
<name>
<surname>García Cortes</surname>
<given-names>D. C.</given-names>
</name>
</person-group>
<source>Reconocimiento de Gestos de Manos como Mecanismo de Interacción Humano – Computador</source>
<year>2014</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="http://bdigital.unal.edu.co/46239/1/300497.2014.pdf">http://bdigital.unal.edu.co/46239/1/300497.2014.pdf</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref12">
<label>[12]</label>
<mixed-citation>[12]  P. Nakjai y T. Katanyukul, “Hand Sign Recognition for Thai Finger Spelling: An Application of Convolution Neural Network”, <italic>J. Signal Process. Syst</italic>., vol. 91, no. 2, pp. 131-146, Apr. 2018. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s11265-018-1375-6">https://doi.org/10.1007/s11265-018-1375-6</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Nakjai</surname>
<given-names>P.</given-names>
</name>
<name>
<surname>Katanyukul</surname>
<given-names>T.</given-names>
</name>
</person-group>
<source>J. Signal Process. Syst.</source>
<year>2018</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s11265-018-1375-6">https://doi.org/10.1007/s11265-018-1375-6</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref13">
<label>[13]</label>
<mixed-citation>[13]  F. Ronchetti, “Reconocimiento de gestos dinámicos y su aplicación al lenguaje de señas”, (Tesis Doctoral), Facultad de Informática, Universidad Nacional de la Plata, Argentina, 2017. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://sedici.unlp.edu.ar/handle/10915/59330">http://sedici.unlp.edu.ar/handle/10915/59330</ext-link>
</mixed-citation>
<element-citation publication-type="thesis">
<person-group person-group-type="author">
<name>
<surname>Ronchetti</surname>
<given-names>F.</given-names>
</name>
</person-group>
<source>Reconocimiento de gestos dinámicos y su aplicación al lenguaje de señas</source>
<year>2017</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="http://sedici.unlp.edu.ar/handle/10915/59330">http://sedici.unlp.edu.ar/handle/10915/59330</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref14">
<label>[14]</label>
<mixed-citation>[14]  O. Koller, H. Ney and R. Bowden, "Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data is Continuous and Weakly Labelled," <italic>2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)</italic>, Las Vegas, 2016, pp. 3793-3802. <ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1109/CVPR.2016.412">http://dx.doi.org/10.1109/CVPR.2016.412</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Koller</surname>
<given-names>O.</given-names>
</name>
<name>
<surname>Ney</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Bowden</surname>
<given-names>R.</given-names>
</name>
</person-group>
<source>Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data is Continuous and Weakly Labelled</source>
<year>2016</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1109/CVPR.2016.412">http://dx.doi.org/10.1109/CVPR.2016.412</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref15">
<label>[15]</label>
<mixed-citation>[15]   M. Mustafa. “A Study on Arabic Sign Language Recognition for Differently Abled Using Advanced Machine Learning Classifiers”. <italic>Journal of Ambient Intelligence and Humanized Computing</italic>, Mar. 2020. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s12652-020-01790-w">https://doi.org/10.1007/s12652-020-01790-w</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Mustafa</surname>
<given-names>M.</given-names>
</name>
</person-group>
<source>Journal of Ambient Intelligence and Humanized Computing</source>
<year>2020</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s12652-020-01790-w">https://doi.org/10.1007/s12652-020-01790-w</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref16">
<label>[16]</label>
<mixed-citation>[16]  S. K. Mishra, S. Sinha, S. Sinha, y S. Bilgaiyan, “Recognition of Hand Gestures and Conversion of Voice for Betterment of Deaf and Mute People,” en <italic>International Conference on Advances in Computing and Data Sciences</italic>, Singapure, 2019, pp. 46–57. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-981-13-9942-8_5">https://doi.org/10.1007/978-981-13-9942-8_5</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Mishra</surname>
<given-names>S. K.</given-names>
</name>
<name>
<surname>Sinha</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Sinha</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Bilgaiyan</surname>
<given-names>S.</given-names>
</name>
</person-group>
<source>Recognition of Hand Gestures and Conversion of Voice for Betterment of Deaf and Mute People</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-981-13-9942-8_5">https://doi.org/10.1007/978-981-13-9942-8_5</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref17">
<label>[17]</label>
<mixed-citation>[17]  P. M. Ferreira, J. S. Cardoso, y A. Rebelo, “On the role of multimodal learning in the recognition of sign language,” <italic>Multimed. Tools Appl.</italic>, vol. 78, no. 8, pp. 10035–10056, Sep. 2018. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s11042-018-6565-5">https://doi.org/10.1007/s11042-018-6565-5</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Ferreira</surname>
<given-names>P. M.</given-names>
</name>
<name>
<surname>Cardoso</surname>
<given-names>J. S.</given-names>
</name>
<name>
<surname>Rebelo</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>Multimed. Tools Appl.</source>
<year>2018</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s11042-018-6565-5">https://doi.org/10.1007/s11042-018-6565-5</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref18">
<label>[18]</label>
<mixed-citation>[18]  Md. Sanzidul Islam, S. S.  Sharmin Mousumi, AKM. S. Azad Rabby, y S. Akhter Hossain. “A Simple and Mighty Arrowhead Detection Technique of Bangla Sign Language Characters with CNN”. En <italic>Recent Trends in Image Processing and Pattern Recognition</italic>, Singapore, 2019. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-981-13-9181-1_38">https://doi.org/10.1007/978-981-13-9181-1_38</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Sanzidul Islam</surname>
<given-names>Md.</given-names>
</name>
<name>
<surname>Sharmin Mousumi</surname>
<given-names>S. S.</given-names>
</name>
<name>
<surname>Azad Rabby</surname>
<given-names>AKM. S.</given-names>
</name>
<name>
<surname>Akhter Hossain</surname>
<given-names>S.</given-names>
</name>
</person-group>
<source>A Simple and Mighty Arrowhead Detection Technique of Bangla Sign Language Characters with CNN</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-981-13-9181-1_38">https://doi.org/10.1007/978-981-13-9181-1_38</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref19">
<label>[19]</label>
<mixed-citation>[19]  Kaggle Inc “Sign Language MNIST Drop-In Replacement for MNIST for Hand Gesture Recognition Tasks version 1”, 2019. Accedido: 15-abr-2019.Disponible en: <ext-link ext-link-type="uri" xlink:href="https://www.kaggle.com/datamunge/sign-language-mnist">https://www.kaggle.com/datamunge/sign-language-mnist</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<collab>Kaggle Inc</collab>
</person-group>
<source>Sign Language MNIST Drop-In Replacement for MNIST for Hand Gesture Recognition Tasks version 1</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://www.kaggle.com/datamunge/sign-language-mnist">https://www.kaggle.com/datamunge/sign-language-mnist</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref20">
<label>[20]</label>
<mixed-citation>[20]  Instituto Nacional para sordos, Insor educativo “Léxico de uso cotidiano” Accedido: 20-oct-2019. Disponible en: <ext-link ext-link-type="uri" xlink:href="http://educativo.insor.gov.co/diccionario/diccionario-cotidiano">http://educativo.insor.gov.co/diccionario/diccionario-cotidiano</ext-link>/</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<collab>Instituto Nacional para sordos</collab>
</person-group>
<source>Léxico de uso cotidiano</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="http://educativo.insor.gov.co/diccionario/diccionario-cotidiano">http://educativo.insor.gov.co/diccionario/diccionario-cotidiano</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref21">
<label>[21]</label>
<mixed-citation>[21]  J. Brownlee “A Gentle Introduction to k-fold Cross-Validation” <italic>Machine Learning Mastery Pty, </italic>2018. Accedido: 19-sep-2019. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://machinelearningmastery.com/k-fold-cross-validation">https://machinelearningmastery.com/k-fold-cross-validation</ext-link>/</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<name>
<surname>Brownlee</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>A Gentle Introduction to k-fold Cross-Validation</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://machinelearningmastery.com/k-fold-cross-validation">https://machinelearningmastery.com/k-fold-cross-validation</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref22">
<label>[22]</label>
<mixed-citation>[22]  A. Schelstraete, “4 Principios para validar cualquier prototipo,” Medium, Accedido: 11-Abr-2019. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://medium.com/@ashera/4-principios-para-validar-cualquier-prototipo-b3329ef7ab32">https://medium.com/@ashera/4-principios-para-validar-cualquier-prototipo-b3329ef7ab32</ext-link>
</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<name>
<surname>Schelstraete</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>4 Principios para validar cualquier prototipo</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://medium.com/@ashera/4-principios-para-validar-cualquier-prototipo-b3329ef7ab32">https://medium.com/@ashera/4-principios-para-validar-cualquier-prototipo-b3329ef7ab32</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_344263272011_ref23">
<label>[23]</label>
<mixed-citation>[23]  M. Timney, “Building Better Products through Prototype Validation”, InVisionApp Inc. 2015. Disponible en: <ext-link ext-link-type="uri" xlink:href="https://www.invisionapp.com/inside-design/building-better-products-through-prototype-validation">https://www.invisionapp.com/inside-design/building-better-products-through-prototype-validation</ext-link>/</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Timney</surname>
<given-names>M.</given-names>
</name>
</person-group>
<source>Building Better Products through Prototype Validation</source>
<year>2015</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://www.invisionapp.com/inside-design/building-better-products-through-prototype-validation">https://www.invisionapp.com/inside-design/building-better-products-through-prototype-validation</ext-link>
</comment>
</element-citation>
</ref>
</ref-list>
<fn-group>
<fn id="fn9" fn-type="other">
<p>
<bold> CONTRIBUCION DE LOS AUTORES </bold>
</p>
<p>
<sup> 1</sup> Se encargó del desarrollo y definición de la metodología, adquisición de los datos, construcción de los modelos, evaluación y prueba de los mismos al igual que el desarrollo del prototipo a utilizar. Coordinación y gestión del equipo de personas que ayudaron a construir el repositorio de imágenes correspondientes.</p>
<p>
<sup> 2</sup> Se encargó del apoyo en la conceptualización de la problemática, definición y evaluación de la metodología. Revisión de la escritura y correcciones técnicas correspondientes con el desarrollo de los modelos a desarrollar, así como sugerir técnicas para la mejora de imágenes y datos adquirir. Apoyo en las correcciones de metodología, presentación y estilo en el manuscrito.</p>
</fn>
</fn-group>
</back>
</article>