En esta tesis se presenta el diseño de un esquema para la integración de un robot NAO con sistemas embebidos basados en FPGA y GPU que ejecutan una CNN, con el fin de lograr el mejoramiento de la percepción visual del humanoide, manteniendo su autonomía y libre desplazamiento en su entorno. Este esquema, se basó en el uso de herramientas de software que posteriormente se conectan a los sistemas embebidos a través de una conexión Ethernet. Para cada uno de los sistemas utilizados se realiza la evaluación de desempeño teniendo en cuenta métricas como la precisión de la CNN, tiempo de inferencia y consumo de potencia. Se evalúan diferentes frameworks de aceleración de CNN sobre sistemas basados en FPGA o GPU, lo que abre la posibilidad a hacer uso de diferentes tarjetas de desarrollo. En este trabajo fue utilizado Vitis AI, el cual es el framework más reciente de Xilinx para la aceleración de CNNs.