Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps

Salazar, Isail; Pertuz, Said; Martínez , Fabio

dc.contributor.author	Salazar, Isail
dc.contributor.author	Pertuz, Said
dc.contributor.author	Martínez , Fabio
dc.date.accessioned	2021-04-21T16:55:18Z
dc.date.available	2021-04-21T16:55:18Z
dc.date.issued	2020-05-15
dc.identifier	https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1538
dc.identifier	10.22430/22565337.1538
dc.identifier.uri	http://hdl.handle.net/20.500.12622/4616
dc.description.abstract	Los algoritmos clásicos de segmentación de imágenes explotan la detección de similitudes y discontinuidades en diferentes señales visuales, para definir regiones de interés en imágenes. Sin embargo, debido a la alta variabilidad e incertidumbre en los datos de imagen, se dificulta generar resultados acertados. En otras palabras, la segmentación basada solo en color a menudo no es suficiente para un gran porcentaje de escenas reales. Este trabajo presenta una nueva estrategia de segmentación multi-modal que integra señales de profundidad y apariencia desde imágenes RGB-D, por medio de una representación jerárquica basada en regiones, es decir, un árbol de segmentación multi-modal (MM-tree). Para ello, la imagen RGB-D es descrita de manera complementaria por diferentes mapas de segmentación. A partir de la imagen de color, se implementa un árbol de segmentación de color (C-tree) para obtener mapas de segmentación y sobre-segmentación. Desde de la imagen de profundidad, se derivan dos mapas de segmentación independientes, los cuales se basan en el cálculo de primitivas de planos y de bordes 3D. Seguidamente, un proceso de fusión jerárquico de regiones permite agrupar de manera local los mapas obtenidos anteriormente en el MM-tree. Por último, el nivel superior emergente del MM-tree integra coherentemente la información disponible en los mapas de profundidad y apariencia. Los experimentos se realizaron con el conjunto de imágenes RGB-D del NYU-Depth V2, evidenciando resultados competitivos, con respecto a los métodos de segmentación del estado del arte. Específicamente, en las imágenes de prueba, se obtuvieron puntajes promedio de 0.56 en la medida de Segmentation Covering y 2.13 en Variation of Information.	spa
dc.format.mimetype	application/pdf
dc.language.iso	spa
dc.language.iso	eng
dc.publisher	Instituto Tecnológico Metropolitano - ITM	spa
dc.relation	https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1538
dc.relation	10.22430/22565337.1538
dc.rights	Copyright (c) 2020 TecnoLógicas	spa
dc.rights	http://creativecommons.org/licenses/by-nc-sa/4.0	spa
dc.source	2256-5337
dc.source	0123-7799
dc.source	TecnoLógicas; Vol. 23 No. 48 (2020); 143-161	eng
dc.source	TecnoLógicas; Vol. 23 Núm. 48 (2020); 143-161	spa
dc.subject	Segmentación de imágenes	spa
dc.subject	sobre-segmentación	spa
dc.subject	imágenes RGB-D	spa
dc.subject	información de profundidad	spa
dc.subject	segmentación multi-modal	spa
dc.title	Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps	spa
dc.title.alternative	Segmentación multi-modal de imágenes RGB-D a partir de mapas de apariencia y de profundidad geométrica	eng
dc.type.spa	Artículos	spa
dc.subject.keywords	Image segmentation	eng
dc.subject.keywords	over-segmentation	eng
dc.subject.keywords	RGB-D images	eng
dc.subject.keywords	depth information	eng
dc.subject.keywords	multi-modal segmentation	eng
dc.type	info:eu-repo/semantics/article
dc.type	info:eu-repo/semantics/publishedVersion
dc.type	Articles	eng
dc.relation.ispartofjournal	TecnoLógicas
dc.description.abstractenglish	Classical image segmentation algorithms exploit the detection of similarities and discontinuities of different visual cues to define and differentiate multiple regions of interest in images. However, due to the high variability and uncertainty of image data, producing accurate results is difficult. In other words, segmentation based just on color is often insufficient for a large percentage of real-life scenes. This work presents a novel multi-modal segmentation strategy that integrates depth and appearance cues from RGB-D images by building a hierarchical region-based representation, i.e., a multi-modal segmentation tree (MM-tree). For this purpose, RGB-D image pairs are represented in a complementary fashion by different segmentation maps. Based on color images, a color segmentation tree (C-tree) is created to obtain segmented and over-segmented maps. From depth images, two independent segmentation maps are derived by computing planar and 3D edge primitives. Then, an iterative region merging process can be used to locally group the previously obtained maps into the MM-tree. Finally, the top emerging MM-tree level coherently integrates the available information from depth and appearance maps. The experiments were conducted using the NYU-Depth V2 RGB-D dataset, which demonstrated the competitive results of our strategy compared to state-of-the-art segmentation methods. Specifically, using test images, our method reached average scores of 0.56 in Segmentation Covering and 2.13 in Variation of Information.	eng
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.type.coar	http://purl.org/coar/resource_type/c_6501

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Vol. 23 Núm. 48 (2020) [15]

Show simple item record