Recibido: incluir fecha
Aceptado: incluir fecha
Disponible: incluir fecha
El cáncer de mama es una de las principales causas de muerte en mujeres en el mundo, por lo que su detección de forma temprana se ha convertido en una prioridad para salvar vidas. Para el diagnóstico de este tipo de cáncer existen técnicas como la imagen de resonancia magnética dinámica con realce de contraste (DCE-MRI, por sus siglas en inglés), la cual usa un agente de contraste para realzar las anomalías en el tejido de la mama, lo que mejora la detección y caracterización de posibles tumores. Como limitación, los estudios de DCE-MRI suelen tener un costo alto, hay poca disponibilidad de equipos para realizarlos, y en algunos casos los medios de contraste pueden generar efectos adversos por reacciones alérgicas. Considerando lo anterior, este trabajo tuvo como objetivo el uso de modelos de aprendizaje profundo para la generación de imágenes sintéticas postcontraste en estudios de DCE-MRI. La metodología consistió en el desarrollo de una función de costo denominada pérdida en las regiones con realce de contraste que aprovecha el comportamiento de la captación del agente de contraste. Como resultado se entrenaron dos nuevas arquitecturas de aprendizaje profundo, las cuales hemos denominado G-RiedGAN y D-RiedGAN, para la generación de imágenes postcontraste en estudios de DCE-MRI, a partir de imágenes precontraste. Finalmente, se concluye que las métricas proporción máxima señal ruido, índice de similitud estructural y error absoluto medio muestran que las arquitecturas propuestas mejoran el proceso de síntesis de las imágenes postcontraste preservando mayor similitud entre las imágenes sintéticas y las imágenes reales, esto en comparación con los modelos base en el estado del arte.
Palabras clave: Cáncer de mama, imagen médica, resonancia magnética, generación de imagen postcontraste, aprendizaje profundo.
Breast cancer is one of the leading causes of death in women in the world, so its early detection has become a priority to save lives. For the diagnosis of this type of cancer, there are techniques such as dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI), which uses a contrast agent to enhance abnormalities in breast tissue, which improves the detection and characterization of possible tumors. As a limitation, DCE-MRI studies are usually expensive, there is little equipment available to perform them, and in some cases the contrast medium can generate adverse effects due to an allergic reaction. Considering all of the above, the aim of this work was to use deep learning models for the generation of postcontrast synthetic images in DCE-MRI studies. The proposed methodology consisted of the development of a cost function, called CeR-Loss, that takes advantage of the contrast agent uptake behavior. As a result, two new deep learning architectures were trained, which we have named G-RiedGAN and D-RiedGAN, for the generation of postcontrast images in DCE-MRI studies, from precontrast images. Finally, it is concluded that the peak signal-to-noise ratio, structured similarity indexing method, and mean absolute error metrics show that the proposed architectures improve the postcontrast image synthesis process, preserving greater similarity between the synthetic images and the real images, compared to the state-of-the-art base models.
Keywords: Breast cancer, diagnostic imaging, magnetic resonance imaging, postcontrast image generation, deep learning.
El cáncer de mama es una enfermedad crónica no transmisible y uno de los principales problemas de investigación en salud pública en el mundo debido a sus altas tazas de incidencia
En general, el cáncer de mama se puede clasificar en cinco tipos principales
El tratamiento y el pronóstico dependen del tipo y de las características específicas del cáncer de mama. No obstante, la detección temprana y el tratamiento oportuno son esenciales evitar complicaciones, mejorar el pronóstico del paciente y reducir las tasas de mortalidad
Cuando la mamografía o el ultrasonido no son concluyentes, se usan exámenes más especializados que requieren la aplicación, vía intravenosa, de un compuesto químico denominado agente de contraste
En el caso de DCE-MRI se usan ondas magnéticas para captar la absorción del agente de contraste en el tiempo, el cual reacciona de manera acelerada en los tejidos con posibles lesiones
A pesar de sus ventajas, estos exámenes están limitados por su costo, por el prolongado tiempo de adquisición y por la escasez de equipos para su realización. Adicionalmente, el agente de contraste puede provocar reacciones alérgicas o adversas en los pacientes
Entre la búsqueda de soluciones a estas limitaciones, múltiples trabajos han mostrado el potencial uso de redes neuronales de aprendizaje profundo para la generación de imágenes sintéticas que pueden replicar el efecto del agente de contraste, sin la utilización de este
En este trabajo se propuso como contribución una función de costo denominada CeR-Loss, la cual aprovecha el comportamiento de la captación del agente de contraste para generar imágenes sintéticas postcontraste a partir de imágenes precontraste en estudios de DCE-MRI. Esta función se usa en dos nuevas arquitecturas de aprendizaje profundo, que hemos denominado G-RiedGAN y D-RiedGAN, las cuales centran su atención en las regiones de realce de contraste para mejorar el proceso de generación de las imágenes sintéticas postcontraste.
En general, el aprendizaje profundo es una rama del aprendizaje de máquinas basado en el uso de redes neuronales artificiales. Estas últimas se crean a partir de la interconexión de capas de neuronas artificiales que tienen la capacidad de auto ajustarse en función de la entrada y la cantidad de datos que procesan
Los modelos para la síntesis de imágenes se pueden agrupar, de manera general, en dos: los autoencoders y las redes generativas adversarias (GAN, por sus siglas en inglés). Los autoencoders son arquitecturas que tienen dos partes, un codificador cuyo objetivo es reducir la dimensionalidad de los datos de entrada para aprender la representación abstracta (o latente) de su distribución; y un decodificador que reconstruye la información desde el espacio latente a un espacio de mayor dimensión
Las arquitecturas GAN se componen de un generador y un discriminador. Por un lado, el generador es una red convolucional que intenta aprender la distribución latente de los datos reales para generar información sintética a partir de una muestra de ruido aleatorio. Por otro lado, el discriminador es una red convolucional complementaria que se comporta como un experto que diferencia entre la información real y la sintética. El entrenamiento de ambas redes se realiza de manera adversaria, así, el generador busca mejorar el proceso de generación para engañar al discriminador, mientras que este último busca mejorar su experticia para no dejarse engañar por el generador. Este aprendizaje adversario es lo que le otorga el nombre a esta arquitectura
Ambos tipos de arquitecturas generativas se han utilizado en el ámbito médico y en el contexto de ayuda al diagnóstico de cáncer de mama, los métodos de síntesis de imagen se pueden usar para generar imágenes postcontraste a partir de imágenes precontraste en estudios de DCE-MRI y CEDM. A esta aplicación se le conoce como cambio de dominio y consiste en transformar una imagen , que es la imagen precontraste, a otra imagen similar , que es la imagen postcontraste
Dando continuación al trabajo anterior, en
En cuanto al uso de estudios de DCE-MRI para la detección de cáncer de mama, los autores en
Igualmente, en
En
Respecto a la síntesis en otras modalidades de imagen, en
En un contexto diferente al diagnóstico de cáncer de mama, en
A pesar de que existen diferentes trabajos que proponen modelos generativos para la síntesis de imágenes diagnósticas para la detección del cáncer de mama, aún se evidencian algunas limitaciones. Esto se debe en cierta medida a que las imágenes de mama poseen una mayor variabilidad en densidad de tejido, lo cual implica que, al trabajar con los agentes de contraste mediante los modelos generativos, existan algunas restricciones debido a que la visualización de dicho agente de contraste disminuye en función de la intensidad de los pixeles.
En la contribución de soluciones al problema de generación sintética de imágenes diagnósticas para la detección del cáncer de mama, en este trabajo se propone una arquitectura denominada D-RiedGAN que sigue el enfoque de una arquitectura Pix2Pix con bloques de incepción residual, pero que centra su atención en las regiones de realce de contraste en estudios de DCE-MRI.
El desarrollo metodológico de este trabajo parte de la implementación de una línea base de tres modelos para sintetizar imágenes de respuesta temprana al medio de contraste, ponderadas en T1 con saturación de grasa, en estudios de DCE-MRI. A partir de la línea base se crean dos arquitecturas ensambladas y se propone dos nuevas arquitecturas, denominadas G-RiedGAN y D-RiedGAN. En general, los modelos generativos utilizados en este trabajo se entrenan para que, a partir de una imagen sin contraste ., se generen imágenes sintéticas postcontraste 𝑦̂ = 𝐺(𝑥). El objetivo es que el modelo generador 𝐺(𝑥) aprenda a generar la respuesta temprana al medio de contraste y, por tanto, hacer que las imágenes sintéticas sean similares a las imágenes reales postcontraste y.
Los modelos convencionales para la síntesis de imágenes han mostrado importantes avances en el área de procesamiento de imágenes naturales. Sin embargo, también han mostrado múltiples limitaciones, especialmente al tratarse de imágenes especializadas como las imágenes médicas. Para solventar estas limitaciones, este trabajo propone un esquema que integra una función de costo que induce la información de las regiones de realce de contraste durante el entrenamiento. El objetivo de esta función es orientar el proceso de síntesis a la correcta generación del realce de contraste en las imágenes postcontraste.
En términos de intensidad de los píxeles, el realce producido por el agente de contraste se puede identificar a partir de las intensidades más altas en la imagen postcontraste. Específicamente, para detectar los píxeles con mayores niveles de intensidad en la imagen postcontraste se utiliza una estrategia de umbralización global, tal y como se muestra en (1) en donde y(i, j) es el píxel en la posición (i, j) en la imagen postcontraste y T es el valor del umbral.
(1)Por la sensibilidad del parámetro T, respecto a las variaciones de intensidades en las imágenes de diferentes estudios de DCE-MRI, este parámetro se fija para cada imagen utilizando el percentil 90 de su histograma. Es decir, se mantienen como regiones de realce de contraste el 10 % de los píxeles de la imagen con mayor intensidad. Después, se emplean las operaciones morfológicas de cierre y apertura para suavizar los contornos y eliminar pequeñas brechas entre regiones adyacentes. Ambas operaciones se aplican utilizando un elemento estructurante con forma circular de 7x7 píxeles. Este algoritmo se aplica tanto a la imagen sintética postcontraste, como a la imagen real postcontraste, y se les denominan máscaras de realce de contraste real (Fy) y sintetizada (FG(x)).
Una vez estimadas las regiones con realce de contraste, se propone una función de costo con el fin de minimizar las diferencias entre esas regiones de las imágenes reales y de las sintetizadas. Dado que las regiones de realce de contraste son de tipo binario, optimizarlas implica emplear una función de costo basada en similitud de conjuntos, como lo es el índice de Jaccard
(2)Como el índice de Jaccard no es una función convexa ni derivable, su optimización usando el algoritmo de gradiente descendente, en el contexto de las redes neuronales, puede llevar a soluciones subóptimas o incluso a errores de convergencia. De acuerdo con
(3)Donde, 𝑔𝑖(𝑚) = ∆({𝜋1.. . . 𝜋𝑖 }) − ∆({𝜋1.. . . 𝜋𝑖−1}) siendo 𝜋 una permutación en orden de los componentes de 𝑚 en orden descendente. Naturalmente, ∆̅ es la función cerrada estricta de ∆, es linear por partes e interpola los valores de ∆ en 𝑅𝑝. Finalmente, para calcular la función surrogada de Lovasz del índice de Jaccard en (2) (∆̅ 𝐽𝑐) se utiliza (4)
(4)En donde 𝑓(𝑦, 𝑦∗) corresponde a la función que permite estimar el vector de errores m a partir de las máscaras de contraste real generada después de aplicar la función softmax. Por último, con el fin de evitar las variaciones por dependencia del tamaño del batch y el número de clases, se busca optimizar la función 𝐿𝑜𝑣𝑎𝑠𝑧 a través de la combinación de esta con la entropía cruzada binaria (BCE, por sus siglas en inglés) descrita en (5) tal como lo sugieren los autores en
(5)Finalmente, para optimizar los modelos propuestos se usa una función de costo que combina la BCE y la extensión subrogada de Lovasz sobre las regiones de realce de contraste, cuya tarea es optimizar la síntesis de esas regiones. Esta función se presenta en (6) y se ha denominado CeR-Loss.
(6)Con base en los elementos antes descritos, la Figura 1a muestra la arquitectura general del primer modelo propuesto, denominado G-RiedGAN. Esta arquitectura integra, después del generador, el filtro para la detección de las regiones de realce del contraste con el que se busca retroalimentar al generador y guiar su aprendizaje para que replique el realce de contraste. En este caso se mantiene inmutable el discriminador PatchGAN, cuya tarea es identificar si el par de imágenes precontraste y postcontraste son reales o sintetizadas. La (7) presenta la función de pérdida del generador de la G-RiedGAN. Esta función considera la pérdida general causada por la diferencia a nivel de pixeles entre la imagen real y la imagen generada y también la pérdida generada entre las regiones de realce de contraste (CeR-Loss) de esas imágenes.
(7)Por otra parte, denominamos D-RiedGAN a la arquitectura que incluye la diferencia entre las regiones de realce de contraste tanto en el generador como en el discriminador. Esto permite que el generador incremente su atención en esas regiones, al considerarlas en la contraparte adversaria, lo que ayuda a mejorar la calidad de las síntesis del modelo. La arquitectura D-RiedGAN se presenta en la Figura 1b.
Para realizar el aprendizaje adversario, el discriminador de la D-RiedGAN se modifica para recibir una tripleta de imágenes: la imagen de entrada, la imagen sintética o real y las regiones de realce de contraste de la imagen real o de la imagen sintética. Así, (8) y (9) definen las funciones de pérdida del generador y del discriminador de la D-RiedGAN, respectivamente, las cuales incluyen la pérdida de las regiones de realce de contraste (CeR-Loss).
(8)
(9Como modelos de línea base para la evaluación de nuestro modelo se usaron las arquitecturas Pix2Pix
Pix2Pix 31] Es una arquitectura que utiliza información condicional para guiar el proceso de generación, lo que significa que genera una imagen de un dominio a partir de una imagen de entrada que pertenece a otro dominio. La arquitectura Pix2Pix consta de un generador tipo U-Net, un discriminador PatchGAN y una función objetivo que combina la pérdida adversaria que ayuda a que las imágenes generadas traten de ser indistinguibles de las reales, con una pérdida al nivel de los píxeles, que busca que haya una coherencia en el contenido entre la imagen generada y la imagen real. Una de las ventajas discutidas en la literatura de esta arquitectura es que preserva los detalles finos de las imágenes en el proceso de generación, lo que es crucial para la generación de imágenes postcontraste.
RiedNet
A diferencia de las dos arquitecturas anteriores, Ea-GAN
Considerando estas arquitecturas de base, y partiendo de la premisa que su fusión puede mejorar el proceso de síntesis, se procedió a realizar un ensamble entre ellas. El primer ensamble, al que hemos denominado RiedGAN, integra a la arquitectura RiedNet un discriminador tipo PatchGAN, esto con el fin de mejorar el proceso de síntesis utilizando un esquema de aprendizaje adversario. Sustancialmente, el cambio principal en esta red, con respecto a la Pix2Pix original, es la estructura del generador, el cual en lugar de usar un generador tipo U-Net tradicional, usa el generador tipo U-Net de la arquitectura RiedNet.
Partiendo de la idea del uso de los mapas de bordes de la arquitectura Ea_GAN, también se integró el uso de los mapas de bordes a la arquitectura RiedGAN. Este ensamble generó dos modelos, el primero denominado gEa-RiedGAN, en el que se integran los mapas de bordes en el generador de la RiedGAN, y el segundo llamado dEa-RiedGAN, el cual integra la información de los mapas de bordes tanto en el generador como en el discriminador.
Para validar la calidad de las imágenes sintéticas generadas se utilizaron las métricas cuantitativas más comunes en la literatura: Error absoluto medio (MAE, por sus siglas en inglés), proporción máxima señal ruido (PSNR, por sus siglas en inglés) y el índice de similitud estructural (SSIM, por sus siglas en inglés). El MAE estima la diferencia píxel a píxel entre las intensidades de un par de imágenes calculando el promedio entre esas diferencias. Así, para una imagen real , y una imagen generada 𝐺(𝑥) ambas de tamaño 𝑚 𝑥 𝑛 píxeles, el MAE se calcula como indica (10) En este caso, un MAE bajo indica un error menor entre la imagen sintetizada y la imagen de referencia. Valores cercanos a 0 son ideales, indicando una alta precisión. Por otro lado, un MAE alto indica un mayor error entre la imagen sintetizada y la imagen de referencia. Esto sugiere una baja precisión en la síntesis de la imagen.
(10)El PSNR es una métrica empleada para definir la relación entre la máxima energía que emite una señal de cualquier tipo, y el ruido que afecta la representación de dicha señal, siendo su unidad de medida los decibeles (dB)
(11)El SSIM considera que los píxeles tienen fuertes interdependencias, especialmente cuando están cerca. Estas dependencias contienen información sobre luminancia, contraste y estructura de los objetos en la imagen y se pueden estimar de manera conjunta como indica (12)
(12)Por último, los mapas de diferencia se calculan entre una imagen generada y una imagen real, donde se comparan píxeles individuales para evaluar la discrepancia entre ellos. Para calcular estos mapas, se empleó (13) Esta fórmula describe un proceso en el que se analizó cada píxel de las imágenes, y se calculó la diferencia en intensidad entre el mismo píxel en otra imagen. Cada píxel en una imagen tiene un valor que representa su intensidad, la comparación de píxeles implica restar el valor del píxel correspondiente en una imagen del valor del mismo píxel en otra imagen. El propósito de esta comparación es cuantificar y visualizar las diferencias entre las imágenes.
(13)Los resultados reportados en este trabajo fueron obtenidos bajo la configuración experimental descrita en la Tabla 1. Esta tabla muestra los valores de los hiperparámetros usados en los diferentes modelos y ajustados según las capacidades de cómputo disponibles. Los experimentos se ejecutaron en una estación de trabajo con una CPU Intel Xeon Silver 4108 y una GPU NVIDIA Quadro P2000, con memoria 4GB. Se emplea lenguaje de programación Python versión 3.8 con una versión Pytorch 2.0.
| Modelo | Tamaño de Batch | Número de épocas | Optimizador | Taza de aprendizaje | Valor | Valor | Activación Salida |
| RiedNet | 4 | 100 | Adam | 0.0002 | N/A | - | Linear |
| Pix2Pix | 1 | 100 | Adam | 0.0002 | 100 | - | TanH |
| gEa-GAN | 1 | 100 | Adam | 0.0002 | 300 | 300 | Sigmoide |
| dEa-GAN | 1 | 100 | Adam | 0.0002 | 300 | 300 | Sigmoide |
| RiedGAN | 4 | 100 | Adam | 0.0002 | 100 | - | TanH |
| gEa-RiedGAN | 1 | 100 | Adam | 0.0002 | 100 | 300 | TanH |
| dEa-RiedGAN | 1 | 100 | Adam | 0.0002 | 100 | 300 | TanH |
| G-RiedGAN | 1 | 100 | Adam | 0.0002 | 100 | 150 | TanH |
| D-RiedGAN | 1 | 100 | Adam | 0.0002 | 100 | 150 | TanH |
Para el entrenamiento de los modelos se utilizó una base de datos privada, retrospectiva, y anonimizada de estudios de DCE-MRI de 197 pacientes. Cada estudio contiene imágenes estructurales potenciadas en T1 y T2, imágenes de difusión (DWI), y de DCE (6 dinámicos). Para este trabajo se tomó la respuesta en la secuencia T1 con saturación de grasa antes de la aplicación de medio de contraste (𝑥) y esta misma imagen con la aplicación posterior del medio de contraste en etapa temprana (𝑦). Debido a la naturaleza retrospectiva de la base de datos, se seleccionaron estudios con distintos tipos de resonadores de 1.5T, con compuestos basados en gadolinio, y con dosis entre 0.014 y 0.016 ml/mol. Estos estudios también cuentan con al menos una anomalía (benigna o maligna) anotada por expertos radiólogos usando el sistema BIRADS. La selección de los estudios se hizo manteniendo un número balanceado entre los estudios benignos y malignos.
Dado que este trabajo se centra en la síntesis de las regiones de contraste, se seleccionaron aquellas imágenes en las cuales se anotan las regiones con el fin de asegurar el comportamiento de la captación. Como resultado, se obtienen 937 imágenes normalizadas en el rango [-1, 1], de las cuales 718 se usaron para el entrenamiento y 219 para la validación. Las imágenes, que originalmente tenían resoluciones desde 480x480 píxeles hasta 512x512 píxeles fueron todas redimensionadas a un tamaño de 240x240 píxeles.
La Figura 2 presenta una comparación gráfica del PSNR, SSIM y MAE obtenidos por los modelos sobre el conjunto de imágenes de validación. El gráfico muestra que los modelos G-RiedGAN y D-RiedGAN, propuestos en este trabajo, son los que obtienen el mejor desempeño. Esto indica que la estrategia de considerar las regiones de realce de contraste en el proceso de síntesis de las imágenes, a través de la función CeR-Loss, mejora la calidad de las imágenes sintéticas en función de las métricas cuantitativas.
Aunque G-RiedGAN y D-RiedGAN presentan un desempeño ligeramente inferior en MAE comparado con RiedGAN, la reducción en el MAE para D-RiedGAN es marginal y se ve compensada por mejoras significativas en PSNR y SSIM. Esto sugiere que, aunque RiedGAN tiene una precisión ligeramente mayor en el promedio de los errores de píxeles individuales, genera imágenes más borrosas en las estructuras internas, lo cual es menos adecuado para la síntesis de imágenes médicas.
En comparación con Pix2Pix
Por otro lado, la Figura 3 muestra algunas imágenes postcontraste reales y generadas a partir de su contraparte sin contraste. En general, es posible evidenciar que los modelos logran generar de manera eficiente las estructuras anatómicas de mayor tamaño, salvo algunas diferencias notorias entre las intensidades de las estructuras de la caja torácica. A pesar de esto, es notable que los modelos G-RiedGAN y D-RiedGAN sintetizan las regiones de realce de contraste de manera superior en comparación con modelos de referencia como RiedNet
Debido a que la función de costo propuesta en este trabajo, denominada CeR-Loss, es el componente más importante de la arquitectura D-RiedGAN, la cual además es la que permite que el modelo obtenga los mejores resultados en comparación con los demás modelos, se realiza una prueba experimental con el fin de determinar el impacto de esta función en el entrenamiento del modelo. En este sentido, se adopta la misma configuración de la arquitectura D-RiedGAN presentada en la sección anterior, pero se varían los parámetros 𝜆𝑙1 y 𝜆𝐿𝑜𝑣𝑎𝑠𝑧 de manera en que se mantiene por encima el 𝜆𝐿𝑜𝑣𝑎𝑠𝑧 en todos los casos. La Figura 5 muestra tres experimentos, para 𝜆𝑙1 = 20 y 𝜆𝐿𝑜𝑣𝑎𝑠𝑧 = 30; 𝜆𝑙1 = 40 y 𝜆𝐿𝑜𝑣𝑎𝑠𝑧 = 60; y 𝜆𝑙1 = 100 y 𝜆𝐿𝑜𝑣𝑎𝑠𝑧 = 150.
La Figura 5 muestra que para las métricas MAE y PSNR existe una tendencia positiva que mejora los resultados de esas métricas a medida que los valores de 𝜆𝑙1 y 𝜆𝐿𝑜𝑣𝑎𝑠𝑧 incrementan, obteniendo su mejor desempeño cuando 𝜆𝑙1 = 100 y 𝜆𝐿𝑜𝑣𝑎𝑠𝑧 = 150. Esto confirma el aporte positivo en los resultados por parte de la función de costo CeR-Loss.
En este trabajo se propuso una función de costo denominada CeR-Loss, la cual aprovecha el comportamiento de la captación del agente de contraste para generar imágenes sintéticas postcontraste a partir de imágenes precontraste en estudios de DCE-MRI. Esta función se usa en dos nuevas arquitecturas de aprendizaje profundo, que hemos denominado G-RiedGAN y D-RiedGAN, las cuales centran su atención en las regiones de realce de contraste para mejorar el proceso de generación de las imágenes sintéticas postcontraste. Estas arquitecturas establecen un aporte hacia la eliminación del uso de agentes de contraste y a la reducción del costo de los estudios de DCE-MRI usados como ayuda para la detección del cáncer de mama.
Las arquitecturas G-RiedGAN y D-RiedGAN que se proponen este trabajo integran elementos de las arquitecturas RIED-Net y Pix2Pix bajo la estructura de la arquitectura EaGAN. A diferencia de esta última, la D-RiedGAN integra un filtro para la detección de las regiones de realce de contraste que son las zonas clave de la síntesis en el problema de análisis de imágenes de DCE-MRI para la detección y diagnóstico del cáncer de mama. Las regiones de contraste detectadas en la imagen sintética se usan para guiar el aprendizaje de la red a partir de la función de pérdida Lovász y BCE integradas a la función de pérdida del generador y del discriminador (CeR-Loss).
La evaluación comparativa se realizó teniendo en cuenta dos enfoques. El primero comparó los modelos propuestos con la función CeR-Loss, contra los modelos base del estado del arte y un grupo de modelos ensamblados. Los resultados, considerando las métricas MAE, PSNR y SSIM, muestran que los modelos propuestos obtienen un mejor desempeño en la síntesis de las regiones de realce de contraste en términos del ruido y borrosidades. El segundo enfoque evaluó el impacto de la función de pérdida CeR-Loss en el proceso de aprendizaje. Los resultados, en términos de las mismas métricas, muestran un impacto positivo en la síntesis de las regiones de contraste a medida que se pondera con un valor mayor la función CeR-Loss.
Si bien la validación se realizó utilizando solo métricas cuantitativas basadas en las intensidades de los píxeles de las imágenes sintéticas, se reconoce la necesidad de a futuro hacer una validación cualitativa con radiólogos expertos para determinar la validez diagnóstica de estas imágenes. Como trabajo futuro, se sugiere realizar un análisis sobre cómo los modelos de línea base y los modelos propuestos se comportan al entrenarse con bases de datos de imágenes heterogéneas en términos de la calidad de los estudios (0.5T, 1.5T, 3T y 7T), dosis y medios de contraste diferentes. Igualmente, consideramos que las imágenes sintéticas postcontraste generadas podrían tener un impacto positivo en el entrenamiento de modelos de detección y clasificación de cáncer de mama utilizando imágenes de estudios de MRI convencionales, puesto que estas imágenes pueden brindan información adicional para entrenar esos modelos de clasificación.
Este trabajo ha sido financiado parcialmente por el Instituto Tecnológico Metropolitano de Medellín (ITM) a través del proyecto de investigación P20213, la Institución Universitaria Pascual Bravo y Ayudas Diagnósticas SURA S.A.S. a través del convenio específico CE-007-2020. También por la agencia de educación SAPIENCIA de Medellín.
Los autores declaran que no existe conflicto de intereses con respecto a la publicación de este trabajo.
Sara Cañaveral: Diseño y realización de los experimentos, análisis e interpretación de los datos, redacción del borrador del manuscrito y revisión final.
Rubén Fonnegra: contribuyó con el diseño de los experimentos, el análisis e interpretación de los datos, en las revisiones parciales y final del manuscrito.
Carlos Mera-Banguero: contribuyó con el diseño de los experimentos, el análisis e interpretación de los datos, en las revisiones parciales y final del manuscrito. El autor Carlos Mera-Banguero, inició su participación en este trabajo como docente del Instituto Tecnológico Metropolitano de Medellín (ITM), pero sus contribuciones a la versión final del manuscrito se realizaron estando afiliado a la Universidad de Antioquia.