Abstract

teclo

TecnoLógicas

TecnoL.

0123-7799 2256-5337

Instituto Tecnológico Metropolitano - ITM

207

10.22430/22565337.3052

Research article

Postcontrast Medical Image Synthesis in Breast DCE-MRI Using Deep Learning

0000-0001-5861-6148

Cañaveral

Sara

¹ *

0000-0002-6513-3053

Mera-Banguero

Carlos

0000-0001-6589-1981

Fonnegra

Rubén D.

1 . Instituto Tecnológico Metropolitano, Medellín-Colombia; saracanaveral207005@correo.itm.edu.co Instituto Tecnológico Metropolitano Instituto Tecnológico Metropolitano

Medellín

Colombia saracanaveral207005@correo.itm.edu.co 2 . Instituto Tecnológico Metropolitano; Universidad de Antioquia, Medellín-Colombia; carlos.mera@udea.edu.co Instituto Tecnológico Metropolitano Instituto Tecnológico Metropolitano; Universidad de Antioquia

Medellín

Colombia carlos.mera@udea.edu.co 3 . Institución Universitaria Pascual Bravo, Medellín-Colombia; ruben.fonnegra@pascualbravo.edu.co Instituto Tecnológico Pascual Bravo Institución Universitaria Pascual Bravo

Medellín

Colombia ruben.fonnegra@pascualbravo.edu.co

* saracanaveral207005@correo.itm.edu.co

The authors declare no conflicts of interest.

Sara Cañaveral:

Designed and conducted the experiments, analyzed and interpreted the data, drafted the manuscript, and contributed to its final revision.

Rubén Fonnegra:

Designed the experiments, analyzed and interpreted the data, and participated in both partial and final revisions of the manuscript.

Carlos Mera-Banguero:

Designed the experiments, analyzed and interpreted the data, and participated in both partial and final revisions of the manuscript. Initially engaged as a professor at the Instituto Tecnológico Metropolitano (ITM), he completed his contributions while affiliated with the Universidad de Antioquia in Medellín, Colombia.

26 11 2024

May-Aug 2024

27 60

e207

03 04 2024 16 07 2024

This is an open-access article distributed under the terms of the Creative Commons Attribution License

Abstract

Breast cancer is one of the leading causes of death in women in the world, so its early detection has become a priority to save lives. For the diagnosis of this type of cancer, there are techniques such as dynamic contrast-enhanced magnetic resonance imaging (DCE-MRI), which uses a contrast agent to enhance abnormalities in breast tissue, which improves the detection and characterization of possible tumors. As a limitation, DCE-MRI studies are usually expensive, there is little equipment available to perform them, and in some cases the contrast medium can generate adverse effects due to an allergic reaction. Considering all of the above, the aim of this work was to use deep learning models for the generation of postcontrast synthetic images in DCE-MRI studies. The proposed methodology consisted of the development of a cost function, called CeR-Loss, that takes advantage of the contrast agent uptake behavior. As a result, two new deep learning architectures were trained, which we have named G-RiedGAN and D-RiedGAN, for the generation of postcontrast images in DCE-MRI studies, from precontrast images. Finally, it is concluded that the peak signal-to-noise ratio, structured similarity indexing method, and mean absolute error metrics show that the proposed architectures improve the postcontrast image synthesis process, preserving greater similarity between the synthetic images and the real images, compared to the state-of-the-art base models.

Keywords: Breast cancer diagnostic imaging magnetic resonance imaging postcontrast image generation deep learning

1. INTRODUCTION

Breast cancer is a chronic non-communicable disease caused by DNA alterations that affect the normal division and growth of tissue cells. Due to its high incidence rates-particularly among the female population-it is one of the major public health concerns worldwide ^[¹^]. Moreover, it is a leading cause of cancer-related deaths globally ^[²^]. According to the Global Cancer Observatory (GLOBOCAN), breast cancer accounted for 11.5 % of new cancer cases around the world in 2022 ^[³^].

In general terms, breast cancer can be classified into five main types ^[⁴^]. The first type, Lobular Carcinoma in Situ (LCIS), is a benign condition occurring in the breast lobules that does not spread outside of them. The second type, Ductal Carcinoma in Situ (DCIS), is a noninvasive neoplasm that develops in the milk glands or ducts without spreading beyond them. The third type, Infiltrating Ductal Carcinoma (IDC), begins in the ducts and may spread to surrounding breast tissues. The fourth type, Infiltrating Lobular Carcinoma (ILC), originates in the breast lobules and is often more challenging to detect due to its tendency to spread in a scattered manner rather than forming a lump. The fifth type, inflammatory breast cancer, is a rare and aggressive form that typically presents as redness, swelling, and warmth in the breast rather than a lump. It requires immediate treatment due to its rapid spread.

The treatment and prognosis of breast cancer depend on its type and specific characteristics. Nevertheless, early detection and timely treatment are crucial for preventing complications, improving patient prognosis, and reducing mortality rates ^[⁵^]. Among the most commonly used methods for breast cancer detection are mammography and breast ultrasound. Mammography involves using low-dose X-rays to visualize internal breast tissues and is considered the standard detection method due to its low cost and ease of use ^[⁶^]. However, it is only recommended for patients over 40 years of age and is contraindicated in pregnant women or in follow-ups due to radiation exposure. In contrast, ultrasound employs sound waves to visualize breast tissue ^[⁷^], but it is highly dependent on the operator’s expertise. Furthermore, both methods may be ineffective in patients with dense breast tissue ^[⁶^{], [}⁸^].

When mammography or ultrasound results are inconclusive, more specialized tests are employed, which involve the intravenous administration of a contrast agent ^[⁹^]. This chemical compound highlights cancer cells in the breast tissue by leveraging their elevated metabolic activity. Three such tests are Contrast-Enhanced Digital Mammography (CEDM), Dynamic Contrast-Enhanced Magnetic Resonance Imaging (DCE-MRI), and Contrast-Enhanced Ultrasound (CEUS). CEDM requires taking two X-ray images of the breast: one before the administration of the contrast agent, employing low radiation levels (conventional mammography); and another after the application of the contrast agent, using high radiation. The two images are subsequently combined to create a recombined image, which highlights regions where the contrast agent has been absorbed in the tissue ^[¹⁰^].

For its part, DCE-MRI uses magnetic waves to capture the absorption of the contrast agent over time, as it reacts in an accelerated manner in tissues with potential lesions ^[¹¹^]. To this end, the system takes a series of initial images of both breasts before the contrast agent is administered, followed by a series of images after its administration. This method is more sensitive and provides more accurate information about the state of the breast and any possible lesions, thus enabling the characterization of potential tumors. Regarding CEUS, it employs an intravascular contrast agent that allows real-time assessment of microcirculation and vascular and tissue perfusion ^[¹²^].

Despite their advantages, these methods have limitations that include elevated costs, long acquisition times, and limited availability of equipment. Additionally, the contrast agent may cause allergic or adverse reactions in patients ^[¹³^]. In the search for solutions to these setbacks, numerous studies have demonstrated the potential of deep learning neural networks to generate synthetic images that replicate the effect of the contrast agent without actually using it ^[¹⁴^]-[¹⁸^], while maintaining the visual quality of the images. On this background, the present study proposes a novel cost function, called Contrast-enhanced Region Loss (CeR-Loss), which leverages the contrast agent uptake behavior to generate synthetic post-contrast images from pre-contrast images in DCE-MRI studies. This function is employed in two new deep learning architectures, G-RiedGAN and D-RiedGAN, which focus on contrast-enhanced regions to improve the generation of synthetic post-contrast images.

2. LITERATURE REVIEW

Deep learning is a branch of machine learning that relies on artificial networks, which consist of interconnected layers of artificial neurons that can self-adjust based on the input and the amount of data they process ^[¹⁹^]. One of the application areas of deep learning networks is image synthesis, which involves generating artificial images from a visual or textual description of their content. In the medical field, image synthesis has been employed, for example, for augmenting datasets to train models for disease diagnosis ^[²⁰^]; improving image resolution in specific imaging modalities ^[²¹^]; segmenting regions of interest within images ^[²²^]; and generating images from data obtained through another examination modality ^[²³^]. The importance of image synthesis in medicine lies in its potential to enhance diagnostic accuracy, reduce the time and cost of capturing diagnostic images, and expand the availability of these medical examinations ^[²⁴^].

Image synthesis models can be broadly classified into two categories: autoencoders and Generative Adversarial Networks (GANs). Autoencoders, on the one hand, are architectures that comprise an encoder, which reduces the dimensionality of input data to learn an abstract (or latent) representation of its distribution; and a decoder, which reconstructs information from the latent space into a higher-dimensional space ^[²⁵^]. A variation of autoencoders, known as U-Net, addresses the information loss problem by copying information from the encoder layers to the decoder layers, thus improving the reconstruction of information in the higher-dimensional space ^[²⁵^{], [}²⁶^].

GANs, on the other hand, consist of a generator and a discriminator. The generator is a convolutional network that attempts to learn the latent distribution of the real data to generate synthetic information from a random noise sample. For its part, the discriminator is a complementary convolutional network that acts as an expert in distinguishing between real and synthetic information. The training of both networks is adversarial, that is, the generator strives to enhance its generation process to deceive the discriminator, while the discriminator seeks to refine its expertise to avoid being deceived by the generator. This adversarial learning process gives GANs their name ^[²⁷^].

Image synthesis methods can be employed to generate post-contrast images from pre-contrast images in DCE-MRI and CEDM studies. This application, known as domain shift, entails transforming a pre-contrast image (x) into a post-contrast image (y) ^[²¹^{], [}²³^]. In this line, the authors of ^[¹⁵^] trained a shallow generative architecture called SD-CNN to generate synthetic patches of post-contrast recombined images in CEDM studies from patches of full-field digital mammography images. In this study, two independent image repositories were used to extract the patches. The first dataset is INbreast ^[²⁸^], a public database from which 89 studies with BI-RADS categories 1 and 2 (benign) and 5 and 6 (malignant) were taken. The second database is proprietary and contains 49 studies with BI-RADS categories 4 and 5. All results were confirmed by biopsy, resulting in 23 benign and 26 malignant cases. The authors noted that using synthetic patches generated with their architecture improved the accuracy of mammography patch classifiers. However, a limitation of this architecture is that it is only capable of generating 3x3 synthetic patches from 15x15-pixel patches, which restricts its use in full image synthesis. Moreover, the shallowness of the network leads to few levels of abstraction, thus reducing its ability to synthesize complex structures such as those defining breast tissues.

In a subsequent study, the authors proposed a U-Net architecture called RiedNet ^[²⁹^]. This architecture introduced several modifications, including replacing pooling layers with convolutional and deconvolutional layers and incorporating a residual inception block to address the gradient fading problem caused by the network’s depth. The purpose of RiedNet was the synthetic generation of images in the medical context and its evaluation involved obtaining post-contrast recombined images of CEDM studies from low-energy images. Nevertheless, since the network was trained to synthesize 128x128-pixel blocks, the complete image synthesis considered the average of the generated blocks, potentially resulting in a blurring effect on the reconstructed breast tissues. In this case, the experiments were conducted on 139 contrasted mammography studies, with 112 used for training and 27 for testing.

Regarding the use of DCE-MRI studies for breast cancer detection, the authors of ^[³⁰^] employed a conditional GAN architecture called Pix2Pix ^[³¹^], designed to generate fat-suppressed T1-weighted contrast-enhanced images from non-contrast images. The Pix2Pix architecture comprised a U-Net generator and a PatchGAN discriminator ^[³¹^]. Particularly, the images used in this study were captured with a resolution of 3T and subsequently resized to 512x512 pixels. A total of 2,620 image pairs from 48 DCE-MRI studies were employed, with 2112 reserved for training, 418 for validation, and 90 for testing. Although the model tends to present errors in dense breast images, the authors emphasize the potential of the Pix2Pix architecture for synthetic generation of contrast-enhanced DCE-MRI images.

Another contribution to this field is the study presented in ^[¹⁷^], which proposed a GAN architecture called TSGAN. TSGAN consists of four models: a U-Net model trained to generate post-contrast T1-weighted images from pre-contrast images; a global discriminator that focuses on differentiating real from fake post-contrast images; a local discriminator that distinguishes between real and fake regions of interest; and a U-Net model trained to generate segmentation masks over breast lesions. Similarly, in ^[³²^], the authors introduced an architecture called EDLS to synthesize dynamic sequences from T1WI images in MRI studies, improving lesion identification without using a contrast agent. Likewise, the authors of ^[³³^] explored the use of GAN architectures to generate realistic breast MRI images to enhance breast lesion detection. Additionally, in ^[³⁴^], the authors employed a CycleGAN architecture to translate images between different domains without the need for matched data pairs, thereby raising the quality of the synthesized images.

Furthermore, in ^[³⁵^], the authors presented a TDM-StarGAN architecture designed to generate synthetic images of conventional DCE-MRI study phases from ultrafast DCE-MRI study images. To this end, the authors modified the StarGAN architecture ^[²⁹^] for use with paired images. In addition, they considered the loss in the difference maps of the generated images and the detection area, obtained from the difference between the last post-contrast image and the pre-contrast image. They concluded that the proposed model outperformed the baseline models (Pix2Pix and StarGAN) by accurately synthesizing the regions associated with lesions.

In other imaging modalities, the study presented in ^[³⁶^] proposed the use of a Pix2Pix architecture to enhance the quality of low-count Positron Emission Tomography (dbPET) images, which is often compromised by patient respiration. Experiments were conducted on 49 cases, including 32 with abnormal results and 17 with normal results. To this end, each image was resized to 958x940 pixels. The authors posit that the Pix2Pix architecture can effectively address this problem by improving the quality of dbPET images with short acquisition times.

Aiming at reducing the radiation doses used in breast cancer diagnostic tests, the authors of ^[¹⁸^] and ^[³⁷^] trained various models to generate digital mammography images from tomosynthesis images. The authors introduced an architecture called GGGAN, which employs a U-Net generator and a variant of the Pix2PixHD discriminator. The loss function for GGGAN uses the difference maps of the gradients of the images generated in specific intermediate layers.

In a context other than breast cancer diagnosis, the authors of ^[³⁸^] designed an architecture based on Pix2Pix, called Ea-GAN. It included the difference maps of the edges of the generated and real images in the loss function of both the discriminator and the generator. This inclusion aimed to enhance the synthesis of these elements and mitigate the smoothing effect commonly observed in U-Net networks ^[¹⁴^]. This study employed the BRATS2015 database ^[³⁹^], which contains MRI images of 74 patients with a resolution of 240x240x155 voxels. The images were preprocessed and normalized with intensity values ranging from -1 to 1.

Despite numerous attempts to develop generative models for synthesizing diagnostic images in breast cancer detection, there are still significant limitations. This is largely due to the high variability in breast tissue density, which affects the performance of generative models when using contrast agents, as the visibility of these agents diminishes with increasing pixel intensity.

To address these challenges, this study proposes a novel architecture called D-RiedGAN. This architecture builds upon the Pix2Pix framework by incorporating residual inception blocks but focuses on contrast-enhanced regions in DCE-MRI studies.

3. METHODOLOGY

The proposed methodology begins with the implementation of a three-model baseline to synthesize fat-saturated T1-weighted images showing early response to contrast medium in DCE-MRI studies. Building on this baseline, two mixed architectures and two new architectures (G-RiedGAN and D-RiedGAN) are developed. These generative models are trained to generate synthetic post-contrast images, 𝑦̂ = 𝐺(𝑥). from non-contrast images, x. The goal is for the generative model, 𝐺(𝑥), to learn the early response to the contrast medium, thereby making the synthetic images resemble the real post-contrast images (y).

3.1 Optimization of contrast-enhanced regions

Traditional models for image synthesis have achieved significant advancements in natural image processing but face multiple limitations, especially when applied to specialized images such as medical ones. To overcome these challenges, this study proposes integrating a cost function that captures information from contrast-enhanced regions during training. This function aims to guide the synthesis process to accurately generate contrast enhancement in post-contrast images.

In terms of pixel intensity, the enhancement after contrast agent administration is identified by the highest intensities in the post-contrast image. Particularly, a global thresholding strategy, as shown in (1), is used to detect these high-intensity pixels. Here, y(i, j) is the pixel at position (i, j) in the post-contrast image and T is the threshold value.

Due to the sensitivity of T to intensity variations in images from different DCE-MRI studies, this parameter is set for each image using the 90th percentile of its histogram. In other words, the 10 % of the image pixels with the highest intensities are retained as contrast-enhanced regions. To refine these regions, closing and opening operators are employed using a 7x7-pixel circular structuring element, which smooths contours and removes small gaps between adjacent regions. This process is applied to both synthetic and real post-contrast images, generating real F _y and synthetic F _G(x) contrast enhancement masks.

Once the contrast-enhanced regions are identified, a cost function is used to minimize the discrepancies between these regions in real and synthetic images. Since contrast-enhanced regions are binary, optimizing them involves employing a cost function based on set similarity, such as the Jaccard index ^[⁴⁰^]. The Jaccard index between the real F _y and generated (F _G(x) ) contrast regions is computed using (2).

Because the Jaccard index is neither convex nor differentiable, its optimization via gradient descent (in the context of neural networks) can result in suboptimal solutions or convergence problems. ^[⁴¹^] recommend employing a convex approximation to derive an optimizable function from the discrete function, which can then be optimized by first-order methods like gradient descent. This approach, based on the Lovász surrogate approximation, is estimated from a set of erroneous predictions, 𝑚(𝑐) ∈ 𝑅^𝑝 for class 𝑐 ∈ 𝐶 rather than the vector of discrete predictions{0, 1}^𝑝. Given that function ∆:{0, 1}^{𝑝 ↦ 𝑅𝑝} is submodular (como la función 𝐽𝑐), its Lovász extension is defined by (3).

Here, 𝑔_𝑖(𝑚) = ∆({𝜋₁. . . 𝜋_𝑖 }) − ∆({𝜋₁. . . 𝜋_𝑖−1}) with 𝜋 being a permutation of the components of 𝑚 in descending order. Function ∆̅ is the strict convex closure of ∆, is piecewise linear, and interpolates the values of ∆, in 𝑅^𝑝. Equation (4) is employed to compute the Lovász function of the Jaccard index in (2) (∆̅ _𝐽𝑐).

Where𝑓(𝑦, 𝑦∗) estimates the error vector m from the real or generated contrast masks after applying the SoftMax function. To avoid variations caused by batch size and the number of classes, the Lovász function is optimized by combining it with the Binary Cross-Entropy (BCE) described in (5), as suggested by the authors of ^[⁴¹^].

Finally, to optimize the proposed models, a cost function combining BCE with the Lovász surrogate extension is used specifically for the contrast-enhanced regions. This combined function, termed CeR-Loss, is presented in (6).

3.2 G-RiedGAN y D-RiedGAN

Figure 1a illustrates the general architecture of the first proposed model, G-RiedGAN. This architecture integrates, after the generator, a filter for detecting contrast-enhanced regions, which provides feedback to the generator to guide it in accurately replicating contrast enhancement. In this case, the PatchGAN discriminator, which identifies whether pre-contrast and post-contrast image pairs are real or synthetic, remains unchanged. The loss function of the G-RiedGAN generator, shown in (7), considers the overall loss from the pixel-level difference between the real and generated images, as well as the loss from the contrast-enhanced regions (CeR-Loss).

Figure 1 G-RiedGAN and D-RiedGAN architectures Source: Own work.

The proposed D-RiedGAN architecture, for its part, depicted in Figure 1b, includes the difference between the contrast-enhanced regions in both the generator and the discriminator. This allows the generator to focus more on these regions by considering them in the adversarial counterpart, thus improving the quality of the synthesized images.

For adversarial learning, the D-RiedGAN discriminator is modified to receive a triplet of images: the input image, the synthetic or real image, and the contrast-enhanced regions of the real or synthetic image. The loss functions of the D-RiedGAN generator and discriminator, defined in (8) and (9), respectively, include the loss from the contrast-enhanced regions (CeR-Loss).

3.3 Baseline models

The Pix2Pix ^[³¹^], RiedNet ^[²⁹^], and Ea-GAN ^[³⁸^] architectures were employed as benchmarks to evaluate the proposed model. These architectures were chosen due to their proven effectiveness in tackling problems related to medical image synthesis across various modalities.

3.3.1 Pix2Pix

The Pix2Pix architecture ^[³¹^] uses conditional information to guide the image generation process, allowing it to create an image in one domain based on an input image from another domain. It features a U-Net generator, a PatchGAN discriminator, and an objective function that combines adversarial loss (to make the generated images indistinguishable from the real ones) with pixel-level loss (to ensure content coherence between the generated and real images). A notable advantage of this architecture, as emphasized in the literature, is its capability to preserve fine details in the generated images, which is crucial for post-contrast image generation.

3.3.2 RiedNet

RiedNet ^[²⁹^] is an adapted U-Net architecture that employs convolutional and deconvolutional layers, along with a residual inception block to mitigate gradient fading issues. In this study, the RiedNet architecture was trained to synthesize complete images. Furthermore, the ReLU activation function in the intermediate layers was replaced with the Leaky ReLU function to maintain a small positive slope and avoid complete suppression of information in certain parts of the neural network ^[⁴²^]. The activation function of the output layer was also changed to the hyperbolic tangent function. These adjustments were made to preserve the value range of the input images during encoding.

3.3.3 Ea-GAN

Unlike the previous two architectures, Ea-GAN ^[³⁸^] incorporates edge information from both the original and synthesized images, calculated using a Sobel filter, into the learning process. This edge information helps the architecture focus on synthesizing the textures and edges of objects in the images. The Ea-GAN architecture has two variations: gEa-GAN, which integrates edge differences only in the generator’s loss function, and dEa-GAN, which includes edge differences in both the generator and discriminator.

To improve the synthesis process, these three foundational architectures were combined. The first combination, called RiedGAN, integrates a PatchGAN discriminator into the RiedNet architecture to enhance the synthesis process using an adversarial learning scheme. The key distinction between this network and the original Pix2Pix is that it employs the U-Net generator from the RiedNet architecture rather than the traditional U-Net generator.

Building on the idea of using edge maps from the Ea-GAN architecture, edge maps were incorporated into the RiedGAN framework, resulting in two new models: gEa-RiedGAN, which integrates edge maps into the RiedGAN generator, and dEa-RiedGAN, which incorporates edge map information into both the generator and the discriminator.

3.4 Evaluation metrics

To assess the quality of the synthetic images, three widely used quantitative metrics were employed: Mean Absolute Error (MAE), Peak Signal-to-Noise Ratio (PSNR), and Structural Similarity Index Measure (SSIM).

The Mean Absolute Error (MAE) quantifies the pixel-to-pixel difference between the intensities of two images. For a real image, y, and a generated image, 𝐺(𝑥), both of size 𝑚 𝑥 𝑛 pixels, MAE is computed as detailed in (10). A low MAE value signifies minimal error between the synthesized image and the reference image, with values close to 0 being ideal, i.e., indicating high accuracy. Conversely, a high MAE value reflects larger error and lower accuracy in image synthesis.

The Peak Signal-to-Noise Ratio (PSNR) represents the ratio between the maximum possible energy of a signal and the noise affecting the signal’s representation, measured in decibels (dB) ^[⁴³^]. The PSNR is defined by the formula in (11), where 𝑀𝐴𝑋_𝑖 denotes the maximum possible intensity value for the images. A high PSNR value indicates greater similarity between the synthesized and reference images, while a low PSNR value suggests greater differences between them.

The Structural Similarity Index Measure (SSIM) considers the strong interdependencies between pixels, especially those in close proximity. These dependencies include information about luminance, contrast, and structure of the objects in the image and can be estimated jointly as shown in Equation (12) ^[⁴³^]. In this equation, 𝜇, 𝜎 and 𝜎² represent the means, standard deviations, and covariances between the images, respectively, while ??₁ and 𝑐₂ are variables that stabilize the division in cases where the denominators are close to zero. An SSIM value close to 1 indicates high structural similarity between the synthesized image and the reference image, whereas a low SSIM value reflects reduced structural similarity. Values below 0.4 generally suggest poor quality in terms of image structure and texture.

Finally, difference maps are calculated by comparing individual pixels between a generated image and a real image to evaluate their discrepancies. This process is described by (13), where each pixel in the images is analyzed, and the difference in intensity between corresponding pixels in the two images is estimated. Each pixel’s value represents its intensity, and pixel comparison involves subtracting the value of the corresponding pixel in one image from the value of the same pixel in the other image. This comparison is used to quantify and visualize the differences between the generated and real images.

4. RESULTS AND DISCUSSION 4.1 Experimental setup

The results presented in this study were obtained using the experimental setup detailed in Table 1. This table outlines the hyperparameters employed for each model, which were adjusted according to the available computational resources. The experiments were conducted on a workstation equipped with an Intel Xeon Silver 4108 CPU and an NVIDIA Quadro P2000 GPU with 4 GB of RAM. Python version 3.8 was used as the programming language, along with PyTorch version 2.0.

Table 1 Hyperparameters employed in the experiments

Source: Own work.

4.2 Database

A proprietary, retrospective, and anonymized database of DCE-MRI studies from 197 patients was used to train the models. Each study includes T1- and T2-weighted structural images, Diffusion Weighted images (DWIs), and six DCE images. This study focused on the T1 fat-saturated sequence acquired before contrast agent administration x and the corresponding image acquired in the early stage after contrast agent administration y.

Given the retrospective nature of the database, studies were selected based on their use of different types of 1.5 T resonators and gadolinium-based contrast agents, with doses ranging between 0.014 and 0.016 ml/mol. All studies contained at least one abnormality (either benign or malignant) annotated by expert radiologists using the BI-RADS system. This selection process ensured a balanced representation of both benign and malignant cases.

To focus on synthesizing contrast regions, only images with annotated contrast regions were included to ensure accurate depiction of contrast uptake. As a result, a total of 937 normalized images, scaled to the range from -1 to 1, were processed. Of these, 718 images were allocated for training and 219 for validation. The original images, with resolutions ranging between 480x480 and 512x512 pixels, were resized to 240x240 pixels for consistency purposes.

4.3 Comparative evaluation

Figure 2 presents a comparison of the PSNR, SSIM, and MAE metrics for the models assessed on the validation image set. As observed, the G-RiedGAN and D-RiedGAN models proposed in this study outperformed the other models. This suggests that incorporating contrast-enhanced regions into the image synthesis process using the CeR-Loss function significantly enhances the quality of the synthetic images, as reflected by the values of these quantitative metrics.

Figure 2 Scatter plot comparing PSNR, SSIM, and MAE across the baseline, mixed, and proposed models Source: Own work.

Although G-RiedGAN and D-RiedGAN showed a slightly higher MAE compared to RiedGAN, the increase in MAE for D-RiedGAN was minimal and is outweighed by substantial improvements in PSNR and SSIM. This indicates that while RiedGAN demonstrated slightly better accuracy in individual pixel errors, it tends to produce more blurred images of internal structures, making it less suitable for medical image synthesis.

In comparison to Pix2Pix ^[³¹^]-a model frequently used in similar studies-both G-RiedGAN and D-RiedGAN exhibited superior performance in terms of PSNR and SSIM. They excelled particularly in synthesizing contrast-enhanced regions and reducing noise, thus addressing some of the limitations of Pix2Pix in dense breast imaging.

Figure 3, for its part, displays real post-contrast images generated from their non-contrast counterparts. Overall, the models effectively reproduced larger anatomical structures, though some discrepancies were observed in the intensities of rib cage structures. Despite this, G-RiedGAN and D-RiedGAN showed superior synthesis of contrast-enhanced regions compared to reference models such as RiedNet ^[²⁹^], Pix2Pix ^[³¹^], and EaGAN ^[³²^]. These reference models, which served as the foundation for G-RiedGAN and D-RiedGAN, were employed for comparative analysis with the same methodology. While effective in their respective contexts, this study specifically evaluated their performance with medical images.

Figure 3 Results of the comparative analysis between the evaluated models. The zoomed regions highlight projections where the contrast agent was captured Source: Own work.

Based on the results, G-RiedGAN and D-RiedGAN combine the strengths of existing models to achieve more precise and higher-quality image synthesis, particularly in contrast-enhanced regions. They also performed well when compared to models reported in the literature, notably in minimizing noise and blur. This is further illustrated in Figure 4, which shows the difference maps of the synthetic and real images. As can be seen, the difference maps for G-RiedGAN and D-RiedGAN reveal fewer discrepancies between the synthetic and real images.

Figure 4 Difference maps between the real images and those generated by the evaluated models. Source: Own work.

4.4 Impact of the contrast-enhanced regions’ cost function (CeR-Loss)

The proposed cost function, CeR-Loss, is a critical component of the D-RiedGAN architecture, significantly enhancing its performance when compared to other models. To evaluate the impact of this function on model training, a series of experiments were conducted using the D-RiedGAN architecture (described in the previous section) but with variations in parameters 𝜆_𝑙1 and 𝜆 _{𝐿𝑜𝑣𝑎𝑠𝑧} . In these experiments, 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} was consistently set higher than 𝜆 _𝑙1 across all configurations.

Figure 5 illustrates the results for three different parameter settings: 𝜆 _𝑙1 = 20 and 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} = 30; 𝜆_𝑙1 = 40 and 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} = 60; and 𝜆_𝑙1 = 100 and 𝜆 _{??𝑜𝑣𝑎𝑠𝑧} = 150. As observed, both the MAE and PSNR metrics improved as the values of 𝜆_𝑙1 and 𝜆 _{𝐿𝑜𝑣𝑎𝑠𝑧} was increased, with the best performance achieved at 𝜆 _𝑙1 = 100 and 𝜆 _{𝐿𝑜𝑣𝑎𝑠𝑧} = 150. These results underscore the positive effect of the CeR-Loss cost function on the model’s overall performance.

Figure 5 Evaluation of the impact of the CeR-Loss function on the performance of the D-RiedGAN architecture Source: own work.

5. CONCLUSIONS

This paper introduced CeR-Loss, a novel cost function designed to leverage contrast agent uptake for generating synthetic post-contrast images from pre-contrast images in DCE-MRI studies. This function is incorporated into two new deep learning architectures, G-RiedGAN and D-RiedGAN, which focus on contrast-enhanced regions to improve the synthesis of post-contrast images. The primary goal of these architectures is to minimize dependence on contrast agents and reduce the costs associated with DCE-MRI studies for breast cancer screening.

The proposed G-RiedGAN and D-RiedGAN models combine features from the RIED-Net and Pix2Pix architectures within the EaGAN framework. Notably, D-RiedGAN includes a filter for detecting contrast-enhanced regions, which are essential for accurately synthesizing DCE-MRI images in breast cancer detection and diagnosis. These identified contrast regions guide the network learning process through the Lovász and BCE loss functions, which are integrated into the loss function of the generator and the discriminator (CeR-Loss).

Two approaches were used for comparative evaluation. The first approach compared the performance of the proposed models (with CeR-Loss) against models documented in the literature and a set of mixed models. The results, based on MAE, PSNR, and SSIM metrics, indicate that the proposed models more effectively synthesize contrast-enhanced regions, with reduced noise and blur. The second approach assessed the impact of the CeR-Loss function on the learning process, revealing that increasing the weight of CeR-Loss positively influences the synthesis of contrast regions, as reflected by the value of the same metrics.

Although validation was limited to quantitative metrics based on pixel intensities of synthetic images, future studies should include qualitative assessments by expert radiologists to validate the diagnostic quality of these images. Additionally, future research should investigate the performance of the baseline and proposed models across heterogeneous image databases, considering variations in study quality (0.5 T, 1.5 T, 3 T, and 7 T), dosage, and contrast agents. Furthermore, incorporating synthetic post-contrast images could improve the training of breast cancer detection and classification models that use conventional MRI images, as these synthetic images might provide valuable supplementary information to enhance model performance.

6. ACKNOWLEDGEMENTS AND FUNDING

This study was partially funded by the Instituto Tecnológico Metropolitano (ITM) in Medellín, Colombia, through research project P20213, as well as by the Institución Universitaria Pascual Bravo and Ayudas Diagnósticas SURA S.A.S. under agreement CE-007-2020. Additional funding was provided by SAPIENCIA, the education agency of Medellín.

REFERENCES [1]

[1] M. P. Jimenez Herrera, “Informe de Evento Cáncer de Mama y Cuello Uterino en Colombia 2018,” Instituto Nacional de Salud, Colombia, Versión 04, May 2018. [Online]. Available: https://bit.ly/3J1FcnV

Jimenez Herrera

M. P.

Informe de Evento Cáncer de Mama y Cuello Uterino en Colombia 2018 Instituto Nacional de Salud

Colombia

Versión 04 05 2018 Online Available

https://bit.ly/3J1FcnV

[2]

[2] M. Martín, A. Herrero, and I. Echavarría, “El cáncer de mama,” Arbor, vol. 191, no. 773, p. a234, Jun. 2015. https://doi.org/10.3989/arbor.2015.773n3004

Martín

Herrero

Echavarría

El cáncer de mama

Arbor 191 773 a234 a234 06 2015

https://doi.org/10.3989/arbor.2015.773n3004

[3]

[3] IARC. “Data visualization tools for exploring the global cancer burden in 2022.” iarc.who. Accessed: Feb. 20, 2024. [Online.] Available: https://gco.iarc.who.int/today/en

IARC

Data visualization tools for exploring the global cancer burden in 2022 iarc.who Accessed 20 02 2024 Online Available

https://gco.iarc.who.int/today/en

[4]

[4] X. Zhou et al., “A Comprehensive Review for Breast Histopathology Image Analysis Using Classical and Deep Neural Networks,” IEEE Access, vol. 8, pp. 90931-90956, May. 2020. https://doi.org/10.1109/ACCESS.2020.2993788

Zhou

A Comprehensive Review for Breast Histopathology Image Analysis Using Classical and Deep Neural Networks

IEEE Access 8 90931 90956 05 2020

https://doi.org/10.1109/ACCESS.2020.2993788

[5]

[5] H. V. Guleria et al., “Enhancing the breast histopathology image analysis for cancer detection using Variational Autoencoder,” Int. J. Environ. Res. Public Health., vol. 20, no. 5, p. 4244, Feb. 2023. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10002012/

Guleria

H. V.

Enhancing the breast histopathology image analysis for cancer detection using Variational Autoencoder

Int. J. Environ. Res. Public Health. 20 5 4244 4244 02 2023

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10002012/

[6]

[6] Instituto Nacional del Cáncer. “Tratamiento del cáncer de seno.” cancer.gov. Accessed: Feb. 20, 2024. [Online.] Available: https://www.cancer.gov/espanol/tipos/seno/paciente/tratamiento-seno-pdq

Instituto Nacional del Cáncer

Tratamiento del cáncer de seno cancer.gov. Accessed 20 02 2024 Online Available

https://www.cancer.gov/espanol/tipos/seno/paciente/tratamiento-seno-pdq

[7]

[7] S. G. Macias, “Métodos de imagen en el estudio de la mama - Ecografía mamaria,” Editorial Medica Panamericana, Bogotá, Colombia, Módulo 1, 2019. https://bit.ly/4aFIg4y

Macias

S. G.

Métodos de imagen en el estudio de la mama - Ecografía mamaria Editorial Medica Panamericana

Bogotá, Colombia

Módulo 1 2019

https://bit.ly/4aFIg4y

[8]

[8] P. E. Freer, “Mammographic breast density: Impact on breast cancer risk and implications for screening,” Radiographics, vol. 35, no. 2, pp. 302-315, Mar. 2015. https://doi.org/10.1148/rg.352140106

Freer

P. E.

Mammographic breast density: Impact on breast cancer risk and implications for screening

Radiographics 35 2 302 315 03 2015

https://doi.org/10.1148/rg.352140106

[9]

[9] P. Campáz-Usuga, R. D. Fonnegra, and C. Mera, “Quality Enhancement of Breast DCE-MRI Images Via Convolutional Autoencoders,” in 2021 IEEE 2nd International Congress of Biomedical Engineering and Bioengineering (CI-IB&BI), Bogotá D.C., Colombia, 2021, pp. 1-4. https://doi.org/10.1109/CI-IBBI54220.2021.9626097

Campáz-Usuga

Fonnegra

R. D.

Mera

Quality Enhancement of Breast DCE-MRI Images Via Convolutional Autoencoders 2021 IEEE 2nd International Congress of Biomedical Engineering and Bioengineering (CI-IB&BI)

Bogotá D.C., Colombia

2021

1 4

https://doi.org/10.1109/CI-IBBI54220.2021.9626097

[10]

[10] Y. M. Rodríguez Marcano, I. González, H. Palencia, M. Sandoval, and L. León, “Mamografía espectral con realce de contraste. Nuestra experiencia,” Revista Venezolana de Oncologia, vol. 26, no. 4, pp. 743-751, Dec. 2014. https://www.redalyc.org/articulo.oa?id=375633971003

Rodríguez Marcano

Y. M.

González

Palencia

Sandoval

León

Mamografía espectral con realce de contraste. Nuestra experiencia

Revista Venezolana de Oncologia 26 4 743 751 12 2014

https://www.redalyc.org/articulo.oa?id=375633971003

[11]

[11] I. Pérez-Zúñiga, Y. Villaseñor-Navarro, M. P. Pérez-Badillo, R. Cruz-Morales, C. Pavón-Hernández, and L. Aguilar-Cortázar, “Resonancia magnética de mama y sus aplicaciones,” Gaceta Mexicana de Oncologia, vol. 11, no. 4, pp. 268-280, 2012. https://www.elsevier.es/es-revista-gaceta-mexicana oncologia-305-articulo-resonancia-magnetica-mama-sus-aplicaciones-X1665920112544919

Pérez-Zúñiga

Villaseñor-Navarro

Pérez-Badillo

M. P.

Cruz-Morales

Pavón-Hernández

Aguilar-Cortázar

Resonancia magnética de mama y sus aplicaciones

Gaceta Mexicana de Oncologia 11 4 268 280 2012

https://www.elsevier.es/es-revista-gaceta-mexicana oncologia-305-articulo-resonancia-magnetica-mama-sus-aplicaciones-X1665920112544919

[12]

[12] C. Balleyguier et al., “New potential and applications of contrast-enhanced ultrasound of the breast: Own investigations and review of the literature,” Eur. J. Radiol., vol. 69, no. 1, pp. 14-23, Jan. 2009. https://doi.org/10.1016/J.EJRAD.2008.07.037

Balleyguier

New potential and applications of contrast-enhanced ultrasound of the breast: Own investigations and review of the literature

Eur. J. Radiol. 69 1 14 23 01 2009

https://doi.org/10.1016/J.EJRAD.2008.07.037

[13]

[13] R. Valenzuela, O. Arevalo, A. Tavera, R. Riascos, E. Bonfante, and R. Patel, “Imágenes del depósito de gadolinio en el sistema nervioso central,” Revista Chilena de Radiologia, vol. 23, no. 2, pp. 59-65, Jul. 2017. https://doi.org/10.4067/S0717-93082017000200005

Valenzuela

Arevalo

Tavera

Riascos

Bonfante

Patel

Imágenes del depósito de gadolinio en el sistema nervioso central

Revista Chilena de Radiologia 23 2 59 65 07 Jul. 2017

https://doi.org/10.4067/S0717-93082017000200005

[14]

[14] F. Gao, T. Wu, X. Chu, H. Yoon, Y. Xu, and B. Patel, “Deep Residual Inception Encoder-Decoder Network for Medical Imaging Synthesis,” IEEE J. Biomed. Health Inform., vol. 24, no. 1, pp. 39-49, Jan. 2020. https://doi.org/10.1109/JBHI.2019.2912659

Gao

Chu

Yoon

Patel

Deep Residual Inception Encoder-Decoder Network for Medical Imaging Synthesis

IEEE J. Biomed. Health Inform. 24 1 39 49 06 2020

https://doi.org/10.1109/JBHI.2019.2912659

[15]

[15] F. Gao et al., “SD-CNN: A shallow-deep CNN for improved breast cancer diagnosis,” Computerized Medical Imaging and Graphics, vol. 70, pp. 53-62, Dec. 2018. https://doi.org/10.1016/j.compmedimag.2018.09.004

Gao

SD-CNN: A shallow-deep CNN for improved breast cancer diagnosis

Computerized Medical Imaging and Graphics 70 53 62 12 2018

https://doi.org/10.1016/j.compmedimag.2018.09.004

[16]

[16] K. Wu et al., “Image synthesis in contrast MRI based on super resolution reconstruction with multi-refinement cycle-consistent generative adversarial networks,” J. Intell. Manuf., vol. 31, no. 5, pp. 1215-1228, Jun. 2020. https://doi.org/10.1007/s10845-019-01507-7

Image synthesis in contrast MRI based on super resolution reconstruction with multi-refinement cycle-consistent generative adversarial networks

J. Intell. Manuf. 31 5 1215 1228 06 2020

https://doi.org/10.1007/s10845-019-01507-7

[17]

[17] E. Kim, C. Hwan-Ho, J. Kwon, O. Young-Tack, E. S. Ko, and H. Park, “Tumor-Attentive Segmentation-Guided GAN for Synthesizing Breast Contrast-Enhanced MRI Without Contrast Agents,” IEEE Journal of Translational Engineering in Health and Medicine, vol. 11, pp. 32-43, Nov. 2023. https://doi.org/10.1109/JTEHM.2022.3221918

Kim

Hwan-Ho

Kwon

Young-Tack

E. S.

Park

Tumor-Attentive Segmentation-Guided GAN for Synthesizing Breast Contrast-Enhanced MRI Without Contrast Agents

IEEE Journal of Translational Engineering in Health and Medicine 11 32 43 11 2023

https://doi.org/10.1109/JTEHM.2022.3221918

[18]

[18] Y. Jiang, Y. Zheng, W. Jia, S. Song, and Y. Ding, “Synthesis of contrast-enhanced spectral mammograms from low-energy mammograms using cGAN-based synthesis network,” in Medical Image Computing and Computer Assisted Intervention - MICCAI 2021, M. de Bruijne, et al., Eds. Cham: Springer International Publishing, 2021, pp. 68-77. https://doi.org/10.1007/978-3-030-87234-2_7

Jiang

Zheng

Jia

Song

Ding

Synthesis of contrast-enhanced spectral mammograms from low-energy mammograms using cGAN-based synthesis network

Medical Image Computing and Computer Assisted Intervention - MICCAI 2021 de Bruijne

Eds.

Cham

Springer International Publishing

2021 68 77

https://doi.org/10.1007/978-3-030-87234-2_7

[19]

[19] D. Huangz, and M. Feng, “Understanding Deep Convolutional Networks for Biomedical Imaging: A Practical Tutorial,” in 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), Berlin, Germany, 2019, , pp. 857-863. https://doi.org/10.1109/EMBC.2019.8857529

Huangz

Feng

Understanding Deep Convolutional Networks for Biomedical Imaging: A Practical Tutorial 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC)

Berlin, Germany

2019

857 863

https://doi.org/10.1109/EMBC.2019.8857529

[20]

[20] C. Shorten, and T. M. Khoshgoftaar, “A survey on Image Data Augmentation for Deep Learning,” J. Big Data, vol. 6, no. 1, Jul. 2019. https://doi.org/10.1186/s40537-019-0197-0

Shorten

Khoshgoftaar

T. M.

A survey on Image Data Augmentation for Deep Learning

J. Big Data 6 1 07 2019

https://doi.org/10.1186/s40537-019-0197-0

[21]

[21] A. Beers et al., “High-resolution medical image synthesis using progressively grown generative adversarial networks,” 2018, ArXiv: 1805.03144. https://arxiv.org/abs/1805.03144

Beers

High-resolution medical image synthesis using progressively grown generative adversarial networks 2018

ArXiv: 1805.03144

https://arxiv.org/abs/1805.03144

[22]

[22] T. Shen, C. Gou, J. Wang, and F. -Y. Wang, “Collaborative Adversarial Networks for Joint Synthesis and Segmentation of X-ray Breast Mass Images,” in 2020 Chinese Automation Congress (CAC), Shanghai, China, 2020, pp. 1743-1747. https://doi.org/10.1109/CAC51589.2020.9326848

Shen

Gou

Wang

F. -Y.

Collaborative Adversarial Networks for Joint Synthesis and Segmentation of X-ray Breast Mass Images 2020 Chinese Automation Congress (CAC)

Shanghai, China

2020

1743 1747

https://doi.org/10.1109/CAC51589.2020.9326848

[23]

[23] Y. Pang, J. Lin, T. Qin, and Z. Chen, “Image-to-Image Translation: Methods and Applications,” IEEE Trans. Multimedia, vol. 24, pp. 3859-3881, Sep. 2021. https://doi.org/10.1109/TMM.2021.3109419

Pang

Lin

Qin

Chen

Image-to-Image Translation: Methods and Applications

IEEE Trans. Multimedia 24 3859 3881 09 2021

https://doi.org/10.1109/TMM.2021.3109419

[24]

[24] M. Carmen, J. Lizandra, C. Monserrat, A. José, and H. Orallo, “Síntesis de Imágenes en Imagen Médica,” Universidad Politécnica de Valencia, 2003. https://josephorallo.webs.upv.es/escrits/ACTA3.pdf

Carmen

Lizandra

Monserrat

José

Orallo

Síntesis de Imágenes en Imagen Médica

Universidad Politécnica de Valencia 2003

https://josephorallo.webs.upv.es/escrits/ACTA3.pdf

[25]

[25] A. Anwar “Difference between AutoEncoder (AE) and Variational AutoEncoder (VAE),” towardsdatascience.com Accessed: Feb. 20, 2024. [Online]. Available: https://towardsdatascience.com/difference-between-autoencoder-ae-and-variational-autoencoder-vae-ed7be1c038f2

Anwar

Difference between AutoEncoder (AE) and Variational AutoEncoder (VAE) towardsdatascience.com Accessed 20 02 2024 Online Available

https://towardsdatascience.com/difference-between-autoencoder-ae-and-variational-autoencoder-vae-ed7be1c038f2

[26]

[26] W. Weng, and X. Zhu, “INet: Convolutional Networks for Biomedical Image Segmentation,” IEEE Access, vol. 9, pp. 16591-16603, 2021. https://doi.org/10.1109/ACCESS.2021.3053408

Weng

Zhu

INet: Convolutional Networks for Biomedical Image Segmentation

IEEE Access 9 16591 16603 2021

https://doi.org/10.1109/ACCESS.2021.3053408

[27]

[27] I. J. Goodfellow et al., “Generative Adversarial Networks,” Advances in Neural Information Processing Systems, vol. 14, Jun. 2014. https://doi.org/https://doi.org/10.48550/arXiv.1406.2661

Goodfellow

I. J.

Generative Adversarial Networks

Advances in Neural Information Processing Systems 14 06 2014

https://doi.org/https://doi.org/10.48550/arXiv.1406.2661

[28]

[28] I. C. Moreira, I. Amaral, I. Domingues, A. Cardoso, M. J. Cardoso, and J. S. Cardoso “INbreast: toward a full-field digital mammographic database,” Acad. Radiol., vol. 19, no. 2, pp. 236-248, Feb. 2012. https://doi.org/10.1016/j.acra.2011.09.014

Moreira

I. C.

Amaral

Domingues

Cardoso

M. J.

Cardoso

J. S.

INbreast: toward a full-field digital mammographic database

Acad. Radiol. 19 2 236 248 02 2012

https://doi.org/10.1016/j.acra.2011.09.014

[29]

[29] F. Gao, T. Wu, X. Chu, H. Yoon, Y. Xu, and B. Patel, “Deep Residual Inception Encoder-Decoder Network for Medical Imaging Synthesis,” IEEE Journal of Biomedical and Health Informatics, vol. 24, no. 1, pp. 39-49, Apr. 2020. https://doi.org/10.1109/JBHI.2019.2912659

Gao

Chu

Yoon

Patel

Deep Residual Inception Encoder-Decoder Network for Medical Imaging Synthesis

IEEE Journal of Biomedical and Health Informatics 24 1 39 49 04 2020

https://doi.org/10.1109/JBHI.2019.2912659

[30]

[30] M. Mori et al., “Feasibility of new fat suppression for breast MRI using pix2pix,” Jpn. J. Radiol., vol. 38, no. 11, pp. 1075-1081, Nov. 2020. https://doi.org/10.1007/s11604-020-01012-5

Mori

Feasibility of new fat suppression for breast MRI using pix2pix

Jpn. J. Radiol. 38 11 1075 1081 11 2020

https://doi.org/10.1007/s11604-020-01012-5

[31]

[31] P. Isola, Z. Jun-Yan, T. Zhou, and A. A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017, pp. 5967-5976. https://doi.org/10.1109/CVPR.2017.632

Isola

Jun-Yan

Zhou

Efros

A. A.

Image-to-Image Translation with Conditional Adversarial Networks 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Honolulu, HI, USA

2017

5967 5976

https://doi.org/10.1109/CVPR.2017.632

[32]

[32] P. Wang et al., “Synthesizing the First Phase of Dynamic Sequences of Breast MRI for Enhanced Lesion Identification,” Front. Oncol., vol. 11, Dec. 2021. https://doi.org/10.3389/fonc.2021.792516

Wang

Synthesizing the First Phase of Dynamic Sequences of Breast MRI for Enhanced Lesion Identification

Front. Oncol. 11 12 2021

https://doi.org/10.3389/fonc.2021.792516

[33]

[33] Z. Sani, R. Prasad, and E. K. M. Hashim, “Breast Cancer Detection in Mammography using Faster Region Convolutional Neural Networks and Group Convolution,” ETE J. Res., pp. 1-17, May 2024. https://doi.org/10.1080/03772063.2024.2352643

Sani

Prasad

Hashim

E. K. M.

Breast Cancer Detection in Mammography using Faster Region Convolutional Neural Networks and Group Convolution

ETE J. Res. 1 17 05 2024

https://doi.org/10.1080/03772063.2024.2352643

[34]

[34] M. Fan et al., “Generative adversarial network-based synthesis of contrast-enhanced MR images from precontrast images for predicting histological characteristics in breast cancer,” Phys. Med. Biol., vol. 69, no. 9, p. 095002, Apr. 2024. https://doi.org/10.1088/1361-6560/ad3889

Fan

Generative adversarial network-based synthesis of contrast-enhanced MR images from precontrast images for predicting histological characteristics in breast cancer

Phys. Med. Biol. 69 9 095002 095002 04 2024

https://doi.org/10.1088/1361-6560/ad3889

[35]

[35] O. Young-Tack, E. Ko, and H. Park, “TDM-Stargan: Stargan Using Time Difference Map to Generate Dynamic Contrast-Enhanced Mri from Ultrafast Dynamic Contrast-Enhanced Mri,” in 2022 IEEE 19th International Symposium on Biomedical Imaging (ISBI), Kolkata, India, 2022, pp. 1-5. https://doi.org/10.1109/ISBI52829.2022.9761463

Young-Tack

Park

TDM-Stargan: Stargan Using Time Difference Map to Generate Dynamic Contrast-Enhanced Mri from Ultrafast Dynamic Contrast-Enhanced Mri 2022 IEEE 19th International Symposium on Biomedical Imaging (ISBI)

Kolkata, India

2022

1 5

https://doi.org/10.1109/ISBI52829.2022.9761463

[36]

[36] T. Fujioka et al., “Proposal to improve the image quality of short-acquisition time-dedicated breast positron emission tomography using the Pix2pix generative adversarial network,” Diagnostics, vol. 12, no. 12, p. 3114, Dec. 2022. https://doi.org/10.3390/diagnostics12123114

Fujioka

Proposal to improve the image quality of short-acquisition time-dedicated breast positron emission tomography using the Pix2pix generative adversarial network

Diagnostics 12 12 3114 3114 12 2022

https://doi.org/10.3390/diagnostics12123114

[37]

[37] G. Jiang, Y. Lu, J. Wei, and Y. Xu, “Synthesize Mammogram from Digital Breast Tomosynthesis with Gradient Guided cGANs,” Springer International Publishing, D. Shen et al., Eds. vol. 11769, Oct. 2019. https://doi.org/10.1007/978-3-030-32226-7_89

Jiang

Wei

Synthesize Mammogram from Digital Breast Tomosynthesis with Gradient Guided cGANs Springer International Publishing

Shen

Eds. 11769 11769 10 2019

https://doi.org/10.1007/978-3-030-32226-7_89

[38]

[38] B. Yu, L. Zhou, L. Wang, Y. Shi, J. Fripp, and P. Bourgeat, “Ea-GANs: Edge-Aware Generative Adversarial Networks for Cross-Modality MR Image Synthesis,” IEEE Transactions on Medical Imaging, vol. 38, no. 7, pp. 1750-1762, Jan. 2019. https://doi.org/10.1109/TMI.2019.2895894

Zhou

Wang

Shi

Fripp

Bourgeat

Ea-GANs: Edge-Aware Generative Adversarial Networks for Cross-Modality MR Image Synthesis

IEEE Transactions on Medical Imaging 38 7 1750 1762 01 2019

https://doi.org/10.1109/TMI.2019.2895894

[39]

[39] B. H. Menze et al., “The Multimodal Brain Tumor Image Segmentation Benchmark (BRATS),” IEEE Transactions on Medical Imaging, vol. 34, no. 10, pp. 1993-2024, Dec. 2015. https://doi.org/10.1109/TMI.2014.2377694

Menze

B. H.

The Multimodal Brain Tumor Image Segmentation Benchmark (BRATS)

IEEE Transactions on Medical Imaging 34 10 1993 2024 12 2015

https://doi.org/10.1109/TMI.2014.2377694

[40]

[40] D. Duque-Arias et al., “On power jaccard losses for semantic segmentation,” in Proceedings of the 16th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, Setúbal, Portugal, 2021, pp. 561-568. https://doi.org/10.5220/0010304005610568

Duque-Arias

On power jaccard losses for semantic segmentation Proceedings of the 16th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications

Setúbal, Portugal

2021

561 568

https://doi.org/10.5220/0010304005610568

[41]

[41] M. Berman, A. R. Triki, and M. B. Blaschko, “The Lovasz-Softmax Loss: A Tractable Surrogate for the Optimization of the Intersection-Over-Union Measure in Neural Networks,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018, pp. 4413-4421. https://doi.org/10.1109/CVPR.2018.00464

Berman

Triki

A. R.

Blaschko

M. B.

The Lovasz-Softmax Loss: A Tractable Surrogate for the Optimization of the Intersection-Over-Union Measure in Neural Networks 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition

Salt Lake City, UT, USA

2018

4413 4421

https://doi.org/10.1109/CVPR.2018.00464

[42]

[42] B. Xu, N. Wang, T. Chen, and M. Li, “Empirical Evaluation of Rectified Activations in Convolutional Network,” 2015, arXiv:1505.00853. http://arxiv.org/abs/1505.00853

Wang

Chen

Empirical Evaluation of Rectified Activations in Convolutional Network 2015

arXiv:1505.00853

http://arxiv.org/abs/1505.00853

[43]

[43] A. Horé, and D. Ziou, “Image Quality Metrics: PSNR vs. SSIM,” in 2010 20th International Conference on Pattern Recognition, Istanbul, Turkey, 2010, pp. 2366-2369. https://doi.org/10.1109/ICPR.2010.57

Horé

Ziou

Image Quality Metrics: PSNR vs. SSIM 2010 20th International Conference on Pattern Recognition

Istanbul, Turkey

2010

2366 2369

https://doi.org/10.1109/ICPR.2010.57

How to cite / Cómo citar

S. Cañaveral, C. Mera-Banguero, and R. D. Fonnegra, “Postcontrast Medical Image Synthesis in Breast DCE-MRI Using Deep Learning,” TecnoLógicas, vol. 27, no. 60, e3052, 2024.https://doi.org/10.22430/22565337.3052

Artículo de investigación

Síntesis de imagen médica postcontraste en estudios de DCE-MRI de mama usando aprendizaje profundo

* saracanaveral207005@correo.itm.edu.co CONFLICTOS DE INTERÉS DE LOS AUTORES

Los autores declaran que no existe conflicto de intereses con respecto a la publicación de este trabajo

Sara Cañaveral:

Diseño y realización de los experimentos, análisis e interpretación de los datos, redacción del borrador del manuscrito y revisión final.

Rubén Fonnegra:

contribuyó con el diseño de los experimentos, el análisis e interpretación de los datos, en las revisiones parciales y final del manuscrito.

Carlos Mera-Banguero:

contribuyó con el diseño de los experimentos, el análisis e interpretación de los datos, en las revisiones parciales y final del manuscrito. El autor Carlos Mera-Banguero, inició su participación en este trabajo como docente del Instituto Tecnológico Metropolitano de Medellín (ITM), pero sus contribuciones a la versión final del manuscrito se realizaron estando afiliado a la Universidad de Antioquia.

Resumen

El cáncer de mama es una de las principales causas de muerte en mujeres en el mundo, por lo que su detección de forma temprana se ha convertido en una prioridad para salvar vidas. Para el diagnóstico de este tipo de cáncer existen técnicas como la imagen de resonancia magnética dinámica con realce de contraste (DCE-MRI, por sus siglas en inglés), la cual usa un agente de contraste para realzar las anomalías en el tejido de la mama, lo que mejora la detección y caracterización de posibles tumores. Como limitación, los estudios de DCE-MRI suelen tener un costo alto, hay poca disponibilidad de equipos para realizarlos, y en algunos casos los medios de contraste pueden generar efectos adversos por reacciones alérgicas. Considerando lo anterior, este trabajo tuvo como objetivo el uso de modelos de aprendizaje profundo para la generación de imágenes sintéticas postcontraste en estudios de DCE-MRI. La metodología consistió en el desarrollo de una función de costo denominada pérdida en las regiones con realce de contraste que aprovecha el comportamiento de la captación del agente de contraste. Como resultado se entrenaron dos nuevas arquitecturas de aprendizaje profundo, las cuales hemos denominado G-RiedGAN y D-RiedGAN, para la generación de imágenes postcontraste en estudios de DCE-MRI, a partir de imágenes precontraste. Finalmente, se concluye que las métricas proporción máxima señal ruido, índice de similitud estructural y error absoluto medio muestran que las arquitecturas propuestas mejoran el proceso de síntesis de las imágenes postcontraste preservando mayor similitud entre las imágenes sintéticas y las imágenes reales, esto en comparación con los modelos base en el estado del arte.

Palabras clave: Cáncer de mama imagen médica resonancia magnética generación de imagen postcontraste aprendizaje profundo

1. INTRODUCCIÓN

El cáncer de mama es una enfermedad crónica no transmisible y uno de los principales problemas de investigación en salud pública en el mundo debido a sus altas tazas de incidencia ^[¹^]. Esta enfermedad se debe a alteraciones a nivel del ADN, las cuales afectan la división y el crecimiento normal de las células del tejido. Este es uno de los cánceres que más muertes provoca en el mundo ^[²^] y es uno de los de mayor incidencia, especialmente en la población femenina. Según el observatorio global del cáncer (GLOBOCAN), en el 2022 se registraron 11.5 % de casos nuevos de cáncer de mama, respecto del total de casos de cáncer reportados en el mundo ^[³^].

En general, el cáncer de mama se puede clasificar en cinco tipos principales ^[⁴^]. El primero es el carcinoma lobular in situ (CLIS), el cual es una condición benigna de la mama que se presenta en los lobulillos, pero no se disemina fuera de ellos. El segundo es el carcinoma ductal in situ (CDIS), que es un cáncer no invasivo que se manifiesta en glándulas productoras de leche o en los conductos, sin propagarse fuera de estos. El tercero es el carcinoma ductal infiltrante (CDI), que comienza en los conductos, pero luego se propaga a los tejidos circundantes de la mama. El cuarto es el carcinoma lobulillar infiltrante (CLI), que se origina en las células de los lobulillos mamarios y suele ser el más difícil de detectar porque se propaga de forma dispersa en lugar de formar un bulto definido. El quinto es el cáncer de mama inflamatorio, una forma rara y agresiva de cáncer de mama que, por lo general, no se presenta como un bulto sino como enrojecimiento, hinchazón y calor en la mama. Este último se propaga rápidamente por lo que requiere de tratamiento inmediato.

El tratamiento y el pronóstico dependen del tipo y de las características específicas del cáncer de mama. No obstante, la detección temprana y el tratamiento oportuno son esenciales evitar complicaciones, mejorar el pronóstico del paciente y reducir las tasas de mortalidad ^[⁵^]. Entre los métodos más utilizados para la detección del cáncer de mama están la mamografía y el ultrasonido de mama. La mamografía consiste en aplicar una dosis baja de rayos X con el fin de visualizar los tejidos internos de la mama, y por su bajo costo y su facilidad de aplicación es considerado como el método estándar para la detección ^[⁶^]. Por otro lado, el ultrasonido se diferencia del primero en que utiliza ondas de sonido para visualizar el tejido de la mama ^[⁷^]. Sin embargo, ambos métodos tienen diferentes limitaciones. La mamografía es un examen que, por su dosis de radiación, solo se recomienda en pacientes mayores de 40 años y no se puede usar en mujeres embarazadas ni en seguimiento, mientras que el ultrasonido tiene una alta dependencia de la experticia de quien realiza el examen. Una limitación común es que ambos métodos suelen fallar cuando las mamas tienen una densidad tisular alta ^[⁶^{], [}⁸^].

Cuando la mamografía o el ultrasonido no son concluyentes, se usan exámenes más especializados que requieren la aplicación, vía intravenosa, de un compuesto químico denominado agente de contraste ^[⁹^]. La función del agente de contraste es aprovechar el comportamiento metabólico elevado de las células cancerígenas para resaltarlas en el tejido mamario. Tres exámenes de este tipo son la mamografía digital con realce de contraste (CEDM, por sus siglas en inglés), la imagen de resonancia magnética dinámica con realce de contraste (DCE-MRI) y la ecografía con contraste (CEUS, por sus siglas en inglés). El primero consiste en dos tomas de rayos X de la mama, una antes de aplicar el agente de contraste y con baja radiación (mamografía convencional); y otra posterior a la aplicación de agente de contraste y de alta radiación. A partir de ambas imágenes se genera una nueva imagen en postproceso denominada imagen recombinada, en la cual se resaltan las posibles regiones con absorción del agente de contraste en el tejido ^[¹⁰^]. En el caso de la resonancia magnética contrastada se usan ondas magnéticas para captar la absorción del agente de contraste en el tiempo, el cual reacciona de manera acelerada en los tejidos con posibles lesiones ^[¹¹^]. El examen de DCE-MRI toma unas imágenes de ambos órganos antes de aplicar el medio de contraste y una serie de imágenes posteriores a la aplicación del contraste. Estos métodos son más sensibles a la detección debido a que proporcionan información más precisa sobre el estado de las mamas y las posibles lesiones, lo que permite la caracterización de posibles tumores. Para el caso de la CEUS, emplea un contraste intravascular que permite valorar en tiempo real la microcirculación y la perfusión vascular y tisular del tejido ^[12]. A pesar de sus ventajas, estos exámenes están limitados por su costo, por el prolongado tiempo de adquisición y por la escasez de equipos para su realización. Adicionalmente, el agente de contraste puede provocar reacciones alérgicas o adversas en los pacientes ^[¹³^].

Entre la búsqueda de soluciones a estas limitaciones, múltiples trabajos han mostrado el potencial uso de redes neuronales de aprendizaje profundo para la generación de imágenes sintéticas que pueden replicar el efecto del agente de contraste, sin la utilización de este ^[¹⁴^]-[¹⁸^], a su vez que preservan la calidad visual de las imágenes.

En este trabajo se propuso como contribución una función de costo denominada CeR-Loss, la cual aprovecha el comportamiento de la captación del agente de contraste para generar imágenes sintéticas postcontraste a partir de imágenes precontraste en estudios de DCE-MRI. Esta función se usa en dos nuevas arquitecturas de aprendizaje profundo, que hemos denominado G-RiedGAN y D-RiedGAN, las cuales centran su atención en las regiones de realce de contraste para mejorar el proceso de generación de las imágenes sintéticas postcontraste.

2. REVISIÓN DE LITERATURA

En general, el aprendizaje profundo es una rama del aprendizaje de máquinas basado en el uso de redes neuronales artificiales. Estas últimas se crean a partir de la interconexión de capas de neuronas artificiales que tienen la capacidad de auto ajustarse en función de la entrada y la cantidad de datos que procesan ^[¹⁹^]. Una de las áreas de aplicación de las redes de aprendizaje profundo es la síntesis de imágenes. Esta consiste en la generación de imágenes artificiales a partir de una descripción visual o textual de su contenido. En el campo de la medicina, la síntesis de imágenes se ha utilizado para múltiples propósitos; por ejemplo, para aumentar los conjuntos de datos que entrenan modelos para ayuda al diagnóstico de enfermedades, como el cáncer ^[²⁰^]; para mejorar la resolución de las imágenes obtenidas en ciertas modalidades de imágenes ^[²¹^]; para segmentar regiones de interés en la imagen ^[22]; y para obtener la imagen de una modalidad de examen a partir de los datos de otra modalidad ^[²³^], entre otras aplicaciones. La importancia del uso de la síntesis de imágenes en el campo médico radica en su potencial, no solo para ayudar a mejorar la precisión en el diagnóstico de ciertas enfermedades, sino también en reducir el tiempo y costo de captura en ciertas modalidades de imágenes diagnosticas, lo que puede permitir ampliar la cobertura de este tipo de exámenes médicos ^[²⁴^].

Los modelos para la síntesis de imágenes se pueden agrupar, de manera general, en dos: los autoencoders y las redes generativas adversarias (GAN, por sus siglas en inglés). Los autoencoders son arquitecturas que tienen dos partes, un codificador cuyo objetivo es reducir la dimensionalidad de los datos de entrada para aprender la representación abstracta (o latente) de su distribución; y un decodificador que reconstruye la información desde el espacio latente a un espacio de mayor dimensión ^[²⁵^]. Una variación de los autoencoders es una arquitectura denominada U-Net, la cual busca subsanar el problema de pérdida de información de los autoencoders, en parte copiando, la información de las capas del codificador a las capas del decodificador lo que permite que este mejore la reconstrucción de información del espacio de mayor dimensión ^[²⁵^{], [}²⁶^].

Las arquitecturas GAN se componen de un generador y un discriminador. Por un lado, el generador es una red convolucional que intenta aprender la distribución latente de los datos reales para generar información sintética a partir de una muestra de ruido aleatorio. Por otro lado, el discriminador es una red convolucional complementaria que se comporta como un experto que diferencia entre la información real y la sintética. El entrenamiento de ambas redes se realiza de manera adversaria, así, el generador busca mejorar el proceso de generación para engañar al discriminador, mientras que este último busca mejorar su experticia para no dejarse engañar por el generador. Este aprendizaje adversario es lo que le otorga el nombre a esta arquitectura ^[²⁷^].

Ambos tipos de arquitecturas generativas se han utilizado en el ámbito médico y en el contexto de ayuda al diagnóstico de cáncer de mama, los métodos de síntesis de imagen se pueden usar para generar imágenes postcontraste a partir de imágenes precontraste en estudios de DCE-MRI y CEDM. A esta aplicación se le conoce como cambio de dominio y consiste en transformar una imagen x, que es la imagen precontraste, a otra imagen similar Y, que es la imagen postcontraste ^[²¹^{], [}²³^]. Entre los trabajos de esta línea de investigación en ^[¹⁵^] describen una arquitectura generativa poco profunda, denominada SD-CNN, la cual se entrena para generar parches sintéticos de imágenes recombinadas postcontraste en estudios de CEDM a partir de parches de imágenes de mamografías digitales de campo completo. En este estudio se utilizaron dos bases de datos de imágenes independientes para extraer los parches. La primera es una base de datos pública, denominada INbreast ^[²⁸^], de la cual usaron 89 estudios con clasificación BIRADS 1,2 (como benignos), y 5 y 6 (como malignos). La otra base de datos utilizada es privada y consiste en 49 estudios con clasificación BIRADS 4 o 5, confirmada por biopsia, de los cuales 23 son benignos y 26 malignos. Los autores indican que el uso de los parches sintéticos generados con su arquitectura mejora la precisión de un clasificador de parches de mamografía. Una de las limitaciones de esta arquitectura es que solo permite generar parches sintéticos de 3x3 píxeles a partir de parches de 15x15 píxeles, lo que restringe su uso en la síntesis de imágenes completas, además la poca profundidad de la red conlleva a que haya pocos niveles de abstracción, lo que puede reducir la capacidad para sintetizar estructuras complejas como las que definen los tejidos de la mama.

Dando continuación al trabajo anterior, en ^[²⁹^] propusieron una arquitectura tipo U-Net denominada RiedNet. Entre las modificaciones que propusieron los autores a la arquitectura U-Net de base, se introducen capas convolucionales y de convolucionales que reemplazan las capas tipo pooling, además de la agregación de un tipo de bloque llamado residual inception, el cual busca subsanar el problema del desvanecimiento del gradiente por la profundidad de la red. La arquitectura fue diseñada para la generación sintética de imágenes en el contexto médico y se evalúa, en parte en la generación de imágenes recombinadas postcontraste de estudios de CEDM a partir de imágenes de baja energía. Como limitación, la red fue entrenada para sintetizar bloques de 128x128 píxeles por lo que la síntesis de imagen completa considera el promedio de los bloques generados, lo que puede causar un efecto borroso en los tejidos reconstruidos de la mama. En este caso específico, los experimentos se realizaron sobre 139 estudios de mamografía contrastada, de los cuales 112 fueron usados para entrenar la arquitectura y 27 para prueba.

En cuanto al uso de estudios de DCE-MRI para la detección de cáncer de mama, los autores en ^[³⁰^] utilizan una arquitectura tipo GAN condicional, denominada Pix2Pix ^[³¹^], que tiene como objetivo generar imágenes contrastadas ponderadas en T1, con supresión de grasa, a partir de imágenes sin contraste. En general, la arquitectura Pix2Pix está compuesta por un generador tipo U-Net y un discriminador tipo PatchGAN ^[³¹^]. Las imágenes usadas en este trabajo fueron adquiridas con una resolución de 3T, aunque fueron redimensionadas a un tamaño de 512 x 512 píxeles. En total se usaron 2630 pares de imágenes de 48 estudios de DCE-MRI. De estas, 2112 imágenes se destinaron para el entrenamiento de la arquitectura, 418 para validación y 90 para pruebas. De acuerdo con los autores, el modelo suele presentar errores cuando se usa en imágenes de mamas densas; sin embargo, resaltan el potencial de la arquitectura Pix2Pix en la generación sintética de imágenes contrastadas de DCE-MRI. Otro trabajo en esta línea es el presentado por ^[¹⁷^] en el que se propone una arquitectura tipo GAN, denominada TSGAN, la cual se compone de cuatro modelos, uno tipo U-Net y que es entrenada para generar imágenes ponderadas en T1 postcontraste, a partir de imágenes precontraste; dos discriminadores: uno global que se centra en diferenciar entre imágenes postcontraste reales y falsas, y otro local que se encarga de diferenciar entre regiones de interés reales y falsas; y finalmente, un modelo tipo U-Net que se entrena para generar máscaras de segmentación sobre las lesiones presentes en la mama.

Igualmente, en ^[³²^] los autores proponen una arquitectura denominada síntesis de realce de bordes (EDLS, por sus siglas en inglés) para sintetizar secuencias dinámicas a partir de imágenes T1WI en estudios de MRI. Los autores indican que la arquitectura propuesta mejora la identificación de lesiones sin el uso del agente de contraste. En ^[³³^] los autores investigan el uso de arquitecturas GAN para generar imágenes de MRI de mama realistas, esto con el fin de mejorar la detección de lesiones en las mamas. Por otro lado, en ^[34] se propone el uso de una arquitectura CycleGAN para traducir imágenes entre diferentes dominios sin necesidad de pares de datos emparejados, mejorando la calidad de las imágenes sintetizadas.

En ^[³⁵^] propusieron una arquitectura denominada TDM-StarGAN que se emplea para generar imágenes sintéticas de las fases de estudios DCE-MRI convencionales a partir de imágenes estudios de DCE-MRI ultrarrápidos. En este trabajo los autores modificaron la arquitectura StarGAN ^[²⁹^] para utilizarla con imágenes emparejadas, además de considerar la pérdida entre los mapas de diferencia de las imágenes generadas y la zona de captación, obtenida a partir de la diferencia entre la última imagen postcontraste y la imagen precontraste. Como conclusión, los autores indican que el modelo propuesto mejora los modelos de base usados (Pix2Pix y StarGAN) dado en que este, se enfoca en sintetizar correctamente las regiones asociadas a las lesiones.

Respecto a la síntesis en otras modalidades de imagen, en ^[³⁶^] propusieron el uso de una arquitectura Pix2Pix para mejorar la calidad de imágenes de tomografía por emisión de positrones de recuento bajo (dbPET, por sus siglas en inglés), la cual se ve afectada por la respiración de los pacientes. Los experimentos se realizaron con 49 estudios que incluyen 32 con resultados anormales y 17 con resultados normales. Cada imagen se redimensionó a 958 x 940 píxeles. De acuerdo con los autores, el uso de la arquitectura Pix2Pix puede ser usada para abordar este problema mejorando la calidad de imágenes dbPET adquiridas con tiempos cortos de adquisición. Con miras en reducir las dosis de radiación usadas en los exámenes para el diagnóstico de cáncer de mama en ^[¹⁸^{], [}³⁷^] han desarrollado varios trabajos en los que se han entrenado diferentes modelos para generar imágenes de mamografía digital, a partir de imágenes de tomosíntesis. En sus trabajos, los autores presentaron una arquitectura denominada GGGAN que usa un generador tipo U-Net y un discriminador, que es una variante del discriminador Pix2PixHD, que en su función de pérdida usa los mapas de diferencia entre los gradientes de las imágenes generadas en ciertas capas intermedias.

En un contexto diferente al diagnóstico de cáncer de mama, en ^[³⁸^] los autores diseñaron una arquitectura basada en Pix2Pix, denominada Ea-GAN, la cual considera la inclusión de los mapas de diferencias de los bordes entre las imágenes generadas y las imágenes reales, tanto en la función de pérdida del discriminador como del generador, a fin de mejorar la síntesis de estos elementos y reducir el efecto de suavizado que suele producirse en las redes tipo U-Net ^[¹⁴^]. En este trabajo los autores usaron una base de datos denominada BRATS2015 ^[³⁹^] que contienen imágenes de MRI de 74 pacientes con resolución 240x240x155 (voxels), las imágenes fueron preproceadas y normalizadas con valores de intensidad en el rango [-1, 1].

A pesar de que existen diferentes trabajos que proponen modelos generativos para la síntesis de imágenes diagnósticas para la detección del cáncer de mama, aún se evidencian algunas limitaciones. Esto se debe en cierta medida a que las imágenes de mama poseen una mayor variabilidad en densidad de tejido, lo cual implica que, al trabajar con los agentes de contraste mediante los modelos generativos, existan algunas restricciones debido a que la visualización de dicho agente de contraste disminuye en función de la intensidad de los pixeles.

En la contribución de soluciones al problema de generación sintética de imágenes diagnósticas para la detección del cáncer de mama, en este trabajo se propone una arquitectura denominada D-RiedGAN que sigue el enfoque de una arquitectura Pix2Pix con bloques de incepción residual, pero que centra su atención en las regiones de realce de contraste en estudios de DCE-MRI.

3. METODOLOGÍA

El desarrollo metodológico de este trabajo parte de la implementación de una línea base de tres modelos para sintetizar imágenes de respuesta temprana al medio de contraste, ponderadas en T1 con saturación de grasa, en estudios de DCE-MRI. A partir de la línea base se crean dos arquitecturas ensambladas y se propone dos nuevas arquitecturas, denominadas G-RiedGAN y D-RiedGAN. En general, los modelos generativos utilizados en este trabajo se entrenan para que, a partir de una imagen sin contraste x, se generen imágenes sintéticas postcontraste 𝑦̂ = 𝐺(𝑥). El objetivo es que el modelo generador 𝐺(𝑥) aprenda a generar la respuesta temprana al medio de contraste y, por tanto, hacer que las imágenes sintéticas sean similares a las imágenes reales postcontraste y.

3.1 Optimización de regiones con realce de contraste

Los modelos convencionales para la síntesis de imágenes han mostrado importantes avances en el área de procesamiento de imágenes naturales. Sin embargo, también han mostrado múltiples limitaciones, especialmente al tratarse de imágenes especializadas como las imágenes médicas. Para solventar estas limitaciones, este trabajo propone un esquema que integra una función de costo que induce la información de las regiones de realce de contraste durante el entrenamiento. El objetivo de esta función es orientar el proceso de síntesis a la correcta generación del realce de contraste en las imágenes postcontraste.

En términos de intensidad de los píxeles, el realce producido por el agente de contraste se puede identificar a partir de las intensidades más altas en la imagen postcontraste. Específicamente, para detectar los píxeles con mayores niveles de intensidad en la imagen postcontraste se utiliza una estrategia de umbralización global, tal y como se muestra en (1), en donde y (i, j) es el píxel en la posición (i, j) en la imagen postcontraste y t es el valor del umbral.

Por la sensibilidad del parámetro T, respecto a las variaciones de intensidades en las imágenes de diferentes estudios de DCE-MRI, este parámetro se fija para cada imagen utilizando el percentil 90 de su histograma. Es decir, se mantienen como regiones de realce de contraste el 10 % de los píxeles de la imagen con mayor intensidad. Después, se emplean las operaciones morfológicas de cierre y apertura para suavizar los contornos y eliminar pequeñas brechas entre regiones adyacentes. Ambas operaciones se aplican utilizando un elemento estructurante con forma circular de 7x7 píxeles. Este algoritmo se aplica tanto a la imagen sintética postcontraste, como a la imagen real postcontraste, y se les denominan máscaras de realce de contraste real (F _y ) y sintetizada (F _G(x) ).

Una vez estimadas las regiones con realce de contraste, se propone una función de costo con el fin de minimizar las diferencias entre esas regiones de las imágenes reales y de las sintetizadas. Dado que las regiones de realce de contraste son de tipo binario, optimizarlas implica emplear una función de costo basada en similitud de conjuntos, como lo es el índice de Jaccard ^[40]. Específicamente, el índice de Jaccard entre las regiones de contraste real (F _y ) y generada (F _G(x) ) se calcula usando (2).

Como el índice de Jaccard no es una función convexa ni derivable, su optimización usando el algoritmo de gradiente descendente, en el contexto de las redes neuronales, puede llevar a soluciones subóptimas o incluso a errores de convergencia. De acuerdo con ^[⁴¹^], es posible aplicar una aproximación convexa con el fin de obtener una función soluble a partir de la función discreta, que a su vez es optimizable por métodos de primer orden como el gradiente descendente. Esta extensión está basada en la aproximación subrogada de Lovasz, y se estima a partir de un conjunto de predicciones erróneas 𝑚(𝑐) ∈ 𝑅^𝑝 para la clase 𝑐 ∈ 𝐶, en vez del vector de predicciones discretas {0, 1}^𝑝 . Considerando que una función ∆:{0, 1}^{𝑝 ↦ 𝑅𝑝} es submodular (como la función 𝐽𝑐), su extensión surrogada de Lovasz está definida por (3).

Donde, 𝑔_𝑖(𝑚) = ∆({𝜋₁. . . 𝜋_𝑖 }) − ∆({𝜋₁. . . 𝜋_𝑖−1}) siendo 𝜋 una permutación en orden de los componentes de 𝑚 en orden descendente. Naturalmente, ∆̅ es la función cerrada estricta de ∆, es linear por partes e interpola los valores de ∆ en 𝑅^𝑝. Finalmente, para calcular la función surrogada de Lovasz del índice de Jaccard en (2) (∆̅ _𝐽𝑐) se utiliza (4).

En donde 𝑓(𝑦, 𝑦∗) corresponde a la función que permite estimar el vector de errores m a partir de las máscaras de contraste real o generada después de aplicar la función softmax. Por último, con el fin de evitar las variaciones por dependencia del tamaño del batch y el número de clases, se busca optimizar la función Lovasz a través de la combinación de esta con la entropía cruzada binaria (BCE, por sus siglas en inglés) descrita en (5), tal como lo sugieren los autores en ^[⁴¹^].

Finalmente, para optimizar los modelos propuestos se usa una función de costo que combina la BCE y la extensión subrogada de Lovasz sobre las regiones de realce de contraste, cuya tarea es optimizar la síntesis de esas regiones. Esta función se presenta en (6) y se ha denominado CeR-Loss.

3.2 G-RiedGAN y D-RiedGAN

Con base en los elementos antes descritos, la Figura 1a muestra la arquitectura general del primer modelo propuesto, denominado G-RiedGAN. Esta arquitectura integra, después del generador, el filtro para la detección de las regiones de realce del contraste con el que se busca retroalimentar al generador y guiar su aprendizaje para que replique el realce de contraste. En este caso se mantiene inmutable el discriminador PatchGAN, cuya tarea es identificar si el par de imágenes precontraste y postcontraste son reales o sintetizadas. La (7) presenta la función de pérdida del generador de la G-RiedGAN. Esta función considera la pérdida general causada por la diferencia a nivel de pixeles entre la imagen real y la imagen generada y también la pérdida generada entre las regiones de realce de contraste (CeR-Loss) de esas imágenes.

Figura 1 Arquitecturas G-RiedGAN y D-RiedGAN Fuente: elaboración propia.

Por otra parte, denominamos D-RiedGAN a la arquitectura que incluye la diferencia entre las regiones de realce de contraste tanto en el generador como en el discriminador. Esto permite que el generador incremente su atención en esas regiones, al considerarlas en la contraparte adversaria, lo que ayuda a mejorar la calidad de las síntesis del modelo. La arquitectura D-RiedGAN se presenta en la Figura 1b.

Figura 1 Arquitecturas G-RiedGAN y D-RiedGAN Fuente: elaboración propia.

Para realizar el aprendizaje adversario, el discriminador de la D-RiedGAN se modifica para recibir una tripleta de imágenes: la imagen de entrada, la imagen sintética o real y las regiones de realce de contraste de la imagen real o de la imagen sintética. Así, (8) y (9) definen las funciones de pérdida del generador y del discriminador de la D-RiedGAN, respectivamente, las cuales incluyen la pérdida de las regiones de realce de contraste (CeR-Loss).

3.3 Modelos Base

Como modelos de línea base para la evaluación de nuestro modelo se usaron las arquitecturas Pix2Pix ^[³¹^], RiedNet ^[²⁹^] y Ea-GAN ^[³⁸^]. La selección de estas arquitecturas obedece a los resultados que se han reportado en su uso en problemas de síntesis de imágenes médicas en distintas modalidades.

3.3.1 Pix2Pix

Pix2Pix ^[³¹^] es una arquitectura que utiliza información condicional para guiar el proceso de generación, lo que significa que genera una imagen de un dominio a partir de una imagen de entrada que pertenece a otro dominio. La arquitectura Pix2Pix consta de un generador tipo U-Net, un discriminador PatchGAN y una función objetivo que combina la pérdida adversaria que ayuda a que las imágenes generadas traten de ser indistinguibles de las reales, con una pérdida al nivel de los píxeles, que busca que haya una coherencia en el contenido entre la imagen generada y la imagen real. Una de las ventajas discutidas en la literatura de esta arquitectura es que preserva los detalles finos de las imágenes en el proceso de generación, lo que es crucial para la generación de imágenes postcontraste.

3.3.2 RiedNet

RiedNet ^[²⁹^] es una arquitectura tipo U-Net, modificada para usar capas convolucionales y deconvolucionales. Esta arquitectura también incluye un bloque llamado residual inception que, en conjunto, buscan limitar el problema del desvanecimiento del gradiente. A diferencia de la propuesta original, en este trabajo la arquitectura RiedNet se entrenó para sintetizar imágenes completas, también se reemplazó la función de activación ReLU de las capas intermedias por la función Leaky ReLU, la cual permite que una pequeña pendiente positiva esté activa, evitando así la completa supresión de la información en esa parte de la red neuronal ^[⁴²^]. La función de activación de la capa de salida se cambió por la función tangente hiperbólica. Estos cambios se implementaron para mantener el rango de valores de las imágenes de entrada a medida que se codifica la información.

3.3.3 Ea-GAN

A diferencia de las dos arquitecturas anteriores, Ea-GAN ^[³⁸^] incluye en el proceso de aprendizaje los bordes de los objetos tanto de la imagen original, como de la imagen sintetizada, calculados a partir de un filtro Sobel. De acuerdo con los autores, incluir la información de los bordes en el proceso de generación ayuda a la arquitectura a centrarse en la síntesis de las texturas y los bordes de los objetos en las imágenes. La arquitectura Ea_GAN tiene dos variaciones; la gEa-GAN, la cual introduce la diferencia entre los bordes de las imágenes sólo en la función de pérdida del generador, y la dEa-GAN la cuál además incluye la diferencia de los bordes de las imágenes en el discriminador.

Considerando estas arquitecturas de base, y partiendo de la premisa que su fusión puede mejorar el proceso de síntesis, se procedió a realizar un ensamble entre ellas. El primer ensamble, al que hemos denominado RiedGAN, integra a la arquitectura RiedNet un discriminador tipo PatchGAN, esto con el fin de mejorar el proceso de síntesis utilizando un esquema de aprendizaje adversario. Sustancialmente, el cambio principal en esta red, con respecto a la Pix2Pix original, es la estructura del generador, el cual en lugar de usar un generador tipo U-Net tradicional, usa el generador tipo U-Net de la arquitectura RiedNet.

Partiendo de la idea del uso de los mapas de bordes de la arquitectura Ea_GAN, también se integró el uso de los mapas de bordes a la arquitectura RiedGAN. Este ensamble generó dos modelos, el primero denominado gEa-RiedGAN, en el que se integran los mapas de bordes en el generador de la RiedGAN, y el segundo llamado dEa-RiedGAN, el cual integra la información de los mapas de bordes tanto en el generador como en el discriminador.

3.4 Métricas de evaluación

Para validar la calidad de las imágenes sintéticas generadas se utilizaron las métricas cuantitativas más comunes en la literatura: Error absoluto medio (MAE, por sus siglas en inglés), proporción máxima señal ruido (PSNR, por sus siglas en inglés) y el índice de similitud estructural (SSIM, por sus siglas en inglés). El MAE estima la diferencia píxel a píxel entre las intensidades de un par de imágenes calculando el promedio entre esas diferencias. Así, para una imagen real 𝑦𝑦, y una imagen generada 𝐺(𝑥), ambas de tamaño 𝑚𝑥𝑛 píxeles, el MAE se calcula como indica (10). En este caso, un MAE bajo indica un error menor entre la imagen sintetizada y la imagen de referencia. Valores cercanos a 0 son ideales, indicando una alta precisión. Por otro lado, un MAE alto indica un mayor error entre la imagen sintetizada y la imagen de referencia. Esto sugiere una baja precisión en la síntesis de la imagen

El PSNR es una métrica empleada para definir la relación entre la máxima energía que emite una señal de cualquier tipo, y el ruido que afecta la representación de dicha señal, siendo su unidad de medida los decibeles (dB) ^[⁴³^]. Entre mayor sea el valor del MAE, mayor es la similitud que hay entre las dos imágenes. En (11) se presenta la formulación del PSNR, en donde el término 𝑀𝐴𝑋_𝑖 es el valor de intensidad máximo posible para las imágenes. Un PSNR alto indica una mayor similitud entre la imagen sintetizada y la imagen de referencia, mientras valor bajo indica una mayor diferencia entre la imagen sintetizada y la imagen de referencia.

El SSIM considera que los píxeles tienen fuertes interdependencias, especialmente cuando están cerca. Estas dependencias contienen información sobre luminancia, contraste y estructura de los objetos en la imagen y se pueden estimar de manera conjunta como indica (12) ^[⁴³^], en donde 𝜇, 𝜎 y 𝜎² son, respectivamente, las medias, desviaciones estándar y covarianzas entre las imágenes, y 𝑐₁ 𝑦 𝑐₂ son dos variables que estabilizan la división para denominadores cercanos a cero. Para este caso, un SSIM cercano a 1 indica una alta similitud estructural entre la imagen sintetizada y la imagen de referencia. Un SSIM bajo indica una menor similitud estructural. Valores por debajo de 0.4 sugieren una baja calidad en términos de estructura y textura de la imagen.

Por último, los mapas de diferencia se calculan entre una imagen generada y una imagen real, donde se comparan píxeles individuales para evaluar la discrepancia entre ellos. Para calcular estos mapas, se empleó (13). Esta fórmula describe un proceso en el que se analizó cada píxel de las imágenes, y se calculó la diferencia en intensidad entre el mismo píxel en otra imagen. Cada píxel en una imagen tiene un valor que representa su intensidad, la comparación de píxeles implica restar el valor del píxel correspondiente en una imagen del valor del mismo píxel en otra imagen. El propósito de esta comparación es cuantificar y visualizar las diferencias entre las imágenes.

4. RESULTADOS Y DISCUSIÓN 4.1 Configuración experimental

Los resultados reportados en este trabajo fueron obtenidos bajo la configuración experimental descrita en la Tabla 1. Esta tabla muestra los valores de los hiperparámetros usados en los diferentes modelos y ajustados según las capacidades de cómputo disponibles. Los experimentos se ejecutaron en una estación de trabajo con una CPU Intel Xeon Silver 4108 y una GPU NVIDIA Quadro P2000, con memoria 4GB. Se emplea lenguaje de programación Python versión 3.8 con una versión Pytorch 2.0.

Tabla 1 Hiperparámetros fijados en los experimentos

Fuente: elaboración propia.

4.2 Base de datos

Para el entrenamiento de los modelos se utilizó una base de datos privada, retrospectiva, y anonimizada de estudios de DCE-MRI de 197 pacientes. Cada estudio contiene imágenes estructurales potenciadas en T1 y T2, imágenes de difusión (DWI), y de DCE (6 dinámicos). Para este trabajo se tomó la respuesta en la secuencia T1 con saturación de grasa antes de la aplicación de medio de contraste (𝑥) y esta misma imagen con la aplicación posterior del medio de contraste en etapa temprana (𝑦). Debido a la naturaleza retrospectiva de la base de datos, se seleccionaron estudios con distintos tipos de resonadores de 1.5T, con compuestos basados en gadolinio, y con dosis entre 0.014 y 0.016 ml/mol. Estos estudios también cuentan con al menos una anomalía (benigna o maligna) anotada por expertos radiólogos usando el sistema BIRADS. La selección de los estudios se hizo manteniendo un número balanceado entre los estudios benignos y malignos.

Dado que este trabajo se centra en la síntesis de las regiones de contraste, se seleccionaron aquellas imágenes en las cuales se anotan las regiones con el fin de asegurar el comportamiento de la captación. Como resultado, se obtienen 937 imágenes normalizadas en el rango [-1, 1], de las cuales 718 se usaron para el entrenamiento y 219 para la validación. Las imágenes, que originalmente tenían resoluciones desde 480x480 píxeles hasta 512x512 píxeles fueron todas redimensionadas a un tamaño de 240x240 píxeles.

4.3 Evaluación comparativa

La Figura 2 presenta una comparación gráfica del PSNR, SSIM y MAE obtenidos por los modelos sobre el conjunto de imágenes de validación. El gráfico muestra que los modelos G-RiedGAN y D-RiedGAN, propuestos en este trabajo, son los que obtienen el mejor desempeño. Esto indica que la estrategia de considerar las regiones de realce de contraste en el proceso de síntesis de las imágenes, a través de la función CeR-Loss, mejora la calidad de las imágenes sintéticas en función de las métricas cuantitativas.

Figura 2 Gráfico de dispersión para el PSNR, SSIM y MAE en los modelos base, ensamblados y propuestos Fuente: elaboración propia.

Aunque G-RiedGAN y D-RiedGAN presentan un desempeño ligeramente inferior en MAE comparado con RiedGAN, la reducción en el MAE para D-RiedGAN es marginal y se ve compensada por mejoras significativas en PSNR y SSIM. Esto sugiere que, aunque RiedGAN tiene una precisión ligeramente mayor en el promedio de los errores de píxeles individuales, genera imágenes más borrosas en las estructuras internas, lo cual es menos adecuado para la síntesis de imágenes médicas.

En comparación con Pix2Pix ^[²⁸^], un modelo ampliamente utilizado en estudios similares, los modelos G-RiedGAN y D-RiedGAN demuestran un mejor desempeño en PSNR y SSIM, especialmente en la síntesis de regiones de realce de contraste y en la reducción del ruido, superando así las limitaciones de Pix2Pix en mamas densas.

Por otro lado, la Figura 3 muestra algunas imágenes postcontraste reales y generadas a partir de su contraparte sin contraste. En general, es posible evidenciar que los modelos logran generar de manera eficiente las estructuras anatómicas de mayor tamaño, salvo algunas diferencias notorias entre las intensidades de las estructuras de la caja torácica. A pesar de esto, es notable que los modelos G-RiedGAN y D-RiedGAN sintetizan las regiones de realce de contraste de manera superior en comparación con modelos de referencia como RiedNet ^[¹²^], Pix2Pix ^[²⁸^] y EaGAN ^[³²^]. Estos modelos sirvieron como base para el desarrollo de G-RiedGAN y D-RiedGAN y fueron empleados para realizar comparaciones siguiendo la misma metodología. Si bien las redes mencionadas son efectivas en la generación de imágenes en sus respectivas investigaciones, uno de los propósitos de este estudio era evaluar su desempeño específico con este tipo de imágenes médicas. A partir de los resultados obtenidos, se propusieron las redes G-RiedGAN y D-RiedGAN, las cuales integran las mejores características de los modelos preexistentes, logrando una síntesis de imágenes con mayor precisión y calidad en las regiones de realce de contraste. Además, evidencian un buen desempeño en comparación con los modelos del estado del arte, especialmente en términos del ruido y las borrosidades generadas. Esto puede apreciarse de mejor manera en la Figura 4, la cual muestra los mapas de diferencias entre las imágenes sintéticas y las imágenes reales. Como se puede observar, los mapas de diferencia asociados a los modelos propuestos (G-RiedGAN y D-RiedGAN) son los que tienen la menor diferencia entre las imágenes sintéticas y las imágenes reales.

Figura 3 Resultados comparativos entre los modelos evaluados. Las regiones aumentadas corresponden con proyecciones en donde se presenta captación del agente de contraste Fuente: elaboración propia.

Figura 4 Mapas de diferencia entre las imágenes reales y generadas por los modelos evaluados. Fuente: elaboración propia.

4.4 Impacto de la función de costos de las regiones con realce de contraste (CeR-Loss)

Debido a que la función de costo propuesta en este trabajo, denominada CeR-Loss, es el componente más importante de la arquitectura D-RiedGAN, la cual además es la que permite que el modelo obtenga los mejores resultados en comparación con los demás modelos, se realiza una prueba experimental con el fin de determinar el impacto de esta función en el entrenamiento del modelo. En este sentido, se adopta la misma configuración de la arquitectura D-RiedGAN presentada en la sección anterior, pero se varían los parámetros 𝜆_𝑙1 y 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} de manera en que se mantiene por encima el 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} en todos los casos. La Figura 5 muestra tres experimentos, para 𝜆_𝑙1 = 20 y 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} = 30; 𝜆_𝑙1 = 40 y 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} = 60; y 𝜆_𝑙1 = 100 y 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} = 150.

Figura 5 Evaluación de impacto de la función CeR-Loss en el desempeño de la arquitectura D-RiedGAN Fuente: elaboración propia.

La Figura 5 muestra que para las métricas MAE y PSNR existe una tendencia positiva que mejora los resultados de esas métricas a medida que los valores de 𝜆_𝑙1 y 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} incrementan, obteniendo su mejor desempeño cuando 𝜆_𝑙1 = 100 y 𝜆_{𝐿𝑜𝑣𝑎𝑠𝑧} = 150. Esto confirma el aporte positivo en los resultados por parte de la función de costo CeR-Loss.

5. CONCLUSIONES

En este trabajo se propuso una función de costo denominada CeR-Loss, la cual aprovecha el comportamiento de la captación del agente de contraste para generar imágenes sintéticas postcontraste a partir de imágenes precontraste en estudios de DCE-MRI. Esta función se usa en dos nuevas arquitecturas de aprendizaje profundo, que hemos denominado G-RiedGAN y D-RiedGAN, las cuales centran su atención en las regiones de realce de contraste para mejorar el proceso de generación de las imágenes sintéticas postcontraste. Estas arquitecturas establecen un aporte hacia la eliminación del uso de agentes de contraste y a la reducción del costo de los estudios de DCE-MRI usados como ayuda para la detección del cáncer de mama.

Las arquitecturas G-RiedGAN y D-RiedGAN que se proponen este trabajo integran elementos de las arquitecturas RIED-Net y Pix2Pix bajo la estructura de la arquitectura EaGAN. A diferencia de esta última, la D-RiedGAN integra un filtro para la detección de las regiones de realce de contraste que son las zonas clave de la síntesis en el problema de análisis de imágenes de DCE-MRI para la detección y diagnóstico del cáncer de mama. Las regiones de contraste detectadas en la imagen sintética se usan para guiar el aprendizaje de la red a partir de la función de pérdida Lovász y BCE integradas a la función de pérdida del generador y del discriminador (CeR-Loss).

La evaluación comparativa se realizó teniendo en cuenta dos enfoques. El primero comparó los modelos propuestos con la función CeR-Loss, contra los modelos base del estado del arte y un grupo de modelos ensamblados. Los resultados, considerando las métricas MAE, PSNR y SSIM, muestran que los modelos propuestos obtienen un mejor desempeño en la síntesis de las regiones de realce de contraste en términos del ruido y borrosidades. El segundo enfoque evaluó el impacto de la función de pérdida CeR-Loss en el proceso de aprendizaje. Los resultados, en términos de las mismas métricas, muestran un impacto positivo en la síntesis de las regiones de contraste a medida que se pondera con un valor mayor la función CeR-Loss.

Si bien la validación se realizó utilizando solo métricas cuantitativas basadas en las intensidades de los píxeles de las imágenes sintéticas, se reconoce la necesidad de a futuro hacer una validación cualitativa con radiólogos expertos para determinar la validez diagnóstica de estas imágenes. Como trabajo futuro, se sugiere realizar un análisis sobre cómo los modelos de línea base y los modelos propuestos se comportan al entrenarse con bases de datos de imágenes heterogéneas en términos de la calidad de los estudios (0.5T, 1.5T, 3T y 7T), dosis y medios de contraste diferentes. Igualmente, consideramos que las imágenes sintéticas postcontraste generadas podrían tener un impacto positivo en el entrenamiento de modelos de detección y clasificación de cáncer de mama utilizando imágenes de estudios de MRI convencionales, puesto que estas imágenes pueden brindan información adicional para entrenar esos modelos de clasificación.

6. AGRADECIMIENTO Y FINANCIACIÓN

Este trabajo ha sido financiado parcialmente por el Instituto Tecnológico Metropolitano de Medellín (ITM) a través del proyecto de investigación P20213, la Institución Universitaria Pascual Bravo y Ayudas Diagnósticas SURA S.A.S. a través del convenio específico CE-007-2020. También por la agencia de educación SAPIENCIA de Medellín.

Cómo citar / How to cite

S. Cañaveral, C. Mera-Banguero, and R. D. Fonnegra, “Síntesis de imagen médica postcontraste en estudios de dce-mri de mama usando aprendizaje profundo,” TecnoLógicas, vol. 27, no. 60, e3052, jul. 2024. https://doi.org/10.22430/22565337.3052