MICCAI

CENet：用于医学图像分割的上下文增强网络

CENet boosts medical image segmentation by enhancing boundaries and preserving details across diverse image types.

研究领域 Computer Vision

Article Type Research analysis

Authors Bozorgpour et al.

Original Paper Published 2026

ISOM Posted 2026-03-12 13:07 UTC

Read Time 17M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

背景与学术传承

历史上，在医学影像中精确描绘解剖结构、器官和病灶曾是一项纯粹的手动任务。放射科医生必须逐像素地仔细绘制边界——这个过程极其耗时且成本高昂，每次扫描的人工成本高达数百美元（例如 150 美元），这催生了对自动化系统的迫切需求。这一问题催生了自动化医学图像分割领域。全卷积网络（FCNs）以及特别是引入了编码器-解码器结构的 U-Net 架构，彻底改变了这个领域。编码器压缩图像以理解扫描中“有什么”，而解码器则将其扩展以精确定位“在哪里”。然而，随着医学影像学的进步，出现了一个关键挑战：如何教会机器同时理解整个器官系统的广泛全局上下文，同时完美保留微小肿瘤的微观、细粒度边界细节？

先前方法的根本局限在于在捕捉宏观图景和保留精细细节之间存在持续的拉锯战。传统的卷积神经网络（CNNs）具有有限的“感受野”，这意味着它们难以理解大图像中的全局关系。为了解决这个问题，研究人员引入了 Vision Transformers（ViTs），它们可以一次性查看整个图像。然而，ViTs 计算量巨大，并且在捕捉局部边缘细节方面出了名地糟糕。当先前的模型——甚至是混合模型——试图将细粒度的边界细节通过网络来解决这个问题时，它们会遭受一个严重的痛点：“过度增强”。如果没有适当的控制机制，放大边缘细节也会放大背景噪声，导致解码器阶段的性能下降。现有模型只是在下采样过程中妥协了边界细节，使得对复杂器官进行高精度、多尺度的分割几乎不可能。这迫使作者创建了 CENet，以智能地增强边界，而不会让网络被噪声淹没。

以下是论文中的几个高度专业化的领域术语，已翻译成直观的概念：

Skip Connections（跳跃连接）: 在神经网络中，这些是绕过某些层以将原始、详细信息直接馈送到模型后续阶段的架构捷径。
- 日常类比： 想象将一本 1000 页的详细小说翻译成一个 10 页的摘要，然后要求作者仅使用该摘要重写整本小说。他们会丢失所有丰富的细节。跳跃连接就像在作者重写时将原始角色草图和场景描述交给他，以确保在翻译过程中不会丢失精细细节。
Receptive Field（感受野）: 在任何给定时刻，神经网络的特定部分“看到”的输入图像的特定、受限区域。
- 日常类比： 想象通过一个纸板卷筒观察一幅巨大而复杂的壁画。你一次能看到的壁画的小圆圈就是你的感受野。要理解壁画的整个故事，你需要一个更宽的卷筒。
Downsampling（下采样）: 有意降低图像空间分辨率以压缩信息并提取高级语义含义的过程。
- 日常类比： 这就像在手机上放大数字地图。当你放大时，你会丢失单个街道和咖啡店的名称（精细细节），但你最终可以看到整个州或国家的形状（全局上下文）。
Self-Attention Mechanism（自注意力机制）: 一种数学方法，允许模型权衡输入数据不同部分相对于彼此的重要性，从而决定关注什么。
- 日常类比： 想象你身处一个嘈杂、拥挤的鸡尾酒会。你的大脑会自然地忽略背景音乐和玻璃杯的碰撞声，而将注意力完全集中在你正在交谈的人的声音上。自注意力机制对数据也是如此，它决定了哪些像素最重要，需要“倾听”。

主要数学符号

符号	描述
$F$	网络处理的输入特征图。
$\mathcal{D}(F, s)$	应用于尺度为 $s$ 的特征图的多尺度下采样操作。
$\mathcal{U}(F, s)$	应用于尺度为 $s$ 的特征图的上采样操作。
$s_1, s_2, s_0$	用于调整特征图大小的特定尺度参数（例如，$0.75, 0.5, 1.0$）。
$F_{u1}, F_{u2}$	不同尺度下的上采样特征图结果。
$F_{\text{edge}}$	分离的、精炼的边缘细节，数学定义为 $\\|F_{u1} - F_{u2}\\|$。
$\lambda$	用于缩放边缘特征的可学习权重参数向量（$\lambda \in \mathbb{R}^d$）。
$\tilde{F}$	将加权边缘细节添加回原始输入后得到的最终增强特征图。
$\mathbf{g}$	通过池化操作生成的全局描述符向量，用于捕获通道统计信息。
$\mathbf{s}$	通道校准单元（CCU）生成的通道权重，用于自适应地重新加权特征。
$F'$	应用通道注意力（$F \odot \mathbf{s}$）后的重新加权输出特征图。
$F'_i$	在多尺度上下文聚合器（MCA）中使用的特征图的分割部分。
$f_{dk}$	具有特定核大小和膨胀率 $d_k$ 的深度卷积算子。
$\mathcal{C}_{\text{avg}}, \mathcal{C}_{\text{max}}, \mathcal{C}_{\text{std}}$	通道平均池化、最大池化和标准差池化操作。
$G$	通过在空间校准模块中组合不同的池化操作创建的空间描述符。
$S$	通过逐元素乘法重新校准特征图的组合输出。

问题定义与约束

想象一下，在高度像素化的卫星地图上，试图精确勾勒出一个复杂且不断变化的岛屿的轮廓。在医学图像分析领域，起点（Input）是原始的医学数据集，例如 CT 扫描、MRI 或皮肤病变的手持镜照片。期望的终点（Output）是对解剖结构、器官或病变进行精确的像素级分割。本文试图弥合的数学鸿沟是，在压缩图像以理解其整体上下文时发生的严重信息丢失，这不可避免地破坏了绘制准确边界所需的精细空间坐标。作者需要一种方法来数学上分离并注入这些缺失的边缘细节——他们将其计算为多尺度上采样特征之间的绝对差值，$F_{edge} = |F_{u1} - F_{u2}|$——而不会让系统淹没在无关数据中。

在深度学习中，解决一个问题几乎总是会引发另一个问题，而之前的研究人员一直陷入一个令人沮丧的困境。如果使用卷积神经网络（CNN），模型在理解局部纹理方面会表现出色，但由于卷积核的感受野有限，却无法掌握全局上下文。为了解决这个问题，研究人员转向了视觉 Transformer（ViTs），它们利用自注意力机制一次性查看整个图像。然而，ViTs 引入了一个痛苦的权衡：虽然它们能很好地捕捉全局上下文，但在建模局部边缘表示方面却表现不佳。此外，如果试图手动强制网络关注精细的边界特征来解决这个问题，就会引发一个新的问题：缺乏适当的控制机制会放大背景噪声，导致“过度增强”的表示，这实际上会降低网络在解码阶段的性能。你被迫在模糊的边界、缺乏全局理解或嘈杂不稳定的架构之间做出选择。

作者在解决这个特定问题时，遇到了几个严峻且现实的挑战，使得这个问题极其难以解决：

二次计算复杂度： 尽管 Transformer 功能强大，但其自注意力机制的计算量与输入大小呈二次方增长，通常表示为 $O(N^2)$。这造成了巨大的计算瓶颈，并触及严格的硬件内存限制，使其在大型、高分辨率的医学应用中效率低下。
破坏性的下采样： 现代神经网络的层次结构在很大程度上依赖于下采样来提取特征。这种物理约束不可避免地损害了边界细节和精细的语义表示，一旦丢失，在数学上就很难恢复。
极端的形态学变异性： 医学结构并非刚性。器官和病变具有高度的可变形性，在不同患者之间呈现出多样的形状、外观和病理状况。固定的感受野根本无法适应这种多尺度的变异性。
跳跃连接中的噪声累积： 为了恢复丢失的细节，网络使用“跳跃连接”来绕过压缩。然而，如果没有过滤这些数据的方法，无关的背景噪声会直接传递到解码器。作者指出，这造成了一个严重的限制，即过度增强的表示会累积噪声，需要复杂的数学干预来适应性地去噪特征，而不会抹去关键的边界细节。

为何采用此方法

在分析医学图像分割的现状时，CENet 的作者们遇到了一个非常具体且令人沮丧的瓶颈。他们意识到，传统的 SOTA（state-of-the-art）架构在临床扫描的严苛现实面前存在根本性缺陷。卷积神经网络（CNN），如 U-Net，因其卷积核的局部感受野而受到固有限制——它们根本无法捕捉大型、可变形器官的全局上下文。另一方面，Vision Transformers（ViTs）通过自注意力机制涌现为捕捉全局上下文的新金标准。然而，作者们精确地指出了 ViTs 失败的时刻：它们在建模局部精细细节（如病灶的精确边界）方面表现严重不足，并且具有毁灭性的二次计算复杂度，这使得它们对于大规模、高分辨率的医学应用效率极低。

即使之前的研究人员尝试将它们混合成混合 CNN-Transformer 模型，一个新的问题也随之出现。将精细的边缘特征强行输入解码器而没有严格的控制机制，只会用噪声淹没网络，导致解码器阶段的性能下降。作者们认识到，蛮力方法是不可行的；他们需要一个高度受控、数学上严谨的过滤系统。这就是为什么上下文增强网络（CENet）成为唯一可行的解决方案。

为了解决这个问题，他们设计了一种“联姻”，将医学成像的严苛约束——其中边界模糊且器官大小差异巨大——与独特的双重过滤架构相结合。他们在跳跃连接中引入了双重选择性增强块（DSEB）。DSEB 不是盲目地将特征从编码器传递到解码器，而是通过特征边缘放大器（FEA）主动分离和增强边缘细节。它通过计算不同尺度下特征之间的差异来实现这一点：

$$F_{edge} = |F_{u1} - F_{u2}|$$

其中 $F_{u1}$ 和 $F_{u2}$ 是来自不同下采样尺度的上采样特征。然后将这个分离出的边缘图重新注入到原始特征图中：

$$\tilde{F} = F + \lambda F_{edge}$$

其中 $\lambda \in \mathbb{R}^d$ 是一个加权参数。

但在这里，其相对优势才真正闪耀。如果你放大边缘，通常也会放大高维噪声。为了对抗这一点，作者们集成了差分注意力（DiffAtt）。通过计算独立的注意力图并相减，它们有效地消除了冗余的注意力和不平衡的 token 重要性。它就像神经网络的主动降噪耳机。

此外，解码器利用上下文特征注意力模块（CFAM）来防止网络因过度增强的表示而“窒息”。它使用通道校准单元（CCU）通过全局描述符 $\mathbf{g}$ 来压缩和自适应地重新加权通道：

$$\mathbf{g} = [\mathcal{P}_{avg}(F); \mathcal{P}_{max}(F); \mathcal{P}_{std}(F)]$$

随后是多尺度上下文聚合器（MCA），它将特征分割并通过并行的空洞深度卷积进行处理。这种结构优势使得网络能够在不产生传统密集层庞大参数膨胀的情况下，同时观察多个尺度。

坦白说，该论文没有明确提供与标准 ViTs 相比内存复杂度降低的确切 Big-O 数学表示，但它们明确排除了标准 Transformer，因为其二次效率低下。通过利用深度卷积和通道缩减，CENet 实现了一种在质量上更优、轻量级的表示，轻松超越了更重的模型。

最后，该论文精确解释了为什么其他流行的方法会失败。虽然它们没有明确提及拒绝 GANs 或扩散模型——为了完全透明，这些生成模型很可能也难以满足这里所需的确定性精度——但它们强烈批评了现有的局部自注意力和混合模型。这些替代方案过于关注“主体特征”而非“边缘信息”，并且缺乏处理噪声累积所需的自适应去噪能力。CENet 在 CFAM 末尾包含的加权非局部块（wNLB）完美地建模了长距离空间依赖性，以抑制过度关注的、不相关的细节（如皮肤镜图像中的毛发），证明了受控的、上下文感知的增强远远优于之前的金标准。

数学与逻辑机制

为了理解上下文增强网络 (CENet) 的卓越之处，我们首先需要了解医学图像分割中的基本拉锯战。想象一下，试图从模糊的灰度医学扫描中精确勾勒出肿瘤或器官（如肾脏）的轮廓。如果过度放大，您会看到精确的边缘，但会失去在身体中的位置感（全局上下文丢失）。如果缩小，您会清楚知道自己在哪里，但精细的边界会模糊成像素点（局部细节丢失）。

历史上，卷积神经网络 (CNN) 是“放大”专家，通过一个微小的滑动窗口进行观察；而视觉 Transformer (ViT) 则是“缩小”专家，观察整个图像，但难以处理精细的局部边界。此外，当工程师尝试将它们结合时，网络常常会遭受“过度增强”——在放大实际器官的同时也放大了背景噪声，导致预测性能下降。

CENet 的作者通过设计一种高度受控的多尺度架构来解决这个问题，该架构类似于一个智能放大镜。它选择性地增强边界，同时利用复杂的门控机制抑制无关噪声。

以下是他们实现这一目标的数学解剖。

核心方程

CENet 的核心依赖于两个相互关联的数学引擎。第一个是双重选择性增强块 (Dual Selective Enhancement Block, DSEB)，它能够挽救边界细节。第二个是多尺度上下文聚合器 (Multi-scale Contextual Aggregator, MCA)，它能够智能地融合不同缩放级别的信息，而不会让网络因噪声而不堪重负。

边界增强引擎：
$$ \tilde{F} = F + \lambda F_{edge} $$

多尺度上下文门控引擎：
$$ F_{MCA} = \Big( \text{SiLU}(f_{1\times1}(F_{cat})) \odot \text{SiLU}(f_{1\times1}(F')) \Big) + F $$

解析方程

让我们来剖析这些机制中的每一个齿轮和弹簧。

来自边界引擎：
* $F$：原始输入特征图。在物理上，这是图像在特定层级的基线现实——原始的、未经编辑的信号。
* $F_{edge}$：孤立的边缘细节。作者通过在不同尺度下对图像进行下采样和上采样，然后取绝对差值 ($|F_{u1} - F_{u2}|$) 来计算它。从逻辑上讲，这充当高通滤波器，仅捕获锐利的过渡（器官的边界）。
* $\lambda$：一个可学习的权重参数（$\mathbb{R}^d$ 中的一个向量）。它充当边缘的音量旋钮，允许网络决定每个特定通道实际需要多少边界增强。
* $+$ (加法)：为什么选择加法而不是乘法？加法充当叠加。我们取基线图像 ($F$)，然后在其上绘制增强的边界 ($\lambda F_{edge}$)。如果我们使用乘法，任何没有边缘的区域（其中 $F_{edge} \approx 0$）都会抹去整个图像，将器官内部变成漆黑一片！

来自上下文门控引擎：
* $F_{cat}$：拼接的多尺度特征。网络将图像分割开，并通过不同的“扩张”镜头观察它（观察 3、5 和 8 像素外的邻居），然后将它们堆叠在一起。这代表了“全局上下文”或森林。
* $F'$：通道校准的特征图。这是经过重新加权的原始信号，以便优先处理最重要的特征通道。这代表了“局部细节”或树木。
* $f_{1\times1}$：逐点卷积。在数学上，它是在特征图深度上的线性变换。从逻辑上讲，它充当调酒师，混合信息的不同通道，而不改变图像的空间宽度或高度。
* $\text{SiLU}$：Sigmoid 线性单元激活函数。它允许强烈的正信号线性通过，同时平滑地将负信号压缩到零附近。它充当一个柔和、连续的守门员。
* $\odot$ (Hadamard 乘积)：逐元素乘法。这是最关键的运算符。 为什么选择乘法而不是加法？乘法充当逻辑 AND 门（一个滤波器）。方程的左侧评估上下文 ($F_{cat}$)，右侧评估局部特征 ($F'$)。通过将它们相乘，网络仅允许信号通过，如果局部细节和全局上下文都同意它很重要。它主动抑制无关的背景噪声。
* $+$ (残差加法)：在复杂的门控机制决定增强什么之后，它被加回到原始输入 $F$。这是一个残差连接。它确保网络永远不会忘记原始图像，充当防止过度处理的安全网。

逐步流程

让我们追踪一个抽象数据点——例如，一个代表胃边界上一个微小像素的高维向量——的精确生命周期。

基线进入：胃边界像素作为特征图 $F$ 的一部分进入 DSEB 块。
边缘提取：网络围绕该像素收缩和扩展图像。由于它位于边界上，像素在此过程中会轻微移动。网络减去两个版本，隔离了锐利的过渡。我们的像素现在在 $F_{edge}$ 图中发光。
边界注入：网络将此辉光按 $\lambda$ 缩放，并将其加回到原始像素 ($+$)。胃边界现在清晰且定义明确 ($\tilde{F}$)。
上下文收集：像素进入 CFAM 解码器。它被分成克隆。一个克隆观察其直接邻居；另一个观察 8 像素外的区域，意识到：“啊，我旁边是肝脏。”这些视角被堆叠成 $F_{cat}$。
门控询问：上下文 ($F_{cat}$) 和像素自身的校准身份 ($F'$) 都通过 $f_{1\times1}$ 进行混合，并通过 $\text{SiLU}$ 进行平滑。它们在乘法运算符 ($\odot$) 处相遇。上下文说：“这是一个有效的器官边界”，输出一个高值（例如 0.9）。局部特征说：“我是一个锐利的边缘”，输出一个高值（例如 0.8）。它们相乘 ($0.9 \times 0.8 = 0.72$)，通过了滤波器。（如果这个像素只是皮肤上的一根随机毛发，上下文会输出 0.01，乘法会立即消除噪声）。
最终重组：这个经过精炼、经过上下文批准的信号被加 ($+$) 回到原始像素 $F$。数据点退出模块，经过完美增强，准备好生成最终的分割图。

优化动态

这个机械流水线实际上是如何学会分割器官的？

学习过程由从损失函数反向流动的梯度驱动（特别是 BDoU 损失，它会严厉惩罚网络在边界错误时）。

该架构塑造了一个高度有利的损失景观。由于大量使用残差加法 ($+$)，梯度有一个“快速通道”可以直接从网络末端流回到早期层，而不会消失。

同时，门控机制 ($\odot$) 充当动态梯度路由器。在反向传播过程中，如果在前向传播过程中某个区域的 SiLU 门被关闭（接近零），因为它被认为是无关噪声，那么通过该路径反向流动的梯度也将乘以零。这有效地冻结了对无效权重的学习，并迫使优化器将其所有更新能力集中在负责显著区域（器官和边界）的权重上。

最后，为了防止网络过于兴奋并产生失控的反馈循环（增强的特征不断被增强，直到它们爆炸成噪声），作者在模块末端放置了一个加权非局部块 (wNLB)。这充当空间正则化器。它一次观察整个图像，并平滑任何孤立的过度增强尖峰，确保优化轨迹保持稳定、平滑，并收敛到高度精确、边界完美的分割。

结果、局限性与结论

为了真正理解上下文增强网络（CENet），我们首先需要了解医学图像分割的基本问题。想象一下，你的任务是在一张高度详细但略微模糊的卫星地图上勾勒出一个国家的精确边界。在医学领域，这种“勾勒”就是像素级分割——从原始的 CT、MRI 或皮肤扫描图像中识别出器官、肿瘤或病灶的精确边界。

历史上，科学家们使用卷积神经网络（CNNs）来完成这项任务。CNNs 就像一个放大镜；它们非常擅长观察局部纹理，但却不擅长理解全局上下文（“大局观”）。最近，视觉 Transformer（ViTs）进入了人们的视野。ViTs 就像卫星视图；它们能完美地理解全局上下文，但常常会模糊掉精细的局部边界细节。当工程师试图结合这两种方法，或者为了节省计算能力而缩小图像（下采样）时，器官的精细边界就会受到损害。

本文的核心动机是为了解决一个令人沮丧的悖论：如果你试图在数学上强迫网络更加关注精细边缘，你不可避免地会放大背景噪声（就像电视上的静电或皮肤扫描上的毛发）。作者们需要构建一个系统，该系统能够在不引起“过度增强”或损害网络学习过程的情况下，增强复杂、可变形器官的边界。

数学核心：解决了什么问题以及如何解决？

作者们设计了 CENet，通过两个巧妙的数学干预措施来拦截和精炼视觉信息的流：双选择性增强块（DSEB）和上下文特征注意力模块（CFAM）。

1. 分离边缘（DSEB）
DSEB 不是简单地猜测边缘在哪里，而是使用特征边缘放大器（FEA）在数学上将其分离出来。网络接收输入特征图 $F$，并以不同的比例（$s_1 = 0.75$ 和 $s_2 = 0.5$）将其下采样然后上采样。

$$F_{u1} = U(\mathcal{D}(F, s_1), s_0), \quad F_{u2} = U(\mathcal{D}(F, s_2), s_0)$$

这里，$\mathcal{D}$ 表示下采样，而 $U$ 表示上采样。由于这两个版本的图像经过了不同程度的压缩，将它们相减可以消除大片平坦的区域（如器官的中心），只留下清晰、高频的边缘细节：

$$F_{edge} = |F_{u1} - F_{u2}|$$

这个纯粹的“边缘图”然后通过一个学习到的参数 $\lambda$ 进行加权，并加回到原始特征图中：

$$\tilde{F} = F + \lambda F_{edge}$$

2. 驯服噪声（CFAM）
一旦边缘得到增强，网络就有可能被噪声淹没。CFAM 充当一个多级过滤系统，以防止这些过度增强的表示破坏最终输出。

首先，它使用通道校准单元（CCU）来确定哪些“通道”（视觉数据层）实际上是重要的。它通过三种不同的方式对数据进行池化来实现这一点——平均值、最大值和标准差——以创建一个全局描述符 $\mathbf{g}$：

$$\mathbf{g} = [\mathcal{P}_{avg}(F); \mathcal{P}_{max}(F); \mathcal{P}_{std}(F)]$$

这个描述符生成一组权重 $\mathbf{s}$，用于缩放原始特征：$F' = F \odot \mathbf{s}$。

稍后在 CFAM 中，空间校准模块（SRM）对空间位置执行类似的操作，使用并行卷积来捕获像素级和邻域交互：

$$S = \sigma(f_{1\times1}(G) + f_k^{dw}(G))$$
$$F_{recal} = F_{MCA} \odot S$$

通过结合 DSEB 的边缘增强和 CFAM 的严格噪声过滤，作者们解决了这个悖论：他们在没有静电干扰的情况下实现了超清晰的边界。

实验架构：证明论点

作者们并没有仅仅将模型应用于数据集并吹嘘 1% 的准确率提升。他们设计了一个极具挑战性的验证环境，以严酷地验证他们的数学论点。

受试者（基线模型）：
他们将 CENet 与大量最先进的模型进行了对比。受试者包括纯 CNN（U-Net, DeepLabv3+）、纯 Transformer（Swin-Unet, MissFormer）以及强大的混合模型（TransUNet, MSA$^2$Net, UCTransNet）。

决定性证据：
为了证明他们的模型不仅仅是记忆特定类型的图像，他们在完全不同的医学领域进行了测试：内部放射学（肾脏、胃和心脏的 3D CT 和 MRI 扫描）和外部皮肤镜检查（皮肤病灶的 2D 照片）。CENet 在所有方面都击败了基线模型，在 ACDC 心脏数据集上取得了高达 92.18% 的 DICE 分数。

但无可辩驳的“铁证”并非指标——而是视觉特征热力图和消融研究。作者们直接打开了网络的“大脑”，展示了它“在哪里”观察。
1. DSEB 之前： 网络的注意力是分散和零散的。
2. DSEB 之后： 注意力紧密地聚焦在器官的边界上。
3. wNLB（去噪机制）之后： 网络积极抑制了无关的细节。在皮肤病灶数据集上，你可以直观地看到网络忽略了患者皮肤上的物理毛发，而专注于病灶边界。

此外，他们系统地拆解了自己的模型（逐一关闭 DSEB、FEA 和 CFAM）。消融研究证明，如果没有边缘增强和噪声抑制的特定数学组合，模型的性能就会崩溃。

未来讨论话题

基于本文介绍的精妙机制，以下是几个未来探索和批判性辩论的途径：

多尺度处理的成本与临床现实：
CENet 在很大程度上依赖于多尺度下采样、上采样和空洞卷积。虽然精度很高，但这会如何影响推理时间？如果一家医院希望将其部署在标准的 150 美元临床 GPU 上，而不是 NVIDIA A100，CFAM 的复杂门控机制是否会成为瓶颈？我们必须讨论如何将这些复杂的数学运算提炼成更轻量级的、实时的架构，以用于急诊室诊断。
“模糊边界”困境：
DSEB 模块假设清晰的边界始终是 Ground Truth。然而，在肿瘤学中，某些侵袭性的、浸润性的肿瘤（如脑部的胶质母细胞瘤）本身就缺乏清晰的边界；它们会逐渐融入健康组织。当生物学 Ground Truth 是一个梯度而不是一个边缘时，绝对差值机制（$|F_{u1} - F_{u2}|$）会如何表现？这种数学上的严格性是否会意外地强迫网络在不存在的地方“幻觉”出一个硬边界？
向连续 3D 空间依赖的演进：
当前模型将 3D MRI 和 CT 扫描处理为一系列 2D 切片。虽然 wNLB（加权非局部块）捕获了切片内的长距离空间依赖性，但它忽略了 Z 轴（深度）。我们如何在数学上演进通道校准单元（CCU）和空间校准模块（SRM），以处理真正的体积张量，而不会导致计算复杂度的指数级爆炸？

Table 2. Evaluation results on the skin benchmarks (PH2 and HAM10000) and ACDC dataset

Table 1. Evaluation results on the Synapse dataset (blue indicates the best and red the second best results)

Figure 2. Visual comparison of the proposed method versus others on the Synapse dataset