MICCAI

Hybrid Graph Mamba：解锁非欧几里得潜能以实现精准息肉分割

Colorectal polyp segmentation can assist doctors in screening colonoscopy images, which is crucial for the prevention of colorectal cancer.

研究领域 Natural Language Processing

Article Type Research analysis

Authors Zhu et al.

Original Paper Published 2026

ISOM Posted 2026-03-12 16:59 UTC

Read Time 7M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

背景与学术渊源

结直肠息肉分割是医学影像分析中的关键任务，其核心目标是辅助医生进行结肠镜检查。该任务的终极愿景是预防结直肠癌（CRC），后者是全球范围内导致癌症相关死亡的主要原因之一。息肉是结肠内可能演变为癌症的小型赘生物，因此对其进行早期且精准的检测至关重要。

从历史角度看，结肠镜图像中息肉的识别与勾画主要依赖医生手动完成。尽管该方法是临床标准，但存在显著局限：其不仅极其耗时、劳动强度大，且具有高度主观性，即不同医生对同一图像的解读可能存在差异。这种主观性与庞大的影像数据量往往导致漏诊，进而对患者造成严重后果。

为克服这些人为局限，自动化息肉分割技术应运而生。早期尝试依赖于“手工特征（handcrafted features）”，即由工程师手动设计算法以识别与息肉相关的特定模式、形状或纹理。然而，这些方法在捕捉息肉复杂且多变的形态方面能力有限，往往导致较高的假阳性率或漏诊率。

深度学习的出现带来了重大突破，使模型能够直接从数据中学习更全面、更准确的特征。尽管取得了这些进展，但仍存在若干根本性的局限或“痛点”，本研究旨在直接解决这些问题：

对非欧几里得特征（Non-Euclidean Features）的忽视： 大多数现有的深度学习方法主要聚焦于“欧几里得特征（Euclidean features）”，如息肉的简单形状、大小和纹理。然而，它们在很大程度上忽略了“非欧几里得特征”，即描述息肉与其周围组织之间更复杂的几何与拓扑关系。这不仅涉及息肉本身，还包括其与结肠壁的连接方式、不规则表面以及与周围褶皱的相互作用。这些关系特征对于精准分割至关重要，却常被忽视。
非欧几里得结构特征融合的低效性： 非欧几里得特征并非均匀分布，它们在图像的不同区域（如息肉内部、边缘或背景）存在显著差异。以往的特征融合方法往往对所有区域一视同仁，未能考虑到这些区域差异以及非欧几里得数据中存在的独特拓扑结构，导致宝贵的上下文信息丢失或整合不当。
低层特征利用不足及特征鸿沟（Feature Gap）问题： 深度学习模型通常在多个层级提取特征：“低层”特征捕捉边缘和纹理等精细细节，而“高层”特征捕捉更广泛的语义信息（如“这确定是一个息肉”）。现有方法往往未能充分利用这些低层细节，或难以将其与高层语义信息有效结合，导致边界勾画精度及整体分割性能受限。

上述三个问题共同构成了作者开发 Hybrid Graph Mamba (HGM) 模型的核心动机，旨在释放非欧几里得特征的潜力，从而实现更精准的息肉分割。

Figure 1. Overall architecture of HGM. Our model consists of a pyramid vision trans- former, a CFM, three HGMMs, a BDFM, and a BMD

问题定义与约束

核心问题表述与困境

起点（输入）： 模型接收包含不同大小、形状和纹理的息肉的原始结肠镜图像，这些息肉往往被周围结肠组织中模糊的边界所掩盖。

终点（输出）： 一个精确的二值分割掩码，能够准确地将息肉区域从背景中分离出来，同时捕捉全局语义上下文和细粒度的边界细节。

缺失的环节： 根本差距在于传统深度学习架构无法同时捕捉欧几里得特征（局部纹理和形状）与非欧几里得特征（息肉与其周围组织之间复杂的拓扑和几何关系）。虽然标准的 CNN 或 Transformer 在处理局部或全局模式方面表现出色，但它们往往难以建模生物组织中固有的、不规则的图状结构依赖关系。

困境（权衡）： 研究者面临“表征瓶颈（representation bottleneck）”。增加模型捕捉全局语义信息（高层特征）的能力通常会导致空间分辨率和边界精度（低层特征）的损失。相反，纯粹聚焦于高分辨率细节往往导致缺乏全局上下文，从而使模型将背景噪声误判为息肉。

严苛约束：
1. 拓扑复杂性： 息肉不遵循简单的网格结构；其边界高度不规则，使得标准卷积核不足以捕捉“非欧几里得”几何关系。
2. 特征均匀性： 大多数现有融合方法对所有特征层级（低层细节与高层语义）赋予相同的数学权重，未能考虑到内部、边缘和背景区域的不同作用。
3. 计算效率： 实现基于图的操作或复杂的注意力机制往往会引入高昂的内存开销，难以维持临床环境所需的实时或近实时性能。作者必须设计稀疏邻接矩阵以确保 GCN 计算的可行性，因为对于高分辨率医学图像而言，全连接图在计算上是不可行的。

解决方案的数学诠释

作者通过提出 Hybrid Graph Mamba (HGM) 弥合了这一差距，该模型将 Mamba（一种状态空间模型）与图卷积网络 (GCN) 相结合。

四向 Mamba (Quad-directional Mamba, QM)： 为解决标准序列处理的局限性，作者采用四向方法从四个方向提取特征。与标准 Transformer 的二次复杂度不同，该方法使模型能够在保持线性复杂度的同时捕捉图像中的长距离依赖。其核心操作定义为：
$$ \text{BiMamba}(x) = \text{RS}(x + x' \text{SSM}_F(x'') + x' \text{SSM}_B(x'')) $$
其中 $x'$ 和 $x''$ 是输入的非线性变换，$\text{SSM}_F$ 和 $\text{SSM}_B$ 分别代表前向和后向状态空间模型。
非欧几里得特征提取： 为显式建模非欧几里得拓扑，作者将拼接后的方向特征输入 GCN。Hybrid Graph Mamba Module (HGMM) 的输出定义为：
$$\text{HGMM}(X) = \text{GCN}([X_F, X_B, X_F^\top, X_B^\top], A) + X_M + X_M^\top + X$$
此处，$A$ 是一个稀疏邻接矩阵，仅在特定位置（每 32 个单位）设为 1，以在降低计算负担的同时保留结构关系。
边界判别融合模块 (BDFM)： 为解决融合困境，作者处理高层特征以生成初始分割图，进而推导出内部、边缘和背景区域的独特特征图。这些特征被展平为张量 $U$，并通过一系列卷积与低层特征 $X'$ 融合：
$$X_{\text{BDFM}} = \text{Conv}([\text{RS}(\text{Conv}(UX'))(\text{Conv}(UX')\text{Conv}(X')), \text{RS}(X')])$$

为什么选择该方法

作者意识到，现有的 SOTA 方法（主要基于标准卷积神经网络 CNN，甚至一些早期的 Transformer 方法）因以下三个关键局限而显得不足：

对非欧几里得特征的忽视：大多数方法仅关注息肉的形状和纹理等“欧几里得特征”，而忽略了息肉与其周围组织之间作为“非欧几里得特征”的几何与拓扑关系。
区域差异特征融合的低效性：非欧几里得特征并非均匀分布，在图像的不同区域（如息肉内部、边缘和背景）差异显著。现有特征融合技术往往对所有特征一视同仁，未能顾及这些关键的区域差异。
低层特征利用不足及层级间鸿沟：传统方法往往未能充分挖掘低层细节，或在融合过程中难以有效弥合低层与高层特征之间的信息鸿沟，导致边界模糊或小息肉漏诊。

比较优势（基准测试逻辑）

Hybrid Graph Mamba (HGM) 方法通过直接解决上述缺陷，展现了定性上的优越性：

显式的非欧几里得特征提取：与在网格状（欧几里得）数据上运行的标准 CNN 不同，HGM 在其 Hybrid Graph Mamba Module (HGMM) 中集成了图卷积网络 (GCN)。GCN 专为处理图结构数据而设计，使 HGM 能够显式建模并提取非欧几里得几何与拓扑关系。
区域感知的多尺度融合：HGM 引入了边界判别融合模块 (BDFM)，该模块不再对所有特征进行统一处理，而是通过处理初始分割图来推导内部、边缘和背景区域的独特特征图。
基于 Mamba 的高效多尺度特征聚合：Mamba（特别是 BiMamba 块）的集成提供了一种强大的序列建模机制。Mamba 的状态空间模型 (SSM) 架构在序列长度方面具有线性复杂度，相比标准 Transformer 中自注意力的二次复杂度，具有显著优势。

Figure 2. Illustrations of two proposed modules

数学与逻辑机制

Hybrid Graph Mamba (HGM) 模型通过在标准欧几里得特征之外显式建模非欧几里得拓扑结构，解决了传统深度学习在医学影像中的局限性。

主方程

作为非欧几里得特征提取的主要引擎，Hybrid Graph Mamba Module (HGMM) 的核心逻辑定义为：

$$\text{HGMM}(\mathbf{X}) = \text{GCN}([\mathbf{X}_F, \mathbf{X}_B, \mathbf{X}_F^\top, \mathbf{X}_B^\top], \mathbf{A}) + \mathbf{X}_M + \mathbf{X}_M^\top + \mathbf{X}$$

方程解析

$[\mathbf{X}_F, \mathbf{X}_B, \mathbf{X}_F^\top, \mathbf{X}_B^\top]$：这是四个方向特征图的拼接。
$\mathbf{A}$：邻接矩阵，定义了图结构。作者将特定值设为 1（每 32 个单位），以强制实现稀疏但具有意义的连通性。
$\text{GCN}(\cdot, \mathbf{A})$：该算子执行图卷积，聚合由 $\mathbf{A}$ 定义的相邻节点信息。
$\mathbf{X}_M + \mathbf{X}_M^\top$：这是后 BiMamba 块的残差输出，保留了序列信息。
$+\mathbf{X}$：这是最终的残差连接，防止梯度消失问题。

结果、局限性与结论

作者在五个基准数据集（CVC-300, ClinicDB, Kvasir, ColonDB 和 ETIS）上针对八种 SOTA 模型对该架构进行了“严苛”测试。

HGM 在所有数据集上表现出的一致性是其优越性的确凿证据。HGM 实现了最佳的整体平均指标（Dice: 0.887, IoU: 0.825）。表 2 中的消融实验是证明其有效性的“关键证据”，证明了添加 BMD、QM、GCN 和 BDFM 等组件均能渐进式地提升 Dice 和 IoU 指标，证实了这些架构选择并非偶然，而是具有坚实的数学基础。

Figure 3. Visualized segmentation results. In the five datasets mentioned in the previous experiment, three images are selected to compare the segmentation performance of our model with that of other models

与其他领域的同构性

结构骨架

本文提出了一种将多向状态空间序列建模与基于图的拓扑关系映射相结合的机制，将局部几何特征与全局语义上下文合成为统一的高保真表征。