MICCAI

向量量化驱动的主动学习，用于跨模态辅助的高效多模态医学图像分割

Multi-modal medical image segmentation leverages complementary information across different modalities to enhance diagnostic accuracy, but faces two critical challenges: the requirement for extensive paired...

研究领域 Computer Vision

Article Type Research analysis

Authors Du et al.

Original Paper Published 2026

ISOM Posted 2026-03-19 10:26 UTC

Read Time 29M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

背景与学术传承

起源与学术谱系

多模态医学图像分割问题，特别是涉及跨模态辅助的分割，源于临床上通过利用CT和MRI等不同成像模态的互补信息来提高诊断准确性的需求。该方法被认为是计算机辅助诊断的关键 [1]。历史上，医学图像分析通常依赖于单模态数据，但人们逐渐认识到，整合来自各种来源的信息可以提供对解剖结构和病变的更全面、更稳健的理解，这催生了多模态技术。

然而，该领域面临着显著的实际和技术障碍。先前方法的首要“痛点”是需要大量的配对标注。传统方法通常要求在训练和推理过程中同时提供两种模态的数据并进行细致的标注。由于专家标注成本高昂以及特定患者经常缺乏某些模态数据，这种依赖在实际临床环境中是极不切实际的 [1,2]。

此外，早期的多模态融合策略，如简单的特征拼接，难以有效地将共享的解剖特征与模态特定的特征区分开来。由于未能捕捉模态之间复杂的非线性关系，这常常导致独特的互补信息丢失 [3,4]。跨模态的空间错位和图像质量变异性等问题进一步加剧了这些困难，使得模型难以学习到区分但又共享的特征 [5,6]。

最近，人们提出了集成主动学习（Active Learning, AL）的方法，通过策略性地选择信息量最大的样本进行标注来减轻标注负担。然而，传统的AL方法本身存在不确定的量化不可靠的问题，尤其是在处理多模态数据时存在噪声或退化的情况。如图1(B)所示，这些方法产生的置信度估计不一致，阻碍了它们在实际场景中的有效性。此外，现有的AL方法通常将样本选择与模型训练过程解耦，导致性能不佳，因为它们对高不确定性样本应用了统一的策略，而没有考虑不同网络组件不同的学习目标 [11,12]。

另一种有前景的技术是向量量化（Vector Quantization, VQ），它通过将连续特征离散化为不同的码字来学习多模态特征表示。然而，现有的VQ实现面临着自身的局限性：跨模态的码本错位。如图1(A)所示，来自不同模态的相似解剖模式常常被编码为错位的潜在码，阻止了共享特征和模态特定特征的有效解耦，从而丢失了互补信息。本文旨在通过提出一种新颖的框架来解决这些根本性局限，该框架将VQ与改进的主动学习策略相结合，以克服这些挑战。

直观的领域术语

以下是论文中的几个专业领域术语，用直观的日常类比进行解释：

多模态医学图像分割 (Multi-modal Medical Image Segmentation): 想象一下你正在绘制一栋房子的详细地图。你不仅仅是看建筑蓝图（CT扫描）或仅仅看照片（MRI扫描），而是同时查看两者。多模态分割就像是同时使用蓝图和照片来绘制一张更准确、更完整的地图，精确地勾勒出每个房间和特征。
主动学习 (Active Learning, AL): 设想一个学生正在为考试复习。一个“主动学习者”不会盲目地复习课本的每一页，而是会策略性地找出自己最不确定的主题，或者那些最关键的主题，并将学习时间集中在那里。人工智能中的主动学习与之类似：计算机智能地选择最“令人困惑”或“信息量最大”的数据样本，让人类专家进行标注，从而最大限度地减少有效学习所需的总工作量。
向量量化 (Vector Quantization, VQ): 想象一位画家拥有无限的调色板，但决定只使用一组特定的、有限的100种预混合颜色。当他想使用一套中没有的颜色时，他会从他的100种颜色中选择最接近的那一种。VQ就像这样：它将连续的复杂数据特征（如所有可能的颜色）映射到一个更小、离散的“代表性”特征集（这100种预混合颜色），使数据更容易管理和比较。
跨模态辅助 (Cross-Modal Assistance): 这就像有两个朋友，一个擅长识别蓝图中的细节，另一个擅长识别照片中的物体。当你在尝试识别房子里的某个特定特征时，“蓝图朋友”会帮助“照片朋友”看到他们可能错过的东西，反之亦然。他们互相帮助，以获得更好的整体理解。
不确定性量化 (Uncertainty Quantification): 想象一个天气预报员在预测下雨。如果他说“有90%的几率下雨”，那么他非常确定。如果他说“有50%的几率下雨”，那么他相当不确定。不确定性量化是AI模型表达其对自身预测的信心的程度。高不确定性分数意味着模型不确定，而低分数意味着模型有信心。这对于主动学习至关重要，因为模型希望从它最不确定的地方学习。

符号表

符号	类型	描述

问题定义与约束

核心问题表述与困境

本文旨在解决多模态医学图像分割的关键挑战，目标是在显著降低对大量、昂贵标注数据需求的同时，提高诊断准确性。

输入/当前状态涉及多模态医学图像（例如，CT和MRI扫描），这些图像包含用于分割任务的互补信息。然而，当前方法面临两个主要障碍：
1. 大量的配对标注数据：要达到高精度，通常需要大量经过专家标注的、配对的多模态数据，这在临床环境中获取成本高昂且耗时。
2. 无效的跨模态关系捕捉：现有模型难以有效利用跨模态的互补信息。这通常是由于难以解耦共享的解剖学特征与模态特异性特征，以及难以正确地对齐这些特征。

期望终点/目标状态是实现最先进（SOTA）的多模态医学图像分割性能，同时显著减少标注需求。这需要一个能够从多模态数据中稳健学习、有效解耦特征并执行可靠的主动学习（Active Learning）以选择最具信息量样本进行标注的框架。最终目标是使多模态分割在真实世界的临床应用中更加实用和易于获取，尤其是在标注数据稀缺的情况下。

本文试图弥合的确切缺失环节或数学鸿沟是：
1. 向量不匹配与特征解耦：如图1(A)所示，现有的向量量化（VQ）方法常常遭受“向量不匹配”的困扰，即不同模态中相似的解剖学模式被编码为不一致的潜在码。这阻碍了模型有效解耦共享的解剖学特征与模态特异性特征，导致宝贵的互补信息丢失。数学上的鸿沟在于开发一种VQ机制，该机制能够将来自多个模态的特征对齐并离散化到一个统一的、结构良好的码本中，同时保留模态特异性细节。
2. 主动学习中不可靠的不确定性量化：传统的主动学习（AL）方法虽然旨在减少标注负担，但在多模态环境中，尤其是在模态存在噪声或退化时（如图1(B)），其不确定性估计常常不可靠。这种不可靠性阻碍了有效的样本选择，因为模型无法一致地识别最具信息量的样本。鸿沟在于构建一种鲁棒的、跨模态的不确定性估计机制，该机制对噪声具有抵抗力，并能指导策略性的样本选择。
3. 样本选择与模型训练的解耦：以往的主动学习方法通常将样本选择过程与实际的模型训练过程分离开来。这常常导致次优性能，因为高不确定性样本被统一应用，而没有考虑不同网络组件（例如，编码器与解码器）的独特学习目标。缺失的环节是一个集成框架，其中样本选择直接嵌入到训练过程中，允许将具有不同不确定性特征的样本进行策略性分配，以优化特定的网络组件。

困扰研究人员的痛苦权衡或困境主要是“标注负担 vs. 鲁棒性与特征解耦”的困境。一方面，为了实现高质量的多模态分割，模型需要学习复杂的跨模态关系，这传统上需要大量精确标注的数据。另一方面，通过主动学习减轻标注负担常常会带来新的挑战：用于样本选择的不确定性估计在存在噪声或模态变化时变得不可靠，而现有的特征学习技术在没有大量监督的情况下难以解耦跨模态的共享和独有信息。改进一个方面（例如，减少标注）常常会损害另一个方面（例如，分割精度或对真实世界数据不完善性的鲁棒性），从而形成研究人员陷入的恶性循环。

约束与失败模式

高效的多模态医学图像分割并实现跨模态辅助是一个极其困难的问题，原因在于作者们遇到的几个严峻的现实壁垒：

物理/临床约束：
- 数据稀缺与标注成本：标注的医学图像数据本身就稀缺且获取成本高昂。需要专家放射科医生进行精确标注，使得过程耗时且昂贵。这限制了可用训练数据集的大小。
- 模态缺失：在真实的临床环境中，为每位患者获取所有期望的模态通常是不切实际或不可能的。因此，那些严格要求训练和推理时都使用配对模态的方法在临床上是不可行的。
- 空间错位与质量变异性：多模态医学图像常常存在扫描之间的空间错位以及不同模态和采集协议之间图像质量（例如，对比度、纹理、噪声水平）的显著变异性。这使得建立一致的对应关系和提取鲁棒特征变得困难。
- 噪声敏感性：真实的医学图像容易受到噪声和伪影的影响。如图1(B)所示，当模态受到噪声影响时，传统的积极学习方法会产生不可靠的不确定性估计，使得有效的样本选择变得困难。
计算/数据驱动约束：
- 特征空间中的向量不匹配：现有的向量量化（VQ）方法在应用于多模态数据时，常常导致“向量不匹配”（图1(A)）。这意味着来自不同模态的相似解剖学模式被编码到不同的、不一致的潜在码中，阻碍了模型利用共享信息的能力。
- 特征共线性与互补信息丢失：简单的融合策略（例如，早期拼接）常常无法捕捉模态之间复杂的非线性关系。强烈的线性相关性也可能阻止模型有效解耦共享的解剖学特征与独特的模态特异性特征，导致宝贵的互补信息丢失。
- 次优的主动学习策略：传统的积极学习通常将样本选择与模型训练分离开来。这意味着选定的高不确定性样本常常被统一应用，而没有策略性地优化特定的网络组件（例如，编码器以提高鲁棒性，解码器以获得精细细节）。这导致了次优的性能和标注数据的低效利用。
- 不可微函数（隐式）：虽然没有明确说明为不可微函数，但向量量化（将连续特征映射到离散码字）的离散性质在训练过程中常常引入梯度传播的挑战，需要特定的技术（如直通估计器或Gumbel-softmax）来实现端到端学习。本文的VQ组件必须隐式地解决这个问题。
- 硬件内存限制（隐式）：处理高分辨率3D多模态医学图像，特别是使用复杂的深度学习架构时，会迅速达到硬件内存限制，这需要高效的模型设计和训练策略。本文提到处理来自3D数据的2D切片，这是管理此问题的一种常用策略。

为何采用此方法

选择的必然性

作者开发向量量化双模态熵引导主动学习（VQ-BEGAL）框架的决定并非随意，而是对多模态医学图像分割领域中关键且未解决的挑战的直接回应。传统的 SOTA 方法，例如标准主动学习（AL）技术和现有的向量量化（VQ）实现，被证明在此特定问题上根本不足，从而产生了对一种新颖、集成方法的必然需求。

这些不足之处在论文中得到了清晰的阐述和直观的展示。例如，传统的 AL 方法虽然在减轻标注负担方面很有用，但始终无法提供可靠的不确定性估计，尤其是在模态受到噪声影响时。图 1(B) 鲜明地说明了这一点，展示了在正常和噪声条件下不确定性得分分布如何发生变化，使得现有的 AL 方法在图像质量各异的真实临床场景中无法进行稳健的样本选择。此外，这些方法通常将样本选择与模型训练过程分离开来，这本质上会导致次优性能，因为它们无法根据样本特征策略性地优化不同的网络组件。

同样，现有的基于 VQ 的方法，尽管在多模态特征表示方面前景广阔，但存在一个关键缺陷：向量不匹配。如图 1(A) 所示，t-SNE 可视化显示 CT 和 MR 特征形成了分离的簇，表明跨模态的相似解剖模式被编码为错位的潜在代码。这阻碍了共享解剖特征与模态特定特征的有效解耦，从而阻碍了模型充分利用互补信息的能力。简单的多模态融合策略，如早期拼接，也因未能捕捉复杂的非线性跨模态关系并经常丢失独特的互补信息而效果不佳。鉴于这些深刻的局限性，一种能够同时解决不确定性不可靠、特征错位以及 AL 和训练分离的问题的解决方案，不仅仅是一种改进，而是一种必需。

比较优势

VQ-BEGAL 框架通过多项结构和方法上的优势，在定性上超越了以往的黄金标准，远远超出了单纯的性能指标。

首先，具有共享向量量化的双编码器架构提供了深刻的结构优势。通过将连续特征离散化为不同的码字，该方法有效地保留了模态特定的信息，同时关键地缓解了现有 VQ 方法固有的特征共线性和“向量不匹配”问题（如图 1(A) 所示，并由图 3(C) 解决）。这允许一个统一的特征空间，其中共享的解剖特征对齐，但模态特定的细节得以保留，从而能够更丰富、更准确地表示多模态数据。这种解耦对于在没有混淆的情况下利用互补信息至关重要。

其次，集成的双模态熵引导主动学习（BEGAL）策略在定性上具有优越性，因为它直接将样本选择嵌入到训练过程中。与将样本选择视为单独的预处理步骤的传统 AL 方法不同，VQ-BEGAL 利用来自融合多模态特征的不确定性估计来策略性地分配样本。低不确定性样本包含置信度高的预测和互补信息，用于优化编码器的鲁棒性。相反，高不确定性样本指示冗余模式或判别器难以处理的区域，用于指导解码器捕获模态特定的特征。这种动态的集成反馈循环确保模型学习得更有效、更鲁棒，并根据数据的固有不确定性调整其学习策略。这种方法本质上比传统 AL 方法更能处理高维噪声，传统 AL 方法在噪声条件下会产生不可靠的不确定性估计（图 1(B)）。通过使用不确定性来指导特定网络组件的优化，该框架对输入模态中的变化和噪声具有更强的抵抗力。

最后，一个重要的实际优势是，与许多传统的多模态方法不同，我们的方法不需要模态之间的空间对应关系。这种灵活性使其在实际临床应用中更具适应性和实用性，因为在不同成像模态之间实现完美对齐通常是困难或不可能的。

与约束的对齐

VQ-BEGAL 框架是问题严苛的要求与其独特的解决方案特性之间的完美结合，无缝地契合了多模态医学图像分割的约束。

一个主要约束是医学影像中广泛的配对标注数据有限，导致标注负担高。VQ-BEGAL 通过其主动学习组件直接解决这一问题，该组件策略性地选择最具信息量的样本进行标注。通过以显著更少的标注实现 SOTA 性能，该框架直接缓解了这一成本高昂且劳动密集型的约束。

另一个关键约束是捕获复杂的跨模态关系以及有效解耦共享特征与模态特定特征的难度。具有共享向量量化的双编码器架构正是为此而设计的。它将连续特征离散化为不同的码字，这有助于保留模态特定的细节，同时缓解特征共线性和向量不匹配。这种独特的属性允许模型学习一个统一的特征空间，其中常见的解剖模式对齐，但每种模态的独特特征得以保留，从而满足了对稳健的跨模态关系建模的要求。

此外，该问题还受到传统主动学习方法中不确定性量化不可靠性的约束，尤其是在存在噪声或退化模态的情况下。双模态熵引导主动学习（BEGAL）组件通过将基于判别器的不确定性估计方法集成到训练过程中来直接解决这一问题。这确保了更可靠的不确定性得分，然后用于策略性地分配样本以优化不同的网络组件（使用低不确定性样本优化编码器的鲁棒性，使用高不确定性样本优化解码器的模态特定特征）。这种集成方法确保了即使在图像质量变化的情况下，主动学习过程也是稳健有效的。

最后，传统 AL 和模型训练分离导致的次优性能的约束被 VQ-BEGAL 的集成方法所克服。通过将样本选择直接嵌入训练循环，并利用不确定性来指导特定网络部分的优化，该框架确保了协同学习过程。这避免了单独的 AL 和训练阶段的低效率，从而实现了更有效和稳定的多模态特征学习。

替代方案的拒绝

该论文通过强调其在多模态医学图像分割背景下的根本性缺点，隐含和明确地拒绝了几种替代方法。

传统的积极学习（AL）方法主要因其“不确定的量化不可靠”（摘要）而被拒绝。如图 1(B) 所示，在图像质量因噪声而异的真实多模态场景中，这些方法未能维持一致的样本选择。它们无法产生稳定的不确定性估计，使其不适用于实际应用。此外，作者指出，现有的 AL 方法“通常将样本选择与模型训练分离开来”（第 3 页）。这种分离会导致次优性能，因为它阻止了样本的策略性分配以优化不同的网络组件，而这是 VQ-BEGAL 的一项关键创新。

现有的向量量化（VQ）实现被认为不足，因为它们“在跨模态的码本错位方面存在问题”（摘要）。图 1(A) 直观地证实了这种“向量不匹配”，其中不同模态的相似解剖模式被编码为错位的潜在代码。这种未能解耦共享解剖特征与模态特定特征的失败，导致互补信息的丢失，而互补信息对于多模态学习至关重要。VQ-BEGAL 具有共享 VQ 和统一特征空间的双编码器架构直接解决了这一局限性，使得以前的 VQ 方法对于该任务来说是不够的。

简单的多模态融合策略，如早期拼接，也被隐含地拒绝。论文指出，这些方法“未能捕捉模态之间的非线性关系，通常会导致独特的互补信息丢失”（第 2 页）。这表明简单的融合技术无法处理有效组合来自不同医学成像模态的信息所需的复杂性，尤其是在存在空间错位和模态质量差异的情况下。VQ-BEGAL 的复杂特征解耦和集成学习策略为这些挑战提供了更稳健的解决方案。

该论文并未深入探讨拒绝其他流行的深度学习范式（如生成对抗网络（GANs）或扩散模型）在此特定分割和主动学习问题上的应用。其重点完全在于改进主动学习和向量量化的核心组件，以克服它们在多模态医学成像领域已识别出的局限性。

数学与逻辑机制

主方程

VQ-BEGAL 框架的学习过程的核心由一个多组件的目标函数驱动，该函数平衡了几个关键方面：分割准确性、有效的向量量化、跨模态特征解耦以及码本稳定性。虽然论文描述了这些组件及其权重，但整体训练目标可以综合如下：

$$ L = \alpha_1 L_{seg} + \alpha_2 L_{vq} + \alpha_3 L_{disc} + \alpha_4 L_{commit} $$

该主方程代表了模型在训练过程中旨在最小化的总损失。此外，一个至关重要的不确定性估计机制，它指导主动学习过程，是熵的计算：

$$ S_{uncertainty}(x_c, x_m) = H(p) = -\sum_{i=1}^{C} p_i \log p_i $$

逐项剖析

让我们剖析主损失函数和不确定性估计方程，以理解每个组件的作用。

对于主损失函数： $L = \alpha_1 L_{seg} + \alpha_2 L_{vq} + \alpha_3 L_{disc} + \alpha_4 L_{commit}$

$L$:
1. 数学定义： 这是总损失值，一个标量。
2. 物理/逻辑作用： 它作为整个 VQ-BEGAL 模型旨在最小化的主要目标函数。通过减小 $L$，模型可以提高其在所有定义目标上的性能。
3. 为何是加法： 作者使用加法来组合这些损失组件，因为每个项都解决了模型性能的不同方面（分割、量化、判别、承诺）。将它们相加可以实现同步优化，确保一个领域的改进不会完全以牺牲另一个领域为代价，从而促进平衡的学习过程。
$\alpha_1, \alpha_2, \alpha_3, \alpha_4$:
1. 数学定义： 这些是标量权重系数。论文指定 $\alpha_1 = 5$，$\alpha_2 = 0.5$，$\alpha_3 = 0.25$，$\alpha_4 = 0.2$。
2. 物理/逻辑作用： 这些系数控制每个损失组件的相对重要性。例如，$\alpha_1 = 5$ 表明分割准确性是最关键的目标，具有最高的权重，这对于分割任务来说是合理的。其他项的较小权重确保它们充当正则化或辅助目标，而不会主导主要任务。
3. 为何是乘法： 每个系数乘以其对应的损失项，以缩放其对总损失的贡献。这是在多任务学习中分配优先级和平衡不同目标的标准方法。
$L_{seg}$:
1. 数学定义： 这是分割损失。虽然论文中没有明确定义方程，但它通常指像素级损失函数（例如，Dice 损失、交叉熵损失），用于比较模型预测的分割掩码与 ground truth。
2. 物理/逻辑作用： 该项直接驱动模型为医学图像生成准确的分割图。它确保解码器学会正确描绘解剖结构。
3. 为何是加法（作为 $L$ 的一部分）： 它被加到总损失中，因为它是一个需要最小化的主要目标之一。
$L_{vq}$:
1. 数学定义： 这是向量量化损失。在 VQ-VAE 架构中，这通常包含一个鼓励编码器输出特征接近选定码本条目的项。
2. 物理/逻辑作用： 该损失确保编码器生成的连续特征表示有效地映射到码本中的离散码字。它对于离散化特征和实现共享和模态特定信息的解耦至关重要。
3. 为何是加法（作为 $L$ 的一部分）： 它是一个辅助损失，有助于 VQ 组件正确运行，为整体特征学习策略做出贡献。
$L_{disc}$:
1. 数学定义： 这是判别器损失。它通常是一个二元分类损失（例如，二元交叉熵），用于训练判别器 $D$ 正确识别量化特征 $Z_c, Z_m$ 是来自主要模态还是辅助模态。
2. 物理/逻辑作用： 该项是主动学习策略的核心。通过训练判别器来区分模态，其不确定性（或确定性）可用于衡量特征解耦的程度以及样本包含的互补信息量。
3. 为何是加法（作为 $L$ 的一部分）： 它是一个促进主动学习机制的组件，通过提供不确定性估计的信号。
$L_{commit}$:
1. 数学定义： 这是承诺损失，常用于 VQ-VAE 变体。它通常鼓励码本向量“承诺”编码器的输出，防止码本变化过快或被利用不足。
2. 物理/逻辑作用： 该损失有助于稳定码本学习过程。它确保码本条目被更新以有效表示特征，防止仅使用少数条目的“码本崩溃”。
3. 为何是加法（作为 $L$ 的一部分）： 它是一个改进学习到的码本质量和稳定性的正则化项，这对于鲁棒的特征量化至关重要。

对于不确定性分数（熵）： $S_{uncertainty}(x_c, x_m) = H(p) = -\sum_{i=1}^{C} p_i \log p_i$

$S_{uncertainty}(x_c, x_m)$:
1. 数学定义： 这是给定主模态和辅助模态图像对 $(x_c, x_m)$ 的不确定性分数。
2. 物理/逻辑作用： 该分数量化了判别器 $D$ 对量化特征来源的不确定性程度。分数越高表示不确定性越大，这意味着判别器难以区分该样本的模态，暗示潜在的冗余或困难。
3. 为何是等号： 它被定义为等于判别器输出概率分布的熵。
$H(p)$:
1. 数学定义： 这是概率分布 $p$ 的香农熵。
2. 物理/逻辑作用： 熵是衡量概率分布中不可预测性或“惊喜”的度量。在此上下文中，它衡量了判别器关于输入特征模态的预测的不确定性。
3. 为何是等号： 这是离散概率分布熵的标准数学定义。
$p$:
1. 数学定义： 这是判别器对每个模态类别的预测概率分布。对于二元分类， $p$ 通常是一个向量 $(p_1, p_2)$，其中 $p_1$ 是来自主要模态的概率，$p_2$ 是来自辅助模态的概率，且 $p_1 + p_2 = 1$。
2. 物理/逻辑作用： 它代表了判别器在分类输入量化特征的模态来源时的置信度。
3. 为何是 $H()$ 的输入： 熵函数以概率分布作为输入，以量化其不确定性。
$C$:
1. 数学定义： 模态类别的数量。在此二元分类场景中，$C=2$。
2. 物理/逻辑作用： 它定义了计算熵的求和范围，对应于判别器试图区分的离散模态。
$p_i$:
1. 数学定义： 判别器预测的类别 $i$ 的概率。
2. 物理/逻辑作用： 每个 $p_i$ 是概率分布 $p$ 的一个组成部分，表示特征属于模态 $i$ 的可能性。
$\log$:
1. 数学定义： 自然对数。
2. 物理/逻辑作用： 在信息论中，对数用于量化信息量。$-\log p_i$ 表示观察到概率为 $p_i$ 的事件时获得的“惊喜”或信息。
3. 为何是对数： 它是熵定义的基础，允许信息具有可加性。
$\sum$:
1. 数学定义： 求和运算符。
2. 物理/逻辑作用： 它将信息量（按概率加权）跨所有可能的结果（模态类别）相加，以计算总熵。
3. 为何是求和： 离散变量的熵定义为所有可能结果的总和。

对于余弦相似度（方程 2）： $d(z, e_k) = \frac{z \cdot e_k}{||z|| ||e_k||}$

$d(z, e_k)$:
1. 数学定义： 两个向量 $z$ 和 $e_k$ 之间的余弦相似度。
2. 物理/逻辑作用： 该度量衡量两个向量之间夹角的余弦值。值为 1 表示方向相同，0 表示正交，-1 表示方向相反。作者使用此度量而不是欧氏距离来“更好地捕捉解剖特征关系”，通过关注方向相似性，使其对特征幅度的变化具有鲁棒性。
3. 为何是等号： 这是余弦相似度的标准数学定义。
$z$:
1. 数学定义： 输入特征向量。
2. 物理/逻辑作用： 这代表由编码器提取的连续特征向量，需要进行量化。
$e_k$:
1. 数学定义： 码本中的第 $k$ 个条目。
2. 物理/逻辑作用： 这是连续特征向量 $z$ 将被映射到的离散“码字”之一。码本条目是常见特征模式的学习表示。
$z \cdot e_k$:
1. 数学定义： 向量 $z$ 和 $e_k$ 的点积。
2. 物理/逻辑作用： 这衡量一个向量在另一个向量上的投影，构成了余弦相似度分子的一部分。
$||z||, ||e_k||$:
1. 数学定义： 分别是向量 $z$ 和 $e_k$ 的 L2 范数（欧氏范数）。
2. 物理/逻辑作用： 这些对点积进行归一化，确保余弦相似度独立于向量的幅度，仅关注它们的方向对齐。
3. 为何是除法： 除以范数乘积对于将点积归一化到 $[-1, 1]$ 的范围至关重要，这是余弦相似度的定义。

步骤流程

想象一个未标记的多模态医学图像对，例如 CT 扫描 ($x_c$) 和 MRI 扫描 ($x_m$)，进入 VQ-BEGAL 系统。这是它通过数学和逻辑机制的旅程：

特征提取： 首先，主要模态图像 $x_c$ 被馈送到其专用编码器 $E_c$，生成连续特征图 $F_c$。同时，辅助模态图像 $x_m$ 进入其编码器 $E_m$，产生其特征图 $F_m$。这些编码器就像专门的透镜，从每张图像中提取相关的模式和信息。
向量量化 (VQ)： 连续特征图 $F_c$ 和 $F_m$ 然后被传递到向量量化器 (VQ)。对于 $F_c$（和 $F_m$）中的每个特征向量，VQ 模块计算其与共享码本中每个条目 $e_k$ 的余弦相似度 $d(z, e_k)$。然后，它将每个特征向量“捕捉”到其最接近的码本条目，从而有效地离散化连续特征。此过程产生量化特征图 $Z_c$ 和 $Z_m$。将其想象成将每个独特的特征模式分配给预定义词典中的特定“单词”。
判别器输入： 这些量化特征图 $Z_c$ 和 $Z_m$ 然后被连接起来并馈送到判别器 $D$。判别器的任务是充当侦探，试图确定组合特征是来自主要模态还是辅助模态。
概率输出： 判别器 $D$ 输出一个概率分布 $p = D(Z_c, Z_m)$，指示其对特征模态来源的信念。例如，$p$ 可能是 $(0.8, 0.2)$，表示有 80% 的可能性来自主要模态。
不确定性估计： 基于此概率分布 $p$，系统使用熵公式 $H(p) = -\sum p_i \log p_i$ 计算不确定性分数 $S_{uncertainty}(x_c, x_m)$。如果判别器非常确定（例如，$p=(0.99, 0.01)$），则熵（不确定性）将很低。如果它非常不确定（例如，$p=(0.5, 0.5)$），则熵将很高。
主动学习样本选择： 此不确定性分数对于主动学习机制至关重要。系统维护一个未标记池 $\mathcal{U}$。在每个主动学习轮次中，它选择具有最高不确定性分数的固定数量样本 ($n$) 形成 $S_{high}$，并选择具有最低不确定性分数的另外 $n$ 个样本形成 $S_{low}$。然后将这些选定的样本发送进行人工标注。
标记集扩展： 一旦标注完成，这些新标记的样本 ($S_{high} \cup S_{low}$) 将被添加到不断增长的标记数据集 $\mathcal{L}$ 中。标注预算 $b$ 将更新以反映已使用的标注。
分割路径（训练）： 对于实际的分割任务，量化特征 $Z_c$ 和 $Z_m$（来自标记集）被连接起来并传递到解码器 $De$。然后解码器生成最终的分割输出。
损失计算和反向传播： 使用分割损失 ($L_{seg}$)、向量量化损失 ($L_{vq}$)、判别器损失 ($L_{disc}$) 和承诺损失 ($L_{commit}$) 计算总损失 $L$，每个损失都由其各自的 $\alpha$ 系数加权。然后使用此总损失通过反向传播更新编码器、VQ 模块、判别器和解码器的参数，从而迭代地改进模型。

整个过程重复进行，主动学习组件不断选择信息量最大的样本进行标记，从而使训练更有效和高效。

优化动力学

VQ-BEGAL 框架通过多个损失函数和战略性主动学习机制的复杂相互作用进行学习和收敛。可以通过检查每个组件如何有助于塑造损失景观和指导参数更新来理解优化过程。

梯度流和多目标优化： 主损失函数 $L = \alpha_1 L_{seg} + \alpha_2 L_{vq} + \alpha_3 L_{disc} + \alpha_4 L_{commit}$ 使用优化算法（例如，Adam，在深度学习中很常见）进行最小化。针对相关模型参数（编码器、VQ、判别器、解码器）为每个损失项计算梯度。然后将这些梯度组合起来，由各自的 $\alpha$ 系数加权，形成更新模型权重的整体梯度。这确保所有组件同时得到优化，但具有由 $\alpha$ 值决定的清晰重要性层次。$L_{seg}$ 的高 $\alpha_1$ 意味着模型优先考虑准确分割，而其他项充当强大的正则化器和更好特征学习的赋能者。
VQ 和承诺对损失景观的塑造： $L_{vq}$ 和 $L_{commit}$ 项对于塑造特征空间和确保向量量化过程有效至关重要。$L_{vq}$ 鼓励编码器的输出特征紧密地与离散码本条目对齐。这有效地“离散化”了连续特征空间，在每个码字周围创建了不同的簇。$L_{commit}$ 损失防止码本条目偏离编码器特征太远，确保码本保持代表性和稳定性。没有这些，码本可能会被利用不足或无法捕捉有意义的模式，导致特征学习的损失景观崎岖且难以优化。通过使用余弦相似度进行 VQ，模型的特征空间被鼓励方向上对齐，这对于幅度变化具有鲁棒性并有助于解耦特征。
判别器在特征解耦中的作用： $L_{disc}$ 项训练判别器 $D$ 来区分来自不同模态的特征。这种对抗性训练鼓励编码器生成模态特定的（易于 $D$ 分类）或模态无关的（难以 $D$ 分类，表示共享信息）特征。这种动态塑造了特征空间，使得共享的解剖特征与模态特定的特征解耦，如图 4 所示。判别器区分模态的能力充当反馈机制，推动编码器学习更鲁棒和可解释的表示。
主动学习的迭代状态更新： 主动学习策略是模型“学习”真正自适应的地方。而不是随机采样，不确定性分数 $S_{uncertainty}$（来自判别器的熵）指导样本选择。
- 高不确定性样本 ($S_{high}$): 这些是判别器难以区分模态的样本。这表明信息冗余或具有挑战性的情况。这些样本被策略性地用于训练解码器。其思想是，通过让解码器接触这些“令人困惑”的样本，它学会变得更鲁棒并更好地泛化，即使特征是模糊或嘈杂的。这有助于使挑战性区域的损失景观变平，使解码器更具弹性。
- 低不确定性样本 ($S_{low}$): 这些是判别器对模态有信心的样本。这表明它们包含丰富、互补的跨模态信息。这些样本用于训练编码器。通过关注这些清晰、信息丰富的样本，编码器被优化以提取更稳定和独特的特征，进一步提高它们解耦信息的能力。这有助于精炼特征空间，使判别器和解码器更容易操作。
收敛： 选择信息样本、扩展标记集 $\mathcal{L}$ 和最小化多组件损失函数的迭代过程驱动模型收敛。当分割性能（例如，Dice 分数）趋于平稳或预定义的标注预算 $B$ 用尽时，主动学习过程终止。这种智能样本选择确保模型高效学习，将其精力集中在最有益的数据点上，与随机采样相比，以更少的标记样本实现更快的收敛和更好的最终性能。离散表示学习和熵引导主动学习的协同作用是这种高效且鲁棒优化的关键。

结果、局限性与结论

实验设计与基线模型

作者精心设计了实验，为 VQ-BEGAL 框架提供了稳健的验证。他们专注于肝脏分割这一临床相关且具有挑战性的任务，使用了两个广泛使用的多模态医学图像数据集：CHAOS [13] 和 AMOS 2022 [14]。CHAOS 数据集包含 40 对 CT-MRI 扫描，而 AMOS 2022 包含 500 张 CT 和 100 张 MRI 扫描。通过专注于肝脏分割，他们确保了跨数据集的一致性评估。

该框架本身使用 PyTorch 实现，构建在 VQ-VAE 架构之上。其实验设置的一个关键方面是主动学习策略：在 10 个轮次中，每个轮次独立地从 3D 患者数据中选择 50 个 2D 切片用于编码器训练，另选择 50 个切片用于解码器训练。这种策略性的、由不确定性引导的样本分配是其提出的机制的核心。训练目标结合了具有特定权重的多个损失分量：分割损失 ($\alpha_1 = 5$)、量化损失 ($\alpha_2 = 0.5$)、判别器损失 ($\alpha_3 = 0.25$) 和约束损失 ($\alpha_4 = 0.2$)。分割损失的较高权重确保模型优先考虑主要任务，而其他损失则为多模态特征学习提供了必要的正则化。

为了严格测试 VQ-BEGAL，作者将其与一套全面的“受试”基线模型进行了比较，所有模型均在具有挑战性的 40% 标注预算下进行评估。这些模型包括：单模态 CT-only 基线、简单的 Random 采样策略，以及几种最先进的主动学习方法，如 Max Entropy [15,16]、MC Dropout [17]、Coreset [18]、BADGE [19]、TAAL [20] 和 MVAAL [21]。对于消融研究，标准的 U-Net [22] 作为基础基线，允许对 VQ-BEGAL 的每个组件的贡献进行细粒度评估。

证据证明的内容

实验结果提供了令人信服且无可辩驳的证据，表明 VQ-BEGAL 的核心数学和逻辑机制在实际中有效运作，并带来了卓越的性能。

首先，表 1 中展示的最先进性能是一个明确的证明点。在 CHAOS 和 AMOS 数据集上，即使在受限的 40% 标注预算下，VQ-BEGAL 也始终显著优于所有竞争的主动学习方法。例如，在 CHAOS 数据集上，VQ-BEGAL 取得了 87.30% (±0.95) 的 Dice 分数和 8.21mm (±0.68) 的 HD95，这比次优方法 MVAAL（Dice 85.02%，HD95 8.83mm）有了实质性改进。这些确凿的证据证实，集成的双编码器 VQ 架构（旨在解决向量不匹配问题并保留模态特定信息）与判别性特征学习策略相结合，在需要更少标签的情况下产生了卓越的分割精度。

其次，有效的特征解耦通过图 3 中的 t-SNE 可视化得到了直观的证实。如图 1(A) 所示，最初的问题是现有的 VQ 方法存在向量不匹配问题，导致不同模态的特征簇分离。图 3(A)（基线 VQ）清楚地说明了这一局限性，显示了 CT 和 MRI 特征的明显、不重叠的簇。相比之下，图 3(C)（完整方法）展示了最佳集成效果，其中 CT 和 MRI 特征对齐良好，形成了一个统一的特征空间，同时仍保留了模态特定的细节。这些视觉证据明确证明了 VQ-BEGAL 的双编码器 VQ 架构成功地将共享的解剖特征与模态特定的特征解耦，这是一个关键的数学声明。

第三，不确定性估计和策略性样本分配的可靠性通过图 4 得到了验证。该图说明了 VQ-BEGAL 的判别性特征学习策略如何有效地分离和利用共享的以及模态特定的模式。这种解耦对于生成可靠的不确定性估计至关重要，而这反过来又使得样本的策略性分配成为可能：低不确定性样本用于优化编码器的鲁棒性，而高不确定性样本则指导解码器捕捉模态特定的特征。这一机制直接解决了图 1(B) 中强调的传统 AL 方法的“不确定的不确定性量化”问题，表明 VQ-BEGAL 的集成方法能够实现更有效的训练。

最后，各个组件的协同贡献通过表 2 中的消融研究得到了严格证明。仅将熵引导主动学习 (EGAL) 添加到 U-Net 基线中，Dice 分数就稳定提高了约 2.2-2.6%。结合具有随机采样的 VQ 进一步将性能提高了 1.2-1.5%。最值得注意的是，完整的 VQ-BEGAL 方法实现了最高的性能，与 U-Net 基线相比，性能大幅提高了 5.6-6.8%。这种细分提供了无可辩驳的证据，表明离散表示学习 (VQ) 和双向熵引导主动学习 (BEGAL) 的结合产生了强大的协同作用，验证了架构选择和集成训练方法。证据清楚地表明，VQ-BEGAL 的设计选择不仅仅是渐进式改进，而是从根本上解决了多模态医学图像分割的挑战。

局限性与未来方向

尽管 VQ-BEGAL 框架无疑在高效多模态医学图像分割方面取得了重大进展，但认识到其当前的局限性并探索未来发展的途径至关重要。

一个隐含的局限性，尽管没有明确详细说明，是该框架目前专注于肝脏分割。虽然这为临床相关且具有挑战性的任务提供了强有力的概念验证，但 VQ-BEGAL 对其他器官、病变甚至不同解剖区域（例如，脑肿瘤、心脏结构）的泛化能力需要进一步广泛的验证。肝脏分割的特定特征，如其对比度和纹理变化，可能与其他医学成像任务存在显著差异，可能需要对 VQ-BEGAL 的参数进行微调，甚至需要修改架构以在其他地方获得最佳性能。

另一个需要考虑的方面是主动学习策略对从 3D 患者数据中提取的 2D 切片的依赖。虽然这种方法简化了标注过程并降低了计算负担，但它引发了关于该框架在具有完整 3D 主动学习情况下的表现如何的问题，在这种情况下，跨切片的空间和上下文信息可以被更直接地利用。当前的方法可能会无意中丢失一些切片间的一致性或 3D 解剖上下文，这些上下文可能对分割精度有益，特别是对于复杂、不规则形状的结构。

此外，该论文强调了“临床环境中成本高昂且某些模态缺失”的挑战是关键的动机。尽管 VQ-BEGAL 有效地降低了标注负担，但训练仍然依赖于配对的多模态数据，即使只有一部分被标注。未来的工作可以探索如何将该框架应用于训练或推理期间完全缺失一种模态的场景，从而进一步推动跨模态辅助的界限。这可能涉及更复杂的插补技术或能够有效利用不完整多模态数据集的鲁棒学习策略。

展望未来，这些发现带来了几个令人兴奋的方向，为进一步的研究和开发提供了肥沃的土壤：

自适应损失权重和超参数优化： 当前框架为其各种损失分量使用了固定的权重。通过元学习或强化学习等方法研究自适应加权方案，可以允许模型根据当前的训练阶段、数据特征或特定的学习目标动态调整这些权重。这可能带来更鲁棒和高效的训练，尤其是在多样化的临床数据集上。同样，除了提到的 512 和 1024 个条目之外，探索码本的最佳大小和动态适应，可能会在特征表示和解耦方面带来进一步的改进。
扩展到多样化的医学成像任务： 自然的下一步是将 VQ-BEGAL 的应用扩展到更广泛的医学成像任务，包括不同的器官、肿瘤分割，甚至功能成像分析。这将需要严格的测试和潜在的特定领域适应，以确保其在广阔的医学诊断领域中的有效性和泛化能力。
真正的 3D 主动学习集成： 开发一种真正的 3D 主动学习策略，选择整个 3D 体积或子体积进行标注，而不是单个 2D 切片，可以解锁新的效率和准确性水平。这需要在 3D 上下文中重新思考不确定性估计和样本选择，可能更全面地利用体积特征和空间关系。
对极端数据变异性的鲁棒性： 尽管 VQ-BEGAL 解决了嘈杂多模态设置中不可靠的不确定性量化问题，但进一步研究其对极端噪声水平、伪影或显著域偏移（例如，来自不同扫描仪或协议的数据）的鲁棒性将是有价值的。这可能涉及结合对抗性训练技术或更高级的不确定性建模，以使该框架在具有挑战性的现实场景中更具弹性。
临床转化和用户研究： 为了真正影响临床实践，未来的工作应侧重于 VQ-BEGAL 的实际部署。这包括进行全面的临床试验，评估其在真实、未见过患者数据上的性能，并与放射科医生和临床医生进行用户研究，以评估其可用性、可解释性以及对诊断工作流程和效率的总体影响。理解临床环境中主动学习的“人机协同”方面对于成功转化至关重要。

这些讨论表明，尽管 VQ-BEGAL 已取得重大进展，但实现完全自主且普遍适用的多模态医学图像分割的旅程仍在继续，并且是一个令人兴奋的探索过程。

与其他域的同构

结构骨架

本工作的纯数学核心是一种机制，它使用向量量化（vector quantization）来离散化和对齐来自多个数据流的特征，然后采用一种熵引导的主动学习策略，根据跨流不确定性选择性地训练组件，以实现高效的信息解耦。