MICCAI

超越阴影：从稀疏标注中学习受物理启发的超声置信度图

This paper introduces a novel user-centered approach for generating confidence maps in ultrasound imaging.

研究领域 Medical Image Analysis

Article Type Research analysis

Authors Ronchetti et al.

Original Paper Published 2026

ISOM Posted 2026-03-19 14:47 UTC

Read Time 30M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

背景与学术渊源

起源与学术渊源

在超声成像中生成可靠的置信度图（confidence maps）的问题并非新鲜事；它在医学图像分析领域长期以来一直是一个持续存在的挑战。超声本身是一种广泛使用的诊断工具，因其非侵入性、实时能力和成本效益而备受青睐。置信度图的出现是为了量化评估超声图像中每个像素的可靠性，为各种下游应用提供关键信息。历史上，这些图已被应用于诸如强度重建、容积复合、超声-CT配准、阴影检测和深度学习分割等领域。最近，其应用范围已扩展到机器人超声领域，用于探头定位和接触力优化等任务。

然而，先前生成这些置信度图的方法面临着显著的局限性，这促使作者开发了这种新颖的方法。一个主要的“痛点”是，现有的基于物理的模型常常忽略了超声成像中常见的伪影，例如混响（reverberation），导致置信度评估不准确。基于阴影的模型虽然有用，但其设计本质上仅限于特定类型的伪影。此外，许多方法在处理任意边界条件时遇到困难，使得在不同帧之间一致地比较置信度图变得困难。也许最关键的是，先前的方法提供的用户控制非常有限；纠正错误分配的置信度值通常需要对整个算法进行复杂且广泛的修改，这使得它们在实际临床场景中的适应性较差。本文通过引入一种以用户为中心、受物理启发且兼具鲁棒性和灵活性的方法，来解决这些不足。

直观的领域术语

置信度图 (Confidence Map): 想象一下你在看一张天气图，但不仅仅是看到温度，每个点还告诉你预测的确定性有多高。“超声置信度图”与之类似：它是一张图像，其中每个微小的点（像素）都通过颜色来显示其在超声图像中特定位置信息的可靠性或可信度。红色可能表示“非常确定”，蓝色可能表示“完全不确定”。
超声伪影 (Ultrasound Artifacts): 将这些视为超声图像中出现的视觉“技巧”或“幻觉”。它们不是真实的解剖结构，而是由声波与组织或设备相互作用的方式引起的。例如，骨头后面的“阴影”并非空无一物，而是声音无法穿透的区域，使其看起来很暗。“混响”就像回声多次反射，产生虚假的、重复的图案。这些伪影可能导致图像产生误导，而一个好的置信度图有助于识别这些“技巧”发生的位置。
概率图模型 (Probabilistic Graphical Model, PGM): 这就像一个复杂的“侦探板”，其中每条证据（每个像素的潜在置信度）都与其他证据相连接。连接代表已知的关系或规则（如物理原理），模型利用这些连接来推断出最符合所有证据的、最可能的整体叙述或“置信度图”，即使某些证据不确定。这是一种推理不确定性和关系的方式。
扫描线 (Scanline): 当超声设备创建图像时，它不是一次性捕获整个画面。相反，它会逐一发射许多狭窄的声束，就像画家画许多细长的垂直线来形成完整的图像一样。从换能器进入身体并返回的每一条独立的声数据“线”都称为一条扫描线。完整的超声图像由数百条这样的扫描线构成。

符号表

符号	描述
f(d)	从深度 $d$ 返回换能器的回波强度

问题定义与约束

核心问题表述与困境

本文解决的核心问题是为超声（US）图像生成可靠的“置信度图”。这些图对于量化评估超声图像中每个像素的可信度至关重要，进而支持强度重建、容积复合和机器人超声引导等各种下游应用。

起点（输入/当前状态）是原始超声图像，通常伴随用户提供的稀疏二值标注，指示“良好”（高置信度）或“差”（低置信度）的区域。

期望终点（输出/目标状态）是一个置信度图，能够准确反映相应超声图像中每个像素的可靠性。该图应具备以下关键属性：
1. 大致单调性： 由于声衰减，置信度通常应随深度增加而降低。
2. 与像素强度松散相关： 像素强度与置信度之间的关系复杂且非线性，这意味着简单的直接映射不足以满足要求。
3. 超越阴影： 该图必须考虑各种超声伪影，不仅包括阴影，还包括混响、耦合问题和电子噪声。
4. 感知声束： 计算必须考虑声束的照射方向，并补偿非线性扇形几何形状。
5. 水平平滑： 由于点扩展函数（point-spread function）的影响，该图应避免不切实际的水平不连续性。
此外，期望的置信度图生成过程必须快速、时间稳定，并允许用户通过标注直接影响算法的行为。

缺失的环节或数学鸿沟是如何鲁棒且高效地将原始超声图像数据与稀疏、主观的用户反馈相结合，转化为一个符合这些复杂属性的、量化的、受物理启发的置信度图。先前的方法由于依赖于简化的物理模型，这些模型无法捕捉超声伪影的全部频谱，适应性有限，且缺乏用户控制，因此在弥合这一鸿沟方面遇到了困难。

这个问题呈现了一个显著的、令人痛苦的权衡或困境，让先前的研究人员陷入其中：
* 简洁性 vs. 真实性： 早期的基于物理的方法通常采用简化的超声传播模型。虽然在数学上易于处理，但这些模型“忽略了混响等伪影”（第1页），导致在实际场景中置信度评估不准确。纳入超声物理和各种伪影的全部复杂性使得模型在制定和求解时变得更加困难。
* 特异性 vs. 普适性： 一些现有方法是“基于阴影的模型[其]设计受到限制”（第1页），这意味着它们仅针对检测一种类型的伪影，而无法泛化到超声图像中各种其他降低置信度的现象。
* 自动化 vs. 用户控制： 传统方法通常在“任意边界条件”下运行，并提供“有限的控制”（第2页），使得从业人员难以在不进行复杂系统修改的情况下纠正错误分配的置信度。这在全自动化、刚性系统和灵活、用户可适应的系统之间造成了困境。
* 像素强度 vs. 置信度： 本文明确指出，置信度与像素强度之间的关系是“复杂且无法被简单模型捕捉的”（第3页，属性2）。这意味着仅仅将强度值映射到置信度是不够的，需要一种更复杂、间接的方法。

约束与失效模式

生成准确的超声置信度图的问题因作者遇到的几个严峻、现实的障碍而变得异常困难：

物理约束：
- 复杂多样的伪影： 超声图像本质上是嘈杂的，并且容易出现多种伪影，不仅限于阴影，还包括混响、声耦合不足和电子噪声（第3页，属性3，图2b，2c）。理想的置信度图必须处理所有这些问题，这对任何单一模型来说都是一个重大挑战。
- 非线性物理： 声波与组织之间的相互作用，包括衰减、反射和散射，是复杂且非线性的。声束强度随深度减小（第3页，属性1），但这种关系对于置信度而言并非严格的单调递减，因为强反射体仍能产生清晰的回波。
- 声束几何依赖性： 超声扫描线可能在非线性的扇形几何形状中倾斜（例如，使用凸阵探头）。置信度图的计算必须“感知声束”，并补偿声束的照射方向（第3页，属性4）。
- 点扩展函数效应： 由于点扩展函数导致超声声束固有的宽度和重叠，要求置信度图“水平平滑”，以防止不切实际的不连续性（第3页，属性5）。
计算约束：
- 实时延迟要求： 超声常用于实时诊断和介入治疗。置信度图生成必须“快速”且“适用于实时应用”（摘要，第1页，以及结论，第8页）。作者展示了他们的模型在NVIDIA RTX 4090上超过2300 fps的性能，突显了这一严格要求。
- 模型复杂性与效率： 虽然简化模型效果不佳，但一个全面的受物理启发的概率图模型（PGM）可能计算量很大。挑战在于以一种保持推理效率的方式将此类模型与卷积神经网络（CNN）集成起来。
数据驱动约束：
- 标注稀疏性： 该方法依赖于“稀疏二值标注（良好/差）”（摘要，第1页）。这意味着没有像素级精确的地面真实置信度图可用于训练。模型必须从有限的、可能主观的用户输入中学习。
- 缺乏全面的地面真实数据： 获取所有类型超声伪影的地面真实数据极其困难。本文提到由于“缺乏阴影特定标注”，排除了与阴影相关的特定方法进行比较（第6页），这表明获取详尽的伪影特定标签的普遍困难。
- 数据集大小： CNN在291帧用于训练，72帧用于验证的数据集上进行训练（第5页）。虽然不算非常小，但对于深度学习来说这是一个适中的数据集，需要一个能够从有限示例中很好地泛化的模型，很可能是通过利用强大的先验知识。

Figure 2. Complex relationship between confidence and pixel intensities. (a): tissue that blocks sound (bone) causing a weaker signal than a tissue that doesn’t block sound (muscle). (b-c): different common ultrasound artifacts

为什么选择这种方法

选择的必然性

采用混合方法，将受物理启发的概率图模型（PGM）与卷积神经网络（CNN）相结合，并非仅仅是渐进式改进，而是一场必要的范式转变。作者意识到，传统的“最先进”（SOTA）方法由于存在若干固有的局限性，根本上是不够的。现有方法，通常依赖于简化的物理模型或受限的设计，始终未能充分考虑超声伪影的全部范围，如混响、阴影和耦合问题（引言，第2节，属性3）。这些方法还受到任意边界条件的阻碍，这使得帧间比较变得困难，并且用户控制有限，需要复杂的修改才能纠正错误分配的置信度（引言）。

至关重要的是，超声图像中置信度与原始像素强度之间的关系是高度复杂且非线性的（第2节，属性2）。简单的模型，无论是纯粹基于物理的还是依赖于基本图像处理的，都无法充分捕捉这种复杂的依赖关系。这一认识凸显了需要一个能够辨别这些细微模式的学习型组件。因此，一个能够鲁棒地整合领域特定物理先验、利用稀疏用户反馈并学习复杂、数据驱动关系的解决方案是唯一可行的前进道路。

比较优势

该方法主要通过其独特的混合架构和以用户为中心的设计，在定性上优于先前黄金标准。与纯粹的基于物理的模型（例如 Karamalis 等人 [12]）或专注于散斑减少和简单传播的模型（例如 Hung 等人 [11]）不同，该方法在结构上解决了超声置信度的多方面性质。

关键的结构优势在于 PGM 和 CNN 的“结合”。PGM 强制执行基本的超声物理先验——例如置信度随深度的近似单调衰减（第3.2节，方程4）以及跨扫描线的水平平滑性（第3.2节，方程5）——同时直接整合稀疏的用户标注。这提供了一个鲁棒、可解释的基础。在此基础上训练的 CNN 则学习了简单模型无法捕捉的图像强度与置信度之间复杂的非线性关系（第3节，第3.3节）。这种分工使得系统既有物理基础又高度适应各种现实世界的伪影。

在定性方面，该方法在处理各种具有挑战性的伪影方面表现出色，包括复杂的阴影（例如，部分阴影、由探头接触缺失引起的强阴影）、混响以及由水浴引起的异常皮肤外观（第4.1节）。与竞争对手相比，它在可见结构和伪影之间提供了更清晰的分离。此外，以用户为中心的设计，允许从业人员通过稀疏标注直接影响算法的行为，提供了无与伦比的控制和适应性。该方法还非常快速，在 NVIDIA RTX 4090 上超过每秒 2300 帧，使其适用于实时临床应用（第3.3节）。这种物理基础、学习能力、用户控制和速度的结合，代表了压倒性的结构和实践优势。

与约束的对齐

所选方法完美地符合第2节中概述的“理想置信度图”属性，展示了问题严峻要求与解决方案独特属性之间的深思熟虑的“结合”。

大致单调性（属性1）： PGM 中的 Intra-Scanline Potential $\psi_v(x_i, x_j)$（方程4）直接强制执行了这一点。它鼓励置信度沿扫描线大致下降，惩罚偏离这一物理原理的情况。使用 $\log(x_i)$ 进行惩罚巧妙地规避了置信度值接近零的问题。
与像素强度松散相关（属性2）： 这正是 CNN 发挥关键作用的地方。本文明确指出，PGM 不直接包含图像强度，因为它们与置信度的关系很复杂。相反，CNN 通过最小化 PGM 输出的负对数似然来训练，从而有效地学习了简单模型无法捕捉的这些复杂的非线性强度-置信度关系（第3节，第3.3节）。
超越阴影（属性3）： PGM 中的受物理启发的先验知识，结合 CNN 从多样化数据和稀疏标注中学习的能力，使得该方法能够处理广泛的超声伪影——不仅是阴影，还包括混响和耦合问题（第4.1节）。这种全面的伪影处理是对先前更受限模型局限性的直接回应。
感知声束（属性4）： PGM 的图结构设计用于区分扫描线内部和扫描线之间的关系，反映了声传播的因果性质。此外，作为预处理步骤应用了逆扫描转换，以确保垂直对齐的扫描线，即使在非线性扇形几何形状下也是如此，从而使置信度图的计算能够感知声束的照射方向（第3节，第3.3节）。
水平平滑（属性5）： Inter-Scanline Potential $\Psi_H(x_i, x_j)$（方程5）明确强制执行了这一属性。通过使用高斯函数鼓励相邻扫描线之间的平滑过渡，模型确保置信度图反映了声束重叠和点扩展函数的物理现实。

这种集成方法确保了解决方案不仅鲁棒且准确，而且在物理上合理且用户可控，直接满足了理想置信度图的所有定义属性。

替代方案的拒绝

本文通过在超声置信度图生成背景下强调其根本性缺点，隐式和显式地拒绝了几种替代方法。

首先，“现有方法，依赖于简化的模型”（摘要）被认为是不够的，因为它们“常常未能充分考虑超声伪影的全部范围，并且受到任意边界条件的限制”（摘要）。这种广泛的拒绝涵盖了可能过度简化超声复杂物理学或依赖于刚性假设的方法。

更具体地说，本文评估并因此隐含拒绝了纯粹基于物理的图模型，例如 Karamalis 等人 [12]。虽然 Karamalis 的方法使用图节点和源自超声物理的边权重，但它通过具有固定边界条件的随机游走问题来计算置信度。作者证明，该方法“糟糕地处理”了阴影，并且“错误地分配了低置信度”给可见结构（第4.1节）。缺乏用于捕捉复杂像素强度关系的学习组件以及对固定边界条件的依赖限制了其在各种伪影类型上的适应性和准确性。

同样，像 Hung 等人 [11] 这样的方法，它们通过有向无环图减少散斑和传播置信度，也被证明在处理各种伪影方面存在困难，特别是阴影，并且经常错误地将低置信度分配给可见结构（第4.1节）。这些方法，虽然可能解决了散斑等一些方面，但缺乏所提出混合模型的全面伪影处理和用户可控性。

本文还提到“基于阴影的模型 [15] 在设计上受到限制”（引言），并因缺乏阴影特定标注而明确将其排除在定量比较之外（第4节）。这凸显了过于专业化的方法的局限性，未能泛化到超声实际图像中存在的广泛伪影。

最后，Ultra-NeRF 相关方法 [22,23] 未包含在定性评估中，因为它们“在训练阶段需要完美对齐的超声和 CT 容积”（第4.2节）。这指出了一个实际约束，使得这些方法不太适用于可能无法轻易获得此类完美对齐的多模态数据的情况，从而强调了能够处理更易于获取的稀疏标注的方法的重要性。

本质上，拒绝这些替代方案源于它们无法同时做到：1）考虑超声伪影的全部范围，2）捕捉像素强度与置信度之间复杂的非线性关系，3）提供用户控制，以及 4）保持时间稳定性和实时性能。所提出的 PGM-CNN 混合模型旨在克服这些集体缺陷。

Figure 4. Ultrasound frames (before scan conv.), with confidence maps generated by three methods. Red and blue represent high and low confidence, respectively. The squares on the confidence maps show regions of interest. See text for details

数学与逻辑机制

主方程

本文机制的核心是一个双管齐下的数学引擎。第一部分定义了概率图模型（PGM），它量化了给定稀疏用户标注和受物理启发的先验知识的置信度图的似然性。第二部分是目标函数，它通过最小化从该 PGM 导出的负对数似然性来驱动卷积神经网络（CNN）的学习。

定义置信度图 $x$ 在给定稀疏标注 $y$ 下的似然性的核心概率模型为：
$$ p(x|y) \propto \prod \phi(x_i, y_i) \prod_{(i,j)\in V} \psi_V(x_i, x_j) \prod_{(i,j)\in H} \psi_H(x_i, x_j) \quad (2) $$
CNN 优化的最终目标函数为：
$$ \theta^* = \arg \min_\theta - \log p(f(I^{(i)}, \theta), y^{(i)}) \quad (6) $$

逐项解剖

让我们剖析这些方程以理解每个组成部分：

方程 (6)：优化目标

$\theta^*$:
1. 数学定义： 卷积神经网络（CNN）的最优参数集。
2. 物理/逻辑作用： 这是学习过程的最终目标。它代表了 CNN 中权重和偏置的特定配置，使得它能够根据定义的概率模型生成最合理的置信度图。
$\arg \min_\theta$:
1. 数学定义： 使后续表达式最小化的参数（在此例中为 $\theta$）。
2. 物理/逻辑作用： 此算子表示学习算法正在寻找产生最小损失函数值的 CNN 参数。
$-\log$:
1. 数学定义： 负自然对数。
2. 物理/逻辑作用： 这种转换有两个主要目的。首先，它将概率（介于 0 和 1 之间）转换为正值，使其适合最小化（最小化负对数似然等同于最大化似然性）。其次，它将概率（或势能，如方程2所示）的乘积转换为和，这在反向传播过程中更容易区分。
3. 原因： 选择对数是因为它们将 PGM 的乘积结构简化为和，这在计算上更稳定，并且更容易进行基于梯度的优化。负号将问题从最大化转为最小化。
$p(\cdot)$:
1. 数学定义： 概率分布。
2. 物理/逻辑作用： 此项表示由方程（2）中的概率图模型（PGM）定义的预测置信度图的似然性。它量化了 CNN 的输出与用户标注和受物理启发的先验知识的兼容程度。
$f(I^{(i)}, \theta)$:
1. 数学定义： 卷积神经网络 $f$ 在给定输入超声图像 $I^{(i)}$ 和当前参数 $\theta$ 时的输出。
2. 物理/逻辑作用： 这是 CNN 的预测：为第 $i$ 个超声图像生成的置信度图 $x$。CNN 被训练来生成这些图，然后由 PGM 进行评估。
$y^{(i)}$:
1. 数学定义： 为第 $i$ 个超声图像提供的稀疏二值标注。
2. 物理/逻辑作用： 这些是作为学习过程监督的地面真实或用户提供的标签（良好、差或无）。它们将置信度图锚定在人类专家知识上。

方程 (2)：概率图模型

$p(x|y)$:
1. 数学定义： 置信度图 $x$ 在给定稀疏标注 $y$ 下的概率。
2. 物理/逻辑作用： 这是 PGM 的核心。它提供了对特定置信度图 $x$ 可能性的量化度量，同时考虑了用户的输入 $y$ 和嵌入的受物理启发的规则。
$\propto$:
1. 数学定义： 成比例于。
2. 物理/逻辑作用： 这表示右手边的表达式与真实概率成比例。存在一个隐式的归一化常数（通常称为分割函数），使概率之和为 1。对于优化目的，通常可以忽略此常数，因为它不影响相对似然性。
$\prod$:
1. 数学定义： 乘积算子。
2. 物理/逻辑作用： 在图模型中，联合概率通常表示为关于团（互连节点组）的势能函数的乘积。这里，它将单个一元和二元势能相乘，形成整体似然性。
3. 原因： 这种乘法结构是马尔可夫随机场和其他 PGM 的基础，其中势能代表局部“一致性”或“兼容性”，这些组合起来形成全局概率。
$\phi(x_i, y_i)$:
1. 数学定义： 像素 $i$ 的一元势能函数。
2. 物理/逻辑作用： 此项衡量特定像素的预测置信度值 $x_i$ 与其对应的稀疏标注 $y_i$ 之间的兼容性。它直接强制执行用户对单个像素的输入。
3. 原因： 乘积组合了每个标注像素的个体兼容性。
$\prod_{(i,j)\in V}$:
1. 数学定义： 沿垂直方向相邻的像素对 $(i,j)$ 的乘积。
2. 物理/逻辑作用： 此算子聚合了扫描线内部的成对势能，确保了垂直关系的受物理启发的先验知识在整个置信度图上得到应用。
$\psi_V(x_i, x_j)$:
1. 数学定义： 垂直（扫描线内部）成对势能函数（在方程4中定义）。
2. 物理/逻辑作用： 此势能强制执行扫描线上的“大致单调性”属性（属性1）。它惩罚置信度未随深度充分下降的情况，反映了超声信号的自然衰减。
3. 原因： 乘积组合了这些垂直关系兼容性。
$\prod_{(i,j)\in H}$:
1. 数学定义： 沿水平方向相邻的像素对 $(i,j)$ 的乘积。
2. 物理/逻辑作用： 此算子聚合了扫描线之间的成对势能，确保了水平关系的受物理启发的先验知识在整个置信度图上得到应用。
$\psi_H(x_i, x_j)$:
1. 数学定义： 水平（扫描线之间）成对势能函数（在方程5中定义）。
2. 物理/逻辑作用： 此势能强制执行扫描线之间“水平平滑”属性（属性5）。它鼓励扫描线之间相邻像素具有相似的置信度值，反映了超声声束的重叠和组织的连续性。
3. 原因： 乘积组合了这些水平关系兼容性。

方程 (3)：一元势能细节

$\text{Beta}(z; \alpha, \beta)$:
1. 数学定义： Beta 分布的概率密度函数（PDF）。
2. 物理/逻辑作用： Beta 分布非常适合模拟介于 0 和 1 之间的概率或置信度值。其形状参数 $\alpha$ 和 $\beta$ 允许其在不同值处达到峰值，代表不同程度的置信度。
3. 原因： 作为模拟置信度值的自然选择，置信度本质上是概率。
$x_i$:
1. 数学定义： 像素 $i$ 的置信度值。
2. 物理/逻辑作用： 这是 CNN 为给定像素预测的特定置信度分数（介于 0 和 1 之间）。
$y_i$:
1. 数学定义： 像素 $i$ 的标注。
2. 物理/逻辑作用： 这是用户为像素 $i$ 提供的标签，可以是“良好”（高置信度）、“差”（低置信度）或“无”（未标注）。
$\alpha, \beta$:
1. 数学定义： Beta 分布的形状参数。
2. 物理/逻辑作用： 这些参数决定了 Beta 分布的形状。对于“良好”标注（$\alpha=5, \beta=1$），分布在 1 处高度集中，强烈倾向于高置信度。对于“差”标注，应用 $\text{Beta}(1-x_i; \alpha=5, \beta=1)$ 意味着 $x_i$ 的分布在 0 处集中，倾向于低置信度。对于“无”标注（$\alpha=1.1, \beta=1.1$），分布更平坦，表示对极端置信度值的偏好较弱，允许成对势能发挥更大作用。
3. 原因： 这些特定值是经验选择的，以反映每种标注类型的期望概率分布，如图3b所示。

方程 (4)：垂直成对势能细节

$\exp(\cdot)$:
1. 数学定义： 指数函数。
2. 物理/逻辑作用： 这将惩罚项（位于指数中）转换为势能值。较大的惩罚（更负的指数）导致较小的势能，表示兼容性较低。
$-\gamma$:
1. 数学定义： 负缩放因子。
2. 物理/逻辑作用： $\gamma$ 是一个控制此先验强度的参数。较大的 $\gamma$ 意味着对违反扫描线置信度单调递减的惩罚更强。
$\max(0, \cdot)$:
1. 数学定义： 0 和参数的最大值。
2. 物理/逻辑作用： 这确保了只有在违反单调递减条件时才应用惩罚。如果 $x_j$ 如预期般下降或下降更多，则没有惩罚（项变为 0，$\exp(0)=1$，表示势能没有减少）。
$\log(x_j) - \log(x_i)$:
1. 数学定义： 自然对数之差，等同于 $\log(x_j/x_i)$。
2. 物理/逻辑作用： 此项衡量像素 $i$ 和像素 $j$ 之间置信度的相对变化。使用对数解决了直接置信度值的一个局限性：当 $x_i$ 已经非常低时，它无法进一步下降，使得惩罚变得困难。对数不受下界限制，允许一致地应用惩罚。
$s$:
1. 数学定义： 常数参数。
2. 物理/逻辑作用： 此参数代表扫描线之间相邻像素之间置信度下降的期望衰减。它充当阈值：如果 $\log(x_j) - \log(x_i)$ 大于 $-s$，则意味着 $x_j$ 相对于 $x_i$ 的下降幅度不够，会产生惩罚。
3. 原因： 作者选择 $\log(x)$ 来克服置信度值的“零边界”问题，确保即使在低置信度水平下也能有效应用单调递减先验。

方程 (5)：水平成对势能细节

$\exp(\cdot)$:
1. 数学定义： 指数函数。
2. 物理/逻辑作用： 与 $\psi_V$ 类似，这会将平方差惩罚转换为势能。较大的差值导致较小的势能。
$-\sigma$:
1. 数学定义： 负缩放因子。
2. 物理/逻辑作用： $\sigma$ 是一个控制此先验强度的参数。较大的 $\sigma$ 意味着对水平相邻像素之间差异的惩罚更强，从而鼓励更大的平滑度。
$(x_i - x_j)^2$:
1. 数学定义： 水平相邻像素 $i$ 和 $j$ 的置信度值之间的平方差。
2. 物理/逻辑作用： 此项量化了 $x_i$ 和 $x_j$ 之间的不相似性或缺乏平滑度。平方确保惩罚始终为正，并且较大的偏差会受到更显著的惩罚。
3. 原因： 平方差是惩罚与期望状态（此处为平滑度）偏差的标准且有效的方法。负指数创建了一个类似高斯的势能，其中置信度值非常相似的像素产生高势能，而不相似的像素产生低势能。

逐步流程

想象一个超声图像 $I^{(i)}$，它像原材料一样进入这个系统的装配线。以下是它如何被处理以生成和精炼置信度图：

初始预测（CNN 阶段）： 原始超声图像 $I^{(i)}$ 首先被输入到卷积神经网络 $f(\cdot, \theta)$。这个 CNN 充当初始处理单元，将图像转换为初步的置信度图 $x = f(I^{(i)}, \theta)$。该图中的每个像素 $x_k$ 代表网络对置信度的初步猜测，该值通常在 0 和 1 之间。
标注兼容性检查（一元势能）： 接下来，对于预测置信度图中的每个像素 $x_k$，系统会检查是否存在用户提供的相应稀疏标注 $y_k$。如果存在标注（良好、差或无），则使用 Beta 分布计算“一元势能” $\phi(x_k, y_k)$。此步骤就像一个质量控制站，衡量 CNN 预测的置信度 $x_k$ 与人类专家的标签 $y_k$ 的匹配程度。高势能意味着良好的匹配。
垂直物理强制执行（扫描线内部势能）： 同时，系统会检查沿每条扫描线的垂直相邻像素对 $(x_i, x_j)$。计算“垂直成对势能” $\psi_V(x_i, x_j)$。此机制充当受物理启发的调节器，确保置信度通常随着深度的增加而降低，反映了超声信号的自然衰减。如果置信度意外增加或下降不足，此势能将施加惩罚，降低整体似然性。
水平平滑强制执行（扫描线之间势能）： 并行地，系统还会查看不同扫描线之间水平相邻像素对 $(x_i, x_j)$。计算“水平成对势能” $\psi_H(x_i, x_j)$。此组件充当平滑滤波器，鼓励扫描线之间相邻像素具有相似的置信度值。这反映了超声声束重叠和组织连续特性的物理现实，惩罚了突变的水平变化。
全局似然性组装（PGM 集成）： 然后将所有这些个体兼容性分数——来自标注的一元势能、来自物理学的垂直势能以及来自平滑性的水平势能——相乘。如方程（2）所示，此乘法产生整个预测置信度图 $x$ 的单一、全面的似然性分数 $p(x|y)$。此分数代表了 CNN 输出图的“合理性”，考虑了所有指导原则。
损失计算（负对数似然性）： 最后，此全局似然性 $p(x|y)$ 通过取其负对数进行转换，得到 $-\log p(x|y)$。此值是当前输入图像的“损失”。它是系统旨在最小化的度量，有效地将寻找最可能的置信度图的问题转化为 CNN 的标准优化挑战。

整个过程会针对许多图像重复进行，使 CNN 能够从 PGM 提供的反馈中学习。

优化动力学

该机制通过迭代地精炼 CNN 参数（$\theta$）以最小化概率图模型定义的负对数似然性，从而进行学习、更新和收敛。

损失景观塑造： PGM 在为 CNN 塑造损失景观方面起着至关重要的作用。与简单的像素级损失不同，PGM 创建了一个复杂的景观，其“谷”对应于不仅与稀疏用户标注一致，而且还遵循基本超声物理原理的置信度图。
- 一元势能： 这些充当强大的吸引子。如果一个像素被标注为“良好”，损失景观将有一个陡峭的斜坡，将 CNN 的输出 $x_i$ 推向 1。如果为“差”，则将 $x_i$ 推向 0。对于“无”标注，景观更平坦，允许成对势能发挥指导作用。
- 垂直成对势能： 这些引入了方向偏差。对于置信度随深度增加或下降不足的置信度图，景观会变得更陡峭（损失更高），从而在扫描线方向上有效地创建了置信度的“下坡”路径。
- 水平成对势能： 这些强制执行平滑性。景观将具有深而窄的谷，其中水平相邻像素具有非常相似的置信度值，惩罚了尖锐的不连续性并鼓励了平滑过渡。
- 负对数确保即使是与高度合理配置的微小偏差也会导致损失显著增加，从而为学习提供强大的梯度。
梯度下降与反向传播： CNN 使用迭代优化算法进行学习，通常是随机梯度下降（例如 Adam）的变体。
- 在每个训练步骤中，一批超声图像被输入到 CNN 中，生成一批预测的置信度图。
- 对于每个预测图，PGM 计算负对数似然性损失，如“逐步流程”中所述。
- 然后使用反向传播计算该损失相对于 CNN 中每个参数 $\theta$ 的梯度。这些梯度指示了每个参数为减少损失所需的改变方向和大小。
- 优化器然后通过在梯度反方向（沿着损失景观向下）迈出一步来更新 CNN 的参数，该步长由学习率缩放。这种迭代调整使 CNN 能够逐渐学习从超声图像到满足 PGM 标准的置信度图的复杂映射。
收敛行为： 强大的 CNN 和受物理启发的 PGM 的结合促进了鲁棒的收敛。
- PGM 充当一个强大、可解释的先验，指导 CNN 朝向物理上合理的解决方案，并防止其陷入可能满足稀疏标注但违反基本物理学的局部最小值。这是纯粹数据驱动方法的一个关键优势。
- 作者报告的验证损失为 0.32，与训练损失 0.25 非常接近。这表明模型学习有效，并且对未见过的数据泛化良好，没有明显的过拟合。PGM 的正则化作用可能对此良好的泛化做出了贡献。
- 迭代更新持续进行，直到梯度变得非常小，表明模型已达到损失景观中的稳定点，进一步的参数调整带来的改进很小。这使得 CNN 能够快速生成高质量、符合物理学的置信度图，并实现实时性能。

Figure 1. Overview of our method, showcasing how sparse Good (red, high confi- dence) and Bad (blue, low confidence) annotations are utilized to predict confi- dence maps with a CNN in pre-scan converted space

结果、局限性与结论

实验设计与基线

为了严格验证其新颖方法，作者设计了一系列实验，将他们受物理启发的、由 CNN 驱动的置信度图生成与已建立的方法进行了比较。在此类分析中的“受害者”（基线模型）主要是 Karamalis 等人 [12] 和 Hung 等人 [11] 提出的方法。

Karamalis 的方法通过将图像像素建模为图中的节点来工作，其中边权重源自超声物理学。然后通过求解具有固定边界条件（顶部高置信度，底部低置信度）的随机游走平衡问题来计算置信度。为了公平比较，作者使用了该方法的一个公开可用的 Python 实现，并将其 alpha 参数设置为 1。另一方面，Hung 的方法首先使用各向异性滤波器减少散斑噪声，然后通过有向无环图从图像顶行向下传播置信度。作者使用了 Hung 方法的官方实现，仔细设置了其参数（$\alpha = 10^{-2}$ 和 $\xi = 0.4$）以防止置信度过快衰减。值得注意的是，由于可用数据集缺乏阴影特定标注，一种基于阴影的神经网络方法 [15] 被排除在比较之外。

实验设计包括在各种超声场景下的定性和定量评估：

定性评估： 选择了一组来自验证数据集的七个代表性超声帧（A-F）。帧 A-F 在与训练数据相似的条件下采集，而帧 G 则故意选择来自完全不同的设置——涉及不同的超声设备和水浴进行声耦合——以测试所提出方法泛化能力。这允许对每种方法在处理各种伪影和成像条件方面的效果进行视觉评估。
定量评估：骨阴影分割： 此任务建立在 Yesilkaynak 等人 [23] 的先前工作之上。作者利用了 Yesilkaynak 公开可用的代码和数据集，其中包含超声帧和相应的骨阴影掩码。为了确保无偏比较，他们将所提出的置信度估计应用于所有帧，然后使用随机森林分类器（未经任何修改或微调）来预测阴影。此设置确保了任何性能差异完全归因于生成的置信度图的质量，而不是任务特定的分割算法优化本身。
定量评估：配准加权： 对于第二个下游任务，作者遵循了 Ronchetti 等人 [16] 的评估方法。此任务的数据集包含来自两台不同超声设备的 28 个跟踪肝脏切片，其位置信息通过光学跟踪获得。每个切片都与相应的 CT 或 MR 容积配对，并且由专家手动标注了至少四个地标对。为所有帧计算了单独的置信度图，然后用于重建 3D 置信度容积。实验使用置信度图直接作为多模态基于强度的配准的加权因子，以及将它们与局部块方差相乘，取代了仅使用块方差的常规用法。这使得能够直接评估置信度图如何提高配准算法的鲁棒性和收敛性。

证据证明的内容

本文提供的证据有力地证明了所提出的受物理启发的学习方法在超声置信度图生成方面的有效性和优越性。核心机制，即将稀疏标注整合到概率图模型（PGM）中以指导卷积神经网络（CNN），在实践中得到了显著的证明，在各种具有挑战性的场景中优于基线方法。

定性证据（图4）：
图4中的视觉比较提供了该方法鲁棒性的无可辩驳的证明。与 Karamalis 和 Hung 的方法相比，所提出的方法在存在复杂伪影的情况下，始终生成更准确、更直观的置信度图：
* 阴影处理： 该方法在识别和描绘阴影方面表现出色，而基线方法通常对此处理不佳。例如，在帧 B 中，一个部分阴影后跟一个强反射体（膈肌），我们的方法正确地检测到了它，并且还为膈肌分配了适当的中间置信度。相比之下，其他方法完全错过了这种细微的阴影。类似地，由探头接触缺失引起的强阴影（帧 A 和 E）被竞争方法完全误判，突显了它们在解释这些常见伪影方面的关键失败。
* 混响和伪影分离： 虽然 Hung 的方法在处理混响（帧 A、F）方面显示出一定的能力，但我们的方法在可见结构和伪影之间提供了更清晰的分离，从而实现了更可靠的置信度评估。
* 保留高置信度： 至关重要的是，所提出的方法避免了在更深深度处错误地将低置信度分配给可见结构（帧 C、D、G），这是 Karamalis 和 Hung 方法的常见陷阱。
* 泛化能力： 在帧 G 上的性能，该帧使用完全不同的超声设备和水浴（不在训练数据中）采集，尤其引人注目。我们的方法正确地识别了异常的皮肤外观和伪影，证明了超越训练分布的强大泛化能力。这是对底层受物理启发的先验知识和 CNN 学习鲁棒特征能力的有力证明。

定量证据（骨阴影分割 - 表1）：
骨阴影分割的定量结果提供了量化数据，强调了定性观察结果。在没有任何任务特定微调或训练目标的情况下，所提出的方法显著优于最先进技术：
* Dice 分数： 我们的方法取得了 58.9% 的 Dice 分数，远高于 Yesilkaynak (50.4%)、Karamalis (49.3%) 和 Hung (47.6%)。更高的 Dice 分数表示预测的阴影区域与地面真实阴影区域之间的重叠更好。
* 精确率： 我们的方法的精确率为 86.8%，远超 Yesilkaynak (71.5%)、Hung (63.4%) 和 Karamalis (61.1%)。此指标证实，当我们的方法识别出阴影时，它极有可能是正确的，从而最大限度地减少了假阳性。
* Hausdorff 距离： 虽然 Yesilkaynak 的方法具有稍好的 Hausdorff 距离（5.6 对我们的 6.2），但整体上优越的 Dice 分数和精确率结果明确证明了我们的置信度图对于此下游任务更有效。

定量证据（配准加权 - 表2）：
第二个定量评估，侧重于多模态配准，进一步巩固了这些主张。所提出方法生成的置信度图显著提高了配准算法的收敛速度：
* 收敛案例增加： 在所有初始配准误差类别（<25mm、25-50mm、>50mm）中，“Ours”和“Ours × Variance”始终产生了最高百分比的收敛案例。对于小于 25mm 的初始误差，我们的方法实现了 77.9% 的收敛率（与方差结合时为 78.7%），显著超过了基线“Variance” (69.7%)、Karamalis (31.1%) 和 Hung (49.4%)。即使基线与方差结合（例如，Karamalis × Variance 为 70.4%），我们的方法仍然显示出明显的优势。
* 这表明置信度图为配准提供了更可靠、更鲁棒的加权因子，从而实现了更成功、更稳定的超声与 CT/MR 容积之间的对齐。在显著更多的案例中支持配准收敛的能力是关键的临床优势。

总而言之，实验结果，无论是视觉上的还是数值上的，都提供了确凿、不可否认的证据，表明所提出的以用户为中心、受物理启发的方***法生成了优越的超声置信度图，这些图对伪影具有鲁棒性，泛化能力强，并显著提高了骨阴影分割和多模态图像配准等下游任务的性能。

局限性与未来方向

尽管所提出的方法在生成鲁棒的超声置信度图方面取得了显著进展，但承认其当前局限性并考虑未来发展方向至关重要。本文本身就指出了几个方面，更广泛的视角可以激发进一步的批判性思考。

一个固有的局限性，如第2节所述，是底层物理模型对于理想置信度图并未明确考虑多路径散射或混响等复杂现象。虽然 CNN 被训练来隐式处理这些伪影，但将此类物理学更直接地整合到概率图模型（PGM）中，可能会增强鲁棒性并减少对广泛训练数据的依赖。同样，PGM 不直接使用图像强度，而是将这种复杂的关系委托给 CNN。虽然这一设计选择是故意的，但它引发了关于是否可以将更复杂的、受物理启发的强度数据整合到 PGM 本身中，从而可能产生更精确的置信度估计，尤其是在模糊区域。

另一个实际局限性，尽管未明确说明，是目前主要关注 2D 超声帧。虽然该方法足够快以满足实时应用的需求，但临床工作流程通常需要体积分析。本文的结论提到了将该方法扩展到 3D 超声进行体积分析作为未来的工作，这是一个自然且必要的进展。

展望未来，有几个讨论话题可以进一步发展和演变这些发现：

深化受物理启发的学习： 我们如何超越当前受物理启发的先验，进入一个真正受物理约束或物理正则化的学习框架？能否将可微分物理模拟器集成到训练循环中，以提供更丰富、更准确的先验知识，从而可能减少对大型标注数据集的需求并提高对未见伪影或换能器类型的泛化能力？这可能涉及对更复杂的波传播现象建模，例如非线性声学或特定组织的衰减曲线。
自适应和主动标注策略： 当前方法依赖于稀疏的二值标注。虽然有效，但获取这些标注的过程仍然可能耗费大量人力。未来的工作可以探索主动学习框架，其中模型智能地识别不确定性或分歧高的区域，并请求专家进行有针对性的标注。这可以优化标注工作，将人类输入集中在最有价值的领域，并可能导致更有效的模型训练和对新临床场景的适应。
置信度图的不确定性量化： 虽然该方法生成置信度图，但它没有明确量化这些置信度图本身的不确定性。在高风险的临床决策中，了解模型对其置信度预测的确定性程度可能非常有价值。探索贝叶斯神经网络、集成方法或其他不确定性量化技术，可以提供“置信度中的置信度”度量，为临床医生提供图像可靠性的完整图景。
实时临床集成与反馈循环： 报告的每秒 2300 帧的速度使得该方法非常适合实时临床应用。下一个前沿是无缝集成到现有的超声设备和临床工作流程中。除了简单地显示置信度图之外，临床医生如何能够提供实时的、直观的反馈（例如，通过手势、语音命令或直接操作）来在现场环境中持续改进模型的行为？这可以带来真正个性化和自适应的置信度映射系统，从持续的临床经验中学习。
多模态和多源置信度融合： 本文证明了置信度图在多模态配准中的实用性。这个概念可以扩展到融合来自多个来源的置信度信息——不仅仅是不同的成像模态（例如，将超声置信度与 CT 衍生的解剖确定性相结合），还包括来自不同超声采集参数甚至不同操作员的信息。一个综合置信度图，利用各种输入的优势，可以提供更鲁棒、更全面的图像质量评估。
超越当前下游任务： 该方法在骨阴影分割和配准方面显示出潜力。还有哪些其他关键的医学成像下游任务可以从这些高质量的置信度图中受益？潜在应用包括自动病灶检测和表征、指导机器人干预（例如，活检、消融），其中组织可靠性的精确知识至关重要，或者通过根据图像置信度加权其损失函数来改进其他深度学习模型的训练。
伦理考量与对人工智能的信任： 随着人工智能驱动的置信度图越来越多地融入临床决策，伦理考量变得至关重要。我们如何确保临床医生对这些系统产生适当的信任，避免过度依赖和不当怀疑？关于置信度图的可解释人工智能（XAI）的研究有助于阐明为什么某些区域被认为是高或低置信度，从而提高透明度并建立临床医生对工具本身的信心。这是成功临床应用的关键方面。

“超越阴影”的旅程显然才刚刚开始，这些发现为超声成像不仅实时，而且可靠量化，从而为临床医生提供更好的诊断和干预信息奠定了坚实的基础。

Table 2. Impact of using confidence as voxel weight for registration. A case is considered “converged” if the Fiducial Registration Error after registration is below 15 mm. The best results and the ones not significantly different (p > 10−3) are highlighted in bold

Table 1. Random forest shadow segmentation using confidence maps. All rows except the last one are reprinted from [23], see text for details

与其他领域的同构性

结构骨架

本文的核心数学和逻辑机制是一个框架，它整合了稀疏、定性的人类反馈与基于物理的概率模型，以训练神经网络，用于预测空间变化的置信度分数。