EN KR JP CN RU IN
WACV

对比积分梯度:一种基于特征归因的整张病理图像分类方法

Open PDF

背景与学术渊源

起源与学术渊源

本文所解决的问题源于计算病理学中对可解释性的迫切需求,特别是在整张病理图像(Whole Slide Image, WSI)分析领域。病理学是现代医学的基石,提供至关重要的诊断和预后信息。传统上,病理学家需要仔细检查 WSI 以评估细胞组成和组织结构,这一过程耗时且容易出现观察者间的变异性。

随着人工智能和深度学习的兴起,计算工具应运而生,旨在协助病理学家,提供预分割感兴趣区域的解决方案,并可能提高诊断一致性和工作流程效率。然而,尽管这些用于 WSI 分类和分割的先进深度学习模型表现出色,但它们通常如同“黑箱”一般运作,对驱动其预测的具体组织学模式的洞察有限。这种透明度的缺乏削弱了对 AI 辅助诊断的信任,成为其广泛临床应用的一个重大障碍。

该问题的学术渊源可追溯至更广泛的可解释人工智能(Explainable AI, XAI)领域,该领域致力于使 AI 模型更易于人类理解。在计算机视觉领域,XAI 方法大致可分为基于热力图的方法(显示模型关注何处)和基于概念的方法(解释模型依赖什么),以及事后解释(训练后解释)与事前解释(模型内置可解释性)。本研究特别推进了事后归因方法,旨在生成局部热力图,突出 WSI 中与模型决策相关的区域。

促使作者撰写本文的先前方法的根本局限性或“痛点”是多方面的。现有的基于梯度归因的方法,如积分梯度(Integrated Gradients, IG),通常在原始图像空间中操作。虽然有用,但对于依赖 WSI 图像块提取的复杂、学习到的特征嵌入的模型来说,效果可能不佳。更关键的是,这些方法频繁突出视觉上显著但不一定具有类别区分性的区域。这意味着它们可能指向突出但不相关的特征,从而限制了它们在 WSI 分类任务中的可解释性,而这些任务中区分肿瘤区域和非肿瘤区域至关重要。此外,积分梯度等方法的效果高度依赖于“基线”输入的选择,而在病理学等复杂领域,基线的定义可能模糊且难以恰当确定。其他先进的归因方法虽然提供了更好的精度,但通常计算成本更高,使其难以大规模应用于 WSI 分析。作者的动机是通过开发一种提供更聚焦、类别区分性归因的方法来克服这些局限性,该方法在更有意义的“Logit 空间”而非仅仅图像空间中操作。

直观的领域术语

以下是论文中的几个专业术语,为零基础读者提供直观的日常类比:

  • 整张病理图像 (Whole Slide Image, WSI): 想象一张巨大的、超高分辨率的数字照片,展示了整个显微镜载玻片上的组织样本。它如此精细,你可以从看到整个载玻片放大到单个细胞,就像使用谷歌地图探索城市直至单个建筑一样。病理学家使用这些来诊断疾病。
  • 多实例学习 (Multiple Instance Learning, MIL): 想象一位质量检验员正在检查一大盒巧克力。他们不会打开每一块巧克力,但如果他们在盒子里发现任何一块变质的巧克力,整盒都会被标记为“变质”。MIL 是一种 AI 从这些“盒子”(整张 WSI)中学习的方法,而无需知道里面每个“巧克力”(单个组织图像块)的确切标签。
  • 积分梯度 (Integrated Gradients, IG): 想象一下试图理解每种配料对一碗复杂汤的最终味道的贡献程度。不是只品尝最终的汤,而是在准备过程的每一步都品尝它,从清汤到完全调味的菜肴,并记录每种配料如何沿途改变味道。IG 对 AI 做类似的事情,沿着一条平滑的路径追溯“味道”(模型输出)到每个“配料”(输入特征)。
  • Logit 空间 (Logit Space): 当 AI 模型做出预测时(例如,“肿瘤”或“非肿瘤”),它首先为每个选项计算原始的、未归一化的分数,然后再将其转换为概率(例如,90% 的肿瘤概率)。Logit 空间就像直接查看这些原始的“证据分数”,在它们被平滑成百分比之前。它为每个类别提供了更清晰、更直接的模型内部推理和置信度视图。
  • 归因方法 (Attribution Method): 如果一个 AI 模型告诉你一张图片包含一只狗,那么归因方法就像问 AI,“给我看确切是图像的哪些部分让你认为这是一只狗。”它会突出对模型决策最有影响力的特定像素或区域,帮助你理解其推理过程。

符号表

符号 描述

问题定义与约束

核心问题表述与困境

本文所解决的核心问题在于提高计算病理学中用于整张病理图像(WSI)分类的深度学习模型的可解释性。

起点(输入/当前状态)涉及高分辨率 WSI,这些 WSI 由深度学习模型处理,通常遵循多实例学习(MIL)范式。现有的归因方法,如积分梯度(IG),被应用于这些模型以解释其预测。虽然这些方法可以识别影响模型决策的区域,但它们经常在图像空间或学习到的嵌入上操作,并且倾向于突出视觉上显著但可能与类别区分不直接相关的特征。它们捕捉了普遍的模型决策模式,但经常忽略了区分不同肿瘤亚型或肿瘤与非肿瘤区域的关键信号。

期望终点(输出/目标状态)是实现更具信息量、更聚焦、更准确的归因,精确地突出 WSI 中类别区分性的区域。这些归因应与真实标签(ground truth)的肿瘤区域紧密对齐,从而建立对 AI 辅助诊断工具的更大信任。此外,期望的方法必须满足归因的基本公理属性(完备性、敏感性、实现不变性),以确保理论上的健全性和一致的解释。

本文试图弥合的确切缺失环节或数学鸿沟是传统归因方法无法有效捕捉 Logit 空间中的对比信息。先前的方法主要基于模型输出相对于输入特征的梯度来归因重要性。然而,这种方法通常无法区分仅仅是显著的特征和对于特定类别相对于参考而言真正区分性的特征。本文提出通过引入对比积分梯度(Contrastive Integrated Gradients, CIG)来弥合这一差距,该方法将第 $i$ 个特征的归因在数学上定义为:
$$ \text{CIG}_i^c(x) = (x_i - x'_i) \int_0^1 \frac{\partial ||f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')||_2^2}{\partial x_i} d\alpha $$
在此,$f_{\text{logit}}(\cdot)$ 表示模型的 Logit 输出,$x$ 是输入,$x'$ 是参考基线,$\gamma(\alpha)$ 定义了 $x$ 和 $x'$ 之间的直线路径。该公式明确整合了插值输入和基线参考的 Logit 输出之间平方差的梯度。这使得 CIG 能够衡量模型决策边界相对于参考的演变方式,从而直接在 Logit 空间中捕捉对比信息,并强调类别区分性特征。

困扰先前研究人员的痛苦权衡或困境在于生成全面的显著性图与产生类别区分性解释之间的固有张力。诸如标准积分梯度之类的方法通常提供广泛的显著性图,指示所有有助于预测的特征。然而,在诊断环境中,病理学家需要理解模型为何区分肿瘤与非肿瘤,而不仅仅是哪些区域是活跃的。提高归因的全面性通常以牺牲特异性和区分能力为代价,导致解释在视觉上显著但可能包含与特定类别区分无关的特征。这使得提供可操作的临床决策见解变得困难。

约束与失效模式

为 WSI 分类提供可解释性解释的问题因几个严峻的现实约束而变得异常困难:

  • WSI 的高分辨率特性: 整张病理图像是千兆像素级别的,直接处理在计算上具有挑战性。这需要将其分解为较小的图像块,然后由深度学习模型处理,通常采用多实例学习(MIL)框架。这种基于图像块的处理增加了将重要性归因回原始 WSI 的复杂性。
  • 弱监督: 在计算病理学中,真实标签通常仅在图像级别(例如,整个图像被标记为“肿瘤”或“非肿瘤”)可用,而不是在图像块级别。这种“弱监督”使得训练模型识别图像块内的特定肿瘤区域变得极其困难,进而也难以评估归因方法是否正确地突出了这些精确区域。
  • 模糊的基线选择: 诸如积分梯度之类的基于梯度归因方法,其关键在于“基线”输入的选择,该基线作为衡量特征重要性的参考点。在病理学中,选择合适的基线是模糊的。常见的基线(例如,零向量、数据集均值、随机图像块)可能导致分布外问题、语义偏差或区分性降低,使得归因的意义减弱甚至产生误导。本文明确指出,零向量基线可能导致嵌入空间中的分布外问题,而数据集均值或随机图像块可能存在语义泄露或区分性降低的问题。
  • 归因评估缺乏真实标签: 与某些自然图像任务可能存在像素级显著性真实标签不同,在 WSI 分析中,模型预测的详细像素级真实解释通常是不可用的。这种缺失使得定量评估归因图的质量和准确性变得异常困难。显著性图的标准评估指标(如性能信息曲线或 RISE)不直接适用于弱监督的 WSI 设置,因为它们假设预测的渐进变化或像素级控制,而这在使用 MIL 进行 WSI 分类时并非如此,因为预测会随着少数关键图像块而突然改变。
  • 路径积分的计算成本: 基于路径的归因方法,包括积分梯度和 CIG,需要在输入和基线之间的路径上积分梯度。此过程涉及多个插值步骤,尤其对于从 WSI 提取的高维特征空间而言,计算可能非常密集。虽然不是明确的失效模式,但更高的计算成本是部署的实际约束。
  • 模型对学习到的嵌入的依赖性: 许多 WSI 分析模型依赖于从特征提取器(例如,Vision Transformers 或 CNN)学习到的嵌入。直接在图像空间中操作的基于梯度的方法,当模型的决策主要由这些抽象的、学习到的嵌入驱动而非原始像素值时,效果可能不佳。

为什么选择此方法

选择的必然性

对比积分梯度(Contrastive Integrated Gradients, CIG)的开发不仅仅是渐进式改进,而是由现有归因方法在应用于计算病理学中整张病理图像(WSI)分析的独特挑战时固有的局限性所驱动的必然演变。作者们意识到,传统的“SOTA”方法,如标准积分梯度(IG)及其变体(例如,Gradient $\times$ Input、Grad-CAM、Expected Gradients),虽然在通用计算机视觉任务中很有前景,但在该特定领域却力不从心。

这种认识的确切时刻隐含在对两个关键缺陷的识别中:
1. WSI 的高分辨率特性: 将这些方法直接应用于千兆像素级别的 WSI 会引入显著的计算和可解释性挑战。巨大的规模使得这些方法难以提供有意义且局部化的解释。
2. 缺乏类别区分性信号: 更重要的是,传统归因方法主要在图像空间中操作,经常突出视觉上显著但不一定类别区分性的特征。这意味着它们可以指向看起来重要但实际上无助于区分肿瘤亚型或肿瘤与非肿瘤组织等情况的区域。例如,一个区域可能在视觉上很突出,但与诊断决策无关,从而导致对病理学家的误导性解释。从仅仅的显著性转向对比性的、与决策相关的特征的需求是 CIG 的驱动力。

比较优势

CIG 在提供更聚焦、更具诊断相关性的归因方面,相比之前的黄金标准具有定性优势。其结构优势源于在Logit 空间而非直接在图像空间或输出概率空间中计算对比梯度。

以下是其压倒性优势的原因:
* 更清晰的类别区分: 与 IG 不同,IG 根据模型输出(例如,概率分数)的梯度归因重要性,CIG 计算的是输入与基线之间Logit 输出的平方差的梯度。这意味着它明确衡量一个特征对相对于基线的 Logit 输出差异的贡献程度。这种结构设计允许 CIG 突出类别区分性区域,提供肿瘤区域和非肿瘤区域之间更清晰的区分,这对于病理学至关重要。
* 局部化和一致的归因: 定性而言,如论文图所示,CIG 在插值路径的肿瘤区域内产生更稳定、更局部化的梯度,而 IG 梯度在空间上更分散。这表明 CIG 更擅长隔离真正的决策区域,通过关注真正区分类别的特征来有效处理高维噪声和不相关的视觉线索。
* 具有对比能力的公理健全性: CIG 保留了积分梯度的理想公理属性(完备性、敏感性、实现不变性),确保了理论健全性和一致性。然而,它通过引入对比元素进行了扩展,使得归因不仅一致,而且在差异化上下文中有意义。这是与仅提供绝对重要性而无比较视角的方法相比的显著结构优势。

论文没有明确详细说明内存复杂度从 $O(N^2)$ 降低到 $O(N)$,但其在生成更准确、更局部化解释方面的定性和结构优势得到了清晰的证明。

与约束的对齐

所选的 CIG 方法完美地符合计算病理学中 WSI 分析的严苛要求,形成了问题与解决方案之间的强大“结合”:

  • 建立信任的可解释性: 主要约束是需要高度可解释的 AI 系统来赢得临床医生的信任。CIG 通过提供“更具信息量和更稳定的归因”,这些归因与真实肿瘤区域紧密对齐,直接解决了这一问题。其突出类别区分性特征的能力确保了解释与诊断决策相关,从而增强了临床信心。
  • 高分辨率 WSI: 该方法旨在在多实例学习(MIL)框架内工作,这是 WSI 分析的标准范例。通过操作从 WSI 提取的图像块级特征,CIG 有效地扩展到这些图像的高分辨率特性,为单个图像块提供归因,然后将这些归因聚合到 WSI 级别的热力图中。
  • 弱监督学习: WSI 分析通常在弱监督下进行,其中仅提供图像级标签,而非像素级注释。CIG 集成到 MIL 框架中,并引入 MIL-AIC 和 MIL-SIC 指标,专门针对这种弱监督设置。这些指标评估了随着显著性图像块的引入,模型的预测和置信度如何快速演变,直接评估了在这种挑战性环境下的归因质量。
  • 类别区分性信号: 确定的核心问题是传统方法忽略了类别区分性信号。CIG 在 Logit 空间中计算对比梯度的独特属性,通过强调区分一个类别与另一个类别的特征,而不是仅仅是普遍显著性,直接解决了这个问题。这确保了解释与区分肿瘤亚型或疾病状态直接相关。

替代方案的拒绝

本文隐式和显式地拒绝了几种替代方法,主要是其他基于梯度归因的方法和常见的基线选择,因为它们无法满足 WSI 分析的特定需求:

  • 传统积分梯度(IG)及其变体: 本文指出,尽管 IG 和相关的归因方法“显示出前景”,但将其直接应用于 WSI“由于其高分辨率特性”以及它们“忽略类别区分性信号”的倾向而带来了挑战。这是对其未经修改的直接适用性的直接拒绝。Gradient $\times$ Input、EG 和 IDG 等方法与 CIG 进行了基准测试,CIG 在 MIL-AIC 和 MIL-SIC 方面始终优于它们,证明了它们在此问题上的定量劣势。
  • 图像空间归因方法: 更广泛的拒绝是针对“大多数归因方法[其]在图像空间中操作,并可能突出视觉上显著但类别无关的特征”。这种局限性严重阻碍了它们在 WSI 分类中的可解释性,因为目标是识别诊断相关的区域,而不仅仅是任何视觉上突出的区域。CIG 的 Logit 空间方法通过关注决策边界直接解决了这个问题。
  • IG 方法的标准基线选择: 本文专门用一节讨论了“归因基线的选择”,解释了为什么常见的基线(例如,零向量、数据集均值、随机图像块)对于 WSI 来说是不够的。
    • 零向量基线可能导致嵌入空间中的“分布外问题”。
    • 数据集均值引入了“语义偏差”,偏向于占主导地位的类别。
    • 从数据集分布中采样或使用随机图像块如果输入和基线属于同一类别,则会遭受“语义泄露或区分性降低”的问题。
      这些问题导致可解释性较差的显著性图。CIG 通过使用“来自相反类别的基线”来克服这个问题,这对于其对比性质以及捕捉驱动模型预测的有意义的差异至关重要。

本文没有讨论拒绝生成模型(如 GAN 或 Diffusion 模型),因为它们服务于不同于特征归因以实现可解释性的目的(例如,图像生成),而这正是本研究的重点。所考虑和拒绝的替代方案主要是其他归因技术及其组成部分。

数学与逻辑机制

主方程

为对比积分梯度(CIG)提供动力的绝对核心方程是其对第 $i$ 个特征的归因定义,如论文所示:

$$ \text{CIG}_i(x) = (x_i - x'_i) \int_0^1 \frac{\partial}{\partial x_i} ||f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')||_2^2 d\alpha $$

逐项解剖

让我们逐一分解这个方程,以理解其数学定义、在 CIG 机制中的作用以及所选算子的基本原理。

  • $\text{CIG}_i(x)$:

    1. 数学定义: 这表示输入 $x$ 的第 $i$ 个特征的对比积分梯度归因分数。
    2. 物理/逻辑作用: 这是 CIG 计算特定特征的最终输出。它量化了输入 $x$ 的第 $i$ 个特征在驱动模型预测中的重要性,特别是以对比方式相对于基线 $x'$。较高的绝对值表示重要性更高,其符号可以指示该特征是将预测推向还是远离基线所暗示的类别。
  • $x$:

    1. 数学定义: 这是我们想要计算归因的输入特征向量(例如,整张病理图像图像块的嵌入)。
    2. 物理/逻辑作用: 这是我们试图解释其特征的特定数据点。它是“目标”输入。
  • $x'$:

    1. 数学定义: 这是基线或参考特征向量。
    2. 物理/逻辑作用: 本文指出,$x'$ 通常是从“相反类别”中采样的(例如,对于肿瘤阳性图像,使用非肿瘤图像块)。它在特征空间中充当一个中性或“非信息性”参考点。CIG 通过将输入 $x$ 与此基线 $x'$ 进行比较来衡量特征重要性,突出区分 $x$ 与 $x'$ 的特征。
  • $(x_i - x'_i)$:

    1. 数学定义: 这是输入特征向量 $x$ 的第 $i$ 个分量与基线特征向量 $x'$ 的第 $i$ 个分量之间的标量差。
    2. 物理/逻辑作用: 此项作为积分梯度的缩放因子。它确保如果一个特征 $x_i$ 与其基线对应项 $x'_i$ 相同,则其归因 $\text{CIG}_i(x)$ 将为零,因为它不贡献任何差异。它还考虑了该特定特征从基线到输入的改变的大小和方向。
    3. 为何是乘法: 这是一个直接的缩放,反映了特征的“总影响”应与其与基线的差异成正比。
  • $\int_0^1 \dots d\alpha$:

    1. 数学定义: 这是从 0 到 1 的标量参数 $\alpha$ 的定积分。
    2. 物理/逻辑作用: 这个积分是“积分梯度”概念的核心。它沿着从基线 $x'$ 到输入 $x$ 的连续路径累积梯度。这种积分至关重要,因为它解决了“梯度饱和”问题,即对于已经强烈激活的特征,梯度可能变得非常小,从而低估了它们的重要性。通过对整个路径上的无穷小贡献求和,它提供了更鲁棒、更完整的特征重要性度量。
    3. 为何是积分而非求和: 使用积分是为了对连续路径求和,提供一个理论上健全且满足期望公理(如完备性)的完整归因。求和(如黎曼和近似)将是这个连续过程的离散近似。
  • $\frac{\partial}{\partial x_i}$:

    1. 数学定义: 这是相对于输入第 $i$ 个特征的偏导数算子。在积分的上下文中,它应用于平方 L2 范数项。
    2. 物理/逻辑作用: 该算子计算在路径上的每个点 $\gamma(\alpha)$ 处,平方 Logit 差对第 $i$ 个特征变化的敏感性。它告诉我们,在路径上的给定点处,$x_i$ 的微小变化会对插值输入与基线之间的“对比度”(平方 Logit 差)产生多大影响。这就是该方法识别哪些特征在局部具有影响力的原因。
  • $|| \cdot ||_2^2$:

    1. 数学定义: 这表示向量的平方欧几里得(L2)范数。对于向量 $v$, $||v||_2^2 = \sum_j v_j^2$。
    2. 物理/逻辑作用: 该项量化了插值输入 Logit 输出与基线 Logit 输出在 Logit 空间中的“距离”或“不相似性”。通过对 L2 范数进行平方,它确保度量始终为非负数,并更显著地强调较大的差异。这是 CIG 试图解释的核心“对比”度量。
    3. 为何是 L2 范数: L2 范数是衡量欧几里得空间中向量幅度和距离的标准度量。对其进行平方通过去除平方根简化了计算,并提供了一个平滑、可微分的函数,适用于梯度计算。
  • $f_{\text{logit}}(\cdot)$:

    1. 数学定义: 这表示模型 Logit 层的输出。对于分类模型,这些是在 softmax 激活之前的每个类别的原始、未归一化分数。
    2. 物理/逻辑作用: CIG 在 Logit 空间中操作,因为 Logit 直接反映了模型对每个类别的信心和证据。通过衡量 Logit 输出的差异,CIG 捕捉了类别区分性信息,这对于区分肿瘤区域和非肿瘤区域至关重要。这是与在图像空间或 softmax 概率上操作的方法的关键区别。
  • $\gamma(\alpha)$:

    1. 数学定义: 这是一个直线路径函数,定义为 $\gamma(\alpha) = x' + \alpha(x - x')$,其中 $\alpha \in [0, 1]$。
    2. 物理/逻辑作用: 该函数在特征空间中生成中间点,这些点位于连接基线 $x'$(当 $\alpha=0$ 时)到输入 $x$(当 $\alpha=1$ 时)的直线上。它提供了梯度积分的连续轨迹。
  • $\alpha$:

    1. 数学定义: 一个从 0 到 1 连续变化的标量参数。
    2. 物理/逻辑作用: 该参数控制插值路径 $\gamma(\alpha)$ 上的位置。随着 $\alpha$ 的增加,插值点从基线向输入移动。
  • $f_{\text{logit}}(x')$:

    1. 数学定义: 当基线特征向量 $x'$ 作为输入提供时,模型的 Logit 输出。
    2. 物理/逻辑作用: 这充当了 Logit 空间中的一个固定参考点。CIG 方法衡量插值输入 $\gamma(\alpha)$ 的 Logit 输出如何与此恒定的基线 Logit 输出不同。这个恒定的参考点是 CIG“对比性”性质的基础,它允许它突出导致与基线预测发生偏差的特征。

分步流程

想象一个抽象的数据点,由其特征向量 $x$ 表示,进入这个数学引擎。以下是 CIG 处理它的方式,以确定其特征归因:

  1. 基线选择: 首先,选择一个合适的基线特征向量 $x'$。本文强调使用对比基线,例如在分析肿瘤阳性图像时从非肿瘤区域采样特征。此 $x'$ 作为中性或“相反”的参考点。
  2. 路径构建: 在特征空间中构建一条直线路径 $\gamma(\alpha)$。这条路径在基线 $x'$(当 $\alpha=0$ 时)和输入 $x$(当 $\alpha=1$ 时)之间平滑地插值。可以将其视为从参考点到实际输入点的直线。
  3. Logit 变换: 沿着这条路径的每个无穷小步,由 $\gamma(\alpha)$ 表示,计算模型的 Logit 输出 $f_{\text{logit}}(\gamma(\alpha))$。同时,也获得固定基线 $f_{\text{logit}}(x')$ 的 Logit 输出。
  4. 对比度量: 在路径上的每个点 $\alpha$,计算当前插值 Logit 输出与基线 Logit 输出之间的差值 $f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')$。然后计算此差值的平方欧几里得范数 $||f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')||_2^2$。此值量化了插值输入的模型原始预测与其在路径上该特定点的基线预测的“不同程度”。
  5. 梯度计算: 计算此平方 Logit 差(对比度量)相对于输入每个单独特征 $x_i$ 的偏导数。此梯度 $\frac{\partial}{\partial x_i} ||f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')||_2^2$ 告诉我们,在路径上的该特定点 $\alpha$ 处,对比度量对特征 $i$ 变化的敏感性。
  6. 梯度积分: 然后沿着从 $\alpha=0$ 到 $\alpha=1$ 的整个路径对这些偏导数进行积分。此步骤有效地将每个特征的敏感性对对比度量的所有无穷小贡献相加,因为输入从基线过渡到其实际值。这确保了对重要性的全面评估,避免了在单点处梯度可能产生误导的问题。
  7. 缩放与最终归因: 最后,对于每个特征 $i$,将累积的积分乘以差值 $(x_i - x'_i)$ 进行缩放。此缩放确保与基线相同的特征获得零归因,并考虑了特征从基线变化的幅度。结果是 $\text{CIG}_i(x)$,即特征 $i$ 的对比积分梯度。

此过程对所有特征重复进行,得到一个归因分数向量,该向量突出显示了输入 $x$ 的哪些部分对其预测最负责,相对于所选基线 $x'$。

优化动力学

需要明确的是,对比积分梯度(CIG)是一种归因方法,而不是模型训练或优化算法。因此,它不像通过损失函数调整模型参数那样,以传统意义上进行“学习”、“更新”或“收敛”。相反,其“动力学”指的是归因分数的计算方式以及它们如何表现以提供对已训练模型的有意义的解释。

该机制的“动力学”受 CIG 设计旨在满足的几项公理属性的约束,这些属性确保了其可靠性和可解释性:

  1. 完备性公理: 如论文(方程 7)所述,输入 $x$ 的所有 CIG 归因之和等于输入与基线之间平方 Logit 差的总变化:$\sum_{i=1}^n \text{CIG}_i(x) = ||f_{\text{logit}}(x) - f_{\text{logit}}(x')||_2^2$。这意味着该方法完全考虑了输入与基线之间模型 Logit 输出的全部差异,并将此差异完全分配给输入特征。没有贡献会被遗漏。

  2. 敏感性公理: CIG 为与基线对应项 $x'_i$ 不同且其变化会影响模型 Logit 输出的特征 $x_i$ 分配非零归因。反之,如果特征 $x_i$ 与 $x'_i$ 没有变化,或者模型的 Logit 输出完全独立于 $x_i$,那么其归因将为零。这确保了 CIG 正确地识别并仅突出与模型决策相关的特征,将它们与不相关的特征区分开来。此属性对于生成聚焦且可解释的显著性图至关重要。

  3. 实现不变性公理: CIG 的归因仅基于模型的输出函数 ($f_{\text{logit}}(\cdot)$) 及其梯度,而不是基于神经网络的具体实现细节。这保证了功能等效的模型将产生一致的归因,无论它们在内部如何编码或构建。这使得 CIG 在不同的模型架构中都具有鲁棒性和可信度。

因此,CIG 的“动力学”不是关于损失景观上的迭代更新,而是关于遵循这些理论属性的特征重要性分数的鲁棒且一致的计算。在 Logit 空间中沿路径积分梯度,结合对比基线,塑造了归因值,使其更局部化和类别区分性,正如论文中的定性结果所证实的。该机制确保生成的解释不仅在视觉上显著,而且在逻辑上健全,并直接与模型决策过程相关,特别是在区分不同类别时。

Figure 1. Overview of Contrastive Integrated Gradients (CIG). Given a whole-slide image (WSI), patch-level features are extracted and compared to a baseline sampled from non-tumor regions. An interpolated path \ga m ma (\a lpha ) = x + \alpha (x' - x) is constructed between the input x and the baseline x' . CIG computes attributions by integrating the gradients of the squared logit difference along this path, where f_{\text {logit}}(\cdot ) denotes the model’s logit output and \ | \cdot \|_2 is the Euclidean norm. Row (a) shows interpolated features at different \alpha values ( \ alpha = 0.167 to 1 ). Row (b) illustrates how contrastive gradients evolve with increasing \alpha , indicating the sensitivity of each feature at each interpolation step. The full attribution is computed by summing the gradients across all \alpha values and multiplying by the input difference x - x' . The final heatmap (bottom right) shows the CIG attribution result, indicating which regions most strongly influence the model’s decision relative to the baseline

结果、局限性与结论

实验设计与基线

为了严格验证对比积分梯度(CIG)的有效性,作者们在各种计算病理学场景中设计了一个全面的实验设置。CIG 旨在超越的“受害者”或基线模型包括几种已建立的基于梯度归因的方法:Vanilla Gradient、积分梯度(Integrated Gradients, IG)[32]、期望梯度(Expected Gradients, EG)[29] 和积分决策梯度(Integrated Decision Gradients, IDG)[33],以及用于比较的简单随机基线。所有基于路径的方法,包括 CIG,都配置了 50 个插值步骤以保持一致性。

实验在三个公开可用的、高风险的癌症病理学数据集上进行:CAMELYON16(淋巴结中的乳腺癌转移)、TCGA-Renal(涵盖三种肾癌亚型:KIRC、KIRP、KICH)和 TCGA-Lung(涵盖 LUAD 和 LUSC 肺癌亚型)。这种多样化的选择确保了 CIG 在不同癌症类型和诊断设置中的泛化能力。

使用了两种不同的多实例学习(MIL)分类模型来评估跨架构的归因性能:一个简单的 MLP 包分类器和一个广泛使用的基于注意力的 CLAM [19] 模型。两种模型都使用了从预训练的 ResNet-50 中提取的图像块级特征,并训练了 200 个 epoch,在数据分割中进行了患者级别分离以防止数据泄露。

实验设计的一个关键方面是归因基线的创新构建,特别是对于基于路径的方法。与传统基线(例如,黑图像、数据集均值)不同,CIG 和其他基于 IG 的方法采用了对比基线,通过从相反类别的 30 张幻灯片中采样图像块特征。例如,在评估肿瘤阳性幻灯片时,非肿瘤幻灯片图像块用作参考。此策略旨在更有效地突出类别区分性特征,与 CIG 捕捉对比信息的核心机制相符。

为了在当前缺乏真实解释标签的弱监督 WSI 设置中定量评估归因质量,作者们改编了性能信息曲线(PICs)框架 [9],并引入了两个专门的指标:
- MIL-准确率信息曲线(MIL-AIC):此指标跟踪模型分类准确率(正确幻灯片级别标签预测),随着高显著性图像块的逐步引入。更高的 MIL-AIC 表明归因方法能够快速识别对正确分类至关重要的区域。
- MIL-Softmax 信息曲线(MIL-SIC):此指标衡量模型在正确类别上的 Softmax 置信度,随着信息性图像块的揭示。更高的 MIL-SIC 表明归因方法突出了能够快速提高模型确定性的区域。

评估专门针对肿瘤阳性幻灯片。通过从控制特征(来自相反类别)开始,并逐渐用来自目标幻灯片的特征替换它们(按归因分数排序),设计了“无情的证明”。此过程使用两个互补的信息级别 bin 进行结构化:“Top-k 图像块”(例如,$k=1, \dots, 500$)以捕捉早期预测变化,以及“显著性阈值”(例如,20% 到 99% 的百分位数截止值)以评估后期转换和完整性。这种细致的设计允许对 CIG 识别的显著区域被引入时,模型的预测如何快速且自信地演变进行精细分析,提供了其功效的无可辩驳的证据。

证据证明的内容

实验结果提供了令人信服的定量和定性证据,表明 CIG 在识别 WSI 中与决策相关的区域方面,显著优于现有归因方法。

定量上,CIG 在所有三个癌症数据集和两种分类器架构上始终实现了最高的 MIL-AIC 和 MIL-SIC 分数。例如,在 CAMELYON16 数据集(表 1)上,使用 CLAM 模型的 CIG 在 MIL-AIC 上得分为 $0.950 \pm 0.166$,在 MIL-SIC 上得分为 $0.945 \pm 0.128$,显著优于次优方法(IG:$0.891 \pm 0.261$ MIL-AIC,$0.896 \pm 0.243$ MIL-SIC)。使用 MLP 分类器也观察到类似的趋势,其中 CIG 达到了 $0.965 \pm 0.128$ MIL-AIC 和 $0.913 \pm 0.130$ MIL-SIC。这些由引入 CIG 识别的显著性区域时模型预测如何快速可靠地转向正确标签所衡量的明确证据,证明了 CIG 在 Logit 空间中计算对比梯度的核心机制有效地突出了真正类别区分性特征。

在 TCGA-Renal 数据集(表 2)上,CIG 在所有三个肾脏亚型(pRCC、ccRCC、chRCC)和两种模型上再次表现出强大的性能,始终位居前列。例如,在 ccRCC 和 CLAM 模型上,CIG 获得了 $0.776 \pm 0.297$ MIL-AIC 和 $0.783 \pm 0.286$ MIL-SIC,优于所有基线。TCGA-Lung 数据集(表 3)进一步证实了这些发现,CIG 在 LUSC 和 CLAM 模型上取得了最高分数($0.759 \pm 0.296$ MIL-AIC,$0.765 \pm 0.277$ MIL-SIC),并为 LUAD 提供了强大的平衡。这些结果共同表明,CIG 捕捉对比信息的能力带来了更具信息量和更稳定的归因。

定性上,可视化进一步巩固了 CIG 的优越性。图 2 展示了插值步骤中的中间梯度图,清楚地表明 CIG 在路径的肿瘤区域内产生更局部化和更一致的梯度,而 IG 则表现出更分散的模式。这表明 CIG 的归因更稳定且聚焦于相关区域。

更重要的是,图 3 展示了最终的归因图,表明 CIG 一致地强调与注释的真实肿瘤区域密切相关的区域。相比之下,IG 和 EG 等基线方法经常突出视觉上显著但区分性较差的特征,这些特征并非实际肿瘤的一部分。与真实标签的这种视觉一致性提供了无可辩驳的证据,表明 CIG 的机制成功地识别了与决策相关的肿瘤区域。

最后,本文从理论上证明了 CIG 满足积分归因方法的基本公理属性:完备性、敏感性和实现不变性。这种理论上的健全性,结合强大的定量和定性实验结果,为 CIG 的主张提供了坚实的基础。

局限性与未来方向

尽管 CIG 在可解释的 WSI 分类方面取得了显著进展,但作者们承认存在一些局限性,并提出了明确的未来研究方向。

一个显著的局限性源于评估框架本身:当前的 MIL-AIC 和 MIL-SIC 指标主要设计用于肿瘤阳性幻灯片,并且最适合于此。正如作者们解释的那样,正常幻灯片表现出不同的预测动态,通常需要移除几乎所有特征才能使预测发生变化,这使得 AUC 等指标在这种情况下意义不大。这表明,虽然 CIG 在识别肿瘤区域方面表现出色,但其在非肿瘤或正常组织分类中的适用性和解释性,或在“相反类别”基线不那么明确的情况下,可能需要进一步的研究或评估方法的调整。

展望未来,最关键的未来方向是对可解释性进行严格的人类主体评估。虽然定量指标和定性可视化提供了强有力的证据,但计算病理学中可解释性的最终目标是建立信任并辅助临床决策。直接由病理学家或医学专家验证 CIG 的解释是否真正增强了他们对 AI 辅助诊断的理解和信心是必不可少的。这将涉及设计研究来评估 CIG 的归因如何影响人类诊断的准确性、效率和信任度。

除了人类主体评估外,还有几个其他讨论主题值得进一步发展:
- 推广到其他医学成像模态:CIG 的对比方法能否应用于其他复杂的医学成像任务,如 MRI 或 CT 扫描,这些任务同样需要可解释性,但特征空间和基线可能存在显著差异?
- 计算效率和可扩展性:虽然 CIG 表现强劲,但归因方法,特别是基于路径的方法,可能计算密集。进一步的研究可以探索优化方法,以提高 CIG 对于极其大的 WSI 或实时临床应用的效率,也许通过近似技术或硬件加速。
- 动态基线选择:当前方法依赖于从“相反类别”基线采样。未来的工作可以研究更动态或自适应的基线选择策略,特别是在多类别场景中,或者当一个清晰的“相反”类别不易获得或定义不明确时。
- 与事前方法的集成:CIG 是一种事后归因方法。探索其与事前可解释性方法的集成,这些方法将可解释性直接构建到模型架构中,可能会产生结合两者优势的混合方法,提供局部解释和全局模型理解。
- 超越二元分类:虽然本文触及了多亚型分类(例如,TCGA-Renal),但深入研究 CIG 在高度精细的多类别问题中的表现以及如何进行优化,其中需要突出许多类别之间的细微差别,这将是有价值的。

Table 3. Attribution performance on each class from the TCGA-Lung dataset, evaluated using MIL-AIC and MIL-SIC metrics Figure 2. Comparison of Integrated Gradients (IG) and Con- trastive Integrated Gradients (CIG) across interpolation steps ( \alpha ), each row shows intermediate gradient maps at increasing \alpha val- ues, from 0.167 to 1.0, illustrating how gradients evolve along the interpolation path. Note that the final heatmap ( \ alpha = 1 ) shows only the gradient at the last step and is not the complete attribution result. The full attribution is computed by summing the gradients across all \alpha values and multiplying by the input difference x ' - x . CIG produces more stable and localized gradients in tumor regions throughout the path, while IG exhibits more dispersed patterns Table 1. Attribution performance on tumor-positive slides from the Camelyon16 dataset, evaluated using MIL-AIC and MIL-SIC metrics

与其他领域的同构性

结构骨架

本文的核心数学机制是一种方法,通过沿路径积分平方的 Logit 输出差异来量化输入特征对模型决策的微分影响,该路径指向一个对比参考。

远亲

对比积分梯度(CIG)的底层逻辑在远离计算病理学的领域中有着迷人的“镜像”:

  1. 目标领域:金融风险管理与投资组合优化

    • 关联性: 在金融领域,一个长期存在的问题是理解哪些特定的市场因素(例如,利率、商品价格、行业表现)驱动投资组合的表现或风险,相对于基准指数(如标普 500)或竞争性投资组合。这与 CIG 的目标——通过将输入与对比基线进行比较来识别类别区分性特征——非常相似。量化分析师可能想知道不仅什么导致了他们的投资组合的波动性,而且在某些经济条件下,是什么具体使其比市场平均水平更具波动性。这里的“Logit 空间”可以是一个风险调整后回报或偏离基准的变换度量,而路径积分可以代表这些因素贡献如何在不同的模拟市场情景或投资策略下演变。
  2. 目标领域:气候科学与地球系统模型

    • 关联性: 气候科学家经常需要将观测到的气候变化或模型预测归因于特定的人为强迫(例如,二氧化碳排放、土地利用变化)相对于工业化前基线或“无干预”情景。这与 CIG 的对比归因直接平行。他们需要识别复杂地球系统模型中的哪些输入参数或初始条件与没有这些强迫的世界相比,最负责于特定的气候结果(例如,区域温度特定升高或极端天气事件的频率)。这里的“Logit 空间”可以代表气候异常或偏离稳定状态的变换度量,而路径积分可以模拟强迫的逐渐增加及其对气候系统的影响。

假设情景

想象一下,一家对冲基金的量化分析师明天“窃取”了 CIG 的确切方程。他们不再仅仅计算投资组合价值对各种市场因素的敏感性,而是可以应用 CIG 来理解其投资组合相对于选定基准的跑赢或跑输的对比性驱动因素。通过沿着代表不同市场条件的路径积分其投资组合的 Logit 回报(类似于 Logit 输出)和基准的 Logit 回报,他们可以精确地找出哪些特定的资产或因素暴露区分了他们的投资组合与基准的表现。这将导致在对比性 Alpha 生成和风险对冲方面取得突破。他们可以识别导致其投资组合偏离基准的确切市场条件或资产特征,从而实现超针对性的调整,以最大化相对回报或最小化相对风险。这可能会彻底改变主动基金经理识别和利用市场低效率的方式,超越简单的归因,进入金融分析中的区分性归因

结构的通用图书馆

本文有力地强化了所有科学问题都是相互关联的观点,表明在医学图像中识别区分性特征的挑战与金融和气候科学等不同领域的对比归因问题有着深刻的数学联系,为我们科学理解的通用图书馆贡献了一个重要的结构。