WACV

Contrastive Integrated Gradients: Whole Slide Image 분류를 위한 특징 기여도 기반 방법론

Authors Explaining Whole Slide Image Classification

Original Paper Published 2026-01

ISOM Posted 2026-03-18 06:15 UTC

Read Time 34M

Open PDF

배경 및 학술적 계보

기원 및 학술적 계보

본 논문에서 다루는 문제는 전산 병리학, 특히 Whole Slide Image (WSI) 분석 분야에서 해석 가능성에 대한 중요성이 절실히 요구되는 상황에서 비롯된다. 병리학은 현대 의학의 초석으로서 필수적인 진단과 예후를 제공한다. 전통적으로 병리학자들은 WSI를 세밀하게 검토하여 세포 구성 및 조직 구조를 평가하는데, 이는 시간이 많이 소요될 뿐만 아니라 관찰자 간 변동성에도 취약하다.

인공지능과 딥러닝의 등장으로, 관심 영역의 사전 분할 및 진단 일관성과 워크플로우 효율성 향상을 위한 솔루션을 제공하는 전산 도구들이 등장했다. 그러나 WSI 분류 및 분할을 위한 이러한 고급 딥러닝 모델들은 놀라운 성능을 보여주지만, 종종 "블랙박스"처럼 작동하여 예측을 유도하는 특정 조직학적 패턴에 대한 통찰력을 거의 제공하지 못한다. 이러한 투명성 부족은 AI 보조 진단에 대한 신뢰를 약화시키며, 이는 임상 적용 확산에 상당한 장벽이 된다.

이 문제의 학술적 계보는 AI 모델을 인간에게 더 이해하기 쉽게 만들고자 하는 Explainable AI (XAI)라는 더 넓은 분야로 거슬러 올라간다. 컴퓨터 비전 내에서 XAI 방법론은 크게 히트맵 기반(모델이 어디에 집중하는지를 보여줌)과 개념 기반(모델이 무엇에 의존하는지를 설명함)으로, 그리고 사후(후처리, post-hoc, 학습 후 설명)와 사전(선행, ante-hoc, 모델에 통합된 해석 가능성)으로 분류된다. 본 연구는 특히 사후 기여도 방법론을 발전시키는데, 이는 WSI 내에서 모델의 결정과 관련된 영역을 강조하는 국소화된 히트맵을 생성하는 것을 목표로 한다.

저자들이 본 논문을 작성하게 된 근본적인 한계, 즉 "고충점(pain point)"은 다면적이다. Integrated Gradients (IG)와 같은 기존의 그래디언트 기반 기여도 방법론은 종종 원시 이미지 공간에서 작동한다. 이는 유용하지만, WSI 패치에서 파생된 복잡하고 학습된 특징 임베딩에 의존하는 모델에는 덜 효과적일 수 있다. 더 중요하게는, 이러한 방법론은 필연적으로 시각적으로 두드러지지만 반드시 클래스 판별적이지는 않은 영역을 강조하는 경향이 있다. 이는 두드러지지만 관련 없는 특징을 가리킬 수 있으며, 따라서 종양과 비종양 영역을 구별하는 것이 중요한 WSI 분류 작업에서 해석 가능성을 제한한다. 더욱이, Integrated Gradients와 같은 방법론의 효과는 "기준(baseline)" 입력 선택에 크게 의존하는데, 이는 병리학과 같은 복잡한 영역에서 모호하고 적절하게 정의하기 어려울 수 있다. 다른 고급 기여도 방법론들은 더 나은 정확도를 제공하지만, 종종 더 높은 계산 비용을 수반하여 대규모 WSI 분석에 덜 실용적이다. 저자들의 동기는 단순히 이미지 공간이 아닌, 보다 의미 있는 "로짓 공간(logit space)"에서 작동하는, 더 집중되고 클래스 판별적인 기여도를 제공하는 방법론을 개발함으로써 이러한 한계를 극복하는 것이다.

직관적인 도메인 용어

이 논문에서 사용되는 몇 가지 전문 용어를 제로베이스 독자를 위한 직관적인 일상 비유로 번역하면 다음과 같다.

Whole Slide Image (WSI): 현미경 슬라이드에 장착된 전체 조직 샘플의 거대하고 초고해상도 디지털 사진을 상상해 보라. 이는 마치 구글 지도를 사용하여 도시 전체를 탐색하다가 단일 건물까지 확대하는 것처럼, 전체 슬라이드를 볼 수 있을 정도로 상세하다. 병리학자들은 질병을 진단하기 위해 이를 사용한다.
Multiple Instance Learning (MIL): 대량의 초콜릿 상자를 검사하는 품질 검사원을 생각해보라. 그들은 모든 초콜릿을 열어보지는 않지만, 상자 안에서 하나라도 상한 초콜릿을 발견하면 전체 상자가 "상한"으로 표시된다. MIL은 내부의 모든 "초콜릿"(개별 조직 패치)의 정확한 레이블을 알 필요 없이 이러한 "상자"(전체 슬라이드)로부터 학습하는 AI 방식이다.
Integrated Gradients (IG): 복잡한 수프의 최종 맛에 각 재료가 얼마나 기여하는지 이해하려고 노력하는 것을 상상해보라. 최종 수프를 맛보는 대신, 맑은 육수에서 완전히 맛이 난 요리까지, 준비의 모든 작은 단계에서 맛을 보고 그 과정에서 각 재료가 맛을 어떻게 변화시키는지 기록한다. IG는 AI에 대해서도 유사한 작업을 수행하며, "맛"(모델 출력)을 "재료"(입력 특징)까지 부드러운 경로를 따라 추적한다.
Logit Space: AI 모델이 예측(예: "종양" 또는 "비종양")을 할 때, 각 옵션에 대한 정규화되지 않은 원시 점수를 계산한 후 이를 확률(예: 종양 확률 90%)로 변환한다. 로짓 공간은 이러한 원시 "증거 점수"를 백분율로 부드럽게 변환하기 전에 직접 보는 것과 같다. 이는 각 범주에 대한 모델의 내부 추론 및 신뢰도에 대한 더 명확하고 직접적인 보기를 제공한다.
Attribution Method: AI 모델이 사진에 개가 포함되어 있다고 알려주면, 기여도 방법론은 AI에게 "개가 있다고 생각하게 만든 이미지의 정확히 어떤 부분을 보여줘"라고 묻는 것과 같다. 이는 모델의 결정에 가장 큰 영향을 미친 특정 픽셀이나 영역을 강조하여 추론을 이해하는 데 도움을 준다.

표기법 표

표기법	설명

문제 정의 및 제약 조건

핵심 문제 공식화 및 딜레마

본 논문에서 다루는 핵심 문제는 전산 병리학에서 딥러닝 모델의 Whole Slide Image (WSI) 분류에 대한 해석 가능성을 향상시키는 데 있다.

시작점(입력/현재 상태)은 딥러닝 모델, 종종 Multiple Instance Learning (MIL) 패러다임을 따르는 고해상도 WSI를 처리하는 것을 포함한다. Integrated Gradients (IG)와 같은 기존의 기여도 방법론은 이러한 모델에 적용되어 예측을 설명한다. 이러한 방법론은 모델의 결정을 영향을 미치는 영역을 식별할 수 있지만, 종종 이미지 공간이나 학습된 임베딩에서 작동하며 클래스 판별에 직접적으로 관련이 없을 수 있는 시각적으로 두드러지는 특징을 강조하는 경향이 있다. 이는 일반적인 모델 결정 패턴을 포착하지만, 다른 종양 하위 유형이나 종양과 비종양 영역을 구별하는 데 중요한 특정 신호를 종종 간과한다.

원하는 종착점(출력/목표 상태)은 WSI 내에서 클래스 판별적인 영역을 정확하게 강조하는 보다 유익하고 집중적이며 정확한 기여도를 달성하는 것이다. 이러한 기여도는 실제 종양 영역과 밀접하게 일치하여 AI 보조 진단 도구에 대한 신뢰를 구축해야 한다. 또한, 원하는 방법론은 이론적 건전성과 일관된 설명을 보장하기 위해 기여도의 기본 공리적 속성(완전성, 민감성, 구현 불변성)을 충족해야 한다.

본 논문이 연결하고자 하는 정확한 누락된 연결 또는 수학적 격차는 로짓 공간에서 대조 정보(contrastive information)를 효과적으로 포착하지 못하는 전통적인 기여도 방법론의 무능력이다. 이전 방법론은 주로 입력 특징에 대한 모델 출력의 그래디언트를 기반으로 중요도를 기여하는 데 중점을 둔다. 그러나 이 접근 방식은 단순히 두드러지는 특징과 특정 클래스에 대해 진정으로 판별적인 특징을 구별하지 못하는 경우가 많다. 본 논문은 $i$-번째 특징에 대한 기여도를 수학적으로 정의하는 Contrastive Integrated Gradients (CIG)를 도입함으로써 이 격차를 해소할 것을 제안한다.
$$ \text{CIG}_i^c(x) = (x_i - x'_i) \int_0^1 \frac{\partial ||f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')||_2^2}{\partial x_i} d\alpha $$
여기서 $f_{\text{logit}}(\cdot)$는 모델의 로짓 출력을 나타내고, $x$는 입력, $x'$는 기준선이며, $\gamma(\alpha)$는 $x$와 $x'$ 사이의 직선 경로를 정의한다. 이 공식은 보간된 입력과 기준선 참조 간의 로짓 출력의 제곱 차이 그래디언트를 명시적으로 통합한다. 이를 통해 CIG는 기준선에 비해 모델의 결정 경계가 어떻게 진화하는지 측정할 수 있으며, 로짓 공간에서 직접 대조 정보를 포착하고 클래스 판별적 특징을 강조한다.

이전 연구자들을 가두었던 고통스러운 절충 또는 딜레마는 포괄적인 중요도 맵 생성과 클래스 판별적인 설명을 생성하는 것 사이의 내재된 긴장이다. 표준 Integrated Gradients와 같은 방법론은 종종 예측에 기여하는 모든 특징을 나타내는 광범위한 중요도 맵을 제공한다. 그러나 진단 맥락에서 병리학자들은 모델이 종양과 비종양을 구별하는 이유를 이해해야 하며, 단순히 활성화된 영역이 무엇인지가 아니다. 기여도의 포괄성을 개선하는 것은 종종 특이성과 판별력의 희생을 수반하며, 시각적으로 두드러지지만 관심 있는 특정 클래스 구별에 관련 없는 특징을 포함하는 설명을 초래한다. 이는 임상 의사 결정에 대한 실행 가능한 통찰력을 제공하기 어렵게 만든다.

제약 조건 및 실패 모드

WSI 분류에 대한 해석 가능한 설명을 제공하는 문제는 몇 가지 가혹하고 현실적인 제약 조건으로 인해 극도로 어려워진다.

WSI의 초고해상도 특성: Whole Slide Images는 기가픽셀 규모이므로 직접 처리하기에 계산적으로 어렵다. 이는 이를 더 작은 패치로 분할해야 하며, 이 패치들은 종종 Multiple Instance Learning (MIL) 프레임워크에서 딥러닝 모델에 의해 처리된다. 이러한 패치 기반 처리는 원래 WSI로의 중요도 기여를 복잡하게 만든다.
약한 지도 학습(Weak Supervision): 전산 병리학에서 실제 레이블은 일반적으로 슬라이드 수준 (예: 전체 슬라이드가 "종양" 또는 "비종양"으로 레이블링됨)에서만 사용할 수 있으며, 패치 수준에서는 사용할 수 없다. 이러한 "약한 지도 학습"은 슬라이드 내의 특정 종양 영역을 식별하도록 모델을 훈련시키는 것을 극도로 어렵게 만들며, 결과적으로 기여도 방법론이 이러한 정확한 영역을 올바르게 강조하는지 평가하는 것을 어렵게 만든다.
모호한 기준선 선택: Integrated Gradients와 같은 그래디언트 기반 기여도 방법론은 특징 중요도를 측정하기 위한 참조점 역할을 하는 "기준선" 입력 선택에 결정적으로 의존한다. 병리학에서 적합한 기준선을 선택하는 것은 모호하다. 일반적인 기준선(예: 0 벡터, 데이터셋 평균, 무작위 패치)은 분포 외 문제, 의미론적 편향 또는 판별력 감소를 초래하여 기여도를 덜 의미 있거나 오해의 소지가 있게 만들 수 있다. 본 논문은 0 벡터 기준선이 임베딩 공간에서 분포 외 문제를 야기할 수 있는 반면, 데이터셋 평균 또는 무작위 패치는 의미론적 누출 또는 판별력 감소로 고통받을 수 있다고 명시적으로 언급한다.
기여도 평가를 위한 실제 데이터 부족: 자연 이미지 작업 중 픽셀 수준의 중요도 실제 데이터가 존재할 수 있는 반면, WSI 분석에서는 모델 예측에 대한 상세한 픽셀 단위 실제 설명이 종종 누락된다. 이러한 부재는 중요도 맵의 품질과 정확성을 정량적으로 평가하는 것을 매우 어렵게 만든다. 중요도 맵에 대한 표준 평가 지표(예: Performance Information Curves 또는 RISE)는 MIL 기반 WSI 분류와 같이 예측이 몇 개의 핵심 패치로 갑자기 변경될 수 있는 경우와 달리, 점진적인 예측 변화 또는 픽셀 수준 제어를 가정하므로 WSI 분석의 약한 지도 학습 설정에 직접적으로 적용할 수 없다.
경로 적분(Path Integration)의 계산 비용: Integrated Gradients 및 CIG를 포함한 경로 기반 기여도 방법론은 입력과 기준선 사이의 경로를 따라 그래디언트를 적분해야 한다. 이 과정은 WSI에서 파생된 고차원 특징 공간의 경우 특히 계산 집약적인 여러 보간 단계를 포함한다. 명시적인 실패 모드는 아니지만, 더 높은 계산 비용은 배포에 대한 실질적인 제약 조건이다.
모델의 학습된 임베딩에 대한 의존성: 많은 WSI 분석 모델은 특징 추출기(예: Vision Transformers 또는 CNN)에서 학습된 임베딩에 의존한다. 이미지 공간에서 직접 작동하는 그래디언트 기반 방법론은 모델의 결정이 원시 픽셀 값보다는 이러한 추상적이고 학습된 임베딩에 의해 주로 주도될 때 덜 효과적일 수 있다.

왜 이 접근 방식인가

선택의 불가피성

Contrastive Integrated Gradients (CIG)의 개발은 전산 병리학에서 Whole Slide Image (WSI) 분석의 고유한 과제에 적용될 때 기존 기여도 방법론의 내재된 한계에 의해 주도된 단순한 점진적 개선이 아니라 필수적인 진화였다. 저자들은 전통적인 "SOTA" 방법론, 즉 표준 Integrated Gradients (IG) 및 그 변형(예: Gradient $\times$ Input, Grad-CAM, Expected Gradients)이 일반 컴퓨터 비전 작업에서 유망했지만 이 특정 영역에서는 부족하다는 것을 깨달았다.

이러한 깨달음의 정확한 순간은 두 가지 결정적인 단점을 식별함으로써 암시된다.
1. WSI의 초고해상도 특성: 기가픽셀 규모의 WSI에 이러한 방법론을 직접 적용하는 것은 상당한 계산 및 해석 가능성 문제를 야기했다. 엄청난 규모 때문에 이러한 방법론이 의미 있고 국소화된 설명을 제공하기 어려웠다.
2. 클래스 판별 신호의 부족: 더 중요하게는, 전통적인 기여도 방법론은 주로 이미지 공간에서 작동함으로써 시각적으로 두드러지지만 반드시 클래스 판별적이지는 않은 특징을 강조하는 경향이 있었다. 이는 종양 하위 유형이나 종양과 비종양 조직을 구별하는 데 실제로 도움이 되지 않는 중요해 보이는 영역을 가리킬 수 있음을 의미한다. 예를 들어, 어떤 영역은 시각적으로 두드러지지만 진단 결정과 관련이 없을 수 있으며, 병리학자에게 오해의 소지가 있는 설명을 초래한다. 단순한 중요도를 넘어 대조적이고 결정 관련 특징으로 이동할 필요성이 CIG의 추진력이었다.

비교 우위

CIG는 특히 더 집중적이고 진단적으로 관련성 있는 기여도를 제공하는 능력에서 이전의 금본위제에 비해 질적인 우수성을 제공한다. 그 구조적 이점은 직접 이미지 공간이나 출력 확률 공간이 아닌 로짓 공간에서 대조 그래디언트를 계산하는 데서 비롯된다.

이것이 압도적으로 우수한 이유는 다음과 같다.
* 더 선명한 클래스 차별화: 모델의 출력(예: 확률 점수) 그래디언트에 중요도를 기여하는 IG와 달리, CIG는 입력과 기준선 간의 로짓 출력의 제곱 차이 그래디언트를 계산한다. 이는 특정 클래스에 대한 기준선에 비해 로짓 출력 차이에 특징이 얼마나 기여하는지를 명시적으로 측정한다는 것을 의미한다. 이러한 구조적 설계는 CIG가 클래스 판별적 영역을 강조할 수 있도록 하여, 병리학에 중요한 종양과 비종양 영역 간의 훨씬 더 선명한 구별을 제공한다.
* 국소화되고 일관된 기여도: 질적으로, 논문의 그림에서 보여지듯이, CIG는 보간 경로 전체에서 종양 영역 내에서 더 안정적이고 국소화된 그래디언트를 생성하는 반면, IG 그래디언트는 공간적으로 더 분산되는 경향이 있다. 이는 CIG가 실제 결정 결정 영역을 분리하는 데 더 뛰어나며, 고차원 노이즈와 관련 없는 시각적 단서를 효과적으로 처리하여 클래스를 진정으로 구별하는 것에 집중한다는 것을 나타낸다.
* 대조적 힘을 갖춘 공리적 건전성: CIG는 Integrated Gradients의 바람직한 공리적 속성(완전성, 민감성, 구현 불변성)을 유지하여 이론적 건전성과 일관성을 보장한다. 그러나 이는 대조적 요소를 통합하여 기여도를 단순히 일관성 있게 만드는 것이 아니라 차별적 맥락에서 의미 있게 만든다. 이는 비교적 관점 없이 절대적 중요도만 제공하는 방법론에 비해 상당한 구조적 이점이다.

논문은 메모리 복잡성을 $O(N^2)$에서 $O(N)$으로 줄이는 것을 명시적으로 자세히 설명하지 않지만, 더 정확하고 국소화된 설명을 생성하는 질적 및 구조적 이점은 명확하게 입증된다.

제약 조건과의 일치

선택된 CIG 방법론은 전산 병리학에서 WSI 분석의 가혹한 요구 사항과 완벽하게 일치하여 문제와 해결책 간의 강력한 "결합"을 형성한다.

신뢰를 위한 해석 가능성: 주요 제약 조건은 임상의 간의 신뢰를 구축하기 위해 고도로 해석 가능한 AI 시스템의 필요성이다. CIG는 "더 유익하고 안정적인 기여도"를 제공하여 실제 종양 영역과 밀접하게 일치함으로써 이를 직접적으로 해결한다. 클래스 판별적 특징을 강조하는 능력은 설명이 진단 결정과 관련이 있음을 보장하여 임상적 자신감을 높인다.
초고해상도 WSI: 이 방법론은 WSI 분석의 표준 패러다임인 Multiple Instance Learning (MIL) 프레임워크 내에서 작동하도록 설계되었다. WSI에서 추출된 패치 수준 특징에서 작동함으로써, CIG는 이러한 이미지의 초고해상도 특성에 효과적으로 확장되어 개별 패치에 대한 기여도를 제공하며, 이는 WSI 수준 히트맵으로 집계된다.
약한 지도 학습: WSI 분석은 종종 슬라이드 수준 레이블만 사용 가능하고 픽셀 수준 주석은 사용할 수 없는 약한 지도 학습 하에서 작동한다. MIL 프레임워크에 통합된 CIG와 MIL-AIC 및 MIL-SIC의 도입은 특히 이 약한 지도 학습 설정에 맞춰져 있다. 이러한 지표는 관련 패치가 도입됨에 따라 모델의 예측 및 신뢰도가 얼마나 빨리 변화하는지 평가하며, 이 어려운 맥락에서 기여도 품질을 직접 평가한다.
클래스 판별 신호: 식별된 핵심 문제는 전통적인 방법론이 클래스 판별 신호를 간과했다는 것이다. 로짓 공간에서 대조 그래디언트를 계산하는 CIG의 고유한 속성은 단순히 일반적인 중요도가 아닌, 한 클래스를 다른 클래스와 구별하는 특징을 강조함으로써 이를 직접적으로 해결한다. 이는 종양 하위 유형 또는 질병 상태를 구별하는 데 설명이 직접적으로 관련이 있음을 보장한다.

대안의 기각

본 논문은 WSI 분석의 특정 요구 사항을 충족하지 못하기 때문에, 주로 다른 그래디언트 기반 기여도 방법론 및 일반적인 기준선 선택을 포함한 여러 대안 접근 방식을 암묵적 및 명시적으로 기각한다.

전통적인 Integrated Gradients (IG) 및 변형: 본 논문은 IG 및 관련 기여도 방법론이 "유망한 것으로 나타났지만", WSI에 직접 적용하는 것은 "초고해상도 특성으로 인한 어려움"과 "클래스 판별 신호를 간과하는" 경향을 야기한다고 명시한다. 이는 수정 없이 직접 적용하는 것에 대한 직접적인 기각이다. Gradient $\times$ Input, EG, IDG와 같은 방법론은 CIG와 비교 평가되며, CIG는 MIL-AIC 및 MIL-SIC 측면에서 일관되게 이를 능가하여 이 문제에 대한 정량적 열등성을 입증한다.
이미지 공간 기여도 방법론: "대부분의 기여도 방법론이 이미지 공간에서 작동하며 시각적으로 두드러지지만 클래스 관련 없는 특징을 강조할 수 있다"는 광범위한 기각이 이루어진다. 이러한 한계는 진단적으로 관련성 있는 영역이 아닌, 시각적으로 두드러지는 영역을 식별하는 것을 목표로 하는 WSI 분류에 대한 해석 가능성을 심각하게 저해한다. CIG의 로짓 공간 접근 방식은 결정 경계에 집중함으로써 이를 직접적으로 해결한다.
IG 기반 방법론에 대한 표준 기준선 선택: 본 논문은 "기여도 기준선의 설계"에 대한 섹션을 할애하여 일반적인 기준선(예: 0 벡터, 데이터셋 평균, 무작위 패치)이 WSI에 불충분한 이유를 설명한다.
- 0 벡터 기준선은 임베딩 공간에서 "분포 외 문제"를 야기할 수 있다.
- 데이터셋 평균은 지배적인 클래스를 선호하는 "의미론적 편향"을 도입한다.
- 데이터셋 분포에서 샘플링하거나 무작위 패치를 사용하는 것은 입력과 기준선이 동일한 클래스에 속하는 경우 "의미론적 누출 또는 판별력 감소"로 고통받는다.
  이러한 문제는 덜 해석 가능한 중요도 맵을 초래한다. CIG는 "반대 클래스의 기준선"을 사용함으로써 이를 극복하는데, 이는 대조적 특성과 모델 예측을 유도하는 의미 있는 차이를 포착하는 데 중요하다.

본 논문은 GAN 또는 Diffusion 모델과 같은 생성 모델의 기각을 논의하지 않는데, 이는 이 작업의 초점인 특징 기여도와 같은 해석 가능성을 위한 다른 목적을 수행하기 때문이다. 고려되고 기각된 대안은 주로 다른 기여도 기술과 그 구성 요소이다.

수학적 및 논리적 메커니즘

마스터 방정식

Contrastive Integrated Gradients (CIG)를 구동하는 절대적인 핵심 방정식은 논문에서 제시된 대로 $i$-번째 특징의 기여도 정의이다.

$$ \text{CIG}_i(x) = (x_i - x'_i) \int_0^1 \frac{\partial}{\partial x_i} ||f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')||_2^2 d\alpha $$

항별 분석

이 방정식을 조각별로 분해하여 수학적 정의, CIG 메커니즘에서의 역할 및 선택된 연산자에 대한 근거를 이해해 보자.

$\text{CIG}_i(x)$:
1. 수학적 정의: 이는 입력 $x$의 $i$-번째 특징에 대한 Contrastive Integrated Gradients 기여도 점수이다.
2. 물리적/논리적 역할: 이것은 특정 특징에 대한 CIG 계산의 최종 결과이다. 이는 입력 $x$의 $i$-번째 특징이 모델의 예측을 유도하는 데 얼마나 중요한지를 대조적인 방식으로 기준선 $x'$에 대해 정량화한다. 더 높은 절대값은 더 큰 중요도를 나타내며, 그 부호는 특징이 예측을 기준선의 암시된 클래스로 밀거나 멀리하는지 여부를 나타낼 수 있다.
$x$:
1. 수학적 정의: 이는 기여도를 계산하려는 입력 특징 벡터(예: Whole Slide Image 패치의 임베딩)이다.
2. 물리적/논리적 역할: 이는 우리가 설명하려는 특징을 가진 특정 데이터 포인트이다. 이는 "대상" 입력이다.
$x'$:
1. 수학적 정의: 이는 기준선 또는 참조 특징 벡터이다.
2. 물리적/논리적 역할: 논문에서는 $x'$가 일반적으로 "반대 클래스"에서 샘플링된다고 명시한다(예: 종양 양성 슬라이드를 분석할 때 비종양 패치). 이는 특징 공간에서 중립적이거나 비정보적인 참조점 역할을 한다. CIG는 기준선 $x'$와 입력 $x$를 비교하여 특징 중요도를 측정하며, $x$를 $x'$와 구별하는 특징을 강조한다.
$(x_i - x'_i)$:
1. 수학적 정의: 이는 입력 특징 벡터 $x$의 $i$-번째 구성 요소와 기준선 특징 벡터 $x'$의 $i$-번째 구성 요소 간의 스칼라 차이이다.
2. 물리적/논리적 역할: 이 항은 통합 그래디언트에 대한 스케일링 인자 역할을 한다. 만약 특징 $x_i$가 기준선 $x'_i$와 동일하다면, 그 기여도 $\text{CIG}_i(x)$는 0이 될 것이므로, 이는 특정 특징에 대한 기여도를 측정하는 데 있어 변화의 크기와 방향을 설명한다.
3. 곱셈 이유: 이는 직접적인 스케일링으로, 특징의 총 "영향"은 기준선과의 차이에 비례해야 함을 반영한다.
$\int_0^1 \dots d\alpha$:
1. 수학적 정의: 이는 0에서 1까지의 스칼라 매개변수 $\alpha$에 대한 정적분이다.
2. 물리적/논리적 역할: 이 적분은 "Integrated Gradients" 개념의 핵심이다. 이는 기준선 $x'$에서 입력 $x$까지의 연속 경로를 따라 그래디언트를 누적한다. 이 적분은 이미 강하게 활성화된 특징에 대해 그래디언트가 매우 작아져 중요도를 과소평가할 수 있는 "그래디언트 포화" 문제를 해결하기 때문에 중요하다. 전체 경로를 따라 무한소 기여를 합산함으로써, 특징 중요도에 대한 보다 강력하고 완전한 측정을 제공한다.
3. 합산 대신 적분 이유: 적분은 연속 경로를 따라 합산하는 데 사용되며, 바람직한 공리(완전성)를 만족하는 이론적으로 건전하고 완전한 기여도를 제공한다. 합산(리만 합 근사와 같은)은 이 연속 과정의 이산 근사가 될 것이다.
$\frac{\partial}{\partial x_i}$:
1. 수학적 정의: 이는 입력의 $i$-번째 특징에 대한 편미분 연산자이다. 적분 맥락에서, 이는 제곱 L2 노름 항에 적용된다.
2. 물리적/논리적 역할: 이 연산자는 경로상의 각 지점 $\gamma(\alpha)$에서 $i$-번째 특징의 변화에 대한 제곱 로짓 차이의 민감도를 계산한다. 이는 특정 지점에서 $x_i$의 작은 변화가 기준선과의 "대조"(제곱 로짓 차이)에 얼마나 영향을 미칠지를 알려준다. 이것이 방법론이 어떤 특징이 국소적으로 영향력이 있는지 식별하는 방법이다.
$|| \cdot ||_2^2$:
1. 수학적 정의: 이는 벡터의 제곱 유클리드(L2) 노름을 나타낸다. 벡터 $v$에 대해 $||v||_2^2 = \sum_j v_j^2$이다.
2. 물리적/논리적 역할: 이 항은 보간된 입력의 로짓 출력과 기준선의 로짓 출력 간의 로짓 공간에서의 "거리" 또는 "불일치"를 정량화한다. L2 노름을 제곱함으로써, 측정값이 항상 음수가 아니도록 보장하고 더 큰 차이를 더 중요하게 강조한다. 이것이 CIG가 설명하고자 하는 핵심 "대조적" 측정값이다.
3. L2 노름 이유: L2 노름은 유클리드 공간에서 벡터 크기와 거리를 측정하는 표준 지표이다. 이를 제곱하면 제곱근이 제거되어 계산이 단순화되고 그래디언트 계산에 적합한 부드럽고 미분 가능한 함수를 제공한다.
$f_{\text{logit}}(\cdot)$:
1. 수학적 정의: 이는 모델의 로짓 레이어 출력을 나타낸다. 분류 모델의 경우, 이는 소프트맥스 활성화 전에 각 클래스에 대한 원시, 정규화되지 않은 점수이다.
2. 물리적/논리적 역할: CIG는 로짓이 모델의 각 클래스에 대한 신뢰도와 증거를 직접 반영하기 때문에 로짓 공간에서 작동한다. 로짓 출력의 차이를 측정함으로써, CIG는 클래스 판별 정보를 포착하며, 이는 종양과 비종양 영역을 구별하는 데 중요하다. 이는 이미지 공간이나 소프트맥스 확률에서 작동하는 방법론과 주요 차이점이다.
$\gamma(\alpha)$:
1. 수학적 정의: 이는 $\gamma(\alpha) = x' + \alpha(x - x')$로 정의된 직선 경로 함수이며, 여기서 $\alpha \in [0, 1]$이다.
2. 물리적/논리적 역할: 이 함수는 기준선 $x'$($\alpha=0$일 때)에서 입력 $x$($\alpha=1$일 때)까지 연결되는 특징 공간의 중간 지점을 생성한다. 이는 기준선에서 실제 입력 지점까지의 경로를 나타낸다.
$\alpha$:
1. 수학적 정의: 0에서 1까지 연속적으로 변하는 스칼라 매개변수이다.
2. 물리적/논리적 역할: 이 매개변수는 $\gamma(\alpha)$를 따라 보간 경로상의 위치를 제어한다. $\alpha$가 증가함에 따라 보간된 지점은 기준선에서 입력으로 이동한다.
$f_{\text{logit}}(x')$:
1. 수학적 정의: 기준선 특징 벡터 $x'$가 입력으로 제공될 때 모델의 로짓 출력이다.
2. 물리적/논리적 역할: 이는 로짓 공간에서 고정된 참조점으로 작용한다. CIG 방법론은 보간된 입력 $\gamma(\alpha)$의 로짓 출력이 이 고정된 기준선 로짓 출력과 어떻게 다른지를 측정한다. 이 고정된 참조는 CIG의 "대조적" 특성의 기초이며, 기준선의 예측에서 벗어나는 특징을 강조할 수 있도록 한다.

단계별 흐름

단일 추상 데이터 포인트가 특징 벡터 $x$로 표현된다고 상상해 보자. CIG가 이 수학적 엔진을 처리하여 특징 기여도를 결정하는 방법은 다음과 같다.

기준선 선택: 먼저 적합한 기준선 특징 벡터 $x'$가 선택된다. 논문에서는 종양 양성 슬라이드를 분석할 때 비종양 영역에서 샘플링된 특징과 같은 대조적 기준선을 사용하는 것을 강조한다. 이 $x'$는 중립적이거나 "반대" 참조점 역할을 한다.
경로 구성: 특징 공간에서 직선 경로 $\gamma(\alpha)$가 구성된다. 이 경로는 기준선 $x'$($\alpha=0$일 때)과 입력 $x$($\alpha=1$일 때)를 부드럽게 보간한다. 이는 참조점에서 실제 입력 지점까지 선을 긋는 것으로 생각할 수 있다.
로짓 변환: 이 경로를 따라 무한소 단계($\gamma(\alpha)$로 표현됨)마다 모델의 로짓 출력 $f_{\text{logit}}(\gamma(\alpha))$이 계산된다. 동시에 고정된 기준선 $f_{\text{logit}}(x')$의 로짓 출력도 얻어진다.
대조 측정: 경로상의 각 지점 $\alpha$에서, 현재 보간된 로짓 출력과 기준선 로짓 출력의 차이 $f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')$가 계산된다. 이 차이의 제곱 유클리드 노름 $||f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')||_2^2$이 계산된다. 이 값은 보간된 입력에 대한 모델의 예측이 기준선에 대한 예측과 얼마나 "다른지"를 정량화한다.
그래디언트 계산: 이 제곱 로짓 차이(대조 측정값)의 편미분이 입력의 각 개별 특징 $x_i$에 대해 계산된다. 이 그래디언트 $\frac{\partial}{\partial x_i} ||f_{\text{logit}}(\gamma(\alpha)) - f_{\text{logit}}(x')||_2^2$는 경로상의 특정 지점 $\alpha$에서 특징 $i$의 변화에 대한 대조 측정값이 얼마나 민감한지를 알려준다.
그래디언트 적분: 이러한 편미분 그래디언트는 $\alpha=0$에서 $\alpha=1$까지 전체 경로를 따라 적분된다. 이 단계는 입력이 기준선에서 실제 값으로 전환될 때 각 특징의 민감도에 대한 모든 무한소 기여를 효과적으로 합산한다. 이는 단일 지점에서 그래디언트가 오해의 소지가 있을 수 있는 문제를 피하면서 중요도에 대한 포괄적인 평가를 보장한다.
스케일링 및 최종 기여도: 마지막으로, 각 특징 $i$에 대해 누적된 적분은 차이 $(x_i - x'_i)$로 스케일링된다. 이 스케일링은 기준선과 동일한 특징은 0의 기여도를 받고 기준선으로부터의 특징 변화의 크기가 고려됨을 보장한다. 결과는 특징 $i$에 대한 대조적 통합 그래디언트인 $\text{CIG}_i(x)$이다.

이 과정은 모든 특징에 대해 반복되어, 입력 $x$의 어떤 부분이 기준선 $x'$에 비해 예측에 가장 책임이 있는지를 강조하는 기여도 점수 벡터를 생성한다.

최적화 역학

Contrastive Integrated Gradients (CIG)는 모델 훈련 또는 최적화 알고리즘이 아니라 기여도 방법론이라는 점을 명확히 하는 것이 중요하다. 따라서 손실 함수에 기반하여 모델 매개변수를 조정하는 전통적인 의미에서 "학습"하거나 "수렴"하지 않는다. 대신, 그 "역학"은 기여도 점수가 계산되는 방식과 의미 있는 설명을 제공하기 위해 어떻게 작동하는지에 관한 것이다.

메커니즘의 "역학"은 CIG가 신뢰성과 해석 가능성을 보장하기 위해 만족하도록 설계된 몇 가지 공리적 속성에 의해 지배된다.

완전성 공리: 논문(방정식 7)에 명시된 대로, 입력 $x$에 대한 모든 CIG 기여도의 합은 입력과 기준선 간의 제곱 로짓 차이의 총 변화량과 같다: $\sum_{i=1}^n \text{CIG}_i(x) = ||f_{\text{logit}}(x) - f_{\text{logit}}(x')||_2^2$. 이는 방법론이 입력과 기준선 간의 모델 로짓 출력의 전체 차이를 완전히 설명하고 이 차이를 입력 특징들 사이에 완전히 분배한다는 것을 의미한다. 설명되지 않은 기여는 없다.
민감성 공리: CIG는 기준선 $x'_i$와 다른 특징 $x_i$와 모델의 로짓 출력을 변화시키는 특징에 대해 0이 아닌 기여도를 할당한다. 반대로, 특징 $x_i$가 $x'_i$에서 변하지 않거나 모델의 로짓 출력이 $x_i$와 완전히 독립적이라면, 그 기여도는 0이 될 것이다. 이는 CIG가 관련 없는 특징과 구별하여 모델 결정에 기여하는 관련 특징만을 올바르게 식별하고 강조하도록 보장한다. 이 속성은 집중적이고 해석 가능한 중요도 맵을 생성하는 데 중요하다.
구현 불변성 공리: CIG의 기여도는 모델의 출력 함수($f_{\text{logit}}(\cdot)$)와 그 그래디언트에만 기반하며, 신경망의 특정 구현 세부 사항에는 기반하지 않는다. 이는 기능적으로 동등한 모델이 내부적으로 어떻게 코딩되거나 구조화되든 일관된 기여도를 생성할 것임을 보장한다. 이는 CIG를 다양한 모델 아키텍처에 걸쳐 견고하고 신뢰할 수 있게 만든다.

따라서 CIG의 "역학"은 반복적인 업데이트에 관한 것이 아니라, 이러한 이론적 속성을 준수하는 특징 중요도 점수의 강력하고 일관된 계산에 관한 것이다. 로짓 공간에서 경로를 따라 그래디언트를 통합하고 대조적 기준선을 결합하는 것은 생성된 설명이 시각적으로 두드러질 뿐만 아니라 논리적으로 건전하고 모델의 결정 과정, 특히 다른 클래스를 구별하는 데 직접적으로 연결되도록 기여도 값을 형성한다.

Figure 1. Overview of Contrastive Integrated Gradients (CIG). Given a whole-slide image (WSI), patch-level features are extracted and compared to a baseline sampled from non-tumor regions. An interpolated path \ga m ma (\a lpha ) = x + \alpha (x' - x) is constructed between the input x and the baseline x' . CIG computes attributions by integrating the gradients of the squared logit difference along this path, where f_{\text {logit}}(\cdot ) denotes the model’s logit output and \ | \cdot \|_2 is the Euclidean norm. Row (a) shows interpolated features at different \alpha values ( \ alpha = 0.167 to 1 ). Row (b) illustrates how contrastive gradients evolve with increasing \alpha , indicating the sensitivity of each feature at each interpolation step. The full attribution is computed by summing the gradients across all \alpha values and multiplying by the input difference x - x' . The final heatmap (bottom right) shows the CIG attribution result, indicating which regions most strongly influence the model’s decision relative to the baseline

결과, 한계 및 결론

실험 설계 및 기준선

CIG의 효과를 엄격하게 검증하기 위해, 저자들은 다양한 전산 병리학 시나리오에 걸쳐 포괄적인 실험 설계를 구성했다. CIG가 이기고자 했던 "희생자" 또는 기준선 모델에는 Vanilla Gradient, Integrated Gradients (IG) [32], Expected Gradients (EG) [29], Integrated Decision Gradients (IDG) [33]와 같은 여러 확립된 그래디언트 기반 기여도 방법론과 비교를 위한 간단한 Random 기준선이 포함되었다. CIG를 포함한 모든 경로 기반 방법론은 일관성을 위해 50개의 보간 단계로 구성되었다.

실험은 세 가지 공개적으로 사용 가능한 고위험 암 병리학 데이터셋에서 수행되었다: CAMELYON16 (림프절의 유방암 전이), TCGA-Renal (세 가지 신장암 하위 유형 포함: KIRC, KIRP, KICH), TCGA-Lung (LUAD 및 LUSC 폐암 하위 유형 포함). 이 다양한 선택은 다양한 암 유형 및 진단 설정에 걸쳐 CIG의 일반화 가능성을 보장했다.

두 가지 다른 Multiple Instance Learning (MIL) 분류 모델이 아키텍처 전반에 걸쳐 기여도 성능을 평가하기 위해 사용되었다: 간단한 MLP 백 분류기와 널리 사용되는 주의 기반 CLAM [19] 모델. 두 모델 모두 사전 훈련된 ResNet-50에서 추출된 패치 수준 특징을 사용했으며, 데이터 분할을 위해 환자 수준 분리를 사용하여 200 에폭 동안 훈련되었다.

실험 설계의 중요한 측면은 기여도 기준선의 새로운 구성이었다. 전통적인 기준선(예: 검은색 이미지, 데이터셋 평균)과 달리, CIG 및 기타 IG 기반 방법론은 반대 클래스의 30개 슬라이드에서 패치 특징을 샘플링하여 대조적 기준선을 사용했다. 예를 들어, 종양 양성 슬라이드를 평가할 때, 비종양 슬라이드 패치가 참조점으로 사용되었다. 이 전략은 CIG의 대조 정보 포착이라는 핵심 메커니즘과 일치하는 클래스 판별적 특징을 보다 효과적으로 강조하도록 설계되었다.

이러한 약한 지도 학습 WSI 설정에서 실제 설명이 종종 누락되는 경우 기여도 품질을 정량적으로 평가하기 위해, 저자들은 Performance Information Curves (PICs) 프레임워크 [9]를 적용하고 두 가지 전문 지표를 도입했다.
- MIL-Accuracy Information Curve (MIL-AIC): 이 지표는 고중요도 패치가 점진적으로 도입됨에 따라 모델의 분류 정확도(올바른 슬라이드 수준 레이블 예측)를 추적한다. 더 높은 MIL-AIC는 기여도 방법론이 올바른 분류에 중요한 영역을 신속하게 식별함을 나타낸다.
- MIL-Softmax Information Curve (MIL-SIC): 이 지표는 유익한 패치가 공개됨에 따라 올바른 클래스에 대한 모델의 소프트맥스 신뢰도를 측정한다. 더 높은 MIL-SIC는 기여도 방법론이 모델의 확실성을 신속하게 증가시키는 영역을 강조함을 시사한다.

평가는 특히 종양 양성 슬라이드에 초점을 맞췄다. "무자비한 증명"은 제어 특징(반대 클래스의 특징)으로 시작하여 대상 슬라이드의 특징으로 점진적으로 대체하는 방식으로 구성되었으며, 이는 기여도 점수에 의해 순위가 매겨졌다. 이 과정은 두 가지 상호 보완적인 정보 수준 빈을 사용하여 구조화되었다: "Top-k 패치"(예: $k=1, \dots, 500$)는 초기 예측 변화를 포착하고, "중요도 임계값"(예: 20%에서 99% 백분위수 절단)은 후기 전환 및 완전성을 평가한다. 이 세심한 설계는 CIG 식별 중요도 영역이 도입됨에 따라 모델 예측이 얼마나 신속하고 확실하게 변화하는지에 대한 세분화된 분석을 가능하게 하여, 그 효과에 대한 부인할 수 없는 증거를 제공했다.

증거가 증명하는 것

실험 결과는 CIG가 WSI에서 결정 관련 영역을 식별하는 데 있어 기존 기여도 방법론을 상당히 능가한다는 설득력 있는 정량적 및 질적 증거를 제공한다.

정량적으로, CIG는 모든 세 가지 암 데이터셋과 두 가지 분류기 아키텍처에 걸쳐 일관되게 가장 높은 MIL-AIC 및 MIL-SIC 점수를 달성했다. 예를 들어, CAMELYON16 데이터셋(표 1)에서 CLAM 모델을 사용한 CIG는 MIL-AIC에 대해 $0.950 \pm 0.166$ 및 MIL-SIC에 대해 $0.945 \pm 0.128$을 기록했으며, 다음으로 우수한 방법론(IG: $0.891 \pm 0.261$ MIL-AIC, $0.896 \pm 0.243$ MIL-SIC)을 상당히 능가했다. MLP 분류기를 사용한 유사한 추세가 관찰되었으며, 여기서 CIG는 $0.965 \pm 0.128$ MIL-AIC 및 $0.913 \pm 0.130$ MIL-SIC에 도달했다. CIG 식별 패치가 도입됨에 따라 모델 예측이 올바른 레이블로 얼마나 신속하고 확실하게 변화하는지를 측정하는 이 결정적인 증거는 CIG의 로짓 공간에서 대조 그래디언트를 계산하는 핵심 메커니즘이 진정으로 클래스 판별적 특징을 효과적으로 강조한다는 것을 증명한다.

TCGA-Renal 데이터셋(표 2) 전반에 걸쳐, CIG는 세 가지 신장 하위 유형(pRCC, ccRCC, chRCC) 및 두 모델에 걸쳐 강력한 성능을 다시 한번 보여주었으며, 일관되게 상위 성능자 중 하나로 순위를 매겼다. 예를 들어, CLAM을 사용한 ccRCC에서 CIG는 $0.776 \pm 0.297$ MIL-AIC 및 $0.783 \pm 0.286$ MIL-SIC를 달성하여 모든 기준선을 능가했다. TCGA-Lung 데이터셋(표 3)은 이러한 결과를 더욱 강화했으며, CIG는 CLAM을 사용한 LUSC에 대해 가장 높은 점수($0.759 \pm 0.296$ MIL-AIC, $0.765 \pm 0.277$ MIL-SIC)를 달성했으며 LUAD에 대해 강력한 균형을 보여주었다. 이러한 결과는 총체적으로 CIG가 대조 정보를 포착하는 능력이 더 유익하고 안정적인 기여도를 제공한다는 것을 강조한다.

질적으로, 시각화는 CIG의 우수성을 더욱 공고히 한다. 보간 단계 전반에 걸친 중간 그래디언트 맵을 보여주는 그림 2는 CIG가 IG와 달리 경로 전체에서 종양 영역 내에서 더 국소화되고 일관된 그래디언트를 생성함을 명확하게 보여준다. 이는 CIG의 기여도가 더 안정적이고 관련 영역에 집중되어 있음을 나타낸다.

더 중요하게는, 최종 기여도 맵을 제시하는 그림 3은 CIG가 주석이 달린 실제 종양 영역과 밀접하게 일치하는 영역을 일관되게 강조함을 보여준다. 대조적으로, IG 및 EG와 같은 기준선 방법론은 종종 실제 종양의 일부가 아닌 시각적으로 두드러지지만 덜 판별적인 특징을 강조한다. 실제 데이터와의 이러한 시각적 일치는 CIG의 메커니즘이 성공적으로 결정 관련 종양 영역을 식별한다는 부인할 수 없는 증거를 제공한다.

마지막으로, 본 논문은 CIG가 통합 기여도 방법론의 기본 공리적 속성인 완전성, 민감성 및 구현 불변성을 만족한다는 것을 이론적으로 증명한다. 이러한 이론적 건전성은 강력한 정량적 및 질적 실험 결과와 결합되어 CIG의 주장에 대한 강력한 기반을 제공한다.

한계 및 향후 방향

CIG는 해석 가능한 WSI 분류에서 상당한 발전을 보여주지만, 저자들은 특정 한계를 인정하고 명확한 미래 연구 방향을 제안한다.

한 가지 주목할 만한 한계는 평가 프레임워크 자체에서 비롯된다. 현재 MIL-AIC 및 MIL-SIC 지표는 주로 종양 양성 슬라이드에 대해 설계되었으며 가장 적합하다. 저자들이 설명하듯이, 정상 슬라이드는 다른 예측 역학을 나타내며, 종종 예측이 변경되기 전에 거의 모든 특징을 제거해야 하므로 해당 맥락에서 AUC와 같은 지표가 덜 의미 있게 된다. 이는 CIG가 종양 영역을 식별하는 데 탁월한 성능을 보이지만, 비종양 또는 정상 조직 분류에 대한 적용 가능성 및 해석 가능성, 또는 "반대 클래스" 기준선이 명확하게 정의되지 않은 시나리오에서는 추가 조사 또는 평가 방법론의 적응이 필요할 수 있음을 시사한다.

앞으로 나아가면서 가장 중요한 미래 방향은 해석 가능성에 대한 엄격한 인간 대상 평가의 통합이다. 정량적 지표와 질적 시각화는 강력한 증거를 제공하지만, 전산 병리학에서 해석 가능성의 궁극적인 목표는 신뢰를 구축하고 임상 의사 결정을 지원하는 것이다. CIG의 설명이 AI 보조 진단에 대한 이해와 신뢰를 실제로 향상시키는지 여부를 평가하기 위한 연구를 설계하는 것을 포함하여, 병리학자 또는 의료 전문가의 직접적인 검증은 필수적이다.

인간 대상 평가 외에도, 추가 개발을 위한 몇 가지 다른 논의 주제가 나타난다.
- 다른 의료 영상 양식으로의 일반화: CIG의 대조적 접근 방식이 WSI를 넘어 MRI 또는 CT 스캔과 같이 해석 가능성이 동등하게 중요하지만 특징 공간과 기준선이 상당히 다를 수 있는 다른 복잡한 의료 영상 작업에 적용될 수 있을까?
- 계산 효율성 및 확장성: CIG는 강력한 성능을 보여주지만, 특히 경로 기반 방법론은 계산 집약적일 수 있다. 추가 연구는 매우 큰 WSI 또는 실시간 임상 응용을 위한 CIG의 효율성을 개선하기 위한 최적화를 탐색할 수 있으며, 아마도 근사 기법이나 하드웨어 가속화를 통해 가능할 것이다.
- 동적 기준선 선택: 현재 방법론은 "반대 클래스" 기준선에서 샘플링하는 데 의존한다. 미래 연구는 특히 다중 클래스 시나리오 또는 명확한 "반대" 클래스가 즉시 사용 가능하거나 잘 정의되지 않은 경우에 대한 보다 동적 또는 적응적 기준선 선택 전략을 조사할 수 있다.
- 사전 방법론과의 통합: CIG는 사후 기여도 방법론이다. 사전 해석 가능성 방법론과의 통합을 탐색하는 것은 둘 다의 강점을 결합하여 국소화된 설명과 전반적인 모델 이해를 모두 제공하는 하이브리드 접근 방식으로 이어질 수 있다.
- 이진 분류를 넘어서: 논문은 다중 하위 유형 분류(예: TCGA-Renal)를 다루지만, CIG가 어떻게 수행되고 많은 클래스 간의 미묘한 차이를 강조해야 하는 고도로 세분화된 다중 클래스 문제에 대해 어떻게 최적화될 수 있는지에 대한 심층적인 조사가 가치가 있을 것이다.

Table 3. Attribution performance on each class from the TCGA-Lung dataset, evaluated using MIL-AIC and MIL-SIC metrics

Figure 2. Comparison of Integrated Gradients (IG) and Con- trastive Integrated Gradients (CIG) across interpolation steps ( \alpha ), each row shows intermediate gradient maps at increasing \alpha val- ues, from 0.167 to 1.0, illustrating how gradients evolve along the interpolation path. Note that the final heatmap ( \ alpha = 1 ) shows only the gradient at the last step and is not the complete attribution result. The full attribution is computed by summing the gradients across all \alpha values and multiplying by the input difference x ' - x . CIG produces more stable and localized gradients in tumor regions throughout the path, while IG exhibits more dispersed patterns

Table 1. Attribution performance on tumor-positive slides from the Camelyon16 dataset, evaluated using MIL-AIC and MIL-SIC metrics

다른 분야와의 동형성

구조적 골격

이 논문의 핵심 수학적 메커니즘은 대조적 참조에 대한 경로를 따라 로짓 출력의 제곱 차이를 적분함으로써 모델 결정에 대한 입력 특징의 차별적 영향을 정량화하는 방법론이다.

먼 사촌

Contrastive Integrated Gradients (CIG)의 기본 논리는 전산 병리학에서 멀리 떨어진 분야에서 흥미로운 "거울상"을 가지고 있다.

대상 분야: 금융 위험 관리 및 포트폴리오 최적화
- 연결성: 금융에서 오랜 문제는 특정 시장 요인(예: 금리, 상품 가격, 부문 성과)이 벤치마크 지수(예: S&P 500) 또는 경쟁사 포트폴리오에 비교하여 포트폴리오 성과 또는 위험을 유도하는지 이해하는 것이다. 이는 CIG의 클래스 판별적 특징을 대조적 기준선과 비교하여 식별하는 목표와 정확히 유사하다. 정량 분석가는 단순히 포트폴리오 변동성에 기여하는 것이 무엇인지뿐만 아니라, 특정 경제 조건 하에서 시장 평균보다 무엇이 더 변동성이 큰지를 이해하기를 원할 수 있다. "로짓 공간"은 위험 조정 수익률 또는 벤치마크 편차의 변환된 측정값이 될 수 있으며, 경로 적분은 시뮬레이션된 시장 시나리오 또는 투자 전략의 다양한 조건 하에서 이러한 요인 기여도가 어떻게 진화하는지를 나타낼 수 있다.
대상 분야: 기후 과학 및 지구 시스템 모델링
- 연결성: 기후 과학자들은 종종 관측된 기후 변화 또는 모델 예측을 특정 인위적 강제 요인(예: CO2 배출, 토지 이용 변화)에 산업화 이전 기준선 또는 "개입 없음" 시나리오에 비교하여 귀속시키는 문제에 직면한다. 이는 대조적 기여도라는 CIG의 목표와 직접적으로 유사하다. 그들은 복잡한 지구 시스템 모델에서 특정 입력 매개변수 또는 초기 조건이 특정 기후 결과(예: 특정 지역 온도 상승 또는 극한 날씨 이벤트 빈도)에 이러한 강제 요인이 없는 세계와 비교하여 가장 큰 책임이 있는지 식별해야 한다. "로짓 공간"은 기후 이상 또는 안정 상태에서의 편차의 변환된 측정값을 나타낼 수 있으며, 경로 적분은 강제 요인의 점진적인 증가와 기후 시스템에 미치는 영향을 모델링할 수 있다.

만약 시나리오

헤지 펀드의 정량 분석가가 내일 CIG의 정확한 방정식을 "훔친다"고 상상해 보라. 단순히 포트폴리오 가치에 대한 다양한 시장 요인의 민감도를 계산하는 대신, CIG를 적용하여 선택한 벤치마크에 대한 포트폴리오의 초과 성과 또는 저조 성과의 대조적 동인을 이해할 수 있다. 포트폴리오의 로그 수익률(로짓 출력과 유사)과 벤치마크의 로그 수익률의 제곱 차이를 다양한 시장 조건을 나타내는 경로를 따라 적분함으로써, 그들은 특정 자산 또는 요인 노출이 벤치마크로부터 포트폴리오 성과를 구별하는 정확한 것을 식별할 수 있다. 이는 대조적 알파 생성 및 위험 헤징의 돌파구로 이어질 것이다. 그들은 포트폴리오가 벤치마크에서 벗어나는 정확한 시장 조건 또는 자산 특성을 식별하여 상대 수익을 극대화하거나 상대 위험을 완화하기 위한 초표적 조정을 가능하게 할 수 있다. 이는 액티브 매니저가 시장 비효율성을 식별하고 활용하는 방식을 혁신할 수 있으며, 단순한 기여도를 판별적 기여도로 이동시킨다.

구조의 보편적 라이브러리

이 논문은 의학 이미지에서 판별적 특징을 식별하는 문제와 금융 및 기후 과학과 같은 다양한 분야의 대조적 기여도 문제 사이에 깊은 수학적 유사성을 보여줌으로써, 모든 과학적 문제가 상호 연결되어 있다는 아이디어를 강력하게 강화하며, 과학적 이해의 보편적 라이브러리에 중요한 새로운 구조를 기여한다.