MICCAI

하이브리드 그래프 맘바: 정확한 용종 분할을 위한 비유클리드 잠재력 활용

Colorectal polyp segmentation can assist doctors in screening colonoscopy images, which is crucial for the prevention of colorectal cancer.

연구 분야 Natural Language Processing

Article Type Research analysis

Authors Zhu et al.

Original Paper Published 2026

ISOM Posted 2026-03-12 16:59 UTC

Read Time 9M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

배경 및 학문적 계보

대장 용종 분할은 의료 영상에서 중요한 작업으로, 주로 대장내시경 이미지의 검진을 의사에게 보조하는 것을 목표로 한다. 궁극적인 목표는 전 세계적으로 암 관련 사망의 주요 원인인 대장암(CRC)을 예방하는 것이다. 용종은 대장에 발생하는 작은 성장물로 암으로 발전할 수 있으므로, 조기 및 정확한 탐지가 매우 중요하다.

역사적으로 대장내시경 이미지에서 용종을 식별하고 윤곽을 그리는 과정은 의사가 수동으로 수행했다. 이 접근 방식은 표준이었지만 몇 가지 심각한 단점을 가지고 있었다. 이는 엄청나게 시간이 많이 소요되고 노동 집약적이며 매우 주관적이어서, 다른 의사들이 동일한 이미지를 다르게 해석할 수 있었다. 이러한 주관성과 엄청난 양의 이미지는 종종 탐지를 놓치게 하여 환자에게 심각한 결과를 초래할 수 있었다.

이러한 인간의 한계를 극복하기 위해 자동 용종 분할 기술이 등장했다. 초기 시도는 "수작업 특징(handcrafted features)"에 의존했는데, 엔지니어들이 용종과 관련된 특정 패턴, 모양 또는 질감을 인식하기 위해 알고리즘을 수동으로 설계했다. 그러나 이러한 방법은 용종의 복잡하고 다양한 외형을 포착하는 능력에 있어 상당히 제한적이었으며, 종종 높은 비율의 위양성 또는 놓친 용종을 초래했다.

딥러닝의 등장은 모델이 데이터에서 직접 보다 포괄적이고 정확한 특징을 학습할 수 있게 함으로써 상당한 도약을 가져왔다. 이러한 발전에도 불구하고, 본 논문이 직접적으로 다루는 몇 가지 근본적인 한계, 즉 "고충점(pain points)"이 지속되었다.

비유클리드 특징의 간과: 대부분의 기존 딥러닝 방법은 주로 용종의 단순한 모양, 크기 및 질감과 같은 "유클리드 특징(Euclidean features)"에 초점을 맞췄다. 그러나 용종과 주변 조직 간의 더 복잡한 기하학적 및 위상적 관계를 설명하는 "비유클리드 특징(non-Euclidean features)"은 대부분 무시되었다. 용종 자체뿐만 아니라 대장벽과의 연결 방식, 불규칙한 표면, 또는 주변 주름과의 상호작용을 상상해보라. 이러한 관계적 특징은 정확한 분할에 중요하지만 종종 간과되었다.
비유클리드 구조를 위한 비효율적인 특징 융합: 비유클리드 특징은 균일하지 않다. 이미지의 다른 영역(예: 용종 내부, 가장자리 또는 배경)에 따라 상당히 다르다. 특징을 결합하는 이전 방법들은 종종 모든 영역을 균일하게 처리하여 이러한 지역적 차이와 비유클리드 데이터에 존재하는 고유한 위상 구조를 고려하지 못했다. 이는 귀중한 맥락 정보가 손실되거나 제대로 통합되지 못했음을 의미한다.
저수준 특징의 과소 활용 및 특징 격차 해소: 딥러닝 모델은 일반적으로 여러 수준에서 특징을 추출한다. "저수준(low-level)" 특징은 가장자리 및 질감과 같은 세부 사항을 포착하는 반면, "고수준(high-level)" 특징은 더 넓은 의미론적 정보(예: "이것은 확실히 용종이다")를 포착한다. 기존 방법들은 종종 이러한 저수준 세부 사항을 완전히 활용하지 못하거나 고수준 의미론적 정보와 효과적으로 결합하는 데 어려움을 겪어, 덜 정밀한 경계 구분과 전반적인 분할을 초래했다.

이 세 가지 문제는 저자들이 더 정확한 용종 분할을 위해 비유클리드 특징의 잠재력을 활용하는 것을 목표로 하는 하이브리드 그래프 맘바(HGM) 모델을 개발하게 된 핵심 동기를 집합적으로 나타낸다.

Figure 1. Overall architecture of HGM. Our model consists of a pyramid vision trans- former, a CFM, three HGMMs, a BDFM, and a BMD

문제 정의 및 제약 조건

핵심 문제 공식화 및 딜레마

시작점 (입력): 모델은 다양한 크기, 모양 및 질감을 가진 용종을 포함하는 원시 대장내시경 이미지를 수신하며, 종종 주변 대장 조직에 대한 모호한 경계로 인해 가려진다.

원하는 종점 (출력): 전역 의미론적 맥락과 세밀한 경계 세부 정보 모두를 포착하여 용종 영역을 배경에서 정확하게 구분하는 정밀한 이진 분할 마스크.

누락된 연결고리: 전통적인 딥러닝 아키텍처가 유클리드 특징(국소 질감 및 모양)과 비유클리드 특징(용종과 주변 조직 간의 복잡한 위상 및 기하학적 관계)을 동시에 포착하지 못하는 근본적인 격차가 존재한다. 표준 CNN 또는 Transformer는 국소 또는 전역 패턴에 뛰어나지만, 생물학적 조직에 내재된 불규칙하고 그래프와 같은 구조적 종속성을 모델링하는 데 종종 실패한다.

딜레마 (절충): 연구자들은 "표현 병목 현상(representation bottleneck)"에 직면한다. 전역 의미론적 정보를 포착하는 모델의 용량을 늘리는 것(고수준 특징)은 일반적으로 공간 해상도와 경계 정밀도(저수준 특징)의 손실을 초래한다. 반대로, 고해상도 세부 정보에만 집중하면 종종 전역 맥락이 부족해져 모델이 배경 노이즈를 용종으로 잘못 식별하게 된다.

가혹한 제약 조건:
1. 위상 복잡성: 용종은 단순한 격자형 구조를 따르지 않는다. 그 경계는 매우 불규칙하여 표준 컨볼루션 커널로는 "비유클리드" 기하학적 관계를 포착하기에 불충분하다.
2. 특징 균일성: 대부분의 기존 융합 방법은 모든 특징 수준(저수준 세부 정보 대 고수준 의미론)을 동일한 수학적 가중치로 처리하여 내부, 가장자리 및 배경 영역의 고유한 역할을 고려하지 못한다.
3. 계산 효율성: 그래프 기반 연산 또는 복잡한 주의 메커니즘을 구현하면 종종 금지된 메모리 오버헤드가 발생하여 임상 환경에 필요한 실시간 또는 거의 실시간 성능을 유지하기 어렵다. 저자들은 고해상도 의료 영상에 대한 완전 연결 그래프가 계산적으로 비현실적이기 때문에 GCN 계산을 관리 가능하게 유지하기 위해 희소 인접 행렬을 설계해야 했다.

솔루션의 수학적 해석

저자들은 Mamba(상태 공간 모델)와 그래프 컨볼루션 네트워크(GCN)를 통합하는 하이브리드 그래프 맘바(HGM)를 제안함으로써 이 격차를 해소한다.

4방향 맘바 (QM): 표준 순차 처리의 한계를 해결하기 위해 저자들은 4방향 접근 방식을 사용하여 4개의 방향에서 특징을 추출한다. 이를 통해 모델은 표준 Transformer의 이차 복잡성과 달리 선형 복잡성을 유지하면서 이미지의 장거리 종속성을 포착할 수 있다. 핵심 연산은 다음과 같이 정의된다.
$$ \text{BiMamba}(x) = \text{RS}(x + x' \text{SSM}_F(x'') + x' \text{SSM}_B(x'')) $$
여기서 $x'$와 $x''$는 입력의 비선형 변환이고, $\text{SSM}_F$와 $\text{SSM}_B$는 순방향 및 역방향 상태 공간 모델을 나타낸다.
비유클리드 특징 추출: 비유클리드 위상을 명시적으로 모델링하기 위해 저자들은 연결된 방향 특징을 GCN에 공급한다. 하이브리드 그래프 맘바 모듈(HGMM)의 출력은 다음과 같이 정의된다.
$$\text{HGMM}(X) = \text{GCN}([X_F, X_B, X_F^\top, X_B^\top], A) + X_M + X_M^\top + X$$
여기서 $A$는 계산 부담을 줄이면서도 구조적 관계를 포착하기 위해 특정 위치(32단위마다)만 1로 설정된 희소 인접 행렬이다.
경계 판별 융합 (BDFM): 융합 딜레마를 해결하기 위해 저자들은 고수준 특징을 처리하여 초기 분할 맵을 생성하고, 이를 사용하여 내부, 가장자리 및 배경 영역에 대한 별도의 특징 맵을 파생시킨다. 이들은 텐서 $U$로 평탄화되고 일련의 컨볼루션을 통해 저수준 특징 $X'$와 융합된다.
$$X_{\text{BDFM}} = \text{Conv}([\text{RS}(\text{Conv}(UX'))(\text{Conv}(UX')\text{Conv}(X')), \text{RS}(X')])$$

왜 이 접근 방식인가

저자들은 표준 컨볼루션 신경망(CNN) 및 일부 초기 트랜스포머 기반 접근 방식을 주로 기반으로 하는 기존 SOTA 방법들이 세 가지 주요 한계로 인해 불충분하다는 것을 깨달았다.

비유클리드 특징의 간과: 대부분의 방법은 용종의 모양과 질감과 같은 "유클리드 특징"에만 초점을 맞췄다. 그러나 용종과 주변 조직 간의 기하학적 및 위상적 관계, 즉 "비유클리드 특징"은 대부분 무시되었다.
지역적 차이를 위한 비효율적인 특징 융합: 비유클리드 특징은 균일하지 않다. 이미지의 다른 영역(예: 용종 내부, 가장자리 및 배경)에 따라 상당히 다르다. 기존 특징 융합 기법은 종종 모든 특징을 균일하게 처리하여 이러한 중요한 지역적 구분을 고려하지 못했다.
저수준 특징의 과소 활용 및 수준 간 격차: 전통적인 방법들은 종종 이러한 저수준 세부 사항을 완전히 활용하지 못하거나 융합 중에 저수준 및 고수준 특징 간의 정보 격차를 효과적으로 해소하는 데 어려움을 겪어, 흐릿한 경계 또는 놓친 작은 용종을 초래했다.

비교 우위 (벤치마킹 논리)

하이브리드 그래프 맘바(HGM) 방법은 식별된 단점을 직접 해결함으로써 질적 우수성을 제공한다.

명시적인 비유클리드 특징 추출: 격자형(유클리드) 데이터를 처리하는 표준 CNN과 달리 HGM은 하이브리드 그래프 맘바 모듈(HGMM) 내에 그래프 컨볼루션 네트워크(GCN)를 통합한다. GCN은 그래프 구조 데이터를 처리하도록 특별히 설계되어 HGM이 비유클리드 기하학적 및 위상적 관계를 명시적으로 모델링하고 추출할 수 있도록 한다.
영역 인식 다중 스케일 융합: HGM은 모든 특징을 균일하게 처리하지 않는 경계 판별 융합 모듈(BDFM)을 도입한다. 대신, 초기 분할 맵을 처리하여 내부, 가장자리 및 배경 영역에 대한 별도의 특징 맵을 파생시킨다.
맘바를 이용한 효율적인 다중 스케일 특징 집계: 맘바(특히 BiMamba 블록)의 통합은 시퀀스 모델링을 위한 강력한 메커니즘을 제공한다. Mamba의 상태 공간 모델(SSM) 아키텍처는 시퀀스 길이에 대한 선형 복잡성을 제공하며, 이는 표준 트랜스포머의 자체 주의 메커니즘의 이차 복잡성에 비해 상당한 이점이다.

Figure 2. Illustrations of two proposed modules

수학적 및 논리적 메커니즘

하이브리드 그래프 맘바(HGM) 모델은 표준 유클리드 특징과 함께 비유클리드 위상 구조를 명시적으로 모델링함으로써 의료 영상에서 전통적인 딥러닝의 한계를 해결한다.

마스터 방정식

비유클리드 특징 추출의 주요 엔진 역할을 하는 하이브리드 그래프 맘바 모듈(HGMM)의 핵심 논리는 다음과 같이 정의된다.

$$\text{HGMM}(\mathbf{X}) = \text{GCN}([\mathbf{X}_F, \mathbf{X}_B, \mathbf{X}_F^\top, \mathbf{X}_B^\top], \mathbf{A}) + \mathbf{X}_M + \mathbf{X}_M^\top + \mathbf{X}$$

방정식 분해

$[\mathbf{X}_F, \mathbf{X}_B, \mathbf{X}_F^\top, \mathbf{X}_B^\top]$: 이것은 네 개의 방향 특징 맵의 연결이다.
$\mathbf{A}$: 인접 행렬. 그래프 구조를 정의한다. 저자들은 희소하지만 의미 있는 연결을 강제하기 위해 특정 값(32단위마다)을 1로 설정했다.
$\text{GCN}(\cdot, \mathbf{A})$: 이 연산자는 그래프 컨볼루션을 수행하여 $\mathbf{A}$에 의해 정의된 이웃 노드로부터 정보를 집계한다.
$\mathbf{X}_M + \mathbf{X}_M^\top$: 이것은 BiMamba 블록 이후의 잔차 출력으로, 순차 정보를 보존한다.
$+\mathbf{X}$: 이것은 최종 잔차 연결로, 기울기 소실 문제를 방지한다.

결과, 한계 및 결론

저자들은 다섯 개의 벤치마크 데이터셋(CVC-300, ClinicDB, Kvasir, ColonDB 및 ETIS)에 걸쳐 여덟 개의 최첨단(SOTA) 모델에 대해 아키텍처를 "무자비하게" 테스트했다.

HGM의 우수성에 대한 결정적인 증거는 모든 데이터셋에 걸친 일관된 성능에서 발견된다. HGM은 최고의 전체 평균(Dice: 0.887, IoU: 0.825)을 달성한다. 표 2의 연쇄 분석은 각 구성 요소(BMD, QM, GCN 및 BDFM)를 추가할 때마다 Dice 및 IoU 메트릭이 점진적으로 개선되어 아키텍처 선택이 우연이 아니라 수학적으로 타당함을 확인하는 "결정적인 증거" 역할을 한다.

Figure 3. Visualized segmentation results. In the five datasets mentioned in the previous experiment, three images are selected to compare the segmentation performance of our model with that of other models