MICCAI

기능-구조 연결망을 통한 뇌 질환 진단을 위한 교차 모달 뇌 그래프 트랜스포머

Multi-modal brain networks represent the complex connectivity between different brain regions from both functional and structural perspectives, which is of great significance for brain disease diagnosis.

연구 분야 Natural Language Processing

Article Type Research analysis

Authors Feng et al.

Original Paper Published 2026

ISOM Posted 2026-03-12 10:44 UTC

Read Time 21M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

배경 및 학술적 계보

이 문제가 어디에서 비롯되었는지 이해하기 위해서는 신경과학자와 컴퓨터 과학자들이 알츠하이머병(AD) 또는 자폐 스펙트럼 장애(ASD)와 같은 복잡한 뇌 질환을 진단하기 위해 역사적으로 어떻게 접근해 왔는지 살펴볼 필요가 있다. 신경 영상의 초기 단계에서 연구자들은 이상 징후를 찾기 위해 단일 유형의 뇌 스캔에 의존했다. 결국, 뇌는 매우 복잡하고 상호 연결된 네트워크로 작동한다는 사실이 밝혀졌다. 이는 두 가지 뚜렷한 관점의 사용으로 이어졌다: 기능적 연결성(서로 다른 뇌 영역이 함께 활성화되는 방식, fMRI로 측정)과 구조적 연결성(서로를 연결하는 실제 신경 섬유, DTI로 측정). 이 두 가지 양식을 융합하는 특정 문제는 뇌 질환이 종종 물리적 연결망과 통신 패턴을 동시에 방해하기 때문에 발생했다. 이를 정확하게 진단하려면 어느 하나를 고립해서 보는 것이 아니라 구조와 기능 간의 깊이 결합된 관계를 이해해야 한다.

저자들이 이 논문을 작성하게 만든 근본적인 한계는 무엇이었는가? 이전 접근 방식은 이 두 가지 데이터 유형을 결합하려고 할 때 주요 난관에 부딪혔다. 그래프 신경망(GNN)이 인기가 있었지만, 이들은 이웃 노드 간에 국소적인 정보만 전달하여 뇌의 광범위하고 장거리 의존성을 완전히 놓쳤다. 이를 해결하기 위해 최근 일부 모델은 전체적인 그림을 보는 데 탁월한 트랜스포머를 도입했다. 그러나 기존의 다중 모달 모델은 기능적 및 구조적 데이터를 두 개의 별개이고 평행한 관점으로 단순히 취급하고 최종 특징만 마지막에 함께 융합했다. 이들은 구조적 연결성의 지원 역할, 특히 물리적 연결망이 기능적 통신을 어떻게 지시하거나 안내해야 하는지를 완전히 무시했다. 저자들은 물리적 구조를 사용하여 기능적 데이터에 대한 모델의 "주의"를 명시적으로 안내하지 않으면 이전 모델들이 중요한 진단 정보를 놓치고 있다는 것을 깨달았다.

다음은 논문에서 사용된 몇 가지 고도로 전문화된 용어를 일상적인 개념으로 번역한 것이다.

기능적 연결성 네트워크 (fMRI): 이를 서로 다른 도시 간의 실시간 전화 통화 트래픽으로 생각하라. 전화선 자체를 보여주지는 않지만, 정확히 같은 시간에 서로 자주 통화하는 도시를 보여준다.
구조적 연결성 네트워크 (DTI): 이것은 물리적 인프라, 즉 그 도시들 사이에 구축된 실제 광섬유 케이블 또는 콘크리트 고속도로이다. 두 도시가 지금 당장 통화하지 않더라도 물리적 고속도로는 존재한다.
관심 영역 (ROI): 국가 지도를 보는 것을 상상하라. ROI는 단순히 특정 도시나 주이다. 뇌에서는 연구자들이 활동이나 연결성을 모니터링하는 특정 해부학적 영역(해마와 같은)이다.
교차 모달 TopK 풀링: 정부 위원회가 위기 상황을 모니터링하기 위해 거대한 국가 지도를 가장 중요한 상위 $k$개 도시로 축소하는 것을 상상하라. 단순히 인구 규모(하나의 양식)만 보는 대신, 물리적 고속도로 인프라와 전화 트래픽(교차 모달)을 모두 평가하여 가장 중요한 도시를 선택하고 분석을 단순화하기 위해 나머지를 폐기한다.

이 문제를 해결하기 위해 사용된 주요 수학적 표기법을 정리해 보자.

표기	유형	설명
$\mathbf{X}_{s}$	변수	DTI 이미지에서 얻은 구조적 연결성 행렬.
$\mathbf{X}_{s,(i,j)}$	변수	ROI $i$와 ROI $j$ 사이의 물리적 섬유 연결 수.
$\mathbf{M}^0$	매개변수	트랜스포머를 안내하기 위해 필터링된 구조적 특징에서 재구성된 초기 강화 마스크.
$\mathbf{X}_f^{l-1}$	변수	$l$번째 레이어에서의 입력 노드 특징 행렬 (기능적 연결성을 나타냄).
$\mathbf{M}^{l-1}$	변수	물리적 연결망에 기반하여 주의 메커니즘을 안내하는 데 사용되는 $l$번째 레이어에서의 강화 마스크.
$\mathbf{W}_Q^{l,z}, \mathbf{W}_K^{l,z}, \mathbf{W}_V^{l,z}$	매개변수	다중 헤드 자체 주의 메커니즘에서 쿼리, 키, 값에 대한 학습 가능한 가중치 행렬.
$\mathbf{S}^l$	변수	풀링을 위한 각 노드의 교차 모달 중요도를 반영하는 최종 점수 벡터.
$\mathbf{i}$	변수	풀링 과정 후 선택된 상위 $k$개 노드를 저장하는 인덱스 벡터.

문제 정의 및 제약 조건

이 논문이 다루는 정확한 문제를 이해하기 위해서는 먼저 어디에서 시작하여 어디로 가고 싶은지를 정의해야 한다.

시작점 (입력): 신경 영상에서 추출된 두 가지 유형의 뇌 네트워크 데이터로 시작한다.
1. 기능적 연결성 (FC): fMRI 스캔에서 파생되며, 서로 다른 뇌 영역이 어떻게 "발화"하는지를 포착한다. 수학적으로, 이는 $N^0$개의 서로 다른 관심 영역(ROI) 간의 피어슨 상관 계수를 계산하여 얻은 초기 노드 특징 행렬 $\mathbf{X}^0_f \in \mathbb{R}^{N^0 \times N^0}$로 표현된다.
2. 구조적 연결성 (SC): DTI 스캔에서 파생되며, 이러한 영역을 연결하는 실제 물리적 "연결망" 또는 신경 섬유 다발을 나타내며, 행렬 $\mathbf{X}_s \in \mathbb{R}^{N^0 \times N^0}$로 표현된다.

목표 상태 (출력): 궁극적인 목표는 환자가 특정 뇌 질환(알츠하이머병 또는 자폐 스펙트럼 장애와 같은)을 앓고 있는지 또는 정상 대조군인지 여부를 결정하기 위한 매우 정확한 분류 확률 $P(c)$를 출력하는 것이다.

수학적 간극: 여기서 누락된 연결고리는 물리적 연결망(구조)을 기능적 발화(활동)에 효과적으로 수학적으로 엮는 방법이다. 이전 연구자들은 단순히 두 네트워크에서 독립적으로 특징을 추출하여 마지막에 연결했다(특징 차원에서의 융합). 그들은 두 가지의 깊고 결합된 상호 의존성을 포착하지 못했다. 이 논문의 저자들은 구조적 연결성이 기능적 연결성에 대한 수학적 주의를 안내하고 강화하는 물리적 지도로 작용해야 한다는 것을 깨달았다.

그러나 이 간극을 메우는 것은 이전 연구자들을 가두었던 고통스러운 딜레마를 야기한다.

딜레마:
뇌 네트워크 분석에서 질병을 진단하려면 원격 뇌 영역이 어떻게 통신하는지를 이해해야 한다. 이는 모델이 "장거리 의존성"을 포착해야 함을 의미한다.
여기에는 절충점이 있다: 그래프 신경망(GNN)을 사용하면 뇌의 국소적 물리적 위상을 성공적으로 포착하지만, GNN은 과잉 평활화(over-smoothing)라는 현상 때문에 장거리 의존성을 포착하는 데 악명이 높다. 반면에 표준 트랜스포머 아키텍처를 사용하면 자체 주의 메커니즘이 장거리 의존성을 포착하는 데 뛰어나다. 그러나 표준 트랜스포머는 "위상에 둔감"하여 모든 뇌 영역이 동등하게 연결되어 있다고 가정하고 뇌의 실제 물리적 신경 섬유 고속도로를 완전히 무시한다.

트랜스포머를 처음부터 뇌의 위상을 학습하도록 강제하려고 하면 심각한 계산량 증가와 노이즈가 발생한다. 당신은 갇혀 있다: GNN을 사용하고 장거리 기능적 오작동을 잃거나, 트랜스포머를 사용하고 물리적 구조적 제약을 잃는다.

가혹한 벽과 제약 조건:
이 딜레마를 해결하기 위해 저자들은 이 문제를 극도로 어렵게 만드는 몇 가지 가혹하고 현실적인 벽에 부딪혔다.

극심한 데이터 편향성: 원시 구조적 연결성 행렬 $\mathbf{X}_s$를 신경망에 직접 공급할 수 없다. 두 뇌 영역 간의 물리적 섬유 연결 수, $\mathbf{X}_{s,(i,j)}$는 절대 0에서 수천까지의 범위로 매우 편향된 분포를 갖는다. 이를 수학적으로 안정화하기 위해 저자들은 표준 정규화와 함께 엄격한 로그 변환 $\mathbf{X}_{s,(i,j)} = \log_{10}(\mathbf{X}_{s,(i,j)} + 1)$을 적용해야만 표본 평균이 정규 분포를 따르도록 할 수 있었다.
차원의 저주와 노이즈: 뇌는 많은 ROI(노드)로 분할된다. 여러 양식에 걸쳐 모든 ROI에 대한 밀집된 주의를 계산하는 것은 계산 비용이 많이 들고 특정 질병과 관련 없는 뇌 영역이 많기 때문에 막대한 노이즈를 발생시킨다. 그래프 크기를 줄여야 한다.
교차 모달 풀링 제약: 그래프 크기를 줄이려면 노드를 삭제(풀링)해야 한다. 그러나 진단에 필요한 정확한 바이오마커를 실수로 버리지 않고 노드를 어떻게 삭제할 것인가? 기능적 데이터만 보고 노드를 삭제하면 심각한 구조적 손상이 있는 영역을 버릴 수 있다. 여기서의 제약은 노드 중요도를 결정하기 전에 기능적 및 구조적 관점 모두에서 동시에 평가해야 한다는 것이다. 솔직히 말해서, 이전 단일 모달 풀링 방법들이 구조적 손상을 무시하는 것을 어떻게 정당화했는지 완전히 확신할 수는 없지만, 이 논문은 구조적 마스크와 기능적 특징을 모두 학습 가능한 벡터로 투영하여 통합된 교차 모달 점수 $\mathbf{S}^l$를 계산함으로써 이를 극복한다.

왜 이 접근 방식인가

전통적인 방법의 한계점

저자들이 이 특정 아키텍처를 선택한 이유를 이해하려면 전통적인 방법이 벽에 부딪힌 정확한 순간을 살펴봐야 한다. 뇌 네트워크 분석에서 목표는 뇌의 서로 다른 영역(노드)이 서로 어떻게 통신하는지를 살펴봄으로써 알츠하이머병이나 자폐증과 같은 질병을 진단하는 것이다.

오랫동안 그래프 신경망(GNN)이 이 분야의 표준이었다. 그러나 저자들은 근본적인 결함을 발견했다: GNN은 "국소 정보 전파" 메커니즘으로 작동한다. 이들은 즉각적인 이웃과만 통신한다. 하지만 인간의 뇌는 매우 복잡하며 질병은 종종 장거리 의존성을 방해한다. 즉, 뇌 앞쪽의 영역이 뒤쪽의 영역과 오작동할 수 있다. 마치 전국 고속도로 시스템을 탐색해야 할 때 지역 도시 지도에 150달러를 쓰는 것과 같지 않듯이, GNN은 전체 뇌 분석에는 너무 근시안적이었다.

자체 주의 메커니즘을 갖춘 트랜스포머는 전체 그래프를 한 번에 봄으로써 이를 해결한다. 그러나 표준 트랜스포머(BrainNetTF와 같은)는 새로운 문제를 야기했다: 이들은 기능적 MRI(fMRI) 데이터만 보았고, 물리적 신경 섬유 연결망(DTI 데이터)은 완전히 무시했다. 다른 다중 모달 방법들은 기능적 및 구조적 데이터를 "다중 뷰" 데이터로 나란히 처리하여 이를 수정하려고 시도했다. 저자들은 이것이 물리적 연결망의 지원 역할을 무시했기 때문에 불충분하다는 것을 깨달았다. 두 데이터셋을 단순히 섞을 수는 없다. 물리적 연결망은 기능적 활동을 명시적으로 안내해야 한다. 이 깨달음은 교차 모달 뇌 그래프 트랜스포머(CBGT)를 유일하게 실행 가능한 해결책으로 만들었다.

구조적 이점 및 벤치마킹 논리

단순히 차트에서 더 높은 정확도 수치를 달성하는 것 외에도, 이 방법은 그래프 복잡성과 노이즈를 처리하는 방식 때문에 질적으로 우수하다. 뇌 네트워크는 믿을 수 없을 정도로 노이즈가 많고 고차원적이다. 각 레이어에서 모든 연결을 처리하려고 하면 계산 오버헤드와 관련 없는 데이터에 파묻히게 된다.

이를 해결하기 위해 저자들은 "교차 모달 TopK 풀링" 모듈을 도입했다. 거대하고 정적인 그래프에 의존하는 대신, 모델은 기능적 및 구조적 점수를 모두 융합하여 각 뇌 영역(ROI)의 중요도를 동적으로 평가한다.

$$ \mathbf{S}^l = \sigma(\mathbf{S}^l \cdot \mathbf{W}^l + \mathbf{b}^l) $$

이 점수 벡터 $\mathbf{S}^l$를 기반으로 모델은 가장 중요한 상위 $k$개 노드만 선택한다.

$$ \mathbf{i} = \text{topk}(\mathbf{S}^l, k) $$

논문에서 이를 엄격한 $O(N^2)$에서 $O(N)$ 메모리 감소로 명시적으로 표현하지는 않았지만, 구조적 이점은 정확히 그것이다. 즉, 레이어별로 그래프 크기를 극적으로 줄인다. 비필수적인 뇌 영역을 필터링함으로써, 모델은 가장 중요한 바이오마커(전두엽 또는 해마와 같은)만 보존하여, 전체 노이즈 그래프를 기억하도록 강요했던 이전 방법들보다 압도적으로 우수하다.

문제와 해결책의 완벽한 결합

이 문제에서 가장 가혹한 제약 조건은 트랜스포머가 기능적 활동을 볼 때 물리적 뇌 연결망을 신경 쓰도록 수학적으로 강제하는 방법을 찾는 것이었다.

저자들은 이 제약 조건과 해결책 사이에 강화 마스크 $\mathbf{M}^{l-1}$를 생성함으로써 "완벽한 결혼"을 달성했다. 먼저, XGBoost를 사용하여 구조적 데이터에서 중요하지 않은 물리적 연결을 필터링하여 가장 영향력 있는 물리적 경로만 남긴다. 그런 다음, 이 구조적 마스크를 트랜스포머의 기능적 자체 주의 메커니즘의 핵심에 직접 주입한다.

$$ \mathbf{T}^{l,z} = \text{softmax} \left( \frac{\mathbf{W}_Q^{l,z} \mathbf{X}_f^{l-1} \left( \mathbf{W}_K^{l,z} \mathbf{X}_f^{l-1} \right)^\top}{\sqrt{d_K^{l,z}}} \odot (1 + \mathbf{M}^{l-1}) \right) $$

이 방정식의 오른쪽을 자세히 살펴보라: $\odot (1 + \mathbf{M}^{l-1})$. 요소별 곱셈($\odot$)의 왼쪽은 두 뇌 영역이 기능적으로 얼마나 함께 발화하는지를 보여주는 표준 주의 점수이다. 이를 $(1 + \mathbf{M}^{l-1})$로 곱함으로써, 모델은 물리적 신경 섬유 연결이 있는 경우에만 주의 점수를 수학적으로 증폭시킨다. 구조가 기능을 지시하도록 만드는 완벽하게 우아한 방법이다.

가지 않은 길

이 논문은 GNN이 거부된 이유(장거리 의존성을 포착하지 못함)와 표준 다중 모달 융합이 거부된 이유(구조와 기능을 별개이지만 동등한 것으로 취급, 상호 의존적인 것이 아니라)를 명시적으로 설명한다.

솔직히 말해서, 저자들이 전혀 언급하지 않기 때문에 GAN 또는 확산 모델과 같은 생성 모델이 여기서 어떻게 수행될지 완전히 확신할 수는 없다. 그러나 논리적으로 GAN과 확산 모델은 노이즈에서 새로운 데이터 분포를 생성하도록 설계되었다. 여기서 정의된 문제는 엄격하게 판별적 그래프 분류 작업(예: 알츠하이머병 대 정상 대조군 진단)이다. 그래프를 분류하기 위해 확산 모델을 사용하는 것은 계산 비용이 엄청나고 특정 국소 뇌 바이오마커를 식별하는 목표와 아키텍처적으로 일치하지 않을 것이다. 따라서 교차 모달 풀링을 갖춘 판별적 트랜스포머가 가장 직접적이고 논리적인 경로였다.

수학적 및 논리적 메커니즘

이 논문이 이루는 심오한 도약을 이해하기 위해서는 먼저 인간의 뇌를 "하드웨어"와 "소프트웨어"의 조합인 이중 계층 네트워크로 이해해야 한다.

신경 영상에서 "하드웨어"는 확산 텐서 영상(DTI)으로 측정되며, 이는 서로 다른 뇌 영역을 연결하는 실제 물리적 신경 섬유를 매핑한다. 이를 구조적 연결성이라고 한다. "소프트웨어"는 기능적 자기 공명 영상(fMRI)으로 측정되며, 이는 혈류를 추적하여 어떤 뇌 영역이 동시에 발화하는지를 확인한다. 이를 기능적 연결성이라고 한다.

수년 동안 알츠하이머병이나 자폐증과 같은 뇌 질환을 진단하려는 의사 및 AI 연구자들은 하드웨어, 소프트웨어만 보거나 두 데이터셋을 어설프게 섞는다는 거대한 제약에 직면했다. 표준 그래프 신경망(GNN)은 근시안적이어서 즉각적인 이웃 뇌 영역만 본다. 반면에 트랜스포머는 장거리 의존성(뇌 앞쪽의 영역이 뒤쪽의 영역에 영향을 미치는 방식)을 보는 데 뛰어나지만, 지도 없이는 뇌의 방대한 기능적 데이터 노이즈에 쉽게 길을 잃는다.

이 논문의 저자들은 교차 모달 뇌 그래프 트랜스포머(CBGT)를 만들어 이를 해결했다. 이들은 AI에게 물리적 하드웨어(구조적 연결성)를 소프트웨어(기능적 연결성)를 더 잘 이해하기 위한 안내 청사진으로 사용하도록 수학적으로 강제한다.

이 교차 모달 융합에 동력을 공급하는 절대적인 핵심 수학 엔진은 다음과 같다.

$$ \mathbf{h}^{l,z} = \mathbf{T}^{l,z} \mathbf{W}_V^{l,z} \mathbf{X}_f^{l-1} $$

이 방정식들을 조각별로 분석하여 어떻게 모델에 생명을 불어넣는지 이해해 보자.

$\mathbf{X}_f^{l-1}$: 이것은 $l-1$ 레이어에서의 입력 노드 특징 행렬이다. 물리적으로, 이는 "소프트웨어" 신호, 즉 서로 다른 영역의 기능적 뇌 활동을 나타낸다.
$\mathbf{W}_Q^{l,z}, \mathbf{W}_K^{l,z}, \mathbf{W}_V^{l,z}$: 이들은 주의 헤드 $z$에서의 쿼리, 키, 값에 대한 학습 가능한 가중치 행렬이다. 논리적으로, 이들은 번역가 역할을 한다. 행렬 곱셈을 사용하여 원시 뇌 신호를 영역이 질문(쿼리)하고, 답변(키)을 제공하고, 실체(값)를 제공할 수 있는 새로운 수학적 공간으로 회전하고 투영한다.
$(\dots)^\top$: 전치 연산자이다. 키 행렬을 쿼리 행렬과 곱할 수 있도록 뒤집는다. 이 내적은 두 뇌 영역 활동 간의 원시 유사성 또는 "정렬"을 측정한다.
$\sqrt{d_K^{l,z}}$: 키 벡터 차원의 제곱근이다. 이것은 열역학적 온도 조절기 역할을 한다. 큰 벡터를 곱할 때 결과 숫자가 폭발하여 학습이 멈추는 평평하고 죽은 영역으로 소프트맥스 함수를 밀어 넣을 수 있다. 분산 축소와 수학적 엔진의 원활한 작동을 위해 여기서 나눗셈이 사용된다.
$\mathbf{M}^{l-1}$: 구조적 연결성 네트워크에서 파생된 강화 마스크이다. 이것은 "하드웨어" 지도이며, XGBoost 알고리즘으로 사전 필터링되어 가장 중요한 물리적 신경 연결만 유지한다.
$1 + \mathbf{M}^{l-1}$: 구조적 편향이다. 왜 여기서 덧셈을 사용하는가? 숫자 $1$은 기준선 역할을 한다. $\mathbf{M}$이 $0$이면(두 영역을 연결하는 물리적 와이어가 없음을 의미), 항은 단순히 $1$이 된다. 이는 기본 기능적 정보가 지워지지 않도록 보장한다. 물리적 연결이 있는 경우, $\mathbf{M}$은 $1$에 더해져 연결을 증폭시킨다.
$\odot$: 하다마드 곱(요소별 곱셈)이다. 이것은 확대경 역할을 한다. 구조적 청사진을 사용하여 기능적 주의 점수를 직접 확장한다. 구조적 마스크가 비례적 승수로 작용하도록(물리적 뇌 구조가 이를 지원하는 곳에서 주의를 정확히 확장하도록) 덧셈 대신 곱셈이 사용된다.
$\text{softmax}$: 정규화 함수이다. 엄격한 예산 관리자 역할을 하여, 모든 원시, 증폭된 유사성 점수가 정확히 $1.0$(또는 100%)이 되도록 합산한다. 원시 수학을 확률 분포로 변환한다.
$\mathbf{T}^{l,z}$: 최종 주의 행렬이다. 이것은 라우팅 네트워크이며, 각 뇌 영역이 다른 모든 영역에 얼마나 귀 기울여야 하는지를 정확히 알려주는 마스터 원장이다.
$\mathbf{h}^{l,z}$: 출력 은닉 상태이다. 이것은 뇌 영역들이 서로 통신한 후 업데이트되고 풍부해진 신호이다.

이것이 작동하는 것을 보기 위해, 단일 추상 데이터 포인트, 예를 들어 해마의 신호가 이 방정식을 통과하는 정확한 수명 주기를 추적해 보자.

먼저, 해마의 원시 기능적 신호($\mathbf{X}_f$)가 조립 라인에 들어가 $\mathbf{W}_Q$와 곱해져 쿼리 벡터를 생성한다. 이는 본질적으로 공허에 외치는 것과 같다: "누가 나와 동기화되어 발화하고 있는가?" 동시에, 전두엽 피질과 같은 다른 모든 뇌 영역은 자신의 키 벡터($\mathbf{W}_K \mathbf{X}_f$)를 생성한다. 해마의 쿼리는 전두엽 피질의 키와 곱해진다. 기능적 신호가 일치하면 결과 점수가 높다.

다음으로, 이 원시 점수는 수학적 오버플로우를 방지하기 위해 $\sqrt{d_K}$로 나뉘어 냉각된다. 이제 교차 모달 마법이 시작된다. 시스템은 구조적 마스크 $\mathbf{M}$을 확인한다. 해마와 전두엽 피질을 연결하는 실제 물리적 신경 섬유가 있는가? 그렇다면, 마스크 $\mathbf{M}$은 높은 값을 가지며, 요소별 곱셈 $\odot (1 + \mathbf{M})$은 연결 점수를 대폭 증폭시킨다. 물리적 와이어가 없으면 점수는 $1$로 곱해져 변경되지 않는다.

softmax 함수는 이러한 모든 점수를 백분율로 잘라내고 압축한다. 해마가 전두엽 피질에 80%의 주의를 기울이기로 결정했다고 가정해 보자. 마지막으로, 해마는 전두엽 피질의 값 벡터($\mathbf{W}_V \mathbf{X}_f$)의 80%를 흡수하여 자신의 내부 상태를 $\mathbf{h}$로 업데이트한다. 해마는 이제 뇌 하드웨어의 제약 조건에 기반하여 소프트웨어를 성공적으로 업데이트했다.

이 메커니즘은 실제로 어떻게 학습하고 수렴하는가? 여기서의 최적화 역학은 아름답게 제약되어 있다. 모델은 최종 질병 진단이 얼마나 잘못되었는지를 측정하는 교차 엔트로피 손실 함수에 의해 맨 끝에서 지도된다.

역전파 중에 기울기는 최종 분류에서 시작하여 TopK 풀링 레이어(동적으로 쓸모없는 뇌 영역을 삭제하고 가장 중요한 바이오마커만 유지하도록 학습함)를 통과하여 트랜스포머 레이어로 역방향으로 흐른다. 구조적 마스크 $\odot (1 + \mathbf{M})$ 때문에 손실 지형은 근본적으로 재구성된다. 표준 트랜스포머에서 손실 지형은 모델이 무작위적이고 노이즈가 많은 기능적 상관 관계(예: 순전히 우연히 함께 발화하는 두 뇌 영역)에 쉽게 과적합될 수 있기 때문에 혼란스럽다.

그러나 구조적 마스크는 손실 지형에서 깊고 부드러운 계곡 역할을 한다. 이것은 물리적 사전 정보 역할을 하여 기울기가 실제 생물학적 경로를 따라 훨씬 더 강하게 흐르도록 강제한다. Adam 옵티마이저는 가중치 행렬($\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V$)을 반복적으로 업데이트하지만, 뇌의 물리적 현실에 의해 끊임없이 안내된다. 시간이 지남에 따라 모델은 통계적 패턴뿐만 아니라 생물학적으로 타당한 다중 모달 바이오마커로 수렴하여 알츠하이머병 및 자폐증과 같은 질환을 전례 없는 정확도로 진단할 수 있게 된다.

결과, 한계 및 결론

거대하고 번화한 대도시가 어떻게 작동하는지 이해하려고 한다고 상상해 보라. 두 개의 지도가 있다. 첫 번째 지도는 서로 다른 동네를 연결하는 물리적 고속도로와 기차 선로를 보여준다. 이것이 구조적 연결성이다. 두 번째 지도는 그 동네들 사이에서 보내지는 전화 통화와 문자 메시지의 양을 보여준다. 이것이 기능적 연결성이다.

수십 년 동안 신경 과학자들은 인간의 뇌를 매우 유사한 방식으로 바라보았다. 확산 텐서 영상(DTI)을 사용하여 물리적 신경 섬유(고속도로)를 매핑하고, 기능적 자기 공명 영상(fMRI)을 사용하여 뇌 활동의 일관성(전화 통화)을 매핑한다. 알츠하이머병이나 자폐증과 같은 복잡한 뇌 질환을 진단하려면 둘 다 살펴봐야 한다. 150달러짜리 첨단 스캔을 절반의 데이터를 무시하기 위해 사용하지는 않을 것이다.

그러나 AI 기반 신경 과학의 근본적인 문제는 이 두 지도를 어떻게 결합하는가였다. 기존 모델은 일반적으로 처리 파이프라인의 끝에서 특징을 단순히 섞는다. 이들은 물리적 고속도로가 전화 통화가 어떻게 이동하는지를 지시한다는 것을 이해하지 못한다. 또한, 물리적으로 멀리 떨어진 뇌 영역이 종종 강렬하게 통신한다(장거리 의존성). 전통적인 그래프 신경망(GNN)은 즉각적인 이웃만 보기 때문에 큰 그림을 보는 데 매우 서툴다. 트랜스포머는 큰 그림을 보는 데 뛰어나지만, 일반적으로 물리적 그래프 구조를 완전히 무시한다.

이 논문은 교차 모달 뇌 그래프 트랜스포머(CBGT)를 소개한다. 이는 AI가 물리적 구조 지도를 렌즈로 사용하여 기능적 활동 지도에 주의를 집중하도록 강제하는 훌륭한 아키텍처이다.

수학적 핵심: 어떤 문제가 해결되었는가?

저자들은 특정 제약 조건을 해결해야 했다. 어떻게 수학적으로 트랜스포머의 자체 주의 메커니즘이 물리적 신경 섬유를 신경 쓰도록 강제할 수 있을까?

먼저 구조적 데이터를 정리해야 했다. DTI 섬유 수는 매우 편향되어 있다. 일부 영역은 연결이 없고, 다른 영역은 수천 개가 있다. 이를 정규화하기 위해 로그 변환을 적용했다.
$$ \mathbf{X}_{s,(i,j)} = \log_{10}(\mathbf{X}_{s,(i,j)} + 1) $$
이 행렬을 표준화한 후, 머신러닝 알고리즘(XGBoost)을 사용하여 노이즈를 필터링하고 가장 중요한 물리적 연결만 식별하여 $\mathbf{M}^0$으로 표시되는 "강화 마스크"를 생성했다. 솔직히 말해서, 논문이 그리드 검색을 사용하여 하드 임계값 $p=3$을 설정하지만, 이 단계에 대해 XGBoost를 선택한 이유를 정확히 모르겠다. 이는 강력한 특징 선택기 역할을 한다.

진정한 천재성은 교차 모달 트랜스포머 레이어에 있다. 표준 트랜스포머에서 주의는 쿼리와 키를 비교하여 계산된다. 여기서 저자들은 구조적 마스크 $\mathbf{M}^{l-1}$를 기능적 주의 계산에 직접 주입한다.
$$ \mathbf{T}^{l,z} = \text{softmax}\left( \frac{\mathbf{W}_Q^{l,z} \mathbf{X}_f^{l-1} \left(\mathbf{W}_K^{l,z} \mathbf{X}_f^{l-1}\right)^\top}{\sqrt{d_K^{l,z}}} \odot (1 + \mathbf{M}^{l-1}) \right) $$
직관적으로, $(1 + \mathbf{M}^{l-1})$ 항은 구조적 승수 역할을 한다. 두 뇌 영역이 강한 물리적 연결(높은 $\mathbf{M}$)을 공유하면, 모델은 기능적 상관 관계에 대한 주의($\mathbf{T}$)를 인위적으로 증폭시킨다. 이는 구조와 기능을 우아하게 결합한다.

마지막으로, 질병을 진단하기 위해 모델은 뇌 전체를 동등하게 볼 수 없다. 특정 손상된 동네(바이오마커)를 찾아야 한다. 이들은 교차 모달 TopK 풀링 메커니즘을 설계했다. 이는 구조적 마스크와 기능적 노드 특징을 모두 학습 가능한 벡터로 투영하고, 연결하고, 다층 퍼셉트론(MLP)을 통과시켜 통합된 중요도 점수를 생성한다.
$$ \mathbf{S}^l = \sigma(\mathbf{S}^l \cdot \mathbf{W}^l + \mathbf{b}^l) $$
그런 다음 모델은 이 교차 모달 점수를 기반으로 상위 $k$개의 가장 중요한 영역만 유지하면서 그래프를 무자비하게 가지치기하고, 이러한 정제된 표현을 소프트 투표 분류기에 전달한다.

실험 아키텍처: 무자비한 증명 및 "희생자"

저자들은 단순히 수학이 작동한다고 주장하는 것이 아니라, 두 가지 완전히 다른 신경학적 전장에서 이를 부인할 수 없게 증명하기 위해 실험을 설계했다. 알츠하이머병(ADNI 데이터셋) 및 자폐 스펙트럼 장애(ABIDE 데이터셋).

그들의 여정에서 남겨진 "희생자"들은 최첨단 모델들의 총집합이었다. 이들은 단일 유형의 스캔만 보는 단일 모달 기준선(SVM, GAT, BrainGNN, BrainIB, BrainNetTF, ALTER)을 능가했으며, 더 중요하게는 구조와 기능을 융합하려고 시도하지만 서투르게 수행하는 기존 다중 모달 모델(BrainNN, MME-GCN, Cross-GNN)을 압도했다. 예를 들어, 경도인지장애(MCI)와 정상 대조군(NC)을 구별하는 어려운 작업에서 CBGT는 모든 다른 교차 모달 방법보다 정확도에서 3.9%나 앞섰다.

그러나 핵심 메커니즘이 작동했다는 결정적이고 부인할 수 없는 증거는 높은 정확도뿐만 아니라 제거 연구 및 해석 분석이었다.
구조적 마스크를 제거했을 때(모델을 일반 단일 모달 트랜스포머로 되돌렸을 때), 알츠하이머병 분류 정확도가 4.9% 급락했다. 이는 구조적 마스크가 단순한 기믹이 아니라 모델의 하중을 지탱하는 기둥이었음을 증명했다. 또한, AI의 주의를 물리적 뇌로 다시 매핑했을 때, 모델은 자폐증 환자가 정신 상태를 추론하려고 할 때 임상 문헌에서 오랫동안 비활성화된 것으로 입증된 영역인 내측 전두엽 피질(PCUN)과 내측 전두엽 피질(REC)에 독립적으로 집중하는 것을 학습했다. 수학은 단순히 손실 함수를 최적화한 것이 아니라 생물학적 현실을 재발견했다.

미래 발전을 위한 토론 주제

이 훌륭한 기반을 바탕으로, 미래 탐구를 위한 몇 가지 심층적인 방향은 다음과 같다.

종단 간 미분 가능한 구조적 희소성:
현재 모델은 구조적 마스크 $\mathbf{M}^0$를 추출하기 위한 이산적인 사전 처리 단계로 XGBoost에 의존한다. 이는 파이프라인의 종단 간 미분 가능성을 깨뜨린다. 이를 역전파 중에 구조적 그래프를 동적으로 가지치기하도록 학습하는 미분 가능한 희소 주의 메커니즘(Sparsemax 또는 Gumbel-Softmax 라우터와 같은)으로 대체할 수 있을까? 이것이 모델이 새롭고 명백하지 않은 물리적 바이오마커를 발견하는 능력에 어떻게 영향을 미칠까?
기능적 연결성의 시간적 역학:
이 논문은 기능적 연결성을 정적 행렬(전체 스캔에 대한 피어슨 상관 관계)로 취급한다. 그러나 뇌 활동은 매우 역동적이다. "전화 통화"는 폭발적으로 발생한다. 기능적 입력 $\mathbf{X}_f$를 시공간 시퀀스로 발전시키고 시간 트랜스포머를 적용한다면, 정적 구조적 마스크를 사용하여 동적 기능적 시퀀스를 수학적으로 어떻게 제약할 수 있을까?
교차 학문적 일반화:
여기서의 핵심 수학적 전제, 즉 동적이고 완전히 연결된 그래프의 주의 가중치를 희소하고 하드 와이어링된 물리적 위상 행렬로 곱셈적으로 임베딩하여 제약하는 메커니즘은 뇌에 국한되지 않는다. 이 정확한 아키텍처를 도시 공학에 배포할 수 있을까? 예를 들어, 물리적 도로망(구조)을 사용하여 실시간 GPS 이동 데이터(기능)에 대한 주의를 마스크함으로써 교통 체증을 예측하는 것과 같다. "노드"가 90개의 뇌 영역에서 90,000개의 도시 교차로로 확장될 때 어떤 제약이 발생할까?

Table 2. Ablation Study Results on Different Datasets

Table 1. Comparative Experiments of Classification Tasks on Different Datasets