MICCAI

Explainable ADHD Diagnostic Framework Using Weakly-Supervised Action Recognition

The clinical diagnosis of Attention Deficit Hyperactivity Disorder (ADHD) primarily relies on scale questionnaires, clinical interviews, and executive function tests, which face challenges including limited medical...

연구 분야 Medical Image Analysis

Article Type Research analysis

Authors Fan et al.

Original Paper Published 2026

ISOM Posted 2026-03-12 19:39 UTC

Read Time 10M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

Background & Academic Lineage

주의력 결핍 과잉 행동 장애(ADHD) 진단 문제는 역사적으로 임상가의 주관적 인터뷰와 표준화된 평정 척도에 의존해 왔다. 이러한 방식은 임상가에 따른 편향(clinician-dependent bias)이 발생하기 쉽고, 과잉 행동을 정량적으로 측정할 객관적 지표가 부족하다는 한계가 있다. 초기 AI 접근 방식은 구조화된 기록이나 신경생리학적 데이터(EEG/MRI 등)를 활용하여 자동화를 시도했으나, 최근 컴퓨터 비전의 발전으로 행동 표현형(behavioral phenotypes) 분석으로 연구의 중심이 이동하였다. 그러나 EDWAR 개발의 결정적 계기가 된 'Pain Point'는 기존 딥러닝 모델의 블랙박스(black-box) 특성이다. 기존 시스템은 높은 정확도로 진단을 예측할 수 있을지라도, 그 '이유'를 제시하지 못한다. 즉, 영상 내에서 환자가 ADHD 관련 증상을 보인 특정 시점을 지목할 수 없기에 임상 현장에 통합하기에는 신뢰성이 부족하다.

Intuitive Domain Terms

Weakly-Supervised Learning: 영상에 특정 새가 등장한다는 사실만 알려줄 뿐, 정확히 어느 초에 등장하는지 명시하지 않고도 모델이 스스로 '어디에' 새가 있는지 파악하도록 학습시키는 방식이다.
Skeletal Sequences: 영상에서 추출한 '막대 인형(stick-figure)' 애니메이션과 같다. 관절(어깨, 팔꿈치, 무릎 등) 정보에만 집중함으로써, 조명이나 가구와 같은 배경 노이즈를 배제하고 환자의 움직임 자체에만 초점을 맞춘다.
Gumbel-Softmax: 표준 AI 모델은 불확실한 상황에서 모호한 확률값을 출력할 수 있다. 이 도구는 '미분 가능한(differentiable)' 공정한 동전 던지기와 같아, 모델이 학습 과정에서 실수를 통해 배우면서도 "이것은 움직임이다"와 같은 명확하고 단호한 결정을 내릴 수 있게 한다.
Anomaly Activation: 행동을 위한 '히트맵(heat map)'과 같다. 모델이 영상 내에서 환자의 움직임이 정상 범주를 벗어난 특정 타임스탬프를 강조하여, "바로 이 순간이 과잉 행동이 발생한 지점이다"라고 명시하는 방식이다.

Notation Table

Notation	Description
$X \in \mathbb{R}^{T \times D}$	$T$개의 타임스탬프와 $D$개의 특징 차원을 가진 입력 스켈레톤 시퀀스
$f \in \mathbb{R}^{T \times d}$	인코더 $g_\theta$에 의해 추출된 포즈 특징(pose features)
$\alpha^{act} \in \mathbb{R}^{T \times 2}$	각 타임스탬프에서의 활동 존재/부재를 나타내는 활성화 맵
$\mathbf{P}^{Act}_i$	Gumbel-Softmax를 사용한 타임스탬프 $i$에서의 활동 확률 제안
$\alpha^{ano} \in \mathbb{R}^{T \times C}$	$C$가지 유형의 과잉 행동에 대한 이상 활성화 행렬
$s \in \mathbb{R}^{C}$	각 행동 범주에 대해 집계된 영상 단위의 이상 점수(anomaly score)
$r \in \mathbb{R}^{M}$	표준화된 실행 기능 검사 지표(예: Stroop 검사 결과)
$p$	분류기에 의해 출력된 최종 ADHD 진단 확률

Mathematical Interpretation

저자들은 2단계 협력 프레임워크를 구축하여 해석 가능성 문제를 해결한다. 우선, ASP(Activity Segment Proposal) 모듈을 사용하여 정적이거나 관련 없는 움직임을 필터링한다. 활성화 맵 $\alpha^{act}$를 정의하고 Gumbel-Softmax 트릭을 사용하여 하드 제안(hard proposals) $\mathbf{P}^{Act}_i$를 생성함으로써, 모델이 활동적인 세그먼트에만 집중하도록 한다.

핵심 혁신은 다음과 같이 정의되는 AAN(Anomaly Activation Network)이다:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}^{Act} \odot f)$$
이 식은 입력 특징 $f$를 활동 제안 $\mathbf{P}^{Act}$로 마스킹하여, 네트워크가 의미 있는 움직임만을 분석하도록 보장한다. 이후 모델은 시그모이드 함수 $\sigma(\cdot)$와 학습 가능한 온도 파라미터 $\mathcal{T}_c$를 사용하여 이를 점수 $s_c$로 집계하고 특정 이상 징후를 식별한다. 최종적으로 ADHD 진단은 영상뿐만 아니라, 이러한 이상 점수와 전통적인 검사 지표 $r$을 결합하여 이루어진다:
$$p = \text{MLP}(\text{concat}(s, r))$$
손실 함수 $\mathcal{L} = \mathcal{L}_{diag} + \lambda\mathcal{L}_{action}$에 의해 제어되는 이러한 공동 최적화는 모델이 진단에 정확하면서도 임상적으로 해석 가능한 특징을 학습하도록 강제한다. 이는 AI의 '추론'이 인간이 관찰 가능한 임상적 증거와 일치하도록 보장하는 영리한 방법이다.

Problem Definition & Constraints

본 논문이 다루는 핵심 과제는 기존 AI 보조 ADHD 진단 도구의 '블랙박스' 특성이다. 현재 임상가들은 주관적 평정 척도, 임상 인터뷰, 실행 기능 검사를 조합하여 진단한다. 기존 AI 모델들은 행동 데이터(시선이나 스켈레톤 움직임 등)를 분석하여 자동화를 시도했으나, 종종 불투명한 분류기로 작동한다. 이는 임상가들이 AI 진단 결정의 '이유'를 신뢰하거나 검증할 수 없다는 심각한 간극을 초래하며, 이는 임상 도입의 필수 요건이다.

The Dilemma and Constraints

저자들은 예측 정확도와 해석 가능성 사이의 고전적인 상충 관계(trade-off)에 직면한다.
- 데이터 병목 현상: '비정상적인' ADHD 행동(예: 꼼지락거림, 좌석 이동)에 대한 프레임 단위의 세밀한 주석(annotation)을 얻는 것은 비용이 많이 들고 시간이 소요된다. 이로 인해 저자들은 정확한 시간적 마커 대신 영상 단위의 레이블(예: "이 영상에는 ADHD 증상이 포함됨")만을 사용하는 '약지도 학습(weakly-supervised learning)'에 의존할 수밖에 없다.
- 노이즈 문제: 실행 기능 검사 중 피험자는 정상적이고 과제와 관련된 움직임을 많이 수행한다. 모델은 이를 병리적인 ADHD 관련 과잉 행동과 구별해야 한다.
- 통합의 장벽: 임상 검사 지표와 행동 특징을 단순히 결합하는 것은 두 데이터 소스가 서로 다른 '특징 공간(feature spaces)'에 존재하기 때문에 최적의 성능을 내지 못하는 경우가 많다. 저자들은 진단에 판별력이 있으면서도 행동 인식에 임상적으로 의미 있는 특징을 동시에 학습하도록 강제하는 협력적 프레임워크를 설계해야 했다.

Mathematical Formulation

저자들은 2단계 협력 추론 프레임워크를 정의하여 이 간극을 메운다.

ASP(Activity Segment Proposal): 세밀한 레이블의 부재를 해결하기 위해, 인코딩된 포즈 특징 $\mathbf{f} \in \mathbb{R}^{T \times d}$를 활성화 맵 $\alpha^{act} \in \mathbb{R}^{T \times 2}$로 투영한다. 표준 소프트맥스의 '파편화'를 피하기 위해 Gumbel-Softmax 트릭을 사용한다:
$$[\mathbf{P}_i^{Act}, \mathbf{P}_i^{NoAct}] = \text{Gumbel-Softmax}([a_{i,0}, a_{i,1}]), \forall i \in \{1, \dots, T\}$$
이는 학습 중 미분 가능한 그래디언트를 허용하면서도, 추론 시에는 '활동적' 세그먼트에 대한 결정론적 선택을 가능하게 한다.
AAN(Anomaly Activation Network): 활동 세그먼트가 식별되면, 모델은 다음을 사용하여 이상 점수 $\alpha^{ano}$를 예측한다:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}_i^{Act} \odot \mathbf{f})$$
이는 관련 없는, 정적인, 혹은 정상적인 움직임을 효과적으로 마스킹하여, ADHD 관련 행동이 발생할 가능성이 높은 세그먼트에만 모델의 주의를 집중시킨다.
Collaborative Optimization: 최종 진단 $p$는 집계된 이상 점수 $\mathbf{s}$와 임상 검사 지표 $\mathbf{r}$을 MLP 분류기에 결합하여 얻는다:
$$p = \text{MLP}(\text{concat}(\mathbf{s}, \mathbf{r}))$$
전체 시스템은 다중 작업 손실 함수 $\mathcal{L} = \mathcal{L}_{diag} + \lambda\mathcal{L}_{action}$를 사용하여 학습된다. 이는 모델이 진단 그래디언트가 행동 인식 모듈의 지도자 역할을 하는 공유 표현을 학습하게 하여, 감지된 이상 징후가 임상 진단과 실제로 관련이 있음을 보장한다.

Why This Approach

EDWAR 프레임워크는 '블랙박스' 모델을 투명한 약지도 학습 기반 행동 인식 시스템으로 대체함으로써 AI 보조 ADHD 진단에 대한 임상적 신뢰라는 핵심 과제를 해결한다.

The Inevitability of the Choice

저자들은 표준 CNN이나 기본 Transformer와 같은 기존 SOTA 방법론들이 진단 과정을 단일 분류 작업으로 처리하기 때문에 임상 환경에서 종종 실패한다는 점을 파악했다. ADHD 평가에서 '무엇(진단)'은 '왜(행동적 증거)' 없이는 불충분하다.

Comparative Superiority (The Benchmarking Logic):
* 구조적 이점: 전체 영상 클립을 단일 특징 벡터로 처리할 수 있는 표준 모델과 달리, EDWAR는 ASP(Activity Segment Proposal) 모듈을 활용한다. 이 모듈은 필터 역할을 하여 관련 과잉 행동을 정적이거나 관련 없는 움직임으로부터 분리한다. Gumbel-Softmax 트릭을 채택함으로써, 모델은 학습 중 미분 가능성을 유지하면서 추론 시에는 결정론적 선택을 가능하게 한다.
* 다중 모달 시너지(Multimodal Synergy): 이 프레임워크는 시각 정보에만 의존하지 않기 때문에 질적으로 우수하다. 행동 영상 분석과 구조화된 실행 기능 검사 지표 간의 '결합'을 수행한다. 최종 분류 계층에서 이상 점수 벡터 $\mathbf{s}$와 검사 지표 $\mathbf{r}$을 결합함으로써, 진단이 정량적 검사 결과와 정성적 행동 관찰 모두에 근거하도록 보장한다.

Mathematical Interpretation

문제의 핵심은 프레임 단위 레이블 없이 시퀀스 $X \in \mathbb{R}^{T \times D}$ 내의 이상 행동을 식별하는 것이다. 저자들은 다음을 통해 이를 해결한다:

Feature Encoding: 특징 $\mathbf{f} = g_\theta(X)$를 추출하고 이를 $T \times 2$ 활성화 맵 $\alpha^{act}$로 투영하여 활동과 비활동을 구분한다.
Stochastic Sampling: Gumbel-Softmax 분포를 사용하여 그래디언트 흐름을 허용하는 제안 $\mathbf{P}^{Act}_i$를 생성한다.
Anomaly Localization: AAN(Anomaly Activation Network)을 통해 이상 활성화 $\alpha^{ano}$를 예측한다:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}^{Act} \odot \mathbf{f})$$
이는 관련 없는 움직임을 효과적으로 마스킹하여 모델이 활동이 감지된 세그먼트만 분석하도록 보장한다.
Joint Optimization: 최종 진단 확률 $p$는 집계된 이상 점수 $\mathbf{s}$와 검사 지표 $\mathbf{r}$의 결합에서 도출되며, 다중 작업 손실 함수를 통해 최적화된다:
$$\mathcal{L} = \mathcal{L}_{\text{diag}} + \lambda\mathcal{L}_{\text{action}}$$

Mathematical & Logical Mechanism

EDWAR 프레임워크는 객관적인 행동 분석과 전통적인 검사 지표를 결합하여 ADHD 진단이라는 임상적 과제를 해결한다. 핵심 동기는 '블랙박스' AI 모델에서 벗어나 높은 진단 정확도와 임상가가 검증할 수 있는 투명하고 시간적으로 국소화된 증거를 모두 제공하는 시스템으로 나아가는 것이다.

The Master Equation

이 프레임워크는 시간적 이상 활성화를 단일 영상 단위 확률로 집계하는 점수 함수에 의존한다. 클래스 $c$에 대한 이상 점수 $s_c$의 핵심 방정식은 다음과 같다:

$$s_c = \sigma \left( \frac{\sum_{i=1}^{T} P_i^{\text{Act}} \cdot \alpha_{i,c}^{\text{ano}}}{T_c} \right)$$

방정식의 구성 요소:

$s_c$: 영상에서 유형 $c$의 이상 징후가 발생했을 예측 확률(0과 1 사이).
$\sigma(\cdot)$: 시그모이드 활성화 함수.
$\sum_{i=1}^{T}$: 영상 내 모든 $T$ 타임스탬프에 대한 합산.
$P_i^{\text{Act}}$: 타임스탬프 $i$에서의 '활동 제안' 가중치. 이는 게이팅 메커니즘(gating mechanism) 또는 필터 역할을 한다. Gumbel-Softmax 샘플링에서 파생되며, 모델이 정적이거나 정상이라고 판단한 타임스탬프를 효과적으로 '끄는(0으로 설정하는)' 역할을 한다.
$\alpha_{i,c}^{\text{ano}}$: 타임스탬프 $i$에서 클래스 $c$에 대한 이상 활성화 로짓.
$T_c$: 학습 가능한 온도 파라미터.

Optimization Dynamics

모델은 다중 작업 목적 함수 $\mathcal{L} = \mathcal{L}_{\text{diag}} + \lambda\mathcal{L}_{\text{action}}$를 통해 학습한다.

최적화는 섬세한 균형 잡기 과정이다. $\mathcal{L}_{\text{diag}}$ 손실은 모델이 최종 임상 예측에서 정확하도록 강제하며, $\mathcal{L}_{\text{action}}$은 모델이 특정 행동을 정확하게 식별하도록 강제한다. 이들은 공동으로 학습되므로, 진단 그래디언트는 행동 인식 모듈의 '교사' 역할을 하여, 단순히 임의의 움직임이 아니라 ADHD와 실제로 관련이 있는 행동에 집중하도록 유도한다.

Results, Limitations & Conclusion

EDWAR 프레임워크는 임상 정신의학의 중요한 병목 현상인 ADHD 진단의 주관성과 정량적 투명성 부족 문제를 해결한다.

The Core Problem and Mathematical Solution

주석 병목 현상을 해결하기 위해 저자들은 약지도 행동 인식(Weakly-Supervised Action Recognition)을 채택한다. 프레임 단위 레이블을 요구하는 대신, 모델은 영상 단위의 진단 레이블만 필요로 한다. 이 프레임워크는 ASP(Activity Segment Proposal) 모듈을 사용하여 관련 없는 움직임을 필터링하고 이상 행동에 집중한다.

수학적으로, 모델은 스켈레톤 시퀀스 $X \in \mathbb{R}^{T \times D}$를 인코더 $g_\theta$를 통해 처리하여 특징 $\mathbf{f}$를 얻는다. 표준 소프트맥스의 한계를 피하기 위해 저자들은 Gumbel-Softmax 트릭을 사용한다:
$$[\mathbf{P}^{\text{Act}}_i, \mathbf{P}^{\text{NoAct}}_i] = \text{Gumbel-Softmax}([a_{i,0}, a_{i,1}]), \forall i \in \{1, \dots, T\}$$
이는 모델이 학습 중 미분 가능한 그래디언트를 유지하면서 추론 시 결정론적 선택을 가능하게 한다.

Experimental Validation

저자들은 전통적인 머신러닝 모델과 bi-LSTM, BERT와 같은 고급 시간 패턴 인식 모델을 포함한 광범위한 베이스라인과 아키텍처를 비교 테스트했다. 성공의 결정적 증거는 EDWAR가 달성한 94.3%의 정확도이며, 이는 BERT 기반 하이브리드 모달 베이스라인(91.6%)을 크게 상회하는 수치이다. 표 2의 절제 연구(ablation study)는 WSAR 모듈과 임상 검사 지표 간의 시너지가 혁신적임을 입증하는 '결정적 증거(smoking gun)' 역할을 한다.

Discussion and Future Perspectives

EDWAR 프레임워크는 중요한 진전이지만, 향후 연구를 위한 몇 가지 흥미로운 질문을 제기한다:
1. 교차 질환 일반화(Cross-Disorder Generalization): 이 프레임워크를 ADHD와 다른 신경발달 질환을 구별하도록 조정할 수 있는가?
2. 종단적 안정성(Longitudinal Stability): 모델이 몇 시간 동안의 교실 행동을 분석해야 한다면 어떤 성능을 보일 것인가?
3. 윤리 및 개인정보 보호: AI 보조 진단으로 나아감에 따라, 스켈레톤 추출 과정에서 개인정보를 최고 수준으로 보호하려면 어떻게 해야 하는가?

전반적으로, 이 프레임워크는 복잡한 임상 문제에 대해 설득력 있고 투명하며 매우 정확한 솔루션을 제공하며, 알고리즘적 결정과 인간이 읽을 수 있는 증거 사이의 간극을 효과적으로 메운다.