Explainable ADHD Diagnostic Framework Using Weakly-Supervised Action Recognition
Background & Academic Lineage
주의력 결핍 과잉 행동 장애(ADHD) 진단 문제는 역사적으로 임상가의 주관적 인터뷰와 표준화된 평정 척도에 의존해 왔다. 이러한 방식은 임상가에 따른 편향(clinician-dependent bias)이 발생하기 쉽고, 과잉 행동을 정량적으로 측정할 객관적 지표가 부족하다는 한계가 있다. 초기 AI 접근 방식은 구조화된 기록이나 신경생리학적 데이터(EEG/MRI 등)를 활용하여 자동화를 시도했으나, 최근 컴퓨터 비전의 발전으로 행동 표현형(behavioral phenotypes) 분석으로 연구의 중심이 이동하였다. 그러나 EDWAR 개발의 결정적 계기가 된 'Pain Point'는 기존 딥러닝 모델의 블랙박스(black-box) 특성이다. 기존 시스템은 높은 정확도로 진단을 예측할 수 있을지라도, 그 '이유'를 제시하지 못한다. 즉, 영상 내에서 환자가 ADHD 관련 증상을 보인 특정 시점을 지목할 수 없기에 임상 현장에 통합하기에는 신뢰성이 부족하다.
Intuitive Domain Terms
- Weakly-Supervised Learning: 영상에 특정 새가 등장한다는 사실만 알려줄 뿐, 정확히 어느 초에 등장하는지 명시하지 않고도 모델이 스스로 '어디에' 새가 있는지 파악하도록 학습시키는 방식이다.
- Skeletal Sequences: 영상에서 추출한 '막대 인형(stick-figure)' 애니메이션과 같다. 관절(어깨, 팔꿈치, 무릎 등) 정보에만 집중함으로써, 조명이나 가구와 같은 배경 노이즈를 배제하고 환자의 움직임 자체에만 초점을 맞춘다.
- Gumbel-Softmax: 표준 AI 모델은 불확실한 상황에서 모호한 확률값을 출력할 수 있다. 이 도구는 '미분 가능한(differentiable)' 공정한 동전 던지기와 같아, 모델이 학습 과정에서 실수를 통해 배우면서도 "이것은 움직임이다"와 같은 명확하고 단호한 결정을 내릴 수 있게 한다.
- Anomaly Activation: 행동을 위한 '히트맵(heat map)'과 같다. 모델이 영상 내에서 환자의 움직임이 정상 범주를 벗어난 특정 타임스탬프를 강조하여, "바로 이 순간이 과잉 행동이 발생한 지점이다"라고 명시하는 방식이다.
Notation Table
| Notation | Description |
|---|---|
| $X \in \mathbb{R}^{T \times D}$ | $T$개의 타임스탬프와 $D$개의 특징 차원을 가진 입력 스켈레톤 시퀀스 |
| $f \in \mathbb{R}^{T \times d}$ | 인코더 $g_\theta$에 의해 추출된 포즈 특징(pose features) |
| $\alpha^{act} \in \mathbb{R}^{T \times 2}$ | 각 타임스탬프에서의 활동 존재/부재를 나타내는 활성화 맵 |
| $\mathbf{P}^{Act}_i$ | Gumbel-Softmax를 사용한 타임스탬프 $i$에서의 활동 확률 제안 |
| $\alpha^{ano} \in \mathbb{R}^{T \times C}$ | $C$가지 유형의 과잉 행동에 대한 이상 활성화 행렬 |
| $s \in \mathbb{R}^{C}$ | 각 행동 범주에 대해 집계된 영상 단위의 이상 점수(anomaly score) |
| $r \in \mathbb{R}^{M}$ | 표준화된 실행 기능 검사 지표(예: Stroop 검사 결과) |
| $p$ | 분류기에 의해 출력된 최종 ADHD 진단 확률 |
Mathematical Interpretation
저자들은 2단계 협력 프레임워크를 구축하여 해석 가능성 문제를 해결한다. 우선, ASP(Activity Segment Proposal) 모듈을 사용하여 정적이거나 관련 없는 움직임을 필터링한다. 활성화 맵 $\alpha^{act}$를 정의하고 Gumbel-Softmax 트릭을 사용하여 하드 제안(hard proposals) $\mathbf{P}^{Act}_i$를 생성함으로써, 모델이 활동적인 세그먼트에만 집중하도록 한다.
핵심 혁신은 다음과 같이 정의되는 AAN(Anomaly Activation Network)이다:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}^{Act} \odot f)$$
이 식은 입력 특징 $f$를 활동 제안 $\mathbf{P}^{Act}$로 마스킹하여, 네트워크가 의미 있는 움직임만을 분석하도록 보장한다. 이후 모델은 시그모이드 함수 $\sigma(\cdot)$와 학습 가능한 온도 파라미터 $\mathcal{T}_c$를 사용하여 이를 점수 $s_c$로 집계하고 특정 이상 징후를 식별한다. 최종적으로 ADHD 진단은 영상뿐만 아니라, 이러한 이상 점수와 전통적인 검사 지표 $r$을 결합하여 이루어진다:
$$p = \text{MLP}(\text{concat}(s, r))$$
손실 함수 $\mathcal{L} = \mathcal{L}_{diag} + \lambda\mathcal{L}_{action}$에 의해 제어되는 이러한 공동 최적화는 모델이 진단에 정확하면서도 임상적으로 해석 가능한 특징을 학습하도록 강제한다. 이는 AI의 '추론'이 인간이 관찰 가능한 임상적 증거와 일치하도록 보장하는 영리한 방법이다.
Problem Definition & Constraints
본 논문이 다루는 핵심 과제는 기존 AI 보조 ADHD 진단 도구의 '블랙박스' 특성이다. 현재 임상가들은 주관적 평정 척도, 임상 인터뷰, 실행 기능 검사를 조합하여 진단한다. 기존 AI 모델들은 행동 데이터(시선이나 스켈레톤 움직임 등)를 분석하여 자동화를 시도했으나, 종종 불투명한 분류기로 작동한다. 이는 임상가들이 AI 진단 결정의 '이유'를 신뢰하거나 검증할 수 없다는 심각한 간극을 초래하며, 이는 임상 도입의 필수 요건이다.
The Dilemma and Constraints
저자들은 예측 정확도와 해석 가능성 사이의 고전적인 상충 관계(trade-off)에 직면한다.
- 데이터 병목 현상: '비정상적인' ADHD 행동(예: 꼼지락거림, 좌석 이동)에 대한 프레임 단위의 세밀한 주석(annotation)을 얻는 것은 비용이 많이 들고 시간이 소요된다. 이로 인해 저자들은 정확한 시간적 마커 대신 영상 단위의 레이블(예: "이 영상에는 ADHD 증상이 포함됨")만을 사용하는 '약지도 학습(weakly-supervised learning)'에 의존할 수밖에 없다.
- 노이즈 문제: 실행 기능 검사 중 피험자는 정상적이고 과제와 관련된 움직임을 많이 수행한다. 모델은 이를 병리적인 ADHD 관련 과잉 행동과 구별해야 한다.
- 통합의 장벽: 임상 검사 지표와 행동 특징을 단순히 결합하는 것은 두 데이터 소스가 서로 다른 '특징 공간(feature spaces)'에 존재하기 때문에 최적의 성능을 내지 못하는 경우가 많다. 저자들은 진단에 판별력이 있으면서도 행동 인식에 임상적으로 의미 있는 특징을 동시에 학습하도록 강제하는 협력적 프레임워크를 설계해야 했다.
Mathematical Formulation
저자들은 2단계 협력 추론 프레임워크를 정의하여 이 간극을 메운다.
-
ASP(Activity Segment Proposal): 세밀한 레이블의 부재를 해결하기 위해, 인코딩된 포즈 특징 $\mathbf{f} \in \mathbb{R}^{T \times d}$를 활성화 맵 $\alpha^{act} \in \mathbb{R}^{T \times 2}$로 투영한다. 표준 소프트맥스의 '파편화'를 피하기 위해 Gumbel-Softmax 트릭을 사용한다:
$$[\mathbf{P}_i^{Act}, \mathbf{P}_i^{NoAct}] = \text{Gumbel-Softmax}([a_{i,0}, a_{i,1}]), \forall i \in \{1, \dots, T\}$$
이는 학습 중 미분 가능한 그래디언트를 허용하면서도, 추론 시에는 '활동적' 세그먼트에 대한 결정론적 선택을 가능하게 한다. -
AAN(Anomaly Activation Network): 활동 세그먼트가 식별되면, 모델은 다음을 사용하여 이상 점수 $\alpha^{ano}$를 예측한다:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}_i^{Act} \odot \mathbf{f})$$
이는 관련 없는, 정적인, 혹은 정상적인 움직임을 효과적으로 마스킹하여, ADHD 관련 행동이 발생할 가능성이 높은 세그먼트에만 모델의 주의를 집중시킨다. -
Collaborative Optimization: 최종 진단 $p$는 집계된 이상 점수 $\mathbf{s}$와 임상 검사 지표 $\mathbf{r}$을 MLP 분류기에 결합하여 얻는다:
$$p = \text{MLP}(\text{concat}(\mathbf{s}, \mathbf{r}))$$
전체 시스템은 다중 작업 손실 함수 $\mathcal{L} = \mathcal{L}_{diag} + \lambda\mathcal{L}_{action}$를 사용하여 학습된다. 이는 모델이 진단 그래디언트가 행동 인식 모듈의 지도자 역할을 하는 공유 표현을 학습하게 하여, 감지된 이상 징후가 임상 진단과 실제로 관련이 있음을 보장한다.
Why This Approach
EDWAR 프레임워크는 '블랙박스' 모델을 투명한 약지도 학습 기반 행동 인식 시스템으로 대체함으로써 AI 보조 ADHD 진단에 대한 임상적 신뢰라는 핵심 과제를 해결한다.
The Inevitability of the Choice
저자들은 표준 CNN이나 기본 Transformer와 같은 기존 SOTA 방법론들이 진단 과정을 단일 분류 작업으로 처리하기 때문에 임상 환경에서 종종 실패한다는 점을 파악했다. ADHD 평가에서 '무엇(진단)'은 '왜(행동적 증거)' 없이는 불충분하다.
Comparative Superiority (The Benchmarking Logic):
* 구조적 이점: 전체 영상 클립을 단일 특징 벡터로 처리할 수 있는 표준 모델과 달리, EDWAR는 ASP(Activity Segment Proposal) 모듈을 활용한다. 이 모듈은 필터 역할을 하여 관련 과잉 행동을 정적이거나 관련 없는 움직임으로부터 분리한다. Gumbel-Softmax 트릭을 채택함으로써, 모델은 학습 중 미분 가능성을 유지하면서 추론 시에는 결정론적 선택을 가능하게 한다.
* 다중 모달 시너지(Multimodal Synergy): 이 프레임워크는 시각 정보에만 의존하지 않기 때문에 질적으로 우수하다. 행동 영상 분석과 구조화된 실행 기능 검사 지표 간의 '결합'을 수행한다. 최종 분류 계층에서 이상 점수 벡터 $\mathbf{s}$와 검사 지표 $\mathbf{r}$을 결합함으로써, 진단이 정량적 검사 결과와 정성적 행동 관찰 모두에 근거하도록 보장한다.
Mathematical Interpretation
문제의 핵심은 프레임 단위 레이블 없이 시퀀스 $X \in \mathbb{R}^{T \times D}$ 내의 이상 행동을 식별하는 것이다. 저자들은 다음을 통해 이를 해결한다:
- Feature Encoding: 특징 $\mathbf{f} = g_\theta(X)$를 추출하고 이를 $T \times 2$ 활성화 맵 $\alpha^{act}$로 투영하여 활동과 비활동을 구분한다.
- Stochastic Sampling: Gumbel-Softmax 분포를 사용하여 그래디언트 흐름을 허용하는 제안 $\mathbf{P}^{Act}_i$를 생성한다.
- Anomaly Localization: AAN(Anomaly Activation Network)을 통해 이상 활성화 $\alpha^{ano}$를 예측한다:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}^{Act} \odot \mathbf{f})$$
이는 관련 없는 움직임을 효과적으로 마스킹하여 모델이 활동이 감지된 세그먼트만 분석하도록 보장한다. - Joint Optimization: 최종 진단 확률 $p$는 집계된 이상 점수 $\mathbf{s}$와 검사 지표 $\mathbf{r}$의 결합에서 도출되며, 다중 작업 손실 함수를 통해 최적화된다:
$$\mathcal{L} = \mathcal{L}_{\text{diag}} + \lambda\mathcal{L}_{\text{action}}$$
Mathematical & Logical Mechanism
EDWAR 프레임워크는 객관적인 행동 분석과 전통적인 검사 지표를 결합하여 ADHD 진단이라는 임상적 과제를 해결한다. 핵심 동기는 '블랙박스' AI 모델에서 벗어나 높은 진단 정확도와 임상가가 검증할 수 있는 투명하고 시간적으로 국소화된 증거를 모두 제공하는 시스템으로 나아가는 것이다.
The Master Equation
이 프레임워크는 시간적 이상 활성화를 단일 영상 단위 확률로 집계하는 점수 함수에 의존한다. 클래스 $c$에 대한 이상 점수 $s_c$의 핵심 방정식은 다음과 같다:
$$s_c = \sigma \left( \frac{\sum_{i=1}^{T} P_i^{\text{Act}} \cdot \alpha_{i,c}^{\text{ano}}}{T_c} \right)$$
방정식의 구성 요소:
- $s_c$: 영상에서 유형 $c$의 이상 징후가 발생했을 예측 확률(0과 1 사이).
- $\sigma(\cdot)$: 시그모이드 활성화 함수.
- $\sum_{i=1}^{T}$: 영상 내 모든 $T$ 타임스탬프에 대한 합산.
- $P_i^{\text{Act}}$: 타임스탬프 $i$에서의 '활동 제안' 가중치. 이는 게이팅 메커니즘(gating mechanism) 또는 필터 역할을 한다. Gumbel-Softmax 샘플링에서 파생되며, 모델이 정적이거나 정상이라고 판단한 타임스탬프를 효과적으로 '끄는(0으로 설정하는)' 역할을 한다.
- $\alpha_{i,c}^{\text{ano}}$: 타임스탬프 $i$에서 클래스 $c$에 대한 이상 활성화 로짓.
- $T_c$: 학습 가능한 온도 파라미터.
Optimization Dynamics
모델은 다중 작업 목적 함수 $\mathcal{L} = \mathcal{L}_{\text{diag}} + \lambda\mathcal{L}_{\text{action}}$를 통해 학습한다.
최적화는 섬세한 균형 잡기 과정이다. $\mathcal{L}_{\text{diag}}$ 손실은 모델이 최종 임상 예측에서 정확하도록 강제하며, $\mathcal{L}_{\text{action}}$은 모델이 특정 행동을 정확하게 식별하도록 강제한다. 이들은 공동으로 학습되므로, 진단 그래디언트는 행동 인식 모듈의 '교사' 역할을 하여, 단순히 임의의 움직임이 아니라 ADHD와 실제로 관련이 있는 행동에 집중하도록 유도한다.
Results, Limitations & Conclusion
EDWAR 프레임워크는 임상 정신의학의 중요한 병목 현상인 ADHD 진단의 주관성과 정량적 투명성 부족 문제를 해결한다.
The Core Problem and Mathematical Solution
주석 병목 현상을 해결하기 위해 저자들은 약지도 행동 인식(Weakly-Supervised Action Recognition)을 채택한다. 프레임 단위 레이블을 요구하는 대신, 모델은 영상 단위의 진단 레이블만 필요로 한다. 이 프레임워크는 ASP(Activity Segment Proposal) 모듈을 사용하여 관련 없는 움직임을 필터링하고 이상 행동에 집중한다.
수학적으로, 모델은 스켈레톤 시퀀스 $X \in \mathbb{R}^{T \times D}$를 인코더 $g_\theta$를 통해 처리하여 특징 $\mathbf{f}$를 얻는다. 표준 소프트맥스의 한계를 피하기 위해 저자들은 Gumbel-Softmax 트릭을 사용한다:
$$[\mathbf{P}^{\text{Act}}_i, \mathbf{P}^{\text{NoAct}}_i] = \text{Gumbel-Softmax}([a_{i,0}, a_{i,1}]), \forall i \in \{1, \dots, T\}$$
이는 모델이 학습 중 미분 가능한 그래디언트를 유지하면서 추론 시 결정론적 선택을 가능하게 한다.
Experimental Validation
저자들은 전통적인 머신러닝 모델과 bi-LSTM, BERT와 같은 고급 시간 패턴 인식 모델을 포함한 광범위한 베이스라인과 아키텍처를 비교 테스트했다. 성공의 결정적 증거는 EDWAR가 달성한 94.3%의 정확도이며, 이는 BERT 기반 하이브리드 모달 베이스라인(91.6%)을 크게 상회하는 수치이다. 표 2의 절제 연구(ablation study)는 WSAR 모듈과 임상 검사 지표 간의 시너지가 혁신적임을 입증하는 '결정적 증거(smoking gun)' 역할을 한다.
Discussion and Future Perspectives
EDWAR 프레임워크는 중요한 진전이지만, 향후 연구를 위한 몇 가지 흥미로운 질문을 제기한다:
1. 교차 질환 일반화(Cross-Disorder Generalization): 이 프레임워크를 ADHD와 다른 신경발달 질환을 구별하도록 조정할 수 있는가?
2. 종단적 안정성(Longitudinal Stability): 모델이 몇 시간 동안의 교실 행동을 분석해야 한다면 어떤 성능을 보일 것인가?
3. 윤리 및 개인정보 보호: AI 보조 진단으로 나아감에 따라, 스켈레톤 추출 과정에서 개인정보를 최고 수준으로 보호하려면 어떻게 해야 하는가?
전반적으로, 이 프레임워크는 복잡한 임상 문제에 대해 설득력 있고 투명하며 매우 정확한 솔루션을 제공하며, 알고리즘적 결정과 인간이 읽을 수 있는 증거 사이의 간극을 효과적으로 메운다.
Isomorphisms with other fields
Analysis of the EDWAR Framework
EDWAR(Explainable ADHD Diagnostic Framework) 논문은 전통적인 임상 검사 지표와 자동화된 영상 기반 행동 분석을 결합하여 ADHD 진단 문제를 다룬다. 핵심 문제는 기존의 ADHD 진단용 AI 모델이 종종 '블랙박스'여서, 환자가 왜 ADHD로 분류되는지에 대한 설명 없이 분류 결과만 제공한다는 점이다. 또한, 임상 데이터는 종종 노이즈가 많아 모델을 혼란스럽게 할 수 있는 '정상' 행동의 긴 기간을 포함한다.
Background Knowledge
이 논문을 이해하기 위해서는 다음 사항에 익숙해야 한다:
* 약지도 학습(Weakly-Supervised Learning): 프레임 단위 주석 대신 높은 수준의 레이블(예: "이 영상에는 ADHD 관련 행동이 포함됨")만 사용하여 모델을 학습시키는 머신러닝 패러다임.
* Gumbel-Softmax: 범주형 분포에서 샘플링하면서도 프로세스를 미분 가능하게 유지하는 수학적 트릭으로, 역전파를 통한 신경망 학습에 필수적이다.
* 스켈레톤 시퀀스(Skeletal Sequences): 원시 영상 픽셀을 처리하는 대신, 저자들은 2차원 관절 좌표(스켈레톤)를 추출하여 움직임 패턴에만 집중함으로써 계산 복잡성과 개인정보 보호 문제를 줄인다.
The Structural Skeleton
핵심 논리는 확률적 게이팅 함수를 사용하여 고차원 행동 시퀀스에서 시간적 노이즈를 필터링하고, 이를 진단 확률 공간으로 매핑하는 다중 모달 융합 메커니즘이다.
Distant Cousins
- 대상 분야: 양적 금융(고빈도 거래)
- 연결성: 금융에서 트레이더는 '시장 노이즈'(무작위 가격 변동)와 '알파 신호'(거래 기회를 나타내는 의미 있는 추세)를 구별해야 한다. 이는 '정상적인 꼼지락거림'과 '병리적 ADHD 증상'을 구별하는 EDWAR의 문제와 거울상 관계이다. 두 시스템 모두 연속적인 데이터 스트림에서 의미 있는 시간적 세그먼트를 분리하기 위해 게이팅 메커니즘을 사용한다.
- 대상 분야: 구조 공학(지진 모니터링)
- 연결성: 엔지니어는 진동 데이터를 분석하여 건물의 구조적 건전성을 모니터링한다. 이들은 구조적 손상을 나타내는 특정 '이상 징후'를 식별하기 위해 주변 진동(바람, 교통)을 필터링해야 한다. EDWAR의 AAN(Anomaly Activation Network)은 정확히 구조 센서처럼 작동하여, 정상 범주를 벗어나는 인간 움직임의 특정 '스트레스' 패턴을 식별한다.
The "What If" Scenario
만약 양적 금융 연구자가 EDWAR 방정식을 '차용'한다면, 그들은 "약지도 시장 이상 탐지기(Weakly-Supervised Market Anomaly Detector)"를 개발할 가능성이 높다. 레이블이 지정된 '붕괴' 데이터로 모델을 학습시키는 대신, 수년간의 원시 시장 데이터를 모델에 입력하고 Gumbel-Softmax 게이팅 메커니즘이 시장 불안정의 '구조적 징후'를 자동으로 발견하도록 할 수 있다. 이는 모델이 일일 거래의 노이즈 속에 숨겨진 시장 실패의 미묘한 전조를 분리하도록 학습하기 때문에, 플래시 크래시나 유동성 위기가 완전히 나타나기 전에 감지할 수 있게 할 것이다.
Contribution to the Universal Library of Structures
이 논문은 '해석 가능성'이라는 과제가 의학에만 국한된 것이 아니라 신호 대 노이즈 분리(signal-to-noise isolation)라는 보편적인 문제임을 보여준다. 신경발달 장애를 진단하든 시장 붕괴를 예측하든, 근본적인 수학적 요구 사항은 동일하다. 즉, 혼란스럽고 연속적인 사건의 흐름에서 의미 있는 의도를 추출할 수 있는 강력하고 미분 가능한 필터가 필요하다는 것이다.