MICCAI

Explainable ADHD Diagnostic Framework Using Weakly-Supervised Action Recognition

Область исследования Medical Image Analysis

Article Type Research analysis

Authors Fan et al.

Original Paper Published 2026

ISOM Posted 2026-03-12 19:39 UTC

Read Time 1M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

Background & Academic Lineage

Проблема диагностики синдрома дефицита внимания и гиперактивности (СДВГ) исторически опиралась на субъективные клинические интервью и стандартизированные оценочные шкалы. Эти методы подвержены предвзятости со стороны клинициста и лишены объективных количественных метрик для оценки гиперактивного поведения. Хотя ранние подходы в области ИИ пытались автоматизировать этот процесс с использованием структурированных записей или нейрофизиологических данных (например, ЭЭГ/МРТ), недавние достижения в области компьютерного зрения сместили фокус на анализ поведенческих фенотипов. Однако «болевой точкой», обусловившей разработку EDWAR, является black-box nature существующих моделей глубокого обучения. Предыдущие системы могли предсказывать диагноз с высокой точностью, но они не предоставляли обоснования — они не могли указать на конкретные моменты в видео, где у пациента проявлялись симптомы СДВГ, что делало их непригодными для клинической интеграции.

Intuitive Domain Terms

Weakly-Supervised Learning: Представьте, что вы учите студента идентифицировать определенную птицу на видео, просто сообщая ему: «в этом видео есть птица», вместо того чтобы указывать на точную секунду её появления. Модель должна самостоятельно определить «где» это происходит.
Skeletal Sequences: Это можно представить как анимацию «человечка из палочек», извлеченную из видео. Фокусируясь только на суставах (плечи, локти, колени), модель игнорирует отвлекающие детали фона, такие как освещение в комнате или мебель, концентрируясь исключительно на движениях пациента.
Gumbel-Softmax: В стандартном ИИ модель может быть «неуверенной» и выдавать нечеткое смешение вероятностей. Этот инструмент действует как честный подброс монеты, который является «differentiable», позволяя модели принимать твердое, ясное решение (например, «это движение»), сохраняя при этом возможность обучаться на своих ошибках в процессе тренировки.
Anomaly Activation: Это своего рода «тепловая карта» поведения. Это способ модели выделить конкретные временные метки в видео, где движение пациента отклоняется от нормы, фактически заявляя: «Это именно тот момент, когда произошла гиперактивность».

Notation Table

Обозначение	Описание
$X \in \mathbb{R}^{T \times D}$	Входная скелетная последовательность с $T$ временными шагами и $D$ размерностями признаков.
$f \in \mathbb{R}^{T \times d}$	Кодированные признаки позы, извлеченные энкодером $g_\theta$.
$\alpha^{act} \in \mathbb{R}^{T \times 2}$	Карта активации, представляющая наличие/отсутствие активности на каждом временном шаге.
$\mathbf{P}^{Act}_i$	Вероятностное предложение для активности на шаге $i$ с использованием Gumbel-Softmax.
$\alpha^{ano} \in \mathbb{R}^{T \times C}$	Матрица аномальной активации для $C$ различных типов гиперактивного поведения.
$s \in \mathbb{R}^{C}$	Агрегированная оценка аномалий на уровне видео для каждой категории поведения.
$r \in \mathbb{R}^{M}$	Стандартизированные метрики тестов исполнительных функций (например, результаты теста Струпа).
$p$	Итоговая вероятность диагноза СДВГ, выданная классификатором.

Mathematical Interpretation

Авторы решают проблему интерпретируемости путем создания двухэтапной совместной структуры. Сначала они используют модуль Activity Segment Proposal (ASP) для фильтрации статических или нерелевантных движений. Они определяют карту активации $\alpha^{act}$ и используют трюк Gumbel-Softmax для генерации жестких предложений $\mathbf{P}^{Act}_i$, которые позволяют модели фокусироваться только на активных сегментах.

Ключевой инновацией является Anomaly Activation Network (AAN), определяемая как:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}^{Act} \odot f)$$
Это уравнение маскирует входные признаки $f$ с помощью предложений активности $\mathbf{P}^{Act}$, гарантируя, что сеть анализирует только значимые движения. Затем модель агрегирует их в оценку $s_c$ с использованием сигмоидальной функции $\sigma(\cdot)$ и обучаемого температурного параметра $\mathcal{T}_c$ для идентификации специфических аномалий. Наконец, диагноз СДВГ основывается не только на видео, но и на конкатенации этих оценок аномалий и традиционных метрик тестов $r$:
$$p = \text{MLP}(\text{concat}(s, r))$$
Эта совместная оптимизация, управляемая функцией потерь $\mathcal{L} = \mathcal{L}_{diag} + \lambda\mathcal{L}_{action}$, заставляет модель изучать признаки, которые одновременно точны для диагностики и клинически интерпретируемы. Это эффективный способ обеспечить соответствие «рассуждений» ИИ наблюдаемым клиническим доказательствам.

Problem Definition & Constraints

Основная проблема, рассматриваемая в данной статье, заключается в «черном ящике» существующих инструментов диагностики СДВГ с поддержкой ИИ. В настоящее время клиницисты полагаются на комбинацию субъективных оценочных шкал, клинических интервью и тестов исполнительных функций. Хотя предыдущие модели ИИ пытались автоматизировать это путем анализа поведенческих данных (таких как взгляд или движение скелета), они часто функционируют как непрозрачные классификаторы. Это создает значительный разрыв: клиницисты не могут доверять или верифицировать «почему» за диагностическим решением ИИ, что является критическим требованием для клинического внедрения.

The Dilemma and Constraints

Авторы сталкиваются с классическим компромиссом между predictive accuracy и interpretability.
- The Data Bottleneck: Получение детализированных, покадровых аннотаций «аномального» поведения при СДВГ (например, ерзание, смещение на стуле) является непомерно дорогим и трудоемким процессом. Это вынуждает авторов полагаться на «слабоконтролируемое» (weakly-supervised) обучение, где доступ имеются только к меткам на уровне видео (например, «это видео содержит симптомы СДВГ»), а не к точным временным маркерам.
- The Noise Problem: Во время тестов исполнительных функций субъекты совершают много нормальных, связанных с задачей движений. Модель должна отличать их от патологического гиперактивного поведения, связанного с СДВГ.
- The Integration Wall: Простая конкатенация метрик клинических тестов с поведенческими признаками часто приводит к субоптимальной производительности, поскольку два источника данных существуют в разных «пространствах признаков». Авторам пришлось разработать совместную структуру, которая заставляет модель изучать признаки, одновременно дискриминативные для диагностики и клинически значимые для распознавания действий.

Mathematical Formulation

Авторы преодолевают этот разрыв, определяя двухэтапную структуру совместного рассуждения.

Activity Segment Proposal (ASP): Чтобы справиться с отсутствием детализированных меток, они проецируют кодированные признаки позы $\mathbf{f} \in \mathbb{R}^{T \times d}$ в карту активации $\alpha^{act} \in \mathbb{R}^{T \times 2}$. Чтобы избежать «фрагментации» стандартного softmax, они используют трюк Gumbel-Softmax:
$$[\mathbf{P}_i^{Act}, \mathbf{P}_i^{NoAct}] = \text{Gumbel-Softmax}([a_{i,0}, a_{i,1}]), \forall i \in \{1, \dots, T\}$$
Это позволяет использовать дифференцируемые градиенты во время обучения, обеспечивая при этом жесткий, детерминированный выбор «активных» сегментов во время вывода (inference).
Anomaly Activation Network (AAN): После идентификации активных сегментов модель предсказывает оценки аномалий $\alpha^{ano}$ с помощью:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}_i^{Act} \odot \mathbf{f})$$
Это эффективно маскирует нерелевантные, статические или нормальные движения, фокусируя внимание модели только на сегментах, где вероятно возникновение поведения, связанного с СДВГ.
Collaborative Optimization: Итоговый диагноз $p$ получается путем конкатенации агрегированных оценок аномалий $\mathbf{s}$ с метриками клинических тестов $\mathbf{r}$ в классификаторе MLP:
$$p = \text{MLP}(\text{concat}(\mathbf{s}, \mathbf{r}))$$
Вся система обучается с использованием многозадачной функции потерь $\mathcal{L} = \mathcal{L}_{diag} + \lambda\mathcal{L}_{action}$. Это заставляет модель изучать общее представление, где диагностический градиент выступает в качестве супервизора для модуля распознавания действий, гарантируя, что обнаруженные аномалии действительно релевантны клиническому диагнозу.

Why This Approach

Структура EDWAR решает критическую проблему клинического доверия к диагностике СДВГ с помощью ИИ, заменяя модели «черного ящика» прозрачной, слабоконтролируемой системой распознавания действий.

The Inevitability of the Choice

Авторы установили, что традиционные методы SOTA — такие как стандартные CNN или базовые трансформеры — часто терпят неудачу в клинических условиях, поскольку они рассматривают диагностический процесс как монолитную задачу классификации. При оценке СДВГ «что» (диагноз) недостаточно без «почему» (поведенческие доказательства).

Comparative Superiority (The Benchmarking Logic):
* Structural Advantage: В отличие от стандартных моделей, которые могут обрабатывать весь видеоклип как единый вектор признаков, EDWAR использует модуль Activity Segment Proposal (ASP). Этот модуль действует как фильтр, отделяя релевантное гиперактивное поведение от статических или нерелевантных движений. Используя трюк Gumbel-Softmax, модель сохраняет дифференцируемость во время обучения, обеспечивая при этом жесткий, детерминированный выбор во время вывода.
* Multimodal Synergy: Структура качественно превосходит аналоги, поскольку не полагается только на зрение. Она осуществляет «союз» между поведенческим видеоанализом и структурированными метриками тестов исполнительных функций. Конкатенируя вектор оценок аномалий $\mathbf{s}$ с метриками тестов $\mathbf{r}$ на конечном слое классификации, модель гарантирует, что диагноз основан как на количественных результатах тестов, так и на качественных поведенческих наблюдениях.

Mathematical Interpretation

Суть проблемы заключается в идентификации аномальных действий в последовательности $X \in \mathbb{R}^{T \times D}$ без покадровых меток. Авторы решают это путем:

Feature Encoding: Извлечение признаков $\mathbf{f} = g_\theta(X)$ и их проецирование в карту активации $T \times 2$ $\alpha^{act}$ для различения активности и отсутствия активности.
Stochastic Sampling: Использование распределения Gumbel-Softmax для генерации предложений $\mathbf{P}^{Act}_i$, которые позволяют потоку градиентов проходить через систему.
Anomaly Localization: Прогнозирование аномальных активаций $\alpha^{ano}$ через Anomaly Activation Network (AAN):
$$\alpha^{ano} = \text{AAN}(\mathbf{P}^{Act} \odot \mathbf{f})$$
Это эффективно маскирует нерелевантные движения, гарантируя, что модель анализирует только те сегменты, где обнаружена активность.
Joint Optimization: Итоговая диагностическая вероятность $p$ выводится из конкатенации агрегированных оценок аномалий $\mathbf{s}$ и метрик тестов $\mathbf{r}$, оптимизированных через многозадачную функцию потерь:
$$\mathcal{L} = \mathcal{L}_{\text{diag}} + \lambda\mathcal{L}_{\text{action}}$$

Mathematical & Logical Mechanism

Структура EDWAR решает клиническую задачу диагностики СДВГ путем объединения объективного поведенческого анализа с традиционными метриками тестов. Основная мотивация заключается в переходе от моделей ИИ типа «черный ящик» к системе, которая обеспечивает как высокую диагностическую точность, так и прозрачные, временно локализованные доказательства, которые могут быть верифицированы клиницистами.

The Master Equation

Структура опирается на функцию оценки, которая агрегирует временные аномальные активации в единую вероятность на уровне видео. Основное уравнение для оценки аномалии $s_c$ класса $c$ имеет вид:

$$s_c = \sigma \left( \frac{\sum_{i=1}^{T} P_i^{\text{Act}} \cdot \alpha_{i,c}^{\text{ano}}}{T_c} \right)$$

Разбор уравнения:

$s_c$: Предсказанная вероятность (от 0 до 1) того, что аномалия типа $c$ произошла в видео.
$\sigma(\cdot)$: Сигмоидальная функция активации.
$\sum_{i=1}^{T}$: Суммирование по всем $T$ временным шагам в видео.
$P_i^{\text{Act}}$: Вес «предложения активности» на шаге $i$. Это действует как механизм стробирования или фильтр; он выводится из сэмплирования Gumbel-Softmax, эффективно «выключая» (устанавливая в 0) временные шаги, которые модель считает статичными или нормальными.
$\alpha_{i,c}^{\text{ano}}$: Логит аномальной активации для класса $c$ на шаге $i$.
$T_c$: Обучаемый температурный параметр.

Optimization Dynamics

Модель обучается с помощью многозадачной целевой функции: $\mathcal{L} = \mathcal{L}_{\text{diag}} + \lambda\mathcal{L}_{\text{action}}$.

Оптимизация представляет собой тонкий баланс. Потери $\mathcal{L}_{\text{diag}}$ заставляют модель быть точной в итоговом клиническом прогнозе, в то время как $\mathcal{L}_{\text{action}}$ заставляет модель правильно идентифицировать специфические формы поведения. Поскольку они обучаются совместно, диагностические градиенты выступают в роли «учителя» для модуля распознавания действий, направляя его на фокусировку на поведении, которое действительно релевантно СДВГ, а не просто на случайных движениях.

Results, Limitations & Conclusion

Структура EDWAR решает критическое «узкое место» в клинической психиатрии: субъективность и отсутствие количественной прозрачности при диагностике СДВГ.

The Core Problem and Mathematical Solution

Чтобы решить проблему нехватки аннотаций, авторы используют Weakly-Supervised Action Recognition. Вместо того чтобы требовать покадровых меток, модели нужны только диагностические метки на уровне видео. Структура использует модуль Activity Segment Proposal (ASP) для фильтрации нерелевантных движений и фокусировки на аномальном поведении.

Математически модель обрабатывает скелетные последовательности $X \in \mathbb{R}^{T \times D}$ через энкодер $g_\theta$ для получения признаков $\mathbf{f}$. Чтобы избежать ограничений стандартного softmax, авторы используют трюк Gumbel-Softmax:
$$[\mathbf{P}^{\text{Act}}_i, \mathbf{P}^{\text{NoAct}}_i] = \text{Gumbel-Softmax}([a_{i,0}, a_{i,1}]), \forall i \in \{1, \dots, T\}$$
Это позволяет модели поддерживать дифференцируемые градиенты во время обучения, обеспечивая при этом жесткие, детерминированные решения во время вывода.

Experimental Validation

Авторы протестировали свою архитектуру на широком спектре базовых моделей, включая традиционные модели машинного обучения и продвинутые модели распознавания временных паттернов, такие как bi-LSTM и BERT. Убедительным доказательством их успеха является 94.3% точности, достигнутые EDWAR, что значительно превзошло гибридную модальную базовую модель на основе BERT (91.6%). Абляционное исследование в Таблице 2 служит «неопровержимым доказательством», подтверждающим, что синергия между модулем WSAR и метриками клинических тестов является трансформационной.

Discussion and Future Perspectives

Структура EDWAR является значительным шагом вперед, но она поднимает несколько захватывающих вопросов для будущих исследований:
1. Cross-Disorder Generalization: Может ли эта структура быть адаптирована для различения СДВГ и других нейроразвивающих состояний?
2. Longitudinal Stability: Как модель будет работать, если ей придется анализировать часы поведения в классе?
3. Ethical and Privacy Considerations: По мере перехода к диагностике с поддержкой ИИ, как обеспечить, чтобы процесс извлечения скелета обрабатывался с высочайшим уровнем конфиденциальности?

В целом, структура предоставляет убедительное, прозрачное и высокоточное решение сложной клинической проблемы, эффективно преодолевая разрыв между алгоритмическими решениями и доказательствами, читаемыми человеком.