MICCAI

Weakly-Supervised Action Recognition का उपयोग करते हुए Explainable ADHD Diagnostic Framework

अनुसंधान क्षेत्र Medical Image Analysis

Article Type Research analysis

Authors Fan et al.

Original Paper Published 2026

ISOM Posted 2026-03-12 19:39 UTC

Read Time 1M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

पृष्ठभूमि और अकादमिक वंशावली

Attention Deficit Hyperactivity Disorder (ADHD) के निदान की समस्या ऐतिहासिक रूप से व्यक्तिपरक नैदानिक साक्षात्कारों (clinical interviews) और मानकीकृत रेटिंग पैमानों पर निर्भर रही है। ये विधियाँ चिकित्सक-निर्भर पूर्वाग्रह (clinician-dependent bias) से ग्रस्त हैं और इनमें अतिसक्रिय व्यवहारों (hyperactive behaviors) के लिए वस्तुनिष्ठ, मात्रात्मक मेट्रिक्स का अभाव है। यद्यपि प्रारंभिक AI दृष्टिकोणों ने संरचित रिकॉर्ड या न्यूरोफिज़ियोलॉजिकल डेटा (जैसे EEG/MRI) का उपयोग करके इसे स्वचालित करने का प्रयास किया, लेकिन कंप्यूटर विजन में हालिया प्रगति ने व्यवहार संबंधी फेनोटाइप्स (behavioral phenotypes) के विश्लेषण की ओर रुख किया है। हालाँकि, वह "पेन पॉइंट" जिसने EDWAR के विकास को प्रेरित किया, वह मौजूदा डीप लर्निंग मॉडलों की black-box प्रकृति है। पिछली प्रणालियाँ उच्च सटीकता के साथ निदान की भविष्यवाणी तो कर सकती थीं, लेकिन वे "क्यों" का उत्तर देने में विफल रहीं—वे वीडियो में उन विशिष्ट क्षणों को इंगित नहीं कर सकीं जहाँ रोगी ने ADHD-संबंधी लक्षण प्रदर्शित किए, जिससे वे नैदानिक एकीकरण (clinical integration) के लिए अविश्वसनीय हो गईं।

सहज डोमेन शब्द (Intuitive Domain Terms)

Weakly-Supervised Learning: कल्पना करें कि आप एक छात्र को वीडियो में एक विशिष्ट पक्षी की पहचान करना सिखा रहे हैं, केवल यह बताकर कि "इस वीडियो में पक्षी है," न कि उस सटीक सेकंड को इंगित करके जहाँ वह दिखाई देता है। मॉडल को स्वयं ही "कहाँ" का पता लगाना होता है।
Skeletal Sequences: इसे वीडियो से निकाली गई "स्टिक-फिगर" एनीमेशन के रूप में सोचें। केवल जोड़ों (कंधों, कोहनियों, घुटनों) पर ध्यान केंद्रित करके, मॉडल कमरे की रोशनी या फर्नीचर जैसे विचलित करने वाले पृष्ठभूमि विवरणों को अनदेखा कर देता है, और पूरी तरह से रोगी की गति पर ध्यान केंद्रित करता है।
Gumbel-Softmax: मानक AI में, एक मॉडल "अनिश्चित" हो सकता है और संभावनाओं का एक अस्पष्ट मिश्रण आउटपुट कर सकता है। यह टूल एक निष्पक्ष सिक्के के उछाल की तरह कार्य करता है जो "differentiable" है, जिससे मॉडल एक दृढ़, स्पष्ट निर्णय लेने में सक्षम होता है (जैसे, "यह एक गति है") जबकि प्रशिक्षण के दौरान अपनी गलतियों से सीखने में भी सक्षम रहता है।
Anomaly Activation: इसे व्यवहार के लिए एक "हीट मैप" के रूप में सोचें। यह वीडियो में उन विशिष्ट टाइमस्टैम्प को उजागर करने का मॉडल का तरीका है जहाँ रोगी की गति सामान्य से विचलित होती है, जो प्रभावी रूप से यह कहता है, "यह वही सटीक क्षण है जब अतिसक्रियता हुई।"

नोटेशन तालिका

नोटेशन	विवरण
$X \in \mathbb{R}^{T \times D}$	$T$ टाइमस्टैम्प और $D$ फीचर आयामों के साथ इनपुट स्केलेटल अनुक्रम।
$f \in \mathbb{R}^{T \times d}$	एनकोडर $g_\theta$ द्वारा निकाले गए एन्कोडेड पोज़ फीचर्स।
$\alpha^{act} \in \mathbb{R}^{T \times 2}$	प्रत्येक टाइमस्टैम्प पर गतिविधि की उपस्थिति/अनुपस्थिति का प्रतिनिधित्व करने वाला एक्टिवेशन मैप।
$\mathbf{P}^{Act}_i$	Gumbel-Softmax का उपयोग करके टाइमस्टैम्प $i$ पर गतिविधि के लिए संभावना प्रस्ताव।
$\alpha^{ano} \in \mathbb{R}^{T \times C}$	$C$ विभिन्न प्रकार के अतिसक्रिय व्यवहारों के लिए विसंगति एक्टिवेशन मैट्रिक्स।
$s \in \mathbb{R}^{C}$	प्रत्येक व्यवहार श्रेणी के लिए एकत्रित वीडियो-स्तरीय विसंगति स्कोर।
$r \in \mathbb{R}^{M}$	मानकीकृत कार्यकारी कार्य परीक्षण मेट्रिक्स (जैसे, Stroop परीक्षण परिणाम)।
$p$	क्लासिफायर द्वारा आउटपुट की गई अंतिम ADHD निदान संभावना।

गणितीय व्याख्या

लेखक दो-चरणीय सहयोगी ढांचे (two-stage collaborative framework) का निर्माण करके व्याख्यात्मकता (interpretability) की समस्या को हल करते हैं। सबसे पहले, वे स्थिर या अप्रासंगिक गति को फ़िल्टर करने के लिए एक Activity Segment Proposal (ASP) मॉड्यूल का उपयोग करते हैं। वे एक्टिवेशन मैप $\alpha^{act}$ को परिभाषित करते हैं और Gumbel-Softmax ट्रिक का उपयोग करके हार्ड प्रपोज़ल $\mathbf{P}^{Act}_i$ उत्पन्न करते हैं जो मॉडल को केवल सक्रिय खंडों पर ध्यान केंद्रित करने की अनुमति देते हैं।

मुख्य नवाचार Anomaly Activation Network (AAN) है, जिसे इस प्रकार परिभाषित किया गया है:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}^{Act} \odot f)$$
यह समीकरण इनपुट फीचर्स $f$ को गतिविधि प्रस्तावों $\mathbf{P}^{Act}$ के साथ मास्क करता है, यह सुनिश्चित करते हुए कि नेटवर्क केवल सार्थक गतिविधियों का विश्लेषण करता है। इसके बाद मॉडल इन्हें एक सिग्मॉइड फ़ंक्शन $\sigma(\cdot)$ और एक सीखने योग्य तापमान पैरामीटर $\mathcal{T}_c$ का उपयोग करके स्कोर $s_c$ में एकत्रित करता है ताकि विशिष्ट विसंगतियों की पहचान की जा सके। अंत में, ADHD निदान केवल वीडियो पर ही नहीं, बल्कि इन विसंगति स्कोर और पारंपरिक परीक्षण मेट्रिक्स $r$ के संयोजन पर आधारित होता है:
$$p = \text{MLP}(\text{concat}(s, r))$$
यह संयुक्त अनुकूलन, जो लॉस फ़ंक्शन $\mathcal{L} = \mathcal{L}_{diag} + \lambda\mathcal{L}_{action}$ द्वारा शासित होता है, मॉडल को ऐसे फीचर्स सीखने के लिए मजबूर करता है जो निदान के लिए सटीक और नैदानिक रूप से व्याख्या योग्य दोनों हों। यह सुनिश्चित करने का एक चतुर तरीका है कि AI का "तर्क" मानव-अवलोकनीय नैदानिक साक्ष्यों के साथ संरेखित हो।

समस्या परिभाषा और बाधाएं

इस पेपर द्वारा संबोधित मुख्य चुनौती मौजूदा AI-सहायता प्राप्त ADHD नैदानिक उपकरणों की "black-box" प्रकृति है। वर्तमान में, चिकित्सक व्यक्तिपरक रेटिंग पैमानों, नैदानिक साक्षात्कारों और कार्यकारी कार्य परीक्षणों के संयोजन पर निर्भर हैं। यद्यपि पिछले AI मॉडलों ने व्यवहार संबंधी डेटा (जैसे टकटकी या कंकाल की गति) का विश्लेषण करके इसे स्वचालित करने का प्रयास किया है, वे अक्सर अपारदर्शी क्लासिफायर के रूप में कार्य करते हैं। यह एक महत्वपूर्ण अंतर पैदा करता है: चिकित्सक AI के नैदानिक निर्णय के पीछे के "क्यों" पर भरोसा या सत्यापन नहीं कर सकते, जो नैदानिक अपनाने के लिए एक महत्वपूर्ण आवश्यकता है।

दुविधा और बाधाएं

लेखक पूर्वानुमानित सटीकता (predictive accuracy) और व्याख्यात्मकता (interpretability) के बीच एक क्लासिक ट्रेड-ऑफ का सामना करते हैं।
- डेटा बाधा: "असामान्य" ADHD व्यवहारों (जैसे, हिलना-डुलना, सीट बदलना) के सूक्ष्म, फ्रेम-दर-फ्रेम एनोटेशन प्राप्त करना अत्यधिक महंगा और समय लेने वाला है। यह लेखकों को "weakly-supervised" लर्निंग पर निर्भर रहने के लिए मजबूर करता है, जहाँ उनके पास सटीक अस्थायी मार्करों के बजाय केवल वीडियो-स्तरीय लेबल (जैसे, "इस वीडियो में ADHD लक्षण हैं") तक पहुंच होती है।
- शोर की समस्या: कार्यकारी कार्य परीक्षणों के दौरान, विषय कई सामान्य, कार्य-संबंधी गतिविधियाँ करते हैं। मॉडल को इन्हें रोग संबंधी, ADHD-संबंधी अतिसक्रिय व्यवहारों से अलग करना होगा।
- एकीकरण की दीवार: नैदानिक परीक्षण मेट्रिक्स को व्यवहार संबंधी फीचर्स के साथ केवल संयोजित करने से अक्सर उप-इष्टतम प्रदर्शन होता है क्योंकि दो डेटा स्रोत अलग-अलग "फीचर स्पेस" में मौजूद होते हैं। लेखकों को एक सहयोगी ढांचा तैयार करना पड़ा जो मॉडल को ऐसे फीचर्स सीखने के लिए मजबूर करे जो निदान के लिए विभेदक (discriminative) और क्रिया पहचान के लिए नैदानिक रूप से सार्थक हों।

गणितीय सूत्रीकरण

लेखक दो-चरणीय सहयोगी तर्क ढांचे को परिभाषित करके इस अंतर को पाटते हैं।

Activity Segment Proposal (ASP): सूक्ष्म लेबल की कमी को संभालने के लिए, वे एन्कोडेड पोज़ फीचर्स $\mathbf{f} \in \mathbb{R}^{T \times d}$ को एक एक्टिवेशन मैप $\alpha^{act} \in \mathbb{R}^{T \times 2}$ में प्रोजेक्ट करते हैं। मानक सॉफ्टमैक्स के "विखंडन" से बचने के लिए, वे Gumbel-Softmax ट्रिक का उपयोग करते हैं:
$$[\mathbf{P}_i^{Act}, \mathbf{P}_i^{NoAct}] = \text{Gumbel-Softmax}([a_{i,0}, a_{i,1}]), \forall i \in \{1, \dots, T\}$$
यह प्रशिक्षण के दौरान डिफरेंशियल ग्रेडिएंट्स की अनुमति देता है जबकि अनुमान के दौरान "सक्रिय" खंडों के कठोर, नियतात्मक चयन को सक्षम बनाता है।
Anomaly Activation Network (AAN): एक बार सक्रिय खंडों की पहचान हो जाने के बाद, मॉडल विसंगति स्कोर $\alpha^{ano}$ की भविष्यवाणी करता है:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}_i^{Act} \odot \mathbf{f})$$
यह प्रभावी रूप से अप्रासंगिक, स्थिर, या सामान्य गतिविधियों को मास्क करता है, मॉडल का ध्यान केवल उन खंडों पर केंद्रित करता है जहाँ ADHD-संबंधी व्यवहार होने की संभावना है।
सहयोगी अनुकूलन (Collaborative Optimization): अंतिम निदान $p$ एकत्रित विसंगति स्कोर $\mathbf{s}$ को नैदानिक परीक्षण मेट्रिक्स $\mathbf{r}$ के साथ एक MLP क्लासिफायर में संयोजित करके प्राप्त किया जाता है:
$$p = \text{MLP}(\text{concat}(\mathbf{s}, \mathbf{r}))$$
पूरी प्रणाली को मल्टी-टास्क लॉस फ़ंक्शन $\mathcal{L} = \mathcal{L}_{diag} + \lambda\mathcal{L}_{action}$ का उपयोग करके प्रशिक्षित किया जाता है। यह मॉडल को एक साझा प्रतिनिधित्व सीखने के लिए मजबूर करता है जहाँ नैदानिक ग्रेडिएंट क्रिया पहचान मॉड्यूल के लिए एक पर्यवेक्षक के रूप में कार्य करता है, यह सुनिश्चित करते हुए कि पता लगाई गई विसंगतियाँ वास्तव में नैदानिक निदान के लिए प्रासंगिक हैं।

यह दृष्टिकोण क्यों

EDWAR ढांचा "black-box" मॉडलों को एक पारदर्शी, weakly-supervised क्रिया पहचान प्रणाली के साथ प्रतिस्थापित करके AI-सहायता प्राप्त ADHD निदान में नैदानिक विश्वास की महत्वपूर्ण चुनौती को संबोधित करता है।

विकल्प की अनिवार्यता

लेखकों ने पहचाना कि पारंपरिक SOTA विधियाँ—जैसे मानक CNNs या बुनियादी ट्रांसफॉर्मर—अक्सर नैदानिक सेटिंग्स में विफल हो जाती हैं क्योंकि वे नैदानिक प्रक्रिया को एक अखंड वर्गीकरण कार्य के रूप में मानते हैं। ADHD मूल्यांकन में, "क्या" (निदान) "क्यों" (व्यवहार संबंधी साक्ष्य) के बिना अपर्याप्त है।

तुलनात्मक श्रेष्ठता (बेंचमार्किंग तर्क):
* संरचनात्मक लाभ: मानक मॉडलों के विपरीत जो पूरे वीडियो क्लिप को एक एकल फीचर वेक्टर के रूप में संसाधित कर सकते हैं, EDWAR एक Activity Segment Proposal (ASP) मॉड्यूल का उपयोग करता है। यह मॉड्यूल एक फ़िल्टर के रूप में कार्य करता है, जो प्रासंगिक अतिसक्रिय व्यवहारों को स्थिर या अप्रासंगिक गति से अलग करता है। Gumbel-Softmax ट्रिक का उपयोग करके, मॉडल प्रशिक्षण के दौरान डिफरेंशिएबिलिटी बनाए रखता है जबकि अनुमान के दौरान कठोर, नियतात्मक चयन को सक्षम करता है।
* मल्टीमॉडल तालमेल: यह ढांचा गुणात्मक रूप से बेहतर है क्योंकि यह केवल दृष्टि पर निर्भर नहीं है। यह व्यवहार संबंधी वीडियो विश्लेषण और संरचित कार्यकारी कार्य परीक्षण मेट्रिक्स के बीच एक "विवाह" करता है। अंतिम वर्गीकरण परत में विसंगति स्कोर वेक्टर $\mathbf{s}$ को परीक्षण मेट्रिक्स $\mathbf{r}$ के साथ संयोजित करके, मॉडल यह सुनिश्चित करता है कि निदान मात्रात्मक परीक्षण प्रदर्शन और गुणात्मक व्यवहार संबंधी अवलोकनों दोनों पर आधारित है।

गणितीय व्याख्या

समस्या का मूल फ्रेम-स्तरीय लेबल के बिना अनुक्रम $X \in \mathbb{R}^{T \times D}$ में विसंगति क्रियाओं की पहचान करना है। लेखक इसे इस प्रकार हल करते हैं:

फीचर एन्कोडिंग: फीचर्स $\mathbf{f} = g_\theta(X)$ निकालना और उन्हें गतिविधि और गैर-गतिविधि के बीच अंतर करने के लिए $T \times 2$ एक्टिवेशन मैप $\alpha^{act}$ में प्रोजेक्ट करना।
स्टोकेस्टिक सैंपलिंग: ग्रेडिएंट प्रवाह की अनुमति देने वाले प्रस्ताव $\mathbf{P}^{Act}_i$ उत्पन्न करने के लिए Gumbel-Softmax वितरण का उपयोग करना।
विसंगति स्थानीयकरण: Anomaly Activation Network (AAN) के माध्यम से विसंगति एक्टिवेशन $\alpha^{ano}$ की भविष्यवाणी करना:
$$\alpha^{ano} = \text{AAN}(\mathbf{P}^{Act} \odot \mathbf{f})$$
यह प्रभावी रूप से अप्रासंगिक गति को मास्क करता है, यह सुनिश्चित करते हुए कि मॉडल केवल उन खंडों का विश्लेषण करता है जहाँ गतिविधि का पता चलता है।
संयुक्त अनुकूलन: अंतिम नैदानिक संभावना $p$ एकत्रित विसंगति स्कोर $\mathbf{s}$ और परीक्षण मेट्रिक्स $\mathbf{r}$ के संयोजन से प्राप्त होती है, जिसे मल्टी-टास्क लॉस फ़ंक्शन के माध्यम से अनुकूलित किया जाता है:
$$\mathcal{L} = \mathcal{L}_{\text{diag}} + \lambda\mathcal{L}_{\text{action}}$$

गणितीय और तार्किक तंत्र

EDWAR ढांचा पारंपरिक परीक्षण मेट्रिक्स के साथ वस्तुनिष्ठ व्यवहार विश्लेषण को जोड़कर ADHD के निदान की नैदानिक चुनौती को संबोधित करता है। मुख्य प्रेरणा "black-box" AI मॉडलों से दूर हटकर एक ऐसी प्रणाली की ओर बढ़ना है जो उच्च नैदानिक सटीकता और पारदर्शी, अस्थायी रूप से स्थानीयकृत साक्ष्य दोनों प्रदान करती है जिसे चिकित्सक सत्यापित कर सकते हैं।

मास्टर समीकरण

यह ढांचा एक स्कोरिंग फ़ंक्शन पर निर्भर करता है जो अस्थायी विसंगति एक्टिवेशन को एक एकल वीडियो-स्तरीय संभावना में एकत्रित करता है। वर्ग $c$ के विसंगति स्कोर $s_c$ के लिए मुख्य समीकरण है:

$$s_c = \sigma \left( \frac{\sum_{i=1}^{T} P_i^{\text{Act}} \cdot \alpha_{i,c}^{\text{ano}}}{T_c} \right)$$

समीकरण का विश्लेषण:

$s_c$: वीडियो में प्रकार $c$ की विसंगति होने की अनुमानित संभावना (0 और 1 के बीच)।
$\sigma(\cdot)$: सिग्मॉइड एक्टिवेशन फ़ंक्शन।
$\sum_{i=1}^{T}$: वीडियो में सभी $T$ टाइमस्टैम्प पर योग।
$P_i^{\text{Act}}$: टाइमस्टैम्प $i$ पर "गतिविधि प्रस्ताव" भार। यह एक gating mechanism या फ़िल्टर के रूप में कार्य करता है; यह Gumbel-Softmax सैंपलिंग से प्राप्त होता है, जो प्रभावी रूप से उन टाइमस्टैम्प को "बंद" (0 पर सेट) कर देता है जिन्हें मॉडल स्थिर या सामान्य मानता है।
$\alpha_{i,c}^{\text{ano}}$: टाइमस्टैम्प $i$ पर वर्ग $c$ के लिए विसंगति एक्टिवेशन लॉगिट।
$T_c$: एक सीखने योग्य तापमान पैरामीटर।

अनुकूलन गतिशीलता

मॉडल एक मल्टी-टास्क उद्देश्य फ़ंक्शन के माध्यम से सीखता है: $\mathcal{L} = \mathcal{L}_{\text{diag}} + \lambda\mathcal{L}_{\text{action}}$।

अनुकूलन एक नाजुक संतुलन है। $\mathcal{L}_{\text{diag}}$ लॉस मॉडल को उसके अंतिम नैदानिक पूर्वानुमान में सटीक होने के लिए मजबूर करता है, जबकि $\mathcal{L}_{\text{action}}$ मॉडल को विशिष्ट व्यवहारों की सही पहचान करने के लिए मजबूर करता है। क्योंकि इन्हें संयुक्त रूप से प्रशिक्षित किया जाता है, नैदानिक ग्रेडिएंट क्रिया पहचान मॉड्यूल के लिए एक "शिक्षक" के रूप में कार्य करते हैं, जो इसे उन व्यवहारों पर ध्यान केंद्रित करने के लिए मार्गदर्शन करते हैं जो वास्तव में ADHD के लिए प्रासंगिक हैं, न कि केवल किसी यादृच्छिक गति पर।

परिणाम, सीमाएं और निष्कर्ष

EDWAR ढांचा नैदानिक मनोरोग विज्ञान में एक महत्वपूर्ण बाधा को संबोधित करता है: ADHD के निदान में व्यक्तिपरकता और मात्रात्मक पारदर्शिता की कमी।

मुख्य समस्या और गणितीय समाधान

एनोटेशन बाधा को हल करने के लिए, लेखक Weakly-Supervised Action Recognition का उपयोग करते हैं। फ्रेम-दर-फ्रेम लेबल की आवश्यकता के बजाय, मॉडल को केवल वीडियो-स्तरीय नैदानिक लेबल की आवश्यकता होती है। यह ढांचा अप्रासंगिक गति को फ़िल्टर करने और विसंगतिपूर्ण व्यवहारों पर ध्यान केंद्रित करने के लिए एक Activity Segment Proposal (ASP) मॉड्यूल का उपयोग करता है।

गणितीय रूप से, मॉडल फीचर्स $\mathbf{f}$ प्राप्त करने के लिए एन्कोडर $g_\theta$ के माध्यम से स्केलेटल अनुक्रम $X \in \mathbb{R}^{T \times D}$ को संसाधित करता है। मानक सॉफ्टमैक्स की सीमाओं से बचने के लिए, लेखक Gumbel-Softmax ट्रिक का उपयोग करते हैं:
$$[\mathbf{P}^{\text{Act}}_i, \mathbf{P}^{\text{NoAct}}_i] = \text{Gumbel-Softmax}([a_{i,0}, a_{i,1}]), \forall i \in \{1, \dots, T\}$$
यह मॉडल को प्रशिक्षण के दौरान डिफरेंशियल ग्रेडिएंट्स बनाए रखने की अनुमति देता है जबकि अनुमान के दौरान कठोर, नियतात्मक निर्णय लेने में सक्षम बनाता है।

प्रयोगात्मक सत्यापन

लेखकों ने पारंपरिक मशीन लर्निंग मॉडलों और उन्नत अस्थायी पैटर्न पहचान मॉडलों जैसे bi-LSTM और BERT सहित बेसलाइन्स की एक विस्तृत श्रृंखला के खिलाफ अपने आर्किटेक्चर का परीक्षण किया। उनकी सफलता का निश्चित प्रमाण EDWAR द्वारा प्राप्त 94.3% सटीकता है, जिसने BERT-आधारित हाइब्रिड-मोडल बेसलाइन (91.6%) को काफी पीछे छोड़ दिया। तालिका 2 में एब्लेशन अध्ययन "smoking gun" के रूप में कार्य करता है, जो यह साबित करता है कि WSAR मॉड्यूल और नैदानिक परीक्षण मेट्रिक्स के बीच तालमेल परिवर्तनकारी है।

चर्चा और भविष्य के दृष्टिकोण

EDWAR ढांचा एक महत्वपूर्ण कदम है, लेकिन यह भविष्य के शोध के लिए कई आकर्षक प्रश्न उठाता है:
1. Cross-Disorder Generalization: क्या इस ढांचे को ADHD और अन्य न्यूरोडेवलपमेंटल स्थितियों के बीच अंतर करने के लिए अनुकूलित किया जा सकता है?
2. Longitudinal Stability: यदि मॉडल को कक्षा के व्यवहार के घंटों का विश्लेषण करना पड़े तो वह कैसा प्रदर्शन करेगा?
3. नैतिक और गोपनीयता संबंधी विचार: जैसे-जैसे हम AI-सहायता प्राप्त निदान की ओर बढ़ रहे हैं, हम यह कैसे सुनिश्चित करें कि स्केलेटल निष्कर्षण प्रक्रिया को गोपनीयता के उच्चतम स्तर के साथ संभाला जाए?

कुल मिलाकर, यह ढांचा एक जटिल नैदानिक समस्या के लिए एक सम्मोहक, पारदर्शी और अत्यधिक सटीक समाधान प्रदान करता है, जो एल्गोरिथम निर्णयों और मानव-पठनीय साक्ष्यों के बीच के अंतर को प्रभावी ढंग से पाटता है।

अन्य क्षेत्रों के साथ समरूपता (Isomorphisms)

EDWAR ढांचे का विश्लेषण

EDWAR (Explainable ADHD Diagnostic Framework) पेपर पारंपरिक नैदानिक परीक्षण मेट्रिक्स को स्वचालित वीडियो-आधारित व्यवहार विश्लेषण के साथ जोड़कर ADHD के निदान की चुनौती को संबोधित करता है। मुख्य समस्या यह है कि ADHD निदान के लिए मौजूदा AI मॉडल अक्सर "black-box" होते हैं, जो यह बताए बिना वर्गीकरण प्रदान करते हैं कि किसी रोगी को ADHD के रूप में क्यों वर्गीकृत किया गया है। इसके अलावा, नैदानिक डेटा अक्सर शोर से भरा होता है, जिसमें "सामान्य" व्यवहार की लंबी अवधि होती है जो मॉडलों को भ्रमित कर सकती है।

पृष्ठभूमि ज्ञान

इस पेपर को समझने के लिए, निम्नलिखित से परिचित होना आवश्यक है:
* Weakly-Supervised Learning: एक मशीन लर्निंग प्रतिमान जहाँ मॉडल को फ्रेम-दर-फ्रेम एनोटेशन के बजाय केवल उच्च-स्तरीय लेबल (जैसे, "इस वीडियो में ADHD-संबंधी व्यवहार है") का उपयोग करके प्रशिक्षित किया जाता है।
* Gumbel-Softmax: एक गणितीय ट्रिक जो शोधकर्ताओं को एक श्रेणीबद्ध वितरण से नमूना लेने की अनुमति देती है जबकि प्रक्रिया को डिफरेंशियल रखती है, जो बैकप्रोपैगेशन के माध्यम से न्यूरल नेटवर्क को प्रशिक्षित करने के लिए आवश्यक है।
* Skeletal Sequences: कच्चे वीडियो पिक्सेल को संसाधित करने के बजाय, लेखक केवल गति पैटर्न पर ध्यान केंद्रित करने के लिए 2D संयुक्त निर्देशांक (कंकाल) निकालते हैं, जिससे कम्प्यूटेशनल जटिलता और गोपनीयता संबंधी चिंताएं कम हो जाती हैं।

संरचनात्मक कंकाल

मुख्य तर्क एक मल्टी-मोडल फ्यूजन तंत्र है जो उच्च-आयामी व्यवहार संबंधी अनुक्रमों से अस्थायी शोर को फ़िल्टर करने के लिए एक स्टोकेस्टिक गेटिंग फ़ंक्शन का उपयोग करता है, उन्हें एक नैदानिक संभावना स्थान में मैप करता है।