EN KR JP CN RU IN
WACV

milliMamba: ड्यूल mmWave रडार के साथ स्पेक्लर-अवेयर ह्यूमन पोज़ एस्टिमेशन, मल्टी-फ्रेम मैम्बा फ्यूजन द्वारा

Open PDF

पृष्ठभूमि और अकादमिक वंश

उत्पत्ति और अकादमिक वंश

ह्यूमन पोज़ एस्टिमेशन (HPE) की समस्या का एक लंबा और समृद्ध इतिहास रहा है, जिसमें पारंपरिक रूप से RGB कैमरों का उपयोग करने वाली विधियों का प्रभुत्व रहा है। हालाँकि, मिलीमीटर-वेव (mmWave) रडार का उपयोग करके ह्यूमन पोज़ एस्टिमेशन की यह विशिष्ट समस्या इन पारंपरिक कैमरा-आधारित प्रणालियों की अंतर्निहित सीमाओं को दूर करने की एक महत्वपूर्ण आवश्यकता से उत्पन्न हुई है।

ऐतिहासिक संदर्भ:
RGB कैमरे, उच्च-निष्ठा वाले दृश्य डेटा प्रदान करने में सक्षम होने के बावजूद, कई वास्तविक दुनिया के परिदृश्यों में महत्वपूर्ण कमियाँ प्रस्तुत करते हैं। वे स्वाभाविक रूप से प्रकाश की स्थिति के प्रति संवेदनशील होते हैं, अंधेरे, चकाचौंध या अवरुद्ध वातावरण में खराब प्रदर्शन करते हैं। इससे भी महत्वपूर्ण बात यह है कि वे व्यक्तियों की दृश्य रूप से पहचान योग्य छवियां कैप्चर करते हुए, काफी गोपनीयता संबंधी चिंताएं पैदा करते हैं। यह उन्हें घरों, अस्पतालों या बुजुर्गों की देखभाल सुविधाओं जैसे संवेदनशील क्षेत्रों में तैनाती के लिए अनुपयुक्त बनाता है जहाँ गोपनीयता सर्वोपरि है। गोपनीयता-संरक्षण और पर्यावरणीय रूप से मजबूत विकल्प की खोज ने अन्य संवेदन पद्धतियों में अनुसंधान को प्रेरित किया। मिलीमीटर-वेव रडार, जो रेडियो तरंगों को उत्सर्जित और पता लगाकर संचालित होता है, एक सम्मोहक समाधान प्रदान करता है। यह अंधेरे, धुएं और यहां तक ​​कि कुछ गैर-धातु वस्तुओं के माध्यम से "देख" सकता है, और महत्वपूर्ण रूप से, यह व्यक्तियों की दृश्य रूप से पहचान योग्य छवियां कैप्चर नहीं करता है, इस प्रकार गोपनीयता को संरक्षित करता है। सुविधाओं के इस अनूठे संयोजन ने mmWave रडार-आधारित HPE को एक विशिष्ट और तेजी से बढ़ते क्षेत्र के रूप में विकसित किया।

पिछली विधियों की मौलिक सीमा:
इसके सम्मोहक लाभों के बावजूद, mmWave रडार-आधारित HPE की अपनी महत्वपूर्ण "दर्द बिंदु" हैं जिनसे पिछली विधियाँ जूझती रही हैं। प्राथमिक सीमा रडार संवेदन की स्पेक्लर प्रकृति से उत्पन्न होती है। कैमरों के विपरीत जो सतह की बनावट और रंगों को कैप्चर करते हैं, रडार सिग्नल अक्सर चिकनी शारीरिक सतहों से विशिष्ट कोणों पर उछलते हैं, जैसे दर्पण से प्रकाश। इसका मतलब है कि केवल रडार सेंसर की ओर सीधे उन्मुख शरीर के अंग ही संकेतों को वापस परावर्तित करते हैं, जिससे विरल और अपूर्ण अवलोकन होते हैं। छोटी या तिरछी उन्मुख जोड़ियां, जैसे उंगलियां या कोहनी, अक्सर पूरी तरह से छूट जाती हैं। यह एकल-फ्रेम रडार इनपुट से पूर्ण-शरीर पोज़ का पुनर्निर्माण करना अविश्वसनीय रूप से चुनौतीपूर्ण बनाता है।

इसके अलावा, ट्रांसफार्मर आर्किटेक्चर पर आधारित पिछली विधियों को एक महत्वपूर्ण स्केलेबिलिटी समस्या का सामना करना पड़ा। रडार डेटा के लंबे अनुक्रमों को संसाधित करना, जो अस्थायी संदर्भ को कैप्चर करने और गायब जोड़ों को अनुमानित करने के लिए आवश्यक है, के परिणामस्वरूप बड़े टोकन वॉल्यूम और द्विघात कम्प्यूटेशनल जटिलता हुई। यह निषेधात्मक रूप से उच्च मेमोरी उपयोग और प्रशिक्षण समय में परिवर्तित हो गया, जिससे वास्तविक समय के अनुप्रयोग अव्यावहारिक हो गए। इसे कम करने के कुछ प्रयासों में "प्रारंभिक अस्थायी संलयन" शामिल था, जहां प्रसंस्करण पाइपलाइन में अस्थायी जानकारी बहुत जल्दी ढह गई थी। हालाँकि, इस समय से पहले संलयन ने पड़ोसी फ्रेम से प्रासंगिक संकेतों का लाभ उठाने के लिए मॉडल की क्षमता से समझौता किया, ताकि स्पेक्लर प्रतिबिंबों के कारण होने वाले उन मायावी गायब जोड़ों को प्रभावी ढंग से ठीक किया जा सके। **** इस पेपर के लेखकों का लक्ष्य एक ऐसे ढांचे को विकसित करके इन मौलिक सीमाओं को संबोधित करना था जो गायब जोड़ों का अनुमान लगाने की क्षमता का त्याग किए बिना लंबे अनुक्रमों में स्थानिक-अस्थायी निर्भरताओं को कुशलतापूर्वक मॉडल कर सके।

सहज डोमेन शब्द

  • मिलीमीटर-वेव (mmWave) रडार: एक चमगादड़ की कल्पना करें जो अंधेरे में अपने परिवेश को "देखने" के लिए बहुत तेज चीख (ध्वनि तरंगों) का उपयोग करता है। mmWave रडार कुछ ऐसा ही करता है, लेकिन ध्वनि के बजाय बहुत छोटी रेडियो तरंगों के साथ, जिससे यह प्रकाश या कैमरों की आवश्यकता के बिना वस्तुओं और यहां तक ​​कि सूक्ष्म आंदोलनों का पता लगा सकता है। यह सुपर-संवेदनशील, अदृश्य आंखों की तरह है जो किसी भी स्थिति में काम करती है, जो महसूस करने का एक गोपनीयता-अनुकूल तरीका प्रदान करती है।

  • ह्यूमन पोज़ एस्टिमेशन (HPE): एक कठपुतली कलाकार की कल्पना करें जो केवल कठपुतली के आंदोलनों को देखकर उसके शरीर से जुड़े सभी धागों का पता लगाने की कोशिश कर रहा है। HPE ऐसा ही है, लेकिन वास्तविक लोगों के लिए, उनके जोड़ों (जैसे कोहनी, घुटने और कंधे) के सटीक स्थानों को इंगित करने की कोशिश कर रहा है ताकि उनके आसन और आंदोलन को समझा जा सके।

  • स्पेक्लर रिफ्लेक्शन: एक पूरी तरह से चिकनी, चमकदार फर्श पर लेजर पॉइंटर चमकाने की कल्पना करें। प्रकाश एक स्पष्ट, अनुमानित दिशा में उछलता है, जैसे बिलियर्ड गेंद। यदि फर्श ऊबड़-खाबड़ है, तो प्रकाश हर जगह बिखर जाता है। रडार में स्पेक्लर रिफ्लेक्शन का मतलब है कि सिग्नल केवल तभी सेंसर पर वापस उछलता है जब शरीर का अंग पूरी तरह से कोणित हो, जिससे अन्य अंग "अदृश्य" या पता लगाने में मुश्किल हो जाते हैं, जैसे कि एक दर्पण प्रकाश को आपसे दूर कैसे परावर्तित करता है।

  • मैम्बा (स्टेट स्पेस मॉडल - SSMs): एक बहुत लंबी किताब पढ़ने की कोशिश करने की कल्पना करें। एक पारंपरिक विधि (जैसे ट्रांसफार्मर) हर बार जब आप एक नया शब्द देखते हैं तो उसके संदर्भ को समझने के लिए शुरुआत से हर एक शब्द को फिर से पढ़ना जैसा है - लंबी किताबों के लिए एक बहुत धीमी प्रक्रिया। मैम्बा मॉडल एक बहुत ही कुशल अल्पकालिक स्मृति की तरह है जो आपने अब तक जो पढ़ा है उसका जल्दी से सारांशित करता है, जिससे आप हर बार पूरी किताब को फिर से पढ़े बिना संदर्भ में नए शब्दों को समझ सकते हैं। यह लंबी कहानियों के लिए बहुत तेज है।

  • हीटमैप (रडार प्रोसेसिंग में): तापमान दिखाने वाले मौसम के नक्शे के बारे में सोचें। लाल क्षेत्र गर्म होते हैं, नीले क्षेत्र ठंडे होते हैं। रडार हीटमैप समान है, लेकिन तापमान के बजाय, यह दिखाता है कि रडार कहाँ कुछ "देख" रहा है। नक्शे पर उज्जवल धब्बे एक मजबूत रडार प्रतिबिंब का मतलब है, जो उस विशिष्ट स्थान (रेंज, कोण) पर शरीर के अंग होने की उच्च संभावना या एक निश्चित गति (डॉपलर) पर चलने का संकेत देता है।

संकेतन तालिका

संकेतन विवरण
$X$ दो ऑर्थोगोनली माउंटेड सेंसर से कच्चा कॉम्प्लेक्स-वैल्यू वाला mmWave रडार सिग्नल।
$T$ इनपुट अनुक्रम में लगातार फ्रेम की संख्या।
$L$ प्रशिक्षण के दौरान न्यूनतम किया जाने वाला कुल हानि फ़ंक्शन।
$L_{oks}$ ऑब्जेक्ट कीपॉइंट सिमिलरिटी (OKS) हानि, पोज़ भविष्यवाणी की अशुद्धियों को दंडित करती है।
$\lambda_{vel}$ वेग हानि के लिए भारित कारक।
$L_{vel}$ वेग हानि, अनुमानित संयुक्त आंदोलनों में अस्थायी असंगतियों को दंडित करती है।
$v_{f,j}$ फ्रेम $f$ में संयुक्त $j$ का अनुमानित वेग।
$\hat{v}_{f,j}$ फ्रेम $f$ में संयुक्त $j$ का ग्राउंड-ट्रुथ वेग।
$J$ अनुमानित मानव शरीर के जोड़ों की कुल संख्या।
$f$ फ्रेम सूचकांक।
$j$ संयुक्त सूचकांक।
$h_t$ समय चरण $t$ पर मैम्बा SSM का छिपा हुआ राज्य वेक्टर।
$u_t$ मैम्बा SSM के लिए इनपुट टोकन (फ़ीचर वेक्टर) समय चरण $t$ पर।
$y_t$ मैम्बा SSM से आउटपुट टोकन (फ़ीचर वेक्टर) समय चरण $t$ पर।
$A, B, C, D$ मैम्बा SSM के सीखने योग्य पैरामीटर मैट्रिक्स।
$q_{f,j}$ फ्रेम $f$ में संयुक्त $j$ के लिए सीखने योग्य कीपॉइंट क्वेरी।
$SA(\cdot)$ स्थानिक ध्यान फ़ंक्शन।
$TA(\cdot)$ अस्थायी ध्यान फ़ंक्शन।
$CrossAttn(\cdot)$ क्रॉस-अटेंशन फ़ंक्शन।
$Q, K, V$ ध्यान तंत्र में क्वेरी, कुंजी और मान मैट्रिक्स/वेक्टर।
$d$ ध्यान में कुंजी वैक्टर का आयाम, स्केलिंग के लिए उपयोग किया जाता है।
$F_h, F_v$ क्षैतिज और ऊर्ध्वाधर रडार दृश्यों से निकाले गए फ़ीचर मैप।
$F'$ CVMamba एन्कोडर से समृद्ध, संदर्भ-जागरूक फ़ीचर प्रतिनिधित्व।

समस्या परिभाषा और बाधाएँ

मुख्य समस्या सूत्रीकरण और दुविधा

यह पेपर जिस मुख्य समस्या को संबोधित करता है वह मिलीमीटर-वेव (mmWave) रडार संकेतों का उपयोग करके 2D ह्यूमन पोज़ एस्टिमेशन (HPE) है। यह पारंपरिक RGB कैमरा-आधारित विधियों की तुलना में विशेष रूप से एक चुनौतीपूर्ण कार्य है।

इनपुट/वर्तमान स्थिति: इस विश्लेषण का प्रारंभिक बिंदु कच्चा mmWave रडार सिग्नल है, विशेष रूप से दो ऑर्थोगोनली माउंटेड रडार सेंसर (क्षैतिज और ऊर्ध्वाधर दृश्य) से कॉम्प्लेक्स-वैल्यू वाले क्यूब्स $X \in C^{12 \times 128 \times 256}$। इन सिग्नलों को $T$ लगातार फ्रेम के अनुक्रम पर कैप्चर किया जाता है। इन सिग्नलों की वर्तमान स्थिति समस्याग्रस्त है:
* वे स्वाभाविक रूप से विरल हैं, जो स्पेक्लर रिफ्लेक्शन के कारण होते हैं, जिसका अर्थ है कि केवल वे शरीर की सतहें जो सीधे रिसीवर पर सिग्नल परावर्तित करती हैं, कैप्चर की जाती हैं। इससे अक्सर जोड़ गायब हो जाते हैं, विशेष रूप से छोटे या तिरछे उन्मुख।
* अंगों (जैसे कलाई और टखनों) से प्रतिबिंब अक्सर कमजोर होते हैं, जिससे उनका मज़बूती से पता लगाना मुश्किल हो जाता है।
* सिग्नल अस्थिरताओं से पीड़ित होते हैं जो अस्थायी स्थिरता को बाधित करते हैं, और उनकी सटीकता विषय के अभिविन्यास और सेंसर प्लेसमेंट के प्रति अत्यधिक संवेदनशील होती है।
* ट्रांसफार्मर पर आधारित पिछली विधियों को मल्टी-फ्रेम रडार इनपुट के उच्च आयामीता और बड़े टोकन वॉल्यूम से जूझना पड़ता है, जिससे कम्प्यूटेशनल बाधाएं और मेमोरी सीमाएं होती हैं। कई पिछली विधियाँ स्थानिक-अस्थायी निर्भरताओं को केवल आंशिक रूप से मॉडल करती हैं या प्रारंभिक अस्थायी संलयन पर निर्भर करती हैं, जो गायब जोड़ों को ठीक करने की मॉडल की क्षमता से समझौता करती है।

वांछित अंतिम बिंदु (आउटपुट/लक्ष्य स्थिति): अंतिम लक्ष्य इन चुनौतीपूर्ण डुअल-व्यू mmWave रडार सिग्नलों से अस्थायी रूप से सुसंगत 2D मानव पोज़ का उत्पादन करना है। इसका मतलब है:
* कई फ्रेम में मानव जोड़ों के 2D निर्देशांकों की सटीक भविष्यवाणी करना।
* उन गायब जोड़ों को मज़बूती से अनुमानित करना जो स्पेक्लर प्रतिबिंबों या कमजोर सिग्नलों द्वारा अस्पष्ट हैं।
* समग्र पोज़ सटीकता में सुधार करने और गति की चिकनाई सुनिश्चित करने के लिए पड़ोसी फ्रेम से प्रासंगिक संकेतों का लाभ उठाना।
* मौजूदा विधियों की तुलना में स्टेट-ऑफ-द-आर्ट प्रदर्शन (जैसे, औसत परिशुद्धता, AP में महत्वपूर्ण सुधार) प्राप्त करना, जबकि उचित कम्प्यूटेशनल जटिलता और मेमोरी फुटप्रिंट बनाए रखना।

लुप्त कड़ी या गणितीय अंतर: सटीक लुप्त कड़ी HPE पाइपलाइन के एन्कोडिंग (फ़ीचर निष्कर्षण) और डिकोडिंग (पोज़ भविष्यवाणी) दोनों चरणों में लंबी दूरी की स्थानिक-अस्थायी निर्भरताओं को संयुक्त रूप से मॉडल करने के लिए एक मजबूत और कुशल तंत्र है। इस तंत्र को गायब जोड़ों का अनुमान लगाने और अस्थायी स्थिरता सुनिश्चित करने के लिए डुअल-रडार दृश्यों और कई फ्रेम से जानकारी को प्रभावी ढंग से फ्यूज करना चाहिए, जबकि ट्रांसफार्मर जैसी पारंपरिक विधियों का उपयोग करके उच्च-आयामी, मल्टी-फ्रेम रडार डेटा को संसाधित करने से जुड़ी निषेधात्मक कम्प्यूटेशनल और मेमोरी लागतों को दूर करना चाहिए। पेपर का लक्ष्य मैम्बा-आधारित आर्किटेक्चर पेश करके इस अंतर को पाटना है जो अनुक्रम मॉडलिंग के लिए रैखिक जटिलता प्रदान करता है।

दर्दनाक समझौता या दुविधा: जिसने पिछले शोधकर्ताओं को फंसाया है, वह सटीकता के लिए समृद्ध स्थानिक-अस्थायी संदर्भ का लाभ उठाने और कम्प्यूटेशनल दक्षता बनाए रखने के बीच समझौता है।
* लापता जोड़ों का सटीक अनुमान लगाने और सुचारू गति सुनिश्चित करने के लिए, मॉडल को रडार फ्रेम के लंबे अनुक्रमों को संसाधित करने और स्थानिक और अस्थायी दोनों आयामों में जानकारी को एकीकृत करने की आवश्यकता होती है। इसके लिए लंबी दूरी की निर्भरताओं को मॉडल करने में सक्षम आर्किटेक्चर की आवश्यकता होती है।
* हालांकि, ट्रांसफार्मर जैसे पारंपरिक शक्तिशाली मॉडल, जो वैश्विक निर्भरताओं को पकड़ने में उत्कृष्ट हैं, अनुक्रम लंबाई के संबंध में द्विघात कम्प्यूटेशनल जटिलता से पीड़ित होते हैं। यह इनपुट फ्रेम की संख्या बढ़ने पर घातीय रूप से उच्च मेमोरी उपयोग और गणना समय की ओर ले जाता है।
* यह दुविधा अक्सर पिछली विधियों को या तो मजबूर करती है: (1) छोटे अनुक्रमों को संसाधित करना, इस प्रकार मजबूत पोज़ अनुमान के लिए आवश्यक मूल्यवान अस्थायी संदर्भ खोना, या (2) प्रसंस्करण पाइपलाइन में जल्दी अस्थायी आयाम को ढहना, जो स्पेक्लर प्रतिबिंबों के कारण गायब जोड़ों को ठीक करने के लिए मॉडल की क्षमता से गंभीर रूप से समझौता करता है। लेखकों ने स्पष्ट रूप से कहा है कि "एक पहलू में सुधार आमतौर पर दूसरे को तोड़ता है," और यह ठीक यहीं है: सटीकता के लिए उच्च अस्थायी संदर्भ अक्सर अनियंत्रित कम्प्यूटेशनल लागतों की ओर ले जाता है।

बाधाएँ और विफलता मोड

mmWave रडार-आधारित HPE की समस्या कई कठोर, यथार्थवादी बाधाओं के कारण अविश्वसनीय रूप से कठिन है:

भौतिक बाधाएँ:
* स्पेक्लर रिफ्लेक्शन: यह रडार की एक मौलिक सीमा है। सिग्नल दर्पण की तरह सतहों से परावर्तित होते हैं, जिससे विरल अवलोकन होते हैं जहाँ केवल कुछ शरीर के अंग दिखाई देते हैं, और अन्य (विशेष रूप से छोटे या तिरछे उन्मुख जोड़) पूरी तरह से गायब हो जाते हैं। यह एकल-फ्रेम इनपुट से पूर्ण-शरीर पोज़ पुनर्निर्माण को अत्यंत कठिन बनाता है।
* अंगों से कमजोर प्रतिबिंब: अंग और जोड़ जैसे कलाई और टखने अक्सर बहुत कमजोर रडार प्रतिबिंब उत्पन्न करते हैं, जिससे उनका सटीक रूप से पता लगाना और ट्रैक करना मुश्किल हो जाता है। यह डेटा की विरलता और अपूर्णता में योगदान देता है।
* विषय अभिविन्यास और सेंसर प्लेसमेंट के प्रति संवेदनशीलता: रडार सिग्नलों की गुणवत्ता और पूर्णता विषय के रडार सेंसर के सापेक्ष अभिविन्यास और सेंसर कहाँ रखे गए हैं, इस पर अत्यधिक निर्भर करती है। मामूली परिवर्तन अनुमान सटीकता को महत्वपूर्ण रूप से प्रभावित कर सकते हैं।
* सीमित ऊंचाई रिज़ॉल्यूशन: mmWave रडार सेंसर में स्वाभाविक रूप से सीमित ऊंचाई रिज़ॉल्यूशन होता है, जिसका अर्थ है कि विभिन्न ऊंचाइयों पर वस्तुओं के बीच अंतर करना चुनौतीपूर्ण हो सकता है। इसके लिए क्षतिपूर्ति के लिए मल्टी-रडार सेटअप (जैसे यहां उपयोग किए गए डुअल-रडार सिस्टम) की आवश्यकता होती है।

कम्प्यूटेशनल बाधाएँ:
* रडार इनपुट की उच्च आयामीता: कच्चा mmWave रडार डेटा स्वाभाविक रूप से उच्च-आयामी होता है (जैसे, प्रति फ्रेम $C^{12 \times 128 \times 256}$ क्यूब्स)। कई फ्रेम के अनुक्रमों को संसाधित करते समय, कुल डेटा वॉल्यूम बहुत बड़ा हो जाता है।
* पूर्व विधियों (ट्रांसफार्मर) की द्विघात जटिलता: मौजूदा स्टेट-ऑफ-द-आर्ट मॉडल जैसे ट्रांसफार्मर, जबकि शक्तिशाली हैं, इनपुट अनुक्रम लंबाई के संबंध में द्विघात कम्प्यूटेशनल जटिलता रखते हैं। इसका मतलब है कि इनपुट फ्रेम की संख्या ($T$) में एक मामूली वृद्धि से गणना और मेमोरी आवश्यकताओं में असंगत रूप से बड़ी वृद्धि होती है। उदाहरण के लिए, पेपर नोट करता है कि ट्रांसफार्मर "लंबे अनुक्रमों के साथ प्रशिक्षित होने पर हमारे हार्डवेयर पर मेमोरी से बाहर हो जाते हैं" (तालिका 8, पी. 7)।
* हार्डवेयर मेमोरी सीमाएँ: डेटा की भारी मात्रा और मॉडल की द्विघात जटिलता जल्दी से हार्डवेयर मेमोरी सीमाओं से टकराती है, जिससे मानक जीपीयू पर पर्याप्त रूप से लंबे अस्थायी अनुक्रमों के साथ मॉडल को प्रशिक्षित करना अव्यावहारिक हो जाता है (जैसे, पेपर में उल्लिखित NVIDIA Tesla V100 GPU)। उदाहरण के लिए, पारंपरिक 4D हीटमैप जनरेशन, 3D FFT दृष्टिकोण की तुलना में 11x अधिक मेमोरी-गहन दिखाया गया है (चित्र 4(c), पी. 5)। *
*
*वास्तविक समय विलंबता आवश्यकताएँ (निहित):
हालांकि स्पष्ट रूप से एक सख्त वास्तविक समय बाधा के रूप में नहीं कहा गया है, "कुशल" प्रसंस्करण और "प्रीप्रोसेसिंग ओवरहेड को कम करने" (परिचय, पी. 2) की आवश्यकता से पता चलता है कि समाधान संभावित वास्तविक दुनिया के अनुप्रयोगों के लिए व्यावहारिक विलंबता सीमाओं के भीतर संचालित होना चाहिए। 4D बनाम 3D FFT की तुलना भी 3D दृष्टिकोण के साथ 8.6x विलंबता में महत्वपूर्ण कमी को उजागर करती है।

डेटा-संचालित बाधाएँ:
* अपूर्ण अवलोकन: भौतिक बाधाओं के प्रत्यक्ष परिणाम के रूप में, इनपुट रडार डेटा अक्सर मानव शरीर के अपूर्ण अवलोकन प्रदान करता है, जिससे मजबूत प्रासंगिक संकेतों के बिना एक पूर्ण पोज़ का पुनर्निर्माण करना मुश्किल हो जाता है।
* अस्थायी असंगति: रडार सिग्नलों में उतार-चढ़ाव के कारण फ्रेम में संयुक्त पहचान असंगत हो सकती है, जिससे स्पष्ट अस्थायी मॉडलिंग के बिना सुचारू और भौतिक रूप से प्रशंसनीय पोज़ अनुक्रम सुनिश्चित करना मुश्किल हो जाता है।
* डेटा विरलता: गायब जोड़ों से परे, समग्र रडार सिग्नल विरल हो सकता है, जिससे मजबूत सुविधाओं का निष्कर्षण एक महत्वपूर्ण चुनौती बन जाता है। इसके लिए उन मॉडलों की आवश्यकता होती है जो सीमित और शोर वाली जानकारी से प्रभावी ढंग से सीख सकें।

यह दृष्टिकोण क्यों

चुनाव की अनिवार्यता

milliMamba में एन्कोडर के लिए मैम्बा आर्किटेक्चर को अपनाना केवल एक डिज़ाइन वरीयता नहीं थी, बल्कि मिलीमीटर-वेव (mmWave) रडार-आधारित ह्यूमन पोज़ एस्टिमेशन (HPE) की अंतर्निहित चुनौतियों से प्रेरित एक आवश्यकता थी। लेखकों ने स्पष्ट रूप से उस क्षण की पहचान की जब पारंपरिक स्टेट-ऑफ-द-आर्ट (SOTA) विधियाँ, विशेष रूप से ट्रांसफार्मर, अपर्याप्त हो गईं: जब "लंबे रडार अनुक्रमों में निहित बड़े टोकन वॉल्यूम" से निपटना। पूर्व ट्रांसफार्मर-आधारित दृष्टिकोण, जबकि वैश्विक निर्भरताओं को मॉडल करने और मल्टी-रडार सुविधाओं को फ्यूज करने में सक्षम थे, कम्प्यूटेशनल लागतों, मेमोरी उपयोग और प्रशिक्षण समय के संबंध में "द्विघात जटिलता" से पीड़ित थे। यह द्विघात स्केलिंग उन्हें HPE-आधारित रडार के लिए महत्वपूर्ण विस्तारित अस्थायी संदर्भों को संसाधित करने के लिए अव्यावहारिक बना दिया।

mmWave रडार HPE में मुख्य समस्या स्पेक्लर प्रतिबिंबों के कारण सिग्नलों की विरलता है, जिससे अपूर्ण अवलोकन और गायब जोड़ होते हैं। इसे दूर करने के लिए, कई फ्रेम में स्थानिक-अस्थायी निर्भरताओं का लाभ उठाना सर्वोपरि है। हालाँकि, इनपुट फ्रेम ($T$) की संख्या बढ़ाने से ट्रांसफार्मर के लिए कम्प्यूटेशनल बोझ सीधे बढ़ जाता है, जिससे जल्दी से आउट-ऑफ-मेमोरी मुद्दे हो जाते हैं, जैसा कि तालिका 8 में प्रदर्शित किया गया है जहाँ ट्रांसफार्मर मेमोरी से बाहर होने से पहले केवल $T=3$ फ्रेम को संभाल सकते थे। मैम्बा की लंबी दूरी की निर्भरताओं को पकड़ने के लिए अनुक्रम लंबाई ($O(N)$) में रैखिक जटिलता ने निषेधात्मक कम्प्यूटेशनल लागतों के बिना इन महत्वपूर्ण लंबे अस्थायी अनुक्रमों को कुशलतापूर्वक मॉडल करने के लिए एकमात्र व्यवहार्य मार्ग की पेशकश की। इस संरचनात्मक लाभ ने मैम्बा को विस्तारित अनुक्रमों में व्यापक स्थानिक-अस्थायी मॉडलिंग प्राप्त करने के लिए केवल व्यवहार्य समाधान बना दिया।

तुलनात्मक श्रेष्ठता

milliMamba का दृष्टिकोण केवल प्रदर्शन मेट्रिक्स से परे गुणात्मक श्रेष्ठता प्रदर्शित करता है, मुख्य रूप से इसके आर्किटेक्चरल डिज़ाइन विकल्पों के माध्यम से जो सीधे पिछली विधियों की सीमाओं को संबोधित करते हैं।

  1. लंबे अनुक्रमों के लिए रैखिक जटिलता: सबसे महत्वपूर्ण संरचनात्मक लाभ मैम्बा एन्कोडर की क्षमता है जो ट्रांसफार्मर की द्विघात जटिलता के विपरीत, रैखिक जटिलता के साथ लंबे रडार अनुक्रमों को संसाधित करता है। यह milliMamba को अधिक समृद्ध अस्थायी संदर्भ (जैसे, डिफ़ॉल्ट रूप से $T=9$ फ्रेम, और प्रयोगों में $T=15$ फ्रेम तक) का लाभ उठाने की अनुमति देता है जो स्पेक्लर प्रतिबिंबों के कारण गायब जोड़ों का अनुमान लगाने और गति की चिकनाई सुनिश्चित करने के लिए महत्वपूर्ण है। यह सीधे समय के साथ उच्च-आयामी शोर और विरल डेटा को बेहतर ढंग से संभालने में तब्दील होता है। तालिका 8 स्पष्ट रूप से इसे दर्शाती है, जिसमें मैम्बा मेमोरी बाधाओं के कारण ट्रांसफार्मर के स्केल करने में विफल होने पर $T=3$ पर भी ट्रांसफार्मर की तुलना में तुलनीय या बेहतर सटीकता प्राप्त करता है।
  2. कुशल पूर्व-प्रसंस्करण: रडार सिग्नल प्रीप्रोसेसिंग के लिए 4D हीटमैप से 3D FFT-आधारित हीटमैप तक कम्प्यूटेशनल रूप से महंगे से बदलाव एक और प्रमुख संरचनात्मक लाभ है। यह परिवर्तन मेमोरी उपयोग को 11x और विलंबता को 8.6x (चित्र 4c) तक कम करता है। यह दक्षता लाभ केवल गति के बारे में नहीं है; यह "टोकन गणना के विस्फोट" को कम करता है, जिससे उच्च-आयामी रडार डेटा बाद के मॉडलिंग के लिए अधिक प्रबंधनीय हो जाता है और लंबे अस्थायी अनुक्रमों के उपयोग को सक्षम बनाता है जो अन्यथा अव्यावहारिक होंगे।
  3. उन्नत स्थानिक-अस्थायी संदर्भ मॉडलिंग: क्रॉस-व्यू फ्यूजन मैम्बा (CV-Mamba) एन्कोडर को डुअल-रडार इनपुट को कुशलतापूर्वक फ्यूज करने और लंबी दूरी की स्थानिक-अस्थायी निर्भरताओं को कैप्चर करने के लिए डिज़ाइन किया गया है। यह स्थानिक-अस्थायी-क्रॉस अटेंशन (STCA) डिकोडर द्वारा पूरक है, जो मल्टी-फ्रेम पोज़ भविष्यवाणी करता है। पूर्व विधियों के विपरीत जो अक्सर अस्थायी आयामों को जल्दी से ढहा देते हैं या एकल फ्रेम की भविष्यवाणी करते हैं, STCA स्थानिक और अस्थायी ध्यान दोनों को एकीकृत करता है, जिससे यह प्रत्येक फ्रेम के भीतर स्थानिक संबंधों और एक साथ फ्रेम में अस्थायी निर्भरताओं को मॉडल कर सकता है। यह समृद्ध प्रासंगिक मॉडलिंग गायब जोड़ों का अनुमान लगाने और गति स्थिरता सुनिश्चित करने के लिए महत्वपूर्ण है, जिससे मॉडल रडार डेटा की अंतर्निहित विरलता और उतार-चढ़ाव के प्रति अधिक मजबूत हो जाता है। ****

बाधाओं के साथ संरेखण

चुनी गई विधि, milliMamba, mmWave रडार-आधारित HPE की कठोर आवश्यकताओं के साथ पूरी तरह से संरेखित होती है, जो "समस्या और समाधान के बीच एक विवाह" बनाती है:

  1. गोपनीयता-संरक्षण और प्रकाश-अपरिवर्तनीय: ढांचा स्वाभाविक रूप से mmWave रडार का लाभ उठाता है, जो एक गोपनीयता-संरक्षण और प्रकाश-अपरिवर्तनीय सेंसर है, इस प्रकार समस्या डोमेन की इन मौलिक आवश्यकताओं को पूरा करता है।
  2. विरल सिग्नलों और स्पेक्लर रिफ्लेक्शन के प्रति मजबूती: समस्या की मुख्य चुनौती स्पेक्लर प्रतिबिंबों के कारण अपूर्ण अवलोकन है। milliMamba अपने व्यापक स्थानिक-अस्थायी मॉडलिंग पाइपलाइन के माध्यम से इसे संबोधित करता है। CV-Mamba एन्कोडर और STCA डिकोडर संयुक्त रूप से गायब जोड़ों का अनुमान लगाने के लिए पड़ोसी फ्रेम और दृश्यों से प्रासंगिक संकेतों का लाभ उठाते हैं। STCA डिकोडर, विशेष रूप से, "स्थानिक और अस्थायी ध्यान को एकीकृत करके स्पेक्लर प्रतिबिंबों से गायब जोड़ों के प्रभावों को कम करता है" (समीकरण 4: $q_{j, \cdot}^{''} = TA(q_{j, \cdot}^{'}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j$)।
  3. उच्च-आयामी रडार इनपुट को संभालना: mmWave रडार इनपुट उच्च-आयामी होते हैं। 3D FFT प्रीप्रोसेसिंग चरण कच्चे रडार सिग्नलों को 3D हीटमैप में कुशलतापूर्वक परिवर्तित करता है, जिससे पारंपरिक 4D दृष्टिकोणों की तुलना में प्रीप्रोसेसिंग ओवरहेड और टोकन गणनाएं काफी कम हो जाती हैं। यह उच्च-आयामी डेटा को बाद के मैम्बा-आधारित एन्कोडर के लिए प्रबंधनीय बनाता है।
  4. लंबे अनुक्रमों की कुशल प्रसंस्करण: गति और संदर्भ को कैप्चर करने के लिए लंबे अस्थायी अनुक्रमों की आवश्यकता महत्वपूर्ण है, लेकिन पारंपरिक ट्रांसफार्मर अपनी द्विघात जटिलता के साथ संघर्ष करते हैं। मैम्बा एन्कोडर की रैखिक जटिलता सीधे इस समस्या को हल करती है, जिससे मॉडल विस्तारित अनुक्रमों को कुशलतापूर्वक संसाधित कर सकता है और लंबी दूरी की स्थानिक-अस्थायी निर्भरताओं को कैप्चर कर सकता है, जो सटीक पोज़ अनुमान के लिए महत्वपूर्ण है।
  5. मल्टी-फ्रेम पोज़ भविष्यवाणी और अस्थायी स्थिरता: समस्या के लिए अस्थायी संदर्भ का लाभ उठाने की आवश्यकता होती है। STCA डिकोडर की "कई-से-कई" भविष्यवाणी रणनीति, एक साथ कई फ्रेम की भविष्यवाणी करना, "समय चरणों में समृद्ध पर्यवेक्षण" सुनिश्चित करती है और अस्थायी ध्यान के माध्यम से गति स्थिरता को लागू करती है (समीकरण 4: $q_{j, \cdot}^{''} = TA(q_{j, \cdot}^{'}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j$)। यह सीधे अस्थायी रूप से सुसंगत पोज़ अनुक्रमों की आवश्यकता को संबोधित करता है।
  6. डुअल-रडार इनपुट फ्यूजन: ढांचा डुअल mmWave रडार इनपुट (क्षैतिज और ऊर्ध्वाधर दृश्य) के लिए डिज़ाइन किया गया है। क्रॉस-व्यू फ्यूजन मैम्बा एन्कोडर को "फ्रेम में डुअल-रडार इनपुट को प्रभावी ढंग से फ्यूज करने" के लिए विशेष रूप से अनुकूलित किया गया है, जो सीमित ऊंचाई रिज़ॉल्यूशन जैसी सीमाओं को दूर करने के लिए कई सेंसर से जानकारी को संयोजित करने की आवश्यकता को सीधे संबोधित करता है।

विकल्पों का अस्वीकरण

पेपर कई लोकप्रिय वैकल्पिक विधियों को अस्वीकार करने के लिए स्पष्ट तर्क प्रदान करता है:

  1. एन्कोडर के लिए ट्रांसफार्मर: मुख्य एन्कोडर कार्य के लिए ट्रांसफार्मर को अस्वीकार करने का प्राथमिक कारण अनुक्रम लंबाई के संबंध में उनकी "द्विघात जटिलता" थी। जैसा कि अनुभाग 1 और अनुभाग 2.1 में कहा गया है, यह "उच्च कम्प्यूटेशनल लागतों, विशेष रूप से मेमोरी उपयोग और प्रशिक्षण समय के मामले में" की ओर ले जाता है, जिससे वे "लंबे रडार अनुक्रमों में निहित बड़े टोकन वॉल्यूम" को संसाधित करने के लिए अनुपयुक्त हो जाते हैं, जो HPE-आधारित रडार के लिए आवश्यक है। तालिका 8 स्पष्ट रूप से इसे दर्शाती है, जिसमें दिखाया गया है कि एक ट्रांसफार्मर एन्कोडर मेमोरी से बाहर हो जाता है जब लंबे अनुक्रमों ($T=3$ फ्रेम से परे) को संसाधित करने का प्रयास किया जाता है, जबकि मैम्बा प्रभावी ढंग से स्केल करता है।
  2. प्रारंभिक अस्थायी संलयन: कुछ पूर्व ट्रांसफार्मर-आधारित विधियों ने "अस्थायी आयाम को जल्दी से ढहाकर" जटिलता को कम करने का प्रयास किया। हालांकि, लेखकों का तर्क है कि "इस तरह का प्रारंभिक संलयन स्पेक्लर प्रतिबिंबों के कारण गायब जोड़ों को ठीक करने के लिए मॉडल की क्षमता से समझौता कर सकता है।" milliMamba एन्कोडिंग और डिकोडिंग दोनों चरणों में स्थानिक-अस्थायी मॉडलिंग बनाए रखकर इससे बचता है, जिससे अनुमान के लिए एक समृद्ध संदर्भ सुनिश्चित होता है।
  3. 4D हीटमैप प्रीप्रोसेसिंग: पारंपरिक 4D हीटमैप दृष्टिकोण [25] को "कम्प्यूटेशनल रूप से महंगा" होने और "टोकन गणना के विस्फोट" के कारण अस्वीकार कर दिया गया था। पेपर दिखाता है कि 3D FFT-आधारित हीटमैप "कहीं अधिक कुशल हैं, मेमोरी उपयोग को 11x और विलंबता को 8.6x" (चित्र 4c) तक कम करते हैं, जबकि तुलनीय या बेहतर सटीकता प्राप्त करते हैं (तालिका 4)। यह 3D FFT को प्रीप्रोसेसिंग के लिए एक बेहतर विकल्प बनाता है।
  4. मल्टी-फ्रेम से सिंगल-फ्रेम डिकोडिंग: अधिकांश पूर्व रडार-आधारित HPE विधियाँ "कई-से-एक" भविष्यवाणी रणनीति अपनाती हैं। milliMamba का "कई-से-कई" STCA डिकोडर, जो एक साथ कई फ्रेम की भविष्यवाणी करता है, को इसलिए चुना गया क्योंकि यह "समय चरणों में समृद्ध पर्यवेक्षण" प्रदान करता है और "पड़ोसी फ्रेम और जोड़ों से प्रासंगिक संकेतों का लाभ उठाकर गायब जोड़ों का बेहतर अनुमान लगाता है" (अनुभाग 1, तालिका 5)। इस गुणात्मक लाभ के कारण सरलीकृत कई-से-एक संस्करण पर 4.1 AP सुधार हुआ।
  5. CNN-आधारित विधियाँ: जबकि CNN "मल्टीस्केल स्थानिक और अल्पकालिक अस्थायी सुविधाओं" को पकड़ने में प्रभावी हैं, वे "अक्सर कई रडार सेंसर से जानकारी को फ्यूज करने की अपनी क्षमता में सीमित होते हैं" (अनुभाग 2.1)। milliMamba के डुअल-रडार इनपुट और क्रॉस-व्यू फ्यूजन डिज़ाइन को देखते हुए, CNN विभिन्न रडार दृश्यों से जानकारी को एकीकृत करने में उतने प्रभावी नहीं होंगे।
Figure 1. Our milliMamba performs spatio-temporal modeling across both the feature extraction and decoding stages, addressing a key limitation of TransHuPR [12], which models these dependencies only partially. This is made possible by milliMamba’s ability to process a larger number of tokens with a comparable memory footprint, enabling richer temporal context and more accurate pose estimation

गणितीय और तार्किक तंत्र

मास्टर समीकरण

milliMamba की सीखने की प्रक्रिया का मूल एक संयुक्त हानि फ़ंक्शन द्वारा संचालित होता है जिसका उद्देश्य सटीक पोज़ अनुमान और अस्थायी स्थिरता दोनों प्राप्त करना है। यह मास्टर समीकरण प्रशिक्षण के दौरान मॉडल को अपने आंतरिक मापदंडों को परिष्कृत करने के लिए निर्देशित करता है। इसे इस प्रकार परिभाषित किया गया है:

$$ L = L_{oks} + \lambda_{vel} L_{vel} $$

जबकि यह समग्र हानि फ़ंक्शन सीखने के उद्देश्य को निर्धारित करता है, वास्तविक "इंजन" जो इसके द्वारा मूल्यांकित पोज़ अनुमानों का उत्पादन करता है, दो मौलिक तंत्रों पर निर्भर करता है: मैम्बा एन्कोडर के भीतर स्टेट स्पेस मॉडल (SSM) और STCA डिकोडर के भीतर ध्यान तंत्र।

मैम्बा एन्कोडर की अनुक्रमिक प्रसंस्करण प्रत्येक SSM परत के लिए छिपी हुई स्थिति अद्यतन समीकरण द्वारा शासित होती है:

$$ h_{t+1} = A h_t + B u_t \\ y_t = C h_t + D u_t $$

और STCA डिकोडर ध्यान तंत्र का उपयोग करके कीपॉइंट क्वेरी को परिष्कृत करता है, विशेष रूप से स्थानिक ध्यान (SA), अस्थायी ध्यान (TA), और क्रॉस-अटेंशन (CrossAttn)। स्थानिक और अस्थायी पहलुओं के लिए स्व-ध्यान संचालन हैं:

$$ q_{f,.}^{'} = SA(q_{f,.}) = \text{softmax}(Q_f K_f^T / \sqrt{d}) V_f \\ q_{.,j}^{''} = TA(q_{.,j}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j $$

अंत में, क्रॉस-अटेंशन तंत्र एन्कोडर सुविधाओं को एकीकृत करता है:

$$ q_{f,j}^{'''} = \text{CrossAttn}(q_{f,j}^{''}, F') $$

पद-दर-पद विच्छेदन

आइए प्रत्येक घटक की भूमिका को समझने के लिए इन समीकरणों का विश्लेषण करें:

समग्र प्रशिक्षण उद्देश्य: $L = L_{oks} + \lambda_{vel} L_{vel}$

  • $L$: यह कुल हानि फ़ंक्शन है जिसे milliMamba मॉडल प्रशिक्षण के दौरान न्यूनतम करना चाहता है। यह मॉडल की भविष्यवाणियों और ग्राउंड-ट्रुथ के बीच समग्र त्रुटि का प्रतिनिधित्व करता है, जिसमें पोज़ सटीकता और अस्थायी स्थिरता दोनों शामिल हैं।
  • $L_{oks}$: यह शब्द ऑब्जेक्ट कीपॉइंट सिमिलरिटी (OKS) हानि के लिए है।
    • गणितीय परिभाषा: यह अनुमानित कीपॉइंट्स और ग्राउंड-ट्रुथ कीपॉइंट्स के बीच समानता को मापने वाला एक मीट्रिक है, जो ऑब्जेक्ट के पैमाने और कीपॉइंट एनोटेशन की भिन्नता को ध्यान में रखता है। यह आमतौर पर 0 और 1 के बीच का मान होता है, जहाँ 1 का मतलब पूर्ण समानता है। हानि फ़ंक्शन आमतौर पर इसे न्यूनतम किए जाने वाले मान में बदल देता है (जैसे, $1 - OKS$)।
    • भौतिक/तार्किक भूमिका: यह अनुमानित मानव पोज़ की सटीकता सुनिश्चित करने के लिए प्राथमिक शब्द है। यह सीधे मॉडल के आउटपुट और वास्तविक मानव पोज़ के बीच व्यक्तिगत शरीर के जोड़ों (जैसे, सिर, कोहनी, घुटने) के स्थान में विसंगतियों को दंडित करता है।
    • जोड़ क्यों? $L_{oks}$ और $L_{vel}$ क्रमशः अलग-अलग प्रकार की त्रुटियों (पोज़ सटीकता और अस्थायी स्थिरता) का प्रतिनिधित्व करते हैं जिन्हें मॉडल को एक साथ न्यूनतम करने की आवश्यकता होती है, इसलिए यहाँ जोड़ का उपयोग किया जाता है। उन्हें जोड़ने से एक समग्र उद्देश्य बनता है जहाँ किसी भी घटक में सुधार समग्र हानि को कम करने में योगदान देता है।
  • $\lambda_{vel}$: यह वेग हानि के लिए एक स्केलर भारित कारक है।
    • गणितीय परिभाषा: एक हाइपरपैरामीटर, आमतौर पर एक सकारात्मक वास्तविक संख्या (जैसे, पेपर में 0.05)।
    • भौतिक/तार्किक भूमिका: यह गुणांक पोज़ सटीकता ($L_{oks}$) के महत्व को अस्थायी स्थिरता ($L_{vel}$) के मुकाबले संतुलित करता है। एक उच्च $\lambda_{vel}$ मॉडल को प्रति-फ्रेम सटीकता की थोड़ी सी लागत पर, सुचारू आंदोलनों को प्राथमिकता देगा, जबकि कम मान प्रति-फ्रेम सटीकता पर जोर देगा। यह ट्रेड-ऑफ को ट्यून करने के लिए एक नॉब है।
  • $L_{vel}$: यह शब्द वेग हानि का प्रतिनिधित्व करता है, जिसे समीकरण (6) द्वारा परिभाषित किया गया है।
    • गणितीय परिभाषा: यह अनुमानित संयुक्त वेगों और ग्राउंड-ट्रुथ संयुक्त वेगों के बीच अंतर के वर्गित L2 नॉर्म का औसत है, जो सभी फ्रेम और जोड़ों पर औसत है।
    • भौतिक/तार्किक भूमिका: यह शब्द अनुमानित पोज़ अनुक्रमों में अस्थायी चिकनाई को लागू करने के लिए एक नियमितीकरण तंत्र के रूप में कार्य करता है। यह अनुमानित पोज़ के बीच अचानक, झटकेदार आंदोलनों को हतोत्साहित करता है, जो अक्सर शोर या अपूर्ण रडार डेटा के कलाकृतियाँ होते हैं। लगातार फ्रेम के बीच संयुक्त स्थितियों में बड़े परिवर्तनों को दंडित करके, यह अधिक यथार्थवादी और भौतिक रूप से प्रशंसनीय गति प्रक्षेपवक्र को बढ़ावा देता है।

वेग हानि समीकरण (6): $L_{vel} = \frac{1}{(T-1)J} \sum_{f=1}^{T-1} \sum_{j=1}^{J} ||v_{f,j} - \hat{v}_{f,j}||_2^2$

  • $T$: इनपुट अनुक्रम में फ्रेम की कुल संख्या (जैसे, 9 फ्रेम)।
    • गणितीय परिभाषा: अस्थायी अनुक्रम की लंबाई का प्रतिनिधित्व करने वाली एक पूर्णांक।
    • भौतिक/तार्किक भूमिका: स्थिरता लागू की जाने वाली अस्थायी विंडो को परिभाषित करती है। हानि $T-1$ वेग वैक्टर के लिए गणना की जाती है क्योंकि वेग दो लगातार स्थितियों से गणना की जाती है।
  • $J$: अनुमानित मानव शरीर के जोड़ों की कुल संख्या (जैसे, 14 कीपॉइंट)।
    • गणितीय परिभाषा: अलग-अलग कीपॉइंट्स की संख्या का प्रतिनिधित्व करने वाली एक पूर्णांक।
    • भौतिक/तार्किक भूमिका: निर्दिष्ट करता है कि कुल वेग हानि में कितने व्यक्तिगत जोड़ योगदान करते हैं।
  • $f$: फ्रेम के माध्यम से पुनरावृति करने वाला एक सूचकांक, 1 से $T-1$ तक।
    • गणितीय परिभाषा: एक पूर्णांक लूप चर।
    • भौतिक/तार्किक भूमिका: अनुक्रम में एक विशिष्ट समय चरण का प्रतिनिधित्व करता है।
  • $j$: जोड़ों के माध्यम से पुनरावृति करने वाला एक सूचकांक, 1 से $J$ तक।
    • गणितीय परिभाषा: एक पूर्णांक लूप चर।
    • भौतिक/तार्किक भूमिका: एक विशिष्ट शरीर के जोड़ का प्रतिनिधित्व करता है (जैसे, सिर, कोहनी)।
  • $v_{f,j}$: फ्रेम $f$ में संयुक्त $j$ का अनुमानित वेग।
    • गणितीय परिभाषा: फ्रेम $f+1$ में संयुक्त $j$ की अनुमानित स्थिति और फ्रेम $f$ में इसकी अनुमानित स्थिति ($P_{f+1,j} - P_{f,j}$) के बीच अंतर का प्रतिनिधित्व करने वाला एक वेक्टर।
    • भौतिक/तार्किक भूमिका: यह मॉडल का अनुमान है कि एक विशेष जोड़ दो लगातार फ्रेम के बीच कितनी तेजी से और किस दिशा में चल रहा है।
  • $\hat{v}_{f,j}$: फ्रेम $f$ में संयुक्त $j$ का ग्राउंड-ट्रुथ वेग।
    • गणितीय परिभाषा: फ्रेम $f+1$ में संयुक्त $j$ की ग्राउंड-ट्रुथ स्थिति और फ्रेम $f$ में इसकी ग्राउंड-ट्रुथ स्थिति ($\hat{P}_{f+1,j} - \hat{P}_{f,j}$) के बीच अंतर का प्रतिनिधित्व करने वाला एक वेक्टर।
    • भौतिक/तार्किक भूमिका: यह जोड़ का वास्तविक, वांछित वेग है, जो एनोटेट किए गए डेटा से प्राप्त होता है। मॉडल इससे मेल खाने की कोशिश करता है।
  • $||\cdot||_2^2$: वर्गित L2 नॉर्म (यूक्लिडियन दूरी वर्ग)।
    • गणितीय परिभाषा: एक वेक्टर $x = [x_1, x_2, \dots, x_k]$ के लिए, $||x||_2^2 = \sum_{i=1}^k x_i^2$।
    • भौतिक/तार्किक भूमिका: यह अनुमानित और ग्राउंड-ट्रुथ वेग वैक्टर के बीच अंतर के परिमाण को मापता है। नॉर्म को वर्ग करने से यह सुनिश्चित होता है कि सभी त्रुटियां हानि में सकारात्मक रूप से योगदान करती हैं और छोटी त्रुटियों की तुलना में बड़ी त्रुटियों को अधिक महत्वपूर्ण रूप से दंडित करती हैं, जिससे हानि फ़ंक्शन अवकलनीय हो जाता है और ग्रेडिएंट-आधारित अनुकूलन के लिए उपयुक्त हो जाता है।
  • $\sum_{f=1}^{T-1} \sum_{j=1}^{J}$: डबल योग।
    • गणितीय परिभाषा: सभी प्रासंगिक फ्रेम और सभी जोड़ों पर वर्गित वेग अंतरों का योग करता है।
    • भौतिक/तार्किक भूमिका: समग्र अस्थायी असंगति का एक एकल माप प्राप्त करने के लिए पूरे अस्थायी अनुक्रम और सभी शरीर के अंगों में व्यक्तिगत वेग त्रुटियों को एकत्रित करता है।
  • $\frac{1}{(T-1)J}$: सामान्यीकरण कारक।
    • गणितीय परिभाषा: वर्गित त्रुटियों के योग को माने गए वेग वैक्टर की कुल संख्या से विभाजित करता है।
    • भौतिक/तार्किक भूमिका: यह सुनिश्चित करता है कि $L_{vel}$ हानि का परिमाण अनुक्रम लंबाई $T$ या जोड़ों की संख्या $J$ पर निर्भर न हो, जिससे यह विभिन्न विन्यासों में तुलनीय हो जाता है और लंबे अनुक्रमों को केवल अधिक पदों के कारण स्वाभाविक रूप से बड़ी हानि होने से रोकता है।

मैम्बा SSM हिडन स्टेट अपडेट (समीकरण 2): $h_{t+1} = A h_t + B u_t$ और $y_t = C h_t + D u_t$

  • $h_{t+1}$: अगले समय चरण $t+1$ पर छिपा हुआ राज्य वेक्टर।
    • गणितीय परिभाषा: समय $t$ तक सभी पिछले इनपुट से संपीड़ित स्मृति या संदर्भ का प्रतिनिधित्व करने वाला एक वेक्टर।
    • भौतिक/तार्किक भूमिका: यह मैम्बा मॉडल की आंतरिक "स्मृति" है। यह अनुक्रम से जानकारी जमा करता है, जिससे मॉडल लंबी दूरी की निर्भरताओं को समझ सकता है।
  • $h_t$: वर्तमान समय चरण $t$ पर छिपा हुआ राज्य वेक्टर।
    • गणितीय परिभाषा: समय $t$ तक स्मृति का प्रतिनिधित्व करने वाला एक वेक्टर।
    • भौतिक/तार्किक भूमिका: पिछला राज्य जिसे नई जानकारी के साथ अद्यतन किया जाता है।
  • $u_t$: वर्तमान समय चरण $t$ पर इनपुट टोकन (फ़ीचर वेक्टर)।
    • गणितीय परिभाषा: वर्तमान में संसाधित की जा रही जानकारी के टुकड़े का प्रतिनिधित्व करने वाला एक वेक्टर।
    • भौतिक/तार्किक भूमिका: यह नया डेटा बिंदु (जैसे, एक रडार फ्रेम से एक सुविधा) है जिसे मैम्बा परत वर्तमान में संसाधित कर रही है।
  • $y_t$: वर्तमान समय चरण $t$ पर आउटपुट टोकन (फ़ीचर वेक्टर)।
    • गणितीय परिभाषा: समय $t$ पर SSM द्वारा उत्पादित एक वेक्टर।
    • भौतिक/तार्किक भूमिका: यह वर्तमान समय चरण के लिए संसाधित जानकारी है, जिसे बाद में परतों में या आगे की गणनाओं के लिए उपयोग किया जा सकता है।
  • $A, B, C, D$: परत-विशिष्ट सीखने योग्य पैरामीटर (मैट्रिक्स)।
    • गणितीय परिभाषा: मैट्रिक्स जो छिपे हुए राज्य और इनपुट पर लागू रैखिक परिवर्तन को परिभाषित करते हैं। $A$ राज्य संक्रमण मैट्रिक्स है, $B$ इनपुट मैट्रिक्स है, $C$ आउटपुट मैट्रिक्स है, और $D$ प्रत्यक्ष फीडथ्रू मैट्रिक्स है।
    • भौतिक/तार्किक भूमिका: ये मैट्रिक्स SSM के "भार" हैं। उन्हें प्रशिक्षण के दौरान सीखा जाता है और यह निर्धारित किया जाता है कि पिछले स्मृति ($h_t$) को वर्तमान इनपुट ($u_t$) के साथ कैसे जोड़ा जाए ताकि नई स्मृति ($h_{t+1}$) और वर्तमान आउटपुट ($y_t$) उत्पन्न हो सके। वे प्रभावी रूप से सिस्टम की गतिशीलता को एन्कोड करते हैं, जिससे मैम्बा लंबे अनुक्रमों में चुनिंदा रूप से जानकारी को याद रख सकता है या भूल सकता है।
    • मैट्रिक्स गुणन और जोड़ क्यों? यह एक रैखिक स्टेट-स्पेस मॉडल का मानक रूप है। मैट्रिक्स गुणन रैखिक परिवर्तनों और सुविधाओं के मिश्रण की अनुमति देता है, जबकि जोड़ पिछले राज्य और वर्तमान इनपुट के प्रभाव को जोड़ता है। यह रैखिक पुनरावृत्ति लंबी दूरी की निर्भरताओं को पकड़ने के लिए कुशल है।

ध्यान तंत्र (समीकरण 3, 4, 5):

  • $q_{f,.}^{'}$, $q_{.,j}^{''}$, $q_{f,j}^{'''}$: ये क्रमशः स्थानिक, अस्थायी और क्रॉस-अटेंशन के बाद कीपॉइंट क्वेरी का प्रतिनिधित्व करते हैं।
    • गणितीय परिभाषा: कीपॉइंट क्वेरी के परिष्कृत अभ्यावेदन का प्रतिनिधित्व करने वाले वेक्टर या मैट्रिक्स।
    • भौतिक/तार्किक भूमिका: ये "प्रश्न" विकसित हो रहे हैं जो डिकोडर संयुक्त पदों की भविष्यवाणी के लिए प्रासंगिक जानकारी निकालने के लिए पूछता है। प्रत्येक ध्यान चरण विभिन्न प्रासंगिक जानकारी को शामिल करके इन प्रश्नों को परिष्कृत करता है।
  • $SA(\cdot)$, $TA(\cdot)$, $CrossAttn(\cdot)$: ये स्थानिक ध्यान, अस्थायी ध्यान और क्रॉस-अटेंशन फ़ंक्शन हैं।
    • गणितीय परिभाषा: ध्यान स्कोर की गणना करने और उन्हें मान वैक्टर पर लागू करने वाले फ़ंक्शन।
    • भौतिक/तार्किक भूमिका: ये वे तंत्र हैं जो मॉडल को कीपॉइंट भविष्यवाणियों को परिष्कृत करने के लिए इनपुट के विभिन्न भागों (एक फ्रेम के भीतर अन्य जोड़ियां, फ्रेम में समान जोड़ियां, या एन्कोडर सुविधाएँ) पर चुनिंदा रूप से ध्यान केंद्रित करने की अनुमति देते हैं।
  • $Q, K, V$: क्वेरी, कुंजी और मान मैट्रिक्स (या वैक्टर)।
    • गणितीय परिभाषा: रैखिक परिवर्तनों के माध्यम से इनपुट सुविधाओं (जैसे, कीपॉइंट क्वेरी या एन्कोडर सुविधाएँ) से प्राप्त।
    • भौतिक/तार्किक भूमिका: ध्यान में, क्वेरी ($Q$) उस चीज़ का प्रतिनिधित्व करती है जिसे हम ढूंढ रहे हैं, कुंजी ($K$) उस चीज़ का प्रतिनिधित्व करती है जो उपलब्ध है, और मान ($V$) में निकालने वाली जानकारी होती है। $Q$ और $K$ के बीच डॉट उत्पाद यह निर्धारित करता है कि प्रत्येक उपलब्ध जानकारी का टुकड़ा क्वेरी के लिए कितना प्रासंगिक है।
  • $d$: कुंजी वैक्टर का आयाम।
    • गणितीय परिभाषा: एक स्केलर पूर्णांक।
    • भौतिक/तार्किक भूमिका: ध्यान तंत्र में स्केलिंग कारक ($\sqrt{d}$) के रूप में उपयोग किया जाता है। $\sqrt{d}$ से विभाजित करने से डॉट उत्पाद बहुत बड़े होने से बचते हैं, जो सॉफ्टमैक्स फ़ंक्शन को बहुत छोटे ग्रेडिएंट वाले क्षेत्रों में धकेल सकते हैं, जिससे सीखने में बाधा आती है।
  • $\text{softmax}(\cdot)$: सॉफ्टमैक्स फ़ंक्शन।
    • गणितीय परिभाषा: एक वेक्टर $x = [x_1, \dots, x_k]$ के लिए, $\text{softmax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^k e^{x_j}}$।
    • भौतिक/तार्किक भूमिका: ध्यान स्कोर को संभाव्यता वितरण में सामान्य करता है, यह सुनिश्चित करता है कि भार 1 तक जुड़ते हैं। इसका मतलब है कि मॉडल प्रत्येक कुंजी को एक सापेक्ष महत्व प्रदान करता है, यह दर्शाता है कि उसे संबंधित मान पर कितना "ध्यान" देना चाहिए।
  • मैट्रिक्स गुणन ($Q K^T$) और $\sqrt{d}$ से विभाजन:
    • गणितीय परिभाषा: डॉट उत्पाद ध्यान।
    • भौतिक/तार्किक भूमिका: डॉट उत्पाद $Q K^T$ प्रत्येक क्वेरी और सभी कुंजियों के बीच समानता या संगतता को मापता है। एक उच्च डॉट उत्पाद का मतलब उच्च प्रासंगिकता है। $\sqrt{d}$ से विभाजित करना ग्रेडिएंट को स्थिर करने के लिए एक स्केलिंग कारक है।
  • $V$ से गुणन:
    • गणितीय परिभाषा: मान वैक्टर का भारित योग।
    • भौतिक/तार्किक भूमिका: ध्यान भार (सॉफ्टमैक्स के माध्यम से) की गणना करने के बाद, इन भारों को मान वैक्टर पर लागू किया जाता है। यह प्रभावी रूप से $V$ में निहित जानकारी का एक भारित औसत बनाता है, जहाँ अधिक प्रासंगिक जानकारी (उच्च ध्यान भार) आउटपुट में अधिक योगदान करती है।

चरण-दर-चरण प्रवाह

एक एकल अमूर्त रडार डेटा बिंदु की कल्पना करें, जो एक व्यक्ति से एक छोटे से प्रतिबिंब का प्रतिनिधित्व करता है, जो milliMamba प्रणाली के माध्यम से एक असेंबली लाइन पर एक घटक की तरह चलता है:

  1. कच्चा रडार सिग्नल अंतर्ग्रहण: हमारी यात्रा कच्चे मिलीमीटर-वेव रडार सिग्नलों से शुरू होती है। ये कॉम्प्लेक्स-वैल्यू वाले क्यूब्स हैं, $X \in \mathbb{C}^{12 \times 128 \times 256}$, जो $T$ लगातार फ्रेम पर डुअल रडार सेंसर (क्षैतिज और ऊर्ध्वाधर दृश्य) से कैप्चर किए गए हैं।
  2. पूर्व-प्रसंस्करण - क्लटर हटाना और उप-नमूनाकरण: सबसे पहले, स्थिर क्लटर को एडीडी-नमूना के साथ माध्य घटाकर हटा दिया जाता है। फिर, कम्प्यूटेशनल लोड को कम करने के लिए एडीडी-नमूना आयाम को समान रूप से उप-नमूना किया जाता है।
  3. पूर्व-प्रसंस्करण - 3D फास्ट फूरियर ट्रांसफॉर्म (FFT): कॉम्प्लेक्स-वैल्यू वाले रडार क्यूब को 3D एंगल-डॉपलर-रेंज हीटमैप में परिवर्तित किया जाता है।
    • एक 1D FFT (समीकरण 1) ADC-नमूना आयाम (रेंज) के साथ लागू किया जाता है।
    • एक और 1D FFT एडीडी-नमूना आयाम (डॉपलर) के साथ लागू किया जाता है।
    • वर्चुअल-एंटीना आयाम को शून्य-पैड किया जाता है और फिर तीसरे 1D FFT (कोण) द्वारा रूपांतरित किया जाता है।
    • यह प्रत्येक दृश्य और फ्रेम के लिए एक वास्तविक-वैल्यू वाला 3D हीटमैप $Y \in \mathbb{R}^{H \times D \times W}$ उत्पन्न करता है, जो पारंपरिक 4D दृष्टिकोणों की तुलना में मेमोरी और विलंबता को काफी कम करता है।
  4. फ़ीचर निष्कर्षण (MNet और 3DCNN): क्षैतिज और ऊर्ध्वाधर दृश्यों के लिए पूर्व-संसाधित 3D हीटमैप समानांतर शाखाओं में फीड किए जाते हैं। प्रत्येक शाखा एक MNet ब्लॉक से शुरू होती है जो डॉपलर आयाम को मर्ज करता है, उसके बाद तीन अवशिष्ट 3D कनवल्शन और दो डाउन-सैंपलिंग परतें होती हैं। यह प्रक्रिया प्रारंभिक स्थानिक सुविधाओं को निकालती है और कोण और रेंज आयामों के रिज़ॉल्यूशन को कम करती है, जिससे फ़ीचर मैप $F_h, F_v \in \mathbb{R}^{C_f \times T \times \frac{H}{4} \times \frac{W}{4}}$ उत्पन्न होते हैं।
  5. क्रॉस-व्यू फ्यूजन: स्थानिक जानकारी को एन्कोड करने के लिए सीखने योग्य स्थितिगत एम्बेडिंग को $F_h$ और $F_v$ में जोड़ा जाता है। इन दो दृश्य-विशिष्ट फ़ीचर मैप को फिर एक एकीकृत एन्कोडर इनपुट $F = [F_h; F_v]$ बनाने के लिए जोड़ा जाता है।
  6. CVMamba एन्कोडर - अनुक्रम रूपांतरण: 2D फ़ीचर मैप $F$ को रेंज, कोण, दृश्य (पहले क्षैतिज फिर ऊर्ध्वाधर), और अंत में फ्रेम के पार ज़िगज़ैग स्कैनिंग पैटर्न का उपयोग करके 1D अनुक्रम में परिवर्तित किया जाता है। यह रैखिक अनुक्रम मैम्बा के संचालन के लिए महत्वपूर्ण है।
  7. CVMamba एन्कोडर - SSM प्रसंस्करण: टोकन ($u_t$) के 1D अनुक्रम को विजन मैम्बा परतों के एक स्टैक में फीड किया जाता है। प्रत्येक परत पुनरावर्ती रूप से अपने छिपे हुए राज्य ($h_t$) को अद्यतन करती है और समीकरण (2) के रैखिक पुनरावृत्ति संबंधों का उपयोग करके एक आउटपुट ($y_t$) उत्पन्न करती है। यह प्रक्रिया आगे और पीछे दोनों दिशाओं में होती है, जिससे मॉडल रैखिक जटिलता के साथ लंबी दूरी की स्थानिक-अस्थायी निर्भरताओं को कैप्चर कर सकता है। एन्कोडर का आउटपुट एक समृद्ध, संदर्भ-जागरूक फ़ीचर प्रतिनिधित्व $F'$ है।
  8. STCA डिकोडर - कीपॉइंट क्वेरी आरंभीकरण: सीखने योग्य कीपॉइंट क्वेरी $\{q_{f,j}\}$ का एक निश्चित सेट प्रारंभ किया जाता है। प्रत्येक क्वेरी एक विशिष्ट फ्रेम $f$ में एक विशिष्ट संयुक्त $j$ का प्रतिनिधित्व करती है। ये क्वेरी पोज़ की भविष्यवाणी के लिए प्रारंभिक बिंदु हैं।
  9. STCA डिकोडर - स्थानिक ध्यान: प्रत्येक डिकोडर परत के भीतर, एक एकल फ्रेम ($q_{f,.}$) के लिए कीपॉइंट क्वेरी स्थानिक ध्यान (समीकरण 3) से गुजरती है। यह क्वेरी को एक ही फ्रेम के भीतर एक-दूसरे के साथ बातचीत करने की अनुमति देता है, अंतर-संयुक्त संबंधों और स्थानिक संरचना के बारे में जानकारी एकत्र करता है। आउटपुट $q_{f,.}^{'}$ है।
  10. STCA डिकोडर - अस्थायी ध्यान: इसके बाद, सभी फ्रेम में एक ही जोड़ के लिए स्थानिक रूप से परिष्कृत क्वेरी ($q_{.,j}^{'}$) अस्थायी ध्यान (समीकरण 4) से गुजरती है। यह तंत्र मॉडल को विभिन्न समय चरणों में एक ही जोड़ के प्रतिनिधित्व पर ध्यान देकर गति स्थिरता को लागू करने की अनुमति देता है। आउटपुट $q_{.,j}^{''}$ है।
  11. STCA डिकोडर - क्रॉस-अटेंशन: अस्थायी और स्थानिक रूप से परिष्कृत कीपॉइंट क्वेरी ($q_{f,j}^{''}$) फिर एन्कोडर सुविधाओं $F'$ (समीकरण 5) पर ध्यान देती हैं। यह क्रॉस-अटेंशन तंत्र डिकोडर को CVMamba एन्कोडर द्वारा उत्पन्न समृद्ध स्थानिक-अस्थायी सुविधाओं से प्रासंगिक प्रासंगिक जानकारी निकालने की अनुमति देता है, जिससे गायब जोड़ों का अनुमान लगाने की क्षमता में सुधार होता है। आउटपुट $q_{f,j}^{'''}$ है।
  12. भविष्यवाणी हेड: अंतिम परिष्कृत कीपॉइंट क्वेरी ($q_{f,j}^{'''}$) प्रत्येक फ्रेम में प्रत्येक जोड़ के लिए 2D निर्देशांक उत्पन्न करने के लिए एक भविष्यवाणी हेड (आमतौर पर एक छोटा MLP) से गुजरती है। यह $T$ पोज़ अनुमानों का एक अनुक्रम उत्पन्न करता है।
  13. हानि गणना:
    • अनुमानित 2D कीपॉइंट निर्देशांकों की तुलना ग्राउंड-ट्रुथ निर्देशांकों से ऑब्जेक्ट कीपॉइंट सिमिलरिटी हानि ($L_{oks}$) की गणना करने के लिए की जाती है।
    • अनुमानित संयुक्त वेग ($v_{f,j} = P_{f+1,j} - P_{f,j}$) अनुमानित पदों से गणना की जाती है।
    • ग्राउंड-ट्रुथ संयुक्त वेग ($\hat{v}_{f,j} = \hat{P}_{f+1,j} - \hat{P}_{f,j}$) ग्राउंड-ट्रुथ पदों से गणना की जाती है।
    • वेग हानि ($L_{vel}$) इन अनुमानित और ग्राउंड-ट्रुथ वेगों की तुलना समीकरण (6) का उपयोग करके की जाती है।
    • अंत में, समग्र हानि $L = L_{oks} + \lambda_{vel} L_{vel}$ की गणना की जाती है।

अनुकूलन गतिशीलता

milliMamba मॉडल समग्र हानि फ़ंक्शन $L = L_{oks} + \lambda_{vel} L_{vel}$ को एक पुनरावृत्ति अनुकूलन प्रक्रिया के माध्यम से न्यूनतम करके सीखता है।

मॉडल के सीखने योग्य पैरामीटर में MNet और 3DCNN ब्लॉक के भार, प्रत्येक मैम्बा SSM परत के भीतर $A, B, C, D$ मैट्रिक्स, $Q, K, V$ उत्पन्न करने वाले रैखिक परिवर्तन मैट्रिक्स, स्वयं सीखने योग्य कीपॉइंट क्वेरी, और अंतिम भविष्यवाणी हेड के भार शामिल हैं।

  1. ग्रेडिएंट गणना: प्रत्येक प्रशिक्षण पुनरावृति के दौरान, जब रडार अनुक्रमों का एक बैच पूरे milliMamba पाइपलाइन से गुजरता है और समग्र हानि $L$ की गणना की जाती है, तो मॉडल इस हानि के ग्रेडिएंट की गणना अपने सभी सीखने योग्य मापदंडों के संबंध में करता है। यह बैकप्रॉपैगेशन के माध्यम से किया जाता है, जो कुशलतापूर्वक गणना करता है कि प्रत्येक पैरामीटर कुल त्रुटि में कितना योगदान देता है।
  2. हानि परिदृश्य आकारण:
    • $L_{oks}$ शब्द हानि परिदृश्य को आकार देता है ताकि मॉडल को सटीक प्रति-फ्रेम पोज़ भविष्यवाणियों की ओर निर्देशित किया जा सके। यह परिदृश्य में "घाटियां" बनाता है जहां अनुमानित कीपॉइंट ग्राउंड ट्रुथ से निकटता से मेल खाते हैं।
    • $L_{vel}$ शब्द, $\lambda_{vel}$ द्वारा भारित, एक अतिरिक्त नियमितीकरण बल का परिचय देता है। यह फ्रेम में "स्पाइकी" या तेजी से बदलते पोज़ भविष्यवाणियों को दंडित करता है, प्रभावी रूप से अस्थायी आयाम में हानि परिदृश्य को चिकना करता है। यह मॉडल को ऐसे समाधान खोजने के लिए प्रोत्साहित करता है जो न केवल सटीक हों बल्कि अस्थायी रूप से सुसंगत भी हों। वर्गित L2 नॉर्म यह सुनिश्चित करता है कि बड़े वेग त्रुटियों को अधिक गंभीरता से दंडित किया जाए, जिससे असंगत आंदोलनों के लिए एक तेज ग्रेडिएंट बनता है।
  3. पैरामीटर अपडेट: पेपर बताता है कि एडम ऑप्टिमाइज़र का उपयोग किया जाता है। एडम एक अनुकूली सीखने की दर अनुकूलन एल्गोरिथम है जो प्रत्येक पैरामीटर के लिए सीखने की दर को समायोजित करने के लिए ग्रेडिएंट के पहले और दूसरे क्षणों के अनुमानों का उपयोग करता है।
    • गणना किए गए ग्रेडिएंट पैरामीटर में परिवर्तन की दिशा और परिमाण को इंगित करते हैं ताकि हानि को कम किया जा सके।
    • एडम ऑप्टिमाइज़र इन ग्रेडिएंट्स का उपयोग करता है, साथ में एक निर्दिष्ट सीखने की दर (जैसे, 0.00005) और वजन क्षय (जैसे, 0.0001), मॉडल के मापदंडों को अद्यतन करने के लिए। वजन क्षय L2 नियमितीकरण के रूप में कार्य करता है, मापदंडों को बहुत बड़ा होने से रोकता है और ओवरफिटिंग को कम करने में मदद करता है।
  4. पुनरावृत्ति परिष्करण और अभिसरण: यह फॉरवर्ड पास, हानि गणना, बैकप्रॉपैगेशन और पैरामीटर अपडेट की प्रक्रिया कई प्रशिक्षण युगों में पुनरावृत्ति रूप से दोहराई जाती है।
    • STCA डिकोडर का पुनरावृत्ति परिष्करण, जहां कीपॉइंट क्वेरी को कई परतों के स्थानिक-अस्थायी और क्रॉस-अटेंशन के माध्यम से लगातार अद्यतन किया जाता है, का अर्थ है कि अंतिम पोज़ भविष्यवाणियों से ग्रेडिएंट इन परिष्करण चरणों के माध्यम से वापस प्रचारित होते हैं, जिससे क्वेरी को प्रासंगिक जानकारी का बेहतर प्रतिनिधित्व और निष्कर्षण सिखाया जाता है।
    • समय के साथ, मॉडल के पैरामीटर समायोजित होते हैं, जिससे अनुमानित पोज़ तेजी से सटीक ( $L_{oks}$ को न्यूनतम करना) और अस्थायी रूप से सुचारू ( $L_{vel}$ को न्यूनतम करना) हो जाते हैं। $\lambda_{vel}$ हाइपरपैरामीटर यहाँ महत्वपूर्ण है; यदि यह बहुत अधिक है, तो मॉडल सटीकता का कुछ त्याग कर सकता है; यदि बहुत कम है, तो अस्थायी स्थिरता पीड़ित हो सकती है। पेपर $\lambda_{vel} = 0.05$ सेट करता है, जो गति की चिकनाई पर एक मामूली लेकिन महत्वपूर्ण जोर दर्शाता है।
    • जब हानि फ़ंक्शन एक न्यूनतम (या पर्याप्त रूप से कम मान) तक पहुँच जाता है, तो मॉडल अभिसरण करता है, जिसका अर्थ है कि मॉडल की भविष्यवाणियाँ प्रशिक्षण डेटा और आर्किटेक्चर को देखते हुए सटीकता और अस्थायी स्थिरता के बीच इष्टतम रूप से संतुलित होती हैं।
Figure 4. Comparison of heatmap generation. (a) The traditional 4D approach [25] applies separate FFTs for range, doppler, azimuth, and elevation after antenna grouping. (b) Our 3D pipeline performs a unified spatial FFT without grouping, yielding a compact representation. (c) Cost comparison between 4D and 3D heatmaps, showing 11× reduction in memory and 8.6× reduction in latency Figure 2. Overview of our milliMamba. The CVMamba encoder first extracts features from dual-view radar inputs. These features are then passed to the Multi-Pose STCA decoder, which progressively refines a set of keypoint queries to produce pose predictions

परिणाम, सीमाएँ और निष्कर्ष

प्रयोगात्मक डिजाइन और बेसलाइन

अपने प्रस्तावित milliMamba ढांचे को कठोरता से मान्य करने के लिए, लेखकों ने एक व्यापक प्रयोगात्मक सेटअप तैयार किया। मॉडल को दो मिलीमीटर-वेव (mmWave) रडार सेंसर से इनपुट लेने के लिए डिज़ाइन किया गया था, जो $T=9$ फ्रेम के अनुक्रम को संसाधित करता था। महत्वपूर्ण रूप से, जबकि मॉडल प्रशिक्षण के दौरान 9 लगातार पोज़ का अनुमान लगाता है ("कई-से-कई" रणनीति), अनुमान के दौरान उस विंडो के भीतर केवल केंद्रीय फ्रेम के लिए भविष्यवाणी का उपयोग किया जाता है। यह डिज़ाइन विकल्प सुनिश्चित करता है कि मॉडल सीखने के दौरान समृद्ध अस्थायी संदर्भ से लाभान्वित हो, लेकिन व्यावहारिक उपयोग के लिए एक एकल, परिष्कृत पोज़ अनुमान प्रदान करता है।

प्रशिक्षण व्यवस्था ने 0.00005 की सीखने की दर, 8 के बैच आकार और 0.0001 के वजन क्षय के साथ एडम ऑप्टिमाइज़र का उपयोग किया। समग्र प्रशिक्षण उद्देश्य ने दो हानि फ़ंक्शन को जोड़ा: अनुमानित और ग्राउंड-ट्रुथ संयुक्त स्थानों के बीच विसंगतियों को दंडित करने के लिए मानक ऑब्जेक्ट कीपॉइंट सिमिलरिटी ($L_{oks}$), और अनुमानित पोज़ अनुक्रमों में अस्थायी चिकनाई को प्रोत्साहित करने के लिए एक वेग हानि ($L_{vel}$)। वेग हानि को $\lambda_{vel} = 0.05$ द्वारा भारित किया गया था, सटीकता को अस्थायी स्थिरता के साथ संतुलित किया गया था। सभी प्रयोग एक एकल NVIDIA Tesla V100 GPU पर किए गए थे, जो एक सामान्य उच्च-प्रदर्शन कंप्यूटिंग संसाधन है।

जिन "पीड़ितों" (बेसलाइन मॉडल) के खिलाफ milliMamba का क्रूरतापूर्वक परीक्षण किया गया था, उनमें शामिल थे:
- TransHuPR [12]: एक ट्रांसफार्मर-आधारित दृष्टिकोण जो आंशिक रूप से स्थानिक-अस्थायी निर्भरताओं को मॉडल करता है।
- HuPR [13]: रडार-आधारित ह्यूमन पोज़ एस्टिमेशन (HPE) के लिए एक और प्रमुख विधि।
- mmPose [23]: रडार HPE के लिए एक CNN-आधारित विधि।

ये बेसलाइन mmWave रडार-आधारित HPE में स्टेट-ऑफ-द-आर्ट का प्रतिनिधित्व करते हैं, जिससे milliMamba के प्रदर्शन की सीधी तुलना की जा सकती है। मूल्यांकन दो बेंचमार्क mmWave रडार डेटासेट पर किया गया था:
- TransHuPR डेटासेट [12]: 22 विषयों से 7 घंटे से अधिक वीडियो शामिल है, जिसमें तेज और गतिशील क्रियाएं हैं, जो पोज़ अनुमान के लिए तेजी से आंदोलनों और संभावित स्पेक्लर प्रतिबिंबों के कारण एक महत्वपूर्ण चुनौती प्रस्तुत करता है।
- HuPR डेटासेट [13]: लगभग 4 घंटे का वीडियो 6 विषयों से युक्त है, जिसमें अपेक्षाकृत स्थिर क्रियाएं हैं।

प्रदर्शन का मूल्यांकन ऑब्जेक्ट कीपॉइंट सिमिलरिटी (OKS) के आधार पर औसत परिशुद्धता (AP) का उपयोग करके किया गया था, जो पोज़ अनुमान में एक मानक मीट्रिक है। इसमें समग्र AP (0.50 से 0.95 तक OKS थ्रेसहोल्ड पर औसत), AP50 (OKS 0.50 पर ढीले मिलान के लिए), और AP75 (0.75 पर सख्त मिलान के लिए) शामिल थे।

साक्ष्य क्या साबित करते हैं

प्रायोगिक साक्ष्य निश्चित रूप से साबित करते हैं कि milliMamba का मुख्य तंत्र - फीचर निष्कर्षण और डिकोडिंग दोनों चरणों में स्थानिक-अस्थायी निर्भरताओं का संयुक्त मॉडलिंग, कुशल 3D फास्ट फूरियर ट्रांसफॉर्म (FFT) प्रीप्रोसेसिंग के साथ मिलकर - mmWave रडार सिग्नलों से मानव पोज़ अनुमान को महत्वपूर्ण रूप से बढ़ाता है।

निश्चित, निर्विवाद साक्ष्य:

  1. बेसलाइन के खिलाफ बेहतर प्रदर्शन:

    • TransHuPR डेटासेट (तालिका 2) पर, milliMamba ने सभी AP मेट्रिक्स पर लगातार सभी बेसलाइन को पार कर लिया। इसने TransHuPR [12] पर 11.0 AP का पर्याप्त सुधार हासिल किया। उदाहरण के लिए, चुनौतीपूर्ण 'कलाई' जोड़ पर, जो स्पेक्लर प्रतिबिंबों और तेज गति के लिए प्रवण है, milliMamba ने प्रभावशाली 46.9 AP हासिल किया। यह अत्यधिक अनिश्चित या गायब जोड़ों का अनुमान लगाने में इसकी मजबूती को प्रदर्शित करता है।
    • HuPR डेटासेट (तालिका 3) पर, milliMamba ने फिर से बेहतर सटीकता दिखाई, अपेक्षाकृत स्थिर क्रियाओं के लिए 84.0 AP तक पहुंच गया। महत्वपूर्ण रूप से, इसने HuPR [13] (68.6 GMACs और 35.5M पैरामीटर) की तुलना में काफी कम कम्प्यूटेशनल लागत (34.4 GMACs और 4.0M पैरामीटर) के साथ यह उच्च सटीकता हासिल की, जिससे इसकी दक्षता उजागर हुई।
  2. कुशल इनपुट प्रसंस्करण का सत्यापन (3D FFT):

    • इनपुट प्रतिनिधित्व (तालिका 4) पर एब्लेशन अध्ययन ने स्पष्ट रूप से दिखाया कि 3D FFT-आधारित हीटमैप, milliMamba की चुनी हुई प्रीप्रोसेसिंग विधि, ने सर्वश्रेष्ठ प्रदर्शन (74.5 AP) दिया। यह घनत्व मानचित्र (58.5 AP) और यहां तक ​​कि अधिक जटिल 4D FFT (72.0 AP) से काफी बेहतर था।
    • इसके अलावा, चित्र 4(c) ने दक्षता लाभ का कठोर प्रमाण प्रदान किया: 3D FFT ने पारंपरिक 4D दृष्टिकोण की तुलना में मेमोरी उपयोग को 11x और विलंबता को 8.6x कम कर दिया। यह साबित करता है कि प्रीप्रोसेसिंग विकल्प न केवल सटीक था बल्कि कम्प्यूटेशनल रूप से भी फायदेमंद था।
  3. मल्टी-फ्रेम आउटपुट तंत्र की प्रभावशीलता:

    • तालिका 5 ने milliMamba की "कई-से-कई" भविष्यवाणी रणनीति (स्थानिक-अस्थायी-क्रॉस अटेंशन (STCA) डिकोडर का उपयोग करके) की शक्ति का प्रदर्शन किया। इसने "कई-से-एक" दृष्टिकोण (एक सादे ट्रांसफार्मर डिकोडर) की तुलना में समग्र सटीकता में 4.1 AP सुधार हासिल किया। यह पुष्टि करता है कि गायब या कमजोर परावर्तित जोड़ों का अनुमान लगाने के लिए डिकोडिंग के दौरान कई समय चरणों से संयुक्त सुविधाओं का लाभ उठाना महत्वपूर्ण है।
  4. लंबे अस्थायी संदर्भ के लाभ:

    • इनपुट अनुक्रम लंबाई (तालिका 6) के प्रभाव से पता चला कि इनपुट फ्रेम की संख्या ($T$) बढ़ाने से पोज़ अनुमान सटीकता में लगातार सुधार हुआ। यह विशेष रूप से कलाई और कोहनी जैसे कठिन जोड़ों के लिए सच था, जो चुनौतीपूर्ण परिदृश्यों को संभालने के लिए समृद्ध अस्थायी संदर्भ के मूल्य को रेखांकित करता है।
  5. मैम्बा की बेहतर स्केलेबिलिटी और दक्षता:

    • एक सीमित $T=3$ फ्रेम के लिए ट्रांसफार्मर और मैम्बा एन्कोडर (तालिका 8) के बीच तुलना से पता चला कि मैम्बा ने 1.5 AP उच्च सटीकता हासिल की। अधिक महत्वपूर्ण बात यह है कि ट्रांसफार्मर एन्कोडर लंबे अनुक्रमों का प्रयास करते समय मेमोरी से बाहर हो गया, जबकि मैम्बा प्रभावी ढंग से स्केल किया। यह निश्चित प्रमाण है कि मैम्बा की रैखिक जटिलता लंबे रडार अनुक्रमों में निहित बड़े टोकन वॉल्यूम को संसाधित करने के लिए एक व्यावहारिक समाधान है, जो पूर्व ट्रांसफार्मर-आधारित विधियों के लिए एक प्रमुख चुनौती है।
  6. डुअल-रडार क्रॉस-व्यू फ्यूजन का लाभ:

    • तालिका 7 ने दर्शाया कि डुअल-रडार (होरी+वर्ट) कॉन्फ़िगरेशन, जैसा कि milliMamba में उपयोग किया गया है, एकल-रडार सेटअप (केवल होरी या केवल वर्ट) से काफी बेहतर प्रदर्शन करता है। यह mmWave रडार सेंसर के सीमित ऊंचाई रिज़ॉल्यूशन की सीमाओं को दूर करने में क्रॉस-व्यू फ्यूजन के लाभ को साबित करता है, जिससे अधिक मजबूत और सटीक पोज़ अनुमान होता है।

संक्षेप में, milliMamba की वास्तुशिल्प पसंद, कुशल 3D FFT प्रीप्रोसेसिंग से लेकर मैम्बा-आधारित एन्कोडर और STCA डिकोडर तक, प्रत्येक को इसके स्टेट-ऑफ-द-आर्ट प्रदर्शन में योगदान करने के लिए प्रयोगात्मक रूप से मान्य किया गया था, जिससे यह निर्विवाद प्रमाण मिलता है कि इसका मुख्य तंत्र वास्तव में काम करता है।

सीमाएँ और भविष्य की दिशाएँ

जबकि milliMamba mmWave रडार-आधारित मानव पोज़ अनुमान में एक महत्वपूर्ण छलांग प्रस्तुत करता है, पेपर के निष्कर्षों से कई क्षेत्रों में आगे के विकास और अंतर्निहित सीमाओं का भी संकेत मिलता है।

अनुमानित सीमाएँ:

  1. कम्प्यूटेशनल फुटप्रिंट: हालांकि milliMamba लंबे अनुक्रमों के लिए ट्रांसफार्मर की तुलना में अधिक कुशल है, इसकी कम्प्यूटेशनल लागत (जैसे, HuPR पर 34.4 GMACs, 4.0M पैरामीटर, 224.1 MB मेमोरी) अभी भी अत्यधिक संसाधन-बाधित एज उपकरणों पर तैनाती या अत्यंत कम विलंबता की आवश्यकता वाले अनुप्रयोगों के लिए पर्याप्त हो सकती है। "उचित जटिलता" सापेक्ष है, और सर्वव्यापी वास्तविक समय उपयोग के लिए और अधिक अनुकूलन की आवश्यकता है।
  2. एकल-व्यक्ति फ़ोकस: वर्तमान ढांचा मुख्य रूप से एकल-व्यक्ति पोज़ अनुमान के लिए डिज़ाइन किया गया प्रतीत होता है। "मल्टी-पर्सन परिदृश्यों" का भविष्य के काम के रूप में स्पष्ट उल्लेख बताता है कि कई परस्पर क्रिया करने वाले व्यक्तियों को संभालना, विशेष रूप से बाधाओं के साथ, वर्तमान आर्किटेक्चर के लिए एक चुनौती बनी हुई है।
  3. डेटासेट विशिष्टता: मूल्यांकन दो विशिष्ट डेटासेट, TransHuPR और HuPR पर किया गया था। जबकि ये डेटासेट गतिशील और स्थिर क्रियाओं को कवर करते हैं, वे मानव आंदोलनों, पर्यावरणीय परिस्थितियों, या वास्तविक दुनिया के तैनाती में सामना किए जाने वाले संभावित रडार हस्तक्षेप परिदृश्यों की विशाल विविधता का पूरी तरह से प्रतिनिधित्व नहीं कर सकते हैं।
  4. चरम बाधा के प्रति सामान्यीकरण: स्पेक्लर प्रतिबिंबों के प्रति मजबूत होने के बावजूद, milliMamba गंभीर आत्म-बाधा या पर्यावरणीय बाधा (जैसे, फर्नीचर के पीछे) के तहत पोज़ का अनुमान कैसे लगा सकता है, इसका विवरण पूरी तरह से नहीं दिया गया है। रडार सिग्नल अभी भी विरल हो सकते हैं, और शरीर के पूर्ण अंग अप्रत्यक्ष रह सकते हैं।

भविष्य की दिशाएँ और चर्चा विषय:

लेखक स्पष्ट रूप से बताते हैं कि भविष्य के काम में मल्टी-पर्सन और क्रॉस-एनवायरनमेंट परिदृश्यों का पता लगाया जाएगा, साथ ही कम्प्यूटेशनल लागत को और कम किया जाएगा। इस पर निर्माण करते हुए, यहाँ आगे के विकास के लिए विविध दृष्टिकोण दिए गए हैं:

  1. एडवर्सेरियल और क्लटर्ड वातावरण में मजबूती: milliMamba को शोर, हस्तक्षेप, या रडार सिग्नलों पर एडवर्सेरियल हमलों के प्रति और अधिक मजबूत कैसे बनाया जा सकता है? क्या डेटा वृद्धि या डोमेन अनुकूलन के साथ स्व-पर्यवेक्षित सीखने जैसी तकनीकें विभिन्न वातावरणों (जैसे, आउटडोर बनाम इनडोर, विभिन्न कमरे लेआउट, विभिन्न क्लटर) में प्रदर्शन को सामान्य बनाने में मदद कर सकती हैं?
  2. वास्तविक समय एज परिनियोजन और हार्डवेयर अनुकूलन: कम्प्यूटेशनल लागत को कम करने के लक्ष्य को देखते हुए, कौन से विशिष्ट हार्डवेयर-जागरूक अनुकूलन खोजे जा सकते हैं? इसमें मॉडल क्वांटाइजेशन, प्रूनिंग, छोटे मैम्बा वेरिएंट के लिए न्यूरल आर्किटेक्चर सर्च, या SSMs के लिए विशेष हार्डवेयर एक्सेलेरेटर भी शामिल हो सकते हैं। चर्चा में व्यावहारिक एज परिनियोजन के लिए मॉडल आकार, अनुमान गति और सटीकता के बीच ट्रेड-ऑफ पर गहराई से विचार किया जा सकता है।
  3. बढ़ी हुई प्रासंगिकता के लिए पूरक सेंसर के साथ एकीकरण: जबकि रडार गोपनीयता प्रदान करता है, क्या अन्य गोपनीयता-संरक्षण पद्धतियों (जैसे, शरीर की गर्मी के लिए थर्मल कैमरे, गति के लिए निष्क्रिय इन्फ्रारेड सेंसर, या गहराई के लिए कम-रिज़ॉल्यूशन लिडार) के साथ एक विवेकपूर्ण संलयन अधिक समृद्ध प्रासंगिक संकेत प्रदान कर सकता है? यह रडार डेटा में अस्पष्टताओं को हल करने में मदद कर सकता है, विशेष रूप से महीन-दाने वाले आंदोलनों के लिए या जब शरीर के अंग रडार के दृश्य से पूरी तरह से अस्पष्ट हों। ऐसे विषम डेटा स्ट्रीम को प्रभावी ढंग से सिंक्रनाइज़ करने और फ्यूज करने की चुनौतियाँ क्या हैं?
  4. 2D से परे: 3D पोज़ और मेश पुनर्निर्माण की ओर: वर्तमान कार्य 2D HPE पर केंद्रित है। स्थानिक-अस्थायी मैम्बा फ्यूजन तंत्र को सीधे 3D मानव पोज़ या यहां तक ​​कि पूर्ण मानव मेश पुनर्निर्माण की भविष्यवाणी करने के लिए कैसे बढ़ाया या अनुकूलित किया जा सकता है? यह वर्चुअल रियलिटी, ऑगमेंटेड रियलिटी और अधिक परिष्कृत मानव-रोबोट इंटरैक्शन में अनुप्रयोगों को अनलॉक करेगा, लेकिन 2D रडार अनुमानों की अंतर्निहित सीमाओं को संबोधित करने की आवश्यकता होगी।
  5. नैतिक निहितार्थ और गोपनीयता-संरक्षण AI: जैसे-जैसे रडार-आधारित HPE अधिक सटीक और मल्टी-पर्सन ट्रैकिंग में सक्षम होता जा रहा है, चर्चा को नैतिक निहितार्थों को संबोधित करना चाहिए। गोपनीयता-संरक्षण द्वारा डिज़ाइन किए जाने के बावजूद, संभावित दुरुपयोग, जैसे अनधिकृत निगरानी या पहचान को रोकने के लिए क्या सुरक्षा उपाय आवश्यक हैं? व्यक्तिगत अधिकारों का उल्लंघन किए बिना समाज को लाभ सुनिश्चित करने के लिए प्रौद्योगिकी को जिम्मेदारी से कैसे विकसित किया जा सकता है?
  6. दीर्घकालिक अस्थायी समझ और क्रिया पहचान: वर्तमान ढांचा पोज़ अनुमान के लिए अस्थायी संदर्भ का लाभ उठाता है। क्या इसे लंबी अवधि की मानव गतिविधियों को समझने, भविष्य के पोज़ की भविष्यवाणी करने, या यहां तक ​​कि जटिल क्रियाओं और इरादों को पहचानने के लिए बढ़ाया जा सकता है? इसके लिए उन स्मृति तंत्रों को एकीकृत करने की आवश्यकता होगी जो बहुत लंबी समय-सीमाओं में जानकारी बनाए रख सकते हैं, संभावित रूप से मानव व्यवहार की अधिक समग्र समझ की ओर बढ़ सकते हैं।
  7. सिंथेटिक डेटा जनरेशन और सिमुलेशन: बड़े, विविध रडार डेटासेट एकत्र करने की कठिनाई और लागत को देखते हुए, क्या प्रशिक्षण के लिए सिंथेटिक रडार डेटा बनाने के लिए उन्नत सिमुलेशन वातावरण या जनरेटिव मॉडल का उपयोग किया जा सकता है? यह डेटा की कमी को दूर करने, सामान्यीकरण में सुधार करने और वास्तविक दुनिया में कैप्चर करने में मुश्किल चरम या दुर्लभ परिदृश्यों में परीक्षण की अनुमति दे सकता है।
Table 2. Comparison of model performance and complexity across methods on the TransHuPR dataset [12]. The complexity excludes radar signal preprocessing Table 3. Comparison of model performance and complexity across methods on the HuPR dataset [13]. The complexity excludes radar signal preprocessing Table 6. Impact of input sequence length (T) on pose estimation performance. We investigate the effect of varying T to understand how temporal context contributes to accuracy

अन्य क्षेत्रों के साथ समरूपता

संरचनात्मक कंकाल

यह पेपर शोर, उच्च-आयामी अनुक्रमिक डेटा से स्थानिक-अस्थायी सुविधाओं को कुशलतापूर्वक निकालने और फ्यूज करने के लिए एक तंत्र प्रस्तुत करता है ताकि अस्थायी स्थिरता के साथ संरचित आउटपुट की भविष्यवाणी की जा सके।

दूर के चचेरे भाई

  1. लक्ष्य क्षेत्र: वित्तीय समय श्रृंखला विश्लेषण

    • संबंध: वित्तीय बाजारों में, विश्लेषक स्टॉक की कीमतों, ट्रेडिंग वॉल्यूम और आर्थिक संकेतकों जैसी उच्च-आयामी, शोर वाली और अनुक्रमिक डेटा स्ट्रीम से जूझते हैं। इस डेटा में लंबी दूरी की अस्थायी निर्भरताओं और क्रॉस-एसेट सहसंबंधों को कैप्चर करने की चुनौती milliMamba के कार्य का एक दर्पण है। जैसे रडार सिग्नल "लापता जोड़ों" की ओर ले जाने वाले "स्पेक्लर रिफ्लेक्शन" से पीड़ित होते हैं, वैसे ही वित्तीय डेटा बाजार के शोर, अचानक घटनाओं और अपूर्ण जानकारी से ग्रस्त होता है जो वास्तविक अंतर्निहित पैटर्न को अस्पष्ट करता है। विरल, उच्च-आयामी इनपुट से मजबूत सुविधा निष्कर्षण के लिए पेपर के दृष्टिकोण और प्रासंगिक संकेतों का लाभ उठाकर लुप्त जानकारी का अनुमान लगाने की इसकी क्षमता सीधे डेटा अंतराल और अस्थिरता के बावजूद भविष्य के बाजार राज्यों की भविष्यवाणी करने की आवश्यकता के समानांतर है।
  2. लक्ष्य क्षेत्र: जलवायु मॉडलिंग और पर्यावरण भविष्यवाणी

    • संबंध: जलवायु विज्ञान में विशाल भौगोलिक ग्रिड पर विस्तारित अवधि में तापमान, दबाव, आर्द्रता और हवा के पैटर्न सहित स्थानिक-अस्थायी डेटा की भारी मात्रा को संसाधित करना शामिल है। भविष्य की मौसम की घटनाओं या दीर्घकालिक जलवायु प्रवृत्तियों की भविष्यवाणी करने के लिए स्थानिक रूप से (जैसे, एक क्षेत्र में वायुमंडलीय स्थितियां दूसरे को कैसे प्रभावित करती हैं) और अस्थायी रूप से (जैसे, मौसमी चक्र, बहु-वर्षीय दोलन) जटिल, लंबी दूरी की निर्भरताओं को समझने की आवश्यकता होती है। milliMamba में डुअल-रडार इनपुट, जो विभिन्न दृष्टिकोणों से जानकारी को फ्यूज करता है, विभिन्न पर्यावरणीय सेंसर या उपग्रह अवलोकनों से डेटा को एकीकृत करने के समान है। शोर वाले इनपुट से मजबूत सुविधाओं को निकालने के लिए कुशल स्थानिक-अस्थायी मॉडलिंग पर पेपर का ध्यान अराजक और अक्सर अपूर्ण मौसम संबंधी डेटासेट से सटीक भविष्यवाणियां करने की चुनौतियों के साथ गहराई से गूंजता है।

क्या होगा अगर परिदृश्य

कल्पना कीजिए कि एक प्रमुख हेज फंड में एक मात्रात्मक विश्लेषक, जो अगली पीढ़ी की एल्गोरिथम ट्रेडिंग प्रणाली विकसित करने का काम कर रहा है, कल milliMamba के सटीक क्रॉस-व्यू फ्यूजन मैम्बा एन्कोडर और स्थानिक-अस्थायी-क्रॉस अटेंशन डिकोडर को "चोरी" कर लेता है। mmWave रडार सिग्नलों को फीड करने के बजाय, वे मल्टी-सोर्स वित्तीय समय श्रृंखला डेटा इनपुट करेंगे। इस डेटा में वास्तविक समय स्टॉक की कीमतें, बॉन्ड यील्ड, कमोडिटी फ्यूचर्स और मैक्रोइकॉनॉमिक संकेतक शामिल हो सकते हैं, जिसमें "क्रॉस-व्यू" विभिन्न वैश्विक बाजारों या परिसंपत्ति वर्गों का प्रतिनिधित्व करते हैं। मैम्बा एन्कोडर, अपनी रैखिक जटिलता के साथ, वर्तमान ट्रांसफार्मर-आधारित मॉडल की तुलना में काफी लंबे ऐतिहासिक अनुक्रमों को संसाधित करने में सक्षम होगा, सूक्ष्म, लंबी दूरी की बाजार निर्भरताओं को कैप्चर करेगा जो महीनों या वर्षों में परिसंपत्ति की कीमतों को प्रभावित करते हैं। STCA डिकोडर, मानव संयुक्त निर्देशांक की भविष्यवाणी करने के बजाय, कई भविष्य के समय चरणों में विविध पोर्टफोलियो के लिए भविष्य की मूल्य आंदोलनों या अस्थिरता की भविष्यवाणी करेगा। यह "अस्थायी स्थिरता" को लागू करेगा यह सुनिश्चित करके कि अनुमानित परिसंपत्ति आंदोलन व्यापक मैक्रो-आर्थिक रुझानों और अंतर-बाजार सहसंबंधों के साथ संरेखित हों, और "लुप्त डेटा का अनुमान" लगाएगा, जो विलंबित आर्थिक रिपोर्ट या बाजार विसंगतियों के प्रभाव की भविष्यवाणी करेगा। यह कट्टरपंथी अनुप्रयोग जटिल, बहु-परिसंपत्ति ट्रेडिंग रणनीतियों के लिए भविष्य कहनेवाला सटीकता में एक अभूतपूर्व सफलता का कारण बन सकता है, जिससे फंड को मौजूदा मॉडल के लिए अदृश्य गहरे, लंबी दूरी के स्थानिक-अस्थायी बाजार पैटर्न की पहचान करने और उनका लाभ उठाने की अनुमति मिलेगी। यह प्रणाली वैश्विक वित्तीय डेटा में सूक्ष्म, उभरते पैटर्न को पहचान कर, "ब्लैक स्वान" घटनाओं की भी कुछ हद तक दूरदर्शिता के साथ भविष्यवाणी कर सकती है।

संरचनाओं की सार्वभौमिक लाइब्रेरी

यह पेपर शोर, अनुक्रमिक डेटा से मजबूत स्थानिक-अस्थायी फ़ीचर निष्कर्षण और संरचित भविष्यवाणी के लिए एक सुरुचिपूर्ण समाधान प्रस्तुत करता है, जो सार्वभौमिक संरचनाओं की लाइब्रेरी को समृद्ध करता है, यह प्रदर्शित करता है कि कैसे विभिन्न क्षेत्रों में प्रतीत होने वाली विविध चुनौतियाँ साझा गणितीय और एल्गोरिथम पैटर्न द्वारा एकीकृत होती हैं।