MICCAI

LiteTracker: सटीक लो-लेटेंसी (Low-latency) टिश्यू ट्रैकिंग के लिए टेम्पोरल कॉजलिटी का लाभ

अनुसंधान क्षेत्र Medical Image Analysis

Article Type Research analysis

Authors Karaoglu et al.

Original Paper Published 2026

ISOM Posted 2026-03-12 18:45 UTC

Read Time 1M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

पृष्ठभूमि और अकादमिक वंशावली

एंडोस्कोपिक वीडियो स्ट्रीम में टिश्यू ट्रैकिंग की समस्या सर्जिकल नेविगेशन और एक्सटेंडेड रियलिटी (XR) सिस्टम की उस आवश्यकता से उत्पन्न होती है, जिसमें विरूपण योग्य (deformable), नॉन-रिजिड जैविक सतहों पर एक स्थिर संदर्भ बनाए रखना अनिवार्य है। ऐतिहासिक रूप से, यह क्षेत्र सामान्य कंप्यूटर विजन "पॉइंट ट्रैकिंग" (जैसे क्लासिक Particle Videos दृष्टिकोण) से विकसित होकर विशेष चिकित्सा अनुप्रयोगों तक पहुँचा है, जहाँ प्राथमिक चुनौती अत्यधिक सटीकता और अल्ट्रा-लो लेटेंसी की उच्च-स्तरीय आवश्यकता है।

पिछले SOTA मॉडलों, जैसे CoTracker3, की मूलभूत समस्या उनका 'स्लाइडिंग-विंडो प्रोसेसिंग' पर निर्भर होना है। ये मॉडल प्रेडिक्शन आउटपुट देने से पहले कई फ्रेम्स (एक "विंडो") के संचय की मांग करते हैं। सर्जिकल सेटिंग में, यह एक महत्वपूर्ण, कृत्रिम देरी उत्पन्न करता है—जो अक्सर 200ms से अधिक होती है—जो रियल-टाइम रोबोटिक फीडबैक या ऑगमेंटेड रियलिटी ओवरले के लिए अस्वीकार्य है। इसके अतिरिक्त, इन मॉडलों में इटरेटिव रिफाइनमेंट मॉड्यूल कंप्यूटेशनल रूप से महंगे होते हैं, जिससे रनटाइम में रैखिक वृद्धि होती है, जो हाई-स्पीड, फ्रेम-दर-फ्रेम ट्रैकिंग को बाधित करती है।

सहज डोमेन शब्द (Intuitive Domain Terms)

Sliding-Window Processing: कल्पना कीजिए कि आप किसी व्यक्ति के 16-शब्दों के पूरे वाक्य को समाप्त करने का इंतज़ार कर रहे हैं, इससे पहले कि आप किसी भी शब्द को प्रोसेस कर सकें। आप हमेशा 16 शब्द पीछे रहते हैं। LiteTracker इसे एक "लाइव" स्ट्रीम में बदल देता है, जहाँ आप प्रत्येक शब्द को उसके बोले जाने के साथ ही प्रोसेस करते हैं।
Temporal Memory Buffer: इसे एक "शॉर्ट-टर्म मेमोरी" नोटबुक के रूप में सोचें। हर नए फ्रेम के लिए शून्य से जटिल गणित की पुनर्गणना करने के बजाय, सिस्टम पिछले फ्रेम्स के महत्वपूर्ण परिणामों को एक नोटबुक (बफर) में लिख लेता है और आवश्यकता पड़ने पर उन्हें देख लेता है, जिससे भारी मात्रा में समय की बचत होती है।
Exponential Moving Average (EMA) Flow: यह हालिया गति और दिशा के आधार पर कार की स्थिति का अनुमान लगाने जैसा है। बेतरतीब ढंग से अनुमान लगाने के बजाय, आप इसकी पिछली गतिविधियों के भारित औसत (weighted average) का उपयोग करके अगले क्षण इसकी स्थिति का एक सटीक और त्वरित अनुमान लगाते हैं, जिससे धीमी, बार-बार होने वाले सुधारों की आवश्यकता नहीं पड़ती।
Non-rigid Deformations: एक कठोर वस्तु (जैसे मेज) के विपरीत, टिश्यू खिंचता, मुड़ता और दब जाता है। इसे ट्रैक करना कपड़े के उस टुकड़े पर एक विशिष्ट बिंदु को ट्रैक करने जैसा है जिसे सर्जिकल उपकरणों द्वारा लगातार खींचा और मरोड़ा जा रहा है।

नोटेशन तालिका

नोटेशन	विवरण
$I_t$	समय $t$ पर वीडियो फ्रेम
$Q$	ट्रैक किए जाने वाले क्वेरी पॉइंट्स का सेट
$V_t$	समय $t$ पर अनुमानित विजिबिलिटी स्कोर ($V_t \in [0, 1]$)
$C_t$	समय $t$ पर अनुमानित कॉन्फिडेंस स्कोर ($C_t \in [0, 1]$)
$P_t$	समय $t$ पर किसी बिंदु का अनुमानित 2D स्थान $(x, y)$
$T_W$	विंडो साइज (एक साथ प्रोसेस किए गए फ्रेम्स की संख्या)
$S$	स्ट्राइड (प्रोसेसिंग के बीच छोड़े गए फ्रेम्स की संख्या)
$T_B$	टेम्पोरल मेमोरी बफर की क्षमता
$F_t$	एक्सपोनेंशियल मूविंग एवरेज फ्लो वेक्टर
$\alpha$	EMA फ्लो के लिए टेम्पोरल स्मूथिंग फैक्टर

गणितीय व्याख्या

लेखकों ने भारी स्लाइडिंग-विंडो आर्किटेक्चर को टेम्पोरल मेमोरी बफर द्वारा समर्थित फ्रेम-दर-फ्रेम दृष्टिकोण से बदलकर लेटेंसी की समस्या को हल किया है। मूल इटरेटिव रिफाइनमेंट के बिना सटीकता बनाए रखने के लिए, उन्होंने एक स्मार्ट इनिशियलाइजेशन रणनीति पेश की।

उनके इनिशियलाइजेशन का मूल EMA फ्लो है, जिसे इस प्रकार परिभाषित किया गया है:
$$F_t = \alpha(P_{t-1} - P_{t-2}) + (1 - \alpha)F_{t-1}$$
यह समीकरण हालिया गति $(P_{t-1} - P_{t-2})$ को ऐतिहासिक प्रवृत्ति $F_{t-1}$ के साथ मिश्रित करके एक मोशन वेक्टर $F_t$ की गणना करता है। $\alpha = 0.8$ सेट करके, मॉडल हालिया गति को अधिक महत्व देता है, जिससे यह अगले स्थान $P_t^{\text{init}}$ का उच्च सटीकता के साथ अनुमान लगा पाता है:
$$P_t^{\text{init}} = P_{t-1} + F_t$$
यह सटीक शुरुआती बिंदु प्रदान करके, मॉडल एक ही पास ($L=1$) में कन्वर्जेंस प्राप्त कर लेता है, जो प्रभावी रूप से उन कंप्यूटेशनल रूप से महंगे इटरेटिव लूप्स की आवश्यकता को समाप्त कर देता है जिन्होंने पिछले मॉडलों को बाधित किया था। टेम्पोरल मेमोरी बफर यह सुनिश्चित करता है कि फीचर एक्सट्रैक्शन का "भारी कार्य" दोहराया न जाए, क्योंकि सिस्टम रिंग बफर से कैश किए गए कोरिलेशन फीचर्स को सीधे प्राप्त कर लेता है।

समस्या की परिभाषा और बाधाएं

मुख्य समस्या का निरूपण और दुविधा

प्रारंभिक बिंदु और लक्ष्य स्थिति
सिस्टम का इनपुट एक निरंतर एंडोस्कोपिक वीडियो स्ट्रीम है, जहाँ लक्ष्य "लॉन्ग-टर्म पॉइंट ट्रैकिंग" करना है—मूल रूप से, कई फ्रेम्स में विशिष्ट शारीरिक लैंडमार्क या टिश्यू पॉइंट्स का अनुसरण करना। वांछित आउटपुट इन बिंदुओं के सटीक निर्देशांक $(x_t, y_t)$ हैं, साथ ही रियल-टाइम में उनकी विजिबिलिटी और कॉन्फिडेंस स्कोर। यहाँ कमी उस क्षमता की है जो उच्च ट्रैकिंग सटीकता (जिसके लिए आमतौर पर भारी, मल्टी-फ्रेम संदर्भ प्रोसेसिंग की आवश्यकता होती है) को बनाए रखते हुए ऑपरेटिंग रूम वातावरण की सख्त, लो-लेटेंसी आवश्यकताओं को पूरा कर सके।

मौलिक दुविधा
लेखक टेम्पोरल कॉन्टेक्स्ट और कंप्यूटेशनल लेटेंसी के बीच एक क्लासिक ट्रेड-ऑफ का सामना करते हैं। जटिल सर्जिकल दृश्यों—जो नॉन-रिजिड विरूपण, टूल ऑक्लूजन और तीव्र कैमरा मूवमेंट द्वारा चिह्नित होते हैं—में टिश्यू को सटीक रूप से ट्रैक करने के लिए, आधुनिक मॉडल (जैसे पूर्ववर्ती, CoTracker3) "स्लाइडिंग-विंडो" प्रोसेसिंग पर निर्भर करते हैं। इसका अर्थ है कि एल्गोरिदम को फ्रेम्स के एक अनुक्रम (जैसे 16 फ्रेम्स) को बफर करना होगा और सटीक स्थिति पर कन्वर्ज होने के लिए कई इटरेटिव रिफाइनमेंट चरण करने होंगे। यह एक "प्रतीक्षा" अवधि बनाता है जो रियल-टाइम सर्जिकल रोबोटिक्स या XR अनुप्रयोगों के लिए अस्वीकार्य है, जहाँ देरी का प्रत्येक मिलीसेकंड डिजिटल ओवरले और भौतिक टिश्यू के बीच असिंक्रोनाइज़ेशन का कारण बन सकता है।

समाधान की गणितीय व्याख्या

इस अंतर को पाटने के लिए, लेखकों ने दो प्राथमिक "ट्रेनिंग-फ्री" अनुकूलन पेश किए जो भारी, अनावश्यक गणनाओं की आवश्यकता को दरकिनार करते हैं।

1. टेम्पोरल मेमोरी बफर (कुशल फीचर पुन: उपयोग)
हर नए फ्रेम के लिए पूरी स्लाइडिंग विंडो को फिर से प्रोसेस करने के बजाय, लेखकों ने $T_B = 16$ की क्षमता वाला एक रिंग बफर लागू किया। यह बफर "कोरिलेशन फीचर्स" को कैश करता है—पाइपलाइन का सबसे कंप्यूटेशनल रूप से महंगा हिस्सा जिसमें पेयर-वाइज समानता माप शामिल है। इन्हें स्टोर करके, सिस्टम अनावश्यक गणनाओं से बचता है, जिससे पूर्ण विंडो स्ट्राइड की प्रतीक्षा करने के बजाय फ्रेम-दर-फ्रेम प्रोसेसिंग संभव हो पाती है।

2. एक्सपोनेंशियल मूविंग एवरेज (EMA) फ्लो इनिशियलाइजेशन
कई इटरेटिव रिफाइनमेंट चरणों (जो पहले बिंदु को "खोजने" के लिए आवश्यक थे) की आवश्यकता को समाप्त करने के लिए, लेखकों ने एक चतुर इनिशियलाइजेशन रणनीति पेश की। वे EMA फ्लो, $F_t$ का उपयोग करते हैं, ताकि रिफाइनमेंट मॉड्यूल के स्पर्श करने से पहले ही यह अनुमान लगाया जा सके कि बिंदु कहाँ होगा:
$$F_t = \alpha(P_{t-1} - P_{t-2}) + (1 - \alpha)F_{t-1}$$
जहाँ $P_t$ बिंदु का स्थान है और $\alpha$ एक स्मूथिंग फैक्टर है (अनुभवजन्य रूप से $0.8$ पर सेट)। यह मॉडल को नए फ्रेम के लिए प्रारंभिक स्थान की गणना इस प्रकार करने की अनुमति देता है:
$$P^{\text{init}}_t = P_{t-1} + F_t$$
ट्रांसफॉर्मर को यह अत्यधिक सटीक "अनुमान" प्रदान करके, मॉडल रिफाइनमेंट मॉड्यूल के माध्यम से एक ही पास ($L := 1$) में कन्वर्जेंस प्राप्त कर सकता है। यह प्रभावी रूप से इटरेटिव लूप की कंप्यूटेशनल लागत को समाप्त कर देता है, जो लेटेंसी को कम करने में एक बड़ी सफलता है।

Figure 3. Qualitative results on video samples from the STIR Challenge 2024 [16] (top) and StereoMIS [7] (bottom) datasets. LiteTracker shows high tissue-tracking accuracy and occlusion handling under challenging deformations, tool interactions and perspec- tive changes

यह दृष्टिकोण क्यों?

विकल्प की अनिवार्यता

LiteTracker के लेखकों ने आधुनिक सर्जिकल ट्रैकिंग में एक मौलिक बाधा की पहचान की: ट्रांसफॉर्मर-आधारित लॉन्ग-टर्म पॉइंट ट्रैकर्स (जैसे CoTracker3) की उच्च सटीकता और रियल-टाइम ऑपरेटिंग रूम वातावरण की सख्त, लो-लेटेंसी आवश्यकताओं के बीच का ट्रेड-ऑफ। पारंपरिक "SOTA" विधियां, हालांकि मजबूत हैं, स्लाइडिंग-विंडो प्रोसेसिंग पर निर्भर करती हैं जो सिस्टम को आउटपुट देने से पहले फ्रेम्स के बफर (जैसे 16 फ्रेम्स) की प्रतीक्षा करने के लिए मजबूर करती हैं। यह महत्वपूर्ण "इम्प्लिसिट लेटेंसी" पेश करता है, जो सर्जिकल रोबोटिक्स के लिए अस्वीकार्य है जहाँ कुछ सौ मिलीसेकंड की देरी भी सुरक्षा से समझौता कर सकती है।

तुलनात्मक श्रेष्ठता

LiteTracker गुणात्मक रूप से बेहतर है क्योंकि यह विंडो-आधारित बैच प्रोसेसिंग के प्रतिमान को फ्रेम-दर-फ्रेम दृष्टिकोण में स्थानांतरित करता है, बिना उस टेम्पोरल कॉन्टेक्स्ट का त्याग किए जो ट्रांसफॉर्मर मॉडलों को प्रभावी बनाता है।
- संरचनात्मक लाभ: टेम्पोरल मेमोरी बफर (क्षमता $T_B = 16$ के साथ एक रिंग बफर) को लागू करके, लेखक महंगे कोरिलेशन फीचर्स की अनावश्यक पुनर्गणना से बचते हैं। यह कंप्यूटेशनल ओवरहेड को $O(N \cdot T_W)$ से एक अधिक कुशल प्रति-फ्रेम अपडेट में कम कर देता है, जहाँ $N$ बिंदुओं की संख्या है और $T_W$ विंडो साइज है।
- दक्षता: यह विधि $29.67$ ms की इन्फरेंस लेटेंसी प्राप्त करती है, जो CoTracker3 से लगभग $7\times$ तेज और पिछले सबसे तेज तरीके, Track-On, से $2\times$ तेज है। स्लाइडिंग-विंडो संचय की इम्प्लिसिट देरी को ध्यान में रखते हुए, CoTracker3 पर कुल लेटेंसी सुधार लगभग $16.6\times$ है।

गणितीय और तार्किक तंत्र

गणितीय इंजन: एक्सपोनेंशियल मूविंग एवरेज (EMA) फ्लो

वह मुख्य गणितीय नवाचार जो LiteTracker को कंप्यूटेशनल रूप से महंगे इटरेटिव रिफाइनमेंट की आवश्यकता के बिना हाई-स्पीड, लो-लेटेंसी प्रदर्शन प्राप्त करने की अनुमति देता है, वह एक्सपोनेंशियल मूविंग एवरेज (EMA) फ्लो इनिशियलाइजेशन है।

इस तंत्र को नियंत्रित करने वाला मास्टर समीकरण है:

$$F_t = \alpha(P_{t-1} - P_{t-2}) + (1 - \alpha)F_{t-1}$$

समीकरण का विश्लेषण

$F_t$: यह वर्तमान फ्रेम $t$ के लिए अनुमानित मोशन वेक्टर (फ्लो) है। यह $t-1$ से $t$ पर इसके अनुमानित स्थान तक एक बिंदु के विस्थापन का प्रतिनिधित्व करता है।
$\alpha$: यह टेम्पोरल स्मूथिंग फैक्टर है ($0.8$ पर सेट)। यह एक "मेमोरी वेट" के रूप में कार्य करता है, जो यह निर्धारित करता है कि मॉडल हालिया देखी गई गति पर कितना भरोसा करता है बनाम ऐतिहासिक प्रवृत्ति पर।
$(P_{t-1} - P_{t-2})$: यह पद पिछले दो फ्रेम्स के बीच बिंदु के तात्कालिक वेग की गणना करता है। यह टिश्यू की "वर्तमान" दिशा प्रदान करता है।
$F_{t-1}$: यह पहले से गणना किया गया फ्लो वेक्टर है। इसे शामिल करके, लेखक यह सुनिश्चित करते हैं कि मॉडल एक सुसंगत प्रक्षेपवक्र (trajectory) बनाए रखे, जो भौतिकी में मोमेंटम टर्म की तरह कार्य करता है और शोर के कारण ट्रैकिंग को अस्थिर होने से रोकता है।

परिणाम, सीमाएं और निष्कर्ष

LiteTracker का विश्लेषण: रियल-टाइम सर्जिकल टिश्यू ट्रैकिंग

LiteTracker के लेखकों ने एक भारी, इटरेटिव, विंडो-आधारित प्रक्रिया को एक सुव्यवस्थित, सिंगल-पास, फ्रेम-दर-फ्रेम प्रक्रिया में बदलकर लेटेंसी की समस्या को हल किया। उन्होंने रिंग बफर में महंगे फीचर्स को कैश करके और बिंदु स्थानों को इनिशियलाइज़ करने के लिए एक सरल, सुरुचिपूर्ण गणितीय ह्यूरिस्टिक (EMA फ्लो) का उपयोग करके इसे प्राप्त किया।

प्रायोगिक सत्यापन

लेखकों ने CoTracker3, Track-On और विभिन्न MFT वेरिएंट्स जैसे बेसलाइन मॉडलों के खिलाफ अपने आर्किटेक्चर का कठोर परीक्षण किया। साक्ष्य सम्मोहक हैं:
* गति: LiteTracker ने 29.67 ms की इन्फरेंस लेटेंसी प्राप्त की, जो इसे CoTracker3 से लगभग 7 गुना तेज और पिछले सबसे तेज तरीके, Track-On, से 2 गुना तेज बनाती है।
* सटीकता: भारी गति वृद्धि के बावजूद, इसने STIR और SuPer डेटासेट पर प्रतिस्पर्धी ट्रैकिंग सटीकता बनाए रखी।
* एब्लेशन अध्ययन: लेखकों ने साबित किया कि उनका EMA फ्लो इनिशियलाइजेशन वास्तव में प्रदर्शन को कम कर देता है यदि बहुत अधिक रिफाइनमेंट चरणों का उपयोग किया जाता है, यह पुष्टि करते हुए कि उनका इनिशियलाइजेशन इतना सटीक है कि आगे के इटरेटिव्स न केवल अनावश्यक हैं, बल्कि हानिकारक भी हैं।

अन्य क्षेत्रों के साथ आइसोमोर्फिज्म

LiteTracker का विश्लेषण: लो-लेटेंसी टिश्यू ट्रैकिंग

पृष्ठभूमि और प्रेरणा

रोबोटिक सर्जरी और एक्सटेंडेड रियलिटी (XR) के संदर्भ में, रियल-टाइम में सॉफ्ट टिश्यू की गति को ट्रैक करना एक मौलिक चुनौती है। कठोर वस्तुओं के विपरीत, जैविक टिश्यू जटिल, नॉन-रिजिड विरूपण, सेल्फ-ऑक्लूजन और तीव्र दृष्टिकोण परिवर्तनों से गुजरते हैं। मौजूदा SOTA तरीके, जैसे CoTracker3, स्लाइडिंग-विंडो आर्किटेक्चर पर निर्भर करते हैं जो उच्च सटीकता बनाए रखने के लिए एक साथ कई फ्रेम्स को प्रोसेस करते हैं। हालांकि प्रभावी, यह दृष्टिकोण महत्वपूर्ण कंप्यूटेशनल लेटेंसी पेश करता है, जो इसे रियल-टाइम सर्जिकल वातावरण के लिए अनुपयुक्त बनाता है जहाँ देरी का प्रत्येक मिलीसेकंड सुरक्षा और सटीकता को प्रभावित कर सकता है। इस पेपर के लेखकों ने उच्च-सटीकता लॉन्ग-टर्म ट्रैकिंग और इंट्राऑपरेटिव अनुप्रयोगों की सख्त लो-लेटेंसी आवश्यकताओं के बीच के अंतर को पाटने का प्रयास किया।

मुख्य समस्या और गणितीय समाधान

लेखकों ने पहचान की कि मौजूदा मॉडलों में प्राथमिक बाधाएं स्लाइडिंग विंडो के भीतर फीचर्स की अनावश्यक पुनर्गणना और कंप्यूटेशनल रूप से महंगे इटरेटिव रिफाइनमेंट मॉड्यूल पर निर्भरता थीं।

इसे हल करने के लिए, उन्होंने दो प्रमुख अनुकूलन पेश किए:
1. टेम्पोरल मेमोरी बफर: फ्रेम्स को फिर से प्रोसेस करने के बजाय, उन्होंने $T_B = 16$ की क्षमता वाला एक रिंग बफर लागू किया जो कोरिलेशन फीचर्स को कैश करता है। यह सिस्टम को पहले से गणना किए गए डेटा का पुन: उपयोग करके फ्रेम-दर-फ्रेम ट्रैकिंग करने की अनुमति देता है, जिससे कंप्यूटेशनल लोड प्रभावी रूप से कम हो जाता है।
2. एक्सपोनेंशियल मूविंग एवरेज (EMA) फ्लो इनिशियलाइजेशन: कई इटरेटिव रिफाइनमेंट चरणों की आवश्यकता को समाप्त करने के लिए, उन्होंने मोशन-आधारित इनिशियलाइजेशन पेश किया। फ्लो $F_t$ को इस प्रकार परिभाषित करके:
$$F_t = \alpha(P_{t-1} - P_{t-2}) + (1 - \alpha)F_{t-1}$$
जहाँ $\alpha = 0.8$, वे नए फ्रेम के लिए प्रारंभिक स्थान $P_t^{\text{init}}$ का अनुमान इस प्रकार लगा सकते हैं:
$$P_t^{\text{init}} = P_{t-1} + F_t$$
यह एक मजबूत शुरुआती बिंदु प्रदान करता है जो मॉडल को एक ही पास ($L=1$) में उच्च सटीकता प्राप्त करने की अनुमति देता है, जिससे इन्फरेंस समय में भारी कमी आती है।

संरचनात्मक ढांचा

एक ऐसा तंत्र जो अनावश्यक इटरेटिव गणना को कैश किए गए टेम्पोरल मेमोरी और प्रेडिक्टिव मोशन-आधारित इनिशियलाइजेशन से बदल देता है ताकि रियल-टाइम स्टेट एस्टिमेशन प्राप्त किया जा सके।