MICCAI

RedDino: लाल रक्त कोशिका विश्लेषण के लिए एक फाउंडेशन मॉडल

अनुसंधान क्षेत्र Representation Learning

Article Type Research analysis

Authors Zedda et al.

Original Paper Published 2026

ISOM Posted 2026-03-13 01:01 UTC

Read Time 1M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

पृष्ठभूमि और अकादमिक वंशावली

स्वचालित लाल रक्त कोशिका (RBC) विश्लेषण की समस्या हेमेटोलॉजिकल डायग्नोस्टिक्स को मानकीकृत करने की नैदानिक आवश्यकता से उत्पन्न हुई है, जो पारंपरिक रूप से मानवीय त्रुटि और उच्च परिवर्तनशीलता (variability) के प्रति संवेदनशील है। ऐतिहासिक रूप से, ब्लड स्मीयर विश्लेषण मैन्युअल सूक्ष्मदर्शी परीक्षण पर निर्भर था, जो स्टेनिंग प्रोटोकॉल और भौतिक स्लाइड तैयार करने की प्रक्रिया से अत्यधिक प्रभावित होता है। ये कारक "batch effects" उत्पन्न करते हैं—छवि की उपस्थिति में ऐसी भिन्नताएँ जो AI मॉडल के लिए विभिन्न प्रयोगशालाओं या रोगियों के बीच सामान्यीकरण (generalization) करना कठिन बना देती हैं। यद्यपि फाउंडेशन मॉडल ने सामान्य कंप्यूटर विजन में क्रांति ला दी है, लेकिन RBCs पर इनका अनुप्रयोग सीमित रहा क्योंकि मौजूदा मॉडल स्वस्थ और रोगग्रस्त कोशिकाओं के बीच अंतर करने के लिए आवश्यक सूक्ष्म, बारीक रूपात्मक (morphological) अंतरों के लिए विशेष रूप से ट्यून नहीं किए गए थे।

लेखकों द्वारा संबोधित प्राथमिक "pain point" यह है कि पिछले मॉडल इन batch effects और RBCs के लिए एक विशेष, बड़े पैमाने के फाउंडेशन मॉडल की कमी के कारण विविध डेटा स्रोतों में सामान्यीकरण करने में विफल रहे। इसके अलावा, प्राकृतिक छवि मॉडल में उपयोग की जाने वाली मानक नियमितीकरण तकनीकें (जैसे Koleo regularizer) यहाँ वास्तव में प्रतिकूल थीं, क्योंकि उन्होंने एक ऐसी एकरूपता को मजबूर किया जिसने उन रूपात्मक असामान्यताओं (जैसे, मलेरिया-संक्रमित कोशिकाएं या echinocytes) को दबा दिया जिन्हें चिकित्सकों को पहचानने की आवश्यकता होती है।

सहज डोमेन शब्द (Intuitive Domain Terms)

Foundation Model: इसे एक "सामान्य-उद्देश्य विशेषज्ञ" के रूप में समझें जिसे छवियों के मूलभूत निर्माण खंडों को समझने के लिए भारी मात्रा में डेटा पर प्रशिक्षित किया गया है, जिसे बाद में रक्त रोगों की पहचान जैसे किसी विशिष्ट कार्य में विशेषज्ञ बनने के लिए आसानी से "fine-tuned" किया जा सकता है।
Self-Supervised Learning: एक छात्र को बिना लेबल वाली पहेलियों का एक विशाल ढेर देकर सिखाने की कल्पना करें। शिक्षक द्वारा यह बताने के बजाय कि प्रत्येक टुकड़ा क्या है, छात्र स्वयं यह पता लगाकर सीखता है कि टुकड़े एक साथ कैसे फिट होते हैं। यह मॉडल को महंगे, मानव-लेबल वाले डेटा की आवश्यकता के बिना विशेषताओं (features) को सीखने की अनुमति देता है।
Batch Effect: यह विभिन्न कैमरों, अलग-अलग रोशनी और विभिन्न फिल्टर के साथ ली गई तस्वीरों की तुलना करने जैसा है। "प्रभाव" उपकरण या प्रक्रिया के कारण छवियों में कृत्रिम अंतर है, न कि रक्त कोशिकाओं की वास्तविक सामग्री, जो AI को भ्रमित करती है।
Linear Probing: यह परीक्षण करने के लिए एक सरल परीक्षण है कि मॉडल का आंतरिक प्रतिनिधित्व कितना "स्मार्ट" है। आप मॉडल के मस्तिष्क को फ्रीज करते हैं और उसके ऊपर केवल एक बहुत ही सरल, उथली परत को प्रशिक्षित करते हैं। यदि यह सरल परत अच्छा प्रदर्शन करती है, तो यह साबित होता है कि मॉडल ने पहले ही उच्च-गुणवत्ता वाली, उपयोगी विशेषताओं को सीख लिया है।

संकेतन तालिका (Notation Table)

चर/पैरामीटर	विवरण
$wF1$	भारित F1-स्कोर, असंतुलित वर्गों के लिए परिशुद्धता (precision) और रिकॉल को संतुलित करने वाला एक मीट्रिक।
$bAcc$	संतुलित सटीकता, जो प्रति वर्ग रिकॉल का औसत निकालकर वर्ग असंतुलन के लिए जिम्मेदार है।
$Acc$	मानक सटीकता, कुल नमूनों के लिए सही भविष्यवाणियों का अनुपात।
$N$	प्रशिक्षण या परीक्षण में उपयोग की जाने वाली छवियों या पैच की संख्या।
$d$	मॉडल के एम्बेडिंग स्पेस का फीचर आयाम (जैसे, 384, 768, या 1024)।

गणितीय व्याख्या

लेखकों ने DINOv2 फ्रेमवर्क को अपनाकर RBCs के लिए फीचर प्रतिनिधित्व की समस्या को हल किया। मुख्य चुनौती मानक प्राकृतिक छवि प्रशिक्षण से दूर जाना था, जो "feature collapse" (जहाँ मॉडल सभी इनपुट को एक ही बिंदु पर मैप करता है) को रोकने के लिए Koleo regularizer पर निर्भर करता है। लेखकों ने पहचाना कि RBCs के लिए, यह regularizer हानिकारक था।

उन्होंने मानक मूविंग एवरेज सेंटरिंग को Sinkhorn-Knopp algorithm से बदल दिया। गणितीय रूप से, इसमें फीचर वितरण को बैच पर एक समान वितरण में मैप करने के लिए एक इष्टतम परिवहन (optimal transport) समस्या को हल करना शामिल है, यह सुनिश्चित करते हुए कि मॉडल विभिन्न कोशिका प्रकारों के लिए अलग-अलग क्लस्टर बनाए रखता है। Koleo regularizer को हटाकर और इस विशिष्ट सेंटरिंग को लागू करके, उन्होंने मॉडल को नैदानिक निदान के लिए आवश्यक सूक्ष्म रूपात्मक विविधताओं को संरक्षित करने की अनुमति दी।

मॉडल आर्किटेक्चर को तीन संस्करणों में स्केल किया गया था:
1. RedDino Small: $d=384$, 22 मिलियन पैरामीटर।
2. RedDino Base: $d=768$, 86 मिलियन पैरामीटर।
3. RedDino Large: $d=1024$, 304 मिलियन पैरामीटर।

1.25 मिलियन से अधिक पैच पर प्रशिक्षण देकर, लेखकों ने एक मजबूत बैकबोन बनाई जो कई स्वतंत्र परीक्षण डेटासेट में लगातार उच्च $wF1$ और $bAcc$ स्कोर प्राप्त करके मौजूदा SOTA मॉडलों से बेहतर प्रदर्शन करती है। यह पुष्टि करता है कि उनका "patch-based" प्रशिक्षण का दृष्टिकोण, व्यक्तिगत कोशिका विभाजन के बजाय, सटीक हेमेटोलॉजिकल विश्लेषण के लिए आवश्यक संदर्भ को बेहतर ढंग से कैप्चर करता है।

समस्या परिभाषा और बाधाएं

मुख्य समस्या सूत्रीकरण और दुविधा

इस शोध का प्राथमिक उद्देश्य लाल रक्त कोशिका (RBC) विश्लेषण के लिए एक मजबूत, सामान्यीकृत "फाउंडेशन मॉडल" विकसित करना है जो विविध नैदानिक सेटिंग्स में कोशिका आकृति विज्ञान को सटीक रूप से वर्गीकृत कर सके। शुरुआती बिंदु (Input) विभिन्न प्रयोगशालाओं, इमेजिंग तौर-तरीकों और स्टेनिंग प्रोटोकॉल से प्राप्त कच्चे ब्लड स्मीयर छवियों का एक विशाल, विषम संग्रह है। वांछित समापन बिंदु (Output) एक उच्च-गुणवत्ता, सार्वभौमिक फीचर प्रतिनिधित्व (embedding) है जो "batch effect"—विभिन्न सूक्ष्मदर्शी या तैयारी विधियों द्वारा शुरू किया गया तकनीकी शोर—के प्रति अपरिवर्तनीय रहता है, जबकि सूक्ष्म, नैदानिक रूप से प्रासंगिक रूपात्मक विविधताओं के प्रति संवेदनशील रहता है।

मौलिक दुविधा feature invariance और discriminative power के बीच के व्यापार-बंद (trade-off) में निहित है। मानक स्व-पर्यवेक्षित शिक्षण (जैसे मूल DINOv2) में, मॉडल अक्सर "feature collapse" को रोकने के लिए डिज़ाइन किए गए regularizers (जैसे Koleo regularizer) के साथ प्रशिक्षित किए जाते हैं, जो एम्बेडिंग के एक समान वितरण को मजबूर करते हैं। हालाँकि, लेखकों ने पाया कि RBCs के लिए, यह एकरूपता एक दायित्व है। चूँकि स्वस्थ RBCs स्वाभाविक रूप से आकार और रंग में समान होते हैं, इसलिए एक मॉडल जो सख्त एकरूपता लागू करता है, वह उन विशेषताओं को दबा देता है जो रोगग्रस्त या असामान्य कोशिकाओं को परिभाषित करती हैं।

समाधान की गणितीय व्याख्या

कच्चे, शोर वाले डेटा और एक मजबूत फीचर स्पेस के बीच की खाई को पाटने के लिए, लेखकों ने दो महत्वपूर्ण हस्तक्षेपों के माध्यम से DINOv2 फ्रेमवर्क को संशोधित किया:

Koleo Regularizer को हटाना: Koleo regularizer को हटाकर, लेखकों ने मॉडल को असामान्य कोशिका विशेषताओं के "अति-दमन" (over-suppression) से बचने की अनुमति दी। गणितीय रूप से, यह एम्बेडिंग स्पेस को उच्च विचरण (variance) बनाए रखने की अनुमति देता है, जो उन रोगग्रस्त कोशिकाओं को अलग करने के लिए आवश्यक है जो "सामान्य" क्लस्टर से विचलित होती हैं।
Sinkhorn-Knopp Centering: लेखकों ने मानक मूविंग एवरेज सेंटरिंग को Sinkhorn-Knopp एल्गोरिदम से बदल दिया। यह Optimal Transport समस्या को हल करने के लिए एक क्लासिक दृष्टिकोण है। इस संदर्भ में, यह एक सामान्यीकरण तकनीक के रूप में कार्य करता है जो फीचर वितरण को एक लक्ष्य वितरण (अक्सर एक समान) में मैप करता है, जो RBC डेटा की विशिष्ट ज्यामिति के लिए अधिक स्थिर और बेहतर अनुकूल है।

लेखकों ने प्रशिक्षण रणनीति को व्यक्तिगत कोशिका फसलों से patched smear images में भी स्थानांतरित कर दिया। यह मॉडल को संदर्भ सीखने की अनुमति देता है—जैसे कोशिकाओं और पृष्ठभूमि के बीच का संबंध—जो वास्तविक जैविक संरचनाओं और कलाकृतियों (artifacts) के बीच अंतर करने के लिए महत्वपूर्ण है।

यह दृष्टिकोण क्यों

RedDino का विकास सामान्य-उद्देश्य कंप्यूटर विजन से हेमेटोलॉजी के लिए एक डोमेन-विशिष्ट फाउंडेशन मॉडल की ओर एक रणनीतिक धुरी का प्रतिनिधित्व करता है। लेखकों ने पहचाना कि हालांकि DINOv2 जैसे मॉडल शक्तिशाली हैं, वे स्वाभाविक रूप से लाल रक्त कोशिकाओं (RBCs) की विशिष्ट रूपात्मक बारीकियों के लिए अनुकूलित नहीं हैं।

दृष्टिकोण का तर्क

लेखकों ने निर्धारित किया कि पारंपरिक "SOTA" विधियां अपर्याप्त थीं क्योंकि वे अक्सर regularizers—विशेष रूप से Koleo regularizer—पर निर्भर करती हैं, जिन्हें प्राकृतिक छवियों में विशेषताओं के एक समान वितरण को लागू करके फीचर पतन को रोकने के लिए डिज़ाइन किया गया है। RBCs के संदर्भ में, यह प्रतिकूल है। चूँकि RBCs आकार और रंग में उच्च स्तर की प्राकृतिक एकरूपता प्रदर्शित करते हैं, एक regularizer जो एकरूपता को मजबूर करता है, प्रभावी रूप से उन विशेषताओं (रोगजनक या असामान्य विविधताएं) को दबा देता है जो नैदानिक निदान के लिए महत्वपूर्ण हैं। इस regularizer को हटाकर, लेखकों ने मॉडल को उन सूक्ष्म, गैर-समान रूपात्मक मार्करों को संरक्षित करने की अनुमति दी जो स्वस्थ कोशिकाओं को रोगग्रस्त कोशिकाओं से अलग करते हैं।

तुलनात्मक श्रेष्ठता और संरचनात्मक लाभ

Sinkhorn-Knopp Centering: लेखकों ने DINOv2 में उपयोग की जाने वाली मानक मूविंग एवरेज सेंटरिंग को Sinkhorn-Knopp एल्गोरिदम से बदल दिया। यह परिवर्तन फीचर वितरण की सेंटरिंग को संभालने का एक अधिक मजबूत तरीका प्रदान करता है, जो चिकित्सा इमेजिंग के विशिष्ट उच्च-आयामी शोर की उपस्थिति में सीखे गए अभ्यावेदन की गुणवत्ता में सीधे सुधार करता है।
Custom Augmentation: मानक पिक्सेल-स्तरीय ऑग्मेंटेशन को Albumentations लाइब्रेरी से 32 पिक्सेल-स्तरीय ऑग्मेंटेशन की एक विशेष पाइपलाइन के साथ बदलकर, मॉडल ब्लड स्मीयर की भौतिक तैयारी के दौरान शुरू की गई कलाकृतियों के प्रति काफी अधिक लचीला हो जाता है।

गणितीय और तार्किक तंत्र

RedDino का गणितीय इंजन

RedDino, DINOv2 स्व-पर्यवेक्षित शिक्षण फ्रेमवर्क को लाल रक्त कोशिका (RBC) आकृति विज्ञान के डोमेन में अपनाता है। अपने मूल में, मॉडल एक Self-Distillation with No Labels (DINO) तंत्र पर निर्भर करता है, जो एक शिक्षक-छात्र आर्किटेक्चर के रूप में कार्य करता है।

मास्टर समीकरण

RedDino छात्र नेटवर्क $g_{\theta_s}$ के प्रशिक्षण को नियंत्रित करने वाला उद्देश्य कार्य एक शिक्षक नेटवर्क $g_{\theta_t}$ के आउटपुट वितरण से मेल खाना है। मुख्य तंत्र शिक्षक के सॉफ्ट प्रायिकता वितरण और छात्र की भविष्यवाणी के बीच क्रॉस-एंट्रॉपी हानि का न्यूनीकरण है:

$$ \mathcal{L} = - \sum_{x \in \{x_1, x_2\}} P_t(x) \log P_s(x) $$

जहाँ:
1. $P_t(x) = \text{softmax}\left(\frac{f_{\theta_t}(x)}{T_t}\right)$ शिक्षक का आउटपुट वितरण है।
2. $P_s(x) = \text{softmax}\left(\frac{f_{\theta_s}(x)}{T_s}\right)$ छात्र का आउटपुट वितरण है।

अनुकूलन गतिशीलता (Optimization Dynamics)

मॉडल RBC विशेषताओं की समानता द्वारा परिभाषित एक हानि परिदृश्य (loss landscape) को नेविगेट करके सीखता है। Koleo regularizer को हटाकर—जो आमतौर पर विशेषताओं के एक समान वितरण को मजबूर करता है—लेखकों ने मॉडल को RBCs के प्राकृतिक क्लस्टरिंग को संरक्षित करने की अनुमति दी। Sinkhorn-Knopp एल्गोरिदम मानक मूविंग एवरेज सेंटरिंग की जगह लेता है, जो एक बाधा के रूप में कार्य करता है जो मॉडल को इनपुट को फीचर स्पेस में एक संतुलित वितरण में मैप करने के लिए मजबूर करता है, प्रभावी रूप से मॉडल को एक एकल तुच्छ समाधान में "collapse" होने से रोकता है।

परिणाम, सीमाएं और निष्कर्ष

RedDino का विश्लेषण: लाल रक्त कोशिका विश्लेषण के लिए एक फाउंडेशन मॉडल

यह शोध-पत्र RedDino प्रस्तुत करता है, जो लाल रक्त कोशिका (RBC) रूपात्मक विश्लेषण की चुनौतियों का समाधान करने के लिए डिज़ाइन किया गया एक विशेष फाउंडेशन मॉडल है।

प्रयोगात्मक प्रमाण

लेखकों ने ResNet50, DINOv2 (सामान्य संस्करण), और DinoBloom (हेमेटोलॉजी के लिए वर्तमान SOTA) के खिलाफ अपने मॉडल का परीक्षण करके इसका परीक्षण किया। उन्होंने एक "cross-source" मूल्यांकन रणनीति का उपयोग किया: उन्होंने डेटा के एक स्रोत पर मॉडल को प्रशिक्षित किया और पूरी तरह से अलग, अनदेखे स्रोतों पर इसका परीक्षण किया। RedDino ने लगातार बेसलाइन से बेहतर प्रदर्शन किया, जिसमें लीनियर प्रोबिंग में 2% से अधिक और K-NN मेट्रिक्स में 3% से अधिक का औसत सुधार दिखाया गया।

चर्चा और भविष्य का विकास

RedDino की सफलता भविष्य के शोध के लिए कई आकर्षक रास्ते खोलती है:
* मल्टीमॉडल डेटा के साथ एकीकरण: भविष्य के पुनरावृत्ति नैदानिक मेटाडेटा (जैसे, रोगी की आयु, हीमोग्लोबिन स्तर) को एम्बेडिंग स्पेस में एकीकृत कर सकते हैं।
* दुर्लभ विकृति के लिए सक्रिय शिक्षण: चूंकि मॉडल आउटलेर्स की पहचान करने में पहले से ही उत्कृष्ट है, इसलिए इसका उपयोग सक्रिय शिक्षण लूप में मानव रोगविज्ञानी द्वारा समीक्षा के लिए दुर्लभ, अनिर्धारित रक्त स्थितियों को स्वचालित रूप से चिह्नित करने के लिए किया जा सकता है।

अन्य क्षेत्रों के साथ समरूपता (Isomorphisms)

संरचनात्मक कंकाल

इस कार्य का मूल एक स्व-पर्यवेक्षित शिक्षण फ्रेमवर्क है जो उच्च-आयामी, विषम दृश्य डेटा को एक मजबूत, निम्न-आयामी फीचर स्पेस में मैप करता है, जो सूक्ष्म रूपात्मक विविधताओं को संरक्षित करने के लिए इष्टतम परिवहन-आधारित सेंटरिंग के साथ मानक नियमितीकरण तकनीकों को प्रतिस्थापित करता है।