MICCAI

D3M: मस्तिष्क ट्यूमर के साथ कंट्रास्ट-एन्हांस्ड एमआरआई के संश्लेषण के लिए विरूपण-संचालित विसरण मॉडल

इस पत्र में संबोधित मुख्य समस्या नॉन कंट्रास्ट मैग्नेटिक रेजोनेंस इमेज (NCMRIs) से कंट्रास्ट एन्हांस्ड मैग्नेटिक रेजोनेंस इमेज (CEMRIs) का संश्लेषण है, विशेष रूप से मस्तिष्क ट्यूमर निदान के लिए। यह विशिष्ट चुनौती...

अनुसंधान क्षेत्र Generative Modeling

Article Type Research analysis

Authors Pang et al.

Original Paper Published 2026

ISOM Posted 2026-04-07 17:13 UTC

Read Time 2M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

पृष्ठभूमि और अकादमिक वंश

उत्पत्ति और अकादमिक वंश

इस पत्र में संबोधित मुख्य समस्या नॉन-कंट्रास्ट मैग्नेटिक रेजोनेंस इमेज (NCMRIs) से कंट्रास्ट-एन्हांस्ड मैग्नेटिक रेजोनेंस इमेज (CEMRIs) का संश्लेषण है, विशेष रूप से मस्तिष्क ट्यूमर निदान के लिए। यह विशिष्ट चुनौती नैदानिक अभ्यास में एक महत्वपूर्ण आवश्यकता से उभरी है: जबकि CEMRIs मस्तिष्क ट्यूमर के निदान और उपचार योजना के लिए अमूल्य जानकारी प्रदान करते हैं, उनके अधिग्रहण के लिए कंट्रास्ट एजेंटों के इंजेक्शन की आवश्यकता होती है। इस प्रक्रिया में कई महत्वपूर्ण कमियां हैं, जिनमें संभावित रोगी स्वास्थ्य जोखिम [15, 25], पर्याप्त उच्च लागत [27], और इन एजेंटों के निपटान से संबंधित बढ़ती पर्यावरणीय चिंताएं [2, 8] शामिल हैं।

ऐतिहासिक रूप से, शोधकर्ताओं ने मानक NCMRIs से कम्प्यूटेशनल रूप से CEMRIs उत्पन्न करने के तरीके विकसित करके इन मुद्दों से बचने की मांग की है, जिससे कंट्रास्ट एजेंट इंजेक्शन की आवश्यकता समाप्त हो जाती है जबकि नैदानिक छवि गुणवत्ता बनी रहती है। इस क्षेत्र में शुरुआती प्रयासों ने 3D कनवल्शनल न्यूरल नेटवर्क (CNNs) जैसे डीप लर्निंग आर्किटेक्चर का लाभ उठाया, जो U-Net और कंडीशनल जनरेटिव एडवरसैरियल नेटवर्क (GANs) पर आधारित थे, जो Pix2Pix [17, 6] जैसे मॉडल से प्रेरित थे। हाल ही में, अकादमिक वंश ने विसरण मॉडल की ओर एक महत्वपूर्ण बदलाव देखा है, जिसने यथार्थवादी चिकित्सा छवियों को उत्पन्न करने में उल्लेखनीय सफलता का प्रदर्शन किया है [16, 24, 26, 29]। इन अत्याधुनिक विसरण मॉडल को CEMRI संश्लेषण के लिए अनुकूलित किया गया है, जिसमें कुछ दृष्टिकोण यकृत [26] जैसे विशिष्ट अंगों पर ध्यान केंद्रित करते हैं।

इन पिछले दृष्टिकोणों, जिसमें मौजूदा विसरण मॉडल शामिल हैं, की एक मौलिक सीमा, या "दर्द बिंदु," यह है कि NCMRIs से CEMRI संश्लेषण एक अत्यधिक ill-posed समस्या बनी हुई है। NCMRIs अक्सर एन्हांस्ड क्षेत्रों के बारे में केवल अस्पष्ट प्रमाण प्रदान करते हैं, जिससे मॉडल के लिए सटीक रूप से भविष्यवाणी करना मुश्किल हो जाता है कि कंट्रास्ट एन्हांसमेंट कहाँ होना चाहिए। नतीजतन, पिछले तरीके अक्सर ध्यान देने योग्य झूठे सकारात्मक और झूठे नकारात्मक एन्हांसमेंट परिणाम उत्पन्न करते हैं। इसका मतलब है कि वे उन क्षेत्रों में एन्हांसमेंट को गलत तरीके से दिखा सकते हैं जो एन्हांस्ड नहीं हैं (झूठे सकारात्मक) या उन क्षेत्रों में एन्हांसमेंट दिखाने में विफल हो सकते हैं जिन्हें एन्हांस्ड होना चाहिए (झूठे नकारात्मक)। यह मुद्दा विशेष रूप से ट्यूमर क्षेत्रों में स्पष्ट है, जहां ट्यूमर उप-घटकों की जटिल और अक्सर जटिल आकृति विज्ञान को सटीक रूप से कैप्चर नहीं किया जाता है। इस पत्र के लेखक इस समस्या को समस्या को फिर से तैयार करके संबोधित करते हैं: एन्हांसमेंट त्रुटियों को विशुद्ध रूप से तीव्रता विसंगतियों के रूप में मानने के बजाय (जो अक्सर बड़ी और ठीक करने में मुश्किल होती हैं), वे उन्हें ट्यूमर उप-घटकों की गलत ज्यामितीय व्याख्या के रूप में अवधारणाबद्ध करते हैं। यह स्थानिक विरूपण के माध्यम से सुधार की अनुमति देता है, एक अधिक प्रबंधनीय कार्य के रूप में आवश्यक ज्यामितीय समायोजन आम तौर पर छोटे होते हैं।

सहज डोमेन शब्द

एक शून्य-आधारित पाठक को अवधारणाओं को समझने में मदद करने के लिए, यहाँ कुछ विशेष शब्द रोजमर्रा की उपमाओं में अनुवादित किए गए हैं:

कंट्रास्ट-एन्हांस्ड मैग्नेटिक रेजोनेंस इमेज (CEMRIs): कल्पना कीजिए कि आप एक शहर के नक्शे को देख रहे हैं, लेकिन कुछ महत्वपूर्ण इमारतें (जैसे अस्पताल या लैंडमार्क) को अलग करना मुश्किल है। एक CEMRI एक विशेष हाइलाइटर का उपयोग करने जैसा है ताकि उन महत्वपूर्ण इमारतों को उज्ज्वल रूप से चमक सके, ताकि वे तुरंत बाहर खड़े हों और पहचानने में आसान हों।
नॉन-कंट्रास्ट मैग्नेटिक रेजोनेंस इमेज (NCMRIs): नक्शे की उपमा का पालन करते हुए, एक NCMRI बिना किसी विशेष हाइलाइटिंग के सिर्फ नियमित नक्शा है। सभी इमारतें वहां हैं, लेकिन महत्वपूर्ण वाली अपने आप बाहर नहीं निकलती हैं।
विसरण मॉडल (Diffusion Model): एक धुंधली, पिक्सेलेटेड तस्वीर के बारे में सोचें जो धीरे-धीरे स्पष्ट और विस्तृत हो जाती है जैसे कि कोई कलाकार सावधानीपूर्वक विवरण वापस जोड़ रहा हो। एक विसरण मॉडल एक AI है जो इसे विपरीत क्रम में करना सीखता है: यह शुद्ध स्थैतिक (जैसे बिना सिग्नल वाले टीवी) से शुरू होता है और धीरे-धीरे इसे चरण-दर-चरण "अन-ब्लर" या "डीनोइज़" करता है जब तक कि यह एक पूर्ण, यथार्थवादी छवि प्रकट न कर दे।
Ill-posed समस्या (Ill-posed problem): यह एक पहेली को हल करने की कोशिश करने जैसा है जहाँ कई संभावित उत्तर होते हैं, या जहाँ आपके प्रारंभिक अनुमान में एक छोटा सा बदलाव एक पूरी तरह से अलग परिणाम की ओर ले जाता है। CEMRI संश्लेषण के लिए, इसका मतलब है कि कंट्रास्ट एजेंट के बिना, इनपुट (NCMRI) एक आदर्श CEMRI को मज़बूती से उत्पन्न करने के लिए पर्याप्त स्पष्ट सुराग नहीं देता है, जिससे यह त्रुटियों के प्रति संवेदनशील हो जाता है।
स्थानिक विरूपण (Spatial Deformation): एक गुब्बारे पर चेहरा बनाने की कल्पना करें। स्थानिक विरूपण गुब्बारे को धीरे से निचोड़ने या खींचने जैसा है ताकि आंखों या मुंह की स्थिति को सूक्ष्म रूप से स्थानांतरित किया जा सके, बजाय उन्हें मिटाने और फिर से बनाने के। यह उनकी नियुक्ति को ठीक करने के लिए ज्यामितीय रूप से एक छवि के भागों को स्थानांतरित करने के बारे में है।

संकेतन तालिका

संकेतन	विवरण

समस्या परिभाषा और बाधाएँ

मुख्य समस्या सूत्रीकरण और दुविधा

इस पत्र में संबोधित मुख्य समस्या नॉन-कंट्रास्ट मैग्नेटिक रेजोनेंस इमेज (NCMRIs) से कंट्रास्ट-एन्हांस्ड मैग्नेटिक रेजोनेंस इमेज (CEMRIs) का संश्लेषण है, विशेष रूप से T1-भारित, T2-भारित, और FLAIR छवियां।

मॉडल के लिए प्रारंभिक बिंदु (इनपुट) NCMRIs का एक सेट है। प्रशिक्षण के दौरान, एन्हांस्ड ट्यूमर के एनोटेट किए गए मास्क के रूप में सहायक जानकारी का भी उपयोग सीखने की प्रक्रिया को निर्देशित करने के लिए किया जाता है। वांछित अंतिम बिंदु (आउटपुट) एक उच्च-गुणवत्ता वाली सिंथेटिक CEMRI है जो वास्तविक कंट्रास्ट एजेंट इंजेक्शन की आवश्यकता के बिना मस्तिष्क ट्यूमर और उनके एन्हांसमेंट पैटर्न को सटीक रूप से चित्रित करती है।

लुप्त कड़ी या गणितीय अंतर एन्हांस्ड CEMRIs के NCMRIs से संश्लेषण की अंतर्निहित "ill-posed" प्रकृति में निहित है। NCMRIs केवल "एन्हांस्ड क्षेत्रों के बारे में अस्पष्ट प्रमाण" प्रदान करते हैं, जिससे यह अनुमान लगाना बेहद चुनौतीपूर्ण हो जाता है कि कंट्रास्ट एन्हांसमेंट कहाँ और कैसे दिखाई देना चाहिए। पिछले शोध, जिसमें विसरण मॉडल पर आधारित तरीके शामिल हैं, ने इससे संघर्ष किया है, अक्सर "झूठे सकारात्मक और झूठे नकारात्मक एन्हांसमेंट परिणाम" उत्पन्न करते हैं। इसका मतलब है कि गैर-एन्हांस्ड क्षेत्रों को गलत तरीके से उच्च तीव्रता के साथ चित्रित किया जा सकता है (झूठे सकारात्मक), जबकि जिन क्षेत्रों को एन्हांस्ड होना चाहिए उन्हें कम तीव्रता के साथ दिखाया जाता है (झूठे नकारात्मक)। महत्वपूर्ण अंतर इन मॉडलों की "ट्यूमर उप-घटकों की जटिल आकृति विज्ञान" और उनकी विशिष्ट एन्हांसमेंट विशेषताओं को सटीक रूप से कैप्चर करने में असमर्थता है।

पिछले शोधकर्ताओं को फंसाने वाले दर्दनाक व्यापार-बंद या दुविधा त्रुटियों को ठीक करने के उनके दृष्टिकोण से उत्पन्न होती है। वे आम तौर पर एन्हांसमेंट विसंगतियों को तीव्रता त्रुटियों के रूप में मॉडल करते हैं। हालांकि, इन तीव्रता त्रुटियों को ठीक करना "आम तौर पर बड़ा और ठीक करने में चुनौतीपूर्ण होता है।" यह एक कठिन संतुलन कार्य बनाता है: एन्हांसमेंट की निष्ठा में सुधार के लिए अक्सर भारी और प्रबंधित करने में मुश्किल तीव्रता समायोजन की आवश्यकता होती है, जिससे कलाकृतियां या समग्र रूप से कम यथार्थवादी छवि हो सकती है। यह पत्र एक उपन्यास पुनर्गठन का प्रस्ताव करता है: इन तीव्रता त्रुटियों के रूप में देखने के बजाय, उन्हें "ट्यूमर उप-घटकों की गलत व्याख्या" के रूप में तैयार किया गया है। यह स्थानिक विरूपण के माध्यम से ज्यामितीय सुधार की अनुमति देता है, जिसे बड़े तीव्रता सुधारों की तुलना में "अपेक्षाकृत छोटा और अधिक प्रबंधनीय" प्रस्तुत किया जाता है।

बाधाएँ और विफलता मोड

CEMRIs को NCMRIs से संश्लेषित करने की समस्या को कई कठोर, यथार्थवादी बाधाओं द्वारा अविश्वसनीय रूप से कठिन बना दिया गया है:

भौतिक बाधाएँ:
- कंट्रास्ट एजेंटों के स्वास्थ्य जोखिम और लागत: इस कार्य का प्राथमिक उद्देश्य गैडोलीनियम-आधारित कंट्रास्ट एजेंटों की आवश्यकता से बचना है, जिनमें "स्वास्थ्य जोखिम, उच्च लागत और पर्यावरणीय चिंताएं" होती हैं। यह बाधा सटीक संश्लेषण की आवश्यकता को बढ़ाती है।
- अस्पष्ट इनपुट जानकारी: NCMRIs स्वाभाविक रूप से "एन्हांस्ड क्षेत्रों के बारे में अस्पष्ट प्रमाण" प्रदान करते हैं। इसका मतलब है कि इनपुट डेटा में सीधे कंट्रास्ट एन्हांसमेंट का अनुमान लगाने के लिए आवश्यक स्पष्ट जानकारी का अभाव है, जिससे संश्लेषण कार्य मौलिक रूप से चुनौतीपूर्ण हो जाता है।
कम्प्यूटेशनल बाधाएँ:
- Ill-Posed समस्या: NCMRIs से CEMRIs का संश्लेषण एक "अत्यधिक ill-posed" समस्या है। इसका तात्पर्य है कि एक एकल NCMRIs इनपुट के लिए कई संभावित CEMRIs संगत हो सकते हैं, जिससे मॉडल के लिए अतिरिक्त मार्गदर्शन के बिना सही एन्हांस्ड छवि को विशिष्ट रूप से निर्धारित करना मुश्किल हो जाता है।
- जटिल आकृति विज्ञान: मौजूदा मॉडल "ट्यूमर उप-घटकों की जटिल आकृति विज्ञान" को कैप्चर करने में विफल रहते हैं। यह बताता है कि एन्हांस्ड ट्यूमर क्षेत्रों के जटिल आकार और सीमाओं का प्रतिनिधित्व करने के लिए सरल पिक्सेल-वार या तीव्रता-आधारित मैपिंग अपर्याप्त हैं।
- चरणबद्ध डीनोइज़िंग प्रक्रिया: विसरण मॉडल "चरणबद्ध" डीनोइज़िंग प्रक्रिया के माध्यम से संचालित होते हैं। इन कई चरणों के भीतर ज्यामितीय सुधार को प्रभावी ढंग से एकीकृत करना, त्रुटियों को जमा होने या विसरण प्रक्रिया को बाधित किए बिना, एक महत्वपूर्ण कम्प्यूटेशनल और वास्तुशिल्प चुनौती है।
डेटा-संचालित बाधाएँ:
- उच्च-गुणवत्ता वाले एनोटेशन की आवश्यकता (प्रशिक्षण के लिए): जबकि लक्ष्य अनुमान में कंट्रास्ट एजेंटों से बचना है, मॉडल प्रशिक्षण के दौरान "एन्हांस्ड ट्यूमर के एनोटेशन की सहायक जानकारी" पर निर्भर करता है। इन मास्कों को "उच्च-गुणवत्ता वाले लेबल सुनिश्चित करने के लिए नैदानिक विशेषज्ञों द्वारा मैन्युअल रूप से एनोटेट और समीक्षा की जानी चाहिए," जो एक श्रम-गहन और महंगा प्रक्रिया है। ऐसे सटीक ग्राउंड ट्रुथ डेटा की गुणवत्ता और उपलब्धता सफल मॉडल प्रशिक्षण के लिए महत्वपूर्ण है।
- सामान्यीकरण में कठिनाई: मस्तिष्क ट्यूमर की जटिल और विविध प्रकृति का मतलब है कि मॉडल को विभिन्न ट्यूमर प्रकारों और रोगी शरीर रचना विज्ञान में सटीक एन्हांसमेंट को संश्लेषित करने के लिए पर्याप्त मजबूत होना चाहिए, जो एक महत्वपूर्ण सामान्यीकरण चुनौती है।

यह दृष्टिकोण क्यों

चुनाव की अनिवार्यता

लेखकों को मस्तिष्क ट्यूमर के लिए, नॉन-कंट्रास्ट एमआरआई (NCMRI) से कंट्रास्ट-एन्हांस्ड एमआरआई (CEMRI) को संश्लेषित करने में एक महत्वपूर्ण बाधा का सामना करना पड़ा। वे स्पष्ट रूप से कहते हैं कि यह कार्य "अत्यधिक ill-posed" है क्योंकि NCMRIs एन्हांस्ड क्षेत्रों के लिए केवल अस्पष्ट प्रमाण प्रदान करते हैं। पारंपरिक अत्याधुनिक (SOTA) विधियों, जिसमें मानक CNNs, पैलेट जैसे बुनियादी विसरण मॉडल, और यहां तक कि I2SB जैसे अधिक उन्नत विसरण मॉडल भी शामिल हैं, को "ध्यान देने योग्य झूठे सकारात्मक और झूठे नकारात्मक एन्हांसमेंट परिणाम" उत्पन्न करने के लिए पाया गया। यह विशेष रूप से ट्यूमर क्षेत्रों के लिए समस्याग्रस्त था, जहां ये मॉडल ट्यूमर उप-घटकों की जटिल आकृति विज्ञान को पकड़ने में विफल रहे।

D³M दृष्टिकोण की ओर ले जाने वाली महत्वपूर्ण अनुभूति इन एन्हांसमेंट त्रुटियों की एक मौलिक पुनर्व्याख्या थी। उन्हें बड़े, ठीक करने में मुश्किल तीव्रता त्रुटियों के रूप में मानने के बजाय, लेखकों ने उन्हें "ट्यूमर उप-घटकों की गलत व्याख्या" के रूप में पहचाना, जहां एन्हांस्ड क्षेत्रों को गैर-एन्हांस्ड के रूप में गलत समझा गया था, और इसके विपरीत। परिप्रेक्ष्य में इस बदलाव ने स्पष्ट कर दिया कि समस्या को स्थानिक विरूपण के माध्यम से ज्यामितीय सुधार के माध्यम से अधिक प्रभावी ढंग से संबोधित किया जा सकता है। लेखकों ने समझा कि जबकि तीव्रता त्रुटियां आम तौर पर बड़ी और चुनौतीपूर्ण होती हैं, आवश्यक ज्यामितीय सुधार (छोटे विस्थापन) "अपेक्षाकृत छोटे और अधिक प्रबंधनीय" होते हैं। इस अंतर्दृष्टि ने विरूपण-संचालित दृष्टिकोण को न केवल एक सुधार, बल्कि मौजूदा विधियों की विशिष्ट विफलता मोड और अंतर्निहित ill-posedness को दूर करने के लिए एकमात्र व्यवहार्य समाधान बना दिया, खासकर जटिल ट्यूमर संरचनाओं को संभालने में।

तुलनात्मक श्रेष्ठता

D³M विधि कई वास्तुशिल्प लाभों के माध्यम से गुणात्मक श्रेष्ठता प्राप्त करती है जो केवल प्रदर्शन मेट्रिक्स से परे जाते हैं। मुख्य नवाचार तीव्रता त्रुटियों के बजाय ज्यामितीय रूप से एन्हांसमेंट त्रुटियों को संबोधित करने की इसकी क्षमता में निहित है। यह एक गहरा वास्तुशिल्प लाभ है क्योंकि छोटे स्थानिक मिसलिग्न्मेंट को ठीक करना स्वाभाविक रूप से बड़े, त्रुटिपूर्ण तीव्रता मानों को ठीक करने का प्रयास करने की तुलना में अधिक स्थिर और प्रभावी है।

विशेष रूप से, मल्टी-स्टेप स्पैटियल डिफॉर्मेशन मॉड्यूल (MSSDM) एक प्रमुख विभेदक है। पारंपरिक पोस्ट-प्रोसेसिंग विरूपण के विपरीत, MSSDM विसरण मॉडल की चरणबद्ध डीनोइज़िंग प्रक्रिया के भीतर कसकर एकीकृत है। यह एकीकरण दो कारणों से महत्वपूर्ण है: पहला, यह गंभीर त्रुटियों के संचय को रोकता है जिन्हें बाद में ठीक करना मुश्किल होगा; और दूसरा, यह छवि निर्माण और ज्यामितीय सुधार दोनों के संयुक्त अनुकूलन को बढ़ावा देता है। इसका मतलब है कि मॉडल एक साथ ज्यामितीय सटीकता को ठीक करते हुए छवि को संश्लेषित करना सीखता है, जिससे एक अधिक मजबूत और सटीक आउटपुट प्राप्त होता है।

इसके अलावा, डुअल-स्ट्रीम इमेज-मास्क डिकोडर (DSIMD) एन्हांस्ड ट्यूमर को सेगमेंट करने का एक सहायक कार्य प्रदान करता है। यह सिर्फ एक ऐड-ऑन नहीं है; यह एक वास्तुशिल्प वृद्धि है जो कंट्रास्ट एन्हांसमेंट की मॉडल की मौलिक "समझ" में सुधार करती है। मध्यवर्ती एन्हांस्ड छवियों और मास्क दोनों का उत्पादन करके, DSIMD स्थानिक विरूपण के लिए MSSDM को स्पष्ट, उच्च-स्तरीय मार्गदर्शन प्रदान करता है। यह डुअल-स्ट्रीम प्रोसेसिंग सुनिश्चित करता है कि ज्यामितीय सुधार ट्यूमर की सीमाओं और एन्हांस्ड क्षेत्रों की स्पष्ट अर्थ संबंधी समझ से सूचित होते हैं, जिससे समग्र संश्लेषण गुणात्मक रूप से बेहतर होता है, खासकर ट्यूमर की जटिल आकृति विज्ञान को बनाए रखने में। एब्लेशन अध्ययन पुष्टि करते हैं कि MSSDM और DSIMD दोनों ने बेहतर प्रदर्शन में महत्वपूर्ण योगदान दिया है, विशेष रूप से ट्यूमर क्षेत्रों में, उनके वास्तुशिल्प महत्व को रेखांकित करते हुए।

बाधाओं के साथ संरेखण

D³M दृष्टिकोण समस्या की कठोर आवश्यकताओं और इसके अद्वितीय समाधान गुणों के बीच एक उल्लेखनीय "विवाह" प्रदर्शित करता है। प्राथमिक बाधा, जैसा कि समस्या परिभाषा में पहचाना गया है, NCMRIs से CEMRI संश्लेषण की "अत्यधिक ill-posed" प्रकृति है, जो "झूठे सकारात्मक और झूठे नकारात्मक एन्हांसमेंट" और "ट्यूमर उप-घटकों की जटिल आकृति विज्ञान" को पकड़ने में विफलता की ओर ले जाती है।

D³M इन बाधाओं के साथ पूरी तरह से संरेखित होता है:
1. त्रुटियों का पुनर्व्याख्या: समाधान का मुख्य विचार एन्हांसमेंट त्रुटियों को ज्यामितीय गलत व्याख्याओं के रूप में फिर से तैयार करना सीधे ill-posedness से निपटता है। बड़े, अयोग्य तीव्रता त्रुटियों से जूझने के बजाय, D³M छोटे, अधिक प्रबंधनीय ज्यामितीय सुधारों पर ध्यान केंद्रित करता है। यह संपत्ति NCMRIs से अस्पष्ट साक्ष्य की चुनौती के लिए अद्वितीय रूप से अनुकूल है।
2. मल्टी-स्टेप ज्यामितीय सुधार (MSSDM): विसरण प्रक्रिया के भीतर MSSDM का एकीकरण वृद्धिशील, चरण-दर-चरण ज्यामितीय समायोजन की अनुमति देता है। यह "इन त्रुटियों को दूर करने के लिए एन्हांस्ड क्षेत्रों को विस्थापित करके" झूठे सकारात्मक और झूठे नकारात्मक एन्हांसमेंट की समस्या को सीधे संबोधित करता है। डीनोइज़िंग प्रक्रिया के दौरान लगातार त्रुटियों को ठीक करने की क्षमता ट्यूमर आकृति विज्ञान के जटिल और अक्सर सूक्ष्म विवरणों को परिष्कृत करने के लिए एकदम सही है, जिसके साथ पिछले तरीके संघर्ष करते थे।
3. उन्नत समझ (DSIMD): DSIMD के माध्यम से ट्यूमर सेगमेंटेशन का सहायक कार्य मॉडल को एन्हांस्ड ट्यूमर क्या है, इसकी गहरी, अर्थ संबंधी समझ प्रदान करता है। यह स्पष्ट मार्गदर्शन "ट्यूमर उप-घटकों की जटिल आकृति विज्ञान" को सटीक रूप से संश्लेषित करने के लिए महत्वपूर्ण है, यह सुनिश्चित करता है कि ज्यामितीय सुधार जैविक रूप से प्रशंसनीय और नैदानिक रूप से प्रासंगिक हैं। यह डुअल-स्ट्रीम दृष्टिकोण सुनिश्चित करता है कि मॉडल केवल एक छवि उत्पन्न नहीं करता है, बल्कि एक ऐसी छवि उत्पन्न करता है जो अंतर्निहित शारीरिक और पैथोलॉजिकल संरचनाओं का सम्मान करती है, जो चिकित्सा इमेजिंग के लिए एक महत्वपूर्ण आवश्यकता है।

विकल्पों का अस्वीकरण

यह पत्र अंतर्निहित रूप से, फिर भी दृढ़ता से, CEMRI संश्लेषण से NCMRIs की विशिष्ट चुनौतियों को प्रभावी ढंग से संबोधित करने में उनकी मौलिक सीमाओं को उजागर करके वैकल्पिक दृष्टिकोणों को अस्वीकार करता है। जबकि लेखक प्रत्येक विकल्प के लिए प्रत्यक्ष "अस्वीकरण कथन" प्रदान नहीं करते हैं, वे स्थापित करते हैं कि मौजूदा विधियां, जिसमें लोकप्रिय GANs और बुनियादी विसरण मॉडल शामिल हैं, अपर्याप्त क्यों हैं, इसका एक स्पष्ट औचित्य।

विकल्पों को अस्वीकार करने का मुख्य तर्क "अत्यधिक ill-posed" समस्या और परिणामी "ध्यान देने योग्य झूठे सकारात्मक और झूठे नकारात्मक एन्हांसमेंट परिणाम" को प्रभावी ढंग से संभालने में उनकी असमर्थता से उपजा है, विशेष रूप से "ट्यूमर उप-घटकों की जटिल आकृति विज्ञान" के संबंध में। Pix2Pix (GAN-आधारित) और Palette (एक बुनियादी विसरण मॉडल) जैसी विधियां मौलिक रूप से तीव्रता वितरण के आधार पर मैपिंग सीखने या छवियां उत्पन्न करने के लिए डिज़ाइन की गई हैं। उनकी प्राथमिक सीमा, जैसा कि लेखकों द्वारा निहित है, यह है कि वे एन्हांसमेंट त्रुटियों को मुख्य रूप से तीव्रता त्रुटियों के रूप में मानते हैं। जैसा कि लेखकों ने समझाया है, ये तीव्रता त्रुटियां "आम तौर पर बड़ी और ठीक करने में चुनौतीपूर्ण होती हैं।"

पेपर का तुलनात्मक विश्लेषण (तालिका 1) इस अस्वीकृति को और मजबूत करता है। D³M लगातार Pix2Pix, ResViT (एडवरसैरियल लर्निंग के साथ ट्रांसफॉर्मर और CNNs को संयोजित करने वाला एक मल्टीमॉडल मॉडल), पैलेट, और I2SB (एक श्रोडिंगर ब्रिज विसरण मॉडल) से बेहतर प्रदर्शन करता है, विशेष रूप से महत्वपूर्ण ट्यूमर क्षेत्रों के भीतर। यह अनुभवजन्य साक्ष्य, सैद्धांतिक तर्क के साथ कि मौजूदा विधियां तीव्रता-आधारित त्रुटि प्रबंधन के कारण जटिल ट्यूमर आकृति विज्ञान को पकड़ने में विफल रहती हैं, इन विकल्पों के एक सम्मोहक अस्वीकरण के रूप में कार्य करती हैं। D³M के ज्यामितीय सुधार प्रतिमान को इन पूर्व दृष्टिकोणों से एक आवश्यक प्रस्थान के रूप में प्रस्तुत किया गया है, जो इस चुनौतीपूर्ण चिकित्सा छवि संश्लेषण कार्य में अंतर्निहित गलत व्याख्या त्रुटियों के विशिष्ट प्रकार को हल करने के लिए बस सुसज्जित नहीं थे।

गणितीय और तार्किक तंत्र

मास्टर समीकरण

D³M मॉडल का मूल, विशेष रूप से अनुमान चरण के दौरान जहां कंट्रास्ट-एन्हांस्ड एमआरआई (CEMRI) को संश्लेषित किया जाता है, ज्यामितीय विरूपण और पुनरावृत्त डीनोइज़िंग चरण है। इस प्रक्रिया को निम्नलिखित समीकरण द्वारा समाहित किया गया है, जो समय $t$ पर एक शोर स्थिति से समय $t-1$ पर एक कम शोर, ज्यामितीय रूप से सही स्थिति में छवि को अपडेट करता है:

$$x_{t-1} = \phi_{\hat{u}_t} \left( \sqrt{\bar{\alpha}_{t-1}} \hat{x}_0^{(t)} + \sqrt{1-\bar{\alpha}_{t-1}} \hat{\epsilon}_{i,t} \right)$$

यह समीकरण एक डीनोइज़िंग डिफ्यूजन इम्प्लिसिट मॉडल (DDIM) के एक संशोधित नियतात्मक रिवर्स स्टेप का प्रतिनिधित्व करता है, जहां अनुमानित मूल छवि $\hat{x}_0^{(t)}$ और अनुमानित शोर $\hat{\epsilon}_{i,t}$ को पहले वर्तमान शोर छवि $x_t$ और मॉडल की वेग भविष्यवाणियों से अनुमानित किया जाता है, और फिर $x_{t-1}$ के रूप में अगले, कम शोर वाली छवि बनाने के लिए $\phi_{\hat{u}_t}$ द्वारा स्थानिक रूप से विकृत किया जाता है।

पद-दर-पद विच्छेदन

आइए मास्टर समीकरण और इसके अंतर्निहित घटकों का विश्लेषण करें:

$x_{t-1}$: यह समय चरण $t-1$ पर अनुमानित CEMRI छवि का प्रतिनिधित्व करता है। यह वर्तमान रिवर्स डिफ्यूजन चरण का आउटपुट है, जिसने डीनोइज़िंग और ज्यामितीय सुधार दोनों से गुजरा है। इसकी भौतिक भूमिका शोर से वांछित CEMRI को उत्तरोत्तर पुनर्निर्माण करना है।
$\phi_{\hat{u}_t}(\cdot)$: यह स्थानिक विरूपण ऑपरेटर है। यह अपने इनपुट पर एक ज्यामितीय परिवर्तन लागू करता है, विरूपण क्षेत्र $\hat{u}_t$ के अनुसार छवि सामग्री को विकृत करता है। लेखक ने इस ऑपरेटर का उपयोग सरल अंकगणितीय संचालन के बजाय किया क्योंकि समस्या को ट्यूमर उप-घटकों की गलत ज्यामितीय व्याख्या के रूप में तैयार किया गया है, जिसके लिए केवल तीव्रता सुधार के बजाय स्थानिक समायोजन की आवश्यकता होती है।
- $\hat{u}_t$: यह समय चरण $t$ पर अनुमानित विरूपण क्षेत्र है। यह एक 2D वेक्टर क्षेत्र (2D स्लाइस के लिए) है जो निर्दिष्ट करता है कि प्रत्येक पिक्सेल को कैसे विस्थापित किया जाना चाहिए। इसकी भौतिक भूमिका संश्लेषित छवि में झूठे सकारात्मक और झूठे नकारात्मक एन्हांसमेंट को ज्यामितीय रूप से ठीक करना है। इसका अनुमान मल्टी-स्टेप स्पैटियल डिफॉर्मेशन मॉड्यूल (MSSDM) के भीतर डिफॉर्मेशन एस्टिमेशन मॉड्यूल $U(\cdot)$ द्वारा लगाया जाता है, जो मध्यवर्ती मास्क अनुमान $\hat{m}_0^{(t)}$ को इनपुट के रूप में लेता है।
- $\hat{m}_0^{(t)}$: यह समय $t$ पर मूल (ग्राउंड ट्रुथ) एन्हांस्ड ट्यूमर मास्क का एक मध्यवर्ती अनुमान है। इसकी गणना शोर वाले मास्क $m_t$ और अनुमानित मास्क वेग $\hat{v}_{m,t}$ से सूत्र का उपयोग करके की जाती है:
  $$\hat{m}_0^{(t)} = \sqrt{\bar{\alpha}_t} m_t - \sqrt{1-\bar{\alpha}_t} \cdot \hat{v}_{m,t}$$
  इसकी तार्किक भूमिका ट्यूमर के एन्हांस्ड क्षेत्रों का एक स्वच्छ, दूषित-मुक्त प्रतिनिधित्व प्रदान करना है, जो विरूपण क्षेत्र अनुमान को निर्देशित करने के लिए महत्वपूर्ण है। यहाँ घटाव फॉरवर्ड डिफ्यूजन प्रक्रिया को उलटने का हिस्सा है, प्रभावी रूप से मास्क को "डीनोइज़" कर रहा है।
$\sqrt{\bar{\alpha}_{t-1}}$: यह अनुमानित मूल छवि घटक के लिए एक स्केलिंग कारक है। यह शोर अनुसूची मापदंडों से प्राप्त होता है और पुनर्निर्माण में "सिग्नल" (अनुमानित मूल छवि) के वजन को निर्धारित करता है। वर्गमूल विचरण को संभालने के लिए विसरण मॉडल में मानक है।
$\hat{x}_0^{(t)}$: यह मूल (गैर-शोर) CEMRI छवि की मॉडल की भविष्यवाणी है, जिसका अनुमान वर्तमान शोर छवि $x_t$ और समय चरण $t$ पर अनुमानित छवि वेग $\hat{v}_{i,t}$ से लगाया जाता है। इसकी भौतिक भूमिका अंतर्निहित स्वच्छ छवि का प्रतिनिधित्व करना है जिसे विसरण प्रक्रिया पुनर्प्राप्त करने की कोशिश कर रही है। इसे इस प्रकार प्राप्त किया जाता है:
$$\hat{x}_0^{(t)} = \frac{\sqrt{\alpha_t} x_t - \sqrt{1-\bar{\alpha}_t} \hat{v}_{i,t}}{\sqrt{\alpha_t \bar{\alpha}_t} + 1-\bar{\alpha}_t}$$
जोड़/घटाव और स्केलिंग कारकों का संयोजन विसरण प्रक्रिया के आगे के व्युत्क्रम और अनुमानित वेग को अनुमानित मूल छवि से संबंधित करने का एक सीधा परिणाम है।
$\sqrt{1-\bar{\alpha}_{t-1}}$: यह अनुमानित शोर घटक पर लागू एक और स्केलिंग कारक है। यह पुनर्निर्माण में "शोर" के वजन का प्रतिनिधित्व करता है। $\sqrt{\bar{\alpha}_{t-1}}$ की तरह, इसका रूप विचरण अनुसूची से प्राप्त होता है।
$\hat{\epsilon}_{i,t}$: यह गॉसियन शोर घटक की मॉडल की भविष्यवाणी है जिसे $x_t$ उत्पन्न करने के लिए मूल छवि में जोड़ा गया था। इसकी भौतिक भूमिका यादृच्छिक उतार-चढ़ाव का प्रतिनिधित्व करना है जिसे हटाने की आवश्यकता है। इसे $x_t$ और अनुमानित छवि वेग $\hat{v}_{i,t}$ से इस प्रकार प्राप्त किया जाता है:
$$\hat{\epsilon}_{i,t} = \frac{\sqrt{1-\bar{\alpha}_t} x_t + \sqrt{\bar{\alpha}_t} \hat{v}_{i,t}}{\sqrt{\alpha_t \bar{\alpha}_t} + 1-\bar{\alpha}_t}$$
फिर से, अंकगणितीय संचालन विसरण प्रक्रिया के आगे के व्युत्क्रम का हिस्सा हैं।
$x_t$: यह वर्तमान समय चरण $t$ पर शोर वाली CEMRI छवि है, जो वर्तमान डीनोइज़िंग चरण के इनपुट के रूप में कार्य करती है।
$\hat{v}_{i,t}$: यह समय चरण $t$ पर अनुमानित छवि वेग पद है। यह डुअल-स्ट्रीम इमेज-मास्क डिकोडर (DSIMD) $D(\cdot)$ का प्राथमिक आउटपुट है, जो शोर वाली छवि $x_t$, शोर वाली मास्क $m_t$, कंडीशनल NCMRIs $c$, और समय चरण $t$ को इनपुट के रूप में लेता है:
$$(\hat{v}_{i,t}, \hat{v}_{m,t}) = D(E(x_t, m_t, c, t), t)$$
इसकी तार्किक भूमिका मॉडल के लिए सीखने के लिए एक अधिक स्थिर और कुशल लक्ष्य प्रदान करना है, बजाय सीधे शोर या डीनोइज़्ड छवि की भविष्यवाणी करने के।
$m_t$: यह वर्तमान समय चरण $t$ पर शोर वाली एन्हांस्ड ट्यूमर मास्क है। इसे मास्क वेग भविष्यवाणी को निर्देशित करने के लिए $x_t$ के साथ संसाधित किया जाता है।
$c$: ये कंडीशनल छवियां हैं, विशेष रूप से नॉन-कंट्रास्ट मैग्नेटिक रेजोनेंस इमेज (NCMRIs)। वे मॉडल को महत्वपूर्ण शारीरिक संदर्भ प्रदान करते हैं, CEMRI के संश्लेषण को निर्देशित करते हैं। उन्हें एनकोडर में खिलाए जाने से पहले शोर वाले इनपुट के साथ जोड़ा जाता है।
$t$: यह विसरण प्रक्रिया में वर्तमान समय चरण का प्रतिनिधित्व करता है, जो $T$ (शुद्ध शोर) से $0$ (स्वच्छ छवि) तक होता है। यह मॉडल को वर्तमान शोर स्तर के बारे में सूचित करने के लिए नेटवर्क में खिलाया जाता है।
$E(\cdot)$: यह एनकोडर नेटवर्क है, जो PixelCNN++ पर आधारित है जिसमें एक वाइड ResNet बैकबोन है। इसकी भूमिका शोर वाली छवि, मास्क और कंडीशनल NCMRIs से प्रासंगिक सुविधाओं को निकालना है।
$D(\cdot)$: यह डुअल-स्ट्रीम इमेज-मास्क डिकोडर (DSIMD) है, जो एन्कोडेड सुविधाओं और समय चरण $t$ को लेता है ताकि संयुक्त रूप से अनुमानित छवि वेग $\hat{v}_{i,t}$ और मास्क वेग $\hat{v}_{m,t}$ का उत्पादन किया जा सके। डुअल-स्ट्रीम डिज़ाइन छवि और मास्क जानकारी के अलग-अलग संचालन की अनुमति देता है, जिससे कंट्रास्ट एन्हांसमेंट की मॉडल की समझ में सुधार होता है।
$\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$: यह समय $t$ तक शोर अनुसूची मापदंडों $\alpha_s$ का संचयी उत्पाद है। यह फॉरवर्ड डिफ्यूजन प्रक्रिया में मूल छवि घटक के समग्र स्केलिंग को निर्धारित करता है। उत्पाद का उपयोग किया जाता है क्योंकि विचरण स्वतंत्र गॉसियन शोर योग में जुड़ते हैं।
$\alpha_t$: यह समय चरण $t$ पर शोर अनुसूची से एक पैरामीटर है, जो प्रत्येक चरण में जोड़े गए या हटाए गए शोर की मात्रा को निर्धारित करता है।

चरण-दर-चरण प्रवाह

कल्पना कीजिए कि एक एकल अमूर्त डेटा बिंदु, जो मस्तिष्क में एक वोक्सेल का प्रतिनिधित्व करता है, अनुमान (संश्लेषण) प्रक्रिया के दौरान परिवर्तन से गुजरता है। लक्ष्य शुद्ध शोर ($x_T$) की प्रारंभिक स्थिति से एक स्वच्छ, कंट्रास्ट-एन्हांस्ड एमआरआई ($x_0$) उत्पन्न करना है।

आरंभीकरण: प्रक्रिया सबसे बड़े समय चरण, $t=T$ पर शुरू होती है। हम एक पूरी तरह से शोर वाली छवि $x_T$ और एक शोर वाली मास्क $m_T$ से शुरू करते हैं, दोनों अनिवार्य रूप से यादृच्छिक गॉसियन शोर हैं।
फ़ीचर निष्कर्षण (एनकोडर): प्रत्येक चरण $t$ पर ( $T$ से नीचे $1$ तक शुरू करते हुए), वर्तमान शोर वाली छवि $x_t$, शोर वाली मास्क $m_t$, कंडीशनल नॉन-कंट्रास्ट एमआरआई $c$, और वर्तमान समय चरण $t$ को एनकोडर $E(\cdot)$ में खिलाया जाता है। यह एनकोडर एक परिष्कृत फ़िल्टर की तरह कार्य करता है, जो शोर के बीच भी अंतर्निहित संरचना और एन्हांसमेंट पैटर्न का प्रतिनिधित्व करने वाली सार्थक सुविधाओं को निकालता है।
वेग भविष्यवाणी (DSIMD): एनकोडर द्वारा निकाली गई सुविधाओं को फिर डुअल-स्ट्रीम इमेज-मास्क डिकोडर $D(\cdot)$ में पास किया जाता है। यह डिकोडर, दो समानांतर स्ट्रीम के साथ डिज़ाइन किया गया है, इन सुविधाओं को दो महत्वपूर्ण "वेग" शब्दों की भविष्यवाणी करने के लिए संसाधित करता है: छवि के लिए $\hat{v}_{i,t}$ और मास्क के लिए $\hat{v}_{m,t}$। ये वेग शोर वाली स्थिति से स्वच्छ मूल छवि और मास्क की ओर बढ़ने के लिए आवश्यक परिवर्तन की दिशा और परिमाण को इंगित करते हैं।
मध्यवर्ती छवि और मास्क अनुमान:
- अनुमानित छवि वेग $\hat{v}_{i,t}$ और वर्तमान शोर वाली छवि $x_t$ का उपयोग करके, मॉडल गणितीय रूप से फॉरवर्ड डिफ्यूजन प्रक्रिया को उलट देता है ताकि यह अनुमान लगाया जा सके कि मूल, स्वच्छ CEMRI छवि ($\hat{x}_0^{(t)}$) कैसी दिखेगी, और शोर घटक ($\hat{\epsilon}_{i,t}$) क्या था। यह $\hat{x}_0^{(t)}$ और $\hat{\epsilon}_{i,t}$ के लिए व्युत्पन्न सूत्रों का उपयोग करके किया जाता है।
- इसी तरह, अनुमानित मास्क वेग $\hat{v}_{m,t}$ और वर्तमान शोर वाली मास्क $m_t$ का उपयोग करके, मूल, स्वच्छ एन्हांस्ड ट्यूमर मास्क ($\hat{m}_0^{(t)}$) का एक मध्यवर्ती अनुमान (समीकरण 4 के अनुसार) गणना की जाती है। यह मास्क ट्यूमर उप-घटकों को समझने के लिए महत्वपूर्ण है।
विरूपण क्षेत्र अनुमान (MSSDM): मध्यवर्ती मास्क अनुमान $\hat{m}_0^{(t)}$ को फिर डिफॉर्मेशन एस्टिमेशन मॉड्यूल $U(\cdot)$ में खिलाया जाता है, जो मल्टी-स्टेप स्पैटियल डिफॉर्मेशन मॉड्यूल (MSSDM) का हिस्सा है। यह मॉड्यूल अनुमानित मास्क का विश्लेषण करके झूठे सकारात्मक या झूठे नकारात्मक एन्हांसमेंट के क्षेत्रों की पहचान करता है और एक विरूपण क्षेत्र $\hat{u}_t$ की गणना करता है। यह क्षेत्र निर्दिष्ट करता है कि इन एन्हांसमेंट त्रुटियों को ज्यामितीय रूप से ठीक करने के लिए पिक्सेल को कैसे स्थानांतरित करने की आवश्यकता है।
ज्यामितीय सुधार (स्थानिक विरूपण): अनुमानित मूल छवि $\hat{x}_0^{(t)}$ और शोर अनुमान $\hat{\epsilon}_{i,t}$ को फिर स्थानिक विरूपण ऑपरेटर $\phi_{\hat{u}_t}$ के माध्यम से पारित किया जाता है। यह ऑपरेटर इन छवियों को $\hat{u}_t$ विरूपण क्षेत्र के अनुसार विकृत करता है, प्रभावी रूप से एन्हांस्ड क्षेत्रों को उनके सही स्थानों पर "स्थानांतरित" करता है या नकली लोगों को हटाता है। यह एक महत्वपूर्ण कदम है जो D³M को अलग करता है, क्योंकि यह केवल तीव्रता से सुधार करने के बजाय ज्यामितीय रूप से त्रुटियों को ठीक करता है।
रिवर्स डिफ्यूजन स्टेप: अंत में, विकृत $\hat{x}_0^{(t)}$ और $\hat{\epsilon}_{i,t}$ को DDIM रिवर्स स्टेप (मास्टर समीकरण) का उपयोग करके संयोजित किया जाता है। यह चरण प्रभावी रूप से छवि से शोर की एक छोटी मात्रा को हटा देता है, जिससे एक नई, कम शोर वाली और ज्यामितीय रूप से सही छवि $x_{t-1}$ उत्पन्न होती है।
पुनरावृति: यह पूरी प्रक्रिया दोहराई जाती है, जिसमें $x_{t-1}$ अगले चरण के लिए नया $x_t$ बन जाता है, जब तक कि $t$ $0$ तक नहीं पहुंच जाता। $t=0$ पर, अंतिम संश्लेषित CEMRI छवि $x_0$ प्राप्त होती है, जो सटीक ट्यूमर आकृति विज्ञान के साथ कंट्रास्ट-एन्हांस्ड छवि के मॉडल के सर्वोत्तम अनुमान का प्रतिनिधित्व करती है।

यह अनुक्रमिक, पुनरावृत्त प्रक्रिया मॉडल को छवि को धीरे-धीरे परिष्कृत करने, इसे डीनोइज़ करने और साथ ही ट्यूमर एन्हांसमेंट से संबंधित ज्यामितीय विकृतियों को ठीक करने की अनुमति देती है।

अनुकूलन गतिशीलता

D³M तंत्र सावधानीपूर्वक निर्मित हानि फ़ंक्शन के आधार पर अपने आंतरिक मापदंडों (तंत्रिका नेटवर्क के भार) को पुनरावृत्त रूप से समायोजित करके सीखता है और अभिसरण करता है। यह प्रक्रिया दो मुख्य घटकों के परस्पर क्रिया से प्रेरित होती है:

हानि फ़ंक्शन: मॉडल को एक संयुक्त हानि को कम करने के लिए प्रशिक्षित किया जाता है, जिसमें दो भाग होते हैं:
- भारित माध्य वर्ग त्रुटि हानि ($\mathcal{L}_{wmse}$): यह विसरण मॉडल में एक मानक हानि है, जो आम तौर पर मॉडल की भविष्यवाणियों (जैसे, अनुमानित शोर $\hat{\epsilon}_{i,t}$ या अनुमानित वेग $\hat{v}_{i,t}$) और वास्तविक मानों के बीच विसंगति को मापती है। पत्र कहता है कि इसे "प्रत्येक चरण में संश्लेषण परिणाम" पर लागू किया जाता है, जिसका अर्थ है कि यह मॉडल को सटीक CEMRI छवियां उत्पन्न करने के लिए निर्देशित करता है। "भारित" पहलू का मतलब है कि छवि के विभिन्न भागों या विभिन्न समय चरणों का समग्र हानि में अलग-अलग योगदान हो सकता है, संभावित रूप से ट्यूमर जैसे महत्वपूर्ण क्षेत्रों पर अधिक ध्यान केंद्रित किया जा सकता है। यह हानि "घाटियों" का निर्माण करके परिदृश्य को आकार देती है जहाँ मॉडल की भविष्यवाणियां ग्राउंड ट्रुथ से निकटता से मेल खाती हैं, सटीक छवि संश्लेषण को प्रोत्साहित करती हैं।
- विरूपण चिकनाई नियमितीकरण ($\mathcal{L}_{sreg}$): यह शब्द प्रत्येक चरण में विरूपण क्षेत्र $\hat{u}_t$ पर लागू होता है। यह आम तौर पर इसके स्थानिक ग्रेडिएंट्स के L2 नॉर्म की गणना करके विरूपण क्षेत्र में बड़े या अचानक परिवर्तनों को दंडित करता है। इसका उद्देश्य यह सुनिश्चित करना है कि ज्यामितीय सुधार चिकने और शारीरिक रूप से प्रशंसनीय हों, जिससे मॉडल को अवास्तविक या दांतेदार विरूपण उत्पन्न करने से रोका जा सके। यह नियमितीकरण शब्द एक "दंड" के रूप में कार्य करता है जो विरूपण से संबंधित हानि परिदृश्य में अत्यधिक जटिल या शोर वाले क्षेत्रों को समतल करता है, मॉडल को अधिक स्थिर और व्याख्या योग्य परिवर्तनों की ओर निर्देशित करता है। लेखक ने इस शब्द का उपयोग मॉडल को शोर पर ओवरफिटिंग या विरूपण में कलाकृतियां बनाने से रोकने के लिए किया।
ग्रेडिएंट-आधारित अनुकूलन: प्रशिक्षण के दौरान, संयुक्त हानि की गणना की जाती है, और फिर एनकोडर $E(\cdot)$, डुअल-स्ट्रीम इमेज-मास्क डिकोडर $D(\cdot)$, और डिफॉर्मेशन एस्टिमेशन मॉड्यूल $U(\cdot)$ में सभी प्रशिक्षण योग्य मापदंडों के संबंध में इस हानि के ग्रेडिएंट्स की गणना बैकप्रॉपैगेशन का उपयोग करके की जाती है। ये ग्रेडिएंट्स इंगित करते हैं कि हानि को कम करने के लिए प्रत्येक पैरामीटर को किस दिशा और परिमाण में समायोजित किया जाना चाहिए।
अनुकूलक: एडम अनुकूलक [12] का उपयोग मॉडल के मापदंडों को अपडेट करने के लिए किया जाता है। एडम एक अनुकूली सीखने की दर अनुकूलन एल्गोरिथम है जो ग्रेडिएंट्स के पहले और दूसरे क्षणों के अनुमानों के आधार पर प्रत्येक पैरामीटर के लिए सीखने की दर को कुशलतापूर्वक समायोजित करता है। यह मॉडल को जटिल हानि परिदृश्य को अधिक प्रभावी ढंग से नेविगेट करने और तेजी से अभिसरण करने में मदद करता है। सीखने की दर $8 \times 10^{-5}$ पर सेट की गई है, और बैच आकार 16 का उपयोग किया जाता है, जिसका अर्थ है कि 16 छवि-मास्क जोड़े को संसाधित करने के बाद पैरामीटर अपडेट किए जाते हैं।
पुनरावृत्त स्थिति अद्यतन और अभिसरण: मॉडल 200,000 प्रशिक्षण पुनरावृत्तियों से गुजरता है। प्रत्येक पुनरावृति में, डेटा के एक बैच को संसाधित किया जाता है, हानि की गणना की जाती है, और मापदंडों को अपडेट किया जाता है। यह पुनरावृत्त प्रक्रिया मॉडल को शोर वाले इनपुट, कंडीशनल जानकारी और वांछित स्वच्छ, ज्यामितीय रूप से सही CEMRI और मास्क के बीच जटिल संबंधों को धीरे-धीरे सीखने की अनुमति देती है। हानि परिदृश्य, $\mathcal{L}_{wmse}$ और $\mathcal{L}_{sreg}$ दोनों द्वारा आकार दिया गया है, मॉडल को एक न्यूनतम की ओर निर्देशित करता है जहां यह वेग और विरूपण क्षेत्रों को सटीक रूप से भविष्यवाणी कर सकता है। अभिसरण तब प्राप्त होता है जब सत्यापन डेटा पर मॉडल का प्रदर्शन महत्वपूर्ण रूप से सुधरना बंद हो जाता है, यह दर्शाता है कि इसने उच्च-गुणवत्ता वाले CEMRIs को सटीक ज्यामितीय सुधार के साथ संश्लेषित करने के लिए एक स्थिर मैपिंग सीखी है, जैसा कि बेहतर PSNR और SSIM स्कोर द्वारा प्रमाणित है। ज्यामितीय सुधार के साथ छवि निर्माण के संयुक्त अनुकूलन, डीनोइज़िंग प्रक्रिया के भीतर MSSDM के तंग एकीकरण द्वारा सुगम, त्रुटि संचय को रोकने और अधिक मजबूत अभिसरण को बढ़ावा देने में मदद करता है।

Figure 1. An overview of the network architecture of D3M

परिणाम, सीमाएँ और निष्कर्ष

प्रायोगिक डिजाइन और बेसलाइन

अपने विरूपण-संचालित विसरण मॉडल (D³M) को कठोरता से मान्य करने के लिए, लेखकों ने दो सार्वजनिक रूप से उपलब्ध डेटासेट पर व्यापक प्रयोग किए: BraSyn [13] और BraTS-PEDs [11]। ये डेटासेट समृद्ध हैं, जिनमें क्रमशः 1,470 और 307 रोगियों के मस्तिष्क चुंबकीय अनुनाद चित्र शामिल हैं, सभी को मस्तिष्क ट्यूमर का निदान किया गया है। महत्वपूर्ण रूप से, वे संरेखित T1-भारित, T2-भारित, FLAIR, और लक्ष्य कंट्रास्ट-एन्हांस्ड T1-भारित (CEMRI) छवियां शामिल करते हैं। प्रशिक्षण के लिए, मॉडल ने BraSyn में 1,251 और BraTS-PEDs में 216 रोगियों के लिए उपलब्ध, एन्हांस्ड ट्यूमर के मैन्युअल रूप से एनोटेट और नैदानिक रूप से समीक्षा किए गए मास्क के रूप में सहायक जानकारी का लाभ उठाया। डेटासेट को निष्पक्ष मूल्यांकन सुनिश्चित करने के लिए प्रशिक्षण, सत्यापन और परीक्षण सेट में विभाजित किया गया था, क्रमशः BraSyn के लिए 1,001/250/219 रोगियों और BraTS-PEDs के लिए 173/43/91 रोगियों के साथ।

D³M का क्रूरतापूर्वक परीक्षण करने के खिलाफ जिन "पीड़ितों" (बेसलाइन मॉडल) का परीक्षण किया गया, उनमें अत्याधुनिक छवि संश्लेषण विधियों की एक विविध श्रृंखला शामिल थी। इनमें शामिल थे:
- Pix2Pix [10]: एक CNN आर्किटेक्चर का उपयोग करने वाला एक मौलिक GAN-आधारित छवि-से-छवि अनुवाद मॉडल।
- ResViT [4]: एक हालिया मल्टीमॉडल मेडिकल इमेज सिंथेसिस मॉडल जो चतुराई से विजन ट्रांसफॉर्मर को कनवल्शनल ऑपरेटरों और एडवरसैरियल लर्निंग के साथ जोड़ता है।
- Palette [18]: छवि संश्लेषण के लिए एक प्रतिनिधि बुनियादी विसरण मॉडल।
- I2SB [14]: एक श्रोडिंगर ब्रिज डिफ्यूजन मॉडल, जो एक उन्नत संस्करण है जो पारंपरिक डिफ्यूजन मॉडल में सुधार करता है।

एक निष्पक्ष लड़ाई सुनिश्चित करने के लिए, सभी प्रतिस्पर्धी विधियों को D³M के समान डेटा स्प्लिट का उपयोग करके प्रशिक्षित, मान्य और परीक्षण किया गया था। इसके अलावा, लेखकों ने D³M के दृष्टिकोण को दर्शाते हुए, बेसलाइन विधियों के लिए प्रशिक्षण के दौरान एक सहायक कार्य के रूप में एन्हांस्ड ट्यूमर मास्क प्रदान करके खेल के मैदान को समतल करने के लिए एक कदम आगे बढ़ाया। इस सावधानीपूर्वक प्रायोगिक डिजाइन का उद्देश्य D³M के मुख्य वास्तुशिल्प नवाचारों के प्रभाव को अलग करना था।

संश्लेषित और वास्तविक CEMRIs के बीच, छवि गुणवत्ता मूल्यांकन में दो व्यापक रूप से स्वीकृत मेट्रिक्स का उपयोग करके प्रदर्शन का मात्रात्मक रूप से मूल्यांकन किया गया था: पीक सिग्नल-टू-नॉइज़ रेशियो (PSNR) और स्ट्रक्चरल सिमिलैरिटी इंडेक्स मेजर (SSIM)। ट्यूमर क्षेत्रों के महत्वपूर्ण महत्व को पहचानते हुए, ये मेट्रिक्स विशेष रूप से इन क्षेत्रों के भीतर भी गणना किए गए थे। परीक्षण छवियों के लिए ट्यूमर क्षेत्रों को सीमांकित करने के लिए, प्रशिक्षण डेटा से ट्यूमर एनोटेशन पर एक nnU-Net सेगमेंटेशन मॉडल [9] को प्रशिक्षित किया गया था। सुधारों की सांख्यिकीय महत्वता को $p < 0.001$ की एक कठोर सीमा के साथ विल्कोक्सन साइन्ड-रैंक टेस्ट का उपयोग करके निर्धारित किया गया था। छवियों को 0.5वें और 99.5वें प्रतिशतक के बीच तीव्रता मानों को क्लिप करके और [0,1] में पुन: स्केल करके सामान्यीकृत किया गया था, जिसमें 256 × 256 का इनपुट आकार था, जिसे एडम अनुकूलक [12] का उपयोग करके 200,000 पुनरावृत्तियों के लिए प्रशिक्षित किया गया था, जिसमें 16 का बैच आकार और $8 \times 10^{-5}$ की सीखने की दर थी।

साक्ष्य क्या साबित करते हैं

साक्ष्य स्पष्ट रूप से CEMRI संश्लेषण के D³M के उपन्यास दृष्टिकोण की प्रभावकारिता को साबित करते हैं, विशेष रूप से स्थानिक विरूपण के माध्यम से ज्यामितीय रूप से एन्हांसमेंट त्रुटियों को ठीक करने के इसके मुख्य तंत्र के लिए। लेखकों की परिकल्पना कि एन्हांसमेंट त्रुटियों को केवल तीव्रता त्रुटियों के बजाय ट्यूमर उप-घटकों की गलत व्याख्या के रूप में फिर से तैयार करने से अधिक प्रबंधनीय ज्यामितीय सुधार की अनुमति मिलती है, गुणात्मक और मात्रात्मक दोनों परिणामों द्वारा दृढ़ता से समर्थित है।

दृश्य श्रेष्ठता (चित्र 2): चित्र 2 में प्रस्तुत गुणात्मक परिणाम सम्मोहक दृश्य प्रमाण प्रदान करते हैं। D³M के संश्लेषित CEMRIs सभी बेसलाइन विधियों की तुलना में आश्चर्यजनक रूप से "वास्तविक छवि के साथ अधिक सुसंगत" हैं। महत्वपूर्ण रूप से, जटिल ट्यूमर और वाहिका क्षेत्रों (लाल तीरों द्वारा हाइलाइट किए गए) के भीतर, D³M एन्हांसमेंट पैटर्न को सटीक रूप से पुन: उत्पन्न करता है जो ग्राउंड ट्रुथ से निकटता से मेल खाते हैं। इसके विपरीत, प्रतिस्पर्धी विधियां अक्सर "ध्यान देने योग्य झूठे सकारात्मक और/या झूठे नकारात्मक एन्हांसमेंट" प्रदर्शित करती हैं, या तो नकली एन्हांस्ड क्षेत्रों को उत्पन्न करती हैं या उन क्षेत्रों को एन्हांस करने में विफल रहती हैं जिन्हें होना चाहिए। विशेष रूप से जटिल पैथोलॉजिकल संरचनाओं में यह दृश्य निष्ठा, D³M की सूक्ष्म ज्यामितीय विसंगतियों को पकड़ने और ठीक करने की क्षमता का एक सीधा प्रमाण है।
मात्रात्मक प्रभुत्व (तालिका 1): मात्रात्मक मेट्रिक्स कठोर, सांख्यिकीय साक्ष्य प्रदान करते हैं। D³M ने लगातार BraSyn और BraTS-PEDs दोनों डेटासेट पर उच्चतम PSNR और SSIM मान प्राप्त किए, न केवल "संपूर्ण छवि" के लिए, बल्कि, अधिक महत्वपूर्ण रूप से, "ट्यूमर क्षेत्र" के लिए। उदाहरण के लिए, BraSyn पर, D³M ने पूरे चित्र के लिए PSNR $25.11 \pm 3.33$ और SSIM $90.95 \pm 3.86$ का स्कोर किया, और ट्यूमर क्षेत्र के लिए PSNR $17.33 \pm 4.56$ और SSIM $73.21 \pm 16.22$ का स्कोर किया। ये आंकड़े सभी बेसलाइनों पर एक स्पष्ट सुधार का प्रतिनिधित्व करते हैं। विल्कोक्सन साइन्ड-रैंक टेस्ट का उपयोग करके सांख्यिकीय विश्लेषण ने पुष्टि की कि ये सुधार "अत्यधिक सांख्यिकीय रूप से महत्वपूर्ण ($p < 0.001$)" हैं, जिससे D³M के बेहतर प्रदर्शन के बारे में कोई संदेह नहीं रह गया है। यह मात्रात्मक बढ़त, विशेष रूप से नैदानिक रूप से महत्वपूर्ण ट्यूमर क्षेत्रों के भीतर, इस बात पर प्रकाश डालती है कि D³M का तंत्र प्रभावी रूप से CEMRI संश्लेषण की "ill-posed" प्रकृति को कम करता है।
एब्लेशन स्टडी सत्यापन (तालिका 2): BraSyn डेटासेट पर एब्लेशन अध्ययन D³M के वास्तुशिल्प नवाचारों के घटक-स्तरीय प्रमाण प्रदान करते हैं।
- MSSDM का लाभ: जब मल्टी-स्टेप स्पैटियल डिफॉर्मेशन मॉड्यूल (MSSDM) को हटा दिया गया, जिससे सीधे DSIMD के आउटपुट का वेग शब्दों के लिए उपयोग किया गया, तो PSNR और SSIM दोनों में काफी कमी आई, "विशेष रूप से ट्यूमर क्षेत्र में।" यह सीधे मान्य करता है कि MSSDM का ज्यामितीय सुधार, जो एन्हांसमेंट को समायोजित करने के लिए संश्लेषित छवि को विकृत करता है, सटीक ट्यूमर प्रतिनिधित्व के लिए एक महत्वपूर्ण घटक है। यह पुष्टि करता है कि केवल तीव्रता समायोजन के बजाय स्थानिक विरूपण के माध्यम से एन्हांसमेंट को ठीक करना वास्तव में फायदेमंद है।
- DSIMD का लाभ: डुअल-स्ट्रीम इमेज-मास्क डिकोडर (DSIMD) को हटाकर और इसे एकल डिकोडर से बदलकर एक और अधिक स्पष्ट PSNR और SSIM गिरावट हुई। यह मध्यवर्ती एन्हांस्ड छवियों और मास्क का संयुक्त उत्पादन करने में DSIMD की अनिवार्य भूमिका को प्रदर्शित करता है। यह डुअल-स्ट्रीम दृष्टिकोण स्पष्ट रूप से MSSDM के लिए आवश्यक मार्गदर्शन प्रदान करता है, कंट्रास्ट एन्हांसमेंट की मॉडल की समझ को बढ़ाता है और अधिक सटीक ज्यामितीय सुधारों को सक्षम बनाता है।

संक्षेप में, प्रायोगिक वास्तुकला, मजबूत बेसलाइन मॉडल की हार, और सावधानीपूर्वक एब्लेशन अध्ययन निश्चित और निर्विवाद प्रमाण प्रदान करते हैं कि D³M का मुख्य तंत्र - एक डुअल-स्ट्रीम इमेज-मास्क डिकोडर द्वारा निर्देशित स्थानिक विरूपण के माध्यम से एन्हांसमेंट त्रुटियों का ज्यामितीय सुधार - उच्च-गुणवत्ता वाले CEMRIs के संश्लेषण में एक अत्यधिक प्रभावी और सांख्यिकीय रूप से महत्वपूर्ण प्रगति है, विशेष रूप से मस्तिष्क ट्यूमर के लिए।

सीमाएँ और भविष्य की दिशाएँ

जबकि D³M CEMRI संश्लेषण में एक महत्वपूर्ण छलांग प्रस्तुत करता है, विशेष रूप से मस्तिष्क ट्यूमर के लिए, यह स्वीकार करना महत्वपूर्ण है कि कोई भी वैज्ञानिक प्रयास अपनी सीमाओं और भविष्य के अन्वेषण के लिए रास्तों के बिना नहीं है। पत्र स्वयं, स्पष्ट रूप से "सीमाएँ" अनुभाग सूचीबद्ध नहीं करते हुए, समस्या की अंतर्निहित जटिलता को इंगित करता है, यह देखते हुए कि NCMRIs से CEMRI संश्लेषण "अत्यधिक ill-posed" है और मौजूदा विधियां "ट्यूमर उप-घटकों की जटिल आकृति विज्ञान" के साथ संघर्ष करती हैं। जबकि D³M इन चुनौतियों को प्रभावी ढंग से संबोधित करता है, पूर्ण PSNR और SSIM मान, यहां तक कि सबसे अच्छा प्रदर्शन करने वाले मॉडल के लिए भी, यह सुझाव देते हैं कि सिंथेटिक और वास्तविक छवियों के बीच अभी भी एक अंतर है, जो आगे शोधन के लिए जगह का संकेत देता है। ज्यामितीय सुधार, जबकि शक्तिशाली, "अपेक्षाकृत छोटा" के रूप में वर्णित है, यह दर्शाता है कि यह संश्लेषण प्रक्रिया के पूर्ण ओवरहाल के बजाय एक लक्षित शोधन है।

आगे देखते हुए, D³M के निष्कर्ष कई रोमांचक और महत्वपूर्ण चर्चा विषयों को भविष्य के विकास के लिए खोलते हैं:

विकृति विज्ञान और शरीर रचना विज्ञान भर में सामान्यीकरण: वर्तमान सफलता मस्तिष्क ट्यूमर पर प्रदर्शित की गई है। एक महत्वपूर्ण अगला कदम D³M के प्रदर्शन और अन्य विकृति विज्ञान (जैसे, सूजन, मेटास्टेस) और विभिन्न शारीरिक क्षेत्रों (जैसे, यकृत, प्रोस्टेट, स्तन) के अनुकूलन की जांच करना है। प्रत्येक अंग और रोग कंट्रास्ट एन्हांसमेंट पैटर्न और शारीरिक परिवर्तनशीलता के संदर्भ में अद्वितीय चुनौतियां प्रस्तुत करता है। इन विविध संदर्भों में प्रदर्शन को बनाए रखने या यहां तक कि सुधारने के लिए किन वास्तुशिल्प संशोधनों या प्रशिक्षण रणनीतियों की आवश्यकता होगी?
नैदानिक एकीकरण और नियामक मार्ग: ऐसे शोध का अंतिम लक्ष्य नैदानिक उपयोगिता है। वास्तविक दुनिया के नैदानिक सेटिंग्स में नैदानिक सटीकता और उपचार योजना के लिए सिंथेटिक CEMRIs को कठोरता से कैसे मान्य किया जा सकता है? चिकित्सकों और नियामक निकायों द्वारा वास्तविक CEMRIs के साथ किस स्तर की सहमति को स्वीकार्य माना जाता है? इसमें न केवल छवि गुणवत्ता मेट्रिक्स बल्कि नैदानिक परिणाम अध्ययन भी शामिल हैं। इसके अलावा, रोगी देखभाल के लिए एआई-जनित छवियों का उपयोग करने के नैतिक निहितार्थ, जिसमें देयता और रोगी विश्वास के मुद्दे शामिल हैं, पर सावधानीपूर्वक विचार और मजबूत नियामक ढांचे की आवश्यकता है।
अनिश्चितता मात्राकरण और व्याख्यात्मकता: चिकित्सा इमेजिंग में, निदान में विश्वास सर्वोपरि है। जबकि D³M उच्च-गुणवत्ता वाली छवियां उत्पन्न करता है, विशेष रूप से महत्वपूर्ण ट्यूमर मार्जिन में, संश्लेषित एन्हांसमेंट से जुड़ी अनिश्चितता को मापना अमूल्य होगा। अनिश्चितता अनुमान के लिए तकनीकें सिंथेटिक छवियों की विश्वसनीयता का एक उपाय प्रदान कर सकती हैं। इसके अलावा, विरूपण क्षेत्रों की व्याख्यात्मकता में सुधार - यह समझना कि मॉडल विशिष्ट ज्यामितीय सुधार क्यों लागू करता है - चिकित्सा पेशेवरों के लिए अधिक विश्वास और व्याख्यात्मकता को बढ़ावा दे सकता है।
कम्प्यूटेशनल दक्षता और वास्तविक समय अनुप्रयोग: विसरण मॉडल, जबकि शक्तिशाली, कम्प्यूटेशनल रूप से गहन हो सकते हैं, विशेष रूप से 3D वॉल्यूम और मल्टी-स्टेप प्रक्रियाओं के लिए। नैदानिक दत्तक ग्रहण के लिए, विशेष रूप से समय-संवेदनशील परिदृश्यों में या बड़े पैमाने पर डेटा प्रसंस्करण के लिए, अनुमान के लिए D³M को अनुकूलित करना आवश्यक है। उन्नत नमूनाकरण तकनीकों, मॉडल आसवन, या हार्डवेयर त्वरण की खोज से गुणवत्ता से समझौता किए बिना संश्लेषण समय काफी कम हो जाएगा। यह नैदानिक कार्यप्रवाहों में अधिक व्यावहारिक एकीकरण को सक्षम करेगा।
अनुदैर्ध्य निगरानी और रोग प्रगति: उपचार के प्रति ट्यूमर प्रतिक्रिया की अनुदैर्ध्य निगरानी के लिए अक्सर CEMRIs का उपयोग किया जाता है। क्या D³M समय के साथ ट्यूमर के आकार, आकृति विज्ञान और एन्हांसमेंट में सूक्ष्म परिवर्तनों को सटीक रूप से प्रतिबिंबित करने वाले CEMRIs को लगातार संश्लेषित कर सकता है? कई समय बिंदुओं पर प्रगति या प्रतिगमन के प्रति स्थिरता और संवेदनशीलता बनाए रखना एक जटिल चुनौती है जिससे D³M की ज्यामितीय सुधार क्षमताओं को बहुत लाभ हो सकता है।
मल्टी-मोडल और मल्टी-सीक्वेंस फ्यूजन: वर्तमान NCMRIs में T1, T2, और FLAIR शामिल हैं। भविष्य का काम अतिरिक्त नॉन-कंट्रास्ट अनुक्रमों को शामिल करने की खोज कर सकता है, जैसे कि विसरण-भारित इमेजिंग (DWI) या परफ्यूजन इमेजिंग, जो पूरक शारीरिक जानकारी प्रदान करते हैं। क्या एक समृद्ध इनपुट स्थान मॉडल की ऊतक गुणों की समझ को और बढ़ा सकता है और और भी अधिक सटीक और मजबूत CEMRI संश्लेषण का कारण बन सकता है?

ये चर्चा बिंदु बताते हैं कि जबकि D³M ने महत्वपूर्ण प्रगति की है, सिंथेटिक चिकित्सा इमेजिंग की क्षमता को पूरी तरह से साकार करने की यात्रा जारी है, जिसके लिए अंतःविषय सहयोग और निरंतर नवाचार की आवश्यकता है।

Figure 2. Examples of synthesis results, shown together with the real CEMRI for refer- ence. Note the tumor and vessel regions highlighted by arrows for comparison