MICCAI

छाया से परे: विरल एनोटेशन से भौतिकी-प्रेरित अल्ट्रासाउंड आत्मविश्वास मानचित्र सीखना

अनुसंधान क्षेत्र Medical Image Analysis

Article Type Research analysis

Authors Ronchetti et al.

Original Paper Published 2026

ISOM Posted 2026-03-19 14:47 UTC

Read Time 4M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

पृष्ठभूमि और अकादमिक वंश

उत्पत्ति और अकादमिक वंश

अल्ट्रासाउंड इमेजिंग में विश्वसनीय आत्मविश्वास मानचित्र (confidence maps) उत्पन्न करने की समस्या नई नहीं है; यह काफी समय से चिकित्सा छवि विश्लेषण में एक सतत चुनौती रही है। अल्ट्रासाउंड स्वयं एक व्यापक रूप से इस्तेमाल किया जाने वाला नैदानिक उपकरण है, जिसे इसकी गैर-आक्रामक प्रकृति, वास्तविक समय क्षमताओं और लागत-प्रभावशीलता के लिए महत्व दिया जाता है। आत्मविश्वास मानचित्र प्रत्येक अल्ट्रासाउंड छवि के भीतर प्रत्येक पिक्सेल की विश्वसनीयता का मात्रात्मक रूप से आकलन करने के तरीके के रूप में उभरे, जो विभिन्न डाउनस्ट्रीम अनुप्रयोगों के लिए महत्वपूर्ण जानकारी प्रदान करते हैं। ऐतिहासिक रूप से, इन मानचित्रों का उपयोग तीव्रता पुनर्निर्माण (intensity reconstruction), वॉल्यूम कंपाउंडिंग (volume compounding), यूएस-सीटी पंजीकरण (US-CT registration), छाया का पता लगाने (shadow detection) और डीप लर्निंग सेगमेंटेशन (deep learning segmentation) जैसे क्षेत्रों में किया गया है। हाल ही में, रोबोटिक अल्ट्रासाउंड के लिए प्रोब पोजिशनिंग (probe positioning) और संपर्क बल अनुकूलन (contact force optimization) जैसे कार्यों के लिए उनकी उपयोगिता का विस्तार हुआ है।

हालांकि, इन आत्मविश्वास मानचित्रों को उत्पन्न करने के पिछले दृष्टिकोणों ने महत्वपूर्ण सीमाओं का सामना किया, जिसने लेखकों को इस नवीन विधि को विकसित करने के लिए प्रेरित किया। एक प्राथमिक "दर्द बिंदु" (pain point) यह था कि मौजूदा भौतिकी-आधारित मॉडल अक्सर सामान्य अल्ट्रासाउंड कलाकृतियों (artifacts) को नजरअंदाज कर देते थे, जैसे कि प्रतिध्वनि (reverberation), जिससे गलत आत्मविश्वास आकलन होता था। छाया-आधारित मॉडल, उपयोगी होने के बावजूद, अपने डिजाइन द्वारा स्वाभाविक रूप से विशिष्ट कलाकृति प्रकारों तक सीमित थे। इसके अलावा, कई विधियाँ मनमानी सीमा शर्तों (arbitrary boundary conditions) से जूझती थीं, जिससे विभिन्न फ्रेमों में आत्मविश्वास मानचित्रों की लगातार तुलना करना मुश्किल हो जाता था। शायद सबसे महत्वपूर्ण बात यह है कि पिछले दृष्टिकोणों ने सीमित उपयोगकर्ता नियंत्रण की पेशकश की; गलत असाइन किए गए आत्मविश्वास मानों को ठीक करने के लिए अक्सर पूरे एल्गोरिथम में जटिल और व्यापक संशोधनों की आवश्यकता होती थी, जिससे वे वास्तविक दुनिया के नैदानिक परिदृश्यों के लिए कम अनुकूल बन जाते थे। यह पत्र इन कमियों को दूर करने के लिए एक उपयोगकर्ता-केंद्रित, भौतिकी-प्रेरित दृष्टिकोण प्रस्तुत करता है जो मजबूत और लचीला दोनों है।

सहज डोमेन शब्द (Intuitive Domain Terms)

आत्मविश्वास मानचित्र (Confidence Map): कल्पना कीजिए कि आप मौसम का नक्शा देख रहे हैं, लेकिन तापमान देखने के बजाय, प्रत्येक स्थान आपको यह भी बताता है कि पूर्वानुमान कितना निश्चित है। अल्ट्रासाउंड में "आत्मविश्वास मानचित्र" समान है: यह एक छवि है जहाँ प्रत्येक छोटा बिंदु (पिक्सेल) अल्ट्रासाउंड छवि में उस विशिष्ट बिंदु पर जानकारी कितनी विश्वसनीय या भरोसेमंद है, यह दिखाने के लिए रंगीन है। लाल का मतलब "बहुत निश्चित" हो सकता है, नीला का मतलब "बिल्कुल निश्चित नहीं" हो सकता है।
अल्ट्रासाउंड कलाकृतियाँ (Ultrasound Artifacts): इन्हें अल्ट्रासाउंड छवि में दिखाई देने वाले दृश्य "चाल" या "भ्रम" के रूप में सोचें। वे वास्तविक शारीरिक संरचनाएं नहीं हैं, बल्कि ध्वनि तरंगों के ऊतकों या उपकरणों के साथ परस्पर क्रिया करने के तरीके के कारण होती हैं। उदाहरण के लिए, हड्डी के पीछे एक "छाया" खाली जगह नहीं है, बल्कि एक ऐसा क्षेत्र है जहाँ ध्वनि गुजर नहीं सकती थी, जिससे यह गहरा दिखाई देता है। "प्रतिध्वनि" कई बार गूंजने वाली गूंज की तरह है, जो झूठे, दोहराए जाने वाले पैटर्न बनाती है। ये कलाकृतियाँ एक छवि को भ्रामक बना सकती हैं, और एक अच्छा आत्मविश्वास मानचित्र यह पहचानने में मदद करता है कि ये चालें कहाँ हो रही हैं।
संभाव्य ग्राफिकल मॉडल (Probabilistic Graphical Model - PGM): यह एक परिष्कृत "जासूस बोर्ड" की तरह है जहाँ हर सबूत (प्रत्येक पिक्सेल का संभावित आत्मविश्वास) अन्य टुकड़ों से जुड़ा होता है। कनेक्शन ज्ञात संबंधों या नियमों (जैसे भौतिकी सिद्धांत) का प्रतिनिधित्व करते हैं, और मॉडल इन कनेक्शनों का उपयोग सबसे संभावित समग्र कहानी या "आत्मविश्वास मानचित्र" का पता लगाने के लिए करता है जो सभी सबूतों के अनुकूल है, भले ही कुछ सबूत अनिश्चित हों। यह अनिश्चितता और संबंधों के बारे में तर्क करने का एक तरीका है।
स्कैनलाइन (Scanline): जब एक अल्ट्रासाउंड मशीन एक छवि बनाती है, तो यह एक बार में पूरी तस्वीर कैप्चर नहीं करती है। इसके बजाय, यह कई संकीर्ण ध्वनि बीम भेजती है, एक के बाद एक, जैसे एक चित्रकार एक पूरी तस्वीर बनाने के लिए कई पतली, ऊर्ध्वाधर रेखाएँ खींचता है। ट्रांसड्यूसर से शरीर में और वापस, ध्वनि डेटा की प्रत्येक व्यक्तिगत "रेखा" को स्कैनलाइन कहा जाता है। पूर्ण अल्ट्रासाउंड छवि इन सैकड़ों स्कैनलाइनों से बनी होती है।

संकेतन तालिका (Notation Table)

संकेतन (Notation)	विवरण (Description)
f(d)	गहराई $d$ से ट्रांसड्यूसर पर लौटने वाली प्रतिध्वनि की तीव्रता

समस्या परिभाषा और बाधाएँ

मुख्य समस्या सूत्रीकरण और दुविधा (Core Problem Formulation & The Dilemma)

इस पत्र द्वारा संबोधित मुख्य समस्या अल्ट्रासाउंड (US) छवियों के लिए "आत्मविश्वास मानचित्र" उत्पन्न करना है। ये मानचित्र अल्ट्रासाउंड छवि के भीतर प्रत्येक पिक्सेल की विश्वसनीयता का मात्रात्मक रूप से आकलन करने के लिए महत्वपूर्ण हैं, जो बदले में तीव्रता पुनर्निर्माण, वॉल्यूम कंपाउंडिंग और रोबोटिक अल्ट्रासाउंड मार्गदर्शन जैसे विभिन्न डाउनस्ट्रीम अनुप्रयोगों का समर्थन करता है।

प्रारंभ बिंदु (इनपुट/वर्तमान स्थिति) एक कच्ची अल्ट्रासाउंड छवि है, जो अक्सर उपयोगकर्ता द्वारा प्रदान किए गए विरल बाइनरी एनोटेशन के साथ होती है, जो "अच्छा" (उच्च आत्मविश्वास) या "बुरा" (कम आत्मविश्वास) के क्षेत्रों को इंगित करती है।

वांछित अंतिम बिंदु (आउटपुट/लक्ष्य स्थिति) एक आत्मविश्वास मानचित्र है जो संबंधित अल्ट्रासाउंड छवि में प्रत्येक पिक्सेल की विश्वसनीयता को सटीक रूप से दर्शाता है। इस मानचित्र में कई प्रमुख गुण होने चाहिए:
1. अधिकांशतः एकदिष्ट (Mostly monotonic): ध्वनि क्षीणन (sound attenuation) के कारण गहराई के साथ आत्मविश्वास आम तौर पर कम होना चाहिए।
2. पिक्सेल तीव्रताओं से शिथिल रूप से संबंधित (Loosely related to pixel intensities): पिक्सेल तीव्रता और आत्मविश्वास के बीच संबंध जटिल और अरैखिक (non-linear) है, जिसका अर्थ है कि सरल प्रत्यक्ष मैपिंग अपर्याप्त हैं।
3. छायाओं से परे (Beyond shadows): मानचित्र को अल्ट्रासाउंड कलाकृतियों की एक विस्तृत विविधता को ध्यान में रखना चाहिए, न कि केवल छाया, बल्कि प्रतिध्वनि, युग्मन समस्याएँ (coupling issues) और इलेक्ट्रॉनिक शोर (electronic noise) भी।
4. ध्वनि बीम-जागरूक (Sound beams-aware): गणना को इनसोनेशन (insonication) की दिशा पर विचार करना चाहिए और अरैखिक पंखे ज्यामिति (non-linear fan geometries) के लिए क्षतिपूर्ति करनी चाहिए।
5. क्षैतिज रूप से चिकना (Horizontally smooth): बिंदु-प्रसार फलन (point-spread function) के कारण, मानचित्र को अवास्तविक क्षैतिज असंततताओं से बचना चाहिए।
इसके अलावा, वांछित आत्मविश्वास मानचित्र निर्माण प्रक्रिया तेज, अस्थायी रूप से स्थिर होनी चाहिए, और उपयोगकर्ताओं को एनोटेशन के माध्यम से एल्गोरिथम के व्यवहार को सीधे प्रभावित करने की अनुमति देनी चाहिए।

लुप्त कड़ी या गणितीय अंतर (missing link or mathematical gap) यह है कि कच्चे अल्ट्रासाउंड छवि डेटा को, विरल, व्यक्तिपरक उपयोगकर्ता प्रतिक्रिया के साथ मिलाकर, मात्रात्मक, भौतिकी-सूचित आत्मविश्वास मानचित्र में कैसे मज़बूती से और कुशलता से अनुवादित किया जाए जो इन जटिल गुणों का पालन करता हो। पिछले तरीके सरलीकृत भौतिक मॉडल पर अपनी निर्भरता के कारण इस अंतर को पाटने में संघर्ष करते रहे हैं जो अल्ट्रासाउंड कलाकृतियों के पूर्ण स्पेक्ट्रम को पकड़ने में विफल रहे, विविध इमेजिंग स्थितियों के लिए उनकी सीमित अनुकूलन क्षमता, और उनके उपयोगकर्ता नियंत्रण की कमी।

यह समस्या एक महत्वपूर्ण दर्दनाक व्यापार-बंद या दुविधा प्रस्तुत करती है जिसने पिछले शोधकर्ताओं को फंसाया है:
* सरलता बनाम यथार्थवाद (Simplicity vs. Realism): पहले के भौतिकी-आधारित दृष्टिकोण अक्सर अल्ट्रासाउंड प्रसार के सरलीकृत मॉडल का उपयोग करते हैं। जबकि गणितीय रूप से सुगम (tractable), ये मॉडल "प्रतिध्वनि जैसी कलाकृतियों को नजरअंदाज करते हैं" (पृष्ठ 1), जिससे वास्तविक दुनिया के परिदृश्यों में गलत आत्मविश्वास आकलन होता है। अल्ट्रासाउंड भौतिकी और विविध कलाकृतियों की पूर्ण जटिलता को शामिल करने से मॉडल को तैयार करना और हल करना काफी कठिन हो जाता है।
* विशिष्टता बनाम सामान्यता (Specificity vs. Generality): कुछ मौजूदा विधियाँ "छाया-आधारित मॉडल [जो] डिजाइन द्वारा प्रतिबंधित हैं" (पृष्ठ 1) हैं, जिसका अर्थ है कि वे केवल एक प्रकार की कलाकृति का पता लगाने के लिए तैयार की गई हैं और अल्ट्रासाउंड छवियों में अन्य आत्मविश्वास-कम करने वाली घटनाओं की विस्तृत श्रृंखला में सामान्यीकरण (generalize) नहीं कर सकती हैं।
* स्वचालन बनाम उपयोगकर्ता नियंत्रण (Automation vs. User Control): पारंपरिक तरीके अक्सर "मनमानी सीमा शर्तों" के साथ संचालित होते हैं और "सीमित नियंत्रण" (पृष्ठ 2) प्रदान करते हैं, जिससे चिकित्सकों के लिए पूरे सिस्टम के जटिल संशोधनों के बिना गलत असाइन किए गए आत्मविश्वास को ठीक करना मुश्किल हो जाता है। यह पूरी तरह से स्वचालित, कठोर प्रणालियों और लचीले, उपयोगकर्ता-अनुकूल प्रणालियों के बीच एक दुविधा पैदा करता है।
* पिक्सेल तीव्रता बनाम आत्मविश्वास (Pixel Intensity vs. Confidence): पत्र स्पष्ट रूप से कहता है कि आत्मविश्वास और पिक्सेल तीव्रताओं के बीच संबंध "जटिल है और इसे सरल मॉडल द्वारा कैप्चर नहीं किया जा सकता है" (पृष्ठ 3, गुण 2)। इसका मतलब है कि तीव्रता मानों को आत्मविश्वास में मैप करना अपर्याप्त है, जिसके लिए अधिक परिष्कृत, अप्रत्यक्ष दृष्टिकोण की आवश्यकता होती है।

बाधाएँ और विफलता मोड (Constraints & Failure Modes)

सटीक अल्ट्रासाउंड आत्मविश्वास मानचित्र उत्पन्न करने की समस्या को कई कठोर, यथार्थवादी दीवारों से बेहद मुश्किल बना दिया गया है जिनसे लेखक टकराए:

भौतिक बाधाएँ (Physical Constraints):
- जटिल और विविध कलाकृतियाँ (Complex and Diverse Artifacts): अल्ट्रासाउंड छवियां स्वाभाविक रूप से शोरगुल वाली होती हैं और केवल छाया से परे कई कलाकृतियों के लिए प्रवण होती हैं, जिनमें प्रतिध्वनि, ध्वनिक युग्मन की कमी और इलेक्ट्रॉनिक शोर (पृष्ठ 3, गुण 3, चित्र 2b, 2c) शामिल हैं। एक आदर्श आत्मविश्वास मानचित्र को इन सभी को संभालना चाहिए, जो किसी भी एकल मॉडल के लिए एक महत्वपूर्ण चुनौती है।
- अरैखिक भौतिकी (Non-linear Physics): ऊतक के साथ ध्वनि की परस्पर क्रिया, जिसमें क्षीणन, प्रतिबिंब और प्रकीर्णन शामिल है, जटिल और अरैखिक है। ध्वनि बीम की तीव्रता गहराई के साथ घटती है (पृष्ठ 3, गुण 1), लेकिन यह संबंध आत्मविश्वास के लिए एक सख्त एकदिष्ट कमी नहीं है, क्योंकि मजबूत परावर्तक अभी भी स्पष्ट प्रतिध्वनि उत्पन्न कर सकते हैं।
- बीम ज्यामिति निर्भरता (Beam Geometry Dependence): अल्ट्रासाउंड स्कैनलाइन को अरैखिक पंखे ज्यामिति (जैसे, उत्तल प्रोब के साथ) में झुकाया जा सकता है। आत्मविश्वास मानचित्र गणना को "ध्वनि बीम-जागरूक" होना चाहिए और इनसोनेशन की दिशा के लिए क्षतिपूर्ति करनी चाहिए (पृष्ठ 3, गुण 4)।
- बिंदु-प्रसार फलन प्रभाव (Point-Spread Function Effects): बिंदु-प्रसार फलन के कारण अल्ट्रासाउंड ध्वनि बीम की अंतर्निहित चौड़ाई और ओवरलैप के लिए "क्षैतिज रूप से चिकनी" आत्मविश्वास मानचित्रों की आवश्यकता होती है, जिससे अवास्तविक असंततताओं को रोका जा सके (पृष्ठ 3, गुण 5)।
कम्प्यूटेशनल बाधाएँ (Computational Constraints):
- वास्तविक समय विलंबता आवश्यकताएँ (Real-time Latency Requirements): अल्ट्रासाउंड का उपयोग अक्सर वास्तविक समय नैदानिक और हस्तक्षेप सेटिंग्स में किया जाता है। आत्मविश्वास मानचित्र निर्माण "तेज" और "वास्तविक समय अनुप्रयोगों के लिए उपयुक्त" होना चाहिए (सार, पृष्ठ 1, और निष्कर्ष, पृष्ठ 8)। लेखकों ने NVIDIA RTX 4090 पर 2,300 एफपीएस से अधिक के अपने मॉडल का प्रदर्शन किया, जो इस सख्त आवश्यकता को उजागर करता है।
- मॉडल जटिलता बनाम दक्षता (Model Complexity vs. Efficiency): जबकि सरलीकृत मॉडल विफल हो जाते हैं, एक व्यापक भौतिकी-प्रेरित संभाव्य ग्राफिकल मॉडल (PGM) कम्प्यूटेशनल रूप से गहन हो सकता है। चुनौती ऐसे मॉडल को एक तंत्रिका नेटवर्क (CNN) के साथ इस तरह से एकीकृत करना है जो वास्तविक समय अनुमान के लिए कुशल बना रहे।
डेटा-संचालित बाधाएँ (Data-driven Constraints):
- एनोटेशन की विरलता (Sparsity of Annotations): विधि "विरल बाइनरी एनोटेशन (अच्छा/बुरा)" (सार, पृष्ठ 1) पर निर्भर करती है। इसका मतलब है कि सघन, पिक्सेल-सटीक ग्राउंड ट्रुथ आत्मविश्वास मानचित्र प्रशिक्षण के लिए उपलब्ध नहीं हैं। मॉडल को सीमित, संभावित रूप से व्यक्तिपरक, उपयोगकर्ता इनपुट से सीखना चाहिए।
- व्यापक ग्राउंड ट्रुथ का अभाव (Lack of Comprehensive Ground Truth): सभी प्रकार की अल्ट्रासाउंड कलाकृतियों के लिए ग्राउंड ट्रुथ प्राप्त करना अत्यंत कठिन है। पत्र में तुलना से एक छाया-विशिष्ट दृष्टिकोण को बाहर करने का उल्लेख है क्योंकि "छाया विशिष्ट एनोटेशन का अभाव" (पृष्ठ 6) है, जो विस्तृत कलाकृति-विशिष्ट लेबल प्राप्त करने की सामान्य कठिनाई को इंगित करता है।
- डेटासेट आकार (Dataset Size): CNN को प्रशिक्षण के लिए 291 फ्रेम और सत्यापन के लिए 72 फ्रेम के डेटासेट पर प्रशिक्षित किया जाता है (पृष्ठ 5)। हालांकि बहुत छोटा नहीं है, यह डीप लर्निंग के लिए एक मामूली डेटासेट है, जिसके लिए एक ऐसे मॉडल की आवश्यकता होती है जो सीमित उदाहरणों से अच्छी तरह से सामान्यीकरण कर सके, संभवतः मजबूत पूर्व (priors) का लाभ उठाकर।

Figure 2. Complex relationship between confidence and pixel intensities. (a): tissue that blocks sound (bone) causing a weaker signal than a tissue that doesn’t block sound (muscle). (b-c): different common ultrasound artifacts

यह दृष्टिकोण क्यों (Why This Approach)

चुनाव की अनिवार्यता (The Inevitability of the Choice)

एक हाइब्रिड दृष्टिकोण को अपनाना, एक भौतिकी-प्रेरित संभाव्य ग्राफिकल मॉडल (PGM) को एक कनवल्शनल न्यूरल नेटवर्क (CNN) के साथ जोड़ना, केवल एक वृद्धिशील सुधार नहीं था, बल्कि एक आवश्यक प्रतिमान बदलाव था। लेखकों ने महसूस किया कि पारंपरिक "अत्याधुनिक" (SOTA) विधियाँ कई अंतर्निहित सीमाओं के कारण मौलिक रूप से अपर्याप्त थीं। मौजूदा दृष्टिकोण, जो अक्सर सरलीकृत भौतिक मॉडल या प्रतिबंधित डिजाइनों पर निर्भर करते थे, लगातार अल्ट्रासाउंड कलाकृतियों की पूरी श्रृंखला, जैसे प्रतिध्वनि, छाया और युग्मन समस्याओं (Introduction, Section 2, Property 3) को ध्यान में रखने में विफल रहे। ये विधियाँ मनमानी सीमा शर्तों से भी बाधित थीं, जिससे फ्रेम-टू-फ्रेम तुलनाएँ चुनौतीपूर्ण हो जाती थीं और सीमित उपयोगकर्ता नियंत्रण की पेशकश की जाती थी, जिसके लिए गलत असाइन किए गए आत्मविश्वास को ठीक करने के लिए जटिल संशोधनों की आवश्यकता होती थी (Introduction)।

महत्वपूर्ण रूप से, अल्ट्रासाउंड छवियों में आत्मविश्वास और कच्चे पिक्सेल तीव्रताओं के बीच संबंध अत्यधिक जटिल और अरैखिक है (Section 2, Property 2)। सरल मॉडल, चाहे विशुद्ध रूप से भौतिकी-आधारित हों या बुनियादी छवि प्रसंस्करण पर निर्भर हों, इस जटिल निर्भरता को पर्याप्त रूप से कैप्चर नहीं कर सके। इस अहसास ने एक सीखने-आधारित घटक की आवश्यकता को उजागर किया जो इन सूक्ष्म पैटर्न को मज़बूती से पहचानने में सक्षम हो। इसलिए, एक समाधान जो डोमेन-विशिष्ट भौतिक पूर्व (priors) को मज़बूती से एकीकृत कर सके, विरल उपयोगकर्ता प्रतिक्रिया का लाभ उठा सके, और जटिल, डेटा-संचालित संबंधों को सीख सके, वह एकमात्र व्यवहार्य मार्ग था।

तुलनात्मक श्रेष्ठता (Comparative Superiority)

यह विधि मुख्य रूप से अपने अद्वितीय हाइब्रिड आर्किटेक्चर और उपयोगकर्ता-केंद्रित डिजाइन के माध्यम से पिछले स्वर्ण मानकों पर गुणात्मक श्रेष्ठता प्रदर्शित करती है। विशुद्ध रूप से भौतिकी-आधारित मॉडल (जैसे, करमालिस एट अल. [12]) या स्पेकल कमी और सरल प्रसार (जैसे, हंग एट अल. [11]) पर केंद्रित लोगों के विपरीत, यह दृष्टिकोण संरचनात्मक रूप से अल्ट्रासाउंड आत्मविश्वास की बहुआयामी प्रकृति को संबोधित करता है।

मुख्य संरचनात्मक लाभ PGM और CNN के "विवाह" में निहित है। PGM मौलिक अल्ट्रासाउंड भौतिकी पूर्व (priors) को लागू करता है—जैसे गहराई के साथ आत्मविश्वास की अधिकांशतः एकदिष्ट क्षय (Section 3.2, Equation 4) और स्कैनलाइनों में क्षैतिज चिकनाई (Section 3.2, Equation 5)—जबकि विरल उपयोगकर्ता एनोटेशन को सीधे एकीकृत करता है। यह एक मजबूत, व्याख्यात्मक आधार प्रदान करता है। शीर्ष पर प्रशिक्षित CNN, तब जटिल, अरैखिक संबंधों को सीखता है जो छवि तीव्रताओं और आत्मविश्वास के बीच होते हैं जिन्हें सरल मॉडल कैप्चर नहीं कर सकते (Section 3)। श्रम का यह विभाजन प्रणाली को भौतिक रूप से ग्राउंडेड और विविध, वास्तविक दुनिया की कलाकृतियों के लिए अत्यधिक अनुकूल दोनों होने की अनुमति देता है।

गुणात्मक रूप से, विधि चुनौतीपूर्ण कलाकृतियों की एक विस्तृत श्रृंखला को संभालने में उत्कृष्ट है, जिसमें जटिल छाया (जैसे, आंशिक छाया, गायब प्रोब संपर्क से मजबूत छाया), प्रतिध्वनि, और पानी के स्नान के कारण असामान्य त्वचा की उपस्थिति (Section 4.1) शामिल है। यह प्रतिस्पर्धियों की तुलना में दृश्य संरचनाओं और कलाकृतियों के बीच एक स्वच्छ अलगाव प्रदान करता है। इसके अलावा, उपयोगकर्ता-केंद्रित डिजाइन, चिकित्सकों को विरल एनोटेशन के माध्यम से एल्गोरिथम के व्यवहार को सीधे प्रभावित करने की अनुमति देता है, नियंत्रण और अनुकूलन क्षमता का एक बेजोड़ स्तर प्रदान करता है। यह दृष्टिकोण उल्लेखनीय रूप से तेज भी है, जो NVIDIA RTX 4090 पर 2,300 फ्रेम प्रति सेकंड से अधिक है, जो इसे वास्तविक समय नैदानिक अनुप्रयोगों के लिए उपयुक्त बनाता है (Section 3.3)। भौतिक ग्राउंडिंग, सीखने की क्षमता, उपयोगकर्ता नियंत्रण और गति का यह संयोजन एक भारी संरचनात्मक और व्यावहारिक लाभ का प्रतिनिधित्व करता है।

बाधाओं के साथ संरेखण (Alignment with Constraints)

चुनी गई विधि पूरी तरह से Section 2 में उल्लिखित "आदर्श आत्मविश्वास मानचित्र" गुणों के साथ संरेखित होती है, जो समस्या की कठोर आवश्यकताओं और समाधान के अद्वितीय गुणों के बीच एक विचारशील "विवाह" प्रदर्शित करती है।

अधिकांशतः एकदिष्ट (Property 1): PGM के भीतर इंट्रा-स्कैनलाइन पोटेंशियल $\psi_v(x_i, x_j)$ (Equation 4) सीधे इसे लागू करता है। यह स्कैनलाइनों के साथ आत्मविश्वास को ज्यादातर कम करने के लिए प्रोत्साहित करता है, इस भौतिक सिद्धांत से विचलन को दंडित करता है। $\log(x_i)$ का उपयोग दंड के लिए चतुराई से आत्मविश्वास मानों के शून्य के करीब पहुंचने के मुद्दों से बचा जाता है।
पिक्सेल तीव्रताओं से शिथिल रूप से संबंधित (Property 2): यहीं पर CNN एक महत्वपूर्ण भूमिका निभाता है। पत्र स्पष्ट रूप से कहता है कि PGM छवि तीव्रताओं को सीधे शामिल नहीं करता है क्योंकि आत्मविश्वास के साथ उनका जटिल संबंध है। इसके बजाय, CNN को PGM के आउटपुट के नकारात्मक लॉग-संभावना को कम करके सबसे संभावित आत्मविश्वास मानचित्र की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है, प्रभावी ढंग से इन जटिल, अरैखिक तीव्रता-आत्मविश्वास संबंधों को सीखता है जिन्हें सरल मॉडल कैप्चर नहीं कर सकते (Section 3, Section 3.3)।
छायाओं से परे (Property 3): PGM में भौतिकी-प्रेरित पूर्व, विविध डेटा और विरल एनोटेशन से सीखने की CNN की क्षमता के साथ मिलकर, विधि को अल्ट्रासाउंड कलाकृतियों की एक विस्तृत श्रृंखला को संभालने में सक्षम बनाता है—न केवल छाया, बल्कि प्रतिध्वनि और युग्मन समस्याएं भी (Section 4.1)। यह व्यापक कलाकृति हैंडलिंग पिछले, अधिक प्रतिबंधित मॉडलों की सीमाओं का एक सीधा जवाब है।
ध्वनि बीम-जागरूक (Property 4): PGM की ग्राफ संरचना को इंट्रा- और इंटर-स्कैनलाइन संबंधों के बीच अंतर करने के लिए डिज़ाइन किया गया है, जो ध्वनि प्रसार की कारण प्रकृति को दर्शाता है। इसके अलावा, ध्वनि बीम की दिशा के प्रति जागरूक होने के लिए, उलटा स्कैन रूपांतरण (inverse scan conversion) को एक पूर्व-प्रसंस्करण चरण के रूप में लागू किया जाता है, भले ही अरैखिक पंखे ज्यामिति के साथ स्कैनलाइनों को लंबवत संरेखित किया गया हो (Section 3, Section 3.3)।
क्षैतिज रूप से चिकना (Property 5): इंटर-स्कैनलाइन पोटेंशियल $\Psi_H(x_i, x_j)$ (Equation 5) स्पष्ट रूप से इस गुण को लागू करता है। आसन्न स्कैनलाइनों के बीच चिकनी संक्रमण को प्रोत्साहित करने के लिए एक गाऊसी फलन (Gaussian function) का उपयोग करके, मॉडल यह सुनिश्चित करता है कि आत्मविश्वास मानचित्र ओवरलैपिंग ध्वनि बीम और बिंदु-प्रसार फलन की भौतिक वास्तविकता को दर्शाता है।

यह एकीकृत दृष्टिकोण सुनिश्चित करता है कि समाधान न केवल मजबूत और सटीक है, बल्कि भौतिक रूप से प्रशंसनीय और उपयोगकर्ता-नियंत्रित भी है, जो एक आदर्श आत्मविश्वास मानचित्र के सभी परिभाषित गुणों को सीधे संबोधित करता है।

विकल्पों का अस्वीकरण (Rejection of Alternatives)

पत्र स्पष्ट रूप से और अंतर्निहित रूप से कई वैकल्पिक दृष्टिकोणों को अस्वीकार करता है, जो अल्ट्रासाउंड आत्मविश्वास मानचित्र निर्माण के संदर्भ में उनकी मौलिक कमियों को उजागर करता है।

सबसे पहले, "सरलीकृत मॉडल पर निर्भर मौजूदा विधियाँ" (सार) अपर्याप्त मानी जाती हैं क्योंकि वे "अक्सर अल्ट्रासाउंड कलाकृतियों की पूरी श्रृंखला को ध्यान में रखने में विफल रहती हैं और मनमानी सीमा शर्तों से सीमित होती हैं" (सार)। इस व्यापक अस्वीकरण में ऐसे दृष्टिकोण शामिल हैं जो अल्ट्रासाउंड की जटिल भौतिकी को अत्यधिक सरल बना सकते हैं या कठोर मान्यताओं पर भरोसा कर सकते हैं।

अधिक विशेष रूप से, पत्र करमालिस एट अल. [12] जैसे विशुद्ध रूप से भौतिकी-आधारित ग्राफ मॉडल का मूल्यांकन करता है और इस प्रकार उन्हें अस्वीकार करता है। जबकि करमालिस की विधि ग्राफ नोड्स और अल्ट्रासाउंड भौतिकी से प्राप्त एज वेट का उपयोग करती है, यह निश्चित सीमा शर्तों के साथ एक यादृच्छिक चाल समस्या को हल करके आत्मविश्वास की गणना करती है। लेखकों ने प्रदर्शित किया कि यह दृष्टिकोण "छायाओं को खराब तरीके से प्रबंधित" करता है और "दृश्य संरचनाओं को गलती से कम आत्मविश्वास असाइन" करता है (Section 4.1)। जटिल पिक्सेल तीव्रता संबंधों को कैप्चर करने के लिए सीखने वाले घटक की कमी और निश्चित सीमा शर्तों पर निर्भरता विविध कलाकृति प्रकारों में इसकी अनुकूलन क्षमता और सटीकता को सीमित करती है।

इसी तरह, हंग एट अल. [11] जैसी विधियाँ, जो स्पेकल को कम करती हैं और निर्देशित चक्रीय ग्राफ (directed acyclic graphs) का उपयोग करके आत्मविश्वास का प्रसार करती हैं, विभिन्न कलाकृतियों, विशेष रूप से छायाओं से जूझती हुई दिखाई जाती हैं, और अक्सर दृश्य संरचनाओं को कम आत्मविश्वास गलत तरीके से असाइन करती हैं (Section 4.1)। ये विधियाँ, हालांकि शायद स्पेकल जैसे कुछ पहलुओं को संबोधित करती हैं, प्रस्तावित हाइब्रिड मॉडल की व्यापक कलाकृति हैंडलिंग और उपयोगकर्ता-नियंत्रण की कमी है।

पत्र "छाया-आधारित मॉडल [15] डिजाइन द्वारा प्रतिबंधित हैं" (Introduction) का भी उल्लेख करता है और एनोटेशन की कमी के कारण उन्हें मात्रात्मक तुलना से स्पष्ट रूप से बाहर करता है (Section 4)। यह उन दृष्टिकोणों की सीमा को उजागर करता है जो बहुत विशिष्ट हैं, वास्तविक दुनिया के अल्ट्रासाउंड में मौजूद कलाकृतियों की विस्तृत श्रृंखला में सामान्यीकरण करने में विफल रहते हैं।

अंत में, अल्ट्रा-एनईआरएफ आधारित दृष्टिकोण [22,23] को "प्रशिक्षण चरण के लिए पूरी तरह से संरेखित अल्ट्रासाउंड और सीटी वॉल्यूम की आवश्यकता" (Section 4.2) के कारण गुणात्मक मूल्यांकन में शामिल नहीं किया गया था। यह एक व्यावहारिक बाधा को इंगित करता है जो ऐसे तरीकों को उन परिदृश्यों के लिए कम उपयुक्त बनाता है जहां ऐसे पूरी तरह से संरेखित मल्टी-मोडल डेटा आसानी से उपलब्ध नहीं हो सकते हैं, जो अधिक सुलभ विरल एनोटेशन के साथ काम करने वाली विधि के महत्व को रेखांकित करता है।

संक्षेप में, इन विकल्पों का अस्वीकरण इस तथ्य से उपजा है कि वे एक साथ करने में असमर्थ हैं: 1) अल्ट्रासाउंड कलाकृतियों की पूरी श्रृंखला को ध्यान में रखना, 2) पिक्सेल तीव्रताओं और आत्मविश्वास के बीच जटिल, अरैखिक संबंध को कैप्चर करना, 3) उपयोगकर्ता नियंत्रण प्रदान करना, और 4) अस्थायी स्थिरता और वास्तविक समय प्रदर्शन बनाए रखना। प्रस्तावित PGM-CNN हाइब्रिड को इन सामूहिक विफलताओं को दूर करने के लिए विकसित किया गया था।

Figure 4. Ultrasound frames (before scan conv.), with confidence maps generated by three methods. Red and blue represent high and low confidence, respectively. The squares on the confidence maps show regions of interest. See text for details

गणितीय और तार्किक तंत्र (Mathematical & Logical Mechanism)

मास्टर समीकरण (The Master Equation)

इस पत्र के तंत्र के केंद्र में एक दो-तरफा गणितीय इंजन है। पहला भाग संभाव्य ग्राफिकल मॉडल (PGM) को परिभाषित करता है जो विरल उपयोगकर्ता एनोटेशन और भौतिकी-प्रेरित पूर्वों को देखते हुए एक आत्मविश्वास मानचित्र की संभावना को मापता है। दूसरा भाग इस PGM से प्राप्त नकारात्मक लॉग-संभावना को कम करके कनवल्शनल न्यूरल नेटवर्क (CNN) के सीखने को चलाने वाला उद्देश्य फलन है।

मुख्य संभाव्य मॉडल, विरल एनोटेशन $y$ को देखते हुए एक आत्मविश्वास मानचित्र $x$ की संभावना को परिभाषित करता है:
$$ p(x|y) \propto \prod \phi(x_i, y_i) \prod_{(i,j)\in V} \psi_V(x_i, x_j) \prod_{(i,j)\in H} \psi_H(x_i, x_j) \quad (2) $$
और अंतिम उद्देश्य फलन जिसे CNN अनुकूलित करता है वह है:
$$ \theta^* = \arg \min_\theta - \log p(f(I^{(i)}, \theta), y^{(i)}) \quad (6) $$

पद-दर-पद विच्छेदन (Term-by-Term Autopsy)

आइए प्रत्येक घटक को समझने के लिए इन समीकरणों का विश्लेषण करें:

समीकरण (6): अनुकूलन उद्देश्य (The Optimization Objective)

$\theta^*$:
1. गणितीय परिभाषा: कनवल्शनल न्यूरल नेटवर्क (CNN) के लिए इष्टतम मापदंडों का सेट।
2. भौतिक/तार्किक भूमिका: यह सीखने की प्रक्रिया का अंतिम लक्ष्य है। यह CNN के भीतर भार और पूर्वाग्रहों के विशिष्ट विन्यास का प्रतिनिधित्व करता है जो इसे परिभाषित संभाव्य मॉडल के अनुसार सबसे प्रशंसनीय आत्मविश्वास मानचित्र उत्पन्न करने की अनुमति देता है।
$\arg \min_\theta$:
1. गणितीय परिभाषा: वह तर्क (इस मामले में, पैरामीटर $\theta$) जो बाद के व्यंजक को न्यूनतम करता है।
2. भौतिक/तार्किक भूमिका: यह ऑपरेटर इंगित करता है कि सीखने का एल्गोरिथम उन CNN मापदंडों की खोज कर रहा है जो हानि फलन (loss function) के सबसे छोटे संभव मान को प्राप्त करते हैं।
$-\log$:
1. गणितीय परिभाषा: नकारात्मक प्राकृतिक लघुगणक (negative natural logarithm)।
2. भौतिक/तार्किक भूमिका: यह परिवर्तन दो मुख्य उद्देश्यों को पूरा करता है। सबसे पहले, यह एक संभावना (जो 0 और 1 के बीच है) को एक सकारात्मक मान में परिवर्तित करता है, जिससे यह न्यूनीकरण के लिए उपयुक्त हो जाता है (नकारात्मक लॉग-संभावना को कम करना अधिकतम संभावना के बराबर है)। दूसरे, यह समीकरण (2) में देखे गए संभाव्यताओं (या क्षमता) के उत्पादों को योग में परिवर्तित करता है, जो पश्चप्रसार (backpropagation) प्रक्रिया के दौरान विभेदन (differentiation) के लिए बहुत आसान होते हैं।
3. क्यों: लघुगणक चुने जाते हैं क्योंकि वे PGM की उत्पाद संरचना को एक योग में सरल बनाते हैं, जो कम्प्यूटेशनल रूप से अधिक स्थिर होता है और ग्रेडिएंट-आधारित अनुकूलन के लिए आसान होता है। नकारात्मक चिह्न अधिकतमकरण को न्यूनीकरण की समस्या में बदल देता है।
$p(\cdot)$:
1. गणितीय परिभाषा: एक संभाव्यता वितरण।
2. भौतिक/तार्किक भूमिका: यह पद समीकरण (2) में संभाव्य ग्राफिकल मॉडल (PGM) द्वारा परिभाषित संभाव्यता के रूप में एक अनुमानित आत्मविश्वास मानचित्र की संभावना का प्रतिनिधित्व करता है। यह मापता है कि CNN का आउटपुट उपयोगकर्ता एनोटेशन और भौतिकी-प्रेरित पूर्वों दोनों के साथ कितना संगत है।
$f(I^{(i)}, \theta)$:
1. गणितीय परिभाषा: इनपुट अल्ट्रासाउंड छवि $I^{(i)}$ और वर्तमान पैरामीटर $\theta$ दिए जाने पर कनवल्शनल न्यूरल नेटवर्क $f$ का आउटपुट।
2. भौतिक/तार्किक भूमिका: यह CNN का अनुमान है: $i$-वें अल्ट्रासाउंड छवि के लिए एक आत्मविश्वास मानचित्र $x$। CNN को ऐसे मानचित्र उत्पन्न करने के लिए प्रशिक्षित किया जाता है, जिनका मूल्यांकन PGM द्वारा किया जाता है।
$y^{(i)}$:
1. गणितीय परिभाषा: $i$-वें अल्ट्रासाउंड छवि के लिए प्रदान किए गए विरल बाइनरी एनोटेशन।
2. भौतिक/तार्किक भूमिका: ये उपयोगकर्ता द्वारा प्रदान किए गए ग्राउंड ट्रुथ या लेबल (अच्छा, बुरा, या कोई नहीं) हैं जो सीखने की प्रक्रिया के लिए पर्यवेक्षण के रूप में काम करते हैं। वे आत्मविश्वास मानचित्र को मानव विशेषज्ञ ज्ञान से जोड़ते हैं।

समीकरण (2): संभाव्य ग्राफिकल मॉडल (The Probabilistic Graphical Model)

$p(x|y)$:
1. गणितीय परिभाषा: विरल एनोटेशन $y$ को देखते हुए एक आत्मविश्वास मानचित्र $x$ की संभावना।
2. भौतिक/तार्किक भूमिका: यह PGM का मूल है। यह इस बात का मात्रात्मक माप प्रदान करता है कि एक विशेष आत्मविश्वास मानचित्र $x$ कितना संभावित है, जिसमें उपयोगकर्ता के इनपुट $y$ और अंतर्निहित भौतिकी-प्रेरित नियमों दोनों को ध्यान में रखा गया है।
$\propto$:
1. गणितीय परिभाषा: के समानुपाती (proportional to)।
2. भौतिक/तार्किक भूमिका: यह इंगित करता है कि दाहिने हाथ की ओर का व्यंजक वास्तविक संभावना के समानुपाती है। एक अंतर्निहित सामान्यीकरण स्थिरांक (जिसे अक्सर विभाजन फलन कहा जाता है) होता है जो संभावनाओं को 1 तक जोड़ता है। अनुकूलन उद्देश्यों के लिए, इस स्थिरांक को अक्सर अनदेखा किया जा सकता है क्योंकि यह सापेक्ष संभावनाओं को प्रभावित नहीं करता है।
$\prod$:
1. गणितीय परिभाषा: गुणन ऑपरेटर (product operator)।
2. भौतिक/तार्किक भूमिका: एक ग्राफिकल मॉडल में, संयुक्त संभावना को आमतौर पर क्लीक (जुड़े हुए नोड्स के समूह) पर संभावित कार्यों के उत्पाद के रूप में व्यक्त किया जाता है। यहां, यह समग्र संभावना बनाने के लिए व्यक्तिगत एकात्मक (unary) और द्विपक्षीय (pairwise) क्षमता को गुणात्मक रूप से जोड़ता है।
3. क्यों: यह गुणन संरचना मार्कोव रैंडम फील्ड्स और अन्य PGMs के लिए मौलिक है, जहां क्षमताएं स्थानीय "समझौते" या "अनुकूलता" का प्रतिनिधित्व करती हैं जो एक वैश्विक संभावना बनाने के लिए जुड़ती हैं।
$\phi(x_i, y_i)$:
1. गणितीय परिभाषा: पिक्सेल $i$ के लिए एकात्मक क्षमता फलन (unary potential function)।
2. भौतिक/तार्किक भूमिका: यह पद एक विशिष्ट पिक्सेल के लिए अनुमानित आत्मविश्वास मान $x_i$ और इसके संबंधित विरल एनोटेशन $y_i$ के बीच अनुकूलता को मापता है। यह सीधे व्यक्तिगत पिक्सेल पर उपयोगकर्ता के इनपुट को लागू करता है।
3. क्यों: उत्पाद प्रत्येक एनोटेट किए गए पिक्सेल की व्यक्तिगत अनुकूलताओं को जोड़ता है।
$\prod_{(i,j)\in V}$:
1. गणितीय परिभाषा: सभी ऊर्ध्वाधर रूप से आसन्न पिक्सेल जोड़े $(i,j)$ पर उत्पाद।
2. भौतिक/तार्किक भूमिका: यह ऑपरेटर इंट्रा-स्कैनलाइन द्विपक्षीय क्षमता को एकत्रित करता है, यह सुनिश्चित करता है कि ऊर्ध्वाधर संबंधों के लिए भौतिकी-प्रेरित पूर्व पूरे आत्मविश्वास मानचित्र पर लागू हो।
$\psi_V(x_i, x_j)$:
1. गणितीय परिभाषा: ऊर्ध्वाधर (इंट्रा-स्कैनलाइन) द्विपक्षीय क्षमता फलन (समीकरण 4 में परिभाषित)।
2. भौतिक/तार्किक भूमिका: यह क्षमता स्कैनलाइनों के साथ आत्मविश्वास की "अधिकांशतः एकदिष्ट" संपत्ति (गुण 1) को लागू करती है। यह उन स्थितियों को दंडित करता है जहां गहराई के साथ आत्मविश्वास पर्याप्त रूप से कम नहीं होता है, जो अल्ट्रासाउंड संकेतों के भौतिक क्षीणन को दर्शाता है।
3. क्यों: उत्पाद इन ऊर्ध्वाधर संबंध अनुकूलताओं को जोड़ता है।
$\prod_{(i,j)\in H}$:
1. गणितीय परिभाषा: सभी क्षैतिज रूप से आसन्न पिक्सेल जोड़े $(i,j)$ पर उत्पाद।
2. भौतिक/तार्किक भूमिका: यह ऑपरेटर इंटर-स्कैनलाइन द्विपक्षीय क्षमता को एकत्रित करता है, यह सुनिश्चित करता है कि क्षैतिज संबंधों के लिए भौतिकी-प्रेरित पूर्व पूरे आत्मविश्वास मानचित्र पर लागू हो।
$\psi_H(x_i, x_j)$:
1. गणितीय परिभाषा: क्षैतिज (इंटर-स्कैनलाइन) द्विपक्षीय क्षमता फलन (समीकरण 5 में परिभाषित)।
2. भौतिक/तार्किक भूमिका: यह क्षमता स्कैनलाइनों के बीच "क्षैतिज रूप से चिकनी" संपत्ति (गुण 5) को लागू करती है। यह क्षैतिज दिशा में आसन्न पिक्सेल के लिए समान आत्मविश्वास मानों को प्रोत्साहित करता है, जो अल्ट्रासाउंड बीम के ओवरलैप और ऊतक के निरंतर स्वभाव को दर्शाता है।
3. क्यों: उत्पाद इन क्षैतिज संबंध अनुकूलताओं को जोड़ता है।

समीकरण (3): एकात्मक क्षमता विवरण (Unary Potential Details)

$\text{Beta}(z; \alpha, \beta)$:
1. गणितीय परिभाषा: बीटा वितरण का संभाव्यता घनत्व फलन (Probability Density Function - PDF)।
2. भौतिक/तार्किक भूमिका: बीटा वितरण 0 और 1 के बीच सीमित संभावनाओं या आत्मविश्वास मानों को मॉडल करने के लिए आदर्श है। इसके आकार पैरामीटर $\alpha$ और $\beta$ इसे विभिन्न मानों पर केंद्रित होने की अनुमति देते हैं, जो आत्मविश्वास के विभिन्न स्तरों का प्रतिनिधित्व करते हैं।
3. क्यों: यह आत्मविश्वास मानों को मॉडल करने के लिए एक प्राकृतिक विकल्प है, जो स्वाभाविक रूप से संभावनाएं हैं।
$x_i$:
1. गणितीय परिभाषा: पिक्सेल $i$ के लिए आत्मविश्वास मान।
2. भौतिक/तार्किक भूमिका: यह विशिष्ट आत्मविश्वास स्कोर (0 और 1 के बीच) है जिसका CNN ने एक दिए गए पिक्सेल के लिए अनुमान लगाया है।
$y_i$:
1. गणितीय परिभाषा: पिक्सेल $i$ के लिए एनोटेशन।
2. भौतिक/तार्किक भूमिका: यह पिक्सेल $i$ के लिए उपयोगकर्ता का लेबल है, जो 'अच्छा' (उच्च आत्मविश्वास), 'बुरा' (कम आत्मविश्वास), या 'कोई नहीं' (एनोटेट नहीं) हो सकता है।
$\alpha, \beta$:
1. गणितीय परिभाषा: बीटा वितरण के आकार पैरामीटर।
2. भौतिक/तार्किक भूमिका: ये पैरामीटर बीटा वितरण के आकार को निर्धारित करते हैं। 'अच्छे' एनोटेशन ($\alpha=5, \beta=1$) के लिए, वितरण 1 की ओर बहुत अधिक केंद्रित होता है, जो उच्च आत्मविश्वास का दृढ़ता से पक्ष करता है। 'बुरे' एनोटेशन के लिए, $\text{Beta}(1-x_i; \alpha=5, \beta=1)$ लागू करने का मतलब है कि $x_i$ के लिए वितरण 0 की ओर केंद्रित होता है, जो कम आत्मविश्वास का पक्षधर है। 'कोई नहीं' एनोटेशन ($\alpha=1.1, \beta=1.1$) के लिए, वितरण सपाट होता है, जो चरम आत्मविश्वास मानों के लिए एक कमजोर वरीयता का संकेत देता है, जिससे द्विपक्षीय क्षमता को अधिक प्रभाव रखने की अनुमति मिलती है।
3. क्यों: ये विशिष्ट मान प्रत्येक एनोटेशन प्रकार के लिए वांछित संभाव्यता वितरण को दर्शाने के लिए अनुभवजन्य रूप से चुने गए हैं, जैसा कि चित्र 3b में दर्शाया गया है।

समीकरण (4): ऊर्ध्वाधर द्विपक्षीय क्षमता विवरण (Vertical Pairwise Potential Details)

$\exp(\cdot)$:
1. गणितीय परिभाषा: घातीय फलन (exponential function)।
2. भौतिक/तार्किक भूमिका: यह दंड पद (जो घातांक में है) को एक क्षमता मान में परिवर्तित करता है। एक बड़ा दंड (अधिक नकारात्मक घातांक) एक छोटी क्षमता का परिणाम देता है, जो कम अनुकूलता का संकेत देता है।
$-\gamma$:
1. गणितीय परिभाषा: एक नकारात्मक स्केलिंग कारक।
2. भौतिक/तार्किक भूमिका: $\gamma$ पैरामीटर है जो इस पूर्व की ताकत को नियंत्रित करता है। एक बड़ा $\gamma$ का मतलब है कि स्कैनलाइन के साथ आत्मविश्वास की एकदिष्ट कमी के उल्लंघन के लिए एक मजबूत दंड।
$\max(0, \cdot)$:
1. गणितीय परिभाषा: 0 और तर्क का अधिकतम।
2. भौतिक/तार्किक भूमिका: यह सुनिश्चित करता है कि केवल तभी दंड लगाया जाए जब एकदिष्ट कमी की शर्त उल्लंघन की गई हो। यदि $x_j$ अपेक्षित रूप से या अधिक घटता है, तो कोई दंड नहीं है (पद 0 हो जाता है, और $\exp(0)=1$, जिसका अर्थ है क्षमता में कोई कमी नहीं)।
$\log(x_j) - \log(x_i)$:
1. गणितीय परिभाषा: प्राकृतिक लघुगणक के अंतर, $\log(x_j/x_i)$ के बराबर।
2. भौतिक/तार्किक भूमिका: यह पद पिक्सेल $i$ और पिक्सेल $j$ के बीच आत्मविश्वास में सापेक्ष परिवर्तन को मापता है। लघुगणक का उपयोग प्रत्यक्ष आत्मविश्वास मानों की एक सीमा के मुद्दों को संबोधित करता है: जब $x_i$ पहले से ही बहुत कम है, तो यह बहुत अधिक घट नहीं सकता है, जिससे दंडित करना मुश्किल हो जाता है। लघुगणक नीचे की ओर सीमित नहीं होते हैं, जिससे लगातार दंड अनुप्रयोग की अनुमति मिलती है।
$s$:
1. गणितीय परिभाषा: एक स्थिरांक पैरामीटर।
2. भौतिक/तार्किक भूमिका: यह पैरामीटर स्कैनलाइन के साथ आसन्न पिक्सेल के बीच आत्मविश्वास में वांछित क्षय का प्रतिनिधित्व करता है। यह एक सीमा के रूप में कार्य करता है: यदि $\log(x_j) - \log(x_i)$ $-s$ से अधिक है, तो इसका मतलब है कि $x_j$ $x_i$ के सापेक्ष पर्याप्त रूप से कम नहीं हुआ है, जिससे एक दंड लगता है।
3. क्यों: लेखकों ने आत्मविश्वास मानों की "शून्य-सीमा" समस्या को दूर करने के लिए $\log(x)$ को चुना, यह सुनिश्चित करते हुए कि कम आत्मविश्वास स्तरों पर भी एकदिष्ट क्षय पूर्व को प्रभावी ढंग से लागू किया जा सके।

समीकरण (5): क्षैतिज द्विपक्षीय क्षमता विवरण (Horizontal Pairwise Potential Details)

$\exp(\cdot)$:
1. गणितीय परिभाषा: घातीय फलन।
2. भौतिक/तार्किक भूमिका: $\psi_V$ के समान, यह वर्ग अंतर दंड को एक क्षमता में परिवर्तित करता है। बड़े अंतर छोटी क्षमताओं की ओर ले जाते हैं।
$-\sigma$:
1. गणितीय परिभाषा: एक नकारात्मक स्केलिंग कारक।
2. भौतिक/तार्किक भूमिका: $\sigma$ पैरामीटर है जो इस पूर्व की ताकत को नियंत्रित करता है। एक बड़ा $\sigma$ का मतलब है कि क्षैतिज रूप से आसन्न पिक्सेल के बीच अंतर के लिए एक मजबूत दंड है, इस प्रकार अधिक चिकनाई को प्रोत्साहित करता है।
$(x_i - x_j)^2$:
1. गणितीय परिभाषा: क्षैतिज रूप से आसन्न पिक्सेल $i$ और $j$ के आत्मविश्वास मानों के बीच वर्ग अंतर।
2. भौतिक/तार्किक भूमिका: यह पद $x_i$ और $x_j$ के बीच असमानता या चिकनाई की कमी को मापता है। वर्ग यह सुनिश्चित करता है कि दंड हमेशा सकारात्मक हो और बड़े विचलन अधिक महत्वपूर्ण रूप से दंडित हों।
3. क्यों: वर्ग अंतर एक वांछित स्थिति (यहां, चिकनाई) से विचलन को दंडित करने का एक मानक और प्रभावी तरीका है। नकारात्मक घातांक एक गाऊसी-जैसी क्षमता बनाता है, जहां बहुत समान आत्मविश्वास मान वाले पिक्सेल उच्च क्षमताएं उत्पन्न करते हैं, जबकि असमान वाले कम क्षमताएं उत्पन्न करते हैं।

चरण-दर-चरण प्रवाह (Step-by-Step Flow)

कल्पना कीजिए कि एक एकल अल्ट्रासाउंड छवि, $I^{(i)}$, इस प्रणाली में एक असेंबली लाइन पर कच्चे माल की तरह प्रवेश करती है। एक आत्मविश्वास मानचित्र उत्पन्न करने और परिष्कृत करने के लिए इसे कैसे संसाधित किया जाता है, यहाँ बताया गया है:

प्रारंभिक अनुमान (CNN चरण) (Initial Prediction - CNN Stage): कच्ची अल्ट्रासाउंड छवि $I^{(i)}$ को पहले कनवल्शनल न्यूरल नेटवर्क, $f(\cdot, \theta)$ में फीड किया जाता है। यह CNN, प्रारंभिक प्रसंस्करण इकाई के रूप में कार्य करते हुए, छवि को एक प्रारंभिक आत्मविश्वास मानचित्र, $x = f(I^{(i)}, \theta)$ में परिवर्तित करता है। इस मानचित्र में प्रत्येक पिक्सेल $x_k$ आत्मविश्वास का नेटवर्क का प्रारंभिक अनुमान दर्शाता है, जो आमतौर पर 0 और 1 के बीच का मान होता है।
एनोटेशन अनुकूलता जांच (एकात्मक क्षमताएं) (Annotation Compatibility Check - Unary Potentials): इसके बाद, अनुमानित आत्मविश्वास मानचित्र में प्रत्येक व्यक्तिगत पिक्सेल $x_k$ के लिए, सिस्टम जांचता है कि क्या कोई संबंधित विरल एनोटेशन $y_k$ उपयोगकर्ता द्वारा प्रदान किया गया है। यदि कोई एनोटेशन मौजूद है (अच्छा, बुरा, या कोई नहीं), तो बीटा वितरण का उपयोग करके एक "एकात्मक क्षमता" $\phi(x_k, y_k)$ की गणना की जाती है। यह कदम एक गुणवत्ता नियंत्रण स्टेशन की तरह कार्य करता है, यह मापता है कि CNN का अनुमानित आत्मविश्वास $x_k$ मानव विशेषज्ञ के लेबल $y_k$ के साथ कितनी अच्छी तरह संरेखित होता है। उच्च क्षमता का मतलब अच्छा संरेखण है।
ऊर्ध्वाधर भौतिकी प्रवर्तन (इंट्रा-स्कैनलाइन क्षमताएं) (Vertical Physics Enforcement - Intra-Scanline Potentials): साथ ही, सिस्टम प्रत्येक स्कैनलाइन के साथ ऊर्ध्वाधर रूप से आसन्न पिक्सेल $(x_i, x_j)$ के जोड़े की जांच करता है। एक "ऊर्ध्वाधर द्विपक्षीय क्षमता" $\psi_V(x_i, x_j)$ की गणना की जाती है। यह तंत्र एक भौतिकी-प्रेरित नियामक के रूप में कार्य करता है, यह सुनिश्चित करता है कि गहराई बढ़ने के साथ आत्मविश्वास आम तौर पर कम हो जाता है, जो अल्ट्रासाउंड संकेतों के प्राकृतिक क्षीणन को दर्शाता है। यदि आत्मविश्वास अप्रत्याशित रूप से बढ़ता है या पर्याप्त रूप से कम नहीं होता है, तो यह क्षमता एक दंड लगाती है, जिससे समग्र संभावना कम हो जाती है।
क्षैतिज चिकनाई प्रवर्तन (इंटर-स्कैनलाइन क्षमताएं) (Horizontal Smoothness Enforcement - Inter-Scanline Potentials): समानांतर में, सिस्टम स्कैनलाइनों के पार क्षैतिज रूप से आसन्न पिक्सेल $(x_i, x_j)$ के जोड़े को भी देखता है। एक "क्षैतिज द्विपक्षीय क्षमता" $\psi_H(x_i, x_j)$ की गणना की जाती है। यह घटक एक स्मूथिंग फिल्टर की तरह कार्य करता है, स्कैनलाइनों में आसन्न पिक्सेल को समान आत्मविश्वास मान रखने के लिए प्रोत्साहित करता है। यह ओवरलैपिंग अल्ट्रासाउंड बीम और निरंतर ऊतक गुणों की भौतिक वास्तविकता को दर्शाता है, जो अचानक क्षैतिज परिवर्तनों को दंडित करता है।
वैश्विक संभावना संयोजन (PGM एकीकरण) (Global Likelihood Assembly - PGM Integration): इन सभी व्यक्तिगत अनुकूलता स्कोर - एनोटेशन से एकात्मक क्षमताएं, भौतिकी से ऊर्ध्वाधर क्षमताएं, और चिकनाई से क्षैतिज क्षमताएं - को तब गुणा किया जाता है। यह गुणन, समीकरण (2) में परिभाषित के रूप में, पूरे अनुमानित आत्मविश्वास मानचित्र $x$ के लिए एक एकल, व्यापक संभावना स्कोर $p(x|y)$ उत्पन्न करता है। यह स्कोर दर्शाता है कि CNN का आउटपुट मानचित्र सभी मार्गदर्शक सिद्धांतों को ध्यान में रखते हुए कितना "प्रशंसनीय" है।
हानि गणना (नकारात्मक लॉग-संभावना) (Loss Calculation - Negative Log-Likelihood): अंत में, इस वैश्विक संभावना $p(x|y)$ को इसके नकारात्मक लघुगणक को लेकर रूपांतरित किया जाता है, जिससे $-\log p(x|y)$ प्राप्त होता है। यह मान वर्तमान इनपुट छवि के लिए "हानि" है। यह वह मीट्रिक है जिसे प्रणाली न्यूनतम करना चाहती है, प्रभावी रूप से सबसे संभावित आत्मविश्वास मानचित्र खोजने की समस्या को CNN के लिए एक मानक अनुकूलन चुनौती में बदल देती है।

यह पूरी प्रक्रिया कई छवियों के लिए दोहराई जाती है, जिससे CNN PGM द्वारा प्रदान की गई प्रतिक्रिया से सीख सकता है।

अनुकूलन गतिशीलता (Optimization Dynamics)

तंत्र संभाव्य ग्राफिकल मॉडल (PGM) द्वारा परिभाषित नकारात्मक लॉग-संभावना को कम करने के लिए CNN के मापदंडों ($\theta$) को पुनरावृत्त रूप से परिष्कृत करने की प्रक्रिया के माध्यम से सीखता है, अपडेट करता है और अभिसरण (converges) करता है।

हानि परिदृश्य आकारण (Loss Landscape Shaping): PGM CNN के लिए हानि परिदृश्य को आकार देने में एक महत्वपूर्ण भूमिका निभाता है। एक साधारण पिक्सेल-वार हानि के बजाय, PGM परिष्कृत "घाटियों" का निर्माण करता है जो आत्मविश्वास मानचित्रों के अनुरूप होते हैं जो न केवल विरल उपयोगकर्ता एनोटेशन के अनुरूप होते हैं, बल्कि मौलिक अल्ट्रासाउंड भौतिकी सिद्धांतों का भी पालन करते हैं।
- एकात्मक क्षमताएं (Unary Potentials): ये मजबूत आकर्षण के रूप में कार्य करते हैं। यदि किसी पिक्सेल को 'अच्छा' एनोटेट किया गया है, तो हानि परिदृश्य में CNN के आउटपुट $x_i$ को 1 की ओर धकेलने वाला एक खड़ी ढलान होगी। यदि 'बुरा', तो यह $x_i$ को 0 की ओर धकेलता है। 'कोई नहीं' एनोटेशन के लिए, परिदृश्य सपाट होता है, जिससे द्विपक्षीय क्षमताएं आत्मविश्वास मान को निर्देशित कर सकती हैं।
- ऊर्ध्वाधर द्विपक्षीय क्षमताएं (Vertical Pairwise Potentials): ये एक दिशात्मक पूर्वाग्रह पेश करते हैं। परिदृश्य उन आत्मविश्वास मानचित्रों के लिए खड़ी (उच्च हानि) हो जाती है जहां मान गहराई के साथ बढ़ते हैं या पर्याप्त रूप से कम नहीं होते हैं, प्रभावी रूप से स्कैनलाइन के साथ आत्मविश्वास के लिए एक "नीचे की ओर" ढलान बनाते हैं।
- क्षैतिज द्विपक्षीय क्षमताएं (Horizontal Pairwise Potentials): ये चिकनाई लागू करते हैं। परिदृश्य में गहरी, संकीर्ण घाटियाँ होंगी जहाँ क्षैतिज रूप से आसन्न पिक्सेल में बहुत समान आत्मविश्वास मान होते हैं, जो तेज असंततताओं को दंडित करते हैं और चिकनी संक्रमणों को प्रोत्साहित करते हैं।
- नकारात्मक लघुगणक यह सुनिश्चित करता है कि अत्यधिक संभावित विन्यासों से छोटे विचलन भी हानि में महत्वपूर्ण वृद्धि का कारण बनते हैं, जिससे सीखने के लिए मजबूत ग्रेडिएंट मिलते हैं।
ग्रेडिएंट डिसेंट और बैकप्रॉपेगेशन (Gradient Descent and Backpropagation): CNN एक पुनरावृत्त अनुकूलन एल्गोरिथम का उपयोग करके सीखता है, आमतौर पर स्टोकेस्टिक ग्रेडिएंट डिसेंट (जैसे, एडम) का एक प्रकार।
- प्रत्येक प्रशिक्षण चरण के दौरान, अल्ट्रासाउंड छवियों के एक बैच को CNN में फीड किया जाता है, जो अनुमानित आत्मविश्वास मानचित्रों का एक बैच उत्पन्न करता है।
- प्रत्येक अनुमानित मानचित्र के लिए, PGM नकारात्मक लॉग-संभावना हानि की गणना करता है, जैसा कि "चरण-दर-चरण प्रवाह" में वर्णित है।
- बैकप्रॉपेगेशन का उपयोग तब CNN के भीतर प्रत्येक पैरामीटर $\theta$ के संबंध में इस हानि के ग्रेडिएंट की गणना करने के लिए किया जाता है। ये ग्रेडिएंट हानि को कम करने के लिए प्रत्येक पैरामीटर में आवश्यक परिवर्तन की दिशा और परिमाण को इंगित करते हैं।
- अनुकूलक तब ग्रेडिएंट की विपरीत दिशा में एक कदम उठाकर (हानि परिदृश्य से नीचे) CNN के मापदंडों को अपडेट करता है, जिसे सीखने की दर से स्केल किया जाता है। यह पुनरावृत्त समायोजन CNN को अल्ट्रासाउंड छवियों से आत्मविश्वास मानचित्रों तक जटिल मैपिंग को धीरे-धीरे सीखने की अनुमति देता है जो PGM के मानदंडों को पूरा करते हैं।
अभिसरण व्यवहार (Convergence Behavior): एक शक्तिशाली CNN और एक भौतिकी-सूचित PGM का संयोजन मजबूत अभिसरण की सुविधा प्रदान करता है।
- PGM एक मजबूत, व्याख्यात्मक पूर्व के रूप में कार्य करता है, CNN को भौतिक रूप से प्रशंसनीय समाधानों की ओर निर्देशित करता है और इसे स्थानीय न्यूनतम में फंसने से रोकता है जो विरल एनोटेशन को संतुष्ट कर सकते हैं लेकिन मौलिक भौतिकी का उल्लंघन करते हैं। यह विशुद्ध रूप से डेटा-संचालित दृष्टिकोणों पर एक प्रमुख लाभ है।
- लेखक 0.32 के सत्यापन हानि की रिपोर्ट करते हैं, जो 0.25 के प्रशिक्षण हानि से निकटता से मेल खाता है। यह इंगित करता है कि मॉडल प्रभावी ढंग से सीख रहा है और अनदेखे डेटा के लिए अच्छी तरह से सामान्यीकरण कर रहा है, महत्वपूर्ण ओवरफिटिंग के बिना। PGM का नियमितीकरण प्रभाव संभवतः इस अच्छे सामान्यीकरण में योगदान देता है।
- पुनरावृत्त अपडेट तब तक जारी रहते हैं जब तक ग्रेडिएंट बहुत छोटे नहीं हो जाते, यह दर्शाता है कि मॉडल हानि परिदृश्य में एक स्थिर बिंदु पर पहुंच गया है जहां आगे पैरामीटर समायोजन न्यूनतम सुधार प्रदान करते हैं। इसके परिणामस्वरूप एक CNN होता है जो वास्तविक समय में उच्च-गुणवत्ता वाले, भौतिकी-संगत आत्मविश्वास मानचित्रों को तेज़ी से उत्पन्न करने में सक्षम होता है।

Figure 1. Overview of our method, showcasing how sparse Good (red, high confi- dence) and Bad (blue, low confidence) annotations are utilized to predict confi- dence maps with a CNN in pre-scan converted space

परिणाम, सीमाएँ और निष्कर्ष (Results, Limitations & Conclusion)

प्रयोगात्मक डिजाइन और बेसलाइन (Experimental Design & Baselines)

अपने नवीन दृष्टिकोण को कठोरता से मान्य करने के लिए, लेखकों ने स्थापित विधियों के मुकाबले अपने भौतिकी-प्रेरित, CNN-संचालित आत्मविश्वास मानचित्र निर्माण को खड़ा करते हुए प्रयोगों की एक श्रृंखला तैयार की। इस तुलनात्मक विश्लेषण में "पीड़ित" (बेसलाइन मॉडल) मुख्य रूप से करमालिस एट अल. [12] और हंग एट अल. [11] द्वारा प्रस्तावित विधियाँ थीं।

करमालिस की विधि छवि पिक्सेल को एक ग्राफ में नोड्स के रूप में मॉडल करके संचालित होती है, जहां एज वेट अल्ट्रासाउंड भौतिकी से प्राप्त होते हैं। आत्मविश्वास की गणना तब निश्चित सीमा शर्तों (ऊपर उच्च आत्मविश्वास, नीचे कम) द्वारा बाधित एक यादृच्छिक चाल संतुलन समस्या को हल करके की जाती है। एक निष्पक्ष तुलना के लिए, लेखकों ने इस विधि के एक सार्वजनिक रूप से उपलब्ध पायथन कार्यान्वयन का उपयोग किया, इसके अल्फा पैरामीटर को 1 पर सेट किया। हंग का दृष्टिकोण, दूसरी ओर, पहले एक अनिसोट्रोपिक फिल्टर का उपयोग करके स्पेकल शोर को कम करता है और फिर एक निर्देशित चक्रीय ग्राफ के माध्यम से छवि की शीर्ष पंक्ति से आत्मविश्वास का प्रसार करता है। लेखकों ने हंग की विधि के आधिकारिक कार्यान्वयन का उपयोग किया, इसके पैरामीटर ($\alpha = 10^{-2}$ और $\xi = 0.4$) को अत्यधिक तेजी से आत्मविश्वास क्षय को रोकने के लिए सावधानीपूर्वक सेट किया। विशेष रूप से, एक छाया-विशिष्ट तंत्रिका नेटवर्क दृष्टिकोण [15] को उपलब्ध डेटासेट में आवश्यक छाया एनोटेशन की कमी के कारण तुलना से बाहर रखा गया था।

प्रयोगात्मक डिजाइन में विभिन्न अल्ट्रासाउंड परिदृश्यों में गुणात्मक और मात्रात्मक दोनों मूल्यांकन शामिल थे:

गुणात्मक मूल्यांकन (Qualitative Evaluation): सत्यापन डेटासेट से सात प्रतिनिधि अल्ट्रासाउंड फ्रेम (A-G) चुने गए थे। फ्रेम A-F प्रशिक्षण डेटा के समान परिस्थितियों में अधिग्रहित किए गए थे, जबकि फ्रेम G को पूरी तरह से अलग सेटअप से जानबूझकर चुना गया था—जिसमें एक अलग अल्ट्रासाउंड मशीन और ध्वनिक युग्मन के लिए एक पानी का स्नान शामिल था—ताकि प्रस्तावित विधि की सामान्यीकरण क्षमताओं का परीक्षण किया जा सके। इसने प्रत्येक विधि को विभिन्न कलाकृतियों और इमेजिंग स्थितियों को संभालने में कितनी अच्छी तरह से संभाला, इसका दृश्य मूल्यांकन करने की अनुमति दी।
मात्रात्मक मूल्यांकन: हड्डी छाया विभाजन (Quantitative Evaluation: Bone Shadow Segmentation): यह कार्य येसिलकायनाक एट अल. [23] के पिछले काम पर आधारित था। लेखकों ने येसिलकायनाक के सार्वजनिक रूप से उपलब्ध कोड और डेटासेट का लाभ उठाया, जिसमें अल्ट्रासाउंड फ्रेम और संबंधित हड्डी छाया मास्क शामिल हैं। एक निष्पक्ष तुलना सुनिश्चित करने के लिए, उनके प्रस्तावित आत्मविश्वास अनुमान को सभी फ्रेमों पर लागू किया गया था, और फिर एक यादृच्छिक वन क्लासिफायर (बिना किसी संशोधन या फाइन-ट्यूनिंग के) का उपयोग करके छाया का अनुमान लगाया गया था। इस सेटअप ने सुनिश्चित किया कि कोई भी प्रदर्शन अंतर पूरी तरह से उत्पन्न आत्मविश्वास मानचित्रों की गुणवत्ता के कारण था, न कि कार्य-विशिष्ट अनुकूलन एल्गोरिथम के स्वयं के अनुकूलन के कारण।
मात्रात्मक मूल्यांकन: पंजीकरण भारण (Quantitative Evaluation: Registration Weighting): दूसरी डाउनस्ट्रीम कार्य के लिए, लेखकों ने रोनचेट्टी एट अल. [16] से मूल्यांकन पद्धति का पालन किया। इस कार्य के लिए डेटासेट में दो अलग-अलग अल्ट्रासाउंड मशीनों से 28 ट्रैक किए गए यकृत क्लिप शामिल थे, जिसमें ऑप्टिकल ट्रैकिंग के माध्यम से स्थिति संबंधी जानकारी प्राप्त की गई थी। प्रत्येक क्लिप को एक संबंधित सीटी या एमआर वॉल्यूम के साथ जोड़ा गया था, और कम से कम चार लैंडमार्क जोड़े को एक विशेषज्ञ द्वारा मैन्युअल रूप से एनोटेट किया गया था। सभी फ्रेमों के लिए व्यक्तिगत आत्मविश्वास मानचित्रों की गणना की गई, जिनका उपयोग तब 3डी आत्मविश्वास वॉल्यूम के पुनर्निर्माण के लिए किया गया था। मल्टी-मोडल तीव्रता-आधारित पंजीकरण के लिए भारण कारकों के रूप में सीधे आत्मविश्वास मानचित्रों का उपयोग करके प्रयोग किए गए थे, और स्थानीय पैच विचरण के साथ उन्हें गुणा करके भी, केवल पैच विचरण के पारंपरिक उपयोग को प्रतिस्थापित करके। इसने सीधे मूल्यांकन करने की अनुमति दी कि आत्मविश्वास मानचित्र पंजीकरण एल्गोरिदम की मजबूती और अभिसरण को कैसे बेहतर बनाते हैं।

साक्ष्य क्या साबित करते हैं (What the Evidence Proves)

पेपर में प्रस्तुत साक्ष्य अल्ट्रासाउंड आत्मविश्वास मानचित्रों के लिए प्रस्तावित भौतिकी-प्रेरित सीखने के दृष्टिकोण की प्रभावकारिता और श्रेष्ठता का एक सम्मोहक मामला प्रदान करते हैं। मुख्य तंत्र, जो एक संभाव्य ग्राफिकल मॉडल (PGM) में विरल एनोटेशन को एकीकृत करता है ताकि एक कनवल्शनल न्यूरल नेटवर्क (CNN) को निर्देशित किया जा सके, स्पष्ट रूप से वास्तविकता में काम करता है, विभिन्न चुनौतीपूर्ण परिदृश्यों में बेसलाइन से बेहतर प्रदर्शन करता है।

गुणात्मक साक्ष्य (चित्र 4):
चित्र 4 में दृश्य तुलना प्रस्तावित विधि की मजबूती का निर्विवाद प्रमाण प्रदान करती है। जटिल कलाकृतियों की उपस्थिति में, विशेष रूप से, प्रस्तावित दृष्टिकोण लगातार करमालिस और हंग के तरीकों की तुलना में अधिक सटीक और सहज आत्मविश्वास मानचित्र उत्पन्न करता है:
* छाया हैंडलिंग: विधि छायाओं की पहचान और सीमांकन करने में उत्कृष्ट है, जिन्हें अक्सर बेसलाइन द्वारा खराब तरीके से प्रबंधित किया जाता है। उदाहरण के लिए, फ्रेम बी में, एक आंशिक छाया के बाद एक मजबूत परावर्तक (डायाफ्राम) का पता हमारे विधि द्वारा सही ढंग से लगाया जाता है, जो डायाफ्राम को एक उपयुक्त मध्यवर्ती आत्मविश्वास भी प्रदान करता है। इसके विपरीत, अन्य विधियाँ इस सूक्ष्म छाया को पूरी तरह से चूक जाती हैं। इसी तरह, गायब प्रोब संपर्क (फ्रेम ए और ई) से मजबूत छायाएँ प्रतिस्पर्धी दृष्टिकोणों द्वारा पूरी तरह से गलत समझी जाती हैं, जो इन सामान्य कलाकृतियों की व्याख्या करने में उनकी विफलता को उजागर करती हैं।
* प्रतिध्वनि और कलाकृति अलगाव: जबकि हंग की विधि में प्रतिध्वनि (फ्रेम ए, एफ) से निपटने की कुछ क्षमता दिखाई देती है, हमारा दृष्टिकोण दृश्य संरचनाओं और कलाकृतियों के बीच एक बहुत स्वच्छ अलगाव प्रदान करता है, जिससे अधिक विश्वसनीय आत्मविश्वास आकलन होता है।
* उच्च आत्मविश्वास का संरक्षण: महत्वपूर्ण रूप से, प्रस्तावित विधि दृश्य संरचनाओं को उच्च गहराई (फ्रेम सी, डी, जी) पर गलती से कम आत्मविश्वास असाइन करने से बचती है, जो करमालिस और हंग की विधियों के लिए एक सामान्य गड्ढा है।
* सामान्यीकरण: फ्रेम जी पर प्रदर्शन, जो एक पूरी तरह से अलग अल्ट्रासाउंड मशीन और एक पानी के स्नान (प्रशिक्षण डेटा का हिस्सा नहीं) के साथ अधिग्रहित किया गया था, विशेष रूप से हड़ताली है। हमारी विधि असामान्य त्वचा की उपस्थिति और कलाकृतियों को सही ढंग से पहचानती है, जो प्रशिक्षण वितरण से परे मजबूत सामान्यीकरण क्षमताओं का प्रदर्शन करती है। यह भौतिकी-प्रेरित पूर्व और CNN की मजबूत सुविधाओं को सीखने की क्षमता का एक शक्तिशाली प्रमाण है।

मात्रात्मक साक्ष्य (हड्डी छाया विभाजन - तालिका 1):
हड्डी छाया विभाजन के लिए मात्रात्मक परिणाम संख्याएँ प्रदान करते हैं जो गुणात्मक अवलोकनों को रेखांकित करती हैं। बिना किसी कार्य-विशिष्ट फाइन-ट्यूनिंग या इसके प्रशिक्षण में उद्देश्य के, प्रस्तावित विधि अत्याधुनिक से काफी बेहतर प्रदर्शन करती है:
* डाइस स्कोर (Dice Score): हमारी विधि ने 58.9% का डाइस स्कोर प्राप्त किया, जो येसिलकायनाक (50.4%), करमालिस (49.3%), और हंग (47.6%) से काफी अधिक है। एक उच्च डाइस स्कोर अनुमानित और ग्राउंड ट्रुथ छाया क्षेत्रों के बीच बेहतर ओवरलैप को इंगित करता है।
* परिशुद्धता (Precision): हमारी विधि की परिशुद्धता 86.8% थी, जो येसिलकायनाक (71.5%), हंग (63.4%), और करमालिस (61.1%) से कहीं अधिक है। यह मीट्रिक पुष्टि करता है कि जब हमारी विधि एक छाया की पहचान करती है, तो यह अत्यधिक संभावना है कि यह सही है, झूठे सकारात्मक को कम करता है।
* हॉसडॉर्फ दूरी (Hausdorff Distance): जबकि येसिलकायनाक की विधि में थोड़ी बेहतर हॉसडॉर्फ दूरी (5.6 बनाम 6.2 हमारे लिए) थी, डाइस स्कोर और परिशुद्धता में समग्र श्रेष्ठ प्रदर्शन निश्चित रूप से साबित करता है कि हमारे आत्मविश्वास मानचित्र इस डाउनस्ट्रीम कार्य के लिए अधिक प्रभावी हैं।

मात्रात्मक साक्ष्य (पंजीकरण भारण - तालिका 2):
मल्टी-मोडल पंजीकरण पर ध्यान केंद्रित करते हुए दूसरा मात्रात्मक मूल्यांकन, दावों को और मजबूत करता है। प्रस्तावित विधि द्वारा उत्पन्न आत्मविश्वास मानचित्र पंजीकरण एल्गोरिदम की अभिसरण दर को महत्वपूर्ण रूप से बेहतर बनाते हैं:
* बढ़े हुए अभिसरण मामले (Increased Converged Cases): प्रारंभिक पंजीकरण त्रुटि के सभी श्रेणियों (<25 मिमी, 25-50 मिमी, >50 मिमी) में, "हमारा" और "हमारा × विचरण" लगातार अभिसरण मामलों का उच्चतम प्रतिशत उत्पन्न करते हैं। 25 मिमी से कम प्रारंभिक त्रुटियों के लिए, हमारी विधि ने 77.9% अभिसरण प्राप्त किया (और विचरण के साथ संयुक्त होने पर 78.7%), बेसलाइन "विचरण" (69.7%), करमालिस (31.1%), और हंग (49.4%) से काफी बेहतर प्रदर्शन किया। यहां तक कि जब बेसलाइन को विचरण के साथ जोड़ा गया था (जैसे, करमालिस × विचरण 70.4% पर), हमारी विधि ने अभी भी एक स्पष्ट लाभ दिखाया।
यह दर्शाता है कि आत्मविश्वास मानचित्र पंजीकरण के लिए एक अधिक विश्वसनीय और मजबूत भारण कारक प्रदान करते हैं, जिससे अधिक सफल और स्थिर संरेखण अल्ट्रासाउंड और सीटी/एमआर वॉल्यूम के बीच होता है। महत्वपूर्ण नैदानिक लाभ का प्रतिनिधित्व करते हुए, काफी अधिक संख्या में मामलों में पंजीकरण अभिसरण का समर्थन करने की क्षमता।

संक्षेप में, प्रयोगात्मक परिणाम, दृश्य और संख्यात्मक दोनों, निश्चित, निर्विवाद प्रमाण प्रदान करते हैं कि प्रस्तावित उपयोगकर्ता-केंद्रित, भौतिकी-प्रेरित दृष्टिकोण बेहतर अल्ट्रासाउंड आत्मविश्वास मानचित्र उत्पन्न करता है जो कलाकृतियों के लिए मजबूत होते हैं, अच्छी तरह से सामान्यीकरण करते हैं, और हड्डी छाया विभाजन और मल्टी-मोडल छवि पंजीकरण जैसे डाउनस्ट्रीम कार्यों में प्रदर्शन को महत्वपूर्ण रूप से बढ़ाते हैं।

सीमाएँ और भविष्य की दिशाएँ (Limitations & Future Directions)

जबकि प्रस्तावित विधि अल्ट्रासाउंड आत्मविश्वास मानचित्र उत्पन्न करने में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करती है, इसकी वर्तमान सीमाओं को स्वीकार करना और भविष्य के विकास के लिए रास्ते पर विचार करना महत्वपूर्ण है। पत्र स्वयं कुछ क्षेत्रों की ओर इशारा करता है, और एक व्यापक दृष्टिकोण आगे महत्वपूर्ण सोच को प्रेरित कर सकता है।

एक अंतर्निहित सीमा, जैसा कि धारा 2 में उल्लेख किया गया है, यह है कि आदर्श आत्मविश्वास मानचित्रों के लिए अंतर्निहित भौतिक मॉडल स्पष्ट रूप से बहु-पथ प्रकीर्णन या प्रतिध्वनि जैसी जटिल घटनाओं को ध्यान में नहीं रखता है। यद्यपि CNN को इन कलाकृतियों को अप्रत्यक्ष रूप से संभालने के लिए प्रशिक्षित किया जाता है, संभाव्य ग्राफिकल मॉडल (PGM) में ऐसे अधिक प्रत्यक्ष एकीकरण से संभावित रूप से मजबूती बढ़ सकती है और व्यापक प्रशिक्षण डेटा पर निर्भरता कम हो सकती है। इसी तरह, PGM सीधे छवि तीव्रताओं का उपयोग नहीं करता है, बल्कि इस जटिल संबंध को CNN को सौंप देता है। यद्यपि यह डिजाइन विकल्प जानबूझकर था, यह सवाल उठाता है कि क्या PGM के भीतर भौतिकी-सूचित एकीकरण का एक अधिक परिष्कृत, भौतिकी-सूचित एकीकरण भी अधिक सटीक आत्मविश्वास अनुमान प्रदान कर सकता है, खासकर अस्पष्ट क्षेत्रों में।

एक और व्यावहारिक सीमा, हालांकि स्पष्ट रूप से ऐसी के रूप में नहीं बताई गई है, 2डी अल्ट्रासाउंड फ्रेम पर वर्तमान ध्यान है। यद्यपि विधि वास्तविक समय अनुप्रयोगों के लिए पर्याप्त तेज है, नैदानिक कार्यप्रवाहों को अक्सर वॉल्यूमेट्रिक विश्लेषण की आवश्यकता होती है। पत्र का निष्कर्ष भविष्य के काम के लिए वॉल्यूमेट्रिक विश्लेषण के लिए 3डी अल्ट्रासाउंड तक दृष्टिकोण का विस्तार करने का उल्लेख करता है, जो एक स्वाभाविक और आवश्यक प्रगति है।

आगे देखते हुए, इन निष्कर्षों को विकसित करने और विकसित करने के लिए कई चर्चा विषय उभरते हैं:

गहन भौतिकी-सूचित शिक्षण (Deepening Physics-Informed Learning): हम वर्तमान भौतिकी-प्रेरित पूर्व से वास्तव में भौतिकी-बाधित या भौतिकी-नियमित शिक्षण ढांचे की ओर कैसे बढ़ सकते हैं? क्या अधिक समृद्ध, अधिक सटीक पूर्व प्रदान करने के लिए अवकलनीय भौतिकी सिमुलेटर को प्रशिक्षण लूप में एकीकृत किया जा सकता है, संभावित रूप से बड़े एनोटेट किए गए डेटासेट की आवश्यकता को कम किया जा सकता है और अनदेखी कलाकृतियों या ट्रांसड्यूसर प्रकारों के लिए सामान्यीकरण में सुधार किया जा सकता है? इसमें अधिक जटिल तरंग प्रसार घटनाओं को मॉडल करना शामिल हो सकता है, जैसे अरैखिक ध्वनिकी या ऊतक-विशिष्ट क्षीणन प्रोफाइल।
अनुकूली और सक्रिय एनोटेशन रणनीतियाँ (Adaptive and Active Annotation Strategies): वर्तमान विधि विरल बाइनरी एनोटेशन पर निर्भर करती है। यद्यपि प्रभावी, इन एनोटेशन को प्राप्त करने की प्रक्रिया अभी भी श्रम-गहन हो सकती है। भविष्य के काम में सक्रिय सीखने के ढांचे का पता लगाया जा सकता है जहां मॉडल बुद्धिमानी से उच्च अनिश्चितता या असहमति के क्षेत्रों की पहचान करता है और विशेषज्ञों से लक्षित एनोटेशन का अनुरोध करता है। यह एनोटेशन प्रयास को अनुकूलित कर सकता है, मानव इनपुट को वहां केंद्रित कर सकता है जहां यह सबसे अधिक मूल्य प्रदान करता है, और संभावित रूप से नए नैदानिक परिदृश्यों के लिए मॉडल प्रशिक्षण और अनुकूलन को अधिक कुशल बना सकता है।
आत्मविश्वास मानचित्रों का अनिश्चितता मात्राकरण (Uncertainty Quantification of Confidence Maps): यद्यपि विधि आत्मविश्वास मानचित्र उत्पन्न करती है, यह स्वयं इन आत्मविश्वास मानचित्रों की अनिश्चितता को स्पष्ट रूप से मापता नहीं है। उच्च-दांव वाले नैदानिक निर्णयों में, यह जानना कि मॉडल अपने आत्मविश्वास अनुमान के बारे में कितना निश्चित है, अमूल्य हो सकता है। बायेसियन तंत्रिका नेटवर्क, पहनावा विधियों, या अन्य अनिश्चितता मात्राकरण तकनीकों की खोज चिकित्सकों को छवि विश्वसनीयता का एक अधिक पूर्ण चित्र प्रदान करते हुए, "आत्मविश्वास में आत्मविश्वास" मीट्रिक प्रदान कर सकती है।
वास्तविक समय नैदानिक एकीकरण और प्रतिक्रिया लूप (Real-time Clinical Integration and Feedback Loops): 2,300 एफपीएस की रिपोर्ट की गई गति इस विधि को वास्तविक समय नैदानिक उपयोग के लिए अत्यधिक उपयुक्त बनाती है। अगली सीमा मौजूदा अल्ट्रासाउंड मशीनों और नैदानिक कार्यप्रवाहों में निर्बाध एकीकरण है। आत्मविश्वास मानचित्र प्रदर्शित करने से परे, चिकित्सक लाइव सेटिंग में मॉडल के व्यवहार को लगातार परिष्कृत करने के लिए वास्तविक समय, सहज प्रतिक्रिया (जैसे, इशारों, आवाज कमांड, या प्रत्यक्ष हेरफेर के माध्यम से) कैसे प्रदान कर सकते हैं? यह वास्तव में व्यक्तिगत और अनुकूली आत्मविश्वास मानचित्रण प्रणालियों को जन्म दे सकता है जो चल रहे नैदानिक अनुभव से सीखते हैं।
मल्टी-मोडल और मल्टी-सोर्स आत्मविश्वास संलयन (Multi-modal and Multi-source Confidence Fusion): पत्र मल्टी-मोडल पंजीकरण के लिए आत्मविश्वास मानचित्रों की उपयोगिता प्रदर्शित करता है। इस अवधारणा को कई स्रोतों से आत्मविश्वास जानकारी को फ्यूज करने के लिए विस्तारित किया जा सकता है—न केवल विभिन्न इमेजिंग तौर-तरीकों से (जैसे, अल्ट्रासाउंड आत्मविश्वास को सीटी-व्युत्पन्न शारीरिक निश्चितता के साथ जोड़ना) बल्कि विभिन्न अल्ट्रासाउंड अधिग्रहण मापदंडों या यहां तक कि विभिन्न ऑपरेटरों से भी। एक समग्र आत्मविश्वास मानचित्र, विभिन्न इनपुट की शक्तियों का लाभ उठाते हुए, छवि गुणवत्ता का अधिक मजबूत और व्यापक मूल्यांकन प्रदान कर सकता है।
वर्तमान डाउनस्ट्रीम कार्यों से परे (Beyond Current Downstream Tasks): विधि ने हड्डी छाया विभाजन और पंजीकरण में वादा दिखाया है। इन उच्च-गुणवत्ता वाले आत्मविश्वास मानचित्रों से महत्वपूर्ण रूप से लाभान्वित होने वाले अन्य महत्वपूर्ण डाउनस्ट्रीम कार्य चिकित्सा इमेजिंग में क्या हो सकते हैं? संभावित अनुप्रयोगों में स्वचालित घाव का पता लगाना और लक्षण वर्णन, रोबोटिक हस्तक्षेपों का मार्गदर्शन करना (जैसे, बायोप्सी, एब्लेशन) जहां ऊतक विश्वसनीयता का सटीक ज्ञान सर्वोपरि है, या यहां तक कि छवि आत्मविश्वास के आधार पर उनके हानि कार्यों को भारित करके अन्य डीप लर्निंग मॉडल के प्रशिक्षण में सुधार करना शामिल है।
नैतिक विचार और एआई में विश्वास (Ethical Considerations and Trust in AI): जैसे-जैसे एआई-संचालित आत्मविश्वास मानचित्र नैदानिक निर्णय लेने में अधिक एकीकृत होते जाते हैं, नैतिक विचार सर्वोपरि हो जाते हैं। हम यह कैसे सुनिश्चित करते हैं कि चिकित्सक इन प्रणालियों में उचित विश्वास विकसित करें, अत्यधिक निर्भरता और अनुचित संदेह दोनों से बचें? आत्मविश्वास मानचित्रों के लिए व्याख्यात्मक एआई (XAI) में अनुसंधान पारदर्शिता को बढ़ावा देने और उपकरण में ही चिकित्सक के विश्वास का निर्माण करने में मदद कर सकता है, यह समझाने में मदद करता है कि कुछ क्षेत्रों को उच्च या निम्न आत्मविश्वास क्यों माना जाता है। यह नैदानिक रूप से सफल अपनाने के लिए एक महत्वपूर्ण पहलू है।

"छाया से परे" की यात्रा स्पष्ट रूप से अभी शुरू हुई है, और ये निष्कर्ष एक ऐसे भविष्य के लिए एक ठोस नींव रखते हैं जहां अल्ट्रासाउंड इमेजिंग न केवल वास्तविक समय है, बल्कि विश्वसनीय रूप से मात्रात्मक भी है, जो चिकित्सकों को निदान और हस्तक्षेप के लिए बेहतर जानकारी के साथ सशक्त बनाता है।

Table 2. Impact of using confidence as voxel weight for registration. A case is considered “converged” if the Fiducial Registration Error after registration is below 15 mm. The best results and the ones not significantly different (p > 10−3) are highlighted in bold

Table 1. Random forest shadow segmentation using confidence maps. All rows except the last one are reprinted from [23], see text for details