SOO-Bench: ऑफलाइन ब्लैक-बॉक्स ऑप्टिमाइज़ेशन की स्थिरता के मूल्यांकन हेतु बेंचमार्क
ऑफलाइन ब्लैक बॉक्स ऑप्टिमाइज़ेशन (BBO) की समस्या उन जटिल प्रणालियों को अनुकूलित (optimize) करने की व्यावहारिक आवश्यकता से उत्पन्न हुई है, जहाँ ऑब्जेक्टिव फंक्शन का प्रत्यक्ष, वास्तविक समय (real time) मूल्यांकन या तो...
पृष्ठभूमि और अकादमिक वंशावली
उत्पत्ति और अकादमिक वंशावली
ऑफलाइन ब्लैक-बॉक्स ऑप्टिमाइज़ेशन (BBO) की समस्या उन जटिल प्रणालियों को अनुकूलित (optimize) करने की व्यावहारिक आवश्यकता से उत्पन्न हुई है, जहाँ ऑब्जेक्टिव फंक्शन का प्रत्यक्ष, वास्तविक समय (real-time) मूल्यांकन या तो अत्यधिक खतरनाक है, आर्थिक रूप से अव्यावहारिक है, या भौतिक रूप से असंभव है। ऐतिहासिक रूप से, BBO विधियाँ "एक्टिव सैंपलिंग" पर निर्भर थीं—अर्थात सिस्टम के व्यवहार को सीखने के लिए बार-बार उससे पूछताछ करना। हालाँकि, ड्रग डिस्कवरी (जैसे आणविक संरचनाओं का डिज़ाइन) या हार्डवेयर इंजीनियरिंग (जैसे यांत्रिक संरचना पैरामीटर) जैसे क्षेत्रों में, हम किसी नए डिज़ाइन का तुरंत "परीक्षण" नहीं कर सकते। इसके बजाय, शोधकर्ताओं को ऐतिहासिक प्रयोगों के एक स्थिर, पूर्व-मौजूद "ऑफलाइन" डेटासेट पर निर्भर रहने के लिए मजबूर होना पड़ता है।
इस शोध-पत्र को प्रेरित करने वाली मूलभूत समस्या इन ऑफलाइन डेटासेट का नैरो डिस्ट्रीब्यूशन (narrow distribution) है। चूँकि ऐतिहासिक डेटा अक्सर शोधकर्ता के व्यक्तिपरक पूर्वाग्रह या विशिष्ट, सीमित रणनीतियों के आधार पर एकत्र किया जाता है, इसलिए यह संपूर्ण समाधान स्थान (solution space) को कवर करने में विफल रहता है। पूर्ववर्ती एल्गोरिदम, जब ऐसे सीमित डेटा पर प्रशिक्षित किए जाते हैं, तो अक्सर "आउट-ऑफ-डिस्ट्रीब्यूशन" (OOD) समस्या से ग्रस्त हो जाते हैं: वे उन क्षेत्रों में अत्यधिक आत्मविश्वासी (overconfident) हो जाते हैं जहाँ उनके पास कोई डेटा नहीं होता, जिससे ऑप्टिमाइज़ेशन के दौरान प्रदर्शन में गिरावट आती है। इसके अतिरिक्त, Design-Bench जैसे मौजूदा बेंचमार्क मुख्य रूप से कार्य और डेटासेट प्रदान करने के लिए डिज़ाइन किए गए थे, लेकिन उनमें किसी एल्गोरिदम की स्थिरता (stability)—अर्थात नैरो डेटा डिस्ट्रीब्यूशन द्वारा गुमराह हुए बिना ऑफलाइन डेटासेट में लगातार सुधार करने की क्षमता—का मूल्यांकन करने की क्षमता का अभाव था।
सहज डोमेन शब्दावली
- ब्लैक-बॉक्स ऑप्टिमाइज़ेशन (BBO): कल्पना करें कि आप केक के लिए एक उत्तम रेसिपी खोजने का प्रयास कर रहे हैं, लेकिन आपको बैटर चखने या सामग्री की सूची देखने की अनुमति नहीं है। आप केवल केक बेक कर सकते हैं और एक जज आपको स्कोर दे सकता है। BBO केवल इन स्कोरों के आधार पर सर्वोत्तम "रेसिपी" (इनपुट) खोजने की गणितीय प्रक्रिया है, बिना यह जाने कि केक की अंतर्निहित "केमिस्ट्री" (फंक्शन) क्या है।
- सरोगेट मॉडल (Surrogate Model): चूँकि वास्तविक "ब्लैक-बॉक्स" का मूल्यांकन करना महंगा है, हम इसका एक "डिजिटल ट्विन" या सरलीकृत गणितीय सन्निकटन (approximation) बनाते हैं। हम इस मॉडल को अपने ऐतिहासिक डेटा पर प्रशिक्षित करते हैं ताकि हम वास्तविक, महंगे सिस्टम के बजाय मॉडल पर लाखों संभावित समाधानों का "परीक्षण" कर सकें।
- नैरो डिस्ट्रीब्यूशन (Narrow Distribution): इसे एक ऐसे छात्र के रूप में सोचें जिसने केवल पाठ्यपुस्तक के अध्याय 1 से प्रश्नों का अध्ययन किया है। यदि आप उन्हें पूरी किताब को कवर करने वाला टेस्ट देते हैं, तो वे संभवतः विफल हो जाएंगे क्योंकि उन्हें अन्य अध्यायों की सामग्री का कोई अनुभव नहीं है। ऑप्टिमाइज़ेशन में, यदि हमारा ऐतिहासिक डेटा केवल एक छोटे, विशिष्ट क्षेत्र को कवर करता है, तो मॉडल यह नहीं जान पाएगा कि "अनदेखे" क्षेत्र में जाने पर कैसे व्यवहार करना है।
- आउट-ऑफ-डिस्ट्रीब्यूशन (OOD): यह ऊपर उल्लिखित "अनदेखे क्षेत्र" को संदर्भित करता है। यह समाधान स्थान का वह क्षेत्र है जो ऐतिहासिक डेटा में प्रस्तुत नहीं है। एल्गोरिदम अक्सर इन क्षेत्रों में समाधान कितना अच्छा है, इसके बारे में "मतिभ्रम" (hallucinate) करते हैं या गलत अनुमान लगाते हैं क्योंकि उनके पास अपनी भविष्यवाणियों को आधार देने के लिए कोई डेटा नहीं होता है।
संकेतन तालिका (Notation Table)
| संकेतन | विवरण |
|---|---|
| $f: \mathcal{X} \to \mathbb{R}$ | अज्ञात ब्लैक-बॉक्स ऑब्जेक्टिव फंक्शन। |
| $\mathcal{X} \subseteq \mathbb{R}^d$ | $d$-आयामी समाधान स्थान। |
| $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$ | $N$ समाधानों और उनके मानों वाला स्थिर ऑफलाइन डेटासेट। |
| $\hat{f}_\theta(x)$ | $\mathcal{D}$ पर प्रशिक्षित पैरामीटर $\theta$ वाला सरोगेट मॉडल। |
| $x^{(t)}$ | ऑप्टिमाइज़ेशन चरण $t$ पर समाधान। |
| $\eta$ | ऑप्टिमाइज़ेशन प्रक्रिया के लिए लर्निंग रेट (चरण आकार)। |
| $T$ | ऑप्टिमाइज़ेशन चरणों की कुल संख्या। |
| $x_{\text{app}} = x^{(T)}$ | ऑनलाइन एप्लिकेशन के लिए अंतिम समाधान आउटपुट। |
| $SO$ | स्टेबिलिटी-ऑप्टिमलिटी इंडिकेटर। |
| $OI(t)$ | चरण $t$ पर ऑप्टिमलिटी इंडिकेटर। |
| $SI(t)$ | चरण $t$ पर स्टेबिलिटी इंडिकेटर। |
गणितीय व्याख्या
लेखक सीधे संपर्क के बिना $f(x)$ को अधिकतम करके एक इष्टतम समाधान $x^*$ खोजने की समस्या का समाधान करते हैं। मुख्य चुनौती यह है कि सरोगेट मॉडल $\hat{f}_{\theta^*}(x)$ केवल $\mathcal{D}$ में डेटा के पास ही विश्वसनीय है। ऑप्टिमाइज़ेशन प्रक्रिया आमतौर पर ग्रेडिएंट एसेंट का पालन करती है:
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}$$
समस्या यह है कि जैसे-जैसे $t$ बढ़ता है, $x^{(t)}$ OOD क्षेत्रों में जा सकता है जहाँ $\hat{f}_{\theta^*}(x)$ गलत है, जिससे प्रदर्शन गिर जाता है।
इसे हल करने के लिए, लेखक स्टेबिलिटी-ऑप्टिमलिटी (SO) इंडिकेटर प्रस्तावित करते हैं ताकि यह मापा जा सके कि कोई एल्गोरिदम वैश्विक इष्टतम (ऑप्टिमलिटी) खोजने और एक विश्वसनीय क्षेत्र (स्थिरता) के भीतर रहने के बीच कितना अच्छा संतुलन बनाता है। SO को इस प्रकार परिभाषित किया गया है:
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
जहाँ $OI(t) = \frac{S}{S_1}$ और $SI(t) = \frac{S}{S_2}$ है। यहाँ, $S$ एल्गोरिदम के प्रदर्शन का संचयी योग है, $S_1$ ऑफलाइन डेटासेट के सर्वोत्तम समाधान के आधार पर "आदर्श" प्रदर्शन का प्रतिनिधित्व करता है, और $S_2$ उस सर्वोत्तम समाधान के सापेक्ष प्रदर्शन का प्रतिनिधित्व करता है जिसे एल्गोरिदम ने अब तक पाया है। SO को अधिकतम करके, एल्गोरिदम को न केवल अच्छे समाधान खोजने के लिए, बल्कि उन्हें बनाए रखने के लिए भी मजबूर किया जाता है, जिससे प्रदर्शन में गिरावट को रोका जा सके। लेखक एक भारित संस्करण, $SO_\omega$ भी प्रस्तुत करते हैं, ताकि उपयोगकर्ता अपनी विशिष्ट आवश्यकताओं के आधार पर स्थिरता या ऑप्टिमलिटी को प्राथमिकता दे सकें।
समस्या परिभाषा और बाधाएं
मुख्य समस्या निरूपण और दुविधा
मानक ब्लैक-बॉक्स ऑप्टिमाइज़ेशन (BBO) में, एक एल्गोरिदम सक्रिय रूप से समाधानों का नमूना लेता है और इष्टतम खोजने के लिए उनके ऑब्जेक्टिव फंक्शन मानों का मूल्यांकन करता है। हालाँकि, कई महत्वपूर्ण वास्तविक दुनिया के डोमेन में—जैसे ड्रग डिस्कवरी या हार्डवेयर मैकेनिकल डिज़ाइन—एक नए समाधान का मूल्यांकन करना अक्सर खतरनाक, अत्यधिक महंगा या भौतिक रूप से असंभव होता है। यह ऑफलाइन ब्लैक-बॉक्स ऑप्टिमाइज़ेशन की आवश्यकता पैदा करता है, जहाँ एल्गोरिदम को सरोगेट मॉडल $\hat{f}_\theta(x)$ सीखने और बाद में एक इष्टतम समाधान $x_{app}$ की पहचान करने के लिए केवल एक स्थिर, पूर्व-मौजूद डेटासेट $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$ पर निर्भर रहना पड़ता है।
दुविधा:
मौलिक चुनौती ऑफलाइन डेटासेट का नैरो डिस्ट्रीब्यूशन है। चूँकि डेटा संग्रह अक्सर मानवीय विशेषज्ञता या विशिष्ट प्रयोगात्मक बाधाओं से पक्षपाती होता है, इसलिए डेटासेट शायद ही कभी पूरे समाधान स्थान को कवर करता है। परिणामस्वरूप, सरोगेट मॉडल $\hat{f}_\theta(x)$ "आउट-ऑफ-डिस्ट्रीब्यूशन" (OOD) क्षेत्रों में अत्यधिक गलत हो जाता है। यदि कोई एल्गोरिदम ज्ञात डेटा से दूर इष्टतम खोजने का प्रयास करता है, तो सरोगेट मॉडल अक्सर ऑब्जेक्टिव मान को अधिक आंकता है, जिससे ऑप्टिमाइज़ेशन प्रक्रिया के दौरान प्रदर्शन में गंभीर गिरावट आती है।
बाधाएं:
शोधकर्ताओं को "स्थिरता बनाम ऑप्टिमलिटी" के ट्रेड-ऑफ का सामना करना पड़ता है। एक एल्गोरिदम जो आक्रामक रूप से वैश्विक इष्टतम का पीछा करता है, वह आसानी से OOD जाल में गिर सकता है, जबकि जो बहुत रूढ़िवादी है, वह डेटासेट में पहले से मौजूद सर्वोत्तम समाधान से बेहतर करने में विफल हो सकता है। लेखक कई कठोर, यथार्थवादी बाधाओं की पहचान करते हैं:
1. ग्राउंड ट्रुथ का अभाव: कई वास्तविक दुनिया के कार्यों में, वास्तविक वैश्विक इष्टतम अज्ञात होता है, जिससे यह मापना मुश्किल हो जाता है कि एल्गोरिदम कितना अच्छा प्रदर्शन करता है।
2. डेटा स्पर्सिटी: ऐतिहासिक डेटा का सीमित आकार और असमान वितरण एक विश्वसनीय सरोगेट मॉडल को प्रशिक्षित करना मुश्किल बनाता है।
3. स्थिरता मूल्यांकन: यह मूल्यांकन करने के लिए कोई मानकीकृत, मात्रात्मक मीट्रिक नहीं रहा है कि क्या कोई एल्गोरिदम अज्ञात क्षेत्रों की खोज करते समय प्रदर्शन पतन से ग्रस्त हुए बिना लगातार ऑफलाइन डेटासेट से बेहतर प्रदर्शन कर सकता है।
समाधान की गणितीय व्याख्या
लेखक SOO-Bench और एक नवीन स्टेबिलिटी-ऑप्टिमलिटी (SO) इंडिकेटर पेश करके वर्तमान स्थिति (सीमित ऑफलाइन डेटा) और लक्ष्य स्थिति (स्थिर, उच्च-गुणवत्ता वाले ऑनलाइन समाधान) के बीच की खाई को पाटते हैं।
समस्या को पुनरावृत्त ग्रेडिएंट एसेंट के माध्यम से सरोगेट मॉडल $\hat{f}_\theta(x)$ को अधिकतम करके $x_{app}$ खोजने के रूप में तैयार किया गया है:
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}, \quad t = 1, 2, \dots, T$$
जहाँ $x_{app} = x^{(T)}$ है।
स्थिरता को मापने के लिए, लेखक स्टेबिलिटी-ऑप्टिमलिटी (SO) इंडिकेटर को परिभाषित करते हैं, जो दो घटकों को संतुलित करता है:
1. ऑप्टिमलिटी इंडिकेटर (OI): एल्गोरिदम के मूल्यांकन वक्र के नीचे के क्षेत्र और ऑफलाइन इष्टतम समाधान वक्र के नीचे के क्षेत्र के अनुपात को मापता है।
$$OI(t) = \frac{S}{S_1}, \quad S = \sum_{t=1}^T f(x_t), \quad S_1 = T \cdot f(x^*_{OFF})$$
2. स्टेबिलिटी इंडिकेटर (SI): मापता है कि एल्गोरिदम का प्रदर्शन उसके द्वारा अब तक खोजे गए सर्वोत्तम समाधान के साथ कितनी बारीकी से संरेखित है, जो प्रभावी रूप से उतार-चढ़ाव को दंडित करता है।
$$SI(t) = \frac{S}{S_2}, \quad S_2 = T \cdot \max_t f(x_t)$$
अंतिम SO स्कोर इन दोनों का हार्मोनिक माध्य है, यह सुनिश्चित करते हुए कि उच्च स्कोर के लिए उच्च प्रदर्शन (ऑप्टिमलिटी) और सुसंगत व्यवहार (स्थिरता) दोनों की आवश्यकता होती है:
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
अनुकूलन योग्य डेटासेट (शीर्ष/निचले समाधानों को हटाने को समायोजित करके) और इस SO इंडिकेटर को प्रदान करके, लेखक शोधकर्ताओं को व्यवस्थित रूप से यह परीक्षण करने में सक्षम बनाते हैं कि एल्गोरिदम OOD क्षेत्रों को कैसे संभालते हैं, प्रभावी रूप से उन्हें "नैरो डिस्ट्रीब्यूशन" जाल के खिलाफ अपनी मजबूती साबित करने के लिए मजबूर करते हैं।
यह दृष्टिकोण क्यों?
ऑफलाइन ब्लैक-बॉक्स ऑप्टिमाइज़ेशन (BBO) में मुख्य चुनौती ऐतिहासिक डेटा का "नैरो डिस्ट्रीब्यूशन" है। पारंपरिक विधियाँ, जैसे मानक CNN या बुनियादी ट्रांसफॉर्मर, व्यापक, प्रतिनिधि डेटासेट से सीखने के लिए डिज़ाइन की गई हैं। हालाँकि, ड्रग डिस्कवरी या सैटेलाइट प्रक्षेपवक्र डिज़ाइन जैसे वास्तविक दुनिया के परिदृश्यों में, उपलब्ध डेटा अक्सर पक्षपाती या सीमित रणनीतियों के माध्यम से एकत्र किया जाता है, जिसका अर्थ है कि यह पूरे समाधान स्थान को कवर नहीं करता है।
यह दृष्टिकोण क्यों?
लेखकों ने पहचाना कि पारंपरिक विधियाँ विफल हो जाती हैं क्योंकि वे इस सीमित डेटा द्वारा "गुमराह" हो जाती हैं। जब एक सरोगेट मॉडल को एक सीमित डेटासेट पर प्रशिक्षित किया जाता है, तो यह अक्सर उन क्षेत्रों में समाधानों की गुणवत्ता को अधिक आंकता है जहाँ इसके पास कोई डेटा नहीं होता है (आउट-ऑफ-डिस्ट्रीब्यूशन या OOD क्षेत्र)। यह ऑप्टिमाइज़ेशन प्रक्रिया के दौरान प्रदर्शन में विनाशकारी गिरावट की ओर ले जाता है।
- तुलनात्मक श्रेष्ठता: Design-Bench जैसे पिछले बेंचमार्क के विपरीत, जो निश्चित, कृत्रिम रूप से निर्मित नैरो डिस्ट्रीब्यूशन का उपयोग करते थे, SOO-Bench इन डिस्ट्रीब्यूशन के अनुकूलन (customization) की अनुमति देता है। यह संरचनात्मक लाभ महत्वपूर्ण है क्योंकि यह शोधकर्ताओं को "संकीर्णता" के विभिन्न स्तरों के खिलाफ एल्गोरिदम का तनाव-परीक्षण करने में सक्षम बनाता है, जो वास्तविक दुनिया के डेटा संग्रह की अप्रत्याशित प्रकृति का प्रभावी ढंग से अनुकरण करता है।
- आवश्यकताओं का "विवाह": यह शोध-पत्र स्टेबिलिटी-ऑप्टिमलिटी (SO) इंडिकेटर पेश करता है। यह ऑफलाइन डेटासेट से बेहतर प्रदर्शन करने की कठोर आवश्यकता और OOD क्षेत्रों द्वारा गुमराह न होने की बाधा के बीच का "विवाह" है। ऑप्टिमलिटी इंडिकेटर (OI) और स्टेबिलिटी इंडिकेटर (SI) को गणितीय रूप से जोड़कर, मॉडल एल्गोरिदम को यह साबित करने के लिए मजबूर करता है कि वे न केवल एक अच्छा समाधान ढूंढ सकते हैं, बल्कि ऑप्टिमाइज़ेशन चरणों के दौरान उस प्रदर्शन को बनाए भी रख सकते हैं।
- अन्य विधियाँ क्यों विफल होती हैं: लेखक सरल, गैर-रूढ़िवादी दृष्टिकोणों को अस्वीकार करते हैं क्योंकि उनमें मॉडल को उच्च-जोखिम वाले, OOD क्षेत्रों की खोज करने के लिए दंडित करने का कोई तंत्र नहीं है। ARCOO जैसी विधियों पर प्रकाश डाला गया है क्योंकि वे ग्रेडिएंट एसेंट के दौरान चरण आकार को नियंत्रित करने के लिए स्पष्ट रूप से एक "जोखिम दमन कारक" (risk suppression factor) को शामिल करती हैं, जो मॉडल को खतरनाक, अप्रामाणिक क्षेत्र में भटकने से रोकता है।
गणितीय व्याख्या
समस्या को एक इष्टतम समाधान $x^*$ खोजने के रूप में परिभाषित किया गया है जो एक ब्लैक-बॉक्स फंक्शन $f(x)$ को अधिकतम करता है, जहाँ $f$ को स्थिर डेटासेट $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$ पर प्रशिक्षित सरोगेट मॉडल $\hat{f}_\theta(x)$ द्वारा अनुमानित किया जाता है। ऑप्टिमाइज़ेशन प्रक्रिया आमतौर पर पालन करती है:
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}$$
लेखकों ने महसूस किया कि यदि $T$ (चरणों की संख्या) बहुत बड़ी है, तो एल्गोरिदम OOD क्षेत्रों में भटक जाता है। इसे हल करने के लिए, उन्होंने SO इंडिकेटर प्रस्तावित किया:
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
जहाँ $OI(t) = \frac{S}{S_1}$ और $SI(t) = \frac{S}{S_2}$ है। यहाँ, $S$ मूल्यांकन वक्र का संचयी योग है, $S_1$ ऑफलाइन इष्टतम मान और कुल चरणों का गुणनफल है, और $S_2$ एल्गोरिदम के सर्वोत्तम-खोजे गए मान और कुल चरणों का गुणनफल है। यह मॉडल प्रभावी रूप से उन एल्गोरिदम को दंडित करता है जो उच्च विचरण या "अस्थिर" प्रदर्शन दिखाते हैं, यह सुनिश्चित करते हुए कि एल्गोरिदम का प्रक्षेपवक्र तब भी मजबूत बना रहे जब सरोगेट मॉडल अपूर्ण हो।
यह दृष्टिकोण मौलिक रूप से बेहतर है क्योंकि यह क्षेत्र को "सर्वोत्तम बिंदु खोजने" से "सुरक्षित रहते हुए सर्वोत्तम बिंदु खोजने" की ओर ले जाता है। यह शुद्ध प्रदर्शन से विश्वसनीय प्रदर्शन की ओर एक बदलाव है, जो उच्च-दांव वाले इंजीनियरिंग कार्यों के लिए एकमात्र व्यवहार्य मार्ग है जहाँ एक गलत अनुमान खतरनाक हो सकता है।
गणितीय और तार्किक तंत्र
मास्टर समीकरण
शोध-पत्र का मुख्य तंत्र स्टेबिलिटी-ऑप्टिमलिटी (SO) इंडिकेटर है, जो यह मूल्यांकन करता है कि एक ऑफलाइन ऑप्टिमाइज़ेशन एल्गोरिदम ऑफलाइन डेटासेट के सर्वोत्तम समाधान के सापेक्ष कैसा प्रदर्शन करता है, जबकि ऑप्टिमाइज़ेशन प्रक्रिया के दौरान स्थिरता बनाए रखता है। प्राथमिक समीकरण है:
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
जहाँ घटकों को इस प्रकार परिभाषित किया गया है:
$$OI(t) = \frac{S}{S_1}, \quad SI(t) = \frac{S}{S_2}$$
समीकरण का विश्लेषण
- $S = \sum_{t=1}^{T} f(x_t)$: यह सभी ऑप्टिमाइज़ेशन चरणों $T$ में ऑब्जेक्टिव फंक्शन मानों का संचयी योग है। यह एल्गोरिदम के कुल "प्रदर्शन पदचिह्न" (performance footprint) का प्रतिनिधित्व करता है।
- $S_1 = T \cdot f(x^*_{\text{OFF}})$: यह बेसलाइन संदर्भ है। यह उस प्रदर्शन का प्रतिनिधित्व करता है यदि एल्गोरिदम ने प्रत्येक चरण $T$ के लिए ऑफलाइन डेटासेट ($f(x^*_{\text{OFF}})$) में पाए गए सर्वोत्तम मान को लगातार प्राप्त किया होता।
- $S_2 = T \cdot \max_t f(x_t)$: यह पीक प्रदर्शन संदर्भ है। यह उस प्रदर्शन का प्रतिनिधित्व करता है यदि एल्गोरिदम ने प्रत्येक चरण के लिए अपने स्वयं के सर्वोत्तम-खोजे गए मान ($\max_t f(x_t)$) को लगातार प्राप्त किया होता।
- $OI(t)$ (ऑप्टिमलिटी इंडिकेटर): यह अनुपात ऑफलाइन डेटासेट के सर्वोत्तम के सापेक्ष एल्गोरिदम के प्रदर्शन को मापता है। यदि $OI > 1$ है, तो एल्गोरिदम सफलतापूर्वक ऑफलाइन डेटा से बेहतर प्रदर्शन कर रहा है।
- $SI(t)$ (स्टेबिलिटी इंडिकेटर): यह अनुपात मापता है कि एल्गोरिदम का प्रदर्शन उसके अपने शिखर के साथ कितनी बारीकी से संरेखित है। 1 के करीब का मान उच्च स्थिरता (न्यूनतम उतार-चढ़ाव) को इंगित करता है, जबकि कम मान यह बताता है कि एल्गोरिदम "घबराहटपूर्ण" है या प्रदर्शन में गिरावट के लिए प्रवृत्त है।
- हार्मोनिक माध्य ($2 \cdot \frac{OI \cdot SI}{SI + OI}$): लेखक एक साधारण अंकगणितीय औसत के बजाय हार्मोनिक माध्य का उपयोग करते हैं ताकि यह सुनिश्चित हो सके कि SO इंडिकेटर दोनों घटकों के प्रति संवेदनशील है। यदि $OI$ या $SI$ में से कोई भी बहुत कम है, तो हार्मोनिक माध्य कुल स्कोर को काफी नीचे खींच लेता है, जो प्रभावी रूप से उन एल्गोरिदम को दंडित करता है जो या तो अस्थिर हैं या ऑफलाइन डेटासेट से बेहतर प्रदर्शन करने में विफल रहते हैं।
चरण-दर-चरण प्रवाह
इस प्रणाली में एक अमूर्त डेटा बिंदु का जीवनचक्र इस असेंबली लाइन का पालन करता है:
- आरंभीकरण (Initialization): एल्गोरिदम एक ऑफलाइन डेटासेट $\mathcal{D}$ के साथ शुरू होता है। यह ब्लैक-बॉक्स फंक्शन का अनुमान लगाने के लिए एक सरोगेट मॉडल $\hat{f}_\theta(x)$ को प्रशिक्षित करता है।
- ऑप्टिमाइज़ेशन: एल्गोरिदम एक नया समाधान $x_{\text{app}}$ खोजने के लिए $T$ चरणों के लिए ग्रेडिएंट एसेंट करता है।
- मूल्यांकन: प्रत्येक चरण $t$ पर, एल्गोरिदम एक समाधान $x_t$ उत्पन्न करता है। सिस्टम ऑब्जेक्टिव मान $f(x_t)$ की गणना करता है।
- एग्रीगेशन: इन मानों को $S$ में जोड़ा जाता है। साथ ही, सिस्टम सर्वोत्तम ऑफलाइन मान ($f(x^*_{\text{OFF}})$) और एल्गोरिदम के अपने सर्वोत्तम मान ($\max_t f(x_t)$) को ट्रैक करता है।
- इंडिकेटर गणना: सिस्टम यह मापने के लिए $OI(t)$ और $SI(t)$ की गणना करता है कि एल्गोरिदम ऑफलाइन डेटा से कितना बेहतर है और उसका प्रक्षेपवक्र कितना स्थिर है।
- अंतिम स्कोर: SO इंडिकेटर इन्हें एक एकल मीट्रिक में जोड़ता है, जो एल्गोरिदम की स्थिरता और ऑप्टिमलिटी के लिए एक मात्रात्मक "ग्रेड" प्रदान करता है।
ऑप्टिमाइज़ेशन डायनेमिक्स
यह तंत्र ऑफलाइन डेटासेट $\mathcal{D}$ पर सुपरवाइज्ड लर्निंग का उपयोग करके सरोगेट मॉडल $\hat{f}_\theta(x)$ को पुनरावृत्त रूप से अपडेट करके सीखता है। लॉस फंक्शन है:
$$\theta^* \leftarrow \arg \min_\theta \sum_{i=1}^N (\hat{f}_\theta(x_i) - y_i)^2$$
ऑप्टिमाइज़ेशन प्रक्रिया तब सरोगेट मॉडल के परिदृश्य को नेविगेट करने के लिए ग्रेडिएंट एसेंट का उपयोग करती है:
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^t}$$
यहाँ "सीखना" अनिवार्य रूप से सरोगेट मॉडल की ऑफलाइन डेटा के नैरो डिस्ट्रीब्यूशन से व्यापक समाधान स्थान तक सामान्यीकरण करने की क्षमता है। स्थिरता को जोखिम दमन कारकों (जैसे ARCOO एल्गोरिदम में) द्वारा बनाए रखा जाता है जो ग्रेडिएंट एसेंट पर एक "गवर्नर" के रूप में कार्य करते हैं, जो मॉडल को उन आउट-ऑफ-डिस्ट्रीब्यूशन (OOD) क्षेत्रों में मानों को अधिक आंकने से रोकता है जहाँ इसके पास डेटा की कमी है। यह मॉडल को अपने स्वयं के अति-आत्मविश्वास द्वारा "गुमराह" होने से रोकता है, जो ऑफलाइन BBO में एक सामान्य विफलता मोड है।
परिणाम, सीमाएं और निष्कर्ष
SOO-Bench का विश्लेषण: ऑफलाइन ब्लैक-बॉक्स ऑप्टिमाइज़ेशन की स्थिरता के मूल्यांकन हेतु बेंचमार्क
पृष्ठभूमि ज्ञान
ब्लैक-बॉक्स ऑप्टिमाइज़ेशन (BBO) एक ऑब्जेक्टिव फंक्शन $f(x)$ को अधिकतम करने वाले इष्टतम इनपुट $x^*$ को खोजने की एक विधि है, बिना $f$ के स्पष्ट गणितीय रूप को जाने। पारंपरिक BBO में, एक एल्गोरिदम सक्रिय रूप से बिंदुओं का नमूना ले सकता है और उनका मूल्यांकन कर सकता है। हालाँकि, कई वास्तविक दुनिया के परिदृश्यों (जैसे ड्रग डिस्कवरी, मैकेनिकल डिज़ाइन) में, $f(x)$ का मूल्यांकन करना बहुत महंगा या खतरनाक है। यह ऑफलाइन BBO की ओर ले जाता है, जहाँ एल्गोरिदम को केवल एक स्थिर, पूर्व-एकत्रित डेटासेट $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$ का उपयोग करके एक सरोगेट मॉडल $\hat{f}_\theta(x)$ सीखना होता है।
यहाँ मुख्य चुनौती ऑफलाइन डेटासेट का नैरो डिस्ट्रीब्यूशन है। चूँकि डेटा अक्सर मानवीय पूर्वाग्रह या विशिष्ट प्रयोगात्मक बाधाओं के आधार पर एकत्र किया जाता है, इसलिए यह पूरे समाधान स्थान को कवर नहीं करता है। इस डेटा पर प्रशिक्षित एक सरोगेट मॉडल अक्सर तब "गुमराह" हो जाता है जब वह प्रशिक्षण डेटा (आउट-ऑफ-डिस्ट्रीब्यूशन या OOD क्षेत्र) से दूर के क्षेत्रों में मानों की भविष्यवाणी करने का प्रयास करता है, जिससे खराब ऑप्टिमाइज़ेशन प्रदर्शन होता है।
प्रेरणा और समस्या विवरण
लेखक तर्क देते हैं कि मौजूदा बेंचमार्क (जैसे Design-Bench) मुख्य रूप से ऑप्टिमलिटी—सर्वोत्तम संभव समाधान खोजने—पर ध्यान केंद्रित करते हैं। हालाँकि, उच्च-दांव वाली इंजीनियरिंग में, स्थिरता उतनी ही महत्वपूर्ण है। स्थिरता को एल्गोरिदम की उस क्षमता के रूप में परिभाषित किया गया है जो नैरो डेटा डिस्ट्रीब्यूशन द्वारा गुमराह हुए बिना ऑफलाइन डेटासेट में ज्ञात सर्वोत्तम समाधान से बेहतर समाधान लगातार खोजने की क्षमता रखती है। लेखक पहचानते हैं कि मौजूदा बेंचमार्क में इस स्थिरता को मापने के लिए एक मात्रात्मक तरीके का अभाव है।
गणितीय व्याख्या
शोध-पत्र ऑप्टिमाइज़ेशन प्रक्रिया के दौरान एल्गोरिदम के प्रदर्शन को मापने के लिए स्टेबिलिटी-ऑप्टिमलिटी (SO) इंडिकेटर पेश करता है। ऑप्टिमाइज़ेशन के कुल $T$ चरणों के लिए, मान लें कि $f(x_t)$ चरण $t$ पर समाधान का मूल्यांकन है। इंडिकेटर को इस प्रकार परिभाषित किया गया है:
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
जहाँ:
* ऑप्टिमलिटी इंडिकेटर (OI): $OI(t) = \frac{S}{S_1}$, जहाँ $S = \sum_{t=1}^T f(x_t)$ और $S_1 = T \cdot f(x^*_{OFF})$ है। यह एल्गोरिदम के प्रदर्शन वक्र के नीचे के क्षेत्र और बेसलाइन (ऑफलाइन डेटासेट में सर्वोत्तम समाधान) के नीचे के क्षेत्र के अनुपात को मापता है।
* स्टेबिलिटी इंडिकेटर (SI): $SI(t) = \frac{S}{S_2}$, जहाँ $S_2 = T \cdot \max_t f(x_t)$ है। यह मापता है कि एल्गोरिदम का प्रदर्शन उसके द्वारा अब तक खोजे गए सर्वोत्तम समाधान के साथ कितनी बारीकी से संरेखित है।
लेखक एक भारित संस्करण, $SO_\omega$ भी प्रस्तावित करते हैं, जो उपयोगकर्ताओं को ऑप्टिमाइज़ेशन प्रक्रिया के विभिन्न चरणों के दौरान ऑप्टिमलिटी या स्थिरता को प्राथमिकता देने की अनुमति देता है।
प्रयोगात्मक प्रमाण
लेखकों ने SOO-Bench को एल्गोरिदम का "निर्दयी" परीक्षण करने के लिए आर्किटेक्ट किया:
1. डेटा कठिनाई को अनुकूलित करना: उन्होंने शीर्ष $n\%$ (उच्च-गुणवत्ता वाले समाधान खोजना कठिन बनाना) और निचले $m\%$ (स्पर्सिटी बढ़ाना) डेटा को हटाकर डेटासेट बनाए।
2. विविध कार्य: उन्होंने सैटेलाइट प्रक्षेपवक्र ऑप्टिमाइज़ेशन (GTOPX), औद्योगिक डिज़ाइन (CEC), और DNA अनुक्रम डिज़ाइन (PROTEIN) से वास्तविक दुनिया के कार्यों को शामिल किया।
3. बेसलाइन तुलना: उन्होंने क्लासिकल बेसलाइन जैसे BO-qEI और CMA-ES के खिलाफ ARCOO, Tri-mentoring, और TTDDEA सहित अत्याधुनिक (SOTA) एल्गोरिदम का परीक्षण किया।
"पीड़ित" (बेसलाइन मॉडल) अक्सर OOD क्षेत्रों के प्रति अत्यधिक संवेदनशील दिखाए गए। प्रदान किया गया निश्चित प्रमाण यह है कि जबकि कुछ एल्गोरिदम (जैसे ARCOO) जोखिम को दबाने के लिए ऊर्जा-आधारित मॉडल का उपयोग करके स्थिर प्रदर्शन बनाए रखते हैं, अन्य (जैसे DE-PF और DE-SPF) खराब SO मान दिखाते हैं, जो इंगित करता है कि वे अक्सर अव्यावहारिक क्षेत्रों में गिर जाते हैं या स्थिर हो जाते हैं।
भविष्य के विकास के लिए चर्चा के विषय
- डायनेमिक वेटिंग: लेखक $SO_\omega$ के लिए एक रैखिक रूप से घटते भार फंक्शन $\omega(t)$ का उपयोग करते हैं। क्या हम एक अनुकूली (adaptive) वेटिंग तंत्र विकसित कर सकते हैं जो सरोगेट मॉडल की अनिश्चितता को महसूस करे और वास्तविक समय में ऑप्टिमलिटी और स्थिरता के बीच प्राथमिकता को स्थानांतरित करे?
- OOD से परे: हम ऑफलाइन डेटासेट में "कॉन्सेप्ट ड्रिफ्ट" को संभालने के लिए SOO-Bench का विस्तार कैसे कर सकते हैं, जहाँ समस्या की अंतर्निहित भौतिकी या बाधाएं समय के साथ बदल सकती हैं?
- बाधा प्रबंधन: शोध-पत्र नोट करता है कि मौजूदा विधियाँ सख्त बाधाओं के साथ संघर्ष करती हैं। भविष्य का कार्य यह पता लगा सकता है कि सरोगेट मॉडल प्रशिक्षण में "सॉफ्ट" बाधा संतुष्टि को कैसे शामिल किया जाए ताकि एल्गोरिदम को बहुत रूढ़िवादी होने और स्थिर होने से रोका जा सके।
कुल मिलाकर, यह शोध-पत्र एक ऐसे क्षेत्र के लिए एक अत्यंत आवश्यक, कठोर ढांचा प्रदान करता है जो अपने मूल्यांकन मीट्रिक में कुछ हद तक "वाइल्ड वेस्ट" रहा है।
अन्य क्षेत्रों के साथ समरूपता (Isomorphisms)
संरचनात्मक ढांचा
यह शोध-पत्र एक मानकीकृत मूल्यांकन ढांचा पेश करता है जो प्रतिबंधित, गैर-प्रतिनिधि ऐतिहासिक डेटासेट पर काम करते समय ब्लैक-बॉक्स ऑप्टिमाइज़ेशन एल्गोरिदम की स्थिरता और ऑप्टिमलिटी को मापता है।