EN KR JP CN RU IN
NeurIPS

फेडरेटेड मॉडल हेटेरोजेनियस मैट्रयोश्का रिप्रेजेंटेशन लर्निंग

Open PDF Open MICCAI page

पृष्ठभूमि और अकादमिक वंश

उत्पत्ति और अकादमिक वंश

इस पत्र में संबोधित की गई समस्या, मॉडल हेटेरोजेनियस फेडरेटेड लर्निंग (MHeteroFL), पारंपरिक फेडरेटेड लर्निंग (FL) में अनुभव की गई व्यावहारिक चुनौतियों से उत्पन्न हुई है। [32, 47, 46, 12] जैसे कार्यों द्वारा प्रस्तुत पारंपरिक FL में, आम तौर पर एक केंद्रीय सर्वर कई क्लाइंट्स को समन्वयित करता है ताकि वे अपने स्थानीय डेटा को उजागर किए बिना एक एकल, वैश्विक साझा मॉडल को प्रशिक्षित कर सकें। यह सेटअप, जो केवल मॉडल पैरामीटर [14, 56, 51] प्रसारित करके डेटा गोपनीयता को संरक्षित करता है, वास्तविक दुनिया के अनुप्रयोगों में आम हेटेरोजेनिटी के कई रूपों से जूझता है।

विशेष रूप से, तीन मौलिक "दर्द बिंदु" ने MHeteroFL और बाद में, इस पत्र के विकास को मजबूर किया:

  1. डेटा हेटेरोजेनिटी (नॉन-IID डेटा): क्लाइंट्स का स्थानीय डेटा अक्सर एक स्वतंत्र और समान रूप से वितरित (नॉन-IID) पैटर्न [42] का पालन नहीं करता है। इसका मतलब है कि स्थानीय मॉडल को एकत्रित करके प्रशिक्षित किया गया एक एकल वैश्विक मॉडल, उनके डेटा की विविध प्रकृति [49, 48] के कारण व्यक्तिगत क्लाइंट्स पर खराब प्रदर्शन कर सकता है।
  2. सिस्टम हेटेरोजेनिटी: FL क्लाइंट्स में कंप्यूटिंग शक्ति और नेटवर्क बैंडविड्थ में भारी अंतर हो सकता है [11]। सभी क्लाइंट्स को एक ही मॉडल संरचना को प्रशिक्षित करने के लिए मजबूर करने का मतलब है कि वैश्विक मॉडल का आकार सबसे कमजोर डिवाइस द्वारा सीमित होना चाहिए, जिससे अधिक शक्तिशाली क्लाइंट्स [52, 54, 50] पर उप-इष्टतम प्रदर्शन होता है।
  3. मॉडल हेटेरोजेनिटी: FL क्लाइंट्स के रूप में कार्य करने वाले उद्यमों के पास अक्सर विषम संरचनाओं वाले मालिकाना मॉडल होते हैं जिन्हें बौद्धिक संपदा (IP) चिंताओं [43] के कारण सीधे साझा नहीं किया जा सकता है।

MHeteroFL [55] का क्षेत्र उभरा ताकि FL क्लाइंट्स को उनके विशिष्ट सिस्टम संसाधनों और डेटा वितरण के अनुरूप तैयार की गई संरचनाओं वाले स्थानीय मॉडल को प्रशिक्षित करने में सक्षम बनाया जा सके। हालांकि, मौजूदा MHeteroFL विधियों [41, 45] को अपनी सीमाओं का सामना करना पड़ता है। वे मुख्य रूप से क्लाइंट और सर्वर मॉडल के बीच ज्ञान स्थानांतरित करने के लिए प्रशिक्षण हानि पर निर्भर करते हैं, जिसके परिणामस्वरूप सीमित ज्ञान विनिमय, मॉडल प्रदर्शन बाधाएं, उच्च संचार और कम्प्यूटेशनल लागत, और निजी स्थानीय मॉडल संरचनाओं और डेटा को उजागर करने का जोखिम होता है। उदाहरण के लिए, अनुकूली सबनेट का उपयोग करने वाली विधियों को ब्लैक-बॉक्स स्थानीय मॉडल को एकत्रित करने में कठिनाई होती है; ज्ञान आसवन के लिए अक्सर खोजने में मुश्किल सार्वजनिक डेटासेट की आवश्यकता होती है या उच्च प्रशिक्षण लागत आती है; मॉडल विभाजन मालिकाना आईपी को उजागर कर सकता है; और आपसी सीखना, जबकि आशाजनक है, केवल सीमित ज्ञान स्थानांतरित करता है, जिससे प्रदर्शन बाधाएं होती हैं। यह पत्र एक उपन्यास दृष्टिकोण प्रस्तावित करके इन सीमाओं को दूर करने का लक्ष्य रखता है जो अधिक कुशल और निजी तरीके से ज्ञान हस्तांतरण को बढ़ाता है और मॉडल सीखने की क्षमता में सुधार करता है।

सहज डोमेन शब्द

यहां पेपर से कुछ विशेष डोमेन शब्द दिए गए हैं, जिन्हें शून्य-आधारित पाठक के लिए सहज, रोजमर्रा की उपमाओं में अनुवादित किया गया है:

  • फेडरेटेड लर्निंग (FL): कल्पना करें कि विभिन्न स्कूलों के छात्रों का एक समूह एक साथ एक नया विषय सीखने की कोशिश कर रहा है, लेकिन वे गोपनीयता नियमों के कारण अपने व्यक्तिगत नोट्स (स्थानीय डेटा) को सीधे साझा नहीं कर सकते हैं। इसके बजाय, प्रत्येक छात्र अपने नोट्स का उपयोग करके अध्ययन करता है और फिर उसने जो सीखा है उसका एक सारांश (मॉडल अपडेट) एक केंद्रीय शिक्षक को भेजता है। शिक्षक सभी सारांशों को मिलाकर एक बेहतर, अधिक व्यापक पाठ योजना (वैश्विक मॉडल) बनाता है, जिसे फिर छात्रों को वापस साझा किया जाता है। इस तरह, हर कोई सामूहिक अनुभव से सीखता है बिना किसी के निजी नोट्स कभी भी उनके स्कूल से बाहर जाए।
  • मॉडल हेटेरोजेनिटी: विशेष डॉक्टरों की एक टीम के बारे में सोचें, प्रत्येक के पास विभिन्न प्रकार के रोगियों के लिए अपने स्वयं के अद्वितीय नैदानिक उपकरण और विशेषज्ञता (मॉडल) हैं। मॉडल हेटेरोजेनिटी का मतलब है कि ये उपकरण और विशेषज्ञता सभी डॉक्टरों में समान नहीं हैं। कुछ के पास उन्नत एमआरआई मशीनें हो सकती हैं, अन्य एक्स-रे में विशेषज्ञ हो सकते हैं, और उन सभी के पास परिणामों की व्याख्या करने के अलग-अलग तरीके हैं। चुनौती यह है कि वे अपने मालिकाना उपकरणों या विधियों को सीधे साझा किए बिना अपने समग्र नैदानिक क्षमताओं को सहयोगात्मक रूप से कैसे सुधार सकते हैं।
  • मैट्रयोश्का रिप्रेजेंटेशन लर्निंग (MRL): यह रूसी नेस्टिंग गुड़िया के एक सेट की तरह है। प्रत्येक गुड़िया सूचना के एक टुकड़े के बारे में विस्तार या "समझ" के विभिन्न स्तरों का प्रतिनिधित्व करती है। सबसे बड़ी गुड़िया एक व्यापक, सामान्य अवलोकन प्रदान करती है, जबकि अंदर घोंसले वाली छोटी गुड़िया तेजी से महीन और अधिक विशिष्ट विवरण प्रदान करती हैं। MRL मशीन लर्निंग मॉडल को डेटा से इन बहु-स्तरीय "समझ" को निकालने की अनुमति देता है, ताकि वह किसी कार्य के लिए आवश्यक विस्तार के उपयुक्त स्तर का चयन कर सके, सटीकता को दक्षता के साथ संतुलित कर सके।
  • नॉन-IID डेटा (नॉन-इंडिपेंडेंट एंड आइडेंटिकली डिस्ट्रीब्यूटेड डेटा): एक वैश्विक खाद्य वितरण सेवा के बारे में सोचें जो लोकप्रिय व्यंजनों की भविष्यवाणी करने की कोशिश कर रही है। यदि उनके सभी ग्राहक एक ही शहर में रहते थे, तो भोजन की प्राथमिकताओं पर उनका डेटा "IID" (हर कोई पिज्जा या बर्गर ऑर्डर कर सकता है) होने की संभावना थी। हालांकि, यदि ग्राहक विभिन्न देशों में फैले हुए हैं, तो उनकी प्राथमिकताएं "नॉन-IID" होंगी - कुछ सुशी पसंद कर सकते हैं, अन्य टैकोस, और अन्य करी। इसका मतलब है कि डेटा समान रूप से वितरित नहीं है, और उस पर प्रशिक्षित मॉडल को एक एकल वैश्विक वरीयता मानने के बजाय इन विविध स्थानीय स्वादों को संभालने के लिए पर्याप्त लचीला होने की आवश्यकता है।

संकेतन तालिका

संकेतन विवरण

समस्या परिभाषा और बाधाएँ

मुख्य समस्या सूत्रीकरण और दुविधा

इस पत्र द्वारा संबोधित की गई मौलिक समस्या मॉडल हेटेरोजेनियस फेडरेटेड लर्निंग (MHeteroFL) के डोमेन में निहित है।

इनपुट/वर्तमान स्थिति:
पारंपरिक फेडरेटेड लर्निंग (FL) में, एक केंद्रीय सर्वर एक एकल, वैश्विक साझा मॉडल को सहयोगात्मक रूप से प्रशिक्षित करने के लिए कई क्लाइंट्स को समन्वयित करता है। क्लाइंट्स अपने स्थानीय डेटा पर इस मॉडल को प्रशिक्षित करते हैं और एकत्रीकरण के लिए सर्वर को अद्यतन पैरामीटर भेजते हैं। हालांकि, जब क्लाइंट्स के पास विषम स्थानीय मॉडल, विविध सिस्टम संसाधन और नॉन-इंडिपेंडेंट एंड आइडेंटिकली डिस्ट्रीब्यूटेड (नॉन-IID) स्थानीय डेटा होता है, तो यह प्रतिमान महत्वपूर्ण चुनौतियों का सामना करता है। मौजूदा MHeteroFL दृष्टिकोण क्लाइंट्स को तैयार की गई संरचनाओं वाले मॉडल को प्रशिक्षित करने की अनुमति देकर मॉडल हेटेरोजेनिटी को संबोधित करने का प्रयास करते हैं। इन विधियों की वर्तमान स्थिति मुख्य रूप से प्रशिक्षण हानि के माध्यम से क्लाइंट और सर्वर मॉडल के बीच ज्ञान स्थानांतरित करने पर निर्भर करती है।

वांछित अंतिम बिंदु (आउटपुट/लक्ष्य स्थिति):
यह पत्र पर्यवेक्षित सीखने के कार्यों के लिए फेडरेटेड मॉडल हेटेरोजेनियस मैट्रयोश्का रिप्रेजेंटेशन लर्निंग (FedMRL) नामक एक उपन्यास MHeteroFL दृष्टिकोण विकसित करने का लक्ष्य रखता है। वांछित परिणाम एक ऐसी प्रणाली है जो विषम क्लाइंट मॉडल और एक सजातीय वैश्विक मॉडल के बीच प्रभावी ढंग से ज्ञान हस्तांतरण की सुविधा प्रदान कर सकती है, जिससे बेहतर मॉडल सटीकता, तेज अभिसरण और कम संचार और कम्प्यूटेशनल लागत होती है, जबकि डेटा गोपनीयता को सख्ती से संरक्षित किया जाता है और विविध क्लाइंट मॉडल संरचनाओं और डेटा वितरण को समायोजित किया जाता है। अंतिम लक्ष्य FL प्रशिक्षण के बाद प्रत्येक क्लाइंट द्वारा अनुमान के लिए अपने स्थानीय संयुक्त मॉडल का उपयोग करना है।

लुप्त कड़ी या गणितीय अंतर:
मौजूदा MHeteroFL विधियों में महत्वपूर्ण लुप्त कड़ी ज्ञान विनिमय की उनकी सीमित क्षमता है। ज्ञान हस्तांतरण के लिए केवल प्रशिक्षण हानि पर निर्भर रहने से अक्सर प्रदर्शन बाधाएं, उच्च संचार और कम्प्यूटेशनल लागत होती है, और निजी स्थानीय मॉडल संरचनाओं और संवेदनशील स्थानीय डेटा को उजागर करने का जोखिम होता है। यह पत्र दो प्रमुख नवाचारों को पेश करके इस अंतर को पाटने का प्रयास करता है:
1. अनुकूली प्रतिनिधित्व संलयन: केवल हानि के बजाय, FedMRL सामान्यीकृत अभ्यावेदन (वैश्विक सजातीय मॉडल के फीचर एक्सट्रैक्टर द्वारा निकाले गए) और व्यक्तिगत अभ्यावेदन (क्लाइंट के विषम स्थानीय मॉडल के फीचर एक्सट्रैक्टर द्वारा निकाले गए) को फ्यूज करता है। इन्हें फिर एक व्यक्तिगत हल्के प्रतिनिधित्व प्रोजेक्टर द्वारा एक एकीकृत, फ्यूज्ड प्रतिनिधित्व में मैप किया जाता है, जो स्थानीय नॉन-IID डेटा के अनुकूल होता है।
2. बहु-ग्रैन्युलैरिटी प्रतिनिधित्व सीखना: फ्यूज्ड प्रतिनिधित्व का उपयोग मैट्रयोश्का अभ्यावेदन के निर्माण के लिए किया जाता है, जिसमें बहु-आयामी और बहु-ग्रैन्युलर एम्बेडेड अभ्यावेदन शामिल होते हैं। इन्हें वैश्विक सजातीय मॉडल हेडर और स्थानीय विषम मॉडल हेडर दोनों द्वारा संसाधित किया जाता है, उनके संयुक्त नुकसान का उपयोग सभी मॉडल को अपडेट करने के लिए किया जाता है। यह बहु-दृष्टिकोण सीखना ज्ञान संपर्क को बढ़ाता है।

गणितीय रूप से, यह पत्र सभी क्लाइंट्स में निम्नलिखित उद्देश्य फ़ंक्शन को कम करना चाहता है:
$$ \min_{\theta, \omega_0, \dots, \omega_{N-1}, \phi_0, \dots, \phi_{N-1}} \sum_{k=0}^{N-1} l(W_k(D_k; (\theta \circ \omega_k | \phi_k))) $$
जहां $W_k$ क्लाइंट $k$ के लिए संयुक्त मॉडल का प्रतिनिधित्व करता है, $D_k$ क्लाइंट $k$ का स्थानीय डेटा है, $\theta$ वैश्विक सजातीय छोटे मॉडल के मापदंडों को दर्शाता है, $\omega_k$ क्लाइंट $k$ के स्थानीय विषम मॉडल के मापदंडों को दर्शाता है, और $\phi_k$ क्लाइंट $k$ के व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर के मापदंडों को दर्शाता है। इस उद्देश्य को इन सभी पैरामीटर सेटों के लिए ग्रेडिएंट डिसेंट के माध्यम से अनुकूलित किया जाता है।

दुविधा:
मुख्य दुविधा जिसने पिछले शोधकर्ताओं को फंसाया है, वह है प्रभावी ज्ञान हस्तांतरण और मॉडल प्रदर्शन बनाम गोपनीयता संरक्षण, संचार दक्षता, और कम्प्यूटेशनल व्यवहार्यता के बीच दर्दनाक व्यापार-बंद। विषम FL वातावरण में। ज्ञान हस्तांतरण में सुधार के लिए अक्सर अधिक जानकारी (जैसे, मध्यवर्ती सुविधाएँ, मॉडल संरचनाएँ) साझा करने की आवश्यकता होती है, जो गोपनीयता से समझौता कर सकती है, संचार बैंडविड्थ आवश्यकताओं को बढ़ा सकती है, और अधिक कम्प्यूटेशनल संसाधनों की मांग कर सकती है। इसके विपरीत, सख्त गोपनीयता और संसाधन बाधाएं ज्ञान की गहराई और समृद्धि को सीमित करती हैं जिसे आदान-प्रदान किया जा सकता है, जिससे उप-इष्टतम मॉडल प्रदर्शन होता है, खासकर जब अत्यधिक विविध क्लाइंट मॉडल और डेटा से निपटते हैं। चुनौती इन महत्वपूर्ण बाधाओं को तोड़े बिना मजबूत ज्ञान साझाकरण प्राप्त करना है।

बाधाएँ और विफलता मोड

मॉडल हेटेरोजेनियस फेडरेटेड लर्निंग की समस्या कई कठोर, यथार्थवादी दीवारों के कारण अविश्वसनीय रूप से कठिन है जिनसे लेखक टकराते हैं:

  1. डेटा हेटेरोजेनिटी (नॉन-IID डेटा): क्लाइंट्स के स्थानीय डेटासेट अक्सर नॉन-IID होते हैं, जिसका अर्थ है कि उनके डेटा वितरण भिन्न होते हैं। ऐसे विविध स्थानीय डेटा से अपडेट को एकत्रित करके प्रशिक्षित एक वैश्विक मॉडल व्यक्तिगत क्लाइंट्स पर खराब प्रदर्शन कर सकता है या नेटवर्क में खराब सामान्यीकरण कर सकता है। यह एक सार्वभौमिक रूप से प्रदर्शनकारी मॉडल प्राप्त करना अत्यंत चुनौतीपूर्ण बनाता है।
  2. सिस्टम हेटेरोजेनिटी: FL क्लाइंट्स में विविध कम्प्यूटेशनल क्षमताएं (जैसे, सीपीयू/जीपीयू, मेमोरी) और नेटवर्क बैंडविड्थ होती है। एक समाधान को इन विभिन्न संसाधनों के अनुकूल होना चाहिए। सभी क्लाइंट्स पर एक बड़े, समान मॉडल संरचना को मजबूर करने का मतलब है कि मॉडल का आकार सबसे कमजोर डिवाइस को समायोजित करना चाहिए, जिससे अधिक शक्तिशाली क्लाइंट्स पर संसाधनों का कम उपयोग और उप-इष्टतम प्रदर्शन होता है।
  3. मॉडल हेटेरोजेनिटी और बौद्धिक संपदा (IP) चिंताएँ: क्लाइंट्स, विशेष रूप से उद्यम, के पास अलग-अलग आर्किटेक्चर और पैरामीटर वाले मालिकाना स्थानीय मॉडल हो सकते हैं जिन्हें आईपी सुरक्षा के कारण दूसरों के साथ सीधे साझा नहीं किया जा सकता है। यह बाधा पारंपरिक FL में एक सामान्य ऑपरेशन, प्रत्यक्ष मॉडल पैरामीटर औसत को रोकती है।
  4. सीमित ज्ञान हस्तांतरण तंत्र: मौजूदा MHeteroFL विधियाँ मुख्य रूप से ज्ञान हस्तांतरण के लिए प्रशिक्षण हानि पर निर्भर करती हैं, जो अत्यधिक विषम मॉडल में मजबूत सीखने के लिए अक्सर अपर्याप्त होती है। यह सीमित ज्ञान विनिमय प्रदर्शन बाधाओं और धीमी अभिसरण की ओर ले जाता है।
  5. संचार लागत सीमाएँ: FL में, गोपनीयता बनाए रखने के लिए केवल मॉडल पैरामीटर सर्वर और क्लाइंट्स के बीच प्रसारित किए जाते हैं, न कि कच्चा डेटा। हालांकि, मॉडल पैरामीटर भी बड़े हो सकते हैं। समाधानों को प्रति राउंड कम संचार लागत लगानी चाहिए और व्यावहारिक होने के लिए कम राउंड में लक्ष्य सटीकता प्राप्त करनी चाहिए, खासकर सीमित बैंडविड्थ वाले एज उपकरणों के लिए।
  6. कम्प्यूटेशनल ओवरहेड सीमाएँ: क्लाइंट्स, विशेष रूप से मोबाइल या एज डिवाइस, में सीमित कम्प्यूटेशनल संसाधन होते हैं। MHeteroFL समाधान द्वारा पेश किए गए किसी भी अतिरिक्त घटक या प्रशिक्षण चरणों को व्यावहारिक होने के लिए प्रति क्लाइंट प्रति राउंड कम अतिरिक्त कम्प्यूटेशनल लागत लगानी चाहिए।
  7. गोपनीयता संरक्षण आवश्यकताएँ: FL का एक मुख्य सिद्धांत यह है कि स्थानीय डेटा क्लाइंट उपकरणों पर रहता है। इसके अलावा, क्लाइंट की स्थानीय मॉडल संरचनाओं और मापदंडों को सर्वर या अन्य क्लाइंट्स को उजागर नहीं किया जाना चाहिए। किसी भी ज्ञान हस्तांतरण तंत्र को इन सख्त गोपनीयता गारंटी को बनाए रखना चाहिए।
  8. गैर-उत्तल अनुकूलन: फेडरेटेड लर्निंग के लिए उद्देश्य फ़ंक्शन, विशेष रूप से विषम मॉडल और जटिल प्रतिनिधित्व सीखने के साथ, आम तौर पर गैर-उत्तल होता है। अभिसरण की गारंटी देना और अच्छे स्थानीय ऑप्टिमा प्राप्त करना एक महत्वपूर्ण गणितीय चुनौती है, जिसके लिए अनुकूलन रणनीतियों और सैद्धांतिक विश्लेषण के सावधानीपूर्वक डिजाइन की आवश्यकता होती है। पत्र $O(1/T)$ गैर-उत्तल अभिसरण दर के लिए एक सैद्धांतिक विश्लेषण प्रदान करता है।
  9. मॉडल एग्नोस्टिक क्लाइंट ऑनबोर्डिंग: सिस्टम को विभिन्न, संभावित रूप से अज्ञात, स्थानीय मॉडल संरचनाओं वाले नए क्लाइंट्स को निर्बाध रूप से फेडरेटेड लर्निंग प्रक्रिया में शामिल होने की अनुमति देने के लिए पर्याप्त लचीला होना चाहिए। इसके लिए अनुकूली तंत्र की आवश्यकता होती है जो क्लाइंट मॉडल आर्किटेक्चर के पूर्व ज्ञान को नहीं मानते हैं।

यह दृष्टिकोण क्यों

विकल्प की अनिवार्यता

फेडरेटेड मॉडल हेटेरोजेनियस मैट्रयोश्का रिप्रेजेंटेशन लर्निंग (FedMRL) को अपनाना केवल एक प्राथमिकता नहीं थी, बल्कि मॉडल हेटेरोजेनियस फेडरेटेड लर्निंग (MHeteroFL) में पिछले दृष्टिकोणों की अंतर्निहित सीमाओं से प्रेरित एक आवश्यक विकास था। लेखकों ने पहचाना कि पारंपरिक "SOTA" विधियाँ, यहां तक ​​कि जब फेडरेटेड सेटिंग्स के लिए अनुकूलित की जाती हैं, तब भी डेटा, सिस्टम और मॉडल हेटेरोजेनिटी की बहुआयामी चुनौतियों को एक साथ संबोधित करने के लिए मौलिक रूप से अपर्याप्त थीं, जबकि गोपनीयता और दक्षता बनाए रखती थीं।

विशेष रूप से, पत्र इस बात पर प्रकाश डालता है कि मौजूदा MHeteroFL विधियाँ मुख्य रूप से क्लाइंट और सर्वर मॉडल के बीच ज्ञान स्थानांतरित करने के लिए प्रशिक्षण हानि पर निर्भर करती हैं। यह डिज़ाइन विकल्प एक बाधा साबित हुआ, जिसके परिणामस्वरूप सीमित ज्ञान विनिमय, उच्च संचार और कम्प्यूटेशनल लागत, और निजी स्थानीय मॉडल संरचनाओं और डेटा को उजागर करने का अस्वीकार्य जोखिम हुआ। यह अहसास कि ये विधियाँ अपर्याप्त थीं, उनकी क्षमता की कमी से उत्पन्न हुई:
1. समृद्ध ज्ञान को प्रभावी ढंग से स्थानांतरित करना: सरल हानि-आधारित ज्ञान हस्तांतरण जटिल विषम मॉडल संरचनाओं और विविध स्थानीय डेटा वितरण के लिए अपर्याप्त साबित हुआ।
2. उच्च संचार और कम्प्यूटेशनल ओवरहेड का प्रबंधन करना: पूरे मॉडल पैरामीटर प्रसारित करना या कम्प्यूटेशनल रूप से महंगे आसवन तकनीकों पर निर्भर रहना अस्थिर था।
3. मालिकाना मॉडल की गोपनीयता बनाए रखना: कई मौजूदा विधियों को स्थानीय मॉडल संरचना के कुछ हिस्सों को उजागर करने की आवश्यकता होती है, जो बौद्धिक संपदा के बारे में चिंतित उद्यम ग्राहकों के लिए एक गैर-शुरुआत है।

मैट्रयोश्का रिप्रेजेंटेशन लर्निंग (MRL) [24] से प्रेरणा ने महत्वपूर्ण अंतर्दृष्टि प्रदान की: मॉडल प्रदर्शन और अनुमान लागत के बीच एक इष्टतम व्यापार-बंद प्राप्त करने के लिए प्रतिनिधित्व आयामों को तैयार करना। जब MHeteroFL में एकीकृत किया जाता है, तो इस अवधारणा ने उपरोक्त सीमाओं को दूर करने के लिए एक मार्ग प्रदान किया, जिससे FedMRL एकमात्र व्यवहार्य समाधान बन गया जो वास्तविक दुनिया के विषम फेडरेटेड वातावरण की जटिलताओं को मज़बूती से संभाल सकता है।

तुलनात्मक श्रेष्ठता

FedMRL केवल प्रदर्शन मेट्रिक्स से परे कई संरचनात्मक लाभों के माध्यम से पिछले स्वर्ण मानकों पर गुणात्मक श्रेष्ठता प्रदर्शित करता है। जबकि यह महत्वपूर्ण सटीकता सुधार (सर्वश्रेष्ठ बेसलाइन पर 8.48% तक और सर्वश्रेष्ठ समान-श्रेणी बेसलाइन पर 24.94% तक) प्राप्त करता है, इसकी वास्तविक शक्ति इसके डिजाइन नवाचारों में निहित है:

  1. अनुकूली प्रतिनिधित्व संलयन: निश्चित ज्ञान हस्तांतरण तंत्र पर निर्भर विधियों के विपरीत, FedMRL एक व्यक्तिगत हल्के प्रतिनिधित्व प्रोजेक्टर का परिचय देता है। यह प्रोजेक्टर स्थानीय नॉन-IID डेटा वितरण के लिए गतिशील रूप से अनुकूल होता है, वैश्विक सजातीय मॉडल से सामान्यीकृत अभ्यावेदन को स्थानीय विषम मॉडल से व्यक्तिगत अभ्यावेदन के साथ फ्यूज करता है। यह अनुकूली संलयन सुनिश्चित करता है कि ज्ञान हस्तांतरण प्रत्येक क्लाइंट के अद्वितीय डेटा के लिए अत्यधिक प्रासंगिक और प्रभावी है, एक संरचनात्मक लाभ जो विविध डेटा वातावरण में मॉडल सीखने की क्षमता को महत्वपूर्ण रूप से बढ़ाता है।
  2. बहु-ग्रैन्युलैरिटी प्रतिनिधित्व सीखना: MRL से प्रेरित होकर, FedMRL बहु-आयामी और बहु-ग्रैन्युलर एम्बेडेड अभ्यावेदन के साथ मैट्रयोश्का अभ्यावेदन का निर्माण करता है। यह बहु-दृष्टिकोण प्रतिनिधित्व सीखने की अनुमति देता है, जिसका अर्थ है कि मॉडल मोटे और महीन दोनों तरह की सुविधाओं को कैप्चर कर सकता है। यह संरचनात्मक गहराई डेटा की एक समृद्ध और अधिक मजबूत समझ को सक्षम बनाती है, जिससे मॉडल विषम फेडरेटेड सेटिंग्स में निहित विविधताओं और शोर के प्रति अधिक लचीला हो जाता है। यह पारंपरिक अर्थों में उच्च-आयामी शोर को बेहतर ढंग से संभालने के बारे में नहीं है, बल्कि विभिन्न ग्रैन्युलैरिटी में अधिक जानकारीपूर्ण और अनुकूलनीय अभ्यावेदन निकालने के बारे में है।
  3. अनुकूलित संसाधन व्यापार-बंद: स्थानीय मॉडल के आयाम ($d_2$) के सापेक्ष छोटे सजातीय वैश्विक मॉडल के प्रतिनिधित्व आयाम ($d_1$) को बदलने की क्षमता मॉडल प्रदर्शन, भंडारण आवश्यकताओं और संचार लागत के बीच व्यापार-बंद को अनुकूलित करने के लिए एक महत्वपूर्ण नियंत्रण प्रदान करती है। यह लचीलापन एक महत्वपूर्ण संरचनात्मक लाभ है, जो सिस्टम को समग्र प्रभावशीलता का त्याग किए बिना विविध क्लाइंट क्षमताओं के अनुरूप बनाने की अनुमति देता है। उदाहरण के लिए, एक छोटा $d_1$ सटीकता में आनुपातिक गिरावट के बिना संचार ओवरहेड को काफी कम कर सकता है, जैसा कि संवेदनशीलता विश्लेषण (चित्र 6, बाएं दो) में दिखाया गया है।

ये नवाचार सामूहिक रूप से एक संरचनात्मक लाभ प्रदान करते हैं जो FedMRL को कम संचार और कम्प्यूटेशनल लागत के साथ बेहतर मॉडल सटीकता प्राप्त करने की अनुमति देता है, साथ ही व्यक्तिगत क्लाइंट्स के लिए मजबूत निजीकरण क्षमताएं भी प्रदान करता है, जैसा कि व्यक्तिगत क्लाइंट परीक्षण सटीकता अंतर (चित्र 3, दाएं दो) द्वारा प्रमाणित है।

बाधाओं के साथ संरेखण

FedMRL का डिज़ाइन मॉडल हेटेरोजेनियस फेडरेटेड लर्निंग की कठोर आवश्यकताओं के साथ पूरी तरह से संरेखित होता है, जो समस्या और समाधान के बीच एक "विवाह" बनाता है:

  • डेटा हेटेरोजेनिटी (नॉन-IID डेटा): अनुकूली प्रतिनिधित्व संलयन तंत्र, अपने व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर के साथ, विशेष रूप से स्थानीय नॉन-IID डेटा वितरण के अनुकूल होने के लिए डिज़ाइन किया गया है। सामान्यीकृत और व्यक्तिगत सुविधाओं को डेटा-जागरूक तरीके से फ्यूज करके, FedMRL सीधे उन क्लाइंट्स से निपटने की चुनौती को संबोधित करता है जिनके पास सांख्यिकीय रूप से भिन्न डेटासेट हैं।
  • सिस्टम हेटेरोजेनिटी: सहायक छोटे सजातीय मॉडल का परिचय जो विषम स्थानीय मॉडल के साथ इंटरैक्ट करता है, महत्वपूर्ण है। वैश्विक मॉडल के आकार को छोटा रखा जा सकता है ($d_1$ को बदलकर), सीमित कम्प्यूटेशनल शक्ति या नेटवर्क बैंडविड्थ वाले क्लाइंट्स को समायोजित किया जा सकता है। क्लाइंट्स अपने विशिष्ट सिस्टम संसाधनों के अनुरूप अपने स्थानीय मॉडल को भी तैयार कर सकते हैं, क्योंकि यह ढांचा स्थानीय विषम मॉडल के लिए मॉडल-एग्नोस्टिक है।
  • मॉडल हेटेरोजेनिटी: FedMRL प्रत्येक क्लाइंट के स्थानीय मॉडल को "ब्लैक बॉक्स" के रूप में मानता है। सर्वर केवल छोटे सजातीय मॉडल का प्रसारण और एकत्रीकरण करता है, न कि विषम स्थानीय मॉडल का। यह सुनिश्चित करता है कि क्लाइंट्स की मालिकाना मॉडल संरचनाएं कभी भी उजागर न हों, सीधे बौद्धिक संपदा चिंताओं को संबोधित करती हैं।
  • गोपनीयता संरक्षण: यह मॉडल हेटेरोजेनिटी समाधान का एक सीधा परिणाम है। चूंकि केवल छोटे सजातीय मॉडल पैरामीटर का आदान-प्रदान किया जाता है, स्थानीय डेटा और क्लाइंट-विशिष्ट विषम मॉडल की पूरी संरचना क्लाइंट साइड पर निजी रहती है।
  • संचार और कम्प्यूटेशनल लागत: छोटे सजातीय मॉडल का आदान-प्रदान करके, FedMRL प्रति राउंड प्रसारित पैरामीटर की संख्या को उन विधियों की तुलना में काफी कम कर देता है जो पूर्ण स्थानीय मॉडल का आदान-प्रदान करते हैं। इसके अलावा, अनुकूली संलयन और बहु-ग्रैन्युलैरिटी सीखने के माध्यम से बढ़ा हुआ ज्ञान हस्तांतरण तेजी से मॉडल अभिसरण की ओर ले जाता है (कुल मिलाकर कम संचार राउंड), जो अंततः कुल संचार और कम्प्यूटेशनल ओवरहेड को कम करता है, सहायक मॉडल के कारण प्रति राउंड कम्प्यूटेशन में थोड़ी वृद्धि के बावजूद।

विकल्पों का अस्वीकरण

यह पत्र FedMRL के उद्देश्य से दूर करने वाली मौलिक कमियों को उजागर करके स्पष्ट रूप से और अंतर्निहित रूप से कई वैकल्पिक MHeteroFL दृष्टिकोणों को अस्वीकार करता है।

  • अनुकूली सबनेट के साथ MHeteroFL: ये विधियाँ वैश्विक मॉडल मापदंडों को छंटाई या डिजाइन करके स्थानीय सबनेट का निर्माण करती हैं। पत्र नोट करता है कि जब क्लाइंट्स के पास "एक सामान्य वैश्विक मॉडल से व्युत्पन्न नहीं होने वाली विषम संरचनाओं वाले ब्लैक-बॉक्स स्थानीय मॉडल" होते हैं तो उनकी विफलता होती है, क्योंकि सर्वर उन्हें एकत्रित नहीं कर सकता है। यह सीमा उन परिदृश्यों के लिए महत्वपूर्ण है जहां क्लाइंट्स के पास वास्तव में मालिकाना और विविध मॉडल आर्किटेक्चर होते हैं, जिन्हें FedMRL स्थानीय मॉडल को ब्लैक बॉक्स के रूप में मानकर समायोजित करता है।
  • ज्ञान आसवन के साथ MHeteroFL: जबकि लोकप्रिय, इन विधियों को अक्सर "सीखने के कार्य के समान डेटा वितरण वाले सार्वजनिक डेटासेट पर निर्भर रहना पड़ता है।" लेखक बताते हैं कि "व्यवहार में, ऐसा उपयुक्त सार्वजनिक डेटासेट खोजना मुश्किल हो सकता है।" साझा डेटा को संश्लेषित करने के लिए एक जनरेटर को प्रशिक्षित करने में शामिल विकल्प "उच्च प्रशिक्षण लागत" के कारण खारिज कर दिए जाते हैं। FedMRL एक सार्वजनिक डेटासेट या महंगे डेटा पीढ़ी की आवश्यकता के बिना अभ्यावेदन को सीधे फ्यूज करके इन मुद्दों से बचता है।
  • मॉडल विभाजन के साथ MHeteroFL: फीचर एक्सट्रैक्टर और भविष्यवक्ता में मॉडल को विभाजित करने वाले दृष्टिकोण (जैसे, सजातीय फीचर एक्सट्रैक्टर या व्यक्तिगत भविष्यवक्ता साझा करना) को अस्वीकार कर दिया जाता है क्योंकि वे "स्थानीय मॉडल संरचनाओं के हिस्से को उजागर करते हैं," जो "स्वीकार्य नहीं है यदि मॉडल ग्राहकों के मालिकाना आईपी हैं।" FedMRL का डिज़ाइन सुनिश्चित करता है कि स्थानीय मॉडल संरचनाएं पूरी तरह से निजी रहें।
  • आपसी सीखने के साथ MHeteroFL: FedMRL को इस श्रेणी के एक अनुकूलन के रूप में प्रस्तुत किया गया है। मौजूदा आपसी सीखने की विधियाँ (जैसे FML [41] या FedKD [45]) "प्रत्येक क्लाइंट के विषम स्थानीय मॉडल के शीर्ष पर एक साझा वैश्विक सजातीय छोटे मॉडल जोड़ती हैं" और अपडेट के लिए आपसी हानि का उपयोग करती हैं। हालांकि, पत्र कहता है कि "आपसी हानि दो मॉडल के बीच केवल सीमित ज्ञान स्थानांतरित करती है, जिसके परिणामस्वरूप मॉडल प्रदर्शन बाधाएं होती हैं।" FedMRL अनुकूली प्रतिनिधित्व संलयन और बहु-ग्रैन्युलैरिटी सीखने के माध्यम से ज्ञान हस्तांतरण को बढ़ाकर इसे संबोधित करता है, इस प्रकार अपने निकटतम पूर्ववर्तियों की मुख्य सीमा को दूर करता है।

यह पत्र जनरेटिव मॉडल जैसे GANs या डिफ्यूजन मॉडल को प्रत्यक्ष विकल्प के रूप में चर्चा नहीं करता है, क्योंकि उनका प्राथमिक कार्य (डेटा उत्पन्न करना) MHeteroFL में प्रतिनिधित्व सीखने और वर्गीकरण कार्य से अलग है। ध्यान फेडरेटेड लर्निंग के एक विभेदक संदर्भ में ज्ञान हस्तांतरण में सुधार और हेटेरोजेनिटी को संभालने पर है।

Figure 7. Accuracy of four optional inference models: mix-small (the whole model without the local header), mix-large (the whole model without the global header), single-small (the homogeneous small model), single-large (the client heterogeneous model)

गणितीय और तार्किक तंत्र

मास्टर समीकरण

फेडरेटेड मॉडल हेटेरोजेनियस मैट्रयोश्का रिप्रेजेंटेशन लर्निंग (FedMRL) दृष्टिकोण को चलाने वाला पूर्ण मुख्य समीकरण इसका उद्देश्य फ़ंक्शन है, जो सभी भाग लेने वाले क्लाइंट्स में कुल हानि को कम करना चाहता है। यह मास्टर समीकरण, धारा 3 में पाया गया है, इस प्रकार प्रस्तुत किया गया है:

$$ \min_{\theta, \omega_0, \dots, \omega_{N-1}, \phi_0, \dots, \phi_{N-1}} \sum_{k=0}^{N-1} l(W_k(D_k; (\theta \circ \omega_k | \phi_k))) $$

पद-दर-पद विच्छेदन

आइए इसके पूर्ण अर्थ और FedMRL ढांचे के भीतर इसकी भूमिका को समझने के लिए इस समीकरण को टुकड़े-टुकड़े करके विश्लेषण करें।

  • $\min_{\theta, \omega_0, \dots, \omega_{N-1}, \phi_0, \dots, \phi_{N-1}}$: यह न्यूनतमकरण ऑपरेटर है।

    • गणितीय परिभाषा: यह इंगित करता है कि लक्ष्य उन मापदंडों $\theta$, $\omega_k$ (सभी $k$ के लिए), और $\phi_k$ (सभी $k$ के लिए) के विशिष्ट मान खोजना है जो उद्देश्य फ़ंक्शन (हानियों का योग) के सबसे छोटे संभव मान का परिणाम देते हैं।
    • भौतिक/तार्किक भूमिका: यह सीखने की प्रक्रिया का मूल है। यह दर्शाता है कि सिस्टम "सर्वश्रेष्ठ" मॉडल और प्रोजेक्टर का सेट खोजने की कोशिश कर रहा है जो पूरे फेडरेटेड नेटवर्क में भविष्यवाणी त्रुटियों को कम करता है।
    • क्यों उपयोग किया जाता है: मशीन लर्निंग में न्यूनतमकरण एक मौलिक अवधारणा है, क्योंकि मॉडल को आम तौर पर एक परिभाषित त्रुटि मीट्रिक को कम करके प्रशिक्षित किया जाता है।
  • $\sum_{k=0}^{N-1}$: यह सभी $N$ क्लाइंट्स पर योग को दर्शाता है।

    • गणितीय परिभाषा: यह क्लाइंट 0 से क्लाइंट $N-1$ तक प्रत्येक व्यक्तिगत क्लाइंट से हानि योगदान का योग करता है।
    • भौतिक/तार्किक भूमिका: एक फेडरेटेड लर्निंग सेटिंग में, समग्र प्रदर्शन एक सामूहिक माप है। यह योग सुनिश्चित करता है कि वैश्विक अनुकूलन उद्देश्य प्रत्येक एकल क्लाइंट के प्रदर्शन और योगदान पर विचार करता है, सहयोगात्मक सीखने को बढ़ावा देता है।
    • क्यों उपयोग किया जाता है: स्थानीय सीखने के उद्देश्यों को एक एकल वैश्विक उद्देश्य में एकत्रित करने के लिए, फेडरेटेड लर्निंग की वितरित प्रकृति को दर्शाने के लिए जहां किसी एक क्लाइंट की हानि को अलग से अनुकूलित नहीं किया जाता है।
  • $l(\cdot)$: यह हानि फ़ंक्शन का प्रतिनिधित्व करता है।

    • गणितीय परिभाषा: एक गणितीय फ़ंक्शन जो मॉडल के अनुमानित आउटपुट और वास्तविक सत्य लेबल के बीच अंतर या त्रुटि को मापता है। पत्र एक विशिष्ट उदाहरण के रूप में क्रॉस-एंट्रॉपी हानि [63] का उल्लेख करता है।
    • भौतिक/तार्किक भूमिका: यह एक प्रतिक्रिया तंत्र के रूप में कार्य करता है, जो मॉडल को बताता है कि उसकी भविष्यवाणियां कितनी "गलत" हैं। उच्च हानि का मतलब खराब प्रदर्शन है, जो मॉडल को प्रशिक्षण के दौरान अपने मापदंडों को समायोजित करने के लिए प्रेरित करता है।
    • क्यों उपयोग किया जाता है: क्रॉस-एंट्रॉपी हानि वर्गीकरण कार्यों के लिए एक मानक और प्रभावी विकल्प है, जो इस पत्र के लिए FedMRL के प्राथमिक अनुप्रयोग संदर्भ है।
  • $W_k(\cdot)$: यह क्लाइंट $k$ के लिए संयुक्त मॉडल है।

    • गणितीय परिभाषा: यह क्लाइंट $k$ के लिए संपूर्ण प्रसंस्करण पाइपलाइन का प्रतिनिधित्व करने वाला एक समग्र फ़ंक्शन है। जैसा कि पत्र में वर्णित है, $W_k(\omega_k) = (G(\theta) \circ F_k(\omega_k) | P_k(\phi_k))$, घटकों के संलयन का अर्थ है।
    • भौतिक/तार्किक भूमिका: यह क्लाइंट $k$ पर वास्तविक "इंजन" है जो कच्चे डेटा को लेता है, इसे साझा वैश्विक और स्थानीय व्यक्तिगत घटकों दोनों के माध्यम से संसाधित करता है, और अंततः एक भविष्यवाणी उत्पन्न करता है। इसके आउटपुट का मूल्यांकन हानि फ़ंक्शन द्वारा किया जाता है।
    • क्यों उपयोग किया जाता है: यह FedMRL की अनूठी वास्तुकला को समाहित करता है, जहां प्रत्येक क्लाइंट की भविष्यवाणी वैश्विक, स्थानीय और व्यक्तिगत संलयन तंत्र की परस्पर क्रिया का परिणाम है।
  • $D_k$: यह क्लाइंट $k$ के लिए स्थानीय नॉन-IID डेटा को संदर्भित करता है।

    • गणितीय परिभाषा: इनपुट-लेबल जोड़े $(x_i, y_i)$ युक्त एक डेटासेट जो विशेष रूप से क्लाइंट $k$ के लिए उपलब्ध है। यह डेटा अक्सर स्वतंत्र और समान रूप से वितरित (नॉन-IID) नहीं होता है, जिसका अर्थ है कि इसके सांख्यिकीय गुण अन्य क्लाइंट्स के डेटा से काफी भिन्न हो सकते हैं।
    • भौतिक/तार्किक भूमिका: यह निजी, स्थानीय जानकारी है जिसका उपयोग क्लाइंट $k$ अपने मॉडल को प्रशिक्षित करने के लिए करता है। यह फेडरेटेड लर्निंग में डेटा हेटेरोजेनिटी की वास्तविक दुनिया की चुनौती को दर्शाता है।
    • क्यों उपयोग किया जाता है: फेडरेटेड लर्निंग का मूल सिद्धांत कच्चे डेटा को साझा किए बिना विकेन्द्रीकृत डेटा पर मॉडल को प्रशिक्षित करना है। इस प्रकार, प्रत्येक क्लाइंट के उद्देश्य का मूल्यांकन उसके स्थानीय डेटा पर किया जाता है।
  • $(\theta \circ \omega_k | \phi_k)$: यह क्लाइंट $k$ के संयुक्त मॉडल $W_k$ के व्यवहार को परिभाषित करने वाले सामूहिक मापदंडों का प्रतिनिधित्व करता है।

    • गणितीय परिभाषा: यह वैश्विक मॉडल पैरामीटर $\theta$, क्लाइंट $k$ के स्थानीय मॉडल पैरामीटर $\omega_k$, और क्लाइंट $k$ के व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर पैरामीटर $\phi_k$ के समूहीकरण का एक वैचारिक समूह है। $\circ$ प्रतीक आम तौर पर फ़ंक्शन संरचना को दर्शाता है (जैसे, फ़ीचर एक्सट्रैक्टर), जबकि यहाँ $|$ प्रतीक समग्र मॉडल परिभाषा में प्रोजेक्टर मापदंडों के समावेश को इंगित करता है।
    • भौतिक/तार्किक भूमिका: ये वे नॉब और डायल हैं जिन्हें अनुकूलन प्रक्रिया समायोजित करती है। $\theta$ साझा ज्ञान को नियंत्रित करता है, $\omega_k$ क्लाइंट-विशिष्ट निजीकरण को संभालता है, और $\phi_k$ क्लाइंट $k$ के लिए इन दो प्रकार के ज्ञान को कैसे मिश्रित किया जाता है, इसे ठीक करता है।
    • क्यों उपयोग किया जाता है: क्लाइंट $k$ के लिए भविष्यवाणी में योगदान करने वाले सभी प्रशिक्षण योग्य मापदंडों को स्पष्ट रूप से दर्शाने के लिए और जो न्यूनतमकरण प्रक्रिया के अधीन हैं।

चरण-दर-चरण प्रवाह

कल्पना कीजिए कि एक एकल डेटा बिंदु, जैसे कि एक छवि $x_i$ अपने सत्य लेबल $y_i$ के साथ, क्लाइंट $k$ की प्रणाली में प्रवेश करती है। यह FedMRL तंत्र के माध्यम से कैसे चलता है:

  1. दोहरी फ़ीचर निष्कर्षण: सबसे पहले, इनपुट छवि $x_i$ को एक साथ दो अलग-अलग फ़ीचर एक्सट्रैक्टर में फीड किया जाता है।

    • यह वैश्विक सजातीय मॉडल के फ़ीचर एक्सट्रैक्टर, $G^{ex}$ में जाता है, जो साझा वैश्विक मॉडल का एक घटक है। यह एक सामान्यीकृत प्रतिनिधित्व $R_k^g$ निकालता है। इसे सामान्य, व्यापक रूप से लागू सुविधाओं को कैप्चर करने के रूप में सोचें।
    • साथ ही, $x_i$ क्लाइंट $k$ के स्थानीय विषम मॉडल के फ़ीचर एक्सट्रैक्टर $F_k^{ex}$ में प्रवेश करता है। यह एक व्यक्तिगत प्रतिनिधित्व $R_k^f$ निकालता है, जो क्लाइंट $k$ की विशिष्ट डेटा विशेषताओं और मॉडल संरचना के अनुरूप तैयार किया गया है। यह एक विशेष दृश्य प्राप्त करने जैसा है।
  2. प्रतिनिधित्व स्प्लिसिंग: अगला, ये दो अलग-अलग अभ्यावेदन, $R_k^g$ और $R_k^f$, "स्प्लिस" किए जाते हैं। यह आम तौर पर एक संयोजन ऑपरेशन होता है, जो आगे की प्रक्रिया से पहले दोनों सामान्यीकृत और व्यक्तिगत दृश्यों से व्यक्तिगत अर्थ संबंधी जानकारी को संरक्षित करता है।

  3. अनुकूली प्रतिनिधित्व संलयन: स्प्लिस किया गया प्रतिनिधित्व $R_i$ फिर क्लाइंट $k$ के व्यक्तिगत हल्के प्रतिनिधित्व प्रोजेक्टर $P_k$ से गुजरता है। यह प्रोजेक्टर स्प्लिस किए गए प्रतिनिधित्व को एक फ्यूज्ड प्रतिनिधित्व $\tilde{R}_i$ में मैप करता है। यह प्रोजेक्टर अनुकूली है, जिसका अर्थ है कि यह सीखता है कि क्लाइंट $k$ के स्थानीय डेटा वितरण के लिए सामान्यीकृत और व्यक्तिगत सुविधाओं को विशेष रूप से कैसे सर्वोत्तम रूप से संयोजित किया जाए, एक स्मार्ट मिक्सर के रूप में कार्य करता है।

  4. मैट्रयोश्का प्रतिनिधित्व निर्माण: इस एकल फ्यूज्ड प्रतिनिधित्व $\tilde{R}_i$ से, दो "मैट्रयोश्का" (नेस्टेड) अभ्यावेदन प्राप्त किए जाते हैं।

    • एक कम-आयामी मोटे-ग्रैन्युलैरिटी प्रतिनिधित्व $R_i^{lc}$ निकाला जाता है। यह फ्यूज्ड सुविधाओं का एक व्यापक, सारांश दृश्य लेने जैसा है।
    • एक उच्च-आयामी महीन-ग्रैन्युलैरिटी प्रतिनिधित्व $R_i^{hf}$ भी निकाला जाता है। यह फ्यूज्ड सुविधाओं के अधिक विस्तृत पहलुओं को कैप्चर करता है, जिसमें मोटे दृश्य भी शामिल हो सकते हैं।
  5. दोहरी भविष्यवाणी हेडर: ये दो मैट्रयोश्का अभ्यावेदन फिर अपने संबंधित भविष्यवाणी हेडर को भेजे जाते हैं:

    • $R_i^{lc}$ वैश्विक सजातीय मॉडल के भविष्यवाणी हेडर $G^{hd}$ पर जाता है, जो एक मोटे भविष्यवाणी $\hat{y}_i^{lc}$ करता है।
    • $R_i^{hf}$ क्लाइंट $k$ के स्थानीय विषम मॉडल के भविष्यवाणी हेडर $F_k^{hd}$ पर जाता है, जो एक महीन भविष्यवाणी $\hat{y}_i^{F_k}$ करता है।
  6. हानि गणना और योग: अंत में, सिस्टम दोनों भविष्यवाणियों के लिए वास्तविक लेबल $y_i$ के विरुद्ध व्यक्तिगत हानियों की गणना करता है। ये $l_i^{lc}$ और $l_i^{F_k}$ हैं। इन दो हानियों को फिर भारित (डिफ़ॉल्ट रूप से, समान रूप से) किया जाता है और इनपुट डेटा बिंदु के लिए एक एकल कुल हानि $l_i$ उत्पन्न करने के लिए जोड़ा जाता है। यह कुल हानि अंतिम संकेत है जो सीखने की प्रक्रिया का मार्गदर्शन करता है।

अनुकूलन गतिशीलता

FedMRL तंत्र फेडरेटेड लर्निंग और सर्वर-साइड एकत्रीकरण के साथ स्थानीय क्लाइंट-साइड प्रशिक्षण के संयोजन से सीखने और अभिसरण करता है। यह निजीकरण और सामान्यीकरण के बीच एक नृत्य है।

  1. स्थानीय सीखना और ग्रेडिएंट डिसेंट: प्रत्येक संचार राउंड में, क्लाइंट्स का एक उपसमूह चुना जाता है। प्रत्येक चयनित क्लाइंट $k$ सर्वर से वर्तमान वैश्विक सजातीय मॉडल पैरामीटर ($\theta$) प्राप्त करता है। फिर, कई स्थानीय प्रशिक्षण युगों के लिए, क्लाइंट $k$ अपने निजी स्थानीय डेटा $D_k$ को संसाधित करता है। प्रत्येक डेटा बिंदु $(x_i, y_i)$ के लिए, "चरण-दर-चरण प्रवाह" ऊपर वर्णित कुल हानि $l_i$ की गणना करने के लिए निष्पादित किया जाता है। इस हानि का उपयोग क्लाइंट $k$ के संयुक्त मॉडल में शामिल सभी मापदंडों के लिए ग्रेडिएंट की गणना करने के लिए किया जाता है: वैश्विक मॉडल पैरामीटर ($\theta$), इसके स्थानीय विषम मॉडल पैरामीटर ($\omega_k$), और इसके व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर पैरामीटर ($\phi_k$)। इन मापदंडों को ग्रेडिएंट डिसेंट का उपयोग करके अद्यतन किया जाता है:
    $$ \theta^t \leftarrow \theta^{t-1} - \eta_\theta \nabla l_i \\ \omega_k^t \leftarrow \omega_k^{t-1} - \eta_\omega \nabla l_i \\ \phi_k^t \leftarrow \phi_k^{t-1} - \eta_\phi \nabla l_i $$
    सीखने की दरें $\eta_\theta, \eta_\omega, \eta_\phi$ इन अपडेट के चरण आकार को नियंत्रित करती हैं। पत्र स्थिर अभिसरण सुनिश्चित करने के लिए उन्हें डिफ़ॉल्ट रूप से बराबर सेट करने का उल्लेख करता है, जो एक चतुर चाल है। यह स्थानीय प्रशिक्षण प्रत्येक क्लाइंट को साझा वैश्विक ज्ञान को अनुकूलित करने और अपने स्थानीय मॉडल और प्रोजेक्टर को उसके अद्वितीय डेटा के लिए निजीकृत करने की अनुमति देता है।

  2. चयनात्मक पैरामीटर अपलोड: अपने स्थानीय प्रशिक्षण युगों को पूरा करने के बाद, क्लाइंट $k$ केवल अपने अद्यतन वैश्विक सजातीय छोटे मॉडल पैरामीटर ($\theta^t$) को केंद्रीय सर्वर पर अपलोड करता है। महत्वपूर्ण रूप से, क्लाइंट के स्थानीय विषम मॉडल पैरामीटर ($\omega_k$) और व्यक्तिगत प्रोजेक्टर पैरामीटर ($\phi_k$) क्लाइंट पर बने रहते हैं, डेटा गोपनीयता सुनिश्चित करते हैं और संचार ओवरहेड को कम करते हैं। यह चयनात्मक साझाकरण एक प्रमुख डिजाइन विकल्प है।

  3. सर्वर-साइड एकत्रीकरण: केंद्रीय सर्वर सभी भाग लेने वाले क्लाइंट्स से अद्यतन वैश्विक सजातीय मॉडल पैरामीटर एकत्र करता है। यह फिर इन मापदंडों को एकत्रित करता है, आम तौर पर उन्हें औसत करके (फेडरेटेड एवरेजिंग के समान), एक नया, बेहतर वैश्विक सजातीय मॉडल $\theta^{t+1}$ उत्पन्न करने के लिए। यह एकत्रीकरण चरण सभी क्लाइंट्स में सीखे गए साझा ज्ञान को संश्लेषित करता है।

  4. वैश्विक मॉडल प्रसारण: नव एकत्रित वैश्विक मॉडल $\theta^{t+1}$ को फिर अगले संचार राउंड के लिए सभी क्लाइंट्स को प्रसारित किया जाता है। यह फेडरेटेड लर्निंग का एक पूर्ण चक्र पूरा करता है।

  5. अभिसरण व्यवहार: यह पुनरावृत्ति प्रक्रिया तब तक जारी रहती है जब तक मॉडल अभिसरण नहीं कर जाते। पत्र एक $O(1/T)$ गैर-उत्तल अभिसरण दर प्रदर्शित करने वाला एक सैद्धांतिक विश्लेषण प्रदान करता है, जहां $T$ संचार राउंड की संख्या है। इसका मतलब है कि जैसे-जैसे प्रशिक्षण के अधिक राउंड होते हैं, समग्र हानि कम होने की उम्मीद है, और मॉडल का प्रदर्शन बेहतर होता है। हानि परिदृश्य सामान्यीकृत और व्यक्तिगत अभ्यावेदन की जटिल परस्पर क्रिया से आकार लेता है। बहु-ग्रैन्युलैरिटी मैट्रयोश्का अभ्यावेदन मॉडल को विभिन्न दृष्टिकोणों से इस परिदृश्य का पता लगाने में मदद करते हैं, जिससे बेहतर सीखने और अभिसरण की सुविधा मिलती है, जिससे मोटे और महीन दोनों तरह के समायोजन की अनुमति मिलती है। अनुकूली प्रतिनिधित्व संलयन इसे और परिष्कृत करता है, प्रत्येक क्लाइंट के विशिष्ट डेटा के लिए ज्ञान मिश्रण को तैयार करके, अनुकूलन को डेटा हेटेरोजेनिटी के प्रति अधिक मजबूत बनाता है।

Figure 2. The workflow of FedMRL

परिणाम, सीमाएँ और निष्कर्ष

प्रयोगात्मक डिजाइन और बेसलाइन

FedMRL के गणितीय दावों और व्यावहारिक प्रभावकारिता को कठोरता से मान्य करने के लिए, लेखकों ने एक व्यापक प्रयोगात्मक सेटअप तैयार किया। उन्होंने Pytorch का उपयोग करके FedMRL को लागू किया और इसे सात अत्याधुनिक मॉडल हेटेरोजेनियस फेडरेटेड लर्निंग (MHeteroFL) विधियों के खिलाफ बेंचमार्क किया। सभी प्रयोग एक शक्तिशाली हार्डवेयर सेटअप पर किए गए थे, जिसमें चार NVIDIA GeForce 3090 GPUs का उपयोग किया गया था, प्रत्येक में 24GB मेमोरी थी।

FedMRL को जिन "पीड़ितों" (बेसलाइन मॉडल) के खिलाफ खड़ा किया गया था, वे MHeteroFL दृष्टिकोणों की चार अलग-अलग श्रेणियों में आते थे:
1. स्टैंडअलोन: प्रत्येक क्लाइंट अपने मॉडल को अलग-अलग प्रशिक्षित करता है, जो सहयोगात्मक सीखने के लाभों की निचली सीमा का प्रतिनिधित्व करता है।
2. सार्वजनिक डेटा के बिना ज्ञान आसवन: इस श्रेणी में FD [21] और FedProto [43] शामिल थे, जो सार्वजनिक डेटासेट पर निर्भर हुए बिना मध्यवर्ती जानकारी या प्रोटोटाइप साझा करके ज्ञान स्थानांतरित करते हैं।
3. मॉडल विभाजन: LG-FedAvg [27] द्वारा प्रस्तुत, ये विधियाँ मॉडल को फ़ीचर एक्सट्रैक्टर और भविष्यवक्ता में विभाजित करती हैं, कुछ घटकों को साझा करती हैं जबकि अन्य को निजीकृत करती हैं।
4. आपसी सीखना: इस समूह में FML [41], FedKD [45], और FedAPEN [37] शामिल थे, जो आम तौर पर एक साझा वैश्विक सजातीय छोटे मॉडल जोड़ते हैं और अपडेट के लिए आपसी हानि का उपयोग करते हैं। FedMRL सीधे इस श्रेणी पर निर्माण करता है और इसे बेहतर बनाने का लक्ष्य रखता है।

FL में छवि वर्गीकरण के लिए दो व्यापक रूप से उपयोग किए जाने वाले बेंचमार्क डेटासेट का उपयोग किया गया था: CIFAR-10 (10 कक्षाएं) और CIFAR-100 (100 कक्षाएं), दोनों में 60,000 32x32 रंगीन छवियां शामिल हैं। वास्तविक दुनिया के डेटा हेटेरोजेनिटी का अनुकरण करने के लिए, दो प्रकार के नॉन-IID (नॉन-इंडिपेंडेंट एंड आइडेंटिकली डिस्ट्रीब्यूटेड) डेटा विभाजन का निर्माण किया गया था:
- नॉन-IID (वर्ग): क्लाइंट्स को सीमित संख्या में कक्षाएं (जैसे, CIFAR-10 के लिए 2, CIFAR-100 के लिए 10) सौंपी गई थीं, जिसमें कम कक्षाएं उच्च नॉन-IIDness का संकेत देती हैं।
- नॉन-IID (डिरिचलेट): डेटा वितरण तिरछापन को नियंत्रित करने के लिए एक डिरिचलेट($\alpha$) वितरण का उपयोग किया गया था, जहां एक छोटा $\alpha$ मान अधिक स्पष्ट नॉन-IIDness को दर्शाता है।

मूल्यांकन में मॉडल-होमोजेनियस (सभी क्लाइंट्स CNN-1 का उपयोग करते हैं) और मॉडल-हेटेरोजेनियस (क्लाइंट्स CNN-1 से CNN-5 मॉडल का मिश्रण उपयोग करते हैं) FL परिदृश्य दोनों शामिल थे। FedMRL के मुख्य तंत्र, जिसमें एक सहायक सजातीय छोटा मॉडल और एक व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर शामिल है, का परीक्षण उसके अद्वितीय हाइपरपैरामीटर $d_1$ (सजातीय छोटे मॉडल का प्रतिनिधित्व आयाम) के साथ इष्टतम प्रदर्शन खोजने के लिए 100 से 500 तक भिन्न किया गया था। लेखकों ने एक निष्पक्ष तुलना सुनिश्चित करने के लिए सभी एल्गोरिदम में इष्टतम FL हाइपरपैरामीटर, जिसमें बैच आकार, स्थानीय युगों की संख्या, संचार राउंड और सीखने की दरें शामिल हैं, के लिए सावधानीपूर्वक खोज की।

प्राथमिक मूल्यांकन मेट्रिक्स थे:
- मॉडल सटीकता: सभी क्लाइंट्स के मॉडल में औसत परीक्षण सटीकता।
- संचार लागत: लक्ष्य सटीकता तक पहुंचने के लिए सर्वर और क्लाइंट के बीच आदान-प्रदान किए गए मापदंडों की कुल संख्या से मापा जाता है, जिसमें प्रति राउंड पैरामीटर और राउंड की संख्या दोनों पर विचार किया जाता है।
- कम्प्यूटेशनल ओवरहेड: लक्ष्य सटीकता तक पहुंचने के लिए क्लाइंट द्वारा किए गए कुल FLOPs (फ्लोटिंग-पॉइंट ऑपरेशंस) से मापा जाता है, जिसमें प्रति राउंड FLOPs और राउंड की संख्या दोनों पर विचार किया जाता है।

साक्ष्य क्या साबित करते हैं

प्रायोगिक साक्ष्य निर्णायक और निर्विवाद प्रमाण प्रदान करते हैं कि FedMRL के मुख्य नवाचार - अनुकूली व्यक्तिगत प्रतिनिधित्व संलयन और बहु-ग्रैन्युलैरिटी प्रतिनिधित्व सीखना - विषम फेडरेटेड लर्निंग वातावरण में प्रदर्शन को महत्वपूर्ण रूप से बढ़ाते हैं।

श्रेष्ठ सटीकता:
- समग्र आउटपरफॉर्मेंस: सभी परीक्षण किए गए FL सेटिंग्स (क्लाइंट संख्या N और भागीदारी दर C को बदलते हुए) और मॉडल-होमोजेनियस (परिशिष्ट C.2, तालिका 3) और मॉडल-हेटेरोजेनियस (तालिका 1) परिदृश्यों में, FedMRL ने लगातार सभी बेसलाइन की तुलना में उच्च औसत परीक्षण सटीकता प्राप्त की।
- मात्रात्मक लाभ: FedMRL ने समग्र सर्वश्रेष्ठ प्रदर्शन करने वाली बेसलाइन की तुलना में औसत परीक्षण सटीकता में 8.48% तक प्रभावशाली सुधार प्रदर्शित किया। और भी आश्चर्यजनक रूप से, इसने अपनी श्रेणी (आपसी सीखने-आधारित MHeteroFL विधियों) के भीतर सर्वश्रेष्ठ बेसलाइन पर 24.94% तक सुधार प्राप्त किया। यह पर्याप्त मार्जिन स्पष्ट रूप से इंगित करता है कि FedMRL का ज्ञान हस्तांतरण का दृष्टिकोण पिछले आपसी सीखने की रणनीतियों की तुलना में कहीं अधिक प्रभावी है जो केवल प्रशिक्षण हानि पर निर्भर थे।
- तेज अभिसरण: चित्र 3 (बाएं छह प्लॉट) नेत्रहीन रूप से पुष्टि करता है कि FedMRL न केवल उच्च सटीकता तक पहुंचता है, बल्कि सर्वश्रेष्ठ बेसलाइन (FedProto) की तुलना में तेजी से अभिसरण भी करता है, जो अधिक कुशल सीखने का संकेत देता है।

बढ़ा हुआ निजीकरण:
- व्यक्तिगत क्लाइंट लाभ: चित्र 3 (दाएं दो प्लॉट) FedMRL की मजबूत निजीकरण क्षमता का सम्मोहक प्रमाण प्रदान करते हैं। FedProto की तुलना में, FedMRL ने CIFAR-10 पर 87% क्लाइंट्स और CIFAR-100 पर उल्लेखनीय 99% क्लाइंट्स को बेहतर व्यक्तिगत परीक्षण सटीकता प्राप्त करने में सक्षम बनाया। यह सीधे व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर और बहु-ग्रैन्युलैरिटी सीखने की प्रभावशीलता को विविध स्थानीय डेटा वितरण और मॉडल संरचनाओं के अनुकूल होने के लिए मान्य करता है।

बेहतर दक्षता:
- कम संचार राउंड: चित्र 4 (बाएं) से पता चलता है कि FedMRL को लक्ष्य सटीकता स्तर (CIFAR-10 के लिए 90%, CIFAR-100 के लिए 50%) तक पहुंचने के लिए FedProto की तुलना में कम संचार राउंड की आवश्यकता होती है, जो तेज समग्र प्रशिक्षण का अर्थ है।
- कम कुल कम्प्यूटेशन: एक अतिरिक्त छोटे सजातीय मॉडल और एक हल्के प्रोजेक्टर को प्रशिक्षित करने के प्रति राउंड ओवरहेड के बावजूद, चित्र 4 (दाएं) प्रदर्शित करता है कि FedMRL FedProto की तुलना में कम कुल कम्प्यूटेशनल लागत लगाता है। यह इसके तेज अभिसरण का एक सीधा परिणाम है, जो प्रति राउंड थोड़ी बढ़ी हुई कम्प्यूटेशनल बोझ से अधिक है।
- संचार लागत व्यापार-बंद: जबकि FedMRL की प्रति राउंड संचार लागत FedProto से अधिक है (सजातीय छोटे मॉडल के पूर्ण प्रसारण के कारण), पत्र का तर्क है कि एक वैकल्पिक छोटे प्रतिनिधित्व आयाम ($d_1$) के साथ, यह अभी भी अन्य आपसी सीखने-आधारित MHeteroFL बेसलाइन की तुलना में उच्च संचार दक्षता प्राप्त करता है जो बड़े प्रतिनिधित्व आयामों का उपयोग करते हैं। यह एक रणनीतिक व्यापार-बंद का सुझाव देता है जिसे अनुकूलित किया जा सकता है।

हेटेरोजेनिटी के प्रति मजबूती:
- नॉन-IID डेटा मजबूती: केस स्टडीज (चित्र 5) स्पष्ट रूप से नॉन-IIDness की विभिन्न डिग्री, दोनों वर्ग-आधारित और डिरिचलेट-आधारित, के प्रति FedMRL की मजबूती का प्रदर्शन करती हैं। FedMRL ने सभी नॉन-IID सेटिंग्स में FedProto की तुलना में लगातार उच्च औसत परीक्षण सटीकता बनाए रखी, जो विविध डेटा वितरणों को प्रभावी ढंग से संभालने की अपनी क्षमता को साबित करती है।

एब्लेशन स्टडी सत्यापन:
- मैट्रयोश्का रिप्रेजेंटेशन लर्निंग का प्रभाव: एब्लेशन अध्ययन (चित्र 6, दाएं दो प्लॉट) मैट्रयोश्का रिप्रेजेंटेशन लर्निंग (MRL) घटक की उपयोगिता के लिए महत्वपूर्ण प्रमाण प्रदान करता है। MRL के बिना FedMRL की तुलना में MRL के साथ FedMRL लगातार बेहतर प्रदर्शन किया, यह पुष्टि करते हुए कि बहु-ग्रैन्युलैरिटी प्रतिनिधित्व सीखना डिजाइन MHeteroFL में समग्र प्रदर्शन लाभ का एक महत्वपूर्ण योगदानकर्ता है। यह अवलोकन कि सटीकता अंतर $d_1$ बढ़ने पर कम हो जाता है, तंत्र में अंतर्दृष्टि भी प्रदान करता है, यह सुझाव देता है कि MRL के लाभ तब सबसे अधिक स्पष्ट होते हैं जब प्रतिनिधित्व कम ओवरलैप होते हैं।

संक्षेप में, साक्ष्य साबित करते हैं कि FedMRL के दोहरे नवाचार - अनुकूली प्रतिनिधित्व संलयन और बहु-ग्रैन्युलैरिटी प्रतिनिधित्व सीखना - मॉडल-हेटेरोजेनियस फेडरेटेड लर्निंग के लिए एक शक्तिशाली, कुशल और मजबूत समाधान प्रदान करने के लिए मिलकर काम करते हैं, जो कई महत्वपूर्ण मेट्रिक्स में अत्याधुनिक बेसलाइन को निर्णायक रूप से हराते हैं।

सीमाएँ और भविष्य की दिशाएँ

जबकि FedMRL मॉडल हेटेरोजेनियस फेडरेटेड लर्निंग में एक महत्वपूर्ण प्रगति प्रस्तुत करता है, लेखक ईमानदारी से कुछ सीमाओं को स्वीकार करते हैं और भविष्य के शोध के लिए स्पष्ट रास्ते प्रस्तावित करते हैं।

वर्तमान सीमाएँ:
1. वैश्विक हेडर के लिए बढ़ी हुई संसाधन खपत: वर्तमान डिज़ाइन में दोनों वैश्विक छोटे मॉडल के हेडर और स्थानीय क्लाइंट मॉडल के हेडर के माध्यम से बहु-ग्रैन्युलैरिटी एम्बेडेड अभ्यावेदन को संसाधित करना शामिल है। यद्यपि वैश्विक हेडर एक अपेक्षाकृत सरल रैखिक परत है, यह दोहरा प्रसंस्करण स्वाभाविक रूप से भंडारण लागत, संचार लागत और वैश्विक हेडर से जुड़े प्रशिक्षण ओवरहेड को बढ़ाता है। यह एक व्यावहारिक चिंता है, खासकर संसाधन-बाधित FL वातावरण में जहां हर बाइट और FLOP मायने रखता है।
2. सांख्यिकीय महत्व रिपोर्टिंग का अभाव: पत्र में प्रत्येक प्रयोगात्मक सेटिंग के लिए केवल तीन परीक्षण करने और औसत परिणाम रिपोर्ट करने का उल्लेख है। यह दृष्टिकोण, हालांकि आम है, त्रुटि बार, विश्वास अंतराल, या सांख्यिकीय महत्व परीक्षण शामिल नहीं करता है। नतीजतन, रिपोर्ट किए गए सुधारों की सांख्यिकीय मजबूती का पता लगाना मुश्किल है और क्या देखे गए अंतर वास्तव में महत्वपूर्ण हैं या केवल रनों में यादृच्छिक भिन्नता के कारण हैं। यह पूर्ण वैज्ञानिक कठोरता के लिए एक मामूली लेकिन महत्वपूर्ण चूक है।

भविष्य की दिशाएँ और चर्चा विषय:

पहचानी गई सीमाएँ स्वाभाविक रूप से इन निष्कर्षों के आगे विकास और विस्तार के लिए कई आशाजनक दिशाओं की ओर ले जाती हैं, जो महत्वपूर्ण सोच को उत्तेजित करती हैं:

  1. वैश्विक हेडर उपयोग का अनुकूलन (MRL-E एकीकरण): लेखकों ने स्पष्ट रूप से भविष्य के काम में अधिक प्रभावी मैट्रयोश्का रिप्रेजेंटेशन लर्निंग विधि (MRL-E) [24] को अपनाने का सुझाव दिया है। इसमें वैश्विक हेडर को पूरी तरह से हटाना और बहु-ग्रैन्युलैरिटी मैट्रयोश्का अभ्यावेदन को संसाधित करने के लिए पूरी तरह से स्थानीय मॉडल हेडर पर भरोसा करना शामिल है। यह सीधे वैश्विक हेडर के लिए बढ़ी हुई संसाधन खपत की वर्तमान सीमा को संबोधित करेगा, संभावित रूप से मॉडल प्रदर्शन और भंडारण, संचार और कम्प्यूटेशनल की लागतों के बीच एक बेहतर व्यापार-बंद की ओर ले जाएगा। यहां एक प्रमुख चर्चा बिंदु यह है कि यदि वैश्विक हेडर पूरी तरह से हटा दिया जाता है तो पर्याप्त ज्ञान हस्तांतरण और सजातीय मॉडल से सामान्यीकरण क्षमता कैसे सुनिश्चित की जाए। क्या इसके लिए अधिक परिष्कृत संलयन तंत्र या सजातीय मॉडल के फीचर एक्सट्रैक्टर के लिए एक अलग एकत्रीकरण रणनीति की आवश्यकता होगी?

  2. गतिशील प्रतिनिधित्व आयाम अनुकूलन: $d_1$ (सजातीय छोटे मॉडल का प्रतिनिधित्व आयाम) पर संवेदनशीलता विश्लेषण से पता चला कि छोटे $d_1$ मान अक्सर उच्च सटीकता और कम ओवरहेड की ओर ले जाते हैं। यह बताता है कि $d_1$ प्रदर्शन और दक्षता को संतुलित करने के लिए एक महत्वपूर्ण हाइपरपैरामीटर है। भविष्य के काम में प्रशिक्षण के दौरान $d_1$ (और संभावित रूप से $d_2$) निर्धारित करने के लिए गतिशील, अनुकूली तंत्र का पता लगाया जा सकता है, शायद क्लाइंट-विशिष्ट संसाधन बाधाओं या डेटा विशेषताओं के आधार पर। क्या ऑनलाइन सीखने का दृष्टिकोण या मेटा-लर्निंग फ्रेमवर्क का उपयोग इन आयामों को मैन्युअल ट्यूनिंग के बिना अनुकूलित करने के लिए किया जा सकता है?

  3. पर्यवेक्षित सीखने से परे: वर्तमान FedMRL दृष्टिकोण पर्यवेक्षित सीखने के कार्यों के लिए तैयार किया गया है। इसे विषम सेटिंग में अर्ध-पर्यवेक्षित, अप्रशिक्षित, या सुदृढीकरण सीखने जैसे अन्य सीखने के प्रतिमानों तक विस्तारित करना एक महत्वपूर्ण कदम होगा। ये अवधारणाएं लेबल के दुर्लभ होने या जहां उद्देश्य फ़ंक्शन एक साधारण क्रॉस-एंट्रॉपी हानि नहीं है, उन परिदृश्यों में कैसे अनुवादित होंगी?

  4. एडवरसैरियल हमलों और डेटा पॉइज़निंग के प्रति मजबूती: जबकि FedMRL डेटा और मॉडल हेटेरोजेनिटी को संबोधित करता है, एडवरसैरियल हमलों या डेटा पॉइज़निंग (FL में एक आम चिंता) के प्रति इसकी मजबूती का स्पष्ट रूप से मूल्यांकन नहीं किया गया है। भविष्य के शोध में यह जांच की जा सकती है कि बहु-ग्रैन्युलैरिटी अभ्यावेदन और व्यक्तिगत प्रोजेक्टर स्वाभाविक रूप से कुछ लचीलापन प्रदान करते हैं या उन्हें विशिष्ट रक्षा तंत्र के साथ कैसे बढ़ाया जा सकता है।

  5. अत्यधिक बड़े पैमाने पर FL के लिए स्केलेबिलिटी: प्रयोग 100 क्लाइंट्स तक किए गए थे। जबकि यह एक अच्छी शुरुआत है, वास्तविक दुनिया के FL परिनियोजन में लाखों डिवाइस शामिल हो सकते हैं। संचार ओवरहेड और एकत्रीकरण रणनीतियों के संबंध में, विशेष रूप से, दसियों गुना अधिक क्लाइंट्स तक FedMRL की स्केलेबिलिटी की जांच करना महत्वपूर्ण होगा। क्या वर्तमान एकत्रीकरण योजना में बाधाएं हैं जो बड़े पैमाने पर निषेधात्मक हो जाएंगी?

  6. औपचारिक सांख्यिकीय महत्व: वैज्ञानिक कठोरता को मजबूत करने के लिए, भविष्य के काम में सभी प्रयोगात्मक परिणामों के लिए त्रुटि बार और विश्वास अंतराल सहित औपचारिक सांख्यिकीय महत्व परीक्षण शामिल होना चाहिए। इससे देखे गए प्रदर्शन लाभों की विश्वसनीयता और सामान्यीकरण की स्पष्ट समझ मिलेगी।

  7. वैकल्पिक प्रोजेक्टर आर्किटेक्चर का अन्वेषण: पत्र उल्लेख करता है कि व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर एक-परत रैखिक मॉडल या बहु-परत परसेप्ट्रॉन हो सकता है। वर्तमान प्रयोगों में संभवतः एक साधारण रैखिक मॉडल का उपयोग किया जाता है। अधिक जटिल या अनुकूली प्रोजेक्टर आर्किटेक्चर का अन्वेषण, शायद ऐसे जो स्थानीय डेटा के आधार पर अपनी जटिलता को गतिशील रूप से समायोजित कर सकते हैं, निजीकरण और ज्ञान संलयन को और बढ़ा सकते हैं।

इन सीमाओं को संबोधित करके और इन आगे की दिशाओं का पता लगाकर, FedMRL के मूलभूत कार्य को और परिष्कृत और विस्तारित किया जा सकता है, जो और भी अधिक मजबूत और कुशल विषम फेडरेटेड लर्निंग सिस्टम के लिए मार्ग प्रशस्त करता है।

Table 1. and Table 3 (Appendix C.2) show that FedMRL consistently outperforms all baselines under both model-heterogeneous or homogeneous settings. It achieves up to a 8.48% improvement in average test accuracy compared with the best baseline under each setting. Furthermore, it achieves up to a 24.94% average test accuracy improvement than the best same-category (i.e., mutual learning- based MHeteroFL) baseline under each setting. These results demonstrate the superiority of FedMRL Table 3. presents the results of FedMRL and baselines in model-homogeneous FL scenarios Table 2. shows the structures of models used in experiments

अन्य क्षेत्रों के साथ समरूपता

संरचनात्मक कंकाल

यह पत्र विविध, वितरित मॉडल से सहयोगात्मक रूप से सीखने के लिए एक तंत्र प्रस्तुत करता है, उनके अभ्यावेदन को एक साझा, बहु-ग्रैन्युलर संरचना में फ्यूज करके, स्थानीय डेटा वितरण के अनुकूल होकर, और कुशल ज्ञान हस्तांतरण को सक्षम करके।

दूर के चचेरे भाई

  1. लक्ष्य क्षेत्र: सिस्टम बायोलॉजी / मल्टी-ओमिक्स एकीकरण

    • संबंध: सिस्टम बायोलॉजी में, शोधकर्ता अक्सर विभिन्न स्रोतों, जैसे विभिन्न शोध प्रयोगशालाओं या रोगी समूहों (वितरित क्लाइंट्स) से एकत्र किए गए विषम डेटा प्रकारों (जैसे, जीनोमिक्स, प्रोटिओमिक्स, मेटाबोलोमिक्स - जिन्हें अक्सर "मल्टी-ओमिक्स" कहा जाता है) को एकीकृत करने की चुनौती का सामना करते हैं। इन डेटासेट में स्वाभाविक रूप से विविध संरचनाएं, पैमाने और अंतर्निहित जैविक संदर्भ (विषम स्थानीय मॉडल) होते हैं। लंबे समय से चली आ रही समस्या इन अलग-अलग सूचना धाराओं को एक एकीकृत, व्यापक प्रतिनिधित्व में संश्लेषित करना है जो जटिल जैविक तंत्रों को प्रकट कर सकती है या रोग के परिणामों की भविष्यवाणी कर सकती है। इस पत्र का मुख्य तर्क, जो बहु-ग्रैन्युलर संरचना में विषम अभ्यावेदन को फ्यूज करता है, जटिल जैविक अंतर्दृष्टि (जैसे, आनुवंशिक भिन्नताएं प्रोटीन अभिव्यक्ति को कैसे प्रभावित करती हैं, जो बदले में चयापचय मार्गों को प्रभावित करती हैं) को उजागर करने के लिए मल्टी-ओमिक्स डेटा को एकीकृत करने की आवश्यकता को दर्शाता है। "व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर" को एक समान घटक के रूप में देखा जा सकता है जो रोगी-विशिष्ट या ऊतक-विशिष्ट जैविक भिन्नताओं और डेटा पूर्वाग्रहों को ध्यान में रखने के लिए एकीकरण प्रक्रिया को अनुकूलित करता है, ठीक उसी तरह जैसे FedMRL स्थानीय नॉन-IID डेटा के अनुकूल होता है।
  2. लक्ष्य क्षेत्र: शहरी नियोजन / स्मार्ट सिटी डेटा फ्यूजन

    • संबंध: आधुनिक शहरी नियोजन और स्मार्ट सिटी पहल एक शहर में कई सेंसर और प्रणालियों से विषम डेटा की विशाल मात्रा को एकीकृत करने पर निर्भर करती हैं। इसमें यातायात प्रवाह डेटा, सार्वजनिक परिवहन उपयोग, पर्यावरण सेंसर रीडिंग (वायु गुणवत्ता, शोर स्तर), सोशल मीडिया गतिविधि, उपयोगिता खपत और जनसांख्यिकीय जानकारी शामिल है। ये डेटा स्रोत अक्सर विभिन्न नगरपालिका विभागों या निजी संस्थाओं (वितरित क्लाइंट्स) द्वारा प्रबंधित किए जाते हैं, प्रत्येक के अपने डेटा प्रारूप, संग्रह आवृत्तियां और अंतर्निहित ग्रैन्युलैरिटी (विषम मॉडल/डेटा) होते हैं। इसके अलावा, नागरिक डेटा के संबंध में गोपनीयता संबंधी चिंताएं सर्वोपरि हैं। चुनौती एक सुसंगत, बहु-ग्रैन्युलर प्रतिनिधित्व में इन अलग-अलग, बहु-मोडल डेटा स्ट्रीम को फ्यूज करना है ताकि शहरी नीति को सूचित किया जा सके, संसाधन की मांगों की भविष्यवाणी की जा सके, शहर की सेवाओं को अनुकूलित किया जा सके, या आपात स्थितियों का प्रबंधन किया जा सके। साझा, बहु-ग्रैन्युलर प्रतिनिधित्व बनाने के लिए इस पत्र के दृष्टिकोण, डेटा गोपनीयता बनाए रखने और संचार को कम करने के साथ-साथ विविध स्थानीय मॉडल से, शहरी प्रबंधन और समझ के लिए समग्र शहरी डेटा को एकीकृत करने की आवश्यकता के समानांतर है, बिना संवेदनशील या मालिकाना जानकारी को केंद्रीकृत किए।

क्या होगा यदि परिदृश्य

एक सिस्टम बायोलॉजिस्ट की कल्पना करें, जो एक अस्पताल संघ से मल्टी-ओमिक्स डेटा को एकीकृत करने की जटिलता से जूझ रहा है, प्रत्येक के पास अद्वितीय रोगी आबादी और डेटा संग्रह विधियां हैं। यदि यह शोधकर्ता कल FedMRL के सटीक समीकरणों को "चोरी" कर सकता है, तो वे एक फेडरेटेड मल्टी-ओमिक्स लर्निंग फ्रेमवर्क लागू कर सकते हैं। प्रत्येक अस्पताल अपने विशिष्ट ओमिक्स डेटा पर अपने स्थानीय मॉडल को प्रशिक्षित करेगा, और एक केंद्रीय सर्वर इन विविध अभ्यावेदन को एक साझा, बहु-ग्रैन्युलर मैट्रयोश्का प्रतिनिधित्व में फ्यूज करने का समन्वय करेगा। यह पूरे संघ में जटिल बीमारियों (जैसे, कैंसर उपप्रकार, दवा प्रतिरोध तंत्र) के लिए मजबूत, पदानुक्रमित बायोमार्कर की खोज की अनुमति देगा, बिना किसी अस्पताल को कच्चे, गोपनीयता-संवेदनशील रोगी डेटा साझा करने की आवश्यकता के। व्यक्तिगत प्रतिनिधित्व प्रोजेक्टर प्रत्येक अस्पताल की अनूठी रोगी जनसांख्यिकी या तकनीकी पूर्वाग्रहों के लिए फ्यूज्ड ओमिक्स सुविधाओं को अनुकूलित करेगा, जिससे अत्यधिक सटीक और सामान्यीकृत भविष्य कहनेवाला मॉडल बनेंगे। यह सफलता बड़े पैमाने पर, गोपनीयता-संरक्षण मल्टी-ओमिक्स अनुसंधान को सक्षम करके व्यक्तिगत चिकित्सा में तेजी लाएगी, सूक्ष्म, नेस्टेड जैविक पैटर्न की पहचान करेगी जो वर्तमान में डेटा हेटेरोजेनिटी और गोपनीयता बाधाओं से अस्पष्ट हैं।

संरचनाओं की सार्वभौमिक पुस्तकालय

यह पत्र विकेन्द्रीकृत, बहु-मोडल सूचना संश्लेषण के लिए एक मजबूत पैटर्न प्रदर्शित करके "संरचनाओं की सार्वभौमिक पुस्तकालय" को समृद्ध करता है, जहां व्यक्तिगत स्वायत्तता या गोपनीयता से समझौता किए बिना विविध स्थानीय दृष्टिकोणों को एक साझा, पदानुक्रमित समझ में सामंजस्य स्थापित किया जाता है।