联邦模型异构嵌套表示学习
背景与学术渊源
起源与学术渊源
本文所解决的模型异构联邦学习(MHeteroFL)问题,源于传统联邦学习(FL)在实践中遇到的挑战。由[32, 47, 46, 12]等工作提出的传统联邦学习,通常涉及一个中心服务器协调多个客户端,在不暴露本地数据的情况下训练一个单一的、全局共享的模型。这种设置通过仅传输模型参数[14, 56, 51]来保护数据隐私,但在现实应用中常见的多种异构性方面存在诸多问题。
具体而言,三个根本性的“痛点”促使了MHeteroFL的开发,并进而推动了本文的研究:
- 数据异构性(Non-IID数据):客户端的本地数据通常不遵循独立同分布(non-IID)的模式[42]。这意味着通过聚合本地模型训练出的单一全局模型,可能由于其数据的多样性而在各个客户端上表现不佳[49, 48]。
- 系统异构性:FL客户端可能拥有截然不同的计算能力和网络带宽[11]。强制所有客户端训练相同的模型结构意味着全局模型的大小必须受限于最弱的设备,从而导致在更强大的客户端上性能欠佳[52, 54, 50]。
- 模型异构性:作为FL客户端的企业通常拥有具有异构结构的专有模型,由于知识产权(IP)的顾虑而无法直接共享[43]。
MHeteroFL[55]领域应运而生,旨在使FL客户端能够训练具有定制结构的本地模型,以适应其特定的系统资源和数据分布。然而,现有的MHeteroFL方法[41, 45]也面临自身的局限性。它们主要依赖训练损失来传递客户端和服务器模型之间的知识,这导致知识交换受限、模型性能瓶颈、高昂的通信和计算成本,以及暴露私有本地模型结构和数据的风险。例如,使用自适应子网的方法难以聚合黑盒本地模型;知识蒸馏通常需要难以找到的公共数据集或产生高昂的训练成本;模型分割可能暴露专有IP;而互学习虽然有前景,但仅传递有限的知识,导致性能瓶颈。本文旨在通过提出一种新颖的方法来克服这些局限性,以更高效和私密的方式增强知识传递和模型学习能力。
直观的领域术语
以下是论文中的一些专业领域术语,用直观的日常类比来解释,以供零基础读者理解:
- 联邦学习(FL):想象一群来自不同学校的学生试图一起学习一门新科目,但由于隐私规定,他们不能直接分享自己的个人笔记(本地数据)。相反,每个学生用自己的笔记学习,然后将他们学到的知识的摘要(模型更新)发送给一位中心老师。老师将所有摘要结合起来,创建一个更好、更全面的课程计划(全局模型),然后分享给学生。这样,每个人都可以从集体经验中学习,而无需任何人的私人笔记离开学校。
- 模型异构性:想象一个由专业医生组成的团队,他们每个人都拥有针对不同类型患者的独特诊断工具和专业知识(模型)。模型异构性意味着这些工具和专业知识在所有医生之间并不完全相同。有些人可能拥有先进的MRI机器,另一些可能专精于X射线,他们都有不同的结果解读方式。挑战在于,如何在不直接共享其专有工具或方法的情况下,协同提高他们整体的诊断能力。
- 嵌套表示学习(Matryoshka Representation Learning, MRL):这就像一套俄罗斯套娃。每个娃娃代表不同层次的细节或对信息的“理解”。最大的娃娃提供广泛的、一般的概述,而嵌套在里面的较小娃娃则提供越来越精细和具体的细节。MRL允许机器学习模型从数据中提取这些多层次的“理解”,以便它可以选择适合任务的细节层次,平衡准确性和效率。
- Non-IID数据(非独立同分布数据):考虑一个全球性的食品配送服务公司,试图预测受欢迎的菜肴。如果他们所有的客户都住在一个城市,他们关于食物偏好的数据很可能是“IID”(每个人可能都点披萨或汉堡)。然而,如果客户遍布世界各地,他们的偏好将是“non-IID”——有些人可能喜欢寿司,有些人喜欢墨西哥卷饼,还有些人喜欢咖喱。这意味着数据不是均匀分布的,并且在此之上训练的模型需要足够灵活,能够处理这些多样化的本地口味,而不是假设单一的全球偏好。
符号表
| 符号 | 描述 |
|---|---|
问题定义与约束
核心问题表述与困境
本文所解决的根本问题属于模型异构联邦学习(MHeteroFL)的范畴。
输入/当前状态:
在传统的联邦学习(FL)中,一个中心服务器协调多个客户端协同训练一个单一的、全局共享的模型。客户端在其本地数据上训练此模型,并将更新后的参数发送给服务器进行聚合。然而,当客户端拥有异构的本地模型、多样化的系统资源以及非独立同分布(non-IID)的本地数据时,这种范式面临严峻的挑战。现有的MHeteroFL方法试图通过允许客户端训练具有定制结构的本地模型来解决模型异构性问题。这些方法当前的状况主要依赖于通过训练损失在客户端和服务器模型之间传递知识。
期望终点(输出/目标状态):
本文旨在开发一种新颖的MHeteroFL方法,称为联邦模型异构嵌套表示学习(FedMRL),用于监督学习任务。期望的结果是一个系统,能够有效地促进异构客户端模型与同构全局模型之间的知识传递,从而带来卓越的模型准确性、更快的收敛速度以及更低的通信和计算成本,同时严格保护数据隐私并适应多样化的客户端模型结构和数据分布。最终目标是让每个客户端在FL训练后使用其本地组合模型进行推理。
缺失环节或数学鸿沟:
现有MHeteroFL方法中关键的缺失环节是其有限的知识交换能力。仅依赖训练损失进行知识传递常常导致性能瓶颈、高昂的通信和计算成本,以及暴露私有本地模型结构和敏感本地数据的风险。本文试图通过引入两项关键创新来弥合这一差距:
1. 自适应表示融合:FedMRL不只关注损失,而是融合了由全局同构模型特征提取器提取的通用表示(generalized representations)和由客户端异构本地模型特征提取器提取的个性化表示(personalized representations)。然后,通过一个个性化的轻量级表示投影器将它们映射到一个统一的、融合的表示,以适应本地的non-IID数据。
2. 多粒度表示学习:融合的表示用于构建嵌套表示(Matryoshka Representations),涉及多维和多粒度的嵌入式表示。这些表示由全局同构模型头部和本地异构模型头部共同处理,并利用它们的组合损失来更新所有模型。这种多视角学习增强了知识交互。
在数学上,本文旨在最小化所有客户端上的以下目标函数:
$$ \min_{\theta, \omega_0, \dots, \omega_{N-1}, \phi_0, \dots, \phi_{N-1}} \sum_{k=0}^{N-1} l(W_k(D_k; (\theta \circ \omega_k | \phi_k))) $$
其中,$W_k$代表客户端$k$的组合模型,$D_k$是客户端$k$的本地数据,$\theta$表示全局同构小型模型的参数,$\omega_k$代表客户端$k$的本地异构模型参数,$\phi_k$代表客户端$k$的个性化表示投影器参数。通过梯度下降优化所有这些参数集。
困境:
困扰先前研究人员的核心困境是在异构FL环境中,有效的知识传递和模型性能与隐私保护、通信效率和计算可行性之间的痛苦权衡。提高知识传递能力通常需要共享更多信息(例如,中间特征、模型结构),这可能会损害隐私、增加通信带宽需求并需要更多计算资源。相反,严格的隐私和资源限制限制了可以交换的知识的深度和丰富性,导致模型性能不佳,尤其是在处理高度多样化的客户端模型和数据时。挑战在于在不打破这些关键限制的情况下实现鲁棒的知识共享。
约束与失效模式
模型异构联邦学习的问题极其困难,因为作者们会遇到几个严酷的现实障碍:
- 数据异构性(Non-IID数据):客户端的本地数据集通常是non-IID的,意味着它们的数据分布是不同的。通过聚合来自如此多样化本地数据的更新而训练的全局模型,可能在各个客户端上表现不佳,或在整个网络中泛化能力差。这使得实现一个普遍高性能的模型极其困难。
- 系统异构性:FL客户端拥有不同的计算能力(例如,CPU/GPU、内存)和网络带宽。解决方案必须能够适应这些不同的资源。强制所有客户端使用大型、统一的模型结构意味着模型大小必须适应最弱的设备,导致更强大客户端的资源利用不足和性能不佳。
- 模型异构性与知识产权(IP)顾虑:客户端,特别是企业,可能拥有具有不同架构和参数的专有本地模型,由于IP保护而无法直接与其他方共享。这一约束阻止了直接的模型参数平均化,这是传统FL中的常见操作。
- 有限的知识传递机制:现有的MHeteroFL方法主要依赖训练损失进行知识传递,这通常不足以在高度异构的模型之间进行鲁棒学习。这种有限的知识交换导致性能瓶颈和收敛速度减慢。
- 通信成本限制:在FL中,为了保护隐私,仅在服务器和客户端之间传输模型参数,而不是原始数据。然而,即使是模型参数也可能很大。解决方案必须在每个回合中产生较低的通信成本,并在更少的回合中达到目标准确率才能实用,特别是对于带宽有限的边缘设备。
- 计算开销限制:客户端,特别是移动或边缘设备,计算资源有限。MHeteroFL解决方案引入的任何额外组件或训练步骤,每回合每客户端的额外计算成本必须较低才能可行。
- 隐私保护要求:FL的核心原则是本地数据保留在客户端设备上。此外,客户端的本地模型结构和参数不应暴露给服务器或其他客户端。任何知识传递机制都必须维护这些严格的隐私保证。
- 非凸优化:联邦学习的目标函数,特别是具有异构模型和复杂表示学习时,通常是非凸的。保证收敛并达到良好的局部最优是一个重大的数学挑战,需要仔细设计优化策略和理论分析。本文提供了关于$O(1/T)$非凸收敛率的理论分析。
- 模型无关的客户端接入:系统应足够灵活,允许具有不同、可能未知本地模型结构的客户端无缝加入联邦学习过程。这需要不假设客户端模型架构先验知识的自适应机制。
为什么选择这种方法
选择的必然性
采用联邦模型异构嵌套表示学习(FedMRL)不仅仅是一种偏好,而是由模型异构联邦学习(MHeteroFL)先前方法固有的局限性所驱动的必要演变。作者们认识到,即使经过联邦设置的调整,传统的“SOTA”方法也根本不足以同时解决数据、系统和模型异构性的多方面挑战,同时保持隐私和效率。
具体而言,本文强调现有的MHeteroFL方法主要依赖训练损失在客户端和服务器模型之间传递知识。这种设计选择被证明是一个瓶颈,导致知识交换受限、通信和计算成本高昂,以及暴露私有本地模型结构和数据的不可接受的风险。认识到这些方法不足源于它们无法:
1. 有效传递丰富的知识:简单的基于损失的知识传递被证明不足以处理复杂的异构模型结构和多样化的本地数据分布。
2. 管理高昂的通信和计算开销:传输整个模型参数或依赖计算成本高昂的蒸馏技术是不可持续的。
3. 保护专有模型的隐私:许多现有方法需要暴露部分本地模型结构,这对于担心知识产权的企业客户端来说是不可行的。
嵌套表示学习(MRL)[24]的灵感提供了关键的见解:定制表示维度以在模型性能和推理成本之间实现最佳权衡。当集成到MHeteroFL中时,这一概念提供了一条克服上述局限性的途径,使得FedMRL成为唯一能够稳健处理现实世界异构联邦环境复杂性的可行解决方案。
比较优势
FedMRL通过几种超越单纯性能指标的结构性优势,展现出优于先前黄金标准的定性优势。虽然它实现了显著的准确性提升(比最佳基线高出8.48%,比同类最佳基线高出24.94%),但其真正的力量在于其设计创新:
- 自适应表示融合:与依赖固定知识传递机制的方法不同,FedMRL引入了一个个性化的轻量级表示投影器。该投影器动态适应本地non-IID数据分布,融合了全局同构模型中的通用表示和本地异构模型中的个性化表示。这种自适应融合确保了知识传递对每个客户端独特的数据高度相关且有效,这是一个显著增强了在多样化数据环境中模型学习能力的结构性优势。
- 多粒度表示学习:受MRL的启发,FedMRL构建了具有多维和多粒度嵌入式表示的嵌套表示。这允许多视角表示学习,意味着模型可以捕捉粗粒度和细粒度特征。这种结构深度使得对数据的理解更加丰富和鲁棒,使模型更能抵抗异构联邦环境中固有的变化和噪声。它不是在传统意义上更好地处理高维噪声,而是从不同粒度中提取更具信息量和适应性的表示。
- 优化的资源权衡:将小型同构全局模型的表示维度($d_1$)相对于本地模型维度($d_2$)进行变化的这种能力,提供了一个关键的调节器,用于优化模型性能、存储需求和通信成本之间的权衡。这种灵活性是一个重要的结构性优势,允许在不牺牲整体有效性的情况下定制系统以适应不同的客户端能力。例如,较小的$d_1$可以显著降低通信开销,而不会成比例地降低准确性,如敏感性分析(图6,左两个图)所示。
这些创新共同提供了一个结构性优势,使FedMRL能够在较低的通信和计算成本下实现卓越的模型准确性,同时还为各个客户端提供更强的个性化能力,正如各个客户端测试准确性差异(图3,右两个图)所证实的。
与约束的对齐
FedMRL的设计完美地契合了模型异构联邦学习的严苛要求,形成了“问题与解决方案的结合”:
- 数据异构性(non-IID数据):自适应表示融合机制及其个性化表示投影器,明确设计用于适应本地non-IID数据分布。通过以数据感知的方式融合通用表示和个性化表示,FedMRL直接解决了客户端拥有统计上不同的数据集的挑战。
- 系统异构性:引入一个与异构本地模型交互的辅助小型同构模型是关键。全局模型的大小可以保持较小(通过改变$d_1$),以适应计算能力或网络带宽有限的客户端。客户端也可以根据其特定的系统资源定制本地模型,因为该框架对本地异构模型是模型无关的。
- 模型异构性:FedMRL将每个客户端的本地模型视为“黑盒”。服务器仅广播和聚合小型同构模型,而不是异构本地模型。这确保了客户端的专有模型结构永远不会暴露,直接解决了知识产权顾虑。
- 隐私保护:这是模型异构性解决方案的直接结果。由于只交换小型同构模型参数,本地数据和客户端特定异构模型的完整结构在客户端侧保持私密。
- 通信和计算成本:通过仅交换小型同构模型,FedMRL与交换完整本地模型的方法相比,显著减少了每回合传输的参数数量。此外,通过自适应融合和多粒度学习增强的知识传递导致模型收敛更快(总通信回合数更少),这最终降低了总通信和计算开销,尽管由于辅助模型导致每回合计算量略有增加。
替代方案的拒绝
本文通过强调其旨在克服的根本性缺点,隐式和显式地拒绝了几种替代的MHeteroFL方法。
- 具有自适应子网的MHeteroFL:这些方法通过修剪或设计全局模型参数来构建本地子网。本文指出,当客户端拥有“非源自通用全局模型的黑盒本地模型且具有异构结构”时,它们会失败。对于客户端拥有真正专有且多样化模型架构的情况,这一局限性至关重要,而FedMRL通过将本地模型视为黑盒来适应这种情况。
- 具有知识蒸馏的MHeteroFL:虽然很受欢迎,但这些方法通常“依赖于与学习任务具有相同数据分布的公共数据集”。作者指出,“实际上,很难找到这样合适的数据集。”通过训练生成器来合成共享数据的方法因“高昂的训练成本”而被驳回。FedMRL通过直接融合表示,避免了这些问题,无需公共数据集或昂贵的数据生成。
- 具有模型分割的MHeteroFL:将模型分割为特征提取器和预测器的模型(例如,共享同构特征提取器或个性化预测器)被拒绝,因为它们“暴露了部分本地模型结构”,这“如果模型是客户端的专有IP,则不可接受”。FedMRL的设计确保本地模型结构完全保持私密。
- 具有互学习的MHeteroFL:FedMRL被呈现为该类别的一个优化。现有的互学习方法(如FML [41]或FedKD [45])“在每个客户端的异构本地模型之上添加一个共享的全局同构小型模型”,并使用互损失进行更新。然而,本文指出“互损失仅在两个模型之间传递有限的知识,导致模型性能瓶颈。”FedMRL通过自适应表示融合和多粒度学习来增强知识传递,从而克服了其最接近的先驱的核心局限性。
本文没有将生成模型(如GANs或Diffusion模型)作为直接替代方案进行讨论,因为它们的主要功能(生成数据)与MHeteroFL中表示学习和分类任务不同。重点在于在判别式联邦学习的背景下,改进知识传递和处理异构性。
Figure 7. Accuracy of four optional inference models: mix-small (the whole model without the local header), mix-large (the whole model without the global header), single-small (the homogeneous small model), single-large (the client heterogeneous model)
数学与逻辑机制
主方程
驱动联邦模型异构嵌套表示学习(FedMRL)方法的核心方程是其目标函数,该函数旨在最小化所有参与客户端的总损失。这个主方程,在第3节中找到,表示为:
$$ \min_{\theta, \omega_0, \dots, \omega_{N-1}, \phi_0, \dots, \phi_{N-1}} \sum_{k=0}^{N-1} l(W_k(D_k; (\theta \circ \omega_k | \phi_k))) $$
逐项剖析
让我们逐一剖析这个方程,以理解其全部含义和在FedMRL框架中的作用。
-
$\min_{\theta, \omega_0, \dots, \omega_{N-1}, \phi_0, \dots, \phi_{N-1}}$:这是最小化算子。
- 数学定义:它表示目标是找到参数$\theta$、$\omega_k$(对所有$k$)和$\phi_k$(对所有$k$)的特定值,这些值能使目标函数(损失的总和)的值最小。
- 物理/逻辑作用:这是学习过程的核心。它表明系统正在尝试找到“最佳”的模型和投影器集合,以最小化整个联邦网络的预测误差。
- 为何使用:最小化是机器学习中的基本概念,因为模型通常通过减少定义的误差度量来训练。
-
$\sum_{k=0}^{N-1}$:这表示对所有$N$个客户端的求和。
- 数学定义:它将每个客户端的损失贡献相加,从客户端0到客户端$N-1$。
- 物理/逻辑作用:在联邦学习设置中,整体性能是集体衡量标准。此求和确保全局优化目标考虑了每个客户端的性能和贡献,促进了协作学习。
- 为何使用:将局部学习目标聚合到单个全局目标中,反映了联邦学习的分布式性质,其中没有一个客户端的损失是孤立优化的。
-
$l(\cdot)$:这代表损失函数。
- 数学定义:一个数学函数,用于量化模型预测输出与实际真实标签之间的差异或误差。本文提到交叉熵损失[63]是一个典型的例子。
- 物理/逻辑作用:它充当反馈机制,告知模型其预测的“错误”程度。损失越高,性能越差,促使模型在训练过程中调整其参数。
- 为何使用:交叉熵损失是分类任务的标准且有效的选择,这是本文FedMRL主要的应用背景。
-
$W_k(\cdot)$:这是客户端$k$的组合模型。
- 数学定义:它是一个复合函数,代表客户端$k$的整个处理流程。如本文所述,$W_k(\omega_k) = (G(\theta) \circ F_k(\omega_k) | P_k(\phi_k))$,暗示了组件的融合。
- 物理/逻辑作用:这是客户端$k$的实际“引擎”,它接收原始数据,通过共享的全局和本地个性化组件进行处理,并最终生成预测。其输出是损失函数评估的内容。
- 为何使用:它封装了FedMRL的独特架构,其中每个客户端的预测是全局、本地和个性化融合机制交互的结果。
-
$D_k$:这指的是客户端$k$的本地non-IID数据。
- 数学定义:一个包含输入-标签对$(x_i, y_i)$的数据集,这些数据仅对客户端$k$可用。这些数据通常是非独立同分布(non-IID)的,意味着其统计特性可能与其他客户端的数据存在显著差异。
- 物理/逻辑作用:这是客户端$k$用于训练其模型的数据。它反映了联邦学习中数据异构性的现实挑战。
- 为何使用:联邦学习的核心原则是在不共享原始数据的情况下,在去中心化数据上训练模型。因此,每个客户端的目标都在其本地数据上进行评估。
-
$(\theta \circ \omega_k | \phi_k)$:这代表定义客户端$k$组合模型$W_k$行为的集体参数。
- 数学定义:它是全局模型参数$\theta$、客户端$k$的本地模型参数$\omega_k$和客户端$k$的个性化表示投影器参数$\phi_k$的集合概念。符号$\circ$通常表示函数组合(例如,特征提取器),而符号$|$在此表示投影器参数包含在整体模型定义中。
- 物理/逻辑作用:这些是优化过程调整的旋钮和拨盘。$\theta$控制共享知识,$\omega_k$处理客户端特定个性化,$\phi_k$微调这两种知识如何为客户端$k$混合。
- 为何使用:明确表示所有对客户端$k$的预测做出贡献并受最小化过程约束的可训练参数。
分步流程
想象一个数据点,例如一张图像$x_i$及其真实标签$y_i$,进入客户端$k$的系统。以下是它如何通过FedMRL机制移动:
-
双重特征提取:首先,输入图像$x_i$同时被馈送到两个不同的特征提取器。
- 它进入全局同构模型特征提取器,$G^{ex}$,这是共享全局模型的一个组件。它提取一个通用表示 $R_k^g$。可以将其视为捕捉普遍适用的通用特征。
- 同时,$x_i$进入客户端$k$的本地异构模型特征提取器,$F_k^{ex}$。它提取一个个性化表示 $R_k^f$,该表示根据客户端$k$的特定数据特征和模型结构进行定制。这就像获得一个专业视角。
-
表示拼接:接下来,这两个不同的表示,$R_k^g$和$R_k^f$,被“拼接”在一起。这通常是一个连接操作,形成一个更长的组合表示$R_i$。这一步至关重要,因为它在进一步处理之前保留了来自通用和个性化视图的各个语义信息。
-
自适应表示融合:拼接后的表示$R_i$随后通过客户端$k$的个性化轻量级表示投影器,$P_k$。该投影器将拼接后的表示映射到一个融合表示 $\tilde{R}_i$。该投影器是自适应的,意味着它学习如何专门为客户端$k$的本地数据分布最好地组合通用和个性化特征,就像一个智能混合器。
-
嵌套表示构建:从这个单一的融合表示$\tilde{R}_i$,派生出两个“嵌套”(Matryoshka)表示。
- 提取一个低维粗粒度表示 $R_i^{lc}$。这就像对融合特征进行广泛的、概括性的观察。
- 还提取一个高维细粒度表示 $R_i^{hf}$。这捕捉了融合特征更详细的方面,可能包含了粗粒度视图。
-
双重预测头部:这两个嵌套表示随后被发送到它们各自的预测头部:
- $R_i^{lc}$进入全局同构模型预测头部,$G^{hd}$,它做出一个粗粒度预测 $\hat{y}_i^{lc}$。
- $R_i^{hf}$进入客户端$k$的本地异构模型预测头部,$F_k^{hd}$,它做出一个细粒度预测 $\hat{y}_i^{F_k}$。
-
损失计算与求和:最后,系统计算两个预测相对于真实标签$y_i$的个体损失。它们是$l_i^{lc}$和$l_i^{F_k}$。然后将这两个损失加权(默认情况下,权重相等)并相加,得到输入数据点的单个总损失$l_i$。这个总损失是指导学习过程的最终信号。
优化动态
FedMRL机制通过一个结合了本地客户端训练和服务器端聚合的迭代过程进行学习和收敛。这是一个个性化与泛化之间的舞蹈。
-
本地学习与梯度下降:在每个通信回合中,会选择一部分客户端。每个选定的客户端$k$从服务器接收当前全局同构模型参数($\theta$)。然后,进行多个本地训练周期,客户端$k$处理其私有的本地数据$D_k$。对于每个数据点$(x_i, y_i)$,执行上述“分步流程”来计算总损失$l_i$。然后,使用此损失计算所有涉及客户端$k$组合模型参数的梯度:全局模型参数($\theta$)、其本地异构模型参数($\omega_k$)和其个性化表示投影器参数($\phi_k$)。使用梯度下降更新这些参数:
$$ \theta^t \leftarrow \theta^{t-1} - \eta_\theta \nabla l_i \\ \omega_k^t \leftarrow \omega_k^{t-1} - \eta_\omega \nabla l_i \\ \phi_k^t \leftarrow \phi_k^{t-1} - \eta_\phi \nabla l_i $$
学习率$\eta_\theta, \eta_\omega, \eta_\phi$控制这些更新的步长。本文提到默认将它们设置为相等以确保稳定的收敛,这是一个巧妙的技巧。这种本地训练允许每个客户端调整共享的全局知识,并将其本地模型和投影器个性化以适应其独特的数据。 -
选择性参数上传:完成本地训练周期后,客户端$k$ 仅将其更新后的全局同构小型模型参数($\theta^t$)上传回中央服务器。关键在于,客户端的本地异构模型参数($\omega_k$)和个性化投影器参数($\phi_k$)保留在客户端,确保数据隐私并减少通信开销。这种选择性共享是一个关键的设计选择。
-
服务器端聚合:中央服务器收集所有参与客户端更新后的全局同构模型参数。然后,它聚合这些参数,通常通过平均化(类似于联邦平均)来生成一个新的、改进的全局同构模型$\theta^{t+1}$。此聚合步骤综合了所有客户端学到的共享知识。
-
全局模型广播:新聚合的全局模型$\theta^{t+1}$随后被广播回所有客户端,以进行下一个通信回合。这完成了一个完整的联邦学习周期。
-
收敛行为:这个迭代过程一直持续到模型收敛。本文提供了理论分析,证明了$O(1/T)$的非凸收敛率,其中$T$是通信回合数。这意味着随着训练回合数的增加,整体损失预计会减少,模型性能也会提高。损失景观由通用表示和个性化表示的复杂相互作用塑造。多粒度嵌套表示有助于模型从不同角度探索该景观,通过允许粗粒度和细粒度调整来促进更好的学习和收敛。自适应表示融合通过根据每个客户端的特定数据调整知识混合,进一步完善了这一点,使优化对数据异构性更加鲁棒。
Figure 2. The workflow of FedMRL
结果、局限性与结论
实验设计与基线
为了严格验证FedMRL的数学声明和实际功效,作者们设计了一个全面的实验设置。他们使用Pytorch实现了FedMRL,并将其与七种最先进的模型异构联邦学习(MHeteroFL)方法进行了基准测试。所有实验都在强大的硬件上进行,使用了四块NVIDIA GeForce 3090 GPU,每块GPU拥有24GB内存。
FedMRL所对抗的“受害者”(基线模型)分为四类MHeteroFL方法:
1. 独立训练:每个客户端独立训练其模型,代表协作学习收益的下限。
2. 无公共数据的知识蒸馏:此类包括FD [21]和FedProto [43],它们通过共享中间信息或原型来传递知识,而不依赖公共数据集。
3. 模型分割:以LG-FedAvg [27]为代表,这些方法将模型分割为特征提取器和预测器,共享某些组件同时个性化其他组件。
4. 互学习:该组包括FML [41]、FedKD [45]和FedAPEN [37],它们通常在每个客户端的异构本地模型之上添加一个共享的全局同构小型模型,并使用互损失进行参数更新。FedMRL直接建立在这一类别之上并旨在改进它。
使用了两个广泛用于FL图像分类的基准数据集:CIFAR-10(10类)和CIFAR-100(100类),两者都包含60,000张32x32彩色图像。为了模拟现实世界的数据异构性,构建了两种类型的non-IID(非独立同分布)数据分区:
- Non-IID(类别):客户端被分配有限数量的类别(例如,CIFAR-10为2个,CIFAR-100为10个),类别越少表示non-IID性越高。
- Non-IID(Dirichlet):使用Dirichlet($\alpha$)分布来控制数据分布的偏斜,其中$\alpha$值越小表示non-IID性越明显。
评估涵盖了模型同构(所有客户端使用CNN-1)和模型异构(客户端使用CNN-1到CNN-5模型的混合)的FL场景。FedMRL的核心机制,涉及辅助同构小型模型和个性化表示投影器,通过改变其超参数$d_1$(同构小型模型的表示维度)从100到500进行测试,以找到最佳性能。作者们一丝不苟地为所有算法(包括批大小、本地周期数、通信回合数和学习率)搜索了最佳FL超参数,以确保公平比较。
主要评估指标是:
- 模型准确性:所有客户端模型上的平均测试准确性。
- 通信成本:通过在达到目标准确率时服务器与客户端之间交换的总参数数量来衡量,考虑了每回合参数和回合数。
- 计算开销:通过客户端在达到目标准确率时执行的总FLOPs(浮点运算次数)来衡量,考虑了每回合FLOPs和回合数。
证据证明了什么
实验证据提供了明确且无可辩驳的证明,表明FedMRL的核心创新——自适应个性化表示融合和多粒度表示学习——显著提高了异构联邦学习环境中的性能。
卓越的准确性:
- 整体性能优越:在所有测试的FL场景(不同客户端数量N和参与率C)以及模型同构(附录C.2,表3)和模型异构(表1)场景中,FedMRL始终比所有基线实现了更高的平均测试准确性。
- 量化收益:FedMRL比整体最佳基线在平均测试准确性上实现了高达8.48%的显著提升。更引人注目的是,它比其自身类别(基于互学习的MHeteroFL方法)中的最佳基线提高了高达24.94%。这一可观的差距清楚地表明,FedMRL的知识传递方法比先前仅依赖训练损失的互学习策略要有效得多。
- 更快的收敛速度:图3(左六个图)直观地证实,FedMRL不仅达到了更高的准确性,而且收敛速度比最佳基线(FedProto)更快,表明学习效率更高。
增强的个性化:
- 个体客户端收益:图3(右两个图)提供了FedMRL强大个性化能力的令人信服的证据。与FedProto相比,FedMRL使CIFAR-10上87%的客户端和CIFAR-100上高达99%的客户端实现了更好的个体测试准确性。这直接验证了个性化表示投影器和多粒度学习在适应多样化本地数据分布和模型结构方面的有效性。
提高效率:
- 减少通信回合数:图4(左图)显示,FedMRL需要更少的通信回合来达到目标准确率水平(CIFAR-10为90%,CIFAR-100为50%),这意味着整体训练速度更快。
- 较低的总计算量:尽管训练额外的同构小型模型和轻量级投影器会产生每回合的开销,但图4(右图)表明FedMRL的总计算成本低于FedProto。这是其收敛速度更快的直接结果,该速度超过了每回合计算量略有增加的负担。
- 通信成本权衡:虽然FedMRL的每回合通信成本高于FedProto(由于传输完整的同构小型模型),但本文认为,通过可选的较小表示维度($d_1$),它仍然比使用较大表示维度的其他基于互学习的MHeteroFL基线实现了更高的通信效率。这表明存在一个可以优化的战略权衡。
对异构性的鲁棒性:
- 对Non-IID数据的鲁棒性:案例研究(图5)明确证明了FedMRL对各种程度的non-IID性(基于类别和基于Dirichlet)的鲁棒性。在所有non-IID设置下,FedMRL始终保持比FedProto更高的平均测试准确性,证明了其有效处理多样化数据分布的能力。
消融研究验证:
- 嵌套表示学习的影响:消融研究(图6,右两个图)为嵌套表示学习(MRL)组件的效用提供了关键证据。带有MRL的FedMRL始终优于不带MRL的FedMRL,证实了多粒度表示学习设计是MHeteroFL整体性能提升的重要贡献者。准确性差距随着$d_1$的增加而减小的观察也提供了对机制的见解,表明MRL的优势在表示重叠较少时最为明显。
总之,证据表明FedMRL的双重创新——自适应表示融合和多粒度表示学习——协同作用,为模型异构联邦学习提供了一个强大、高效且鲁棒的解决方案,在多个关键指标上决定性地击败了最先进的基线。
局限性与未来方向
尽管FedMRL在模型异构联邦学习方面取得了重大进展,但作者们坦诚地承认了某些局限性,并提出了未来研究的明确途径。
当前局限性:
1. 全局头部资源消耗增加:当前设计涉及通过全局小型模型头部和本地客户端模型头部处理多粒度嵌入式表示。尽管全局头部是一个相对简单的线性层,但这种双重处理不可避免地增加了全局头部的存储成本、通信成本和训练开销。这是一个实际问题,尤其是在资源受限的FL环境中,每一字节和FLOP都很重要。
2. 缺乏统计显著性报告:本文提到每个实验设置仅进行了三次试验并报告了平均结果。这种方法虽然常见,但没有包含误差条、置信区间或统计显著性检验。因此,很难确定报告的改进的统计鲁棒性,以及观察到的差异是否仅仅是由于运行之间的随机变化。这是一个细微但对完整科学严谨性很重要的遗漏。
未来方向与讨论话题:
确定的局限性自然地引出了几个有前景的进一步发展和这些发现的演变方向,激发了批判性思维:
-
优化全局头部使用(MRL-E集成):作者们明确建议在未来的工作中采用更有效的嵌套表示学习方法(MRL-E)[24]。这包括完全移除全局头部,仅依赖本地模型头部来处理多粒度嵌套表示。这将直接解决当前全局头部资源消耗增加的局限性,可能带来模型性能与存储、通信和计算成本之间更好的权衡。这里一个关键的讨论点是如何确保如果同构模型的头部完全移除,仍然有足够的知识传递和泛化能力。这是否需要更复杂的融合机制或对同构模型特征提取器采用不同的聚合策略?
-
动态表示维度自适应:对$d_1$(同构小型模型的表示维度)的敏感性分析表明,较小的$d_1$值通常能带来更高的准确性和更低的开销。这表明$d_1$是平衡性能和效率的关键超参数。未来的工作可以探索动态、自适应的机制来确定训练过程中的$d_1$(以及可能的$d_2$),可能基于客户端特定的资源限制或数据特征。是否可以使用在线学习方法或元学习框架来优化这些维度而无需手动调整?
-
超越监督学习:当前的FedMRL方法是为监督学习任务量身定制的。将其扩展到联邦异构环境下的其他学习范式,如半监督、无监督或强化学习,将是一个重要的步骤。在标签稀缺或目标函数不是简单交叉熵损失的情况下,自适应表示融合和多粒度学习的概念将如何转化?
-
对抗性攻击和数据投毒的鲁棒性:虽然FedMRL解决了数据和模型异构性问题,但其对对抗性攻击或数据投毒(FL中的常见担忧)的鲁棒性并未得到明确评估。未来的研究可以调查多粒度表示和个性化投影器是否可能固有地提供某种韧性,或者它们如何通过特定的防御机制进行增强。
-
扩展到极大规模FL:实验最多进行了100个客户端。虽然这是一个好的开始,但现实世界的FL部署可能涉及数百万台设备。研究FedMRL扩展到数量级更多的客户端的能力,特别是关于通信开销和聚合策略,将是至关重要的。当前的聚合方案是否存在在大规模部署时会变得无法承受的瓶颈?
-
正式统计显著性:为了提高科学严谨性,未来的工作应包含正式的统计显著性检验,包括所有实验结果的误差条和置信区间。这将提供对观察到的性能提升的可靠性和可推广性的更清晰的理解。
-
探索替代投影器架构:本文提到个性化表示投影器可以是一个单层线性模型或一个多层感知机。当前的实验可能使用了简单的线性模型。探索更复杂或自适应的投影器架构,也许是那些能够根据本地数据动态调整其复杂性的架构,可能会进一步增强个性化和知识融合。
通过解决这些局限性并探索这些前瞻性的方向,FedMRL的基础工作可以得到进一步完善和扩展,为更鲁棒、更高效的异构联邦学习系统铺平道路。
Table 1. and Table 3 (Appendix C.2) show that FedMRL consistently outperforms all baselines under both model-heterogeneous or homogeneous settings. It achieves up to a 8.48% improvement in average test accuracy compared with the best baseline under each setting. Furthermore, it achieves up to a 24.94% average test accuracy improvement than the best same-category (i.e., mutual learning- based MHeteroFL) baseline under each setting. These results demonstrate the superiority of FedMRL
Table 3. presents the results of FedMRL and baselines in model-homogeneous FL scenarios
Table 2. shows the structures of models used in experiments
与其他领域的同构性
结构骨架
本文提出了一种通过融合来自不同模型的表示到一个共享的、多粒度的结构中,适应本地数据分布,并实现高效知识传递的机制,从而实现从多样化、分布式模型中协同学习。
远亲
-
目标领域:系统生物学/多组学整合
- 联系:在系统生物学中,研究人员经常面临整合来自不同来源(例如,不同研究实验室或患者队列,即“分布式客户端”)的异构数据类型(例如,基因组学、蛋白质组学、代谢组学——通常称为“多组学”)的挑战。这些数据集本身就具有不同的结构、尺度和潜在的生物学背景(异构本地模型)。长期存在的问题是将这些不同的信息流综合成一个统一的、全面的表示,以揭示复杂的生物学机制或预测疾病结果。本文的核心逻辑,即融合异构表示到一个多粒度的结构中,与整合多组学数据以揭示嵌套的、分层的生物学见解(例如,基因变异如何影响蛋白质表达,进而影响代谢途径)的需求相呼应。“个性化表示投影器”可以被视为一个类似的组件,它通过考虑患者特异性或组织特异性的生物学变异和数据偏差来适应整合过程,就像FedMRL适应本地non-IID数据一样。
-
目标领域:城市规划/智慧城市数据融合
- 联系:现代城市规划和智慧城市倡议依赖于整合来自城市众多传感器和系统的海量异构数据。这包括交通流量数据、公共交通使用情况、环境传感器读数(空气质量、噪音水平)、社交媒体活动、公用事业消耗和人口统计信息。这些数据源通常由不同的市政部门或私营实体(分布式客户端)管理,每个实体都有自己的数据格式、收集频率和固有的粒度(异构模型/数据)。此外,关于公民数据的隐私问题至关重要。挑战在于将这些分散的、多模态的数据流融合到一个连贯的、多粒度的表示中,以指导城市政策、预测资源需求、优化城市服务或管理紧急情况。本文通过在不损害个体自主性或隐私的情况下,从不同的本地模型创建共享的多粒度表示的方法,直接呼应了整合城市数据以进行整体城市管理和理解的需求,而无需集中敏感或专有信息。
如果情景
想象一位系统生物学家,正在努力整合来自一个由多家医院组成的联盟的多组学数据,每家医院都有独特的患者群体和数据收集方法。如果这位研究人员明天“窃取”FedMRL的精确方程,他们就可以实现一个联邦多组学学习框架。每家医院将在其特定的组学数据上训练其本地模型,一个中心服务器将协调这些不同表示的融合,形成一个共享的多粒度嵌套表示。这将允许在整个联盟中发现针对复杂疾病(例如,癌症亚型、耐药机制)的鲁棒、分层生物标志物,而无需任何医院共享原始的、隐私敏感的患者数据。个性化表示投影器将把融合的组学特征适应于每家医院独特的患者人口统计学或技术偏差,从而产生高度准确且可泛化的预测模型。这将通过实现大规模、隐私保护的多组学研究来加速个性化医疗,识别目前被数据异构性和隐私障碍所掩盖的细微、嵌套的生物学模式。
结构通用库
本文通过展示一种用于去中心化、多模态信息综合的鲁棒模式,丰富了“结构通用库”,其中多样化的本地视角被协调成一个共享的、分层的理解,而不会损害个体自主性或隐私。