ICLR

SOO-Bench：离线黑盒优化稳定性评估基准

The problem of Offline Black-Box Optimization (BBO) emerged from the practical necessity of optimizing complex systems where direct, real-time evaluation of the objective function is either too dangerous,...

研究领域 Machine Learning

Article Type Research analysis

Authors Qian et al.

Original Paper Published 2025

ISOM Posted 2026-03-12 15:40 UTC

Read Time 11M

Open PDF

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

背景与学术脉络

起源与学术脉络

离线黑盒优化 (Offline Black-Box Optimization, BBO) 问题的提出，源于对复杂系统进行优化的现实需求。在这些系统中，对目标函数进行直接、实时的评估往往伴随着高风险、高昂成本，甚至在物理上不可行。历史上，BBO 方法主要依赖于“主动采样”（active sampling）——即通过迭代查询系统来学习其行为。然而，在药物发现（如分子结构设计）或硬件工程（如机械结构参数优化）等领域，研究人员无法在运行过程中随意对新设计进行“测试”。因此，研究者被迫依赖于预先存在的、静态的“离线”历史实验数据集。

本文的核心痛点在于这些离线数据集的窄分布（narrow distribution）特性。由于历史数据往往基于实验者的主观偏差或特定的有限策略采集，它们无法覆盖整个解空间。当现有算法在如此狭窄的数据上训练时，往往会遭遇“分布外”（Out-of-Distribution, OOD）问题：模型在缺乏数据的区域表现出过度自信，导致优化过程中的性能退化。此外，现有的基准测试（如 Design-Bench）主要侧重于提供任务和数据集，却缺乏评估算法稳定性（stability）的能力——即算法在不被窄分布数据误导的前提下，持续改进离线数据集表现的能力。

直观领域术语

黑盒优化 (Black-Box Optimization, BBO)： 想象你在尝试寻找完美的蛋糕配方，但你不能品尝面糊，也看不到配料表。你只能通过烘焙蛋糕并获得评分来反馈。BBO 是一种数学过程，旨在仅根据这些评分来寻找最佳“配方”（输入），而无需了解蛋糕背后的“化学原理”（函数）。
代理模型 (Surrogate Model)： 由于评估真实的“黑盒”成本高昂，我们构建一个“数字孪生”或简化的数学近似模型。我们在历史数据上训练该模型，从而可以在模型上“测试”数百万种潜在方案，而非在昂贵的真实系统上进行测试。
窄分布 (Narrow Distribution)： 可以将其类比为一名只学习过教科书第一章的学生。如果你给他们出一份涵盖整本书的试卷，他们很可能会失败，因为他们对其他章节的内容缺乏经验。在优化中，如果历史数据仅覆盖一小块特定区域，当模型进入“未见”领域时，将无法做出正确行为。
分布外 (Out-of-Distribution, OOD)： 指上述的“未见领域”。这是解空间中未在历史数据中呈现的区域。由于缺乏数据来支撑预测，算法在这些区域往往会产生“幻觉”或做出极其错误的猜测。

符号表

符号	描述
$f: \mathcal{X} \to \mathbb{R}$	未知的黑盒目标函数
$\mathcal{X} \subseteq \mathbb{R}^d$	$d$ 维解空间
$\mathcal{D} = \{x_i, y_i\}_{i=1}^N$	包含 $N$ 个解及其对应值的静态离线数据集
$\hat{f}_\theta(x)$	在 $\mathcal{D}$ 上训练的参数为 $\theta$ 的代理模型
$x^{(t)}$	优化步骤 $t$ 时的解
$\eta$	优化过程的学习率（步长）
$T$	优化总步数
$x_{\text{app}} = x^{(T)}$	在线应用阶段的最终输出解
$SO$	稳定性-最优性指标 (Stability-Optimality indicator)
$OI(t)$	$t$ 步时的最优性指标 (Optimality Indicator)
$SI(t)$	$t$ 步时的稳定性指标 (Stability Indicator)

数学诠释

作者旨在解决在不进行直接交互的情况下，通过最大化 $f(x)$ 来寻找最优解 $x^*$ 的问题。核心挑战在于代理模型 $\hat{f}_{\theta^*}(x)$ 仅在 $\mathcal{D}$ 中的数据附近可靠。优化过程通常遵循梯度上升：
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}$$
其“痛点”在于，随着 $t$ 的增加，$x^{(t)}$ 可能会漂移至 $\hat{f}_{\theta^*}(x)$ 不准确的 OOD 区域，导致性能崩溃。

为解决此问题，作者提出了稳定性-最优性 (SO) 指标，用于量化算法在寻找全局最优（最优性）与保持在可靠区域（稳定性）之间的平衡。SO 定义为：
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
其中 $OI(t) = \frac{S}{S_1}$，$SI(t) = \frac{S}{S_2}$。$S$ 为算法性能的累积和，$S_1$ 代表基于离线数据集最优解的“理想”性能，$S_2$ 代表相对于算法迄今为止所发现最优解的性能。通过最大化 $SO$，算法不仅被迫寻找高质量解，还必须维持该性能，从而防止困扰以往模型的性能退化。作者还引入了加权版本 $SO_\omega$，允许用户根据具体需求优先考虑稳定性或最优性。

问题定义与约束

核心问题表述与困境

在标准黑盒优化（BBO）中，算法通过主动采样并评估目标函数值来寻找最优解。然而，在药物发现或机械设计等关键领域，评估新解往往危险、昂贵或物理上不可行。这催生了离线黑盒优化，算法必须仅依赖静态的预存数据集 $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$ 来学习代理模型 $\hat{f}_\theta(x)$，进而确定最优解 $x_{app}$。

困境：
根本挑战在于离线数据集的窄分布。由于数据采集常受人类经验或特定实验约束的偏差影响，数据集极少覆盖整个解空间。因此，代理模型 $\hat{f}_\theta(x)$ 在“分布外”（OOD）区域极不准确。若算法试图在远离已知数据处寻找最优解，代理模型往往会高估目标值，导致优化过程中的严重性能退化。

约束：
研究人员面临“稳定性与最优性”的权衡。激进追求全局最优的算法容易陷入 OOD 陷阱，而过于保守的算法则可能无法超越数据集中的现有最优解。作者指出了几个严峻的现实壁垒：
1. 缺乏 Ground Truth： 在许多现实任务中，真实的全局最优解未知，难以衡量算法表现。
2. 数据稀疏性： 历史数据的有限规模和分布不均，使得训练可靠的代理模型变得困难。
3. 稳定性评估： 尚无标准化的定量指标来评估算法能否在探索未知区域时，在不发生性能崩溃的前提下持续超越离线数据集。

解决方案的数学诠释

作者通过引入 SOO-Bench 和创新的 稳定性-最优性 (SO) 指标，弥合了当前状态（有限离线数据）与目标状态（稳定、高质量的在线解）之间的鸿沟。

该问题被表述为通过迭代梯度上升最大化代理模型 $\hat{f}_\theta(x)$ 来寻找 $x_{app}$：
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}, \quad t = 1, 2, \dots, T$$
其中 $x_{app} = x^{(T)}$。

为量化稳定性，作者定义了 稳定性-最优性 (SO) 指标，平衡了两个分量：
1. 最优性指标 (OI)： 衡量算法评估曲线下的面积与离线最优解曲线下面积的比率。
$$OI(t) = \frac{S}{S_1}, \quad S = \sum_{t=1}^T f(x_t), \quad S_1 = T \cdot f(x^*_{OFF})$$
2. 稳定性指标 (SI)： 衡量算法性能与迄今发现的最优解的贴合程度，有效惩罚波动。
$$SI(t) = \frac{S}{S_2}, \quad S_2 = T \cdot \max_t f(x_t)$$

最终的 SO 分数是两者的调和平均数，确保高分需要同时具备高性能（最优性）和一致的行为（稳定性）：
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$

通过提供可自定义的数据集（调整对顶部/底部解的剔除）及该 SO 指标，作者使研究人员能够系统地测试算法处理 OOD 区域的能力，从而强制算法证明其对“窄分布”陷阱的鲁棒性。

为什么选择此方法

离线黑盒优化（BBO）的核心挑战在于历史数据的“窄分布”。传统的 CNN 或基础 Transformer 等方法旨在从广泛、具有代表性的数据集中学习。然而，在药物发现或卫星轨道设计等现实场景中，可用数据往往通过有偏或有限的策略采集，这意味着它们无法覆盖整个解空间。

为什么选择此方法？

作者发现传统方法失效的原因在于它们被窄分布数据“误导”了。当代理模型在窄数据集上训练时，往往会高估缺乏数据区域（即 OOD 区域）的解的质量，导致优化过程中性能的灾难性退化。

比较优势： 与使用固定、人为构建的窄分布的 Design-Bench 不同，SOO-Bench 允许对这些分布进行定制化。这一结构性优势至关重要，因为它使研究人员能够针对不同程度的“窄度”对算法进行压力测试，有效模拟现实数据采集的不可预测性。
需求的“结合”： 本文引入了 稳定性-最优性 (SO) 指标。这是超越离线数据集的严苛要求与不被 OOD 区域误导的约束之间的“结合”。通过数学上结合最优性指标 (OI) 和稳定性指标 (SI)，该模型强制算法证明其不仅能找到好解，还能在整个优化步骤中维持该性能。
为何其他方法失效： 作者摒弃了简单、非保守的方法，因为它们缺乏惩罚模型探索高风险 OOD 区域的机制。文中强调了 ARCOO 等方法，因为它们明确引入了“风险抑制因子”来控制梯度上升过程中的步长，防止模型进入危险、未经证实的区域。

数学诠释

该问题定义为寻找最大化黑盒函数 $f(x)$ 的最优解 $x^*$，其中 $f$ 由在静态数据集 $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$ 上训练的代理模型 $\hat{f}_\theta(x)$ 近似。优化过程通常遵循：
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}$$
作者意识到，若 $T$（步数）过大，算法会漂移至 OOD 区域。为解决此问题，他们提出了 SO 指标：
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
其中 $OI(t) = \frac{S}{S_1}$，$SI(t) = \frac{S}{S_2}$。$S$ 为评估曲线的累积和，$S_1$ 代表离线最优值与总步数的乘积，$S_2$ 代表算法自身发现的最优值与总步数的乘积。该模型有效地惩罚了表现出高方差或“不稳定”性能的算法，确保即使在代理模型不完美的情况下，算法的轨迹依然稳健。

该方法在根本上具有优越性，因为它将领域重点从“寻找最佳点”转向了“在保持安全的同时寻找最佳点”。这是从纯粹性能向可靠性能的转变，对于那些错误猜测可能导致严重后果的高风险工程任务而言，这是唯一可行的路径。

数学与逻辑机制

主方程

本文的核心机制是 稳定性-最优性 (SO) 指标，它评估离线优化算法在整个优化过程中相对于离线数据集最优解的表现，并同时维持稳定性。主方程为：

$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$

各分量定义如下：

$$OI(t) = \frac{S}{S_1}, \quad SI(t) = \frac{S}{S_2}$$

方程拆解

$S = \sum_{t=1}^{T} f(x_t)$：这是跨越所有优化步骤 $T$ 的目标函数值的累积和。它代表了算法的总“性能足迹”。
$S_1 = T \cdot f(x^*_{\text{OFF}})$：这是基准参考。它代表了如果算法在每一单步 $T$ 中都持续达到离线数据集中发现的最优值 ($f(x^*_{\text{OFF}})$) 时的性能。
$S_2 = T \cdot \max_t f(x_t)$：这是峰值性能参考。它代表了如果算法在每一单步中都持续达到其自身发现的最优值 ($\max_t f(x_t)$) 时的性能。
$OI(t)$ (最优性指标)：该比率衡量算法相对于离线数据集最优值的表现。若 $OI > 1$，说明算法成功超越了离线数据。
$SI(t)$ (稳定性指标)：该比率衡量算法性能与自身峰值的贴合程度。接近 1 的值表示高稳定性（最小波动），而低值则暗示算法“抖动”或容易出现性能退化。
调和平均数 ($2 \cdot \frac{OI \cdot SI}{SI + OI}$)：作者使用调和平均数而非简单的算术平均，以确保 SO 指标对两个分量均敏感。若 $OI$ 或 $SI$ 中任何一个极低，调和平均数会将总分显著拉低，从而有效惩罚那些不稳定或未能超越离线数据集的算法。

逐步流程

系统中抽象数据点的生命周期遵循以下流水线：

初始化：算法从离线数据集 $\mathcal{D}$ 开始，训练代理模型 $\hat{f}_\theta(x)$ 以近似黑盒函数。
优化：算法执行 $T$ 步梯度上升以寻找新解 $x_{\text{app}}$。
评估：在每一步 $t$，算法产生一个解 $x_t$，系统计算目标值 $f(x_t)$。
聚合：这些值被累加到 $S$ 中。同时，系统追踪离线最优值 ($f(x^*_{\text{OFF}})$) 和算法自身的最优值 ($\max_t f(x_t)$)。
指标计算：系统计算 $OI(t)$ 和 $SI(t)$，以量化算法优于离线数据的程度及其轨迹的稳定性。
最终评分：SO 指标将上述结果合并为单一指标，为算法的稳定性和最优性提供定量的“评分”。

优化动力学

该机制通过在离线数据集 $\mathcal{D}$ 上进行监督学习，迭代更新代理模型 $\hat{f}_\theta(x)$ 来进行学习。损失函数为：

$$\theta^* \leftarrow \arg \min_\theta \sum_{i=1}^N (\hat{f}_\theta(x_i) - y_i)^2$$

随后，优化过程利用梯度上升在代理模型的景观中导航：

$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^t}$$

此处的“学习”本质上是代理模型从离线数据的窄分布向更广阔解空间泛化的能力。稳定性由风险抑制因子（如 ARCOO 算法中）维持，它们充当梯度上升的“调速器”，防止模型在缺乏数据的 OOD 区域高估数值。这防止了模型因过度自信而被“误导”，这是离线 BBO 中的常见失效模式。

结果、局限性与结论

SOO-Bench 分析：离线黑盒优化稳定性评估基准

背景知识

黑盒优化 (BBO) 是一种在不了解目标函数 $f(x)$ 显式数学形式的情况下，寻找最大化该函数的最优输入 $x^*$ 的方法。在传统 BBO 中，算法可以主动采样并评估点。然而，在许多现实场景（如药物发现、机械设计）中，评估 $f(x)$ 的成本过高或具有危险性。这导致了离线 BBO，算法必须仅使用静态的预采集数据集 $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$ 来学习代理模型 $\hat{f}_\theta(x)$。

此处的核心挑战是离线数据集的窄分布。由于数据采集常受人类偏见或特定实验约束的影响，它无法覆盖整个解空间。在这些数据上训练的代理模型，在预测远离训练数据的区域（分布外或 OOD 区域）时，往往会被“误导”，导致优化性能不佳。

动机与问题陈述

作者认为，现有基准（如 Design-Bench）主要关注最优性——即寻找尽可能好的解。然而，在高风险工程中，稳定性同样关键。稳定性定义为算法在不被窄分布数据误导的前提下，持续寻找超越离线数据集中已知最优解的能力。作者指出，当前基准缺乏量化这种稳定性的方法。

数学诠释

本文引入了 稳定性-最优性 (SO) 指标，用于量化算法在整个优化过程中的表现。对于总计 $T$ 个优化步骤，令 $f(x_t)$ 为步骤 $t$ 时的解评估值。该指标定义为：

$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$

其中：
* 最优性指标 (OI)： $OI(t) = \frac{S}{S_1}$，其中 $S = \sum_{t=1}^T f(x_t)$，$S_1 = T \cdot f(x^*_{OFF})$。这衡量了算法性能曲线下的面积与基准（离线数据集中的最优解）曲线下面积的比率。
* 稳定性指标 (SI)： $SI(t) = \frac{S}{S_2}$，其中 $S_2 = T \cdot \max_t f(x_t)$。这衡量了算法性能与迄今发现的最优解的贴合程度。

作者还提出了加权版本 $SO_\omega$，允许用户在优化过程的不同阶段优先考虑最优性或稳定性。

实验证明

作者构建了 SOO-Bench，通过以下方式“严苛地”测试算法：
1. 定制数据难度： 通过剔除前 $n\%$（增加寻找高质量解的难度）和后 $m\%$（增加稀疏性）的数据来创建数据集。
2. 多样化任务： 包含了来自卫星轨道优化 (GTOPX)、工业设计 (CEC) 和 DNA 序列设计 (PROTEIN) 的现实任务。
3. 基线比较： 测试了包括 ARCOO、Tri-mentoring 和 TTDDEA 在内的最先进 (SOTA) 算法，并与 BO-qEI 和 CMA-ES 等经典基线进行了对比。

“受害者”（基线模型）通常被证明对 OOD 区域高度敏感。提供的确凿证据表明，虽然某些算法（如 ARCOO）通过使用基于能量的模型来抑制风险从而保持稳定性能，但其他算法（如 DE-PF 和 DE-SPF）表现出较低的 SO 值，表明它们经常陷入不可行区域或停滞不前。

未来发展讨论

动态加权： 作者为 $SO_\omega$ 使用了线性递减的权重函数 $\omega(t)$。我们能否开发一种自适应加权机制，实时感知代理模型的不确定性并在最优性和稳定性之间切换优先级？
超越 OOD： 我们如何扩展 SOO-Bench 以处理离线数据集中的“概念漂移”，即问题的底层物理规律或约束可能随时间变化的情况？
约束处理： 文中指出当前方法在处理严格约束时存在困难。未来的工作可以探索如何将“软”约束满足纳入代理模型训练，以防止算法变得过于保守而停滞。

总而言之，本文为该领域提供了一个急需的、严谨的框架，该领域在评估指标方面此前一直处于“蛮荒”状态。

与其他领域的同构性

结构骨架

本文引入了一个标准化的评估框架，量化了黑盒优化算法在受限、非代表性历史数据集上运行时的稳定性和最优性。