ICLR

SOO-Bench: Бенчмарки для оценки стабильности автономной оптимизации «черного ящика» (Offline Black-Box Optimization)

Проблема автономной оптимизации «черного ящика» (Offline Black Box Optimization, BBO) возникла из практической необходимости оптимизации сложных систем, где прямое, оперативное оценивание целевой функции является либо...

Область исследования Machine Learning

Article Type Research analysis

Authors Qian et al.

Original Paper Published 2025

ISOM Posted 2026-03-12 15:40 UTC

Read Time 1M

Open PDF

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

Предыстория и академическая преемственность

Происхождение и академический контекст

Проблема автономной оптимизации «черного ящика» (Offline Black-Box Optimization, BBO) возникла из практической необходимости оптимизации сложных систем, где прямое, оперативное оценивание целевой функции является либо слишком опасным, либо экономически нецелесообразным, либо физически невозможным. Исторически методы BBO опирались на «активную выборку» (active sampling) — итеративные запросы к системе для изучения её поведения. Однако в таких областях, как разработка лекарственных препаратов (например, проектирование молекулярных структур) или машиностроение (например, параметры механических конструкций), мы не можем просто «протестировать» новую конструкцию «на лету». Вместо этого исследователи вынуждены полагаться на статический, заранее существующий «автономный» (offline) набор данных исторических экспериментов.

Фундаментальная «болевая точка», послужившая мотивацией для данной работы, — это узкое распределение (narrow distribution) этих автономных наборов данных. Поскольку исторические данные часто собираются на основе субъективных предпочтений экспериментатора или специфических, ограниченных стратегий, они не охватывают всё пространство решений. Предыдущие алгоритмы при обучении на таких узких данных часто сталкиваются с проблемой «вне распределения» (Out-of-Distribution, OOD): они становятся излишне самоуверенными в областях, где у них нет данных, что приводит к деградации производительности в процессе оптимизации. Более того, существующие бенчмарки, такие как Design-Bench, были разработаны преимущественно для предоставления задач и наборов данных, но им не хватало возможности оценивать стабильность алгоритма — его способность последовательно улучшать результаты относительно автономного набора данных, не поддаваясь влиянию узкого распределения данных.

Интуитивные доменные термины

Оптимизация «черного ящика» (BBO): Представьте, что вы пытаетесь найти идеальный рецепт торта, но вам не разрешают пробовать тесто или видеть список ингредиентов. Вы можете только испечь торт и получить оценку от судьи. BBO — это математический процесс поиска наилучшего «рецепта» (входных данных) исключительно на основе этих оценок, без знания лежащей в основе «химии» (функции) торта.
Суррогатная модель (Surrogate Model): Поскольку оценивание реального «черного ящика» дорого стоит, мы создаем «цифровой двойник» или упрощенную математическую аппроксимацию. Мы обучаем эту модель на исторических данных, чтобы «тестировать» миллионы потенциальных решений на модели, а не на реальной, дорогостоящей системе.
Узкое распределение (Narrow Distribution): Представьте студента, который изучал вопросы только из первой главы учебника. Если вы дадите ему тест по всей книге, он, скорее всего, провалится, так как у него нет опыта работы с материалом из других глав. В оптимизации: если наши исторические данные охватывают лишь малую, специфическую область, модель не будет знать, как вести себя, когда она попадет на «неизведанную территорию».
Вне распределения (Out-of-Distribution, OOD): Это относится к «неизведанной территории», упомянутой выше. Это область пространства решений, которая не представлена в исторических данных. Алгоритмы часто «галлюцинируют» или делают дикие, неверные предположения о качестве решения в этих областях, поскольку у них нет данных для обоснования своих прогнозов.

Таблица обозначений

Обозначение	Описание
$f: \mathcal{X} \to \mathbb{R}$	Неизвестная целевая функция «черного ящика».
$\mathcal{X} \subseteq \mathbb{R}^d$	$d$-мерное пространство решений.
$\mathcal{D} = \{x_i, y_i\}_{i=1}^N$	Статический автономный набор данных, содержащий $N$ решений и их значений.
$\hat{f}_\theta(x)$	Суррогатная модель с параметрами $\theta$, обученная на $\mathcal{D}$.
$x^{(t)}$	Решение на шаге оптимизации $t$.
$\eta$	Скорость обучения (размер шага) для процесса оптимизации.
$T$	Общее количество шагов оптимизации.
$x_{\text{app}} = x^{(T)}$	Итоговое решение для онлайн-применения.
$SO$	Индикатор стабильности-оптимальности (Stability-Optimality).
$OI(t)$	Индикатор оптимальности на шаге $t$.
$SI(t)$	Индикатор стабильности на шаге $t$.

Математическая интерпретация

Авторы решают задачу поиска оптимального решения $x^*$ путем максимизации $f(x)$ без прямого взаимодействия. Основная сложность заключается в том, что суррогатная модель $\hat{f}_{\theta^*}(x)$ надежна только вблизи данных из $\mathcal{D}$. Процесс оптимизации обычно следует градиентному подъему:
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}$$
«Болевая точка» состоит в том, что по мере увеличения $t$ значение $x^{(t)}$ может сместиться в OOD-области, где $\hat{f}_{\theta^*}(x)$ неточна, что вызывает коллапс производительности.

Для решения этой проблемы авторы предлагают индикатор стабильности-оптимальности (SO), чтобы количественно оценить, насколько хорошо алгоритм балансирует между поиском глобального оптимума (оптимальность) и нахождением в пределах надежной области (стабильность). SO определяется как:
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
где $OI(t) = \frac{S}{S_1}$ и $SI(t) = \frac{S}{S_2}$. Здесь $S$ — кумулятивная сумма производительности алгоритма, $S_1$ представляет «идеальную» производительность, основанную на лучшем решении из автономного набора данных, а $S_2$ представляет производительность относительно лучшего решения, найденного алгоритмом на данный момент. Максимизируя $SO$, алгоритм вынужден не только находить хорошие решения, но и поддерживать их, предотвращая деградацию производительности, характерную для предыдущих моделей. Авторы также вводят взвешенную версию $SO_\omega$, позволяющую пользователям приоритизировать либо стабильность, либо оптимальность в зависимости от конкретных потребностей.

Определение проблемы и ограничения

Формулировка основной проблемы и дилемма

В стандартной оптимизации «черного ящика» (BBO) алгоритм активно выбирает решения и оценивает значения их целевой функции для поиска оптимума. Однако во многих критически важных областях — таких как разработка лекарств или механическое проектирование — оценка нового решения часто опасна, чрезмерно дорога или физически невозможна. Это обуславливает необходимость автономной оптимизации «черного ящика», где алгоритм должен полагаться исключительно на статический, заранее существующий набор данных $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$ для обучения суррогатной модели $\hat{f}_\theta(x)$ и последующей идентификации оптимального решения $x_{app}$.

Дилемма:
Фундаментальной проблемой является узкое распределение автономного набора данных. Поскольку сбор данных часто смещен из-за человеческого опыта или специфических экспериментальных ограничений, набор данных редко охватывает всё пространство решений. Следовательно, суррогатная модель $\hat{f}_\theta(x)$ становится крайне неточной в областях «вне распределения» (OOD). Если алгоритм пытается найти оптимум вдали от известных данных, суррогатная модель часто переоценивает целевое значение, что приводит к серьезной деградации производительности в процессе оптимизации.

Ограничения:
Исследователи сталкиваются с компромиссом «стабильность против оптимальности». Алгоритм, который агрессивно стремится к глобальному оптимуму, может легко попасть в OOD-ловушки, в то время как слишком консервативный алгоритм может не улучшить лучшее решение, уже присутствующее в наборе данных. Авторы выделяют несколько жестких, реалистичных барьеров:
1. Отсутствие Ground Truth: Во многих реальных задачах истинный глобальный оптимум неизвестен, что затрудняет измерение эффективности алгоритма.
2. Разреженность данных: Ограниченный размер и неравномерное распределение исторических данных затрудняют обучение надежной суррогатной модели.
3. Оценка стабильности: До сих пор не существовало стандартизированной количественной метрики для оценки того, может ли алгоритм последовательно превосходить автономный набор данных, не страдая от коллапса производительности при исследовании неизвестных областей.

Математическая интерпретация решения

Авторы преодолевают разрыв между текущим состоянием (ограниченные автономные данные) и целевым состоянием (стабильные, высококачественные онлайн-решения), представляя SOO-Bench и новый индикатор стабильности-оптимальности (SO).

Задача формулируется как поиск $x_{app}$ путем максимизации суррогатной модели $\hat{f}_\theta(x)$ посредством итеративного градиентного подъема:
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}, \quad t = 1, 2, \dots, T$$
где $x_{app} = x^{(T)}$.

Для количественной оценки стабильности авторы определяют индикатор стабильности-оптимальности (SO), который балансирует два компонента:
1. Индикатор оптимальности (OI): Измеряет отношение площади под кривой оценки алгоритма к площади под кривой оптимального автономного решения.
$$OI(t) = \frac{S}{S_1}, \quad S = \sum_{t=1}^T f(x_t), \quad S_1 = T \cdot f(x^*_{OFF})$$
2. Индикатор стабильности (SI): Измеряет, насколько близко производительность алгоритма соответствует лучшему решению, которое он нашел на данный момент, эффективно штрафуя флуктуации.
$$SI(t) = \frac{S}{S_2}, \quad S_2 = T \cdot \max_t f(x_t)$$

Итоговая оценка SO является гармоническим средним этих двух показателей, гарантируя, что высокий балл требует как высокой производительности (оптимальности), так и последовательного поведения (стабильности):
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$

Предоставляя настраиваемые наборы данных (регулируя удаление топовых/нижних решений) и этот индикатор SO, авторы позволяют исследователям систематически проверять, как алгоритмы справляются с OOD-областями, эффективно принуждая их доказывать свою устойчивость против ловушки «узкого распределения».

Почему именно этот подход

Основная проблема в автономной оптимизации «черного ящика» (BBO) — это «узкое распределение» исторических данных. Традиционные методы, такие как стандартные CNN или базовые трансформеры, предназначены для обучения на широких, репрезентативных наборах данных. Однако в реальных сценариях, таких как разработка лекарств или проектирование траекторий спутников, доступные данные часто собираются с помощью смещенных или ограниченных стратегий, что означает, что они не охватывают всё пространство решений.

Почему этот подход?

Авторы установили, что традиционные методы терпят неудачу, потому что они «вводятся в заблуждение» этими узкими данными. Когда суррогатная модель обучается на узком наборе данных, она часто переоценивает качество решений в областях, где у неё нет данных (области вне распределения или OOD). Это приводит к катастрофической деградации производительности в процессе оптимизации.

Сравнительное превосходство: В отличие от предыдущих бенчмарков, таких как Design-Bench, которые использовали фиксированные, искусственно сконструированные узкие распределения, SOO-Bench допускает настройку этих распределений. Это структурное преимущество критически важно, поскольку оно позволяет исследователям проводить стресс-тестирование алгоритмов на различных уровнях «узкости», эффективно имитируя непредсказуемый характер сбора реальных данных.
«Союз» требований: В статье представлен индикатор стабильности-оптимальности (SO). Это «союз» между жестким требованием превзойти автономный набор данных и ограничением не быть введенным в заблуждение OOD-областями. Математически объединяя индикатор оптимальности (OI) и индикатор стабильности (SI), модель заставляет алгоритмы доказывать, что они могут не только найти хорошее решение, но и поддерживать эту производительность на протяжении всех шагов оптимизации.
Почему другие методы терпят неудачу: Авторы отвергают простые, неконсервативные подходы, поскольку им не хватает механизма штрафования модели за исследование высокорискованных OOD-областей. Методы, такие как ARCOO, выделяются тем, что они явно включают «фактор подавления риска» для контроля размера шага во время градиентного подъема, предотвращая блуждание модели по опасным, непроверенным территориям.

Математическая интерпретация

Задача определяется как поиск оптимального решения $x^*$, максимизирующего функцию «черного ящика» $f(x)$, где $f$ аппроксимируется суррогатной моделью $\hat{f}_\theta(x)$, обученной на статическом наборе данных $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$. Процесс оптимизации обычно следует:
$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^{(t)}}$$
Авторы осознали, что если $T$ (количество шагов) слишком велико, алгоритм смещается в OOD-области. Чтобы решить эту проблему, они предложили индикатор SO:
$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$
где $OI(t) = \frac{S}{S_1}$ и $SI(t) = \frac{S}{S_2}$. Здесь $S$ — кумулятивная сумма кривой оценки, $S_1$ представляет произведение оптимального автономного значения на общее количество шагов, а $S_2$ — произведение лучшего найденного алгоритмом значения на общее количество шагов. Эта модель эффективно штрафует алгоритмы, демонстрирующие высокую дисперсию или «нестабильную» производительность, гарантируя, что траектория алгоритма остается надежной, даже когда суррогатная модель несовершенна.

Этот подход фундаментально превосходит другие, поскольку он переводит область исследований от «поиска лучшей точки» к «поиску лучшей точки при сохранении безопасности». Это переход от чистой производительности к надежной производительности, что является единственным жизнеспособным путем для инженерных задач с высокими ставками, где неверное предположение может быть опасным.

Математический и логический механизм

Основное уравнение

Ключевым механизмом статьи является индикатор стабильности-оптимальности (SO), который оценивает, насколько хорошо алгоритм автономной оптимизации работает относительно лучшего решения из автономного набора данных, сохраняя при этом стабильность на протяжении всего процесса оптимизации. Основное уравнение:

$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$

Где компоненты определены как:

$$OI(t) = \frac{S}{S_1}, \quad SI(t) = \frac{S}{S_2}$$

Разбор уравнения

$S = \sum_{t=1}^{T} f(x_t)$: Это кумулятивная сумма значений целевой функции на всех шагах оптимизации $T$. Она представляет собой общий «след производительности» алгоритма.
$S_1 = T \cdot f(x^*_{\text{OFF}})$: Это базовый эталон. Он представляет производительность, если бы алгоритм последовательно достигал лучшего значения, найденного в автономном наборе данных ($f(x^*_{\text{OFF}})$), на каждом шаге $T$.
$S_2 = T \cdot \max_t f(x_t)$: Это эталон пиковой производительности. Он представляет производительность, если бы алгоритм последовательно достигал своего собственного лучшего найденного значения ($\max_t f(x_t)$) на каждом шаге $T$.
$OI(t)$ (Индикатор оптимальности): Это отношение измеряет производительность алгоритма относительно лучшего значения автономного набора данных. Если $OI > 1$, алгоритм успешно превосходит автономные данные.
$SI(t)$ (Индикатор стабильности): Это отношение измеряет, насколько близко производительность алгоритма соответствует его собственному пику. Значение, близкое к 1, указывает на высокую стабильность (минимальные флуктуации), в то время как низкое значение предполагает, что алгоритм «дерганый» или склонен к деградации производительности.
Гармоническое среднее ($2 \cdot \frac{OI \cdot SI}{SI + OI}$): Авторы используют гармоническое среднее вместо простого арифметического, чтобы гарантировать, что индикатор SO чувствителен к обоим компонентам. Если любой из показателей $OI$ или $SI$ очень низок, гармоническое среднее значительно снижает общую оценку, эффективно штрафуя алгоритмы, которые либо нестабильны, либо не могут превзойти автономный набор данных.

Пошаговый процесс

Жизненный цикл абстрактной точки данных в этой системе следует по конвейеру:

Инициализация: Алгоритм начинает с автономного набора данных $\mathcal{D}$. Он обучает суррогатную модель $\hat{f}_\theta(x)$ для аппроксимации функции «черного ящика».
Оптимизация: Алгоритм выполняет градиентный подъем в течение $T$ шагов для поиска нового решения $x_{\text{app}}$.
Оценка: На каждом шаге $t$ алгоритм выдает решение $x_t$. Система вычисляет значение целевой функции $f(x_t)$.
Агрегация: Эти значения суммируются в $S$. Одновременно система отслеживает лучшее автономное значение ($f(x^*_{\text{OFF}})$) и лучшее значение, найденное самим алгоритмом ($\max_t f(x_t)$).
Расчет индикаторов: Система вычисляет $OI(t)$ и $SI(t)$, чтобы количественно оценить, насколько алгоритм лучше автономных данных и насколько стабильна его траектория.
Итоговая оценка: Индикатор SO объединяет их в единую метрику, предоставляя количественную «оценку» стабильности и оптимальности алгоритма.

Динамика оптимизации

Механизм обучается путем итеративного обновления суррогатной модели $\hat{f}_\theta(x)$ с использованием обучения с учителем на автономном наборе данных $\mathcal{D}$. Функция потерь:

$$\theta^* \leftarrow \arg \min_\theta \sum_{i=1}^N (\hat{f}_\theta(x_i) - y_i)^2$$

Затем процесс оптимизации использует градиентный подъем для навигации по ландшафту суррогатной модели:

$$x^{(t+1)} \leftarrow x^{(t)} + \eta \nabla_x \hat{f}_{\theta^*}(x)|_{x=x^t}$$

«Обучение» здесь — это, по сути, способность суррогатной модели обобщать данные от узкого распределения автономных данных к более широкому пространству решений. Стабильность поддерживается факторами подавления риска (как в алгоритме ARCOO), которые действуют как «регулятор» градиентного подъема, предотвращая переоценку моделью значений в областях вне распределения (OOD), где у неё нет данных. Это предотвращает «введение модели в заблуждение» её собственной самоуверенностью, что является распространенным режимом отказа в автономной BBO.

Результаты, ограничения и заключение

Анализ SOO-Bench: Бенчмарки для оценки стабильности автономной оптимизации «черного ящика»

Базовые знания

Оптимизация «черного ящика» (BBO) — это метод поиска оптимального входа $x^*$, максимизирующего целевую функцию $f(x)$ без знания явной математической формы $f$. В традиционной BBO алгоритм может активно выбирать точки и оценивать их. Однако во многих реальных сценариях (например, разработка лекарств, механическое проектирование) оценка $f(x)$ слишком дорога или опасна. Это приводит к автономной BBO, где алгоритм должен обучить суррогатную модель $\hat{f}_\theta(x)$, используя только статический, предварительно собранный набор данных $\mathcal{D} = \{x_i, y_i\}_{i=1}^N$.

Основная сложность здесь — узкое распределение автономного набора данных. Поскольку данные часто собираются на основе человеческих предпочтений или специфических экспериментальных ограничений, они не охватывают всё пространство решений. Суррогатная модель, обученная на этих данных, часто «вводится в заблуждение», когда пытается предсказать значения в областях, далеких от обучающих данных (области вне распределения или OOD), что приводит к низкой эффективности оптимизации.

Мотивация и постановка задачи

Авторы утверждают, что существующие бенчмарки (такие как Design-Bench) фокусируются преимущественно на оптимальности — поиске наилучшего возможного решения. Однако в инженерных задачах с высокими ставками стабильность не менее критична. Стабильность определяется как способность алгоритма последовательно находить решения, превосходящие лучшее известное решение в автономном наборе данных, не поддаваясь влиянию узкого распределения данных. Авторы отмечают, что текущим бенчмаркам не хватает количественного способа измерения этой стабильности.

Математическая интерпретация

В статье представлен индикатор стабильности-оптимальности (SO) для количественной оценки того, насколько хорошо алгоритм работает на протяжении всего процесса оптимизации. Для общего количества шагов оптимизации $T$, пусть $f(x_t)$ — оценка решения на шаге $t$. Индикатор определяется как:

$$SO = \frac{2 \cdot OI(t) \cdot SI(t)}{SI(t) + OI(t)}$$

Где:
* Индикатор оптимальности (OI): $OI(t) = \frac{S}{S_1}$, где $S = \sum_{t=1}^T f(x_t)$ и $S_1 = T \cdot f(x^*_{OFF})$. Это измеряет отношение площади под кривой производительности алгоритма к площади под базовой линией (лучшее решение в автономном наборе данных).
* Индикатор стабильности (SI): $SI(t) = \frac{S}{S_2}$, где $S_2 = T \cdot \max_t f(x_t)$. Это измеряет, насколько близко производительность алгоритма соответствует лучшему решению, которое он нашел на данный момент.

Авторы также предлагают взвешенную версию $SO_\omega$, которая позволяет пользователям приоритизировать либо оптимальность, либо стабильность на разных этапах процесса оптимизации.

Экспериментальное доказательство

Авторы спроектировали SOO-Bench для «беспощадного» тестирования алгоритмов путем:
1. Настройки сложности данных: Они создали наборы данных, удалив верхние $n\%$ (что затрудняет поиск высококачественных решений) и нижние $m\%$ (увеличивая разреженность) данных.
2. Разнообразных задач: Они включили реальные задачи из области оптимизации траекторий спутников (GTOPX), промышленного дизайна (CEC) и дизайна последовательностей ДНК (PROTEIN).
3. Сравнения с бейзлайнами: Они протестировали современные (SOTA) алгоритмы, включая ARCOO, Tri-mentoring и TTDDEA, против классических бейзлайнов, таких как BO-qEI и CMA-ES.

Было показано, что «жертвы» (базовые модели) часто крайне чувствительны к OOD-областям. Решающим доказательством является то, что, хотя некоторые алгоритмы (например, ARCOO) поддерживают стабильную производительность за счет использования энергетической модели для подавления риска, другие (например, DE-PF и DE-SPF) показывают низкие значения SO, что указывает на то, что они часто попадают в недопустимые области или стагнируют.

Темы для обсуждения и будущего развития

Динамическое взвешивание: Авторы используют линейно убывающую весовую функцию $\omega(t)$ для $SO_\omega$. Можно ли разработать адаптивный механизм взвешивания, который чувствует неопределенность суррогатной модели и переключает приоритет между оптимальностью и стабильностью в режиме реального времени?
За пределами OOD: Как мы можем расширить SOO-Bench для обработки «дрейфа концептов» (concept drift) в автономных наборах данных, где лежащая в основе физика или ограничения задачи могут меняться со временем?
Обработка ограничений: В статье отмечается, что текущие методы с трудом справляются со строгими ограничениями. Будущая работа может исследовать, как включить «мягкое» удовлетворение ограничений в обучение суррогатной модели, чтобы предотвратить излишнюю консервативность алгоритма и его стагнацию.

В целом, эта статья предоставляет столь необходимую, строгую базу для области, которая до сих пор была несколько «диким западом» в плане метрик оценки.