Энергетически-управляемая оценка энтропийного барицентра для общих стоимостей
Проблема, рассматриваемая в данной статье, — задача об оптимальном транспортном (ОТ) барицентре — возникает из фундаментальной потребности геометрически осмысленно усреднять вероятностные распределения.
Предпосылки и академическая родословная
Происхождение и академическая родословная
Проблема, рассматриваемая в данной статье, — задача об оптимальном транспортном (ОТ) барицентре — возникает из фундаментальной потребности геометрически осмысленно усреднять вероятностные распределения. В то время как усреднение скаляров или векторов в линейных пространствах является прямолинейным, задача становится значительно более сложной при работе с вероятностными распределениями. Простые выпуклые комбинации часто не сохраняют существенные геометрические особенности, что требует более изощренного подхода для определения «центра» или среднего.
Эта конкретная проблема впервые возникла в академической области оптимального транспорта, которая предоставляет надежную основу для сравнения и усреднения вероятностных распределений путем определения «стоимости» преобразования одного распределения в другое. Концепция ОТ-барицентров, введенная Агуэ и Карлье [1] в 2011 году, направлена на поиск центрального распределения, которое минимизирует сумму транспортных затрат для данного набора исходных распределений.
За последнее десятилетие практический спрос на эффективное вычисление барицентров стимулировал значительные исследования. Первоначальные усилия были сосредоточены в основном на дискретной постановке задачи ОТ-барицентра, где распределения представлены конечными наборами точек. Однако непрерывная постановка, имеющая дело с непрерывными вероятностными распределениями, оказалась гораздо более сложной. Предыдущие решатели непрерывных ОТ-барицентров страдали от нескольких ключевых ограничений:
- Специфические функции стоимости: Многие существующие методы были разработаны исключительно для конкретных функций стоимости ОТ, в первую очередь квадратичной евклидовой стоимости ($l_2(x, y) \stackrel{\text{def}}{=} ||x - y||^2$). Это ограничивало их применимость узким кругом задач, поскольку реальные сценарии часто включают неевклидовы или более сложные функции стоимости.
- Нетривиальные априорные выборы: Некоторые подходы требовали сложного априорного выбора или фиксированных априорных распределений для барицентра, которые могли быть нетривиальными для определения и могли ограничивать гибкость модели.
- Ограниченная выразительность и генеративная способность: Определенные методы имели ограниченную способность выражать сложные взаимосвязи между распределениями или генерировать новые выборки из изученного барицентра, что препятствовало их использованию в задачах генеративного моделирования.
- Неспособность восстановить планы ОТ: Некоторые подходы параметризовали барицентр как генеративную модель, но не восстанавливали лежащие в основе планы оптимального транспорта, которые имеют решающее значение для понимания того, как отдельные исходные распределения отображаются на барицентр.
Данная статья направлена на преодоление этих ограничений путем предложения нового алгоритма для аппроксимации непрерывного энтропийного ОТ (EOT) барицентра, который может обрабатывать произвольные функции стоимости ОТ, без необходимости фиксированных априорных предположений или ограничения выразительности, и, что важно, восстанавливает условные планы ОТ.
Интуитивные термины предметной области
Чтобы помочь читателю без предварительных знаний понять основные концепции, здесь приведены некоторые специализированные термины, переведенные в повседневные аналогии:
- Оптимальный транспорт (ОТ): Представьте, что у вас есть несколько куч земли (вероятностные распределения), и вы хотите переформовать их в новую кучу. Оптимальный транспорт — это как поиск наиболее эффективного способа перемещения всей земли из исходных куч для формирования новой, минимизируя общую «работу» или «стоимость», связанную с этим.
- Барицентр: Если у вас есть несколько разбросанных облаков дыма (вероятностные распределения), барицентр — это как поиск «среднего» или «центра масс» облака дыма, которое в среднем находится ближе всего ко всем исходным облакам, учитывая «усилия» (стоимость оптимального транспорта) для преобразования одного облака в другое. Это центральная точка, которая уравновешивает «притяжение» от всех других распределений.
- Энтропийный оптимальный транспорт (EOT): Это «более мягкая» или «размытая» версия оптимального транспорта. Вместо того чтобы строго перемещать каждую частицу земли по самому прямому пути, EOT допускает некоторое смешивание или случайность во время транспортировки. Это делает задачу более легкой для вычислительного решения, подобно тому, как если бы некоторая земля немного рассеивалась, но при этом достигалось хорошее, геометрически осмысленное среднее.
- Слабая двойственная формулировка ОТ: Представьте себе сложную задачу, такую как проектирование идеального моста. Вместо того чтобы напрямую строить и тестировать каждый возможный мост, «двойственная формулировка» — это как поиск более простой, эквивалентной задачи, которая включает оптимизацию сил и напряжений на мосту. В ОТ это означает, что мы не отслеживаем напрямую каждую «частицу земли», а вместо этого находим две «потенциальные функции», которые при оптимизации косвенно указывают нам наиболее эффективный способ перемещения земли. Это часто проще решить.
- Энергетические модели (EBM): Представьте себе ландшафт, где долины представляют места, где данные, вероятно, находятся, а холмы — маловероятные места. EBM изучают этот «энергетический ландшафт», чтобы понять, как распределены данные. Наш метод использует аналогичную идею: он формулирует задачу барицентра как поиск конфигурации с наименьшей «энергией» в сложном пространстве, что позволяет нам использовать хорошо зарекомендовавшие себя методы обучения EBM для поиска решения.
Таблица обозначений
| Обозначение | Описание |
|---|---|
Определение проблемы и ограничения
Основная формулировка проблемы и дилемма
Основная проблема, рассматриваемая в данной статье, — это оценка непрерывного энтропийного оптимального транспортного (EOT) барицентра для набора вероятностных распределений.
Вход/Текущее состояние:
Исходная точка включает набор из $K$ исходных вероятностных распределений, обозначенных как $P_k \in \mathcal{P}_{ac}(\mathcal{X}_k)$, где $\mathcal{P}_{ac}(\mathcal{X}_k)$ представляет собой абсолютно непрерывные вероятностные распределения, определенные на компактных подмножествах $\mathcal{X}_k \subset \mathbb{R}^{D_k}$. Для каждого исходного распределения $P_k$ существует связанная непрерывная функция стоимости $c_k(\cdot, \cdot) : \mathcal{X}_k \times \mathcal{Y} \to \mathbb{R}$, которая количественно определяет «стоимость» транспортировки массы между точками в $\mathcal{X}_k$ и точками в пространстве барицентра $\mathcal{Y}$. Кроме того, задан набор положительных весов $\lambda_k > 0$, удовлетворяющих условию $\sum_{k=1}^K \lambda_k = 1$. Важно отметить, что в практических сценариях эти исходные распределения $P_k$ явно не известны, а доступны только через конечные наборы эмпирических выборок $X_k = \{x_1^k, x_2^k, \dots, x_{N_k}^k\} \sim P_k$. Существующие решатели непрерывных ОТ-барицентров часто испытывают трудности с общими функциями стоимости, требуют специфического априорного выбора или имеют ограниченную выразительность и генеративные возможности.
Желаемый конечный результат (выход/целевое состояние):
Конечная цель — определить EOT барицентр $Q^* \in \mathcal{P}(\mathcal{Y})$, который является вероятностным распределением, минимизирующим взвешенную сумму EOT расхождений со всеми исходными распределениями $P_k$. Математически это формулируется как:
$$L^* \stackrel{\text{def}}{=} \inf_{Q \in \mathcal{P}(\mathcal{Y})} \sum_{k=1}^K \lambda_k \text{EOT}_{c_k, \epsilon}(P_k, Q)$$
Здесь $\text{EOT}_{c_k, \epsilon}(P_k, Q)$ представляет собой энтропийную стоимость оптимального транспорта между $P_k$ и $Q$, регуляризованную параметром $\epsilon > 0$. Помимо простого нахождения $Q^*$, статья направлена на аппроксимацию оптимальных условных планов транспорта $\pi_{f_k}^*(\cdot|x_k)$, которые отображают точки из каждого источника $P_k$ в барицентр $Q^*$. Эти восстановленные планы должны обеспечивать «оценку вне выборки», что означает, что они могут генерировать выборки из $\pi_{f_k}^*(\cdot|x_{\text{new}})$ для новых, невиданных ранее выборок $x_{\text{new}}$ из $P_k$. Дальнейшая амбиция — изучить барицентр на многообразии изображений предварительно обученной генеративной модели, что имеет значительные последствия для реальных приложений.
Отсутствующее звено и дилемма:
Точным отсутствующим звеном является общий, надежный и вычислительно осуществимый алгоритм для оценки непрерывных EOT барицентров, который может обрабатывать произвольные функции стоимости и эффективно работать только с эмпирическими выборками из исходных распределений. Предыдущие исследования оказались в ловушке болезненного компромисса: достижение большей общности и выразительности в задачах непрерывных ОТ-барицентров обычно влечет за собой значительные вычислительные трудности или требует ограничительных предположений. Например, улучшение общности для обработки произвольных функций стоимости часто приводит к неразрешимым задачам оптимизации, поскольку многие предыдущие методы полагаются на специфические, более простые стоимости (например, квадратичную евклидову $l_2$), из-за их благоприятных теоретических свойств. Эти более простые стоимости позволяют использовать более эффективные алгоритмы, но ограничивают применимость. Кроме того, хотя непрерывная постановка более мощная, она также «еще более сложная», чем дискретная, при этом существующие решения часто имеют ограничения в выразительности или требуют нетривиальных априорных выборов или специфических параметризаций барицентра, которые могут быть трудны для определения или ограничивать сферу применения метода. Другая дилемма возникает в пространствах высокоразмерных данных, таких как изображения: прямое вычисление EOT барицентров часто приводит к «шумным изображениям» или «эффекту размытия» из-за энтропийной регуляризации и опоры на MCMC. Хотя ограничение пространства поиска многообразием данных может смягчить это, оно вносит свои собственные сложности, связанные с изучением многообразий и адаптацией функций стоимости.
Ограничения и режимы отказа
Проблема оценки непрерывного EOT барицентра является по своей сути сложной из-за нескольких суровых, реалистичных ограничений:
- Вычислительная неразрешимость прямой оптимизации: Целевая функция для EOT барицентра (Уравнение 5) включает $\inf$ по пространству всех вероятностных распределений $\mathcal{P}(\mathcal{Y})$, которое является бесконечномерным пространством. Прямая оптимизация этого обычно неразрешима, что требует переформулировки задачи.
- Отсутствие аналитических решений: Для большинства практических сценариев, включая случаи с гауссовыми распределениями, нет известного прямого аналитического решения для задачи энтропийного барицентра (как для $\epsilon > 0$, так и для нерегуляризованного случая $\epsilon = 0$). Это вынуждает полагаться на методы численной аппроксимации.
- Ограничение эмпирических данных: Исходные распределения $P_k$ редко доступны явно в реальных приложениях. Вместо этого доступны только конечные эмпирические выборки (наборы данных) $X_k$. Это означает, что алгоритмы должны быть устойчивы к разреженности данных и шуму, а также способны к обобщению вне выборки.
- Высокая размерность: Работа со сложными типами данных, такими как RGB-изображения (например, $3 \times 64 \times 64$ размерности для CelebA), вносит значительные вычислительные и ресурсные требования для обучения и выборки, делая прямые подходы невыполнимыми.
- Произвольные функции стоимости: Статья направлена на поддержку «произвольных функций стоимости ОТ», что является существенным ограничением. Многие существующие методы специализированы для более простых стоимостей (например, $l_2$), которые обладают специфическими теоретическими свойствами, упрощающими вычисления. Произвольные стоимости устраняют эти упрощения, увеличивая сложность.
- Неевклидовы геометрии: Проблема явно рассматривает «неевклидовы функции стоимости», что означает, что стандартные евклидовы метрики расстояния часто недостаточны. Это требует более гибких и мощных моделей для захвата сложных геометрических взаимосвязей.
- Ограничения выборки MCMC: Предлагаемый метод полагается на процедуры Марковских цепей Монте-Карло (MCMC) (в частности, нерегулируемый алгоритм Ланжевена, ULA) для выборки.
- Высокая вычислительная стоимость: Выборка MCMC по своей сути «трудоемка», что влияет на задержку обучения и вывода (Таблица 3).
- Проблемы сходимости: Базовый алгоритм ULA «может плохо сходиться к желаемому распределению», что приводит к субоптимальным результатам.
- Требование дифференцируемости: MCMC обычно требует, чтобы энергетические функции (и, следовательно, функции стоимости $c_k$) были дифференцируемыми. Недифференцируемые стоимости потребуют более сложных процедур выборки, не основанных на градиентах.
- Локальные минимумы: Вывод MCMC может «застрять в локальных минимумах энергетического ландшафта», что приводит к тому, что изученные планы транспорта не сохраняют желаемое содержимое изображения или другие особенности (Раздел 5.3).
- Невыполнимость нормализующей константы: Прямое вычисление нормализующей константы $Z_{c_k}(f_k, x_k)$ в двойственной целевой функции часто «невыполнимо», что требует аппроксимаций для оценки градиента.
- «Эффект размытия» в пространстве данных: Когда EOT барицентры вычисляются непосредственно в пространствах высокоразмерных данных (например, пикселей изображений), энтропийная регуляризация может привести к «шумным изображениям» или «эффекту размытия», делая результирующий барицентр менее интерпретируемым или визуально правдоподобным.
- Сложность ограничения многообразия: Хотя ограничение поиска барицентра многообразием данных (например, с использованием предварительно обученного StyleGAN) помогает смягчить размытие, это вносит дополнительную сложность обучения и интеграции таких генеративных моделей, а также адаптации функций стоимости к латентному пространству многообразия.
- Ошибки обобщения и аппроксимации: Обеспечение хорошего обобщения изученных моделей на невиданные данные и точности аппроксимаций нейронных сетей является значительной теоретической проблемой. Ошибка оценки может страдать от «проклятия размерности» для общих липшицевых стоимостей, что затрудняет достижение быстрых темпов сходимости в высоких размерностях.
Почему такой подход
Неизбежность выбора
Выбор авторами подхода к энергетически-управляемой оценке непрерывного энтропийного барицентра был не просто предпочтением, а необходимостью, обусловленной присущими ограничениями существующих методов для задач непрерывных оптимальных транспортных (ОТ) барицентров. Точный момент этого осознания очевиден из подробного обсуждения в Разделе 3 и Таблице 1, которые подчеркивают недостатки предыдущих работ.
Традиционные «SOTA» методы, такие как стандартные CNN, базовые диффузионные модели или трансформеры, были признаны недостаточными, потому что:
1. Специфические функции стоимости: Значительная часть предыдущих решателей непрерывных ОТ, включая работы [59, 55, 32, 82], была разработана исключительно для квадратичной евклидовой стоимости $l_2(x, y) = ||x - y||^2$. Это ограничение сильно сужает их применимость к реальным сценариям, где произвольные, неевклидовы функции стоимости необходимы для захвата сложных геометрических взаимосвязей между распределениями. В статье прямо указано: «В отличие от этого, наш предлагаемый подход разработан для решения задачи EOT с произвольными функциями стоимости $c_1, \dots, c_K$». (стр. 4).
2. Фиксированные априорные предположения и нетривиальные выборы: Некоторые методы, такие как [72], требовали нетривиальных априорных выборов или необходимости выбора фиксированного априорного распределения для барицентра, что может быть сложной и ненадежной процедурой. Предлагаемый метод избегает этого ограничения.
3. Отсутствие восстановления планов ОТ: Критически важно, что определенные подходы, такие как [17], не восстанавливали планы ОТ, что является фундаментальным требованием для установок обучения, определенных в Разделе 2.3, сфокусированных на оценке вне выборки и генеративной способности.
4. Вычислительная сложность и параметризация: Другие вариационные методы, такие как [14], увеличивали сложность оптимизации и требовали специфической параметризации распределения барицентра, делая их менее общими или интуитивными.
Авторы осознали, что необходим новый подход для устранения этих коллективных ограничений, в частности, потребность в решателе, который мог бы обрабатывать произвольные функции стоимости, восстанавливать планы ОТ и работать без ограничительных априорных предположений в непрерывной постановке.
Сравнительное превосходство
Этот метод демонстрирует качественное превосходство над предыдущими золотыми стандартами благодаря нескольким структурным преимуществам, выходящим за рамки простых метрик производительности:
- Произвольные функции стоимости и неевклидовы стоимости: В отличие от многих предыдущих работ, ограниченных квадратичными евклидовыми стоимостями, этот подход разработан для произвольных функций стоимости ОТ, включая неевклидовы. Эта гибкость является глубоким структурным преимуществом, позволяющим применять его к гораздо более широкому кругу сложных задач, таких как задачи, связанные с многообразиями изображений или специализированными геологическими симуляциями (Раздел 5, B.2).
- Бесшовная интеграция с энергетическими моделями (EBM): Основа метода заключается в элегантной переформулировке задачи энтропийного оптимального транспорта (EOT) барицентра с использованием слабой двойственной формы EOT в сочетании с условием конгруэнтности. Эта переформулировка естественным образом согласуется с процедурами обучения EBM, позволяя использовать хорошо настроенные алгоритмы и предоставляя «интуитивную схему оптимизации, избегающую мин-макс, усиления и других сложных технических уловок» (Аннотация, стр. 1). Это позволяет избежать сложностей, часто связанных с состязательным обучением (как GAN) или методами градиента политики.
- Надежные гарантии обобщения и аппроксимации: Статья устанавливает прочные теоретические основы, включая границы обобщения и гарантии универсальной аппроксимации для восстановленных планов EOT (Раздел 4.3). В частности, для квадратичных стоимостей на основе признаков метод достигает ошибки оценки $O(N^{-1/2})$, что описывается как «стандартный быстрый и не зависящий от размерности темп сходимости» (Теорема 4.5 (b), стр. 6). Это обеспечивает строгое понимание статистической согласованности и надежности метода, что часто отсутствует у конкурирующих решателей непрерывных барицентров.
- Обработка высокоразмерного шума и изучение многообразий: Для сложных данных, таких как изображения, прямые EOT барицентры в пространстве данных могут страдать от «эффекта размытия» и давать шумные изображения. Этот метод качественно справляется с этим лучше, вводя новую установку «с ограничением многообразия» (Раздел 4.4). Ограничивая пространство поиска многообразием изображений, генерируемым предварительно обученной генеративной моделью (например, StyleGAN), он дает более интерпретируемые и правдоподобные распределения барицентров, эффективно смягчая шум и артефакты, присущие усреднению высокоразмерных изображений. Это значительное улучшение качества результатов для практических приложений.
Соответствие ограничениям
Выбранный энергетически-управляемый подход идеально соответствует суровым требованиям задачи, образуя «брак» между требованиями задачи и уникальными свойствами решения:
- Непрерывный ОТ и оценка вне выборки: Задача явно требует решения задач непрерывного ОТ-барицентра и обеспечения оценки вне выборки, что означает способность генерировать выборки из условных планов $\pi^*(\cdot|x_{\text{new}})$ для новых точек данных. Предлагаемый метод напрямую решает эту задачу, изучая потенциальные нейронные сети $f_k$, которые определяют условные распределения $\mu_{f_k}^*(\cdot|x_k)$ (Уравнение 4, стр. 3). Затем выборки могут быть сгенерированы с использованием стандартных методов MCMC, что удовлетворяет требованию оценки вне выборки (Раздел 4.2).
- Произвольные функции стоимости: Ключевым ограничением является необходимость обработки произвольных функций стоимости, выходя за рамки ограничений методов, специфичных для $l_2$. Двойственная формулировка и фреймворк EBM естественным образом допускают любую дифференцируемую функцию стоимости $c_k(x,y)$, как показано в экспериментах с неевклидовыми «скрученными» стоимостями и стоимостями с ограничением многообразия (Раздел 5.1, 5.2).
- Доступность данных (эмпирические выборки): Задача предполагает, что исходные распределения $P_k$ доступны только через ограниченное количество независимых и одинаково распределенных эмпирических выборок $X_k$. Предлагаемый алгоритм разработан для работы непосредственно с этими выборками, используя Монте-Карло аппроксимации для оценки градиента во время обучения (Алгоритм 1, стр. 5).
- Осмысленные барицентры в сложных пространствах: Для данных изображений прямое усреднение в пиксельном пространстве часто нежелательно из-за «эффекта размытия». EOT барицентр с ограничением многообразия (Раздел 4.4) напрямую решает эту проблему, ограничивая пространство поиска предварительно определенным многообразием данных (например, сгенерированным StyleGAN). Это гарантирует, что результирующие барицентры сконцентрированы на правдоподобном многообразии, давая визуально превосходные и более интерпретируемые результаты, как показано на Рисунках 4 и 5. Это умное решение практической проблемы.
Отклонение альтернатив
В статье представлены четкие обоснования для отклонения нескольких альтернативных подходов, подчеркивая уникальные преимущества предлагаемого метода:
- Дискретные решатели ОТ: Авторы прямо заявляют, что «дискретные ОТ плохо подходят для оценки вне выборки, требуемой в непрерывной постановке ОТ» (Раздел 2.3, стр. 3). Хотя дискретные методы ОТ имеют прочные теоретические основы и гарантии сходимости, их нельзя напрямую адаптировать к непрерывной установке обучения, где цель состоит в аппроксимации условных планов для невиданных данных (Раздел B.1, стр. 22).
- Непрерывные решатели ОТ со стоимостями $l_2$: Многие существующие решатели непрерывных ОТ-барицентров «разработаны исключительно для квадратичной евклидовой стоимости $l_2(x, y) = ||x - y||^2$» (Раздел 3, стр. 4). Это отклоняется, поскольку реальные приложения часто требуют произвольных функций стоимости, включая неевклидовы, для захвата сложных взаимосвязей данных. Способность предлагаемого метода обрабатывать общие стоимости является прямым ответом на это ограничение.
- Непрерывные решатели ОТ, требующие фиксированных априорных предположений или не восстанавливающие планы: Некоторые методы, такие как [72], требуют «нетривиальных априорных выборов» для барицентра, что может быть обременительным. Другие, такие как [17], «не восстанавливают планы ОТ», что является фундаментальным несоответствием цели статьи — изучению условных планов транспорта для генеративных задач (Раздел 3, стр. 4).
- Двойственно-регуляризованные EOT барицентры с членом $H(Q)$: Статья обсуждает двойственно-регуляризованные EOT барицентры (Уравнение 40, стр. 24), где присутствует дополнительный член энтропии $H(Q)$ для барицентрического распределения $Q$. Эта альтернатива отклоняется, поскольку «наличие члена $H(Q)$ заметно отличается от нашего и, кажется, не подходит для нашего решателя» (стр. 25). Причина в том, что добавление $H(Q)$ потребует отдельного, весьма нетривиального вычисления энтропии вторых маргиналов $H(\pi_k(y))$, которое невозможно оценить по необработанным выборкам, и методы типа EBM не могут вывести градиент в этом сценарии (стр. 25).
- Другие методы барицентров на основе GAN (например, [95]): Хотя [95] также ограничивает пространство поиска многообразием GAN, их подход принципиально отличается и «фактически неприменим» к постановке задачи в данной статье (Раздел B.1, стр. 23). Они рассматривают K изображений (представленных как 2D распределения через гистограммы интенсивности) и ищут одно изображение на многообразии GAN с использованием дискретного решателя ОТ. В отличие от этого, данная статья ищет барицентр K высокоразмерных распределений изображений (представленных случайными выборками) с использованием непрерывного решателя ОТ, который восстанавливает планы ОТ. Цели и методологии различны, что делает подход [95] непригодным для текущей задачи.
Figure 11. The training curves of L2-UVP vs. iterations for OUR proposed method for the barycenter of Gaussian distributions depending on number of Langevin steps L
Математический и логический механизм
Главное уравнение
Абсолютно основным математическим механизмом, лежащим в основе подхода данной статьи к оценке энтропийных барицентров, является двойственная целевая функция, которую алгоритм стремится максимизировать. Эта цель выводится из слабой двойственной формулировки задачи энтропийного оптимального транспорта (EOT) и параметризуется нейронными сетями. Конкретное оптимизируемое уравнение приведено ниже:
$$ \mathcal{L}(\theta) \stackrel{\text{def}}{=} \sum_{k=1}^K \lambda_k \left\{ -\epsilon \mathbb{E}_{x_k \sim P_k} \left[ \log Z_{c_k}(f_{\theta,k}, x_k) \right] \right\} \quad (8) $$
где $Z_{c_k}(f_{\theta,k}, x_k)$ — нормализующая константа (или статистическая сумма), определяемая как:
$$ Z_{c_k}(f_{\theta,k}, x_k) \stackrel{\text{def}}{=} \int_{\mathcal{Y}} \exp\left(\frac{f_{\theta,k}(y) - c_k(x_k, y)}{\epsilon}\right) dy \quad (21) $$
Поэлементный разбор
Разберем эти уравнения по частям, чтобы понять их роли:
- $\mathcal{L}(\theta)$: Это целевая функция, которую алгоритм стремится максимизировать. Ее значение отражает, насколько текущий набор потенциальных функций (параметризованных $\theta$) соответствует двойственной формулировке задачи EOT барицентра. Максимизация этой двойственной цели эквивалентна минимизации первичной задачи EOT барицентра.
- $\theta$: Это совокупность всех обучаемых параметров нейронных сетей $f_{\theta,k}$. Эти параметры настраиваются в процессе обучения для оптимизации целевой функции.
- $K$: Это общее количество исходных вероятностных распределений $P_k$, которые мы хотим усреднить. Например, если мы усредняем три набора данных изображений, то $K=3$.
- $\lambda_k$: Это предопределенные положительные веса для каждого исходного распределения $P_k$, такие что $\sum_{k=1}^K \lambda_k = 1$. Они определяют относительную важность или вклад каждого исходного распределения в конечный барицентр. Если все $\lambda_k$ равны, это простое среднее; в противном случае это взвешенное среднее.
- $\sum_{k=1}^K$: Это оператор суммирования, который агрегирует вклады от всех $K$ исходных распределений. Автор использует сложение, потому что задача EOT барицентра формулируется как сумма отдельных EOT расхождений между каждым исходным распределением и барицентром.
- $\epsilon$: Это параметр энтропийной регуляризации, положительная скалярная величина. Он контролирует «гладкость» или «случайность» планов транспорта. Большее $\epsilon$ приводит к более размытым, менее «резким» планам транспорта (и более гладкому ландшафту потерь), в то время как меньшее $\epsilon$ делает транспорт более детерминированным, приближаясь к классическому оптимальному транспорту. Он действует как параметр «температуры» в статистической механике.
- $\mathbb{E}_{x_k \sim P_k}[\dots]$: Это обозначает математическое ожидание по выборкам $x_k$, взятым из $k$-го исходного вероятностного распределения $P_k$. На практике это ожидание аппроксимируется с помощью Монте-Карло выборки путем взятия пакета выборок из $P_k$.
- $P_k$: Это $k$-е исходное вероятностное распределение. Это входные распределения, которые алгоритм стремится усреднить. В реальных сценариях они обычно доступны только через эмпирические выборки (наборы данных).
- $x_k$: Это выборка (точка данных), взятая из $k$-го исходного распределения $P_k$.
- $\log$: Это функция натурального логарифма. Она используется здесь, потому что слабая энтропийная c-трансформация, $f_k^{c_k}(x_k)$, определяется как $-\epsilon \log Z_{c_k}(f_k, x_k)$. Эта трансформация имеет решающее значение для преобразования интеграла в более управляемую форму для оптимизации и для связи с энергетическими моделями.
- $Z_{c_k}(f_{\theta,k}, x_k)$: Это нормализующая константа или статистическая сумма для условного вероятностного распределения $\mu_{x_k}^{f_{\theta,k}}(y)$. Она гарантирует, что условное распределение интегрируется к 1. Ее значение зависит от потенциальной функции $f_{\theta,k}$ и стоимости $c_k$ для данного $x_k$.
- $\int_{\mathcal{Y}} \dots dy$: Это интеграл по целевому пространству $\mathcal{Y}$. Он суммирует «энергетические» вклады по всем возможным целевым точкам $y$ для вычисления нормализующей константы. Автор использует интеграл, потому что задача поставлена в непрерывной области вероятностных распределений.
- $\exp(\dots)$: Это экспоненциальная функция. Она преобразует «энергетический» член $(f_{\theta,k}(y) - c_k(x_k, y))/\epsilon$ в неотрицательное значение, которое можно интерпретировать как ненормализованную плотность вероятности. Это стандартный компонент в статистической механике и энергетических моделях.
- $f_{\theta,k}(y)$: Это потенциальная функция для $k$-го распределения, оцененная в целевой точке $y$. Эти функции параметризуются нейронными сетями $f_{\theta,k}$ и являются основными обучаемыми компонентами модели. Они представляют «ценность» или «полезность» целевой точки $y$ с точки зрения $k$-го источника.
- $c_k(x_k, y)$: Это функция стоимости транспортировки массы из исходной точки $x_k$ в целевую точку $y$. Она количественно определяет несовместимость или «стоимость» перемещения между $x_k$ и $y$. Статья подчеркивает ее способность обрабатывать общие (даже неевклидовы) функции стоимости.
- $\frac{f_{\theta,k}(y) - c_k(x_k, y)}{\epsilon}$: Этот член представляет собой масштабированную «энергию» или «логарифм вероятности» транспортировки из $x_k$ в $y$, модулированную потенциалом $f_{\theta,k}$ и регуляризацией $\epsilon$. Потенциал $f_{\theta,k}(y)$ можно рассматривать как «вознаграждение» за попадание в $y$, в то время как $c_k(x_k, y)$ — это «штраф» за транспортировку. Деление на $\epsilon$ масштабирует эту энергию, делая распределение более резким для малых $\epsilon$ и более плоским для больших $\epsilon$.
- Вычитание $f_{\theta,k}(y) - c_k(x_k, y)$ в экспоненте является естественным способом объединения потенциала и стоимости, поскольку оно отражает чистую «привлекательность» целевой точки $y$ для данного $x_k$.
Пошаговый поток
Представьте себе одну абстрактную точку данных, скажем $x_1$, из первого исходного распределения $P_1$, проходящую через этот математический механизм во время итерации обучения.
- Вход точки данных: Выбирается выборка $x_1$ из первого исходного распределения $P_1$. Эта $x_1$ — конкретный экземпляр из набора данных.
- Оценка потенциала: Для этой $x_1$ и для ряда возможных целевых точек $y$ в целевом пространстве $\mathcal{Y}$ нейронная сеть $f_{\theta,1}$ вычисляет свой потенциал $f_{\theta,1}(y)$. Одновременно оценивается функция стоимости $c_1(x_1, y)$, количественно определяющая «усилия» для перемещения из $x_1$ в каждую $y$.
- Вычисление энергии: Эти значения объединяются: $f_{\theta,1}(y) - c_1(x_1, y)$. Эта разница представляет собой «чистую полезность» транспортировки из $x_1$ в $y$. Эта полезность затем масштабируется параметром регуляризации $\epsilon$, давая $\frac{f_{\theta,1}(y) - c_1(x_1, y)}{\epsilon}$.
- Ненормализованная вероятность: Масштабированная полезность возводится в степень: $\exp\left(\frac{f_{\theta,1}(y) - c_1(x_1, y)}{\epsilon}\right)$. Это дает ненормализованную меру того, насколько «вероятно» транспортировать из $x_1$ в $y$.
- Нормализация (статистическая сумма): Чтобы сделать это правильным условным вероятностным распределением по $y$ (обозначенным $\mu_{x_1}^{f_{\theta,1}}(y)$), нам нужно его нормализовать. Это делается путем интегрирования ненормализованных вероятностей по всему целевому пространству $\mathcal{Y}$ для получения $Z_{c_1}(f_{\theta,1}, x_1)$. Этот интеграл часто вычислительно неразрешим, поэтому его градиент оценивается с использованием таких методов, как MCMC.
- Вклад логарифма правдоподобия: Затем берется натуральный логарифм этой нормализующей константы, $\log Z_{c_1}(f_{\theta,1}, x_1)$. Этот член, умноженный на $-\epsilon$, фактически становится слабой энтропийной c-трансформацией $f_1^{c_1}(x_1)$.
- Взвешенное суммирование: Этот процесс (шаги 2-6) повторяется для других выборок из $P_1$ (для аппроксимации ожидания $\mathbb{E}_{x_1 \sim P_1}[\dots]$) и для выборок из всех других исходных распределений $P_k$. Затем вклад каждого распределения взвешивается его коэффициентом $\lambda_k$ и суммируется для формирования общей цели $\mathcal{L}(\theta)$.
- Вычисление градиента: Вычисляется градиент $\mathcal{L}(\theta)$ по параметрам нейронной сети $\theta$. Этот градиент указывает направление в пространстве параметров, которое увеличит целевую функцию. Поскольку прямое вычисление $Z_{c_k}$ затруднительно, градиент $\log Z_{c_k}$ аппроксимируется путем выборки $y$ из условного распределения $\mu_{x_k}^{f_{\theta,k}}(y)$ с использованием процедуры MCMC.
- Обновление параметров: Наконец, параметры $\theta$ нейронных сетей $f_{\theta,k}$ обновляются с использованием алгоритма оптимизации (например, стохастического градиентного подъема) в направлении, указанном вычисленным градиентом. Это итеративное обновление помогает модели постепенно настраивать свои потенциальные функции для лучшего соответствия условиям EOT барицентра.
Динамика оптимизации
Механизм обучается путем итеративного максимизации двойственной целевой функции $\mathcal{L}(\theta)$ посредством стохастического градиентного подъема. Вот как происходит обучение, обновление и сходимость:
- Параметризация нейронной сети: Ключевая идея заключается в представлении неизвестных потенциальных функций $f_k$ как нейронных сетей, $f_{\theta,k}$, где $\theta$ — это веса и смещения этих сетей. Это позволяет гибкую аппроксимацию функций высокой размерности.
- Обработка условия конгруэнтности: Двойственная формулировка (6) включает важное ограничение: $\sum_{k=1}^K \lambda_k f_k = 0$. Авторы гениально обрабатывают это, параметризуя $f_{\theta,k}$ как $g_{\theta,k} - \sum_{j=1}^K \lambda_j g_{\theta,j}$, где $g_{\theta,k}$ — индивидуальные нейронные сети. Эта специфическая конструкция автоматически гарантирует, что сумма взвешенных потенциалов равна нулю, устраняя необходимость явной оптимизации ограничений.
- Градиентный подъем: Поскольку целевая функция является двойственной формулировкой, цель состоит в максимизации $\mathcal{L}(\theta)$. Это достигается с помощью градиентного подъема. Вычисляется градиент $\frac{\partial}{\partial \theta} \mathcal{L}(\theta)$, и параметры $\theta$ обновляются в направлении этого градиента.
- Оценка градиента через MCMC: Самая сложная часть — вычисление ожидания $\mathbb{E}_{y \sim \mu_{x_k}^{f_{\theta,k}}} \left[ \frac{\partial}{\partial \theta} f_{\theta,k}(y) \right]$ в формуле градиента (Уравнение 9). Условное распределение $\mu_{x_k}^{f_{\theta,k}}(y)$ имеет ненормализованную логарифмическую плотность, равную $\frac{f_{\theta,k}(y) - c_k(x_k, y)}{\epsilon}$. Для выборки из этого распределения статья использует процедуру Марковских цепей Монте-Карло (MCMC), в частности, нерегулируемый алгоритм Ланжевена (ULA).
- Шаги ULA: Для каждого $x_k$, выбранного из $P_k$, ULA генерирует последовательность выборок $y_t$, которые в конечном итоге аппроксимируют выборки из $\mu_{x_k}^{f_{\theta,k}}$. Правило обновления для ULA:
$$y_{t+1}^{(1)} = y_t^{(1)} + \frac{\eta}{2\epsilon} \nabla_y (f_{\theta,k}(y) - c_k(x_k, y))|_{y=y_t^{(1)}} + \sqrt{\eta} \xi_t$$
где $\eta$ — размер шага, а $\xi_t$ — случайный шумовой член, взятый из стандартного нормального распределения. Этот процесс имитирует движение частицы в энергетическом ландшафте, определяемом $f_{\theta,k}(y) - c_k(x_k, y)$, постепенно сходясь к целевому распределению.
- Шаги ULA: Для каждого $x_k$, выбранного из $P_k$, ULA генерирует последовательность выборок $y_t$, которые в конечном итоге аппроксимируют выборки из $\mu_{x_k}^{f_{\theta,k}}$. Правило обновления для ULA:
- Ландшафт потерь: Двойственная целевая функция является вогнутой (как указано в Предложении A.1 (iii) для слабой c-трансформации, которая распространяется на $\mathcal{L}(\theta)$). Эта вогнутость означает, что нет локальных максимумов, которые не были бы также глобальными максимумами, что значительно упрощает задачу оптимизации по сравнению с невогнутыми целевыми функциями. Параметр энтропийной регуляризации $\epsilon$ дополнительно сглаживает этот ландшафт, облегчая градиентным методам навигацию и избегание застревания в ложных режимах, которые могут существовать в нерегуляризованном случае.
- Итеративное уточнение: С каждой итерацией выбираются новые выборки $x_k$, запускается MCMC для генерации выборок $y$, оценивается градиент $\mathcal{L}(\theta)$, и $\theta$ обновляется. Этот итеративный процесс уточняет потенциальные нейронные сети $f_{\theta,k}$, вызывая их сходимость к оптимальным потенциалам, определяющим EOT барицентр. Затем целевая функция максимизируется, и барицентр неявно изучается через эти потенциалы.
- Сходимость: Статья предоставляет теоретические гарантии (Теоремы 4.2, 4.5, 4.6) относительно качества восстановленных планов и возможностей универсальной аппроксимации нейронных сетей, предполагая, что при достаточном количестве данных и мощности сети изученные потенциалы могут точно аппроксимировать истинные планы EOT и, следовательно, барицентр. Однако практическая скорость и качество сходимости зависят от параметров MCMC (количество шагов $L$, размер шага $\eta$) и размера пакета, как обсуждается в экспериментальном разделе.
Figure 6. A schematical presentation of potential applications of barycenter solvers
Результаты, ограничения и заключение
Экспериментальный дизайн и базовые модели
Авторы тщательно разработали серию экспериментов для строгого подтверждения предлагаемого ими энергетически-управляемого непрерывного энтропийного барицентра (EOT) в различных сценариях, от низкоразмерных игрушечных задач до высокоразмерных многообразий изображений. Основная стратегия валидации, особенно когда истинный барицентр неизвестен, заключалась в сравнении вычисленного EOT барицентра (для достаточно малого параметра регуляризации $\epsilon$) с аналитически выводимым нерегуляризованным барицентром ($\epsilon=0$). Этот подход безжалостно доказал эффективность их математических утверждений, продемонстрировав качественное и количественное согласие или превосходную производительность, где это применимо.
Для 2D игрушечных распределений, в частности, для примера «скручивателя», эксперимент был разработан с тремя кометчатыми 2D распределениями ($P_1, P_2, P_3$) с равномерными весами. Были протестированы две различные функции стоимости: неевклидова «скрученная стоимость» $c_k(x_k, y) = ||u(x_k) - u(y)||^2$ и стандартная евклидова $l^2$ стоимость $c_k(x, y) = ||x - y||^2$, обе с регуляризацией $\epsilon = 10^{-2}$. «Жертвами» или базовыми моделями здесь были аналитически выведенный истинный нерегуляризованный барицентр для скрученной стоимости (центрированный Гаусс) и $l^2$ барицентр, оцененный с использованием решателя free_support_barycenter из пакета POT [33]. Это позволило прямое сравнение с известными или хорошо зарекомендовавшими себя решениями. В 3D эксперименте со сферой решатель оценил барицентр четырех распределений фон Мизеса на 3D сфере с использованием неквадратичной функции стоимости $c_k(x_k, y) = \frac{1}{2} \arccos^2(x_k, y)$ и $\epsilon = 10^{-2}$. Здесь истинный результат был неизвестен, поэтому оценка была в основном качественной, сосредоточенной на разумности изученного барицентра.
Для данных изображений эксперименты включали цифры MNIST 0/1 и набор данных Ave, celeba!. Для MNIST задача заключалась в усреднении распределений цифр 0/1 с равными весами в сером пространстве изображений $32 \times 32$. Истинный нерегуляризованный $l^2$-барицентр для MNIST — это простое попиксельное среднее, и авторы сравнивали с существующими решателями, такими как SCWB [32] и WIN [55], которые изучают нерегуляризованные барицентры. Критически важно, что они ввели установку с ограничением многообразия, где пространство поиска барицентра было ограничено предварительно обученным многообразием StyleGAN [50], даже «загрязнив» это многообразие неуместными выборками для проверки устойчивости. Функция стоимости была изменена на $c_{k,G}(x_k, z) = ||x_k - G(z)||^2$ с $\epsilon = 10^{-2}$. Эксперимент с набором данных Ave, celeba! включал усреднение трех деградированных подмножеств лиц, где истинный нерегуляризованный $l^2$ барицентр — это распределение самих лиц Celeba. Это также оценивалось в установке с ограничением многообразия с $\epsilon = 10^{-4}$ против SCWB [32] и WIN [55].
Наконец, для гауссовых распределений авторы провели количественную оценку с использованием трех гауссовых распределений в различных размерностях ($D = 2, 4, 8, 16, 64$) с весами $(\frac{1}{4}, \frac{1}{2}, \frac{1}{4})$ и регуляризацией $\epsilon = 10^{-2}, 1$. Истинный нерегуляризованный барицентр $Q^*$ был оценен путем итеративной процедуры из репозитория WIN, а сам решатель WIN [55] служил базовой моделью. Основной метрикой был $L_2$-UVP (процент необъясненной дисперсии) барицентрических проекций. Также были проведены абляционные исследования для понимания влияния размера пакета и количества шагов Ланжевена. Эксперимент с одноклеточными данными также был проведен, сфокусированный на интерполяции клеточных популяций во времени, с размерностями $D = 50, 100, 1000$. Здесь метрикой был MMD (Maximum Mean Discrepancy), а базовыми моделями — LightSB-M [2], SFM-sink [3] и EGNOT [1].
Что доказывают свидетельства
Экспериментальные данные однозначно доказывают, что предлагаемый энергетически-управляемый непрерывный энтропийный барицентр (EOT) эффективно аппроксимирует непрерывные EOT барицентры для общих функций стоимости, преодолевая ограничения предыдущих методов.
Эксперимент с 3D сферой (Рисунок 1) предоставляет качественные свидетельства того, что подход применим к нестандартным, неквадратичным экспериментальным установкам, давая разумные барицентры даже при неизвестном истинном результате. Это демонстрирует гибкость и надежность метода за пределами простых евклидовых пространств.
Для 2D примера «скручивателя» качественные результаты (Рисунок 12) демонстрируют неоспоримые свидетельства того, что наш решатель с $\epsilon = 10^{-2}$ точно восстанавливает истинный нерегуляризованный барицентр для неевклидовой скрученной стоимости. Вычисленный барицентр (рис. 12b) визуально идеально соответствует аналитически выведенному гауссову истинному результату (рис. 12a). Это является сильным подтверждением способности основного механизма обрабатывать сложные, неевклидовы стоимости. Для стоимости $l^2$ наш EOT барицентр (рис. 12d) также хорошо согласуется с истинным $l^2$ барицентром (рис. 12c), что еще раз подтверждает его общую применимость. Различные структуры изученных условных планов для скрученной и $l^2$ стоимостей подчеркивают чувствительность метода к лежащей в основе геометрии, определяемой функцией стоимости.
В экспериментах с MNIST 0/1 «эффект размытия» и шум, наблюдаемые в EOT барицентре в пространстве данных (Рисунок 5, «НАШ (Пространство данных)»), соответствуют природе энтропийно-регуляризованного ОТ и выборки MCMC. Однако установка с ограничением многообразия (Рисунок 5, «НАШ (Ограничение многообразия)») окончательно доказывает мощь предлагаемого метода. Ограничивая пространство поиска многообразием StyleGAN, решатель дает чистые, интерпретируемые барицентры, эффективно игнорируя «загрязненные» выборки с многообразия. Это является важным свидетельством того, что ограничение многообразия успешно устраняет проблему шума, присущую прямой оценке EOT барицентра в пространстве данных.
Оценка набора данных Ave, celeba! предоставляет убедительные количественные доказательства. Наш решатель достиг значительно более низких показателей FID (Таблица 2) по сравнению с базовыми моделями SCWB [32] и WIN [55]. Например, FID нашего метода для $k=1$ составил 8,4 (со стандартным отклонением 0,3), что значительно превосходит показатели SCWB (56,7) и WIN (49,3). Это существенное улучшение, особенно в установке с ограничением многообразия, является окончательным доказательством того, что основной механизм в сочетании с генеративными моделями дает превосходное перцептивное качество и более точную оценку барицентра для сложных распределений изображений. Качественные результаты (Рисунок 4) также показывают «качественно хорошие» транспортированные изображения, несмотря на случайные сбои в сохранении содержимого, связанные с MCMC.
Для гауссовых распределений количественная метрика $L_2$-UVP (Таблица 7) предоставляет неопровержимые доказательства точности решателя. Для малого $\epsilon = 0.01$ и размерностей до $D=16$ наш алгоритм дал показатели $L_2$-UVP, которые были даже лучше, чем у решателя WIN, который специально разработан для нерегуляризованного случая. Например, при $D=2$ наш $L_2$-UVP составил 0,02 по сравнению с 0,03 у WIN. Это демонстрирует, что при соответствующей регуляризации наш EOT решатель может достигать передовых показателей точности, даже превосходя методы, предназначенные для нерегуляризованного случая. Абляционные исследования по размеру пакета (Таблица 9) и шагам Ланжевена (Рисунок 11) далее подтверждают, что производительность метода чувствительна к этим параметрам, причем большие размеры пакетов и достаточные шаги Ланжевена приводят к улучшению качества, как и ожидалось от подходов на основе MCMC.
Наконец, эксперимент с одноклеточными данными (Таблица 8) показывает, что наш универсальный подход к энтропийному барицентру почти соответствует производительности ведущих базовых моделей (например, 2,32 для НАШЕГО против 2,33 для LightSB-M при $D=50$) в различных размерностях и установках. Это предполагает его потенциал как надежной, готовой к использованию базовой модели для таких задач, как интерполяция популяций.
Ограничения и будущие направления
Хотя предлагаемый энергетически-управляемый непрерывный энтропийный барицентр (EOT) демонстрирует значительные достижения, важно признать его присущие ограничения и рассмотреть перспективные направления для будущих исследований.
Одно из основных методологических ограничений вытекает из опоры на процедуры Марковских цепей Монте-Карло (MCMC) во время обучения и вывода. Базовый нерегулируемый алгоритм Ланжевена (ULA) может страдать от плохой сходимости к желаемому распределению $\mu^\ddagger$, особенно в сложных энергетических ландшафтах. Выборка MCMC также по своей сути трудоемка, что влияет на масштабируемость метода, особенно для больших размеров пакетов или задач с высокой размерностью, как отмечено в анализе вычислительной сложности (Таблица 3, Приложение C). Будущая работа, безусловно, должна исследовать более эффективные процедуры выборки, черпая вдохновение из передовых методов MCMC, таких как те, которые включают буферы воспроизведения [46], вспомогательные переменные [43] или нейронный транспорт [47, 71, 99, 108, 66, 26]. Это может значительно снизить вычислительную нагрузку и улучшить стабильность сходимости.
Другое теоретическое ограничение заключается в том, что текущий анализ границ обобщения и гарантий универсальной аппроксимации (§4.3) не учитывает ошибки оптимизации, возникающие в результате процесса градиентного спуска и самой MCMC выборки. Это сложная область теории машинного обучения, отличная от сферы данной статьи, но она представляет собой важнейшее направление для более глубокого теоретического понимания. Будущие исследования могли бы быть направлены на преодоление этого разрыва путем разработки более полной теоретической основы, которая интегрирует эти практические проблемы оптимизации.
С точки зрения постановки задачи, использование энтропийной регуляризации в пространстве данных изображений может привести к «эффекту размытия» и шумным барицентрическим изображениям, как наблюдалось в эксперименте с EOT барицентром в пространстве данных MNIST 0/1 (Рисунок 5). Хотя установка с ограничением многообразия эффективно смягчает это, используя предварительно обученные генеративные модели, такие как StyleGAN, она вводит зависимость от качества и пригодности этих внешних моделей. Тогда возникает вопрос: как гарантировать, что выбранное многообразие действительно отражает лежащую в основе структуру данных, и насколько устойчив метод к «загрязненным» или несовершенным многообразиям? Будущая работа могла бы исследовать адаптивные методы изучения многообразий или методы совместного изучения многообразия и барицентра, вместо опоры на фиксированную, предварительно обученную генеративную модель.
Важная перспективная тема для обсуждения вращается вокруг расширения энергетически-управляемой методологии на двойственно-регуляризованные EOT барицентры, где параметры регуляризации $\lambda$ и $\tau$ не обязательно равны $\epsilon$ (Приложение B.3). Текущий решатель адаптирован для случая барицентра Шрёдингера ($\lambda = \tau = \epsilon$), где член энтропии $H(Q)$ исчезает из целевой функции. Включение ненулевого члена $H(Q)$ потребует отдельного, нетривиального вычисления энтропии вторых маргиналов $\pi_k(y)$, что в настоящее время невыполнимо по необработанным выборкам MCMC. Разработка новых методов для оценки или аппроксимации этого члена энтропии, или переформулировка двойственной цели для избежания его прямого вычисления, откроет более широкий класс задач EOT барицентра.
Другая критическая область для будущего развития лежит в проектировании соответствующих функций стоимости и многообразий данных для реальных приложений, особенно в таких областях, как медицина (проблемы сдвига домена) и геология (смешивание симуляторов). Статья подчеркивает, что эффективное применение барицентров в этих областях требует доменно-специфических знаний для определения осмысленных функций стоимости $c_k$ и выбора или построения подходящих многообразий данных $M$. Это предполагает необходимость междисциплинарного сотрудничества, объединяющего экспертов по машинному обучению со специалистами в предметной области для совместной разработки решений, специфичных для конкретной задачи. Например, в медицинской визуализации, исследование того, как параметризовать многообразия медицинских данных с использованием новых больших генеративных моделей (например, DALL-E [85], StableDiffusion [87]), может открыть новые направления для анализа.
Альтернативная процедура обучения с использованием важности выборки (IS) (Приложение D) демонстрирует потенциал для более быстрой сходимости, но вносит свою проблему: необходимость точного выбора пропозиционального распределения $q$ для снижения дисперсии оценщика. Это часто трудно в реальных сценариях. Будущие исследования могли бы сосредоточиться на разработке адаптивных или изученных пропозициональных распределений для IS, потенциально объединяя его с MCMC или другими методами для создания более надежных и эффективных алгоритмов обучения для EOT барицентров.
Наконец, масштабируемость и вычислительная эффективность остаются ключевыми проблемами. Хотя текущий метод работает для крупномасштабных установок, время вывода, особенно из-за MCMC, может быть значительным. Исследование аппаратного ускорения MCMC, стратегий распределенных вычислений или аппроксимаций, которые снижают количество шагов Ланжевена без существенного ухудшения качества (как намекают абляционные исследования), было бы ценным. Цель должна состоять в том, чтобы сделать эти непрерывные решатели барицентров более доступными и практичными для промышленных и социально значимых проблем, по-настоящему используя их потенциал в качестве «базовых моделей» для задач оптимального транспорта.
Figure 1. Entropic barycenter Q∗(5) of N = 4 von Mises distributions Pn on the sphere (see M5.1) estimated with our barycenter solver (Algorithm 1). The used transport costs are ck(xk, y) = 1
Figure 12. 2D twister example. Trained with importance sampling: The true barycenter of 3 comets vs. the one computed by our solver with ϵ = 10−2. Two costs ck are considered: the twisted cost (12a, 12b) and ℓ2 (12c, 12d). We employ the simulation-free importance sampling procedure for training
Figure 5. Qualitative comparison of barycenters of MNIST 0/1 digit classes computed with barycenter solvers in the image space w.r.t. the pixel-wise ℓ2. Solvers SCWB and WIN only learn the unregularized barycenter (ϵ = 0) directly in the data space. In turn, our solver learns the EOT barycenter in data space as well as it can learn EOT barycenter restricted to the StyleGAN manifold (ϵ = 10−2)
Table 4. Hyperparameters that we use in the experiments with our Algorithm 1