← Back
ICLR

RFWave:用于音频波形重建的多频段整流流

Recent advancements in generative modeling have significantly enhanced the reconstruction of audio waveforms from various representations.

Open PDF

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

背景与学术渊源

起源与学术渊源

音频波形重建问题,即从低维特征转换为逼真、可感知的声音,源于对增强数字交互日益增长的需求。这项技术对于虚拟助手、娱乐系统和文本到语音合成等各种应用至关重要,在这些应用中,生成高质量、自然的声音和音乐至关重要。历史上,随着先进生成模型的出现,该领域已超越了传统的信号处理方法(Kawahara 等人,1999 年;Morise 等人,2016 年)。

早期重要的进展来自两个主要范式:自回归模型和生成对抗网络(GAN)(Goodfellow 等人,2014 年)。自回归模型虽然能够产生高质量的音频,但其生成速度缓慢,受到严重限制。这种缓慢源于其对单个采样点进行顺序预测(Oord 等人,2016 年;Kalchbrenner 等人,2018 年;Valin & Skoglund,2019 年),使得实时应用不切实际。GAN 通过并行预测采样点(Kumar 等人,2019 年;Yamamoto 等人,2020 年;Kong 等人,2020a)提供了更快的生成速度,但它们引入了自己的一系列“痛点”。这些包括需要复杂的判别器设计以及训练不稳定或模式崩溃(Thanh-Tung 等人,2018 年)等问题,模型可能无法学习到数据的全部多样性。

最近,扩散模型(Song 等人,2020 年;Ho 等人,2020 年)作为一种有前途的替代方案出现,提供了更好的训练稳定性和重建高质量波形的能力(Chen 等人,2020 年;Kong 等人,2020b;gil Lee 等人,2022 年)。然而,扩散模型继承了一个显著的限制:它们比 GAN 慢至少一个数量级。这种缓慢主要归因于两个因素:(1) 需要大量的采样步骤才能获得高质量的样本,以及 (2) 它们在单个波形采样点级别上运行。后者通常涉及多个上采样操作来弥合帧率和采样率分辨率之间的差距,导致序列长度增加、GPU 内存使用量增加以及计算需求巨大。扩散模型推理速度慢这一根本性限制是 RFWave 旨在解决的核心“痛点”,它力求在保持扩散模型稳定性和质量的同时,匹配基于 GAN 的速度。

直观的领域术语

以下是论文中的一些专业术语,用日常类比为初学者进行了解释:

  • Mel-频谱图 (Mel-spectrogram):想象一下你有一张乐谱,它以视觉方式呈现一首歌曲。Mel-频谱图与之类似,但它是计算机可以理解的声音的数字“图片”。它显示了不同频率的响度如何随时间变化,并采用特殊的缩放(Mel 尺度)来模拟人类感知音高的能力。它就像机器的乐谱,突出了声音的重要部分。
  • 整流流 (Rectified Flow):想象一次从 A 点到 B 点的旅程。通常,你可能会走一条弯弯曲曲的路,有很多转弯。整流流就像在 A 点(噪声数据)和 B 点(干净音频)之间找到最直接的直线路径。这条“直线高速公路”使旅程更快、更有效,使模型能够以更少的步骤将噪声转换为声音。
  • 扩散模型 (Diffusion Models):想象一张非常模糊的照片,随着你“去噪”的每一步,它会逐渐变得越来越清晰。扩散模型的工作方式类似:它们从随机噪声开始(就像一张完全模糊的图片),然后通过逆转扩散过程,一步一步地将其转换为连贯、高质量的音频波形。这就像一位艺术家在画布上慢慢添加细节,直到出现杰作。
  • 模式崩溃 (Mode Collapse) (在 GAN 中):想象一位厨师被要求烹饪各种菜肴,但他只学会了完美地制作一道特定的菜肴,而忽略了所有其他食谱。在 GAN 等生成模型中,模式崩溃意味着模型无法生成多样化的输出,而是只产生有限的、相似的、高质量的样本。这就像厨师总是做同样完美的意大利面,即使被要求做牛排或沙拉,因为它唯一知道如何做得好的就是这个。

符号表

符号 描述
$Z_t$ 在变换过程中,数据在给定时间 $t$ 的演变状态。
$v(Z_t, t)$ 决定数据 $Z_t$ 在时间 $t$ 如何变化的“速度”场,将其导向目标。
$\pi_0$ 初始概率分布,通常代表随机噪声。
$\pi_1$ 目标概率分布,代表期望的真实音频数据。
$X_0$ 初始数据样本,通常是随机噪声,从 $\pi_0$ 中抽取。
$X_1$ 目标数据样本,代表从 $\pi_1$ 中抽取的地面真实音频波形或频谱图。
$X_t$ 时间 $t$ 的中间数据样本,代表 $X_0$ 和 $X_1$ 之间的插值。
$t$ 时间变量,从 $0$(变换开始)进展到 $1$(变换结束)。
$C$ 条件输入,例如指导音频生成的 Mel-频谱图或离散声学标记。
$N$ 快速傅里叶变换 (FFT) 的大小,决定了频率分辨率。
$d_s$ 特定子带复频谱中频率 bin 的数量。
$F$ 频谱图中帧的总数,代表时间段。
$i_{sb}$ 标识特定子带的索引。
$i_{bw}$ EnCodec 标记的带宽索引,用于不同的压缩级别。
$\sigma$ 在能量平衡损失中使用的加权系数,通常来自地面真实速度的标准差。
$S(v)$ 对学习到的速度场轨迹的“直线度”的度量,表示变换路径的直接程度。

问题定义与约束

核心问题表述与困境

本文解决的核心问题是从 Mel-频谱图或离散声学标记等各种压缩表示中高效重建高保真音频波形。

该问题的输入/当前状态包括:
* 低维音频特征,特别是 Mel-频谱图或离散声学标记,它们是声音的紧凑表示。
* 现有的生成模型,主要是扩散模型和生成对抗网络(GAN),它们各有局限性。扩散模型虽然能够产生高质量的音频,但在单个波形采样点级别上运行,并且需要大量的采样步骤,导致显著的延迟。GAN 虽然速度更快,但通常存在训练不稳定和模式崩溃的问题,并且需要复杂的判别器设计。

期望的终点/目标状态是实现:
* 从这些低维输入重建的高保真音频波形。
* 一个生成模型,其推理速度能够与基于 GAN 的方法相媲美(即实时或更快),同时保留扩散模型的训练稳定性和高样本质量。
* 能够以大大减少的采样步骤(例如,RFWave 实现的仅 10 步)重建波形。
* 卓越的计算效率,能够以显著快于实时(例如,在 GPU 上快 160 倍)的速度生成音频。
* 从 Mel-频谱图和离散声学标记重建音频的多功能性。

当前状态与期望终点之间的确切缺失环节或数学鸿沟是缺乏一个生成建模框架,该框架能够同时实现扩散模型的高感知质量和训练稳定性,以及 GAN 的高计算效率和低延迟,用于音频波形重建。以前的扩散模型在数学上被表述为在多个步骤中逐渐去噪信号,这使得它们本质上很慢。GAN 虽然速度快,但缺乏稳定的训练和一致质量的可靠数学保证。本文试图通过利用整流流来弥合这一差距,整流流旨在学习噪声和数据分布之间的直接、直线传输轨迹,从而减少所需的采样步骤。具体来说,整流流学习一个速度场 $v(Z_t, t)$,该速度场控制着噪声样本 $Z_t$ 从初始噪声分布 $\pi_0$ 到目标数据分布 $\pi_1$ 的演变,使得 $\frac{dZ_t}{dt} = v(Z_t, t)$。学习目标最小化与直线轨迹的偏差:
$$ \min E_{(X_0, X_1)\sim\gamma} \int_0^1 || \frac{d}{dt}X_t - v(X_t, t) ||^2 dt $$
其中 $X_t = (1-t)X_0 + tX_1$ 表示线性插值。这种数学表述是通过实现更少、更直接的步骤来加速推理过程的关键。

过去研究人员陷入的痛苦的权衡或困境音频质量/训练稳定性推理速度/计算效率之间的根本冲突。改进一个方面通常会损害另一个方面:
* 扩散模型:提供出色的音频质量和稳定的训练,但速度非常慢。它们在“单个采样点级别”的运行以及对“大量采样步骤”的需求(通常是数百或数千步)导致高延迟和计算需求。
* GAN:通过并行预测采样点提供快速生成速度,但却饱受“复杂的判别器设计以及不稳定或模式崩溃问题”(第 1 页)的困扰,使得它们更难可靠地训练,有时会导致质量较低或输出多样性不足。

这种困境意味着研究人员以前必须在高质量、稳定但慢速的模型,或快速但可能不稳定且质量较低的模型之间进行选择。本文旨在打破这种权衡。

约束与失效模式

高保真、实时音频波形重建问题由于存在几个严苛的、现实的约束和固有的失效模式,因此极其困难:

  • 计算成本和 GPU 内存限制

    • 采样点级操作:以前的扩散模型在单个采样点级别上处理音频。这需要“多次上采样操作才能从帧率分辨率过渡到采样率分辨率,从而增加序列长度,并因此导致更高的 GPU 内存使用量和计算需求”(第 2 页)。对于高分辨率音频(例如 44.1 kHz 或 48 kHz),处理每秒数百万个采样点在计算上是不可行的,并且内存占用量很大。例如,PriorGrad 只能在 30 GB 的 GPU 内存中以 44.1 kHz 的采样率训练 6 秒的音频片段,这凸显了这种严重的内存限制(第 4 页)。
    • 大量的采样步骤:扩散模型通常需要数百或数千个采样步骤来生成高质量的音频,这直接影响了推理速度和计算负载。这使得它们“比 GAN 慢至少一个数量级”(第 1 页)。
  • 实时延迟要求:许多实际应用(例如,虚拟助手、实时通信)要求极低的延迟。现有的扩散模型,即使是最快的模型,也仅比实时快“大约 10 到 20 倍”(第 3 页),这对于真正的实时交互来说是不够的,尤其是在与大规模声学模型结合使用时。

  • 训练不稳定和模式崩溃(针对 GAN):虽然 GAN 提供了速度,但它们的训练非常困难。 “复杂的判别器设计”和“不稳定或模式崩溃”(第 1 页)等问题意味着它们可能无法学习到完整的数据分布,导致输出多样性较低或质量较低。

  • 多频段处理中的误差累积:在使用多频段策略时,“将较高频段条件化到较低频段上可能导致误差累积,这意味着较低频段中的不准确性会在推理过程中对较高频段产生不利影响”(第 4 页)。这意味着频谱一个部分中的错误会传播并损坏其他部分。

  • 静音区域的低音量噪声:使用均方误差 (MSE) 损失训练的模型的一个常见失效模式是在“预期的静音区域存在低音量噪声”(第 5 页)。发生这种情况是因为静音部分的小误差对总 MSE 的贡献很小,导致模型优先减少高幅度区域中的较大误差,从而在安静的部分产生可感知的噪声。

  • 子带之间不一致:当不同的频率子带被独立预测时,存在“它们之间不一致”(第 6 页)的风险,导致重建波形中的子带边界出现可听见的伪影。

  • 背景噪声中的伪影:如果没有像 STFT 损失这样的特定损失函数,模型可能会在“背景噪声存在的情况下生成‘垂直图案’或其他‘伪影’”(图 A.8,第 6 页),从而降低感知质量。

  • 非线性传输轨迹:整流流的有效性依赖于学习“直线传输轨迹”(第 2 页)。如果学习到的速度场显著偏离线性,欧拉法将需要更多步骤来准确近似 ODE,从而抵消效率优势。这使得学习速度场成为一项精细的任务。

为什么选择这种方法

选择的必然性

RFWave 解决的核心问题是生成模型中音频重建质量与生成速度之间的关键权衡。传统的最先进 (SOTA) 方法虽然先进,但每种方法都存在显著的局限性,使得它们无法同时实现高保真度和实时性能。

作者意识到,尽管标准扩散模型在生成高质量音频和提供稳定训练方面表现出色,但它们在根本上受到两个因素的阻碍:(1) 在单个波形采样点级别上运行,以及 (2) 需要大量的采样步骤才能达到所需的质量。这导致了严重的延迟问题和高 GPU 内存消耗,使其比 GAN 慢至少一个数量级,并且不适用于实时应用。论文明确指出了这一认识:“虽然扩散模型在此任务中很擅长,但由于其在单个采样点级别上运行以及需要大量采样步骤,它们受到延迟问题的阻碍。”(摘要)。即使是最快的扩散方法也仅比实时快 10 到 20 倍的观察结果进一步强调了这种不足,这与现实世界应用的需求相去甚远。

生成对抗网络(GAN)虽然能够通过并行预测采样点来实现更快的生成速度,但它们存在固有的训练不稳定性和模式崩溃等问题,通常需要复杂的判别器设计。自回归模型,另一类生成模型,也因其对采样点的顺序预测而被拒绝,导致生成速度不可接受地慢。

整流流结合多频段、帧级处理策略,成为唯一可行的解决方案,因为它直接解决了这些根本性限制。它提供了一种机制,可以在实际内存限制内,在实现扩散模型的高样本质量和训练稳定性的同时,匹配甚至超越 GAN 的生成速度。消融研究进一步证实了这一点,表明“整流流对于我们的模型高效生成高质量音频样本至关重要”(第 9 页),因为具有更多步骤的传统扩散噪声调度未能达到基线性能。

比较优势

RFWave 在定性上远远优于以前的黄金标准,其优势远远超出了简单的性能指标。

首先,在速度方面,RFWave 在 GPU 上实现了高达实时 160 倍的推理速度(摘要)。这比通常运行速度为实时 10-20 倍的扩散模型有了显著改进,甚至超过了许多基于 GAN 的方法。例如,表 7 显示 RFWave 的 GPU xRT(实时倍数)为 162.59,而 BigVGAN 为 72.68,PriorGrad 为 16.67。这种结构优势源于整流流学习直线传输轨迹的能力,仅用 10 个采样步骤即可实现高质量重建,远少于其他扩散模型。

其次,在质量方面,RFWave 在客观指标(例如,MOS、PESQ、ViSQOL)和主观评估(表 1)方面始终优于 PriorGrad 和 FreGrad 等基于扩散的基线。虽然它在 in-domain 数据上与 BigVGAN 和 Vocos 等 GAN 的表现相当,但当处理 out-of-domain 数据(MUSDB18 数据集)时,其优势变得尤为明显。在这里,RFWave 显示出“显著优势”(第 8 页),产生更清晰、定义明确的高频谐波,而 GAN 则倾向于生成“水平线”,导致“金属般的声音质量”(图 A.7)。这表明 RFWave 具有更强的泛化能力和鲁棒性。

第三,RFWave 提供了卓越的计算效率和内存复杂性。通过在短时傅里叶变换 (STFT) 帧级别而不是单个波形采样点级别运行,它极大地减少了 GPU 内存使用量。这种结构优势使得 RFWave 能够处理 177 秒的音频剪辑,而 PriorGrad(一种采样点扩散声码器)仅使用 6 秒的剪辑(第 4 页)所需的内存资源相同。表 7 进一步说明了这一点,RFWave 消耗了 780 MB 的 GPU 内存,而 PriorGrad 为 4976 MB,MBD 为 5480 MB。这种帧级处理避免了困扰采样点模型的“多次上采样操作”和序列长度增加,否则会导致更高的 GPU 内存使用量和计算需求。

最后,多频段策略是一个关键的结构优势。通过同时生成不同的子带并使用单个统一模型并行建模它们,RFWave 避免了当较高频段顺序依赖于较低频段时可能发生的误差累积。这不仅保证了音频质量,还提高了合成速度。引入三个增强的损失函数(能量平衡、重叠和 STFT 损失)以及优化的“等直线度”采样策略,进一步提升了整体质量和鲁棒性,特别是在处理低音量区域、确保平滑的子带过渡和减少伪影方面。

与约束的对齐

所选择的整流流方法及其架构创新,完美地符合高保真、实时音频波形重建的严格要求。

  1. 高保真音频质量:该问题要求卓越的音频质量。RFWave 通过利用扩散类型模型固有的质量保持能力,并进一步通过整流流学习直接、高质量映射的能力来实现这一点。三个增强的损失函数(能量平衡、重叠和 STFT 损失)以及“等直线度”采样策略专门用于提高感知质量,抑制静音区域的噪声,确保平滑的子带过渡,并保留高频细节。“结合”强大的生成框架和有针对性的质量增强,确保输出不仅好,而且“出色”(摘要)。

  2. 实时生成速度:一个关键的约束是克服先前扩散模型的延迟。整流流的直线传输轨迹能够将采样步骤大幅减少到仅 10 步,这是解决推理速度慢问题的直接方案。此外,在 STFT 帧级别而不是单个采样点级别运行,允许子带并行处理,从而显著加速计算。这种组合产生了高达实时 160 倍的生成速度,直接满足了实时应用的要求。

  3. 高效的资源利用:采样点级处理的高 GPU 内存和计算需求是主要瓶颈。RFWave 的帧级操作非常适合此约束,能够实现“更高效的处理并减少 GPU 内存使用量”(第 2 页)。这使得模型能够处理更长的音频剪辑(例如,177 秒),而其他模型处理短剪辑(例如,6 秒)所需的内存相同,使其适用于各种应用。

  4. 训练稳定性:GAN 在训练稳定性和模式崩溃方面存在问题。作为一种扩散类型的模型,RFWave 本质上受益于扩散模型提供的“训练过程中的稳定性”(引言),从而避免了基于 GAN 的替代方案的一个关键陷阱。

  5. 输入表示的多功能性:该问题要求从各种输入重建波形具有灵活性。RFWave 被设计用于从 Mel-频谱图和离散声学标记重建波形,增强了其在不同音频生成任务中的多功能性和适用性。

这种精心设计确保 RFWave 不仅仅是一个高性能模型,而是一个专门为满足高效、高质量音频重建的严苛、多方面要求而构建的模型。

替代方案的拒绝

该论文为拒绝其他流行的音频波形重建方法提供了清晰的理由:

  • 传统扩散模型(例如,DiffWave、WaveGrad、PriorGrad、FreGrad、Multi-Band Diffusion):这些模型被拒绝主要是因为它们的生成速度慢和计算需求高。论文指出它们“由于在单个采样点级别上运行以及需要大量采样步骤而受到延迟问题的阻碍”(摘要)。具体来说,它们“比 GAN 慢至少一个数量级”,并且“仅比实时快大约 10 到 20 倍”(引言,第 3 页),这限制了它们的实时适用性。RFWave 通过使用整流流将采样步骤减少到 10 步,并在 STFT 帧级别运行以减少内存和计算开销,从而实现了 160 倍实时速度,直接解决了这个问题。消融研究明确表明,使用具有 50 步的标准扩散噪声调度(DDPM)在性能上“未能达到基线”(表 6),这凸显了整流流的必要性。

  • 生成对抗网络(GAN)(例如,HiFi-GAN、BigVGAN、Vocos、APNet2):虽然 GAN 提供了更快的生成速度,但它们被拒绝是因为其固有的训练不稳定性和模式崩溃等问题(引言)。GAN 通常需要“复杂的判别器设计”,并且可能存在“灾难性遗忘”(Thanh-Tung 等人,2018 年)。此外,对于 out-of-domain 数据,像 BigVGAN 和 Vocos 这样的 GAN 模型倾向于在“频谱图的高频区域生成水平线”,导致“金属般的声音质量”,从而降低了自然度(第 8 页,图 A.7)。RFWave 作为一种扩散类型的模型,继承了扩散模型“训练过程中的稳定性”,同时在 out-of-domain 泛化方面超越了 GAN,并与其速度相匹配或超越。

  • 自回归模型(例如,WaveNet):这些模型因其由采样点顺序预测导致的生成速度慢而不适合(引言)。这种顺序特性使其本质上对于实时音频合成效率低下,而实时音频合成是该问题的关键要求。RFWave 在帧级别上的并行处理和减少的采样步骤提供了对这一限制的直接反击。

  • 采样点级处理:这种方法在许多早期扩散和自回归模型中很常见,被拒绝是因为它会导致“多次上采样操作才能从帧率分辨率过渡到采样率分辨率,从而增加序列长度,并因此导致更高的 GPU 内存使用量和计算需求”(引言)。RFWave 转向 STFT 帧级操作直接缓解了这些内存和计算瓶颈。

数学与逻辑机制

主方程

驱动 RFWave 的绝对核心方程,特别是其能量平衡增强功能,是在训练过程中最小化的目标函数。该方程定义了模型如何学习将噪声转换为目标音频表示的速度场。

$$ \min_{v} E_{X_0 \sim \pi_0, (X_1, C) \sim D} \left[ \int_0^1 \left\| \frac{(X_1 - X_0)}{\sigma} - v(X_t, t | C)/\sigma \right\|^2 dt \right] $$
其中 $\sigma = \sqrt{\text{Var}_t(X_1 - X_0)}$ 且 $X_t = (1 - t)X_0 + tX_1$。

分步解析

让我们剖析这个主方程,以理解每个组件的数学定义、物理/逻辑作用以及作者的设计选择。

  • $v$:这代表神经网络学习到的速度场

    • 数学定义:它是一个函数 $v: \mathbb{R}^d \times [0, 1] \times \mathcal{C} \to \mathbb{R}^d$,其中 $\mathbb{R}^d$ 是数据空间,$[0, 1]$ 是时间间隔,$\mathcal{C}$ 是条件输入空间。在 RFWave 中,它由深度神经网络(特别是 ConvNeXtV2 主干)参数化。
    • 物理/逻辑作用:这是模型的核心输出。它预测给定中间状态 $X_t$ 和时间 $t$ 下数据空间中的瞬时“速度”或方向,并以 $C$ 为条件。网络的目的是学习预测从噪声到数据的直线运动。
    • 设计选择:使用神经网络是因为它可以学习从高维输入($X_t, t, C$)到高维输出($v$)的复杂、非线性映射。
  • $E_{X_0 \sim \pi_0, (X_1, C) \sim D}$:这表示期望(平均值)样本。

    • 数学定义:它是 $(X_0, X_1)$ 对和条件输入 $C$ 的统计平均值。$X_0$ 从先验噪声分布 $\pi_0$(例如,标准高斯噪声)中抽取,而 $(X_1, C)$ 从真实数据分布 $D$ 中抽取(例如,$X_1$ 是目标复频谱图,$C$ 是 Mel-频谱图)。
    • 物理/逻辑作用:这确保模型能够泛化到各种噪声输入和目标数据,而不仅仅是记住特定示例。对许多样本的损失进行平均可以使训练具有鲁棒性。
  • $\int_0^1 \dots dt$:这是一个关于时间变量 $t$ 的定积分

    • 数学定义:它在从 $t=0$ 到 $t=1$ 的连续时间间隔内对瞬时平方误差求和。
    • 物理/逻辑作用:整流流描述了从噪声到数据的连续轨迹。对整个路径上的损失进行积分确保学习到的速度场在所有中间点都一致且准确,而不仅仅是离散的快照。这种连续表述是基于 ODE 的生成模型的基础。
  • $\left\| \cdot \right\|^2$:这是平方 $L_2$ 范数(欧几里得距离)。

    • 数学定义:对于向量 $z$,$\|z\|^2 = \sum_i z_i^2$。它测量差向量的平方幅度。
    • 物理/逻辑作用:这一项计算归一化地面真实速度与归一化预测速度之间的均方误差 (MSE)。最小化这个平方差是回归任务中的标准方法,鼓励模型的预测尽可能接近真实值。它因其可微性和凸性质而被选中,这有利于基于梯度的优化。
  • $X_1$:这代表目标数据

    • 数学定义:来自目标数据分布 $\pi_1$ 的样本,这是模型旨在重建的地面真实音频波形或复频谱图。
    • 物理/逻辑作用:这是期望的输出,是生成过程应收敛到的“干净”音频表示。
  • $X_0$:这代表初始噪声

    • 数学定义:来自先验噪声分布 $\pi_0$ 的样本,通常是标准高斯噪声 $N(0,1)$。
    • 物理/逻辑作用:这是生成过程的起点,模型将对其进行转换以生成有意义的音频的随机输入。
  • $C$:这是条件输入

    • 数学定义:Mel-频谱图或离散声学标记。
    • 物理/逻辑作用:它为生成提供指导信息。例如,如果目标是将 Mel-频谱图转换为音频波形,则 $C$ 将是该 Mel-频谱图。它允许受控和定向的音频合成。
  • $X_t = (1 - t)X_0 + tX_1$:这是插值状态

    • 数学定义:在时间 $t$ 下,介于 $X_0$ 和 $X_1$ 之间的线性插值。
    • 物理/逻辑作用:这一项定义了从噪声($t=0$ 时的 $X_0$)到数据($t=1$ 时的 $X_1$)的直线路径上的中间点。模型学习预测这些中间状态下的速度。
  • $\frac{(X_1 - X_0)}{\sigma}$:这是归一化地面真实速度

    • 数学定义:目标数据与初始噪声之间的直接差值,由 $\sigma$ 缩放。这代表了如果轨迹是完全线性的,则真实的、归一化的瞬时速度。
    • 物理/逻辑作用:这是神经网络 $v$ 应该学习近似的理想速度。除以 $\sigma$ 是关键的能量平衡归一化。
  • $v(X_t, t | C)/\sigma$:这是归一化预测速度

    • 数学定义:神经网络 $v$ 的输出,以 $X_t$、$t$ 和 $C$ 为输入,也由 $\sigma$ 缩放。
    • 物理/逻辑作用:这是模型预测的瞬时速度,由能量平衡系数进行归一化。训练过程旨在使这一项与归一化地面真实速度相匹配。
  • $\sigma = \sqrt{\text{Var}_t(X_1 - X_0)}$:这是能量平衡加权系数

    • 数学定义:地面真实速度 $(X_1 - X_0)$ 沿特征维度的标准差,在每个频率子带的时间轴上计算。
    • 物理/逻辑作用:引入这一项是为了解决低音量区域的低音量噪声问题。通过将地面真实速度和预测速度都除以 $\sigma$,损失函数根据区域能量对误差进行不同的加权。当 $\sigma$ 很小时(低能量/静音区域),项 $1/\sigma$ 变大,放大了这些区域误差对总损失的贡献。这迫使模型更加关注准确抑制安静部分中的噪声,从而防止生成可感知的低音量伪影。

分步流程

让我们追踪一个抽象数据点在推理(生成)过程中的生命周期,假设模型已经过训练。我们将考虑频率域方法,其中 $X_t$ 和 $v_t$ 位于频率域,因为它在推理过程中效率更高。

  1. 初始噪声注入(轨迹开始,$t=0$):过程开始于从标准高斯噪声分布 $N(0,1)$ 中抽取一个初始状态 $X_0$。这个 $X_0$ 是一个与目标音频具有相同维度的复频谱图。我们还接收指导生成的条件输入 $C$(例如,Mel-频谱图)。
  2. 迭代速度预测和状态更新(欧拉积分):模型然后通过一系列离散时间步 $t_i$,从 $t=0$ 到 $t=1$ 进行。对于每一步 $i$:
    • 当前状态:我们有当前估计的状态 $X_{t_i}$,它从 $X_0$ 开始。
    • 子带划分(如果适用):如果模型使用多频段结构,则将 $X_{t_i}$ 分为子带。每个子带的噪声样本($X_{t_i}^{\text{sb}}$)被馈送到 ConvNeXtV2 主干。
    • 速度预测:神经网络 $v$(ConvNeXtV2 主干)接收当前状态 $X_{t_i}$(或其子带 $X_{t_i}^{\text{sb}}$)、当前时间 $t_i$ 和条件输入 $C$(以及可能的子带索引 $i_{\text{sb}}$ 和带宽索引 $i_{\text{bw}}$)来预测瞬时速度 $v(X_{t_i}, t_i | C)$。
    • 欧拉步:然后使用预测的速度 $v(X_{t_i}, t_i | C)$ 来更新状态。使用像欧拉法这样的数值 ODE 求解器,下一个状态 $X_{t_{i+1}}$ 计算为 $X_{t_{i+1}} = X_{t_i} + v(X_{t_i}, t_i | C) \cdot \Delta t$,其中 $\Delta t = t_{i+1} - t_i$ 是时间步长。这有效地沿着预测的速度向量移动数据点。
    • 子带合并(如果适用):如果子带被独立处理,则将它们预测的速度合并回一个全带速度,然后用于欧拉步。
  3. 最终频谱图重建($t=1$):这个迭代过程持续一小步采样(例如,RFWave 中的 10 步),直到 $t$ 到达 1。最终状态 $X_1$ 是重建的复频谱图。
  4. 波形转换:由于 $X_1$ 是频域中的复频谱图,因此应用一个逆短时傅里叶变换 (ISTFT) 操作将其转换为最终的高保真音频波形。论文指出,对于频域模型,只需在最后进行一次 ISTFT,这是一个关键的效率提升。

这个序列将随机噪声输入转换为结构化的高质量音频波形,由条件输入和学习到的速度场指导。

优化动力学

RFWave 机制通过随机梯度下降,通过最小化能量平衡的整流流目标函数,并辅以额外的损失项,来学习、更新和收敛。

  1. 损失景观塑形:主要损失函数(方程 5)定义了一个损失景观,其中“山谷”对应于准确的速度预测。整流流的表述本身就鼓励学习直线轨迹,这往往会产生比学习复杂噪声调度的扩散模型更平滑、更易于处理的损失景观。关键的 $\sigma$ 项代表能量平衡系数,它动态地重塑了这种景观。在低能量区域(例如,静音),$\sigma$ 很小,使得项 $1/\sigma$ 变大。这有效地放大了这些区域误差对总损失的贡献,使得在静音部分中的微小偏差产生更陡峭的梯度。这确保模型在精确抑制安静部分中的噪声方面受到严格惩罚,从而防止了低音量伪影的常见问题。相反,在高能量区域,$\sigma$ 较大,防止这些主导区域完全掩盖其他部分的重要性。这种动态加权在整个音频频谱中创建了一个更平衡的学习目标。

  2. 梯度行为:在训练过程中,模型计算损失函数相对于其神经网络参数的梯度。这些梯度指示如何调整参数以减少误差。

    • $L_2$ 范数确保梯度将预测速度 $v(X_t, t | C)$ 推向与地面真实速度 $(X_1 - X_0)$ 对齐。
    • $\sigma$ 项直接影响梯度幅度。对于低 $\sigma$ 值,与这些区域误差相关的梯度会增大,迫使模型学习更准确地预测静音部分的速度。这是抑制噪声的直接机制。
    • 附加损失函数:RFWave 包含三个增强的损失函数:能量平衡损失(通过 $\sigma$ 已讨论)、重叠损失和 STFT 损失。这些附加损失引入了进一步的梯度信号:
      • 重叠损失:此损失在训练期间应用,以保持相邻子带重叠部分之间的一致性。它产生强制平滑过渡并防止在推理期间合并子带时出现不连续性的梯度。
      • STFT 损失:由频谱收敛 (SC) 损失和对数尺度 STFT 幅度损失(对数幅度上的 $L_1$ 范数)组成,该项作用于近似目标 $\tilde{X}_1$。SC 损失(Frobenius 范数)侧重于大频谱分量,而对数尺度 STFT 幅度损失则强调小幅度分量。这些损失提供了指导模型生成频谱上准确的音频的梯度,减少了伪影并提高了整体声音质量。这些附加损失的权重(例如,0.01)被选择以平衡它们与主要整流流损失的影响。
  3. 迭代状态更新与收敛:神经网络参数使用 AdamW 等优化器进行迭代更新,由所有损失组件的聚合梯度驱动。采用余弦退火学习率调度,从较高的速率(例如,2e-4)开始,逐渐降低到最小值(例如,2e-6)。这种调度有助于模型在训练早期进行大的调整,然后微调其参数以实现稳定的收敛。当预测的速度场 $v$ 精确地将任何中间状态 $X_t$ 映射到地面真实直线速度 $(X_1 - X_0)$(以 $C$ 为条件)时,模型就会收敛,跨越整个时间间隔。“等直线度”采样策略,虽然主要是推理技术,但也通过确保模型在所有欧拉步中得到一致的挑战来间接支持收敛,可能导致更稳健地学习速度场。

模型结构

模型结构如图 1 所示。所有频段,每个频段都有一个唯一的子带索引,共享相同的模型。给定样本的子带被分组到一个批次中进行处理,这有助于同时训练或推理。这大大降低了推理延迟。此外,独立建模子带可以减少误差累积。如 (Roman et al., 2023) 中所述,将较高频段条件化到较低频段上可能导致误差累积,这意味着较低频段中的不准确性会在推理过程中对较高频段产生不利影响。

模型将噪声样本 (Xt) 映射到其速度 (vt)。对于每个子带,将子带的噪声样本 (Xsb) 输入到 ConvNeXtV2 主干,以预测其速度 (vs),该速度以时间 (t)、子带索引 (ist)、条件输入 (C',即 Mel-频谱图或 EnCodec (Défossez et al., 2022) 标记) 和可选的 EnCodec 带宽索引 (ibw) 为条件。ConvNeXtV2 主干的详细结构如图 1 所示。我们采用傅里叶特征,如 (Kingma et al., 2021) 中所述。将 Xsb、C 和傅里叶特征沿通道维度连接,然后通过线性层,形成输入,该输入被馈送到一系列 ConvNeXtV2 块。正弦 t 嵌入以及可选的 ibw 嵌入被逐元素添加到每个 ConvNeXtV2 块的输入中。ibw 在解码 EnCodec 标记期间使用,使单个模型能够支持具有不同带宽的 EnCodec 标记。此外,ist 通过自适应层归一化模块引入,该模块使用可学习嵌入,如 (Siuzdak, 2023; Xu et al., 2019) 中所述。其他组件与 ConvNeXtV2 架构中的组件相同,详细信息可在 (Woo et al., 2023) 中找到。

我们的方法提供了两种建模选项。第一种涉及将高斯噪声直接映射到时域中的波形,其中 X0、X1、Xt 和 vt 都位于时域。第二种选项将高斯噪声映射到复频谱图,将 X0、X1、Xt 和 vt 放置在频域中。值得注意的是,Xish 和 vist 始终以频域表示,如以下段落所述,确保神经网络在帧级别运行。通过处理帧级特征,我们的模型比在波形采样点级别运行的扩散声码器(如 PriorGrad)具有更高的内存效率。虽然 PriorGrad (gil Lee et al., 2022) 可以在 30 GB 的 GPU 内存中以 44.1 kHz 的采样率训练 6 秒² 的音频剪辑,但我们的模型能够使用相同的内存资源处理 177 秒的剪辑。

在 Xt 处于时域和波形均衡下运行由于我们的模型设计为在帧级别运行,当 Xt 和 vt 处于时域时(特别是,X₁ 是波形,Xo 是形状相同的噪声,Xt 和 vt 来自 (3)),STFT 和 ISTFT 的使用,如图 1 所示,变得必要。Xt 和 vt 的维度遵循 [1, T]³,其中 T 是采样点中的波形长度。在 STFT 操作后,我们通过平均分割全带复频谱图来提取子带,得到 Xis。每个子带 Xisb

选择欧拉法的时点

Liu 等人 (2023) 在 (4) 中采用了等步长间隔的欧拉法。在这里,我们提出根据传输轨迹的直线度选择采样时点。选择时点是为了使每一步的直线度增加相等。学习到的速度场 v 的直线度定义为 S(v) = ∫ E || (X1 - Xo) – v(Xt, t | C) ||² dt,它描述了速度沿轨迹的偏差。较小的 S(v) 意味着更直的轨迹。这种方法确保了每个欧拉步的难度保持一致,需要模型在更具挑战性的区域采取更多步骤。使用相同数量的采样步骤,这种方法优于等间隔方法。实现细节在附录 A.5 中提供,而算法在附录 A.9.2 中给出。我们将此方法称为等直线度。

Figure 1. The overall structure for RFWave. isb is the subband index, C is the conditional input, which can be an Encodec token or Mel-spectrogram, and ibw is the EnCodec bandwidth index. Modules enclosed in a dashed box, as well as dashed arrows, are considered optional

结果、局限性与结论

实验设计与基线

为了严格验证 RFWave 的性能,作者设计了一个全面的实验设置,将其模型与各种音频域和输入类型的各种成熟的“受害者”基线进行比较。

对于Mel-频谱图输入,设计了两种主要的评估场景:
1. 与基于扩散的声码器进行比较:RFWave 模型分别在三个不同的数据集上进行训练:LibriTTS(用于语音)、MTG-Jamendo(用于音乐)和 Opencpop(用于人声音乐)。然后,这些模型在其各自的测试集上进行评估。此类别中的基线是最先进的扩散模型:PriorGrad 和 FreGrad。
2. 与基于 GAN 的声码器进行比较:在 LibriTTS 上训练了一个 RFWave 模型。然后,在其 in-domain LibriTTS 测试集和至关重要的 MUSDB18 数据集(out-of-domain)上评估其性能,以测试泛化能力和鲁棒性。这里的基线是广泛使用的 GAN 模型:Vocos 和 BigVGAN。

对于离散 EnCodec 标记输入,一个通用的 RFWave 模型在一个大规模混合数据集上进行训练,该数据集包括 Common Voice 7.0、DNS Challenge 4、MTG-Jamendo、FSD50K 和 AudioSet。然后,该通用模型在一个自定义构建的统一测试数据集(包含来自 15 个外部来源的 900 个音频样本,涵盖语音、人声和音效)上与 EnCodec 和 Multi-Band Diffusion (MBD) 进行评估。这种广泛的评估旨在证明 RFWave 在各种音频类型中的多功能性。

评估指标:同时使用了客观和主观度量。
* 客观指标包括 ViSQOL(感知质量,使用语音模式用于 22.05/24 kHz,音频模式用于 44.1 kHz 波形)、PESQ(语音质量感知评估)、V/UV F1(清浊音分类的 F1 分数)和周期性(周期性误差)。
* 主观评估涉及众包评估,使用 5 点平均意见分 (MOS) 量表(1:‘差/不自然’到 5:‘优秀/自然’)。对于每次比较,30 名听众对 20-40 组音频样本进行评分,包括地面真实、RFWave 和基线模型,顺序随机。

实现细节:RFWave 模型默认采用时域方法,包含三个增强的损失函数(能量平衡、重叠和 STFT 损失)以及一个 ConvNeXtV2 主干(8 个块)。复频谱图被分成 8 个等跨度的子带。一个关键的架构选择是推理仅使用 10 个采样步骤。还进行了消融研究,以剖析各个组件的影响,例如频域与时域建模、每个损失函数的增量添加、“等直线度”采样策略、不同的主干架构(ResNet vs. ConvNeXtV2)以及模型大小。推理速度在 NVIDIA GeForce RTX 4090 GPU 上以批次大小 1 进行基准测试。

证据证明的内容

论文中提出的经验证据为 RFWave 的核心机制在现实中的运作提供了明确而无可辩驳的证明,展示了其在音频质量和计算效率方面的卓越性能。

击败基于扩散的基线
在从 Mel-频谱图重建时,RFWave 在所有客观和主观指标上都无情地优于其基于扩散的“受害者”PriorGrad 和 FreGrad(表 1)。例如,RFWave 的平均 MOS 为 $3.95 \pm 0.09$,显著高于 PriorGrad 的 $3.75 \pm 0.09$ 和 FreGrad 的 $2.99 \pm 0.14$。客观上,RFWave 的 PESQ 为 $4.202$,远超 PriorGrad 的 $3.612$ 和 FreGrad 的 $3.640$。这种优越性的决定性证据在于 RFWave 能够生成“更清晰、更一致的谐波,尤其是在高频范围内”,正如附录 A.6(图 A.3、A.4、A.5)中的频谱图所视觉确认的那样,其中基线表现出轻微的不连续性或模糊的高频分量。这直接验证了整流流以更少的采样步骤实现高质量音频的有效性。

挑战基于 GAN 的基线
虽然 GAN 以速度著称,但 RFWave 在 in-domain 质量和 out-of-domain 泛化方面表现出相当的性能。在 in-domain LibriTTS 测试集上,RFWave 的 MOS($3.82 \pm 0.12$)与 BigVGAN($3.78 \pm 0.11$)和 Vocos($3.74 \pm 0.10$)相当(表 2)。然而,真正的胜利来自于 out-of-domain MUSDB18 数据集(表 3),其中 RFWave 的平均 MOS 为 $3.67 \pm 0.05$,显著优于 BigVGAN 的 $3.51 \pm 0.05$ 和 Vocos 的 $3.10 \pm 0.06$。这里的硬证据是图 A.7 中的视觉分析,其中显示 BigVGAN 和 Vocos 等 GAN 模型倾向于在“频谱图的高频区域生成水平线”,导致“金属般的声音质量”。相比之下,RFWave 始终生成“清晰且定义明确的高频谐波”,证明了其作为扩散类型模型的鲁棒性和泛化能力。

在 EnCodec 标记重建方面占主导地位
对于离散 EnCodec 标记输入,RFWave(使用 CFG2)在大多数指标(MOS、PESQ、V/UV F1、周期性)和各种带宽上始终获得最佳分数,优于 EnCodec 和 MBD(表 4)。例如,在 6.0 kbps 时,RFWave 的 MOS 为 $3.69 \pm 0.16$,而 EnCodec 为 $3.10 \pm 0.15$,MBD 为 $3.43 \pm 0.15$。这证明了 RFWave 在从压缩表示重建高质量音频方面的多功能性和效率。

消融研究验证
消融研究(表 5)提供了对 RFWave 各个组件有效性的关键见解:
* 时域模型始终优于其频域对应模型(例如,PESQ $4.127$ 对比 $3.872$),验证了其在保留高频细节方面的选择。
* 能量平衡损失被证明可以减轻静音区域的低音量噪声,从而提高整体性能(例如,PESQ 从 $4.127$ 提高到 $4.181$),证明了其在最小化相对误差方面的作用。
* 重叠损失,尽管 PESQ 有轻微下降,但对于“平滑的子带过渡”和保持一致性至关重要,正如没有它时明显过渡的视觉确认(图 A.9)所示。
* STFT 损失有效地减少了背景噪声中的伪影(图 A.8),将 PESQ 从 $4.158$ 提高到 $4.211$,尽管在 ViSQOL 和周期性方面略有权衡,因为它侧重于幅度。
* 等直线度采样策略“免费”地显著提高了性能(PESQ $4.275$,周期性 $0.100$),证明了其优于等间隔步长的有效性。
* 整流流机制被证明是高效高质量生成的“关键”,因为具有 50 步的 DDPM 方法表现不佳(表 6)。ConvNeXtV2 主干也比 ResNet 更优越,提高了效率和质量。

前所未有的计算效率
也许最引人注目的证据是 RFWave 卓越的计算效率(表 7)。在单个 NVIDIA GeForce RTX 4090 GPU 上,仅用 10 个采样步骤,它就实现了实时 162.59 倍(xRT)的推理速度。这比扩散基线(PriorGrad $16.67$ xRT、FreGrad $7.50$ xRT、MBD $4.82$ xRT)快一个数量级,并且是 BigVGAN($72.68$ xRT)的两倍多。此外,RFWave 消耗的 GPU 内存($780$ MB)少于 BigVGAN($1436$ MB)。这种速度优势,即使在更高的采样率下(例如,44.1 kHz 时为 $152.58$ xRT)也得以保持,明确证明 RFWave 克服了扩散模型的延迟障碍,使其适用于现实世界的实时应用。

局限性与未来方向

尽管 RFWave 在音频波形重建方面取得了重大进展,但认识到其当前的局限性并考虑未来发展的途径至关重要。

一个观察到的微妙局限性是ViSQOL 指标对 GAN 的偏见。尽管 RFWave 通常获得更高的 MOS 和其他客观分数,但 ViSQOL 有时会偏爱 GAN,这可能无法完全反映人类的感知质量。这表明当前的客观指标可能无法完美捕捉合成音频质量的所有细微差别,特别是对于新颖的生成方法。另一个有趣的权衡是STFT 损失:虽然它有效地减少了伪影,但由于其对幅度的重视而非相位,它可能会略微降低 ViSQOL 和周期性。这凸显了在平衡音频保真度的不同方面方面存在的挑战。此外,尽管 RFWave 与 GAN 相比在 out-of-domain 泛化方面表现出色,但真正通用声码器的最终目标是处理更广泛的未见音频条件和特征,这仍然是一个持续的挑战。训练所需的计算资源,特别是对于大规模 EnCodec 混合数据集(例如,4 个 A100 GPU 训练 10 天),也代表了较小研究团体或个人开发者的实际障碍。

展望未来,出现了几个令人兴奋的讨论话题,用于进一步发展和演变这些发现:

  • 自适应损失函数设计:鉴于 STFT 损失的权衡,是否可以探索损失函数的动态或上下文感知加权?例如,一种优先考虑某些频段或特定音频事件相位信息的自适应机制,可能在不重新引入伪影的情况下产生甚至更好的感知质量。这可能涉及学习到的加权系数或多目标优化框架。
  • 超越等直线度采样:“等直线度”方法是一种巧妙的启发式方法,但如果最优采样轨迹在潜在空间的各个区域并非严格“等直线度”呢?未来的工作可以研究更先进的自适应 ODE 求解器或强化学习方法,以发现最优的、非均匀的采样调度,在最大化保真度的同时进一步最小化步骤,甚至可能根据特定音频特性定制调度。
  • 增强对极端 out-of-distribution 数据的泛化能力:尽管 RFWave 表现出色,但现实世界的音频极其多样化且通常嘈杂。我们如何才能使这些模型对高度损坏、极低资源或完全新颖的音频类型更加鲁棒?这可能涉及用于快速适应的元学习、在海量未标记音频上的自监督学习,或整合明确的噪声建模能力。
  • 受限硬件上的实时部署:在高端 GPU 上实现实时 160 倍的速度非常出色,但对于移动设备或嵌入式系统上的普遍应用,还需要进一步优化。这可能涉及探索模型量化、剪枝、知识蒸馏,或设计在边缘硬件上本质上更高效的专用架构,从而突破实时音频合成的可能性界限。
  • 多模态和交互式音频生成:当前工作侧重于 Mel-频谱图和离散标记。将 RFWave 扩展到直接整合文本、视频或其他模态,甚至用户定义的参数(例如,情感线索、空间音频属性),可以开启新的创意应用和更直观的人机交互。想象一下生成与视频场景的情绪完美匹配的音频,或者与用户的姿态输入相匹配。
  • 感知对齐指标的发展:观察到的 ViSQOL 偏见强调了该领域更广泛的需求。我们如何开发新的客观指标,使其更鲁棒、偏见更小,并更紧密地与人类对合成音频“自然度”和“质量”的感知相匹配,特别是当模型生成日益复杂和新颖的声音时?这可能涉及利用人机循环反馈或先进的心理声学建模。
  • 伦理影响与保障措施:随着音频合成变得与真实录音无法区分,伦理影响,例如深度伪造的创建或在错误信息中的滥用,也在增长。未来的研究应通过探索合成音频的水印方法、开发鲁棒的检测机制或将伦理指南直接整合到模型设计和部署过程中来积极解决这些担忧。这是推进生成式 AI 时一个关键的、常常被忽视的方面。

与其他领域的同构性

结构骨架

该机制通过优化速度场以最小化与直线轨迹的偏差,学习在两个高维数据分布之间进行直接、线性的变换路径。