EN KR JP CN RU IN
WACV

milliMamba:通过双毫米波雷达与多帧Mamba融合实现感知感知的人体姿态估计

Open PDF

背景与学术渊源

起源与学术渊源

人体姿态估计(HPE)问题有着悠久而丰富的历史,传统上主要由利用RGB摄像头的方法主导。然而,特定问题——即利用毫米波(mmWave)雷达进行人体姿态估计——的精确起源,源于克服这些传统基于摄像头的系统固有局限性的关键需求。

历史背景:
RGB摄像头虽然能够提供高保真度的视觉数据,但在许多实际场景中存在显著的缺点。它们本质上对光照条件敏感,在黑暗、眩光或遮挡环境中表现不佳。更重要的是,它们会引起相当大的隐私担忧,因为它们会捕获可识别的个人图像。这使得它们不适用于隐私至关重要的敏感区域,如家庭、医院或老年护理机构。对一种隐私保护且环境鲁棒的替代方案的探索,促使人们研究其他传感模式。毫米波雷达通过发射和接收无线电波来工作,提供了一个引人注目的解决方案。它能够“看穿”黑暗、烟雾甚至一些非金属物体,并且至关重要的是,它不会捕获可识别的个人图像,从而保护隐私。这些独特功能的结合促使基于mmWave雷达的HPE成为一个独立且快速发展的领域。

先前方法的根本局限性:
尽管具有引人注目的优势,基于mmWave雷达的HPE也存在自身的一系列显著的“痛点”,这是先前方法难以解决的。主要局限性源于雷达感知的镜面反射特性。与捕获表面纹理和颜色的摄像头不同,雷达信号通常会在特定角度从光滑的身体表面反射,就像镜子反射光一样。这意味着只有直接朝向雷达传感器的身体部分才会反射信号,导致稀疏且不完整的观测。小的或倾斜的关节,如手指或肘部,经常被完全遗漏。这使得从单帧雷达输入重建全身姿态变得极其困难。

此外,先前的方法,特别是基于Transformer架构的方法,面临着关键的可扩展性问题。处理雷达数据的长序列(这对于捕捉时间上下文和推断缺失的关节至关重要)导致了大量的Token和二次计算复杂度。这转化为过高的内存使用和训练时间,使得实时应用不切实际。一些缓解此问题的尝试包括“早期时间融合”,即在处理管道中过早地压缩时间信息。然而,这种过早的融合常常会损害模型利用相邻帧的上下文线索来有效恢复由镜面反射引起的那些难以捉摸的缺失关节的能力。****本文的作者旨在通过开发一个框架来解决这些根本性的局限性,该框架能够高效地对长序列的时空依赖性进行建模,而不会牺牲推断缺失关节的能力。

直观的领域术语

  • 毫米波(mmWave)雷达: 想象一下蝙蝠在黑暗中使用非常高频的尖叫声(声波)来“看到”周围环境。mmWave雷达做类似的事情,但使用微小的无线电波而不是声音,使其能够在不需要光线或摄像头的情况下检测物体甚至细微的运动。它就像拥有超敏感的隐形眼睛,可以在任何条件下工作,提供一种隐私友好的感知方式。

  • 人体姿态估计(HPE): 想象一个木偶师,仅仅通过观察木偶的动作来弄清楚所有连接到木偶身体的线在哪里。HPE就像这样,但针对的是真人,试图精确地定位他们的关节(如肘部、膝盖和肩膀)的位置,以理解他们的姿势和运动。

  • 镜面反射: 想象一下将激光笔照射在一个完美光滑、闪亮的地面上。光线会以一个清晰、可预测的方向反弹,就像台球一样。如果地面是颠簸的,光线会四处散射。雷达中的镜面反射意味着只有当身体部位的角度完美时,信号才会反射回传感器,使得其他部位“看不见”或难以检测,类似于镜子如何将光线反射开。

  • Mamba(状态空间模型 - SSMs): 想象一下阅读一本非常长的书。传统方法(如Transformer)就像每次遇到一个新词时都必须从头开始重新阅读每一个词来理解其上下文——对于长书来说这是一个非常缓慢的过程。Mamba模型就像拥有一个非常高效的短期记忆,可以快速总结你到目前为止所读的内容,让你无需每次都重读整本书就能理解新词的上下文。对于长故事来说,它要快得多。

  • 热图(在雷达处理中): 想象一张显示温度的天气图。红色区域是热的,蓝色区域是冷的。雷达热图类似,但它显示的是雷达“看到”物体的位置,而不是温度。地图上更亮的点意味着更强的雷达反射,表明身体部位出现在特定位置(距离、角度)或以特定速度(多普勒)移动的可能性更高。

符号表

符号 描述
$X$ 来自两个正交安装的传感器的原始复值mmWave雷达信号。
$T$ 输入序列中的连续帧数。
$L$ 训练期间要最小化的总损失函数。
$L_{oks}$ 对象关键点相似度(OKS)损失,惩罚姿态预测不准确。
$\lambda_{vel}$ 速度损失的加权因子。
$L_{vel}$ 速度损失,惩罚预测关节运动中的时间不一致性。
$v_{f,j}$ 帧 $f$ 中关节 $j$ 的预测速度。
$\hat{v}_{f,j}$ 帧 $f$ 中关节 $j$ 的真实速度。
$J$ 要估计的人体关节总数。
$f$ 帧索引。
$j$ 关节索引。
$h_t$ 时间步 $t$ 时Mamba SSM的隐藏状态向量。
$u_t$ 时间步 $t$ 时Mamba SSM的输入Token(特征向量)。
$y_t$ 时间步 $t$ 时Mamba SSM的输出Token(特征向量)。
$A, B, C, D$ Mamba SSM的可学习参数矩阵。
$q_{f,j}$ 帧 $f$ 中关节 $j$ 的可学习关键点查询。
$SA(\cdot)$ 空间注意力函数。
$TA(\cdot)$ 时间注意力函数。
$CrossAttn(\cdot)$ 交叉注意力函数。
$Q, K, V$ 注意力机制中的查询、键和值矩阵/向量。
$d$ 注意力中键向量的维度,用于缩放。
$F_h, F_v$ 从水平和垂直雷达视图提取的特征图。
$F'$ 从CVMamba编码器获得的丰富、上下文感知的特征表示。

问题定义与约束

核心问题表述与困境

本文解决的核心问题是使用毫米波(mmWave)雷达信号进行二维人体姿态估计(HPE)。这是一个具有挑战性的任务,特别是与传统的基于RGB摄像头的方法相比。

输入/当前状态: 分析的起点是原始mmWave雷达信号,特别是来自两个正交安装的雷达传感器(水平和垂直视图)的复值立方体 $X \in C^{12 \times 128 \times 256}$。这些信号在 $T$ 个连续帧的序列上捕获。这些信号的当前状态存在问题:
* 由于镜面反射,它们本质上是稀疏的,这意味着只有直接反射回接收器的身体表面才被捕获。这通常导致关节缺失,特别是小的或倾斜的关节。
* 末端(如手腕和脚踝)的反射通常较弱,难以可靠地检测。
* 信号会受到波动的影响,扰乱时间一致性,其准确性高度依赖于主体的方向和传感器放置。
* 先前的方法,特别是基于Transformer的方法,难以处理多帧雷达输入的高维度大量Token,导致计算瓶颈和内存限制。许多先前的方法仅部分建模时空依赖性或依赖于早期时间融合,这损害了恢复由镜面反射引起的缺失关节的能力。

期望终点(输出/目标状态): 最终目标是从这些具有挑战性的双视图mmWave雷达信号中生成时间上连贯的二维人体姿态。这意味着:
* 准确预测多帧中的二维关节坐标。
* 稳健地推断由镜面反射或弱信号引起的缺失关节。
* 利用相邻帧的上下文线索来提高整体姿态准确性并确保运动平滑。
* 在计算复杂度和内存占用方面保持合理的同时,实现最先进的性能(例如,平均精度AP的显著提高)。

缺失环节或数学鸿沟: 精确的缺失环节是在HPE管道的特征提取(编码)和姿态预测(解码)阶段联合建模长程时空依赖性的鲁棒且高效的机制。该机制必须有效地融合来自双雷达视图和多帧的信息,以推断缺失的关节并确保时间一致性,同时克服使用Transformer等传统方法处理高维、多帧雷达数据所带来的高昂计算和内存成本。本文旨在通过引入一种提供序列建模线性复杂度的Mamba基架构来弥合这一差距。

痛苦的权衡或困境: 困扰先前研究人员的核心困境是利用丰富的时空上下文以获得准确性与保持计算效率之间的权衡
* 为了准确推断缺失的关节并确保平滑运动,模型需要处理更长的雷达帧序列,并在空间和时间维度上整合信息。这需要能够建模长程依赖性的架构。
* 然而,像Transformer这样的传统强大模型,在捕获全局依赖性方面表现出色,但其计算复杂度与序列长度呈二次方关系。这导致随着输入帧数的增加,内存使用和计算时间呈指数级增长。
* 这种困境通常迫使先前的方法要么:(1)处理更短的序列,从而丢失用于鲁棒姿态估计的宝贵时间上下文;要么(2)在处理管道的早期压缩时间维度,这严重损害了模型恢复由镜面反射引起的缺失关节的能力。作者明确指出,“改进一个方面通常会破坏另一个方面”,这里正是如此:更高的时空上下文以获得准确性通常会导致无法管理的计算成本。

约束与失败模式

由于存在几个严苛的实际约束,mmWave雷达HPE问题变得异常困难:

物理约束:
* 镜面反射: 这是雷达的一个根本性限制。信号像镜子一样从表面反射,导致稀疏观测,只有某些身体部位可见,而其他部位(特别是小的或倾斜的关节)则完全缺失。这使得从单帧输入重建全身姿态极其困难。
* 末端反射较弱: 手臂和关节如手腕和脚踝通常产生非常弱的雷达反射,使得它们难以准确检测和跟踪。这加剧了数据的稀疏性和不完整性。
* 对主体方向和传感器放置的敏感性: 雷达信号的质量和完整性高度依赖于主体相对于雷达传感器的方向以及传感器的放置位置。微小的变化会显著影响估计的准确性。
* 有限的仰角分辨率: mmWave雷达传感器固有的仰角分辨率有限,这意味着区分不同高度的物体可能很困难。这需要多雷达设置(如此处使用的双雷达系统)来补偿。

计算约束:
* 雷达输入的维度高: 原始mmWave雷达数据本质上维度很高(例如,每帧为 $C^{12 \times 128 \times 256}$ 的立方体)。当处理多帧序列时,总数据量变得巨大。
* 先前模型(Transformer)的二次复杂度: 现有的最先进模型如Transformer,虽然强大,但其计算复杂度与输入序列长度呈二次方关系。这意味着即使输入帧数($T$)的适度增加,也会导致计算和内存需求的比例性增加。例如,论文指出Transformer在“使用更长序列进行训练时在我们的硬件上出现内存不足”(表8,第7页)。
* 硬件内存限制: 数据量巨大以及模型的二次复杂度很快就会触及硬件内存限制,使得在标准GPU上(例如论文中提到的NVIDIA Tesla V100 GPU)训练具有足够长时间序列的模型不切实际。例如,传统的4D热图生成比3D FFT方法内存占用高11倍(图4(c),第5页)。*
*
*实时延迟要求(隐含):
虽然没有明确说明为严格的实时约束,但“高效”处理和“减少预处理开销”(引言,第2页)的需求暗示解决方案必须在实际延迟范围内运行,以满足潜在的实际应用。4D与3D FFT的比较也突显了3D方法在延迟方面显著降低了8.6倍。

数据驱动的约束:
* 不完整的观测: 作为物理约束的直接结果,输入的雷达数据通常提供不完整的人体观测,使得在没有强上下文线索的情况下难以重建完整的姿态。
* 时间不一致性: 雷达信号的波动可能导致帧间关节检测不一致,使得在没有显式时间建模的情况下难以确保平滑且物理上合理的姿态序列。
* 数据稀疏性: 除了缺失的关节,整体雷达信号可能很稀疏,使得提取鲁棒特征成为一项重大挑战。这需要模型能够从有限和嘈杂的信息中有效学习。

为什么选择这种方法

选择的必然性

采用Mamba架构作为milliMamba的编码器,并非仅仅是设计偏好,而是由毫米波(mmWave)雷达人体姿态估计(HPE)的固有挑战所驱动的必然选择。作者明确指出了传统最先进(SOTA)方法(特别是Transformer)变得不足的精确时刻:当处理“更长雷达序列中固有的海量Token”时。先前的基于Transformer的方法虽然能够建模全局依赖性并融合多雷达特征,但其计算成本存在“二次复杂度”,导致内存使用和训练时间过高。这种二次方缩放使得它们无法处理对鲁棒雷达HPE至关重要的扩展时间上下文。

mmWave雷达HPE的核心问题是由于镜面反射导致的信号稀疏性,从而导致不完整的观测和缺失的关节。为了克服这一点,利用多帧的时空依赖性至关重要。然而,增加输入帧数($T$)会直接加剧Transformer的计算负担,迅速导致内存不足问题,如表8所示,Transformer在内存不足之前只能处理$T=3$帧。Mamba在序列长度上的线性复杂度($O(N)$)为在没有高昂计算成本的情况下有效建模这些关键的长时序序列提供了唯一可行的途径。这种结构优势使得Mamba成为在扩展序列上实现全面时空建模的唯一可行解决方案。

相对优越性

milliMamba的方法通过其架构设计选择,在性能指标之外展示了定性的优越性,这些选择直接解决了先前方法的局限性。

  1. 长序列的线性复杂度: 最显著的结构优势是Mamba编码器能够以线性复杂度处理更长的雷达序列,这与Transformer的二次复杂度形成鲜明对比。这使得milliMamba能够利用更丰富的时间上下文(例如,默认$T=9$帧,实验中最多可达$T=15$帧),这对于推断由镜面反射引起的缺失关节和确保运动平滑至关重要。这直接转化为更好地处理时域中的高维噪声和稀疏数据。表8清楚地说明了这一点,即使在$T=3$时,Mamba也达到了与Transformer相当或更好的准确性,而Transformer由于内存限制无法扩展到更长的序列。
  2. 高效的预处理: 从计算成本高昂的4D热图转向3D FFT(快速傅里叶变换)基热图进行雷达信号预处理是另一个关键的结构优势。此更改将内存使用量减少了11倍,延迟减少了8.6倍(图4c)。这种效率的提高不仅仅是关于速度;它缓解了“Token数量的爆炸”,使得高维雷达数据更容易被下游建模处理,并能够使用更长的时间序列,否则这些序列将不可行。
  3. 增强的时空上下文建模: 跨视图融合Mamba(CV-Mamba)编码器旨在高效融合双雷达输入并捕获长程时空依赖性。这得到了时空交叉注意力(STCA)解码器的补充,该解码器执行多帧姿态预测。与通常过早压缩时间维度或预测单帧的先前方法不同,STCA同时集成了空间和时间注意力,使其能够同时建模每帧内的空间关系和跨帧的时间依赖性。这种更丰富的上下文建模对于推断缺失的关节和强制执行运动一致性至关重要,使得模型对雷达数据的固有稀疏性和波动性更加鲁棒。****

与约束的对齐

所选方法milliMamba完美地符合mmWave雷达HPE的严苛要求,形成了“问题与解决方案的结合”:

  1. 隐私保护和光照不变性: 该框架本身利用了mmWave雷达,这是一种隐私保护且光照不变的传感器,从而满足了问题域的这些基本要求。
  2. 对稀疏信号和镜面反射的鲁棒性: 该问题的核心挑战是由于镜面反射导致的不完整观测。milliMamba通过其全面的时空建模管道来解决这一问题。CV-Mamba编码器和STCA解码器共同利用来自相邻帧和视图的上下文线索来推断缺失的关节。特别是STCA解码器通过集成空间和时间注意力,“减轻了镜面反射引起的缺失关节的影响”(方程4:$q_{j, \cdot}^{''} = TA(q_{j, \cdot}^{'}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j$)。
  3. 处理高维雷达输入: mmWave雷达输入是高维的。3D FFT预处理步骤有效地将原始雷达信号转换为3D热图,与传统4D方法相比,显著降低了预处理开销和Token数量。这使得高维数据对于后续的Mamba基编码器来说是可管理的。
  4. 高效处理长序列: 需要更长的时间序列来捕捉运动和上下文是至关重要的,但传统Transformer在二次复杂度方面存在困难。Mamba编码器的线性复杂度直接解决了这个问题,使模型能够高效地处理扩展序列并捕捉长程时空依赖性,这对于动态场景中的准确姿态估计至关重要。
  5. 多帧姿态预测和时间一致性: 该问题要求利用时间上下文。STCA解码器的“多对多”预测策略,同时预测多帧姿态,确保了“跨时间步的更丰富监督”,并通过时间注意力(方程4)强制执行运动一致性。这直接解决了对时间连贯姿态序列的要求。
  6. 双雷达输入融合: 该框架专为双mmWave雷达输入(水平和垂直视图)而设计。跨视图融合Mamba编码器专门用于“跨帧有效地融合双雷达输入”,直接满足了结合来自多个传感器信息以克服有限仰角分辨率等限制的需求。

替代方案的拒绝

该论文提供了明确的理由,解释了为何拒绝了几种流行的替代方案:

  1. 用于编码器的Transformer: 拒绝Transformer作为主要编码任务的主要原因是其相对于序列长度的“二次复杂度”。如第1节和第2.1节所述,这导致了“高计算成本,特别是在内存使用和训练时间方面”,使其不适合处理“更长雷达序列中固有的海量Token”,而这些Token对于鲁棒的雷达HPE是必需的。表8鲜明地说明了这一点,显示Transformer编码器在尝试更长序列(超过$T=3$帧)时“在我们的硬件上出现内存不足”,而Mamba则能有效扩展。
  2. 早期时间融合: 一些先前的基于Transformer的方法试图通过“过早压缩时间维度”来缓解复杂性。然而,作者认为“这种早期融合可能会损害模型恢复由镜面反射引起的缺失关节的能力”。milliMamba通过在编码和解码阶段都保持时空建模来避免这种情况,从而确保了更丰富的推断上下文。
  3. 4D热图预处理: 传统的4D热图方法[25]因其“计算成本高昂”并导致“Token数量爆炸”而被拒绝。论文显示,3D FFT基热图“效率更高,内存使用量减少了11倍,延迟减少了8.6倍”(图4c),同时实现了相当或更好的准确性(表4)。这使得3D FFT成为预处理的更优替代方案。
  4. 多帧到单帧解码: 大多数先前的雷达HPE方法采用“多对一”预测策略。milliMamba的“多对多”STCA解码器,它同时预测多帧,被选中是因为它提供了“跨时间步的更丰富监督”,并且“通过利用相邻帧和关节的上下文线索,更好地推断缺失的关节”(第1节,表5)。这种定性优势带来了比简化版多对一变体高4.1 AP的改进。
  5. 基于CNN的方法: 虽然CNN在捕获“多尺度空间和短期时间特征”方面很有效,但它们“在融合来自多个雷达传感器信息的能力方面常常受到限制”(第2.1节)。考虑到milliMamba的双雷达输入和跨视图融合设计,CNN在整合来自不同雷达视图的信息方面不会像Mamba那样有效。
Figure 1. Our milliMamba performs spatio-temporal modeling across both the feature extraction and decoding stages, addressing a key limitation of TransHuPR [12], which models these dependencies only partially. This is made possible by milliMamba’s ability to process a larger number of tokens with a comparable memory footprint, enabling richer temporal context and more accurate pose estimation

数学与逻辑机制

主方程

milliMamba学习过程的核心是通过一个组合损失函数来驱动,该函数旨在实现准确的姿态估计和时间一致性。这个主方程在训练期间指导模型优化其内部参数。它定义为:

$$ L = L_{oks} + \lambda_{vel} L_{vel} $$

虽然这个整体损失函数决定了学习目标,但实际评估其姿态估计的“引擎”依赖于两个基本机制:Mamba编码器内的状态空间模型(SSM)和STCA解码器内的注意力机制。

Mamba编码器的顺序处理由每个SSM层的隐藏状态更新方程控制:

$$ h_{t+1} = A h_t + B u_t \\ y_t = C h_t + D u_t $$

而STCA解码器使用注意力机制来精炼关键点查询,特别是空间注意力(SA)、时间注意力(TA)和交叉注意力(CrossAttn)。空间和时间方面的自注意力操作为:

$$ q_{f,.}^{'} = SA(q_{f,.}) = \text{softmax}(Q_f K_f^T / \sqrt{d}) V_f \\ q_{.,j}^{''} = TA(q_{.,j}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j $$

最后,交叉注意力机制整合编码器特征:

$$ q_{f,j}^{'''} = \text{CrossAttn}(q_{f,j}^{''}, F') $$

按项解剖

让我们剖析这些方程以理解每个组件的作用:

整体训练目标: $L = L_{oks} + \lambda_{vel} L_{vel}$

  • $L$:这是milliMamba模型在训练期间试图最小化的总损失函数。它代表模型预测与真实值之间的整体误差,包括姿态准确性和时间平滑性。
  • $L_{oks}$:此项代表对象关键点相似度(OKS)损失。
    • 数学定义: 这是一个衡量预测关键点与真实关键点之间相似度的指标,考虑了对象的尺度和关键点标注的方差。它通常是一个介于0和1之间的值,1表示完美相似。损失函数通常将其转换为一个要最小化的值(例如,$1 - OKS$)。
    • 物理/逻辑作用: 这是确保预测人体姿态准确性的主要项。它直接惩罚模型输出与实际人体姿态之间单个身体关节(例如,头部、肘部、膝盖)位置的差异。
    • 为什么是加法? 这里使用加法是因为$L_{oks}$和$L_{vel}$代表了模型需要同时最小化的两种不同类型的误差(姿态准确性和时间平滑性)。将它们相加创建了一个复合目标,其中任一组件的改进都有助于降低总损失。
  • $\lambda_{vel}$:这是速度损失的标量加权因子。
    • 数学定义: 一个超参数,通常是一个正实数(例如,论文中提到的0.05)。
    • 物理/逻辑作用: 该系数平衡了姿态准确性($L_{oks}$)与时间一致性($L_{vel}$)的重要性。较高的$\lambda_{vel}$会使模型更侧重于平滑的运动,可能以牺牲一些逐帧准确性为代价,而较低的值则会强调逐帧准确性。它是一个用于调整权衡的旋钮。
  • $L_{vel}$:此项代表速度损失,由方程(6)定义。
    • 数学定义: 这是预测关节速度与真实关节速度之间差值的平方L2范数,对所有帧和关节取平均值。
    • 物理/逻辑作用: 此项作为一种正则化机制,用于强制预测姿态序列的时间平滑性。它阻止了估计姿态中突然、急促的运动,这些运动通常是噪声或不完整雷达数据的伪影。通过惩罚连续帧之间关节位置的大变化,它促进了更现实和物理上合理的运动轨迹。

速度损失方程(6): $L_{vel} = \frac{1}{(T-1)J} \sum_{f=1}^{T-1} \sum_{j=1}^{J} ||v_{f,j} - \hat{v}_{f,j}||_2^2$

  • $T$:输入序列中的总帧数(例如,9帧)。
    • 数学定义: 一个表示时间序列长度的整数。
    • 物理/逻辑作用: 定义了强制执行一致性的时间窗口。损失是为$T-1$个速度向量计算的,因为速度是从两个连续位置计算的。
  • $J$:要估计的人体关节总数(例如,14个关键点)。
    • 数学定义: 一个表示不同关键点数量的整数。
    • 物理/逻辑作用: 指定了有多少个单独的关节对整体速度损失有贡献。
  • $f$:一个遍历帧的索引,从1到$T-1$。
    • 数学定义: 一个整数循环变量。
    • 物理/逻辑作用: 表示序列中的一个特定时间步。
  • $j$:一个遍历关节的索引,从1到$J$。
    • 数学定义: 一个整数循环变量。
    • 物理/逻辑作用: 表示一个特定的身体关节(例如,头部、肘部)。
  • $v_{f,j}$:帧 $f$ 中关节 $j$ 的预测速度。
    • 数学定义: 一个向量,表示关节 $j$ 在帧 $f+1$ 处的预测位置与其在帧 $f$ 处预测位置之差($P_{f+1,j} - P_{f,j}$)。
    • 物理/逻辑作用: 这是模型估计的特定关节在两个连续帧之间移动的速度和方向。
  • $\hat{v}_{f,j}$:帧 $f$ 中关节 $j$ 的真实速度。
    • 数学定义: 一个向量,表示关节 $j$ 在帧 $f+1$ 处的真实位置与其在帧 $f$ 处真实位置之差($\hat{P}_{f+1,j} - \hat{P}_{f,j}$)。
    • 物理/逻辑作用: 这是从标注数据派生的关节的真实、期望速度。模型试图匹配这个。
  • $||\cdot||_2^2$:平方L2范数(欧几里得距离的平方)。
    • 数学定义: 对于向量 $x = [x_1, x_2, \dots, x_k]$,$||x||_2^2 = \sum_{i=1}^k x_i^2$。
    • 物理/逻辑作用: 它量化了预测速度向量与真实速度向量之间差异的大小。对范数进行平方确保所有误差都正向贡献于损失,并比小误差更严重地惩罚大误差,使得损失函数可微分且适合基于梯度的优化。
  • $\sum_{f=1}^{T-1} \sum_{j=1}^{J}$:双重求和。
    • 数学定义: 对所有相关帧和所有关节的平方速度差异进行求和。
    • 物理/逻辑作用: 将整个时间序列和所有身体部位的个体速度误差聚合起来,得到一个时间不一致性的单一度量。
  • $\frac{1}{(T-1)J}$:归一化因子。
    • 数学定义: 将平方误差的总和除以考虑的速度向量总数。
    • 物理/逻辑作用: 确保$L_{vel}$损失的大小独立于序列长度$T$或关节数$J$,使其在不同配置下具有可比性,并防止更长的序列仅仅因为项更多而固有地具有更大的损失。

Mamba SSM隐藏状态更新(方程2): $h_{t+1} = A h_t + B u_t$ 和 $y_t = C h_t + D u_t$

  • $h_{t+1}$:下一个时间步$t+1$的隐藏状态向量。
    • 数学定义: 一个向量,表示从时间$t$为止的所有先前输入的压缩内存或上下文。
    • 物理/逻辑作用: 这是Mamba模型的内部“记忆”。它累积序列中的信息,使模型能够理解长程依赖性。
  • $h_t$:当前时间步$t$的隐藏状态向量。
    • 数学定义: 一个表示直到时间$t$的内存的向量。
    • 物理/逻辑作用: 这是用新信息更新的先前状态。
  • $u_t$:当前时间步$t$的输入Token(特征向量)。
    • 数学定义: 一个表示当前正在处理的信息片段的向量。
    • 物理/逻辑作用: 这是Mamba层当前正在处理的数据点(例如,来自雷达帧的特征)。
  • $y_t$:当前时间步$t$的输出Token(特征向量)。
    • 数学定义: 由SSM在时间$t$产生的向量。
    • 物理/逻辑作用: 这是当前时间步的处理信息,可以传递给后续层或用于进一步计算。
  • $A, B, C, D$:层特定的可学习参数(矩阵)。
    • 数学定义: 应用于隐藏状态和输入的线性变换的矩阵。$A$是状态转移矩阵,$B$是输入矩阵,$C$是输出矩阵,$D$是直接前馈矩阵。
    • 物理/逻辑作用: 这些矩阵是SSM的“权重”。它们在训练期间被学习,并决定如何将过去的内存($h_t$)与当前输入($u_t$)结合以生成新的内存($h_{t+1}$)和当前输出($y_t$)。它们有效地编码了系统的动态,使Mamba能够选择性地在长序列中记住或忘记信息。
    • 为什么是矩阵乘法和加法? 这是线性状态空间模型的标准形式。矩阵乘法允许线性变换和特征混合,而加法则结合了先前状态和当前输入的影响。这种线性递归对于捕获长程依赖性非常高效。

注意力机制(方程3、4、5):

  • $q_{f,.}^{'}$, $q_{.,j}^{''}$, $q_{f,j}^{'''}$:这些代表了经过连续注意力阶段(空间、时间、交叉注意力)后的关键点查询。
    • 数学定义: 代表关键点查询的精炼表示的向量或矩阵。
    • 物理/逻辑作用: 这些是解码器用来提取相关信息以预测关节位置的不断演变的“问题”。每个注意力步骤通过整合不同的上下文信息来精炼这些查询。
  • $SA(\cdot)$, $TA(\cdot)$, $CrossAttn(\cdot)$:这些是空间注意力、时间注意力和交叉注意力函数。
    • 数学定义: 计算注意力分数并将它们应用于值向量的函数。
    • 物理/逻辑作用: 这些机制允许模型选择性地关注输入的不同部分(帧内的其他关节、跨帧的同一关节或编码器特征)来精炼关键点预测。
  • $Q, K, V$:查询、键和值矩阵(或向量)。
    • 数学定义: 通过线性变换从输入特征(例如,关键点查询或编码器特征)派生。
    • 物理/逻辑作用: 在注意力中,查询($Q$)代表我们正在寻找什么,键($K$)代表可用的信息,值($V$)包含要提取的信息。$Q$和$K$的点积决定了可用信息的每个部分与查询的相关程度。
  • $d$:键向量的维度。
    • 数学定义: 一个标量整数。
    • 物理/逻辑作用: 在注意力机制中用作缩放因子($\sqrt{d}$)。除以$\sqrt{d}$可以防止点积变得太大,这可能会将softmax函数推入梯度非常小的区域,阻碍学习。
  • $\text{softmax}(\cdot)$:softmax函数。
    • 数学定义: 对于向量$x = [x_1, \dots, x_k]$,$\text{softmax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^k e^{x_j}}$。
    • 物理/逻辑作用: 将注意力分数归一化为概率分布,确保权重之和为1。这意味着模型为每个键分配相对重要性,表明它应该在多大程度上“关注”相应的值。
  • 矩阵乘法($Q K^T$)和除以$\sqrt{d}$:
    • 数学定义: 点积注意力。
    • 物理/逻辑作用: 点积$Q K^T$衡量每个查询与所有键之间的相似性或兼容性。较高的点积意味着较高的相关性。除以$\sqrt{d}$是稳定梯度的缩放因子。
  • 乘以$V$:
    • 数学定义: 值向量的加权和。
    • 物理/逻辑作用: 在计算注意力权重(通过softmax)后,这些权重应用于值向量。这有效地创建了$V$中包含信息的加权平均值,其中更相关的信息(更高的注意力权重)对输出的贡献更大。

分步流程

想象一个抽象的雷达数据点,代表一个人微小的反射,像装配线上的一个组件一样穿过milliMamba系统:

  1. 原始雷达信号摄入: 我们的旅程始于原始毫米波雷达信号。这些是复值立方体,$X \in \mathbb{C}^{12 \times 128 \times 256}$,从双雷达传感器(水平和垂直视图)在$T$个连续帧上捕获。
  2. 预处理 - 杂波去除与子采样: 首先,通过减去chirp之间的平均值来去除静态杂波。然后,对chirp维度进行均匀子采样以降低计算负载。
  3. 预处理 - 3D快速傅里叶变换(FFT): 复值雷达立方体被转换为每个视图和帧的3D角度-多普勒-距离热图。
    • 沿ADC采样维度(距离)应用一维FFT(方程1)。
    • 沿chirp维度(多普勒)应用另一维FFT。
    • 虚拟天线维度被零填充,然后通过第三维FFT(角度)进行变换。
    • 这导致每个视图和帧的实值3D热图 $Y \in \mathbb{R}^{H \times D \times W}$,与传统的4D方法相比,显著降低了内存和延迟。
  4. 特征提取(MNet与3DCNN): 水平和垂直视图的预处理3D热图被馈送到并行分支。每个分支从一个合并多普勒维度的MNet块开始,然后是三个残差3D卷积和两个下采样层。此过程提取初始空间特征并降低角度和距离维度的分辨率,生成特征图 $F_h, F_v \in \mathbb{R}^{C_f \times T \times \frac{H}{4} \times \frac{W}{4}}$。
  5. 跨视图融合: 可学习的位置嵌入被添加到$F_h$和$F_v$中以编码空间信息。这两个视图特定的特征图被连接起来形成一个统一的编码器输入$F = [F_h; F_v]$。
  6. CVMamba编码器 - 序列转换: 2D特征图$F$通过沿距离、角度、视图(水平然后垂直)以及最后帧的之字形扫描模式转换为1D序列。这个线性序列对于Mamba的操作至关重要。
  7. CVMamba编码器 - SSM处理: 1D Token序列($u_t$)被馈送到一系列Vision Mamba层。每一层使用线性递归关系(方程2)迭代地更新其隐藏状态($h_t$)并产生输出($y_t$)。此过程向前和向后进行,使模型能够以线性复杂度捕获长程时空依赖性。编码器的输出是丰富、上下文感知的特征表示$F'$。
  8. STCA解码器 - 关键点查询初始化: 初始化一组固定的可学习关键点查询$\{q_{f,j}\}$。每个查询代表特定帧$f$中的特定关节$j$。这些查询是预测姿态的起点。
  9. STCA解码器 - 空间注意力: 在每个解码器层中,单个帧内的关键点查询($q_{f,.}$)经过空间注意力(方程3)。这允许查询在同一帧内相互交互,聚合关于关节间关系和空间结构的信息。输出为$q_{f,.}^{'}$。
  10. STCA解码器 - 时间注意力: 接下来,单个关节跨所有帧的空间精炼查询($q_{.,j}^{'}$)经过时间注意力(方程4)。该机制通过关注同一关节在不同时间步的表示来强制执行运动一致性。输出为$q_{.,j}^{''}$。
  11. STCA解码器 - 交叉注意力: 时间和空间精炼的关键点查询($q_{f,j}^{''}$)然后关注编码器特征$F'$(方程5)。这种交叉注意力机制允许解码器从CVMamba编码器生成的丰富时空特征中提取相关的上下文信息,从而提高推断缺失关节的能力。输出为$q_{f,j}^{'''}$。
  12. 预测头: 最终精炼的关键点查询($q_{f,j}^{'''}$)通过一个预测头(通常是一个小型MLP)来产生每帧每个关节的2D坐标。这会产生一系列$T$个姿态估计。
  13. 损失计算:
    • 将预测的2D关键点坐标与真实坐标进行比较,以计算对象关键点相似度损失($L_{oks}$)。
    • 从预测位置计算预测关节速度($v_{f,j} = P_{f+1,j} - P_{f,j}$)。
    • 从真实位置计算真实关节速度($\hat{v}_{f,j} = \hat{P}_{f+1,j} - \hat{P}_{f,j}$)。
    • 使用方程(6)通过比较这些预测和真实速度来计算速度损失($L_{vel}$)。
    • 最后,计算总损失$L = L_{oks} + \lambda_{vel} L_{vel}$。

优化动力学

milliMamba模型通过迭代优化过程来最小化总损失函数$L = L_{oks} + \lambda_{vel} L_{vel}$来学习。

模型的学习参数包括MNet和3DCNN块的权重,每个Mamba SSM层内的$A, B, C, D$矩阵,生成注意力机制$Q, K, V$的线性变换矩阵,可学习的关键点查询本身,以及最终预测头的权重。

  1. 梯度计算: 在每次训练迭代中,当一批雷达序列通过整个milliMamba管道并计算出总损失$L$后,模型会计算该损失相对于所有可学习参数的梯度。这是通过反向传播完成的,它有效地计算了每个参数对总误差的贡献程度。
  2. 损失景观塑形:
    • $L_{oks}$项塑造了损失景观,以指导模型实现准确的逐帧姿态预测。它在景观中创建了“山谷”,预测的关键点与真实值非常接近。
    • 由$\lambda_{vel}$加权的$L_{vel}$项引入了额外的正则化力。它惩罚了跨帧的“尖锐”或快速变化的姿态预测,有效地平滑了时间维度上的损失景观。这鼓励模型找到不仅准确而且时间连贯的解决方案。平方L2范数确保了较大的速度误差受到更严重的惩罚,为不一致的运动创建了更陡峭的梯度。
  3. 参数更新: 论文指出使用了Adam优化器。Adam是一种自适应学习率优化算法,它利用梯度的第一和第二矩估计来调整每个参数的学习率。
    • 计算出的梯度指示了每个参数为减少损失所需的改变方向和幅度。
    • Adam优化器利用这些梯度,以及指定的学习率(例如0.00005)和权重衰减(例如0.0001),来更新模型的参数。权重衰减作为L2正则化,防止参数过大,并有助于减轻过拟合。
  4. 迭代精炼与收敛: 这个前向传播、损失计算、反向传播和参数更新的过程在许多训练周期中被迭代重复。
    • STCA解码器的迭代精炼,其中关键点查询通过多层时空和交叉注意力逐步更新,意味着最终姿态预测的梯度会通过这些精炼步骤反向传播,教会查询更好地表示和提取相关信息。
    • 随着时间的推移,模型的参数会调整,导致预测的姿态越来越准确(最小化$L_{oks}$)且时间平滑(最小化$L_{vel}$)。$\lambda_{vel}$超参数在这里至关重要;如果太高,模型可能会过度平滑,牺牲一些准确性;如果太低,时间一致性可能会受到影响。论文将$\lambda_{vel}$设置为0.05,表明对运动平滑性有轻微但显著的强调。
    • 当损失函数达到最小值(或足够低的值)时,模型收敛,这意味着模型的预测在给定训练数据和架构的情况下,在准确性和时间一致性之间达到了最佳平衡。
Figure 4. Comparison of heatmap generation. (a) The traditional 4D approach [25] applies separate FFTs for range, doppler, azimuth, and elevation after antenna grouping. (b) Our 3D pipeline performs a unified spatial FFT without grouping, yielding a compact representation. (c) Cost comparison between 4D and 3D heatmaps, showing 11× reduction in memory and 8.6× reduction in latency Figure 2. Overview of our milliMamba. The CVMamba encoder first extracts features from dual-view radar inputs. These features are then passed to the Multi-Pose STCA decoder, which progressively refines a set of keypoint queries to produce pose predictions

结果、局限性与结论

实验设计与基线

为了严格验证其提出的milliMamba框架,作者设计了一个全面的实验设置。该模型被设计为接收来自两个毫米波(mmWave)雷达传感器的输入,处理$T=9$帧的序列。至关重要的是,虽然模型在训练期间预测9个连续姿态(“多对多”策略),但在推理时仅使用该窗口内的中心帧的预测。这一设计选择确保模型在学习期间受益于丰富的时间上下文,但为实际使用提供了一个单一的、精炼的姿态估计。

训练方案采用了Adam优化器,学习率为0.00005,批量大小为8,权重衰减为0.0001。整体训练目标结合了两个损失函数:标准的物体关键点相似度($L_{oks}$)用于惩罚预测与真实关节位置之间的差异,以及速度损失($L_{vel}$)用于鼓励预测姿态序列的时间平滑性。速度损失由$\lambda_{vel} = 0.05$加权,平衡了准确性与时间一致性。所有实验均在单个NVIDIA Tesla V100 GPU上进行,这是一个常见的高性能计算资源。

milliMamba进行无情测试的“受害者”(基线模型)包括:
- TransHuPR [12]: 一种部分建模时空依赖性的基于Transformer的方法。
- HuPR [13]: 另一种重要的雷达人体姿态估计(HPE)方法。
- mmPose [23]: 一种用于雷达HPE的基于CNN的方法。

这些基线代表了mmWave雷达HPE的最新技术水平,允许直接比较milliMamba的性能。评估是在两个基准mmWave雷达数据集上进行的:
- TransHuPR数据集 [12]: 包含来自22名受试者的7小时以上视频,具有快速动态动作,由于快速运动和潜在的镜面反射,对姿态估计提出了重大挑战。
- HuPR数据集 [13]: 包含约4小时的6名受试者视频,特点是动作相对静态。

性能使用基于对象关键点相似度(OKS)的平均精度(AP)进行衡量,这是姿态估计中的标准指标。这包括整体AP(在0.50至0.95的OKS阈值上平均)、AP50(在OKS 0.50时宽松匹配)和AP75(在OKS 0.75时严格匹配)。

证据证明了什么

实验证据明确证明,milliMamba的核心机制——联合建模特征提取和解码阶段的时空依赖性,以及高效的3D快速傅里叶变换(FFT)预处理——显著增强了从mmWave雷达信号进行人体姿态估计。

明确的、不容置疑的证据:

  1. 相对于基线的卓越性能:

    • TransHuPR数据集(表2)上,milliMamba在所有AP指标上始终优于所有基线。它比TransHuPR [12]取得了显著的11.0 AP改进。例如,在易受镜面反射和快速运动影响的挑战性“手腕”关节上,milliMamba取得了令人印象深刻的46.9 AP。这表明其在推断即使是高度不确定或缺失的关节方面的鲁棒性。
    • HuPR数据集(表3)上,milliMamba再次显示出卓越的准确性,对于相对静态的动作达到了84.0 AP。重要的是,它以显著更低的计算成本(34.4 GMACs和4.0M参数)实现了比HuPR [13](68.6 GMACs和35.5M参数)更高的准确性,突显了其效率。
  2. 高效输入处理(3D FFT)的验证:

    • 关于输入表示的消融研究(表4)清楚地表明,milliMamba选择的预处理方法——3D FFT基热图——产生了最佳性能(74.5 AP)。这显著优于密度图(58.5 AP),甚至优于更复杂的4D FFT(72.0 AP)。
    • 此外,图4(c)提供了效率提升的硬证据:与传统的4D方法相比,3D FFT将内存使用量减少了11倍,延迟减少了8.6倍。这证明了预处理选择不仅准确,而且在计算上具有优势。
  3. 多帧输出机制的有效性:

    • 表5展示了milliMamba的“多对多”预测策略(使用时空交叉注意力(STCA)解码器)的力量。与“多对一”方法(一个普通的Transformer解码器)相比,它在整体准确性上提高了4.1 AP。这证实了在解码过程中利用多个时间步的联合特征对于推断缺失或弱反射的关节至关重要。
  4. 更长时序上下文的好处:

    • 输入序列长度的影响(表6)显示,增加输入帧数($T$)持续提高了姿态估计的准确性。这对于手腕和肘部等困难关节尤其如此,强调了丰富时间上下文对于处理挑战性场景的价值。
  5. Mamba卓越的可扩展性和效率:

    • 对于有限的$T=3$帧,Transformer和Mamba编码器之间的比较(表8)显示Mamba的准确性提高了1.5 AP。更重要的是,Transformer编码器在尝试更长序列时出现内存不足,而Mamba则能有效扩展。这是确凿的证据,表明Mamba的线性复杂度是处理更长雷达序列中固有的海量Token的实际解决方案,这是先前基于Transformer的方法面临的关键挑战。
  6. 双雷达跨视图融合的优势:

    • 表7说明,双雷达(水平+垂直)配置(如milliMamba所用)显著优于单雷达设置(仅水平或仅垂直)。这证明了跨视图融合在补偿mmWave雷达传感器的有限仰角分辨率方面的益处,从而实现了更鲁棒和准确的姿态估计。

总之,milliMamba的架构选择,从高效的3D FFT预处理到Mamba基编码器和STCA解码器,都通过实验得到了验证,证明了它们对其在mmWave雷达HPE方面最先进的性能做出了贡献,提供了其核心机制在现实中有效运作的无可辩驳的证据。

局限性与未来方向

尽管milliMamba在基于mmWave雷达的人体姿态估计方面取得了重大进展,但该论文的发现也隐含地指出了几个需要进一步发展和突出固有局限性的领域。

推断的局限性:

  1. 计算足迹: 尽管milliMamba对于长序列比Transformer更有效率,但其计算成本(例如,在HuPR上为34.4 GMACs,4.0M参数,224.1 MB内存)对于部署在资源极其受限的边缘设备上或需要极低延迟的应用来说,可能仍然很高。这里的“合理复杂性”是相对的,对于普遍的实时使用,可能还需要进一步优化。
  2. 单人焦点: 当前框架似乎主要设计用于单人姿态估计。明确提及“多人场景”作为未来工作表明,处理多个交互个体(尤其是有遮挡时)仍然是当前架构的挑战。
  3. 数据集特异性: 评估是在两个特定的数据集TransHuPR和HuPR上进行的。虽然这些数据集涵盖了动态和静态动作,但它们可能无法完全代表实际部署中遇到的各种人类运动、环境条件或潜在雷达干扰场景。
  4. 极端遮挡下的泛化能力: 虽然对镜面反射具有鲁棒性,但milliMamba在严重自遮挡或环境遮挡(例如,在家具后面)下推断姿态的能力并未完全详细说明。雷达信号仍然可能稀疏,身体的全部部分可能仍然未被观测到。

未来方向与讨论话题:

作者明确表示,未来的工作将探索多人和跨环境场景,以及进一步降低计算成本。在此基础上,以下是进一步发展的多样化视角:

  1. 在对抗性和杂乱环境中的鲁棒性: 如何使milliMamba在面对雷达信号的噪声、干扰甚至对抗性攻击时更加鲁棒?像数据增强或域适应的自监督学习技术能否帮助跨截然不同的环境(例如,室内与室外,不同的房间布局,不同的杂波)实现性能泛化?
  2. 实时边缘部署与硬件优化: 鉴于降低计算成本的目标,可以探索哪些具体的硬件感知优化?这可能包括模型量化、剪枝、用于更小Mamba变体的神经架构搜索,甚至用于SSM的专用硬件加速器。讨论可以深入探讨模型大小、推理速度和准确性之间对于实际边缘部署的权衡。
  3. 与互补传感器的集成以增强上下文: 虽然雷达提供了隐私保护,但能否通过谨慎地融合其他隐私保护的模式(例如,用于身体热量的热像仪,用于运动的被动红外传感器,甚至用于深度的低分辨率激光雷达)来提供更丰富的上下文线索?这可以帮助解决雷达数据中的歧义,特别是在精细运动或身体部位完全从雷达视野中消失时。同步和融合这种异构数据流的挑战是什么?
  4. 超越2D:迈向3D姿态与网格重建: 当前工作侧重于2D HPE。如何扩展或调整时空Mamba融合机制以直接预测3D人体姿态甚至完整的人体网格重建?这将为虚拟现实、增强现实以及更复杂的人机交互打开应用,但需要解决2D雷达投影的固有局限性。
  5. 伦理影响与隐私保护AI: 随着雷达基HPE变得越来越准确和能够进行多人跟踪,讨论必须解决伦理影响。虽然其设计本身就保护隐私,但需要采取哪些保障措施来防止潜在的滥用,例如未经授权的监视或识别?如何负责任地开发这项技术,以确保它造福社会而不侵犯个人权利?
  6. 长期时序理解与动作识别: 当前框架利用时间上下文进行姿态估计。这能否扩展到理解更长的人类活动,预测未来姿态,甚至识别复杂的动作和意图?这将需要整合能够跨越更长时程保留信息的记忆机制,可能朝着更全面地理解人类行为的方向发展。
  7. 合成数据生成与模拟: 鉴于收集大规模、多样化雷达数据集的难度和成本,是否可以使用先进的模拟环境或生成模型来创建用于训练的合成雷达数据?这可以帮助克服数据稀缺性,提高泛化能力,并允许在现实世界中难以捕捉的极端或罕见场景下进行测试。
Table 2. Comparison of model performance and complexity across methods on the TransHuPR dataset [12]. The complexity excludes radar signal preprocessing Table 3. Comparison of model performance and complexity across methods on the HuPR dataset [13]. The complexity excludes radar signal preprocessing Table 6. Impact of input sequence length (T) on pose estimation performance. We investigate the effect of varying T to understand how temporal context contributes to accuracy

与其他领域的同构性

结构骨架

本文的核心提出了一种从嘈杂、高维顺序数据中高效提取和融合时空特征,以预测具有时间一致性的结构化输出的机制。

远亲

  1. 目标领域:金融时间序列分析

    • 联系: 在金融市场中,分析师需要处理高维、嘈杂和顺序的数据流,如股票价格、交易量和经济指标。捕捉该数据中长程时间依赖性和跨资产相关性的挑战,与milliMamba的任务如出一辙。正如雷达信号会遭受“镜面反射”导致“关节缺失”一样,金融数据也充斥着市场噪音、突发事件和不完整信息,这些都会掩盖真实的潜在模式。本文方法从稀疏、高维输入中进行鲁棒特征提取的能力,以及其通过利用上下文线索推断缺失信息的能力,直接呼应了在数据缺口和波动性的情况下预测未来市场状态的需求。
  2. 目标领域:气候建模与环境预测

    • 联系: 气候科学涉及处理海量的时空数据,包括跨越广阔地理网格的温度、压力、湿度和风力模式,持续时间很长。预测未来的天气事件或长期气候趋势需要理解空间上(例如,一个地区的大气状况如何影响另一个地区)和时间上(例如,季节周期、多年振荡)的复杂长程依赖性。milliMamba的双雷达输入,融合了不同视角的信息,类似于整合来自各种环境传感器或卫星观测的数据。本文专注于通过高效的时空建模从嘈杂输入中提取鲁棒特征,这与从混沌且常常不完整气象数据中进行准确预测的挑战产生了深刻共鸣。

如果情景

想象一下,一家领先对冲基金的量化分析师,明天“窃取”了milliMamba的确切跨视图融合Mamba编码器和时空交叉注意力解码器,并被委托开发下一代算法交易系统。他们不会输入mmWave雷达信号,而是输入多源金融时间序列数据。这些数据可以包括实时股票价格、债券收益率、商品期货和宏观经济指标,其中“跨视图”代表不同的全球市场或资产类别。Mamba编码器凭借其线性复杂度,将能够处理比当前基于Transformer的模型长得多的历史序列,捕捉影响资产价格在数月甚至数年内波动的微妙、长程市场依赖性。STCA解码器不是预测人体关节坐标,而是预测多个未来时间步内多样化资产组合的未来价格走势或波动性。它将通过确保预测的资产走势与更广泛的宏观经济趋势和跨市场相关性保持一致来强制执行“时间一致性”,并通过预测经济报告延迟或市场异常的影响来“推断缺失数据”。这种激进的应用可能导致复杂的多资产交易策略的预测准确性取得前所未有的突破,使该基金能够识别并利用现有模型目前无法看到的深层、长程时空市场模式。该系统甚至可能在一定程度上预见“黑天鹅”事件,通过识别全球金融数据中微妙的、新兴的模式。

结构通用库

本文提出的从嘈杂的顺序数据中进行鲁棒时空特征提取和结构化预测的优雅解决方案,通过跨领域看似不同的挑战所共有的数学和算法模式,丰富了结构通用库。