EN KR JP CN RU IN
WACV

milliMamba: デュアルmmWaveレーダーとマルチフレームMambaフュージョンによる鏡面反射を考慮したヒューマンポーズ推定

Open PDF

背景と学術的系譜

起源と学術的系譜

ヒューマンポーズ推定(HPE)という問題は、長年にわたり豊かな歴史を有しており、伝統的にはRGBカメラを利用した手法が主流でした。しかし、ミリ波(mmWave)レーダーを用いたこの特定の問題—ミリ波(mmWave)レーダーによるヒューマンポーズ推定—の正確な起源は、従来のカメラベースのシステムが持つ固有の限界を克服する必要性から生まれました。

歴史的背景:
高忠実度の視覚データを提供できるRGBカメラですが、多くの実世界シナリオでは重大な欠点が存在します。それらは本質的に照明条件に敏感であり、暗闇、強い反射光、または遮蔽された環境では性能が低下します。さらに重要なのは、それらが個人の視覚的に識別可能な画像をキャプチャするため、プライバシーに関する重大な懸念を引き起こすことです。これにより、家庭、病院、高齢者介護施設など、プライバシーが最優先されるデリケートな場所への展開には不向きです。プライバシーを保護し、環境に左右されない代替手段の探求は、他のセンシングモダリティの研究を促進しました。電波を送受信することで動作するミリ波レーダーは、説得力のあるソリューションを提供しました。それは暗闇、煙、さらには一部の非金属物体を「見通す」ことができ、決定的に、個人の視覚的に識別可能な画像をキャプチャしないため、プライバシーを保護します。これらの特徴のユニークな組み合わせが、mmWaveレーダーベースHPEを、明確で急速に成長している分野として発展させることにつながりました。

従来のアプローチの根本的な限界:
その説得力のある利点にもかかわらず、mmWaveレーダーベースHPEは、従来のアプローチが苦労してきた、それ自身の重大な「ペインポイント」を持っています。主な限界は、レーダーセンシングの鏡面的な性質に由来します。表面のテクスチャや色をキャプチャするカメラとは異なり、レーダー信号は、鏡の光のように、特定の角度で滑らかな体の表面からしばしば跳ね返ります。これは、レーダーセンサーに直接向けられた体の部分のみが信号を反射するということを意味し、疎で不完全な観測につながります。指や肘のような小さく、または斜めに向けられた関節は、しばしば完全に欠落します。これにより、単一フレームのレーダー入力から全身のポーズを再構築することは非常に困難になります。

さらに、特にTransformerアーキテクチャに基づいた従来の手法は、重大なスケーラビリティの問題に直面しました。時間的コンテキストを捉え、欠落した関節を推測するために不可欠な、長いレーダーデータシーケンスの処理は、大量のトークンと二次的な計算複雑性をもたらしました。これは、法外に高いメモリ使用量とトレーニング時間につながり、リアルタイムアプリケーションを非現実的なものにしました。これを軽減するためのいくつかの試みは、「早期時間的フュージョン」を含んでいました。これは、処理パイプラインで時間情報が早すぎると圧縮されることを意味します。しかし、この時期尚早なフュージョンは、鏡面反射によって引き起こされる、それらの捉えどころのない欠落した関節を効果的に回復するために、隣接フレームからのコンテキストキューを活用するモデルの能力をしばしば損ないました。**** 本論文の著者らは、欠落した関節を推測する能力を犠牲にすることなく、長いシーケンスにわたる時空間的依存関係を効率的にモデル化できるフレームワークを開発することにより、これらの根本的な限界に対処することを目指しました。

直感的なドメイン用語

  • ミリ波(mmWave)レーダー: コウモリが非常に高いピッチの鳴き声(音波)を使って暗闇の中で周囲を「見る」のを想像してみてください。mmWaveレーダーはこれと似たことを、音波ではなく非常に短い無線波で行い、光やカメラを必要とせずに物体や微妙な動きさえも検出できるようにします。それは、どんな条件でも機能する、スーパーセンシティブで目に見えない目のようなもので、プライバシーに配慮したセンシング方法を提供します。

  • ヒューマンポーズ推定(HPE): 人形の体のどこに糸が結び付けられているかを、その動きを見るだけで理解しようとする人形遣いを想像してみてください。HPEはそれと同様で、実際の人間に対して、関節(肘、膝、肩など)の正確な位置を特定し、姿勢と動きを理解しようとします。

  • 鏡面反射: 完璧に滑らかで光沢のある床にレーザーポインターを当てているのを想像してください。光は、ビリヤードの球のように、一つの明確で予測可能な方向に跳ね返ります。床がでこぼこしていると、光はどこにでも散乱します。レーダーにおける鏡面反射とは、体の部分がセンサーに完璧な角度で向けられている場合にのみ信号がセンサーに跳ね返ることを意味し、他の部分は「見えない」または検出が困難になります。これは、鏡が光をあなたから遠ざけるように反射するのと似ています。

  • Mamba(状態空間モデル - SSM): 非常に長い本を読もうとしているのを想像してください。従来の方法(Transformerのような)は、新しい単語に出会うたびに、その文脈を理解するために最初からすべての単語を読み直す必要があるようなものです。これは長い本にとっては非常に遅いプロセスです。Mambaモデルは、非常に効率的な短期記憶を持っており、これまで読んだ内容を素早く要約することで、毎回本全体を読み直すことなく、新しい単語を文脈の中で理解できるようにします。長い物語にはるかに高速です。

  • ヒートマップ(レーダー処理において): 気温を示す天気図を想像してください。赤い領域は高温、青い領域は低温です。レーダーヒートマップも同様ですが、温度の代わりに、レーダーが何かを「見ている」場所を示します。マップ上の明るいスポットは、より強いレーダー反射を意味し、その特定の場所(距離、角度)または特定の速度(ドップラー)で移動している体の部分が存在する可能性が高いことを示します。

記法表

記法 説明
$X$ 2つの直交マウントされたセンサーからの生の複素数mmWaveレーダー信号。
$T$ 入力シーケンス内の連続フレーム数。
$L$ トレーニング中に最小化される総損失関数。
$L_{oks}$ ポーズ予測の不正確さを罰するObject Keypoint Similarity(OKS)損失。
$\lambda_{vel}$ 速度損失の重み付け係数。
$L_{vel}$ 予測された関節運動の時間的整合性を罰する速度損失。
$v_{f,j}$ フレーム $f$ における関節 $j$ の予測速度。
$\hat{v}_{f,j}$ フレーム $f$ における関節 $j$ のグラウンドトゥルース速度。
$J$ 推定される人間の体の関節の総数。
$f$ フレームインデックス。
$j$ 関節インデックス。
$h_t$ 時間ステップ $t$ におけるMamba SSMの隠れ状態ベクトル。
$u_t$ 時間ステップ $t$ におけるMamba SSMへの入力トークン(特徴ベクトル)。
$y_t$ 時間ステップ $t$ におけるMamba SSMからの出力トークン(特徴ベクトル)。
$A, B, C, D$ Mamba SSMの学習可能なパラメータ行列。
$q_{f,j}$ フレーム $f$ における関節 $j$ の学習可能なキーポイントクエリ。
$SA(\cdot)$ Spatial Attention関数。
$TA(\cdot)$ Temporal Attention関数。
$CrossAttn(\cdot)$ Cross-Attention関数。
$Q, K, V$ AttentionメカニズムにおけるQuery, Key, Value行列/ベクトル。
$d$ Attentionにおけるキーベクトルの次元、スケーリングに使用。
$F_h, F_v$ 水平および垂直レーダービューから抽出された特徴マップ。
$F'$ CVMambaエンコーダーからのリッチでコンテキストを意識した特徴表現。

問題定義と制約

中核問題の定式化とジレンマ

本論文が取り組む中核問題は、ミリ波(mmWave)レーダー信号を用いた2Dヒューマンポーズ推定(HPE)である。これは、従来のRGBカメラベースの手法と比較して、特に困難なタスクである。

入力/現在の状態: この分析の出発点は、生のmmWaveレーダー信号、特に2つの直交マウントされたレーダーセンサー(水平および垂直ビュー)からの複素数キューブ $X \in C^{12 \times 128 \times 256}$ である。これらの信号は $T$ 個の連続フレームのシーケンスでキャプチャされる。これらの信号の現在の状態は問題がある:
* 鏡面反射による本質的な疎性がある。これは、受信機に直接信号を反射する体の表面のみがキャプチャされることを意味する。これはしばしば関節の欠落につながり、特に小さくまたは斜めに向けられた関節が顕著である。
* 末端(手首や足首など)からの反射はしばしば弱いため、信頼性のある検出が困難である。
* 信号は時間的整合性を乱す変動に悩まされ、その精度は対象の向きとセンサーの配置に非常に敏感である。
* 特にTransformerベースの手法は、マルチフレームレーダー入力の高次元性大量のトークンに対処するのに苦労し、計算上のボトルネックとメモリ制限につながる。多くの従来のアプローチは、時空間的依存関係を部分的にしかモデル化しないか、早期の時間的フュージョンに依存しているが、これは鏡面反射によって引き起こされる欠落関節を効果的に回復するモデルの能力を損なう。

望ましい終点(出力/目標状態): 究極の目標は、これらの困難なデュアルビューmmWaveレーダー信号から、時間的に整合性の取れた2Dヒューマンポーズを生成することである。これは意味する:
* 複数のフレームにわたる人間の関節の2D座標を正確に予測すること。
* 鏡面反射または弱い信号によって隠された欠落関節を頑健に推測すること。
* 隣接フレームからのコンテキストキューを活用して、全体的なポーズ精度を向上させ、動きの滑らかさを確保すること。
* 計算上の複雑性とメモリフットプリントを合理的に維持しながら、既存の手法と比較して最先端のパフォーマンス(例:平均精度(AP)の大幅な改善)を達成すること。

欠落リンクまたは数学的ギャップ: 正確な欠落リンクは、HPEパイプラインのエンコーディング(特徴抽出)とデコーディング(ポーズ予測)の両方の段階にわたる長距離の時空間的依存関係を共同でモデル化するための、頑健で効率的なメカニズムである。このメカニズムは、高次元、マルチフレームレーダーデータをTransformerのような従来の手法で処理することに伴う法外な計算コストとメモリコストを克服しながら、欠落関節を推測し、時間的整合性を確保するために、デュアルレーダービューと複数フレームからの情報を効果的に融合しなければならない。本論文は、シーケンスモデリングに線形複雑性を提供するMambaベースのアーキテクチャを導入することにより、このギャップを埋めることを目指している。

苦痛なトレードオフまたはジレンマ: 従来の研究者を閉じ込めてきた中心的なジレンマは、精度を高めるためにリッチな時空間的コンテキストを活用することと、計算効率を維持することとの間のトレードオフである。
* 欠落関節を正確に推測し、滑らかな動きを確保するためには、モデルはより長いレーダーフレームシーケンスを処理し、空間的および時間的次元の両方にわたる情報を統合する必要がある。これには、長距離依存関係をモデル化できるアーキテクチャが必要である。
* しかし、グローバルな依存関係のキャプチャに優れるTransformerのような強力な従来モデルは、シーケンス長に対して二次的な計算複雑性に悩まされる。これは、入力フレーム数($T$)がわずかに増加するだけで、計算とメモリ要件が比例して増加することを意味する。
* このジレンマは、従来の手法に、(1) より短いシーケンスを処理すること(それにより、頑健なポーズ推定に必要な貴重な時間的コンテキストを失う)、または (2) 処理パイプラインの早い段階で時間的次元を圧縮すること(これは、鏡面反射によって引き起こされる欠落関節を回復するモデルの能力を著しく損なう)のいずれかを強制することが多い。著者らは明確に「一方の側面を改善すると、通常はもう一方が壊れる」と述べており、まさにこのケースである:精度のための高い時間的コンテキストは、しばしば管理不能な計算コストにつながる。

制約と失敗モード

mmWaveレーダーベースHPEの問題は、いくつかの厳しい現実的な制約により、非常に困難である:

物理的制約:
* 鏡面反射: これはレーダーの根本的な限界である。信号は鏡のように表面から反射し、疎な観測につながり、特定の体の部分のみが見え、他の部分(特に小さくまたは斜めに向けられた関節)は完全に欠落する。これにより、単一フレーム入力からの全身ポーズ再構築が非常に困難になる。
* 末端からの弱い反射: 手首や足首のような手足や関節は、非常に弱いレーダー反射を生じることが多く、正確に検出・追跡するのが困難である。これはデータの疎性と不完全性に寄与する。
* 対象の向きとセンサー配置への感度: レーダー信号の品質と完全性は、対象がレーダーセンサーに対してどのように向き、センサーがどこに配置されているかに大きく依存する。わずかな変化でも推定精度に大きな影響を与える可能性がある。
* 限られた仰角分解能: mmWaveレーダーセンサーは、本質的に限られた仰角分解能を持っているため、異なる高さにある物体を区別するのが難しい場合がある。このため、補償のためにマルチレーダーセットアップ(ここではデュアルレーダーシステムが使用されている)が必要となる。

計算上の制約:
* レーダー入力の高次元性: 生のmmWaveレーダーデータは本質的に高次元である(例:フレームあたりの $C^{12 \times 128 \times 256}$ キューブ)。複数のフレームのシーケンスを処理する場合、総データ量は膨大になる。
* 従来モデル(Transformer)の二次的複雑性: Transformerのような既存の最先端モデルは、強力ではあるが、入力シーケンス長に対して計算複雑性が二次的にスケールする。これは、入力フレーム数($T$)がわずかに増加するだけで、計算とメモリ要件が比例して増加することを意味する。例えば、論文ではTransformerが「より長いシーケンスでトレーニングすると、ハードウェアでメモリ不足になる」と述べている(表8、p. 7)。
* ハードウェアメモリ制限: データの絶対量とモデルの二次的複雑性は、ハードウェアメモリ制限にすぐに達し、標準的なGPU(例:論文で言及されているNVIDIA Tesla V100 GPU)で十分に長い時間的シーケンスを持つモデルをトレーニングすることを非現実的にする。例えば、従来の4Dヒートマップ生成は、3D FFTアプローチよりも11倍メモリ集約的であることが示されている(図4(c), p. 5)。*
*
*リアルタイム遅延要件(暗黙的):
明示的に厳密なリアルタイム制約として述べられていないが、「効率的な」処理と「前処理オーバーヘッドの削減」(導入部、p. 2)の必要性は、潜在的な実世界アプリケーションのための実用的な遅延範囲内で動作しなければならないソリューションを示唆している。4D対3D FFTの比較も、3Dアプローチによる8.6倍の遅延削減を強調している。

データ駆動型制約:
* 不完全な観測: 物理的制約の直接的な結果として、入力レーダーデータはしばしば人間の体の不完全な観測を提供し、強力なコンテキストキューなしでは完全なポーズの再構築を困難にする。
* 時間的不整合: レーダー信号の変動は、フレーム間で検出される関節の不整合につながる可能性があり、明示的な時間的モデリングなしに滑らかで物理的に妥当なポーズシーケンスを確保することを困難にする。
* データの疎性: 関節の欠落を超えて、レーダー信号全体が疎である可能性があり、頑健な特徴の抽出を重大な課題にする。これには、限定的でノイズの多い情報から効果的に学習できるモデルが必要である。

なぜこのアプローチなのか

選択の必然性

milliMambaのエンコーダーにMambaアーキテクチャを採用したのは、単なる設計上の好みではなく、ミリ波(mmWave)レーダーベースのヒューマンポーズ推定(HPE)の固有の課題によって駆動された必然性であった。著者らは、特にTransformerのような従来の最先端(SOTA)手法が不十分になった正確な瞬間を特定した:「より長いレーダーシーケンスに固有の大量のトークン」を扱う場合である。マルチレーダー特徴のフュージョンやグローバルな依存関係のモデリング能力を持つ従来のTransformerベースのアプローチは、計算コストの「二次的複雑性」に悩まされており、HPEのための頑健なレーダー処理に不可欠な拡張された時間的コンテキストを処理するのに非現実的であった。

mmWaveレーダーHPEにおける根本的な問題は、鏡面反射による信号の疎性であり、不完全な観測と関節の欠落につながる。これを克服するためには、複数フレームにわたる時空間的依存関係の活用が最優先事項である。しかし、入力フレーム数($T$)を増やすことは、Transformerの計算負荷を直接悪化させ、表8で示されているように、Transformerがメモリ不足になる前に$T=3$フレームしか処理できなかったように、すぐにメモリ不足の問題につながる。Mambaのシーケンス長に対する線形複雑性($O(N)$)は、法外な計算コストなしにこれらの重要な長い時間的シーケンスを効率的にモデル化するための唯一実行可能な道を提供した。この構造的利点は、Mambaを拡張シーケンスにわたる包括的な時空間的モデリングを達成するための唯一実行可能なソリューションにした。

比較優位性

milliMambaのアプローチは、主にそのアーキテクチャ設計の選択により、単なるパフォーマンス指標を超えた定性的な優位性を示しており、それらは直接的に従来の手法の限界に対処している。

  1. 長いシーケンスに対する線形複雑性: 最も重要な構造的利点は、Mambaエンコーダーが二次的複雑性を持つTransformerとは対照的に、線形複雑性でより長いレーダーシーケンスを処理できることである。これにより、milliMambaは、鏡面反射によって引き起こされる欠落関節の推測と動きの滑らかさを確保するために不可欠な、より豊かな時間的コンテキスト(例:デフォルトで$T=9$フレーム、実験では最大$T=15$フレーム)を活用できる。これは、時間経過とともに高次元のノイズと疎なデータをより良く処理することに直接つながる。表8はこれを明確に示しており、Transformerがメモリ制限のために長いシーケンスにスケールできない一方で、Mambaは$T=3$でもTransformerと同等またはそれ以上の精度を達成している。
  2. 効率的な前処理: レーダー信号前処理のための計算コストの高い4Dヒートマップから3D FFTベースのヒートマップへの移行は、もう一つの重要な構造的利点である。この変更は、メモリ使用量を11倍、遅延を8.6倍削減する(図4c)。この効率の向上は単なる速度の問題ではなく、「トークン数の爆発」を軽減し、高次元レーダーデータを後続のモデリングにより扱いやすくし、そうでなければ不可能であった長い時間的シーケンスの使用を可能にする。
  3. 強化された時空間的コンテキストモデリング: Cross-View Fusion Mamba(CV-Mamba)エンコーダーは、デュアルレーダー入力を効率的に融合し、長距離の時空間的依存関係をキャプチャするように設計されている。これは、マルチフレームポーズ推定を実行するSpatio-Temporal-Cross Attention(STCA)デコーダーによって補完される。単一フレームを予測したり、時間的次元を早期に圧縮したりすることが多い従来の手法とは異なり、STCAは空間的および時間的アテンションの両方を統合し、各フレーム内の空間的関係とフレーム間の時間的依存関係を同時にモデル化することを可能にする。このより豊かなコンテキストモデリングは、レーダーデータの固有の疎性と変動に対してモデルをより頑健にするために不可欠であり、欠落関節の推測と動きの整合性を確保する。****

制約との整合性

選択された手法であるmilliMambaは、mmWaveレーダーベースHPEの厳しい要件と完全に整合しており、「問題とソリューションの結婚」を形成している:

  1. プライバシー保護と照明不変性: フレームワークは、プライバシー保護と照明不変性のセンサーであるmmWaveレーダーを本質的に活用しており、これらの根本的な要件を満たしている。
  2. 疎な信号と鏡面反射への頑健性: 問題の根本的な課題は、鏡面反射による不完全な観測である。milliMambaは、包括的な時空間的モデリングパイプラインを通じてこれを解決する。CV-MambaエンコーダーとSTCAデコーダーは共同で、隣接フレームとビューからのコンテキストキューを活用して欠落関節を推測する。特にSTCAデコーダーは、「空間的および時間的アテンションを統合することにより、鏡面反射による欠落関節の影響を軽減する」(方程式4:$q_{j, \cdot}^{''} = TA(q_{j, \cdot}^{'}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j$)。
  3. 高次元レーダー入力の処理: mmWaveレーダー入力は高次元である。3D FFT前処理ステップは、生のレーダー信号を効率的に3Dヒートマップに変換し、後続のMambaベースエンコーダーにとって扱いやすいものにするために、従来のアプローチと比較して前処理オーバーヘッドとトークン数を大幅に削減する。
  4. 長いシーケンスの効率的な処理: 時間的コンテキストを捉えるために長い時間的シーケンスが必要であるが、従来のTransformerは二次的複雑性で苦労する。Mambaエンコーダーの線形複雑性はこれを直接解決し、モデルが拡張シーケンスを効率的に処理し、正確なポーズ推定に不可欠な長距離の時空間的依存関係をキャプチャすることを可能にする。
  5. マルチフレームポーズ推定と時間的整合性: 問題は時間的コンテキストの活用を要求する。STCAデコーダーの「多対多」予測戦略は、複数のフレームを同時に予測し、「時間ステップ全体にわたるより豊かな監視」を保証し、時間的アテンションを通じて動きの整合性を強制する(方程式4:$q_{j, \cdot}^{''} = TA(q_{j, \cdot}^{'}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j$)。これは、時間的に整合性の取れたポーズシーケンスの要件に直接対応する。
  6. デュアルレーダー入力フュージョン: フレームワークはデュアルmmWaveレーダー入力(水平および垂直ビュー)用に設計されている。Cross-View Fusion Mambaエンコーダーは、「フレーム全体にわたるデュアルレーダー入力を効果的に融合する」ように特別に適応されており、仰角分解能の制限を補うために複数のセンサーからの情報を組み合わせる必要性に直接対応している。

代替案の却下

論文は、いくつかの人気のある代替アプローチを却下する明確な理由を提供している:

  1. エンコーダーとしてのTransformer: 主なエンコーダータスクのためにTransformerを却下した主な理由は、シーケンス長に対する「二次的複雑性」であった。セクション1およびセクション2.1で述べられているように、これは「高い計算コスト、特にメモリ使用量とトレーニング時間」につながり、頑健なレーダーベースHPEに必要な「より長いレーダーシーケンスに固有の大量のトークン」を処理するのに不向きである。表8はこれを鮮明に示しており、Transformerエンコーダーが「より長いシーケンスでトレーニングすると、ハードウェアでメモリ不足になる」($T=3$フレームを超える)一方で、Mambaは効果的にスケールすることを示している。
  2. 早期時間的フュージョン: いくつかの従来のTransformerベースの手法は、「時間的次元を早期に圧縮する」ことによって複雑性を軽減しようとした。しかし、著者らは「そのような早期フュージョンは、鏡面反射によって引き起こされる欠落関節を回復するモデルの能力を損なう可能性がある」と主張している。milliMambaは、エンコーディングとデコーディングの両方の段階で時空間的モデリングを維持することにより、これを回避し、推測のためのより豊かなコンテキストを保証する。
  3. 4Dヒートマップ前処理: 従来の4Dヒートマップアプローチ[25]は、「計算コストが高く」、トークン数の「爆発」につながるため却下された。論文は、3D FFTベースのヒートマップが「はるかに効率的で、メモリ使用量を11倍、遅延を8.6倍削減する」(図4c)一方で、同等またはそれ以上の精度を達成することを示している。これにより、3D FFTは前処理のための優れた代替手段となる。
  4. マルチフレームからシングルフレームへのデコーディング: ほとんどの従来レーダーベースHPE手法は、「多対一」予測戦略を採用している。milliMambaの「多対多」STCAデコーダーは、複数のフレームを同時に予測するが、これは「時間ステップ全体にわたるより豊かな監視」を提供し、「隣接フレームと関節からのコンテキストキューを活用して欠落関節をより良く推測する」(セクション1、表5)ため選択された。この定性的な利点は、単純化された多対一バリアントよりも4.1 APの改善につながった。
  5. CNNベースの手法: CNNは「マルチスケール空間的および短期時間的特徴」をキャプチャするのに効果的であるが、「複数のレーダーセンサーからの情報のフュージョン能力がしばしば制限される」(セクション2.1)。milliMambaのデュアルレーダー入力とクロスビューフュージョン設計を考慮すると、CNNは異なるレーダービューからの情報を統合するのにそれほど効果的ではなかっただろう。
Figure 1. Our milliMamba performs spatio-temporal modeling across both the feature extraction and decoding stages, addressing a key limitation of TransHuPR [12], which models these dependencies only partially. This is made possible by milliMamba’s ability to process a larger number of tokens with a comparable memory footprint, enabling richer temporal context and more accurate pose estimation

数学的および論理的メカニズム

マスター方程式

milliMambaの学習プロセスの核心は、正確なポーズ推定と時間的整合性の両方を達成することを目指す組み合わせ損失関数によって駆動される。このマスター方程式は、モデルがその内部パラメータを洗練させるようにトレーニング中に導く。それは次のように定義される:

$$ L = L_{oks} + \lambda_{vel} L_{vel} $$

この全体的な損失関数が学習目標を決定する一方で、それが評価するポーズ推定を生成する実際の「エンジン」は、Mambaエンコーダー内の状態空間モデル(SSM)とSTCAデコーダー内のアテンションメカニズムという2つの基本的なメカニズムに依存している。

Mambaエンコーダーのシーケンシャル処理は、各SSM層の隠れ状態更新方程式によって支配される:

$$ h_{t+1} = A h_t + B u_t \\ y_t = C h_t + D u_t $$

そして、STCAデコーダーは、アテンションメカニズム、特に空間的アテンション(SA)、時間的アテンション(TA)、およびクロスアテンション(CrossAttn)を使用してキーポイントクエリを洗練させる。空間的および時間的側面のための自己アテンション操作は次のとおりである:

$$ q_{f,.}^{'} = SA(q_{f,.}) = \text{softmax}(Q_f K_f^T / \sqrt{d}) V_f \\ q_{.,j}^{''} = TA(q_{.,j}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j $$

最後に、クロスアテンションメカニズムはエンコーダー特徴を統合する:

$$ q_{f,j}^{'''} = \text{CrossAttn}(q_{f,j}^{''}, F') $$

用語ごとの解剖

これらの数式を分解して、各コンポーネントの役割を理解しよう:

全体的なトレーニング目標: $L = L_{oks} + \lambda_{vel} L_{vel}$

  • $L$: milliMambaモデルがトレーニング中に最小化しようとする総損失関数である。これは、モデルの予測とグラウンドトゥルースとの間の全体的な誤差を表し、ポーズ精度と時間的整合性の両方を含む。
  • $L_{oks}$: これはObject Keypoint Similarity(OKS)損失を表す。
    • 数学的定義: オブジェクトのスケールとキーポイントアノテーションの分散を考慮して、予測されたキーポイントとグラウンドトゥルースキーポイントとの間の類似性を測定する指標である。通常、0から1の値であり、1は完璧な類似性を意味する。損失関数は通常、これを最小化される値(例:$1 - OKS$)に変換する。
    • 物理的/論理的役割: これは、予測された人間のポーズの精度を確保するための主要な項である。モデルの出力と実際の人間ポーズとの間の個々の関節(例:頭、肘、膝)の位置の不一致を直接罰する。
    • なぜ加算なのか? $L_{oks}$ と $L_{vel}$ は、それぞれポーズ精度と時間的整合性という異なる種類の誤差を表し、モデルは同時に最小化する必要があるため、ここでは加算が使用される。これらを加算することで、どちらかのコンポーネントの改善が全体的な損失の削減に貢献する複合的な目的が作成される。
  • $\lambda_{vel}$: これは速度損失のスカラ重み付け係数である。
    • 数学的定義: ハイパーパラメータであり、通常は正の実数(例:論文で述べられている0.05)。
    • 物理的/論理的役割: この係数は、ポーズ精度($L_{oks}$)の重要性と時間的整合性($L_{vel}$)の重要性のバランスを取る。$\lambda_{vel}$ が高いほど、モデルは時間的整合性を優先し、わずかなフレームごとの精度の低下を犠牲にする可能性がある一方、低い値はフレームごとの精度を強調する。これはトレードオフを調整するノブである。
  • $L_{vel}$: これは速度損失を表し、方程式(6)で定義される。
    • 数学的定義: 予測された関節速度とグラウンドトゥルース関節速度との差の二乗L2ノルムであり、すべてのフレームと関節にわたって平均化される。
    • 物理的/論理的役割: この項は、予測されたポーズシーケンスの時間的滑らかさを強制するための正則化メカニズムとして機能する。それは、ノイズや不完全なレーダーデータから生じるアーティファクトであることが多い、推定されたポーズの突然の、ぎこちない動きを抑制する。連続フレーム間の関節位置の大きな変化を罰することにより、より現実的で物理的に妥当な動きの軌道を促進する。

速度損失方程式(6): $L_{vel} = \frac{1}{(T-1)J} \sum_{f=1}^{T-1} \sum_{j=1}^{J} ||v_{f,j} - \hat{v}_{f,j}||_2^2$

  • $T$: 入力シーケンス内のフレームの総数(例:9フレーム)。
    • 数学的定義: 時間的シーケンスの長さを表す整数。
    • 物理的/論理的役割: 整合性が強制される時間的ウィンドウを定義する。速度は2つの連続する位置から計算されるため、損失は $T-1$ 個の速度ベクトルに対して計算される。
  • $J$: 推定される人間の体の関節の総数(例:14キーポイント)。
    • 数学的定義: 個別のキーポイントの数を表す整数。
    • 物理的/論理的役割: 全体的な速度損失に寄与する関節の数を指定する。
  • $f$: フレームを $1$ から $T-1$ まで反復するインデックス。
    • 数学的定義: 整数のループ変数。
    • 物理的/論理的役割: シーケンス内の特定の時間ステップを表す。
  • $j$: 関節を $1$ から $J$ まで反復するインデックス。
    • 数学的定義: 整数のループ変数。
    • 物理的/論理的役割: 特定の体の関節(例:頭、肘)を表す。
  • $v_{f,j}$: フレーム $f$ における関節 $j$ の予測速度。
    • 数学的定義: フレーム $f+1$ における関節 $j$ の予測位置とフレーム $f$ におけるその予測位置との差を表すベクトル($P_{f+1,j} - P_{f,j}$)。
    • 物理的/論理的役割: これは、特定の関節が2つの連続するフレーム間でどれだけ速く、どの方向に移動しているかのモデルの推定値である。
  • $\hat{v}_{f,j}$: フレーム $f$ における関節 $j$ のグラウンドトゥルース速度。
    • 数学的定義: フレーム $f+1$ における関節 $j$ のグラウンドトゥルース位置とフレーム $f$ におけるそのグラウンドトゥルース位置との差を表すベクトル($\hat{P}_{f+1,j} - \hat{P}_{f,j}$)。
    • 物理的/論理的役割: これは、アノテーションデータから導出された、関節の真の、望ましい速度である。モデルはこれを一致させようとする。
  • $||\cdot||_2^2$: 二乗L2ノルム(ユークリッド距離の二乗)。
    • 数学的定義: ベクトル $x = [x_1, x_2, \dots, x_k]$ に対して、$||x||_2^2 = \sum_{i=1}^k x_i^2$。
    • 物理的/論理的役割: 予測された速度ベクトルとグラウンドトゥルース速度ベクトルとの差の大きさを定量化する。ノルムを二乗することで、すべての誤差が損失に正に寄与し、より大きな誤差をより小さな誤差よりも大幅に罰するため、損失関数は微分可能で勾配ベースの最適化に適している。
  • $\sum_{f=1}^{T-1} \sum_{j=1}^{J}$: 二重総和。
    • 数学的定義: 関連するすべてのフレームとすべての関節にわたる二乗速度差の合計。
    • 物理的/論理的役割: 時間的整合性の単一の尺度を得るために、個々の速度誤差を時間的シーケンス全体とすべての体の部分にわたって集計する。
  • $\frac{1}{(T-1)J}$: 正規化係数。
    • 数学的定義: 二乗誤差の合計を考慮された速度ベクトルの総数で割る。
    • 物理的/論理的役割: $L_{vel}$ 損失の大きさがシーケンス長 $T$ または関節数 $J$ に依存しないことを保証し、異なる構成間で比較可能にし、より長いシーケンスが単に項が多いという理由だけでより大きな損失を持つことを防ぐ。

Mamba SSM隠れ状態更新(方程式2): $h_{t+1} = A h_t + B u_t$ および $y_t = C h_t + D u_t$

  • $h_{t+1}$: 次の時間ステップ $t+1$ における隠れ状態ベクトル。
    • 数学的定義: 時間 $t$ までのすべての以前の入力からの圧縮されたメモリまたはコンテキストを表すベクトル。
    • 物理的/論理的役割: これはMambaモデルの内部「メモリ」である。シーケンスから情報を蓄積し、モデルが長距離依存関係を理解できるようにする。
  • $h_t$: 現在の時間ステップ $t$ における隠れ状態ベクトル。
    • 数学的定義: 時間 $t$ までのメモリを表すベクトル。
    • 物理的/論理的役割: 新しい情報で更新される前の状態。
  • $u_t$: 現在の時間ステップ $t$ における入力トークン(特徴ベクトル)。
    • 数学的定義: 現在処理されている情報の断片を表すベクトル。
    • 物理的/論理的役割: これは、Mambaレイヤーが現在処理している新しいデータポイント(例:レーダーフレームの特徴)である。
  • $y_t$: 現在の時間ステップ $t$ における出力トークン(特徴ベクトル)。
    • 数学的定義: 時間 $t$ においてSSMによって生成されたベクトル。
    • 物理的/論理的役割: これは現在の時間ステップの処理済み情報であり、後続のレイヤーに渡されたり、さらなる計算に使用されたりする。
  • $A, B, C, D$: 層固有の学習可能なパラメータ(行列)。
    • 数学的定義: 隠れ状態と入力に適用される線形変換を定義する行列。$A$ は状態遷移行列、$B$ は入力行列、$C$ は出力行列、$D$ は直接フィードスルー行列である。
    • 物理的/論理的役割: これらの行列はSSMの「重み」である。トレーニング中に学習され、過去のメモリ($h_t$)が現在の入力($u_t$)とどのように組み合わされて新しいメモリ($h_{t+1}$)と現在の出力($y_t$)を生成するかを決定する。それらはシステムのダイナミクスを効果的にエンコードし、Mambaが長いシーケンスにわたって情報を選択的に記憶または忘却できるようにする。
    • なぜ行列乗算と加算なのか? これは線形状態空間モデルの標準的な形式である。行列乗算は線形変換と特徴の混合を可能にし、加算は前の状態と現在の入力の影響を組み合わせる。この線形再帰は、長距離依存関係を捉えるのに効率的である。

アテンションメカニズム(方程式3、4、5):

  • $q_{f,.}^{'}$, $q_{.,j}^{''}$, $q_{f,j}^{'''}$: これらはそれぞれ、空間的、時間的、およびクロスアテンションの後のキーポイントクエリの洗練された表現を表す。
    • 数学的定義: キーポイントクエリの洗練された表現を表すベクトルまたは行列。
    • 物理的/論理的役割: これらは、デコーダーが関節位置の予測に関連する情報を抽出するために尋ねる「質問」を進化させている。各アテンションステップは、異なるコンテキスト情報を組み込むことによってこれらのクエリを洗練させる。
  • $SA(\cdot)$, $TA(\cdot)$, $CrossAttn(\cdot)$: これらは空間的アテンション、時間的アテンション、およびクロスアテンション関数である。
    • 数学的定義: アテンションスコアを計算し、それらを値ベクトルに適用する関数。
    • 物理的/論理的役割: これらは、モデルが入力の異なる部分(フレーム内の他の関節、フレームを横断する同じ関節、またはエンコーダー特徴)に選択的に焦点を当ててキーポイント予測を洗練させることを可能にするメカニズムである。
  • $Q, K, V$: クエリ、キー、バリュー行列(またはベクトル)。
    • 数学的定義: 線形変換を通じて入力特徴(例:キーポイントクエリまたはエンコーダー特徴)から派生する。
    • 物理的/論理的役割: アテンションでは、クエリ($Q$)は探しているものを表し、キー($K$)は利用可能なものを表し、バリュー($V$)は抽出される情報を含む。$Q$ と $K$ のドット積は、利用可能な情報の各部分がクエリに対してどれだけ関連があるかを決定する。
  • $d$: キーベクトルの次元。
    • 数学的定義: スカラ整数。
    • 物理的/論理的役割: アテンションメカニズムのスケーリング係数($\sqrt{d}$)として使用される。$\sqrt{d}$ で割ることは、ドット積が大きくなりすぎるのを防ぎ、ソフトマックス関数を勾配が非常に小さい領域に押し込むのを防ぎ、学習を妨げる可能性がある。
  • $\text{softmax}(\cdot)$: ソフトマックス関数。
    • 数学的定義: ベクトル $x = [x_1, \dots, x_k]$ に対して、$\text{softmax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^k e^{x_j}}$。
    • 物理的/論理的役割: アテンションスコアを確率分布に正規化し、重みの合計が1になるようにする。これは、モデルが各キーに相対的な重要性を割り当てることを意味し、対応するバリューにどれだけ「注意を払う」べきかを示す。
  • 行列乗算($Q K^T$)と $\sqrt{d}$ による除算:
    • 数学的定義: ドット積アテンション。
    • 物理的/論理的役割: ドット積 $Q K^T$ は、各クエリとすべてのキーとの間の類似性または互換性を測定する。より高いドット積は、より高い関連性を意味する。$\sqrt{d}$ で割ることは、勾配を安定させるためのスケーリング係数である。
  • $V$ による乗算:
    • 数学的定義: バリューベクトルの加重平均。
    • 物理的/論理的役割: アテンション重み(ソフトマックス経由)を計算した後、これらの重みはバリューベクトルに適用される。これは効果的に $V$ に含まれる情報の加重平均を作成し、より関連性の高い情報(より高いアテンション重み)がより多く出力に貢献する。

ステップバイステップフロー

ミリ波レーダーの微細な反射を表す単一の抽象的なレーダーデータポイントが、組み立てラインのコンポーネントのように、milliMambaシステムを通過するのを想像してください:

  1. 生レーダー信号の取り込み: 私たちの旅は、生のミリ波レーダー信号から始まります。これらは、デュアルレーダーセンサー(水平および垂直ビュー)から $T$ 個の連続フレームにわたってキャプチャされた複素数キューブ $X \in \mathbb{C}^{12 \times 128 \times 256}$ です。
  2. 前処理 - クラッタ除去とサブサンプリング: まず、静的クラッタは、チャープ全体での平均を差し引くことによって除去されます。次に、チャープ次元は計算負荷を軽減するために均一にサブサンプリングされます。
  3. 前処理 - 3D高速フーリエ変換(FFT): 複素数レーダーキューブは、3Dドップラー・角度・レンジヒートマップに変換されます。
    • 1D FFT(方程式1)がADCサンプル次元(レンジ)に沿って適用されます。
    • 別の1D FFTがチャープ次元(ドップラー)に沿って適用されます。
    • 仮想アンテナ次元はゼロパディングされ、その後3番目の1D FFT(角度)によって変換されます。
    • これにより、ビューとフレームごとに実数値の3Dヒートマップ $Y \in \mathbb{R}^{H \times D \times W}$ が生成され、従来の4Dアプローチと比較してメモリと遅延が大幅に削減されます。
  4. 特徴抽出(MNet & 3DCNN): 水平および垂直ビューの事前処理された3Dヒートマップは、並列ブランチに供給されます。各ブランチは、ドップラー次元をマージするMNetブロックから始まり、それに続いて3つの残差3D畳み込みと2つのダウンサンプリングレイヤーが続きます。このプロセスは、初期の空間的特徴を抽出し、角度とレンジ次元の解像度を低下させ、特徴マップ $F_h, F_v \in \mathbb{R}^{C_f \times T \times \frac{H}{4} \times \frac{W}{4}}$ を生成します。
  5. クロスビューフュージョン: 学習可能な位置エンコーディングが $F_h$ と $F_v$ に追加され、空間的情報がエンコードされます。これらの2つのビュー固有の特徴マップは連結され、統一されたエンコーダー入力 $F = [F_h; F_v]$ を形成します。
  6. CVMambaエンコーダー - シーケンス変換: 2D特徴マップ $F$ は、レンジ、角度、ビュー(水平、次に垂直)、そして最後にフレームを横断するジグザグスキャンパターンを使用して1Dシーケンスに変換されます。この線形シーケンスはMambaの操作に不可欠です。
  7. CVMambaエンコーダー - SSM処理: トークンの1Dシーケンス($u_t$)は、Vision Mambaレイヤーのスタックに供給されます。各レイヤーは、線形再帰関係(方程式2)を使用して、隠れ状態($h_t$)を反復的に更新し、出力($y_t$)を生成します。このプロセスは順方向および逆方向の両方で発生し、モデルは線形複雑性で長距離の時空間的依存関係をキャプチャできます。エンコーダーの出力は、リッチでコンテキストを意識した特徴表現 $F'$ です。
  8. STCAデコーダー - キーポイントクエリの初期化: 学習可能な固定セットのキーポイントクエリ $\{q_{f,j}\}$ が初期化されます。各クエリは、特定のフレーム $f$ における特定の関節 $j$ を表します。これらのクエリは、ポーズを予測するための出発点となります。
  9. STCAデコーダー - 空間的アテンション: 各デコーダーレイヤー内で、単一フレームのキーポイントクエリ($q_{f,.}$)は空間的アテンション(方程式3)を受けます。これにより、クエリは同じフレーム内の他のクエリと相互作用し、関節間の関係と空間的構造に関する情報を集約できます。出力は $q_{f,.}^{'}$ です。
  10. STCAデコーダー - 時間的アテンション: 次に、すべてのフレームにわたる単一関節の空間的に洗練されたクエリ($q_{.,j}^{'}$)は、時間的アテンション(方程式4)を受けます。このメカニズムにより、モデルは同じ関節の表現を異なる時間ステップにわたってアテンションすることで、動きの整合性を強制できます。出力は $q_{.,j}^{''}$ です。
  11. STCAデコーダー - クロスアテンション: 時間的および空間的に洗練されたキーポイントクエリ($q_{f,j}^{''}$)は、エンコーダー特徴 $F'$ にアテンションします(方程式5)。このクロスアテンションステップにより、デコーダーはCVMambaエンコーダーによって生成されたリッチな時空間的特徴から関連するコンテキスト情報を抽出でき、欠落関節の推測能力を向上させます。出力は $q_{f,j}^{'''}$ です。
  12. 予測ヘッド: 最終的に洗練されたキーポイントクエリ($q_{f,j}^{'''}$)は、予測ヘッド(通常は小さなMLP)を通過して、各フレームの各関節の2D座標を生成します。これにより、ポーズ推定のシーケンス $T$ が得られます。
  13. 損失計算:
    • 予測された2Dキーポイント座標は、グラウンドトゥルース座標と比較され、Object Keypoint Similarity損失($L_{oks}$)が計算されます。
    • 予測された関節速度($v_{f,j} = P_{f+1,j} - P_{f,j}$)は、予測された位置から計算されます。
    • グラウンドトゥルース関節速度($\hat{v}_{f,j} = \hat{P}_{f+1,j} - \hat{P}_{f,j}$)は、グラウンドトゥルース位置から計算されます。
    • 速度損失($L_{vel}$)は、これらの予測された速度とグラウンドトゥルース速度を方程式(6)を使用して比較することによって計算されます。
    • 最終的に、全体的な損失 $L = L_{oks} + \lambda_{vel} L_{vel}$ が計算されます。

最適化ダイナミクス

milliMambaモデルは、反復的な最適化プロセスを通じて、全体的な損失関数 $L = L_{oks} + \lambda_{vel} L_{vel}$ を最小化することによって学習します。

モデルの学習可能なパラメータには、MNetおよび3DCNNブロックの重み、各Mamba SSMレイヤー内の $A, B, C, D$ 行列、アテンションメカニズムの $Q, K, V$ を生成する線形変換行列、学習可能なキーポイントクエリ自体、および最終予測ヘッドの重みが含まれます。

  1. 勾配計算: 各トレーニングイテレーション中に、レーダーシーケンスのバッチがmilliMambaパイプライン全体を通過し、全体的な損失 $L$ が計算された後、モデルはすべての学習可能なパラメータに対するこの損失の勾配を計算します。これは逆伝播を通じて行われ、各パラメータが総誤差にどれだけ寄与するかを効率的に計算します。
  2. 損失ランドスケープの形成:
    • $L_{oks}$ 項は、フレームごとの正確なポーズ予測に向けてモデルを導くために、損失ランドスケープを形成します。予測されたキーポイントがグラウンドトゥルースに密接に一致するランドスケープに「谷」を作成します。
    • $\lambda_{vel}$ によって重み付けされた $L_{vel}$ 項は、追加の正則化力をもたらします。それは、フレームを横断する「スパイク状」または急速に変化するポーズ予測を罰し、時間的次元の損失ランドスケープを効果的に平滑化します。これにより、モデルは正確であるだけでなく、時間的に整合性の取れたソリューションを見つけることが奨励されます。二乗L2ノルムは、より大きな速度誤差がより厳しく罰されることを保証し、不整合な動きに対してより急な勾配を作成します。
  3. パラメータ更新: 論文ではAdamオプティマイザーが使用されていると述べられています。Adamは、勾配の第一および第二モーメントの推定値を使用して各パラメータの学習率を調整する適応的学習率最適化アルゴリズムです。
    • 計算された勾配は、損失を削減するために各パラメータに必要な変更の方向と大きさを指示します。
    • Adamオプティマイザーは、これらの勾配を指定された学習率(例:0.00005)および重み減衰(例:0.0001)とともに使用して、モデルのパラメータを更新します。重み減衰はL2正則化として機能し、パラメータが大きくなりすぎるのを防ぎ、過学習を軽減するのに役立ちます。
  4. 反復的洗練と収束: この順伝播、損失計算、逆伝播、およびパラメータ更新のプロセスは、多くのトレーニングエポックにわたって反復的に繰り返されます。
    • STCAデコーダーの反復的洗練では、キーポイントクエリが複数のレイヤーの時空間的およびクロスアテンションを通じて段階的に更新されるため、最終的なポーズ予測からの勾配がこれらの洗練ステップを通じて逆伝播され、クエリがより良く表現し、関連情報を抽出するように教えられます。
    • 時間の経過とともに、モデルのパラメータが調整され、予測されたポーズがますます正確になり($L_{oks}$ を最小化)、時間的に滑らかになります($L_{vel}$ を最小化)。$\lambda_{vel}$ ハイパーパラメータはここで重要です。高すぎると、モデルは過度に平滑化して精度を犠牲にする可能性があります。低すぎると、時間的整合性が損なわれる可能性があります。論文では $\lambda_{vel} = 0.05$ と設定されており、動きの滑らかさに対するわずかだが重要な強調を示しています。
    • 損失関数が最小値(または十分に低い値)に達すると、モデルの予測がトレーニングデータとアーキテクチャに基づいて精度と時間的整合性の間で最適にバランスが取れていることを意味し、モデルは収束します。
Figure 4. Comparison of heatmap generation. (a) The traditional 4D approach [25] applies separate FFTs for range, doppler, azimuth, and elevation after antenna grouping. (b) Our 3D pipeline performs a unified spatial FFT without grouping, yielding a compact representation. (c) Cost comparison between 4D and 3D heatmaps, showing 11× reduction in memory and 8.6× reduction in latency Figure 2. Overview of our milliMamba. The CVMamba encoder first extracts features from dual-view radar inputs. These features are then passed to the Multi-Pose STCA decoder, which progressively refines a set of keypoint queries to produce pose predictions

結果、限界、および結論

実験設計とベースライン

提案されたmilliMambaフレームワークを厳密に検証するために、著者らは包括的な実験セットアップを設計しました。モデルは2つのミリ波(mmWave)レーダーセンサーからの入力を受け取るように設計され、$T=9$ フレームのシーケンスを処理しました。決定的に、モデルはトレーニング中に9つの連続するポーズを予測しますが(「多対多」戦略)、推論中はそのウィンドウ内の中心フレームの予測のみが使用されます。この設計上の選択により、モデルは学習中に豊富な時間的コンテキストから利益を得ることができますが、実用的な使用のために単一の洗練されたポーズ推定値を提供します。

トレーニングレジメンは、学習率0.00005、バッチサイズ8、重み減衰0.0001でAdamオプティマイザーを使用しました。全体的なトレーニング目標は、予測された関節位置とグラウンドトゥルースとの間の不一致を罰する標準的なObject Keypoint Similarity($L_{oks}$)と、予測されたポーズシーケンスの時間的滑らかさを促進するための速度損失($L_{vel}$)の2つの損失関数を組み合わせました。速度損失は $\lambda_{vel} = 0.05$ で重み付けされ、精度と時間的整合性のバランスを取りました。すべての実験は、一般的な高性能コンピューティングリソースである単一のNVIDIA Tesla V100 GPUで実施されました。

milliMambaに対して徹底的にテストされた「犠牲者」(ベースラインモデル)には以下が含まれます:
- TransHuPR [12]: 時空間的依存関係を部分的にモデル化するTransformerベースのアプローチ。
- HuPR [13]: もう一つの著名なレーダーベースヒューマンポーズ推定(HPE)手法。
- mmPose [23]: レーダーHPEのためのCNNベースの手法。

これらのベースラインは、mmWaveレーダーベースHPEにおける最先端技術を表しており、milliMambaのパフォーマンスとの直接的な比較を可能にします。パフォーマンスは、Object Keypoint Similarity(OKS)に基づく平均精度(AP)を使用して測定されました。これは、ポーズ推定における標準的な指標です。これには、全体的なAP(OKSしきい値0.50から0.95までの平均)、AP50(OKS 0.50での緩いマッチング)、およびAP75(OKS 0.75での厳密なマッチング)が含まれます。

証拠が証明すること

実験的証拠は、milliMambaのコアメカニズム—特徴抽出とデコーディングの両方の段階にわたる時空間的依存関係の共同モデリング、および効率的な3D高速フーリエ変換(FFT)前処理との組み合わせ—が、mmWaveレーダー信号からのヒューマンポーズ推定を大幅に強化することを決定的に証明しています。

決定的な、疑いのない証拠:

  1. ベースラインに対する優れたパフォーマンス:

    • TransHuPRデータセット(表2)では、milliMambaはすべてのAPメトリックで一貫してすべてのベースラインを上回りました。TransHuPR [12]と比較して、大幅な11.0 APの改善を達成しました。例えば、鏡面反射と高速な動きの影響を受けやすい困難な「手首」関節では、milliMambaは印象的な46.9 APを達成しました。これは、非常に不確実または欠落した関節でさえ推測する頑健性を示しています。
    • HuPRデータセット(表3)では、milliMambaは再び優れた精度を示し、比較的静的なアクションでは最大84.0 APに達しました。重要なことに、それはHuPR [13](68.6 GMACsおよび35.5Mパラメータ)と比較して、大幅に低い計算コスト(34.4 GMACsおよび4.0Mパラメータ)でこの高い精度を達成しました。これはその効率性を強調しています。
  2. 効率的な入力処理(3D FFT)の検証:

    • 入力表現に関するアブレーションスタディ(表4)は、milliMambaの選択された前処理方法である3D FFTベースのヒートマップが最良のパフォーマンス(74.5 AP)をもたらしたことを明確に示しました。これは、密度マップ(58.5 AP)や、より複雑な4D FFT(72.0 AP)よりも大幅に優れていました。
    • さらに、図4(c)は効率性の向上に関する確固たる証拠を提供しました。3D FFTは、従来の4Dアプローチと比較して、メモリ使用量を11倍、遅延を8.6倍削減しました。これは、前処理の選択が正確であるだけでなく、計算上有利であったことを証明しています。
  3. マルチフレーム出力メカニズムの有効性:

    • 表5は、milliMambaの「多対多」予測戦略(Spatio-Temporal-Cross Attention(STCA)デコーダーを使用)の力を実証しました。これは、バニラTransformerデコーダーの「多対一」アプローチと比較して、全体的な精度で4.1 APの改善を達成しました。これは、デコーディング中に複数のタイムステップからの関節特徴を活用することが、欠落または弱く反射された関節を推測するために重要であることを確認しています。
  4. より長い時間的コンテキストの利点:

    • 入力シーケンス長(表6)の影響は、入力フレーム数($T$)を増やすことがポーズ推定精度を一貫して向上させることを明らかにしました。これは、特に手首や肘のような困難な関節で顕著であり、困難なシナリオを処理するための豊富な時間的コンテキストの価値を強調しています。
  5. Mambaの優れたスケーラビリティと効率性:

    • 限定的な$T=3$フレームでのTransformerとMambaエンコーダーの比較(表8)では、Mambaが1.5 AP高い精度を達成しました。より決定的なことに、Transformerエンコーダーはより長いシーケンスを試みるときにメモリ不足になりましたが、Mambaは効果的にスケールしました。これは、Mambaの線形複雑性が、頑健なレーダーベースHPEのための以前のTransformerベースの手法の重要な課題であった、より長いレーダーシーケンスに固有の大量のトークンを処理するための実用的なソリューションであることを決定的な証拠として示しています。
  6. デュアルレーダークロスビューフュージョンの利点:

    • 表7は、milliMambaで使用されているようなデュアルレーダー(水平+垂直)構成が、シングルレーダー設定(水平のみまたは垂直のみ)を大幅に上回ったことを示しました。これは、mmWaveレーダーセンサーの仰角分解能の制限を補うためのクロスビューフュージョンの利点を証明し、より頑健で正確なポーズ推定につながります。

要するに、効率的な3D FFT前処理からMambaベースエンコーダーとSTCAデコーダーに至るまで、milliMambaのアーキテクチャ上の選択は、それぞれ実験的に検証され、mmWaveレーダーベースHPEにおけるその最先端パフォーマンスに貢献しており、そのコアメカニズムが実際に機能することの疑いのない証拠を提供しています。

限界と将来の方向性

milliMambaはmmWaveレーダーベースヒューマンポーズ推定における大きな飛躍を示していますが、論文の発見は、さらなる開発のためのいくつかの領域を暗黙的に示唆し、固有の限界を強調しています。

推測される限界:

  1. 計算フットプリント: milliMambaは長いシーケンスに対してTransformerよりも効率的ですが、その計算コスト(例:HuPRでの34.4 GMACs、4.0Mパラメータ、224.1 MBメモリ)は、リソースが非常に制約されたエッジデバイスへの展開や、極めて低い遅延を必要とするアプリケーションにとっては依然として大きい可能性があります。「合理的な複雑性」は相対的であり、普遍的なリアルタイム使用のためにはさらなる最適化が必要である可能性が高い。
  2. 単一人物への焦点: 現在のフレームワークは、主に単一人物のポーズ推定のために設計されているようです。「複数人物シナリオ」が将来の研究として明示的に言及されていることは、特にオクルージョンを伴う複数の相互作用する個人を処理することが、現在のアーキテクチャにとって依然として課題であることを示唆しています。
  3. データセットの特異性: 評価は2つの特定のデータセット、TransHuPRとHuPRで実施されました。これらのデータセットは動的および静的なアクションをカバーしていますが、実世界での展開で遭遇する人間の動き、環境条件、または潜在的なレーダー干渉シナリオの広大な多様性を完全に表しているわけではない可能性があります。
  4. 極端なオクルージョンに対する汎化性: 鏡面反射に対して頑健ですが、milliMambaが重度の自己オクルージョンまたは環境オクルージョン(例:家具の後ろ)下でポーズを推測できる程度は、詳細には説明されていません。レーダー信号は依然として疎であり、体の完全な部分は観測されないままになる可能性があります。

将来の方向性と議論のトピック:

著者らは、将来の研究で複数人物およびクロス環境シナリオを調査し、計算コストをさらに削減することを明確に述べています。これに基づいて、さらなる開発のための多様な視点を以下に示します:

  1. 敵対的および混雑した環境での頑健性: milliMambaは、ノイズ、干渉、またはレーダー信号に対する敵対的攻撃に対してさらに頑健にするにはどうすればよいでしょうか?データ拡張またはドメイン適応を伴う自己教師あり学習のような技術は、さまざまな環境(例:屋内対屋外、異なる部屋のレイアウト、さまざまなクラッタ)にわたるパフォーマンスを一般化するのに役立つでしょうか?
  2. リアルタイムエッジ展開とハードウェア最適化: 計算コスト削減の目標を考慮すると、どのような特定のハードウェアを意識した最適化が検討できるでしょうか?これには、モデル量子化、プルーニング、より小さなMambaバリアントのためのニューラルアーキテクチャ検索、またはSSMのための特殊なハードウェアアクセラレータが含まれる可能性があります。モデルサイズ、推論速度、および実用的なエッジ展開の精度との間のトレードオフについて議論することができます。
  3. 強化されたコンテキストのための補完センサーとの統合: レーダーはプライバシーを提供しますが、他のプライバシー保護モダリティ(例:体温のための熱画像、動きのための受動赤外線センサー、または深度のための低解像度ライダー)との慎重なフュージョンは、より豊かなコンテキストキューを提供できるでしょうか?これは、特に細かい動きや、体の部分がレーダーの視界から完全に隠されている場合に、レーダーデータの曖昧さを解決するのに役立つ可能性があります。そのような異種データストリームを効果的に同期およびフュージョンする際の課題は何でしょうか?
  4. 2Dを超えて:3Dポーズとメッシュ再構築へ: 現在の作業は2D HPEに焦点を当てています。時空間的Mambaフュージョンメカニズムは、直接3Dヒューマンポーズまたは人間のメッシュ再構築を予測するように拡張または適応できますか?これは、仮想現実、拡張現実、およびより洗練された人間とロボットの相互作用のアプリケーションを解き放くでしょうが、2Dレーダー投影の固有の限界に対処する必要があります。
  5. 倫理的影響とプライバシー保護AI: レーダーベースHPEがより正確で複数人物追跡が可能になるにつれて、倫理的影響に対処する必要があります。設計上プライバシーを保護しますが、不正な監視や識別を防ぐためにどのような安全策が必要ですか?個人権を侵害することなく社会に利益をもたらすために、責任ある方法で技術をどのように開発できますか?
  6. 長期的な時間的理解とアクション認識: 現在のフレームワークは、ポーズ推定のために時間的コンテキストを活用しています。これは、長期的な人間の活動を理解し、将来のポーズを予測し、さらには複雑なアクションや意図を認識するように拡張できますか?これには、はるかに長い時間的範囲で情報を保持できるメモリメカニズムの統合が必要であり、人間の行動のより全体的な理解に向かう可能性があります。
  7. 合成データ生成とシミュレーション: 大規模で多様なレーダーデータセットの収集は困難でコストがかかるため、高度なシミュレーション環境または生成モデルを使用して合成レーダーデータをトレーニング用に作成できますか?これは、データ不足を克服し、一般化を改善し、現実世界ではキャプチャするのが難しい極端なまたはまれなシナリオでのテストを可能にする可能性があります。
Table 2. Comparison of model performance and complexity across methods on the TransHuPR dataset [12]. The complexity excludes radar signal preprocessing Table 3. Comparison of model performance and complexity across methods on the HuPR dataset [13]. The complexity excludes radar signal preprocessing Table 6. Impact of input sequence length (T) on pose estimation performance. We investigate the effect of varying T to understand how temporal context contributes to accuracy

他分野との同型性

構造的骨格

本論文は、ノイズの多い高次元シーケンシャルデータから時空間的特徴を効率的に抽出し、時間的整合性を持つ構造化された出力を予測するためのメカニズムを提示している。

遠い親戚

  1. ターゲット分野:金融時系列分析

    • 関連性: 金融市場では、アナリストは株価、取引量、経済指標などの高次元でノイズが多く、シーケンシャルなデータストリームを扱います。このデータにおける長距離の時間的依存関係とクロスアセット相関を捉えるという課題は、milliMambaのタスクの鏡像です。「関節の欠落」につながる「鏡面反射」にレーダー信号が悩まされるのと同様に、金融データは市場のノイズ、突然のイベント、および真の根本的なパターンを不明瞭にする不完全な情報に悩まされています。疎で高次元の入力から頑健な特徴を抽出するための論文のアプローチと、コンテキストキューを活用して情報を推測する能力は、データのギャップとボラティリティにもかかわらず、将来の市場状態を予測する必要性と直接的に対応します。
  2. ターゲット分野:気候モデリングと環境予測

    • 関連性: 気候科学は、広大な地理的グリッドにわたる温度、気圧、湿度、風パターンを含む膨大な量の時空間的データを、長期間にわたって処理します。将来の気象イベントまたは長期的な気候傾向を予測するには、空間的(例:ある地域の気象条件が他の地域にどのように影響するか)および時間的(例:季節サイクル、複数年の振動)の両方における複雑で長距離の依存関係の理解が必要です。milliMambaのデュアルレーダー入力は、異なる視点からの情報を融合しますが、これはさまざまな環境センサーまたは衛星観測からのデータの統合に類似しています。ノイズの多い入力から頑健な特徴を抽出するための効率的な時空間的モデリングに焦点を当てた論文は、カオスでしばしば不完全な気象データセットからの正確な予測の課題と深く共鳴します。

もしシナリオ

主要なヘッジファンドのクオンツアナリストが、milliMambaの正確なCross-View Fusion MambaエンコーダーとSpatio-Temporal-Cross Attentionデコーダーを明日「盗んだ」と想像してください。ミリ波レーダー信号を入力する代わりに、彼らはマルチソース金融時系列データを入力するでしょう。このデータには、リアルタイムの株価、債券利回り、商品先物、およびマクロ経済指標が含まれる可能性があり、「クロスビュー」は異なるグローバル市場または資産クラスを表します。Mambaエンコーダーは、その線形複雑性により、現在のTransformerベースのモデルよりもはるかに長い履歴シーケンスを処理でき、数ヶ月または数年以上にわたって資産価格に影響を与える微妙で長距離の市場依存関係を捉えることができます。STCAデコーダーは、人間の関節座標を予測する代わりに、複数の将来の時間ステップにわたる多様なポートフォリオの将来の価格変動またはボラティリティを予測するでしょう。それは、より広範なマクロ経済トレンドと市場間相関と整合する予測資産運動を確保することによって「時間的整合性」を強制し、経済レポートの遅延または市場の異常の影響を予測することによって「欠落データを推測」するでしょう。この抜本的な応用は、複雑なマルチアセット取引戦略の予測精度において前例のないブレークスルーにつながる可能性があり、ファンドが既存のモデルには見えない深い長距離の時空間的市場パターンを特定し、活用できるようになります。システムは、グローバル金融データにおける微妙で出現的なパターンの認識を通じて、ある程度の先見性をもって「ブラックスワン」イベントを予測することさえできるかもしれません。

構造の普遍的ライブラリ

ノイズの多いシーケンシャルデータからの頑健な時空間的特徴抽出と構造化予測のための本論文のエレガントなソリューションは、分野を横断する一見無関係な課題が、共通の数学的およびアルゴリズム的パターンによって統一されていることを実証し、構造の普遍的ライブラリを豊かにします。