EN KR JP CN RU IN
WACV

milliMamba: 듀얼 mmWave 레이더와 다중 프레임 Mamba 융합을 통한 반사율 인식 인간 자세 추정

Open PDF

배경 및 학술적 계보

기원 및 학술적 계보

인간 자세 추정(Human Pose Estimation, HPE) 문제는 전통적으로 RGB 카메라를 활용하는 방법론이 지배해 온 길고 풍부한 역사를 가지고 있습니다. 그러나 밀리미터파(mmWave) 레이더를 이용한 인간 자세 추정이라는 특정 문제의 정확한 기원은 이러한 기존 카메라 기반 시스템의 내재적 한계를 극복해야 하는 중요한 필요성에서 비롯되었습니다.

역사적 맥락:
RGB 카메라는 고충실도 시각 데이터를 제공할 수 있지만, 많은 실제 시나리오에서 상당한 단점을 나타냅니다. 조명 조건에 본질적으로 민감하여 어둠, 눈부심 또는 가려진 환경에서 성능이 저하됩니다. 더 중요하게는, 개인의 시각적으로 식별 가능한 이미지를 캡처하므로 상당한 개인 정보 보호 문제를 야기합니다. 이로 인해 가정, 병원 또는 노인 요양 시설과 같이 개인 정보 보호가 최우선인 민감한 영역에 배포하기에 부적합합니다. 개인 정보 보호를 유지하고 환경적으로 강력한 대안을 찾으려는 노력은 다른 감지 양식에 대한 연구를 촉진했습니다. 전파를 방출하고 감지하는 방식으로 작동하는 밀리미터파 레이더는 설득력 있는 해결책을 제공했습니다. 어둠, 연기, 심지어 일부 비금속 물체를 "볼" 수 있으며, 결정적으로 개인의 시각적으로 식별 가능한 이미지를 캡처하지 않아 개인 정보를 보호합니다. 이러한 고유한 특징의 조합은 mmWave 레이더 기반 HPE를 별도의 빠르게 성장하는 분야로 발전시키는 계기가 되었습니다.

기존 접근 방식의 근본적인 한계:
매력적인 장점에도 불구하고, mmWave 레이더 기반 HPE는 기존 접근 방식이 어려움을 겪었던 자체적인 상당한 "고충점(pain points)"을 가지고 있습니다. 주요 한계는 레이더 감지의 반사율(specular nature) 특성에서 비롯됩니다. 표면 질감과 색상을 캡처하는 카메라와 달리, 레이더 신호는 종종 거울에 비친 빛처럼 특정 각도에서 부드러운 신체 표면에서 반사됩니다. 이는 레이더 센서에 직접 향하는 신체 부위만 신호를 반사한다는 것을 의미하며, 희소하고 불완전한 관측으로 이어집니다. 손가락이나 팔꿈치와 같이 작거나 비스듬하게 향한 관절은 종종 완전히 놓칩니다. 이로 인해 단일 프레임 레이더 입력에서 전신 자세를 재구성하는 것이 극도로 어렵습니다.

더욱이, 특히 트랜스포머(Transformer) 아키텍처 기반의 기존 방법들은 심각한 확장성 문제에 직면했습니다. 시간적 맥락을 포착하고 누락된 관절을 추론하는 데 필수적인 레이더 데이터의 긴 시퀀스를 처리하는 것은 대규모 토큰 볼륨과 이차적 계산 복잡성을 초래했습니다. 이는 실용적이지 않은 높은 메모리 사용량과 훈련 시간을 의미했습니다. 이를 완화하려는 일부 시도는 시간 정보를 처리 파이프라인에서 너무 일찍 축소하는 "조기 시간 융합(early temporal fusion)"을 포함했습니다. 그러나 이러한 조기 융합은 종종 반사율로 인한 해당 누락 관절을 효과적으로 복구하기 위해 이웃 프레임의 맥락적 단서를 활용하는 모델의 능력을 저해했습니다. 본 논문의 저자들은 계산 비용을 희생하지 않고 긴 시퀀스에 걸쳐 시공간적 종속성을 효율적으로 모델링할 수 있는 프레임워크를 개발하여 이러한 근본적인 한계를 해결하고자 했습니다.

직관적인 도메인 용어

  • 밀리미터파(mmWave) 레이더: 박쥐가 어둠 속에서 주변을 "보기" 위해 매우 높은 주파수의 끽끽거리는 소리(음파)를 사용하는 것을 상상해 보세요. mmWave 레이더는 이와 유사한 방식으로 작동하지만, 소리 대신 매우 짧은 전파를 사용하여 빛이나 카메라 없이도 물체와 미묘한 움직임까지 감지할 수 있습니다. 이는 어떤 조건에서도 작동하는 초감각적이고 보이지 않는 눈을 갖는 것과 같으며, 개인 정보 보호에 친화적인 감지 방법을 제공합니다.

  • 인간 자세 추정(HPE): 꼭두각시 인형의 움직임을 보고 인형 몸체의 모든 줄이 어디에 연결되어 있는지 알아내려는 꼭두각시 조종사를 상상해 보세요. HPE는 실제 사람에 대해 이와 유사하며, 팔꿈치, 무릎, 어깨와 같은 관절의 정확한 위치를 파악하여 자세와 움직임을 이해하려고 합니다.

  • 반사율(Specular Reflection): 완벽하게 매끄럽고 반짝이는 바닥에 레이저 포인터를 비추는 것을 상상해 보세요. 빛은 당구공처럼 하나의 명확하고 예측 가능한 방향으로 반사됩니다. 바닥이 울퉁불퉁하면 빛이 사방으로 흩어집니다. 레이더에서의 반사율은 신체 부위가 완벽하게 각도를 이루어야만 센서로 신호가 반사된다는 것을 의미하며, 거울이 빛을 반사하는 것처럼 다른 부분은 "보이지 않거나" 감지하기 어렵게 만듭니다.

  • Mamba (상태 공간 모델 - SSMs): 매우 긴 책을 읽으려고 하는 것을 상상해 보세요. 전통적인 방법(트랜스포머와 같은)은 새로운 단어를 접할 때마다 그 맥락을 이해하기 위해 처음부터 모든 단어를 다시 읽어야 하는 것과 같습니다. 긴 책의 경우 매우 느린 과정입니다. Mamba 모델은 지금까지 읽은 내용을 빠르게 요약하는 매우 효율적인 단기 기억을 갖는 것과 같아서, 책 전체를 다시 읽지 않고도 새로운 단어를 맥락 속에서 이해할 수 있습니다. 긴 이야기에 훨씬 빠릅니다.

  • 히트맵 (레이더 처리에서): 온도를 보여주는 날씨 지도를 상상해 보세요. 빨간색 영역은 뜨겁고, 파란색 영역은 차갑습니다. 레이더 히트맵도 이와 유사하지만, 온도 대신 레이더가 무언가를 "보는" 위치를 보여줍니다. 지도에서 더 밝은 점은 더 강한 레이더 반사를 의미하며, 해당 특정 위치(거리, 각도)에 신체 부위가 있거나 특정 속도(도플러)로 움직일 확률이 높다는 것을 나타냅니다.

표기법 표

표기법 설명
$X$ 두 개의 직교 장착 센서에서 얻은 원시 복소수 mmWave 레이더 신호.
$T$ 입력 시퀀스의 연속 프레임 수.
$L$ 훈련 중에 최소화될 총 손실 함수.
$L_{oks}$ 자세 예측 부정확성을 페널티하는 Object Keypoint Similarity (OKS) 손실.
$\lambda_{vel}$ 속도 손실에 대한 가중치 계수.
$L_{vel}$ 예측된 관절 움직임의 시간적 불일치에 페널티를 주는 속도 손실.
$v_{f,j}$ 프레임 $f$에서 관절 $j$의 예측된 속도.
$\hat{v}_{f,j}$ 프레임 $f$에서 관절 $j$의 실제(ground-truth) 속도.
$J$ 추정되는 총 인간 신체 관절 수.
$f$ 프레임 인덱스.
$j$ 관절 인덱스.
$h_t$ 시간 단계 $t$에서의 Mamba SSM의 은닉 상태 벡터.
$u_t$ Mamba SSM의 입력 토큰(특징 벡터) 시간 단계 $t$.
$y_t$ Mamba SSM의 출력 토큰(특징 벡터) 시간 단계 $t$.
$A, B, C, D$ Mamba SSM의 학습 가능한 파라미터 행렬.
$q_{f,j}$ 프레임 $f$에서 관절 $j$에 대한 학습 가능한 키포인트 쿼리.
$SA(\cdot)$ 공간 주의(Spatial Attention) 함수.
$TA(\cdot)$ 시간 주의(Temporal Attention) 함수.
$CrossAttn(\cdot)$ 교차 주의(Cross-Attention) 함수.
$Q, K, V$ 주의 메커니즘의 쿼리, 키, 값 행렬/벡터.
$d$ 주의에서 키 벡터의 차원, 스케일링에 사용됨.
$F_h, F_v$ 수평 및 수직 레이더 뷰에서 추출된 특징 맵.
$F'$ CVMamba 인코더의 풍부하고 맥락 인식적인 특징 표현.

문제 정의 및 제약 조건

핵심 문제 공식화 및 딜레마

본 논문이 다루는 핵심 문제는 밀리미터파(mmWave) 레이더 신호를 이용한 2D 인간 자세 추정(HPE)입니다. 이는 특히 전통적인 RGB 카메라 기반 방법과 비교할 때 어려운 작업입니다.

입력/현재 상태: 이 분석의 시작점은 두 개의 직교 장착 레이더 센서(수평 및 수직 뷰)에서 얻은 원시 mmWave 레이더 신호, 특히 복소수 큐브 $X \in C^{12 \times 128 \times 256}$입니다. 이 신호는 $T$개의 연속 프레임 시퀀스에 걸쳐 캡처됩니다. 이러한 신호의 현재 상태는 문제가 있습니다.
* 반사율로 인해 본질적으로 희소합니다. 즉, 수신기로 직접 신호를 반사하는 신체 표면만 캡처됩니다. 이로 인해 관절 누락이 자주 발생하며, 특히 작거나 비스듬하게 향한 관절이 그렇습니다.
* 말단 부위(손목, 발목 등)의 반사는 종종 약하여 안정적으로 감지하기 어렵습니다.
* 신호는 시간적 일관성을 방해하는 변동을 겪으며, 정확도는 대상의 방향과 센서 배치에 매우 민감합니다.
* 특히 트랜스포머 기반의 기존 방법들은 다중 프레임 레이더 입력의 고차원성대규모 토큰 볼륨으로 인해 계산 병목 현상과 메모리 제약으로 어려움을 겪습니다. 많은 기존 접근 방식은 시공간적 종속성을 부분적으로만 모델링하거나 조기 시간 융합에 의존하여, 반사율로 인한 누락된 관절을 복구하는 모델의 능력을 저해합니다.

원하는 최종 상태 (출력/목표 상태): 궁극적인 목표는 이러한 어려운 듀얼 뷰 mmWave 레이더 신호에서 시간적으로 일관된 2D 인간 자세를 생성하는 것입니다. 이는 다음을 의미합니다.
* 여러 프레임에 걸쳐 인간 관절의 2D 좌표를 정확하게 예측합니다.
* 반사율 또는 약한 신호로 인해 가려진 누락된 관절을 강력하게 추론합니다.
* 이웃 프레임의 맥락적 단서를 활용하여 전반적인 자세 정확도를 개선하고 움직임의 부드러움을 보장합니다.
* 합리적인 계산 복잡성과 메모리 사용량을 유지하면서 기존 방법과 비교하여 최첨단 성능(예: 평균 정밀도, AP의 상당한 개선)을 달성합니다.

누락된 연결 또는 수학적 격차: 정확한 누락된 연결은 HPE 파이프라인의 특징 추출(인코딩) 및 자세 예측(디코딩) 단계 모두에서 장거리 시공간적 종속성을 공동으로 모델링하는 강력하고 효율적인 메커니즘입니다. 이 메커니즘은 누락된 관절을 추론하고 시간적 일관성을 보장하기 위해 듀얼 레이더 뷰와 다중 프레임의 정보를 효과적으로 융합해야 하며, 동시에 트랜스포머와 같은 기존 방법으로 고차원 다중 프레임 레이더 데이터를 처리하는 데 드는 막대한 계산 및 메모리 비용을 극복해야 합니다. 본 논문은 시퀀스 모델링에 대해 선형 복잡성을 제공하는 Mamba 기반 아키텍처를 도입하여 이 격차를 해소하고자 합니다.

고통스러운 절충 또는 딜레마: 기존 연구자들이 갇혀 있던 중심 딜레마는 정확도를 위해 풍부한 시공간적 맥락을 활용하는 것과 계산 효율성을 유지하는 것 사이의 절충입니다.
* 누락된 관절을 정확하게 추론하고 부드러운 움직임을 보장하려면 모델은 더 긴 레이더 프레임 시퀀스를 처리하고 공간적 및 시간적 차원 모두에서 정보를 통합해야 합니다. 이를 위해서는 장거리 종속성을 모델링할 수 있는 아키텍처가 필요합니다.
* 그러나 전역 종속성을 포착하는 데 뛰어난 트랜스포머와 같은 강력한 기존 모델은 시퀀스 길이에 대해 이차적 계산 복잡성으로 어려움을 겪습니다. 이는 입력 프레임 수($T$)가 증가함에 따라 메모리 사용량과 계산 시간이 기하급수적으로 증가합니다.
* 이 딜레마는 종종 이전 방법들이 (1) 더 짧은 시퀀스를 처리하여 강력한 자세 추정에 필요한 귀중한 시간적 맥락을 잃거나, (2) 처리 파이프라인 초기에 시간 차원을 축소하여 반사율로 인한 누락된 관절을 복구하는 모델의 능력을 심각하게 저해하는 결과를 초래합니다. 저자들은 명시적으로 "한 측면을 개선하면 일반적으로 다른 측면이 깨진다"고 언급하며, 이는 정확히 여기에 해당합니다. 정확도를 위한 더 높은 시간적 맥락은 종종 관리할 수 없는 계산 비용으로 이어집니다.

제약 조건 및 실패 모드

mmWave 레이더 기반 HPE 문제는 다음과 같은 몇 가지 가혹하고 현실적인 제약 조건으로 인해 매우 어렵습니다.

물리적 제약 조건:
* 반사율: 이는 레이더의 근본적인 한계입니다. 신호는 거울처럼 표면에서 반사되어 희소한 관측으로 이어지며, 특정 신체 부위만 보이고 다른 부위(특히 작거나 비스듬하게 향한 관절)는 완전히 누락됩니다. 이로 인해 단일 프레임 입력에서 전신 자세를 재구성하는 것이 매우 어렵습니다.
* 말단 부위의 약한 반사: 손목과 발목과 같은 팔다리와 관절은 종종 매우 약한 레이더 반사를 생성하여 정확하게 감지하고 추적하기 어렵습니다. 이는 데이터의 희소성과 불완전성에 기여합니다.
* 대상 방향 및 센서 배치에 대한 민감도: 레이더 신호의 품질과 완전성은 대상이 레이더 센서에 대해 어떻게 방향을 잡고 센서가 어디에 배치되었는지에 따라 크게 달라집니다. 약간의 변화만으로도 추정 정확도에 상당한 영향을 미칠 수 있습니다.
* 제한된 고도 해상도: mmWave 레이더 센서는 본질적으로 고도 해상도가 제한되어 있어 다른 높이에 있는 물체를 구별하기 어려울 수 있습니다. 이를 보상하기 위해 다중 레이더 설정(여기서 사용된 듀얼 레이더 시스템과 같은)이 필요합니다.

계산적 제약 조건:
* 레이더 입력의 고차원성: 원시 mmWave 레이더 데이터는 본질적으로 고차원적입니다(예: 프레임당 $C^{12 \times 128 \times 256}$ 큐브). 여러 프레임의 시퀀스를 처리할 때 총 데이터 볼륨은 엄청납니다.
* 기존 모델(트랜스포머)의 이차적 복잡성: 트랜스포머와 같은 기존 최첨단 모델은 강력하지만, 입력 시퀀스 길이에 대해 이차적으로 확장되는 계산 복잡성을 가집니다. 이는 입력 프레임 수($T$)의 약간의 증가만으로도 계산 및 메모리 요구 사항이 불균형적으로 크게 증가한다는 것을 의미합니다. 예를 들어, 논문에서는 트랜스포머가 "더 긴 시퀀스로 훈련할 때 하드웨어에서 메모리 부족"이 발생한다고 언급합니다(표 8, 7페이지).
* 하드웨어 메모리 한계: 데이터의 엄청난 양과 모델의 이차적 복잡성은 하드웨어 메모리 한계에 빠르게 도달하여 표준 GPU(예: 논문에서 언급된 NVIDIA Tesla V100 GPU)에서 충분히 긴 시간적 시퀀스를 가진 모델을 훈련하는 것을 비실용적으로 만듭니다. 예를 들어 4D 히트맵 생성은 3D FFT 접근 방식보다 11배 더 많은 메모리를 사용하는 것으로 나타났습니다(그림 4(c), 5페이지).
* 실시간 지연 요구 사항 (암시적): 명시적으로 엄격한 실시간 제약 조건으로 명시되지는 않았지만, "효율적인" 처리 및 "전처리 오버헤드 감소"(서론, 2페이지)에 대한 필요성은 솔루션이 잠재적인 실제 응용 프로그램을 위한 실용적인 지연 시간 범위 내에서 작동해야 함을 암시합니다. 4D 대 3D FFT의 비교 또한 3D 접근 방식으로 8.6배의 상당한 지연 시간 감소를 강조합니다.

데이터 기반 제약 조건:
* 불완전한 관측: 물리적 제약 조건의 직접적인 결과로, 입력 레이더 데이터는 종종 인간 신체의 불완전한 관측을 제공하여 강력한 맥락적 단서 없이 전체 자세를 재구성하기 어렵게 만듭니다.
* 시간적 불일치: 레이더 신호의 변동은 프레임 간 관절 감지의 불일치를 초래하여 명시적인 시간 모델링 없이 부드럽고 물리적으로 타당한 자세 시퀀스를 보장하기 어렵게 만듭니다.
* 데이터 희소성: 누락된 관절 외에도 전반적인 레이더 신호가 희소할 수 있어 강력한 특징 추출이 중요한 과제가 됩니다. 이를 위해서는 제한적이고 노이즈가 많은 정보에서 효과적으로 학습할 수 있는 모델이 필요합니다.

왜 이 접근 방식인가

선택의 불가피성

milliMamba의 인코더에 Mamba 아키텍처를 채택한 것은 단순히 설계 선호도가 아니라 밀리미터파(mmWave) 레이더 기반 인간 자세 추정(HPE)의 내재적 과제로 인해 발생한 필수 사항이었습니다. 저자들은 특히 트랜스포머와 같은 기존 최첨단(SOTA) 방법이 "더 긴 레이더 시퀀스에 내재된 대규모 토큰 볼륨"을 처리할 때 불충분해지는 정확한 순간을 명확하게 식별했습니다. 시공간적 종속성을 모델링하고 다중 레이더 특징을 융합할 수 있는 기존 트랜스포머 기반 접근 방식은 계산 비용 측면에서 "이차적 복잡성"으로 어려움을 겪었으며, 이는 강력한 레이더 기반 HPE에 필수적인 확장된 시간적 맥락을 처리하는 데 비실용적이었습니다.

mmWave 레이더 HPE의 핵심 문제는 반사율로 인한 신호의 희소성이며, 이는 불완전한 관측과 누락된 관절로 이어집니다. 이를 극복하려면 여러 프레임에 걸쳐 시공간적 종속성을 활용하는 것이 가장 중요합니다. 그러나 입력 프레임 수($T$)를 늘리는 것은 트랜스포머의 계산 부담을 직접적으로 악화시켜 빠르게 메모리 부족 문제를 야기합니다. 표 8에서는 트랜스포머가 메모리 제약으로 인해 $T=3$ 프레임까지만 처리할 수 있음을 보여줍니다. Mamba의 시퀀스 길이에 대한 선형 복잡성($O(N)$)은 확장된 시퀀스에 걸쳐 포괄적인 시공간적 모델링을 효율적으로 달성하기 위한 유일하게 실행 가능한 경로를 제공했습니다. 이러한 구조적 이점은 Mamba를 확장된 시퀀스에 걸쳐 중요한 더 긴 시간적 시퀀스를 효율적으로 모델링하는 데 유일하게 실행 가능한 솔루션으로 만들었습니다.

비교 우위

milliMamba의 접근 방식은 주로 이전 방법의 한계를 직접적으로 해결하는 아키텍처 설계 선택을 통해 성능 지표를 넘어선 질적 우수성을 보여줍니다.

  1. 긴 시퀀스에 대한 선형 복잡성: 가장 중요한 구조적 이점은 Mamba 인코더가 트랜스포머의 이차적 복잡성과 대조적으로 선형 복잡성으로 더 긴 레이더 시퀀스를 처리할 수 있다는 것입니다. 이를 통해 milliMamba는 반사율로 인한 누락된 관절을 추론하고 움직임의 부드러움을 보장하는 데 중요한 더 풍부한 시간적 맥락(예: 기본적으로 $T=9$ 프레임, 실험에서는 최대 $T=15$ 프레임)을 활용할 수 있습니다. 이는 시간 경과에 따른 고차원 노이즈와 희소 데이터를 더 잘 처리하는 것으로 직접적으로 해석됩니다. 표 8은 Mamba가 $T=3$에서도 트랜스포머보다 더 나은 정확도를 달성하는 것을 명확하게 보여주며, 트랜스포머는 메모리 제약으로 인해 더 긴 시퀀스로 확장하지 못합니다.
  2. 효율적인 전처리: 레이더 신호 전처리를 위해 계산 비용이 많이 드는 4D 히트맵에서 3D FFT 기반 히트맵으로의 전환은 또 다른 핵심 구조적 이점입니다. 이 변경은 메모리 사용량을 11배, 지연 시간을 8.6배 줄입니다(그림 4c). 이러한 효율성 향상은 단순히 속도에 관한 것이 아니라 "토큰 수의 폭발"을 완화하여 고차원 레이더 데이터를 후속 모델링에 더 쉽게 처리할 수 있게 하고 그렇지 않으면 불가능했을 더 긴 시간적 시퀀스의 사용을 가능하게 합니다.
  3. 향상된 시공간적 맥락 모델링: Cross-View Fusion Mamba (CV-Mamba) 인코더는 듀얼 레이더 입력을 효율적으로 융합하고 장거리 시공간적 종속성을 포착하도록 설계되었습니다. 이는 다중 프레임 자세 예측을 수행하는 Spatio-Temporal-Cross Attention (STCA) 디코더로 보완됩니다. 단일 프레임을 예측하거나 시간 차원을 조기에 축소하는 경우가 많은 이전 방법과 달리, STCA는 공간 및 시간 주의를 모두 통합하여 각 프레임 내의 공간 관계와 프레임 간의 시간적 종속성을 동시에 모델링할 수 있습니다. 이러한 더 풍부한 맥락 모델링은 누락된 관절을 추론하고 움직임 일관성을 보장하는 데 중요하여 모델이 레이더 데이터의 내재적 희소성과 변동성에 더 강력하게 대처할 수 있습니다.

제약 조건과의 정렬

선택된 방법인 milliMamba는 mmWave 레이더 기반 HPE의 가혹한 요구 사항과 완벽하게 일치하며, 문제와 솔루션 간의 "결합"을 형성합니다.

  1. 개인 정보 보호 및 조명 불변성: 프레임워크는 본질적으로 개인 정보 보호 및 조명 불변 센서인 mmWave 레이더를 활용하므로 이러한 문제 영역의 기본 요구 사항을 충족합니다.
  2. 희소 신호 및 반사율에 대한 견고성: 문제의 핵심 과제는 반사율로 인한 불완전한 관측입니다. milliMamba는 포괄적인 시공간적 모델링 파이프라인을 통해 이를 해결합니다. CV-Mamba 인코더와 STCA 디코더는 이웃 프레임과 뷰의 맥락적 단서를 공동으로 활용하여 누락된 관절을 추론합니다. 특히 STCA 디코더는 "공간 및 시간 주의를 통합하여 반사율로 인한 누락된 관절의 영향을 완화합니다"(방정식 4: $q_{j, \cdot}^{''} = TA(q_{j, \cdot}^{'}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j$).
  3. 고차원 레이더 입력 처리: mmWave 레이더 입력은 고차원적입니다. 3D FFT 전처리 단계는 원시 레이더 신호를 3D 히트맵으로 효율적으로 변환하여 후속 Mamba 기반 인코더에 대한 고차원 데이터를 관리 가능하게 만듭니다.
  4. 더 긴 시퀀스의 효율적인 처리: 시간적 맥락을 캡처하기 위해 더 긴 시간적 시퀀스가 필요하지만, 기존 트랜스포머는 이차적 복잡성으로 어려움을 겪습니다. Mamba 인코더의 선형 복잡성은 이 문제를 직접적으로 해결하여 모델이 확장된 시퀀스를 효율적으로 처리하고 정확한 자세 추정에 필수적인 장거리 시공간적 종속성을 포착할 수 있도록 합니다.
  5. 다중 프레임 자세 예측 및 시간적 일관성: 이 문제는 시간적 맥락을 활용해야 합니다. STCA 디코더의 "다대다" 예측 전략은 여러 프레임을 동시에 예측하여 "시간 단계 전반에 걸쳐 더 풍부한 감독"을 보장하고 시간 주의를 통해 움직임 일관성을 강제합니다. 이는 시간적으로 일관된 자세 시퀀스에 대한 요구 사항을 직접적으로 해결합니다.
  6. 듀얼 레이더 입력 융합: 프레임워크는 듀얼 mmWave 레이더 입력(수평 및 수직 뷰)을 위해 설계되었습니다. Cross-View Fusion Mamba 인코더는 "프레임 간 듀얼 레이더 입력을 효과적으로 융합"하도록 특별히 조정되어 제한된 고도 해상도를 가진 mmWave 레이더 센서의 한계를 극복하기 위해 여러 센서의 정보를 결합해야 하는 필요성을 직접적으로 해결합니다.

대안 거부

본 논문은 여러 인기 있는 대안적 접근 방식을 거부하는 명확한 이유를 제공합니다.

  1. 인코더용 트랜스포머: 주요 인코더 작업에 트랜스포머를 거부한 주된 이유는 시퀀스 길이에 대한 "이차적 복잡성" 때문이었습니다. 섹션 1 및 섹션 2.1에서 언급했듯이, 이는 "높은 계산 비용, 특히 메모리 사용량 및 훈련 시간 측면"으로 이어져 강력한 레이더 기반 HPE에 필요한 "더 긴 레이더 시퀀스에 내재된 대규모 토큰 볼륨"을 처리하는 데 부적합합니다. 표 8은 트랜스포머 인코더가 더 긴 시퀀스(3 프레임 초과)에 대해 메모리 부족이 발생하는 반면 Mamba는 효과적으로 확장되는 것을 극명하게 보여줍니다.
  2. 조기 시간 융합: 일부 이전 트랜스포머 기반 방법은 "시간 차원을 조기에 축소"하여 복잡성을 완화하려고 시도했습니다. 그러나 저자들은 "이러한 조기 융합은 반사율로 인한 누락된 관절을 복구하는 모델의 능력을 저해할 수 있다"고 주장합니다. milliMamba는 인코딩 및 디코딩 단계 모두에서 시공간적 모델링을 유지하여 추론을 위한 더 풍부한 맥락을 보장함으로써 이를 피합니다.
  3. 4D 히트맵 전처리: 전통적인 4D 히트맵 접근 방식 [25]은 "계산 비용이 많이 들고" "토큰 수의 폭발"을 초래했기 때문에 거부되었습니다. 본 논문은 3D FFT 기반 히트맵이 "메모리 사용량을 11배, 지연 시간을 8.6배 줄이는" 훨씬 더 효율적임을 보여줍니다(그림 4c). 이는 3D FFT를 전처리하기 위한 더 나은 대안으로 만듭니다.
  4. 다중 프레임-단일 프레임 디코딩: 대부분의 이전 레이더 기반 HPE 방법은 "다대일" 예측 전략을 채택합니다. milliMamba의 "다대다" STCA 디코더는 여러 프레임을 동시에 예측하며, 이는 "시간 단계 전반에 걸쳐 더 풍부한 감독"을 제공하고 "이웃 프레임 및 관절의 맥락적 단서를 활용하여 누락된 관절을 더 잘 추론"합니다(섹션 1, 표 5). 이러한 질적 이점은 단순화된 다대일 변형에 비해 4.1 AP 개선으로 이어졌습니다.
  5. CNN 기반 방법: CNN은 "다중 스케일 공간 및 단기 시간 특징"을 포착하는 데 효과적이지만, "여러 레이더 센서의 정보를 융합하는 데 종종 제한적"입니다(섹션 2.1). milliMamba의 듀얼 레이더 입력 및 교차 뷰 융합 설계를 고려할 때 CNN은 다른 레이더 뷰 간의 정보를 통합하는 데 효과적이지 않았을 것입니다.
Figure 1. Our milliMamba performs spatio-temporal modeling across both the feature extraction and decoding stages, addressing a key limitation of TransHuPR [12], which models these dependencies only partially. This is made possible by milliMamba’s ability to process a larger number of tokens with a comparable memory footprint, enabling richer temporal context and more accurate pose estimation

수학적 및 논리적 메커니즘

마스터 방정식

milliMamba의 학습 과정의 핵심은 정확한 자세 추정과 시간적 일관성을 달성하는 것을 목표로 하는 결합된 손실 함수에 의해 주도됩니다. 이 마스터 방정식은 훈련 중에 모델이 내부 매개변수를 미세 조정하도록 안내합니다. 다음과 같이 정의됩니다.

$$ L = L_{oks} + \lambda_{vel} L_{vel} $$

이 전체 손실 함수가 학습 목표를 결정하는 동안, 이를 평가하는 자세 추정치를 생성하는 실제 "엔진"은 상태 공간 모델(SSM)과 주의 메커니즘이라는 두 가지 기본 메커니즘에 의존합니다.

Mamba 인코더의 순차적 처리는 각 SSM 계층에 대한 은닉 상태 업데이트 방정식에 의해 제어됩니다.

$$ h_{t+1} = A h_t + B u_t \\ y_t = C h_t + D u_t $$

그리고 STCA 디코더는 주의 메커니즘, 특히 공간 주의(SA), 시간 주의(TA), 교차 주의(CrossAttn)를 사용하여 키포인트 쿼리를 개선합니다. 공간 및 시간적 측면에 대한 자체 주의 연산은 다음과 같습니다.

$$ q_{f,.}^{'} = SA(q_{f,.}) = \text{softmax}(Q_f K_f^T / \sqrt{d}) V_f \\ q_{.,j}^{''} = TA(q_{.,j}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j $$

마지막으로 교차 주의 메커니즘은 인코더 특징을 통합합니다.

$$ q_{f,j}^{'''} = \text{CrossAttn}(q_{f,j}^{''}, F') $$

항별 분석

이러한 방정식들을 분해하여 각 구성 요소의 역할을 이해해 봅시다.

전체 훈련 목표: $L = L_{oks} + \lambda_{vel} L_{vel}$

  • $L$: milliMamba 모델이 훈련 중에 최소화하려고 하는 총 손실 함수입니다. 이는 모델의 예측과 실제 값 사이의 전반적인 오류를 나타내며, 자세 정확도와 시간적 일관성을 모두 포함합니다.
  • $L_{oks}$: 이는 Object Keypoint Similarity (OKS) 손실을 나타냅니다.
    • 수학적 정의: 객체의 스케일과 키포인트 주석의 분산을 고려하여 예측된 키포인트와 실제 키포인트 간의 유사성을 측정하는 지표입니다. 일반적으로 0과 1 사이의 값이며, 1은 완벽한 유사성을 의미합니다. 손실 함수는 일반적으로 최소화할 값(예: $1 - OKS$)으로 변환합니다.
    • 물리적/논리적 역할: 이는 예측된 인간 자세의 정확성을 보장하는 주요 항입니다. 모델의 출력과 실제 인간 자세 간의 개별 신체 관절(예: 머리, 팔꿈치, 무릎)의 위치 불일치를 직접적으로 페널티합니다.
    • 왜 더하기인가? $L_{oks}$와 $L_{vel}$은 모델이 동시에 최소화해야 하는 서로 다른 유형의 오류(자세 정확도 및 시간적 일관성)를 나타내므로 여기서는 더하기가 사용됩니다. 이를 더하면 어느 쪽이든 개선되면 전체 손실이 감소하는 복합 목표가 생성됩니다.
  • $\lambda_{vel}$: 이는 속도 손실에 대한 스칼라 가중치 계수입니다.
    • 수학적 정의: 일반적으로 양수 실수(예: 논문에서 언급된 0.05)인 하이퍼파라미터입니다.
    • 물리적/논리적 역할: 이 계수는 자세 정확도($L_{oks}$)와 시간적 일관성($L_{vel}$) 간의 중요성을 균형 있게 조정합니다. $\lambda_{vel}$이 높으면 모델은 약간의 프레임별 정확도를 희생하면서 부드러운 움직임을 우선시하고, 값이 낮으면 프레임별 정확도를 강조합니다. 이는 절충을 조정하는 손잡이입니다.
  • $L_{vel}$: 이는 방정식 (6)으로 정의된 속도 손실을 나타냅니다.
    • 수학적 정의: 모든 프레임과 관절에 대해 평균된 예측된 관절 속도와 실제 관절 속도 간의 차이에 대한 제곱 L2 노름입니다.
    • 물리적/논리적 역할: 이 항은 예측된 자세 시퀀스에서 시간적 부드러움을 강제하는 정규화 메커니즘으로 작용합니다. 이는 종종 노이즈 또는 불완전한 레이더 데이터의 인공물인 추정된 자세 간의 갑작스럽고 거친 움직임을 방지합니다. 연속 프레임 간의 관절 위치 변화를 페널티함으로써 더 현실적이고 물리적으로 타당한 움직임 궤적을 촉진합니다.

속도 손실 방정식 (6): $L_{vel} = \frac{1}{(T-1)J} \sum_{f=1}^{T-1} \sum_{j=1}^{J} ||v_{f,j} - \hat{v}_{f,j}||_2^2$

  • $T$: 입력 시퀀스의 총 프레임 수(예: 9 프레임).
    • 수학적 정의: 시간 시퀀스의 길이를 나타내는 정수입니다.
    • 물리적/논리적 역할: 일관성이 강제되는 시간 창을 정의합니다. 속도는 두 개의 연속적인 위치에서 계산되므로 손실은 $T-1$개의 속도 벡터에 대해 계산됩니다.
  • $J$: 추정되는 총 인간 신체 관절 수(예: 14개의 키포인트).
    • 수학적 정의: 고유한 키포인트 수를 나타내는 정수입니다.
    • 물리적/논리적 역할: 전체 속도 손실에 기여하는 개별 관절 수를 지정합니다.
  • $f$: 프레임 1부터 $T-1$까지 반복되는 인덱스입니다.
    • 수학적 정의: 정수 루프 변수입니다.
    • 물리적/논리적 역할: 시퀀스의 특정 시간 단계를 나타냅니다.
  • $j$: 관절 1부터 $J$까지 반복되는 인덱스입니다.
    • 수학적 정의: 정수 루프 변수입니다.
    • 물리적/논리적 역할: 특정 신체 관절(예: 머리, 팔꿈치)을 나타냅니다.
  • $v_{f,j}$: 프레임 $f$에서 관절 $j$의 예측된 속도입니다.
    • 수학적 정의: 프레임 $f+1$에서의 관절 $j$의 예측된 위치와 프레임 $f$에서의 예측된 위치의 차이($P_{f+1,j} - P_{f,j}$)를 나타내는 벡터입니다.
    • 물리적/논리적 역할: 이는 특정 관절이 두 개의 연속적인 프레임 사이에서 얼마나 빠르고 어떤 방향으로 움직이는지에 대한 모델의 추정입니다.
  • $\hat{v}_{f,j}$: 프레임 $f$에서 관절 $j$의 실제(ground-truth) 속도입니다.
    • 수학적 정의: 프레임 $f+1$에서의 관절 $j$의 실제 위치와 프레임 $f$에서의 실제 위치의 차이($\hat{P}_{f+1,j} - \hat{P}_{f,j}$)를 나타내는 벡터입니다.
    • 물리적/논리적 역할: 이는 주석이 달린 데이터에서 파생된 관절의 실제 원하는 속도입니다. 모델은 이를 일치시키려고 합니다.
  • $||\cdot||_2^2$: 제곱 L2 노름(유클리드 거리 제곱).
    • 수학적 정의: 벡터 $x = [x_1, x_2, \dots, x_k]$에 대해 $||x||_2^2 = \sum_{i=1}^k x_i^2$입니다.
    • 물리적/논리적 역할: 예측된 속도 벡터와 실제 속도 벡터 간의 차이의 크기를 정량화합니다. 노름을 제곱하면 모든 오류가 손실에 긍정적으로 기여하고 더 큰 오류를 더 심각하게 페널티하여 손실 함수를 미분 가능하고 기울기 기반 최적화에 적합하게 만듭니다.
  • $\sum_{f=1}^{T-1} \sum_{j=1}^{J}$: 이중 합계.
    • 수학적 정의: 관련 프레임과 모든 관절에 걸쳐 제곱 속도 차이의 합계를 합산합니다.
    • 물리적/논리적 역할: 전체 시간 시퀀스와 모든 신체 부위에 걸쳐 개별 속도 오류를 집계하여 시간적 불일치의 단일 측정값을 얻습니다.
  • $\frac{1}{(T-1)J}$: 정규화 계수.
    • 수학적 정의: 제곱 오류의 합계를 고려된 총 속도 벡터 수로 나눕니다.
    • 물리적/논리적 역할: $L_{vel}$ 손실의 크기가 시퀀스 길이 $T$ 또는 관절 수 $J$에 독립적이도록 보장하여 다른 구성 간에 비교 가능하게 만들고 더 긴 시퀀스가 단순히 더 많은 항으로 인해 본질적으로 더 큰 손실을 갖는 것을 방지합니다.

Mamba SSM 은닉 상태 업데이트 (방정식 2): $h_{t+1} = A h_t + B u_t$ 및 $y_t = C h_t + D u_t$

  • $h_{t+1}$: 다음 시간 단계 $t+1$에서의 은닉 상태 벡터입니다.
    • 수학적 정의: 시간 $t$까지의 모든 이전 입력에서 압축된 메모리 또는 맥락을 나타내는 벡터입니다.
    • 물리적/논리적 역할: 이것이 Mamba 모델의 내부 "메모리"입니다. 시퀀스에서 정보를 축적하여 모델이 장거리 종속성을 이해할 수 있도록 합니다.
  • $h_t$: 현재 시간 단계 $t$에서의 은닉 상태 벡터입니다.
    • 수학적 정의: 시간 $t$까지의 메모리를 나타내는 벡터입니다.
    • 물리적/논리적 역할: 새로운 정보로 업데이트되는 이전 상태입니다.
  • $u_t$: 현재 시간 단계 $t$에서의 입력 토큰(특징 벡터)입니다.
    • 수학적 정의: 현재 처리 중인 정보 조각을 나타내는 벡터입니다.
    • 물리적/논리적 역할: 이것은 Mamba 계층이 현재 처리 중인 새로운 데이터 포인트(예: 레이더 프레임의 특징)입니다.
  • $y_t$: 현재 시간 단계 $t$에서의 출력 토큰(특징 벡터)입니다.
    • 수학적 정의: 시간 $t$에서 SSM이 생성한 벡터입니다.
    • 물리적/논리적 역할: 이것은 현재 시간 단계에 대한 처리된 정보이며, 후속 계층으로 전달되거나 추가 계산에 사용될 수 있습니다.
  • $A, B, C, D$: 계층별 학습 가능한 파라미터(행렬)입니다.
    • 수학적 정의: 은닉 상태와 입력에 적용되는 선형 변환을 정의하는 행렬입니다. $A$는 상태 전이 행렬, $B$는 입력 행렬, $C$는 출력 행렬, $D$는 직접 피드스루 행렬입니다.
    • 물리적/논리적 역할: 이 행렬들은 SSM의 "가중치"입니다. 훈련 중에 학습되며, 이전 메모리($h_t$)가 현재 입력($u_t$)과 결합되어 새로운 메모리($h_{t+1}$)와 현재 출력($y_t$)을 생성하는 방법을 결정합니다. 이들은 효과적으로 시스템의 동적을 인코딩하여 Mamba가 긴 시퀀스에 걸쳐 정보를 선택적으로 기억하거나 잊을 수 있도록 합니다.
    • 왜 행렬 곱셈과 덧셈인가? 이것은 선형 상태 공간 모델의 표준 형식입니다. 행렬 곱셈은 선형 변환 및 특징 혼합을 허용하고, 덧셈은 이전 상태와 현재 입력의 영향을 결합합니다. 이 선형 재귀는 장거리 종속성을 효율적으로 포착합니다.

주의 메커니즘 (방정식 3, 4, 5):

  • $q_{f,.}^{'}$, $q_{.,j}^{''}$, $q_{f,j}^{'''}$: 각각 공간 주의, 시간 주의, 교차 주의의 후속 단계 후의 키포인트 쿼리를 나타냅니다.
    • 수학적 정의: 키포인트 쿼리의 개선된 표현을 나타내는 벡터 또는 행렬입니다.
    • 물리적/논리적 역할: 이들은 디코더가 관절 위치 예측을 위해 관련 정보를 추출하기 위해 묻는 "질문"입니다. 각 주의 단계는 다른 맥락적 정보를 통합하여 이러한 쿼리를 개선합니다.
  • $SA(\cdot)$, $TA(\cdot)$, $CrossAttn(\cdot)$: 이들은 공간 주의, 시간 주의, 교차 주의 함수입니다.
    • 수학적 정의: 주의 점수를 계산하고 이를 값 벡터에 적용하는 함수입니다.
    • 물리적/논리적 역할: 이들은 모델이 입력의 다른 부분(프레임 내의 다른 관절, 프레임 간의 동일한 관절, 또는 인코더 특징)에 선택적으로 집중하여 키포인트 예측을 개선할 수 있도록 하는 메커니즘입니다.
  • $Q, K, V$: 쿼리, 키, 값 행렬(또는 벡터)입니다.
    • 수학적 정의: 선형 변환을 통해 입력 특징(예: 키포인트 쿼리 또는 인코더 특징)에서 파생됩니다.
    • 물리적/논리적 역할: 주의에서 쿼리($Q$)는 우리가 찾는 것을 나타내고, 키($K$)는 사용 가능한 것을 나타내며, 값($V$)은 추출할 정보를 포함합니다. $Q$와 $K$의 점곱은 각 사용 가능한 정보 조각이 쿼리에 얼마나 관련성이 있는지를 결정합니다.
  • $d$: 키 벡터의 차원입니다.
    • 수학적 정의: 스칼라 정수입니다.
    • 물리적/논리적 역할: 주의 메커니즘에서 스케일링 계수($\sqrt{d}$)로 사용됩니다. $\sqrt{d}$로 나누면 점곱이 너무 커지는 것을 방지하여 소프트맥스 함수를 기울기가 매우 작은 영역으로 밀어 넣어 학습을 방해하는 것을 방지합니다.
  • $\text{softmax}(\cdot)$: 소프트맥스 함수입니다.
    • 수학적 정의: 벡터 $x = [x_1, \dots, x_k]$에 대해 $\text{softmax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^k e^{x_j}}$입니다.
    • 물리적/논리적 역할: 주의 점수를 확률 분포로 정규화하여 가중치의 합이 1이 되도록 합니다. 이는 모델이 각 키에 상대적 중요도를 할당하여 해당 값에 얼마나 "주의"를 기울여야 하는지를 나타냅니다.
  • 행렬 곱셈 ($Q K^T$) 및 $\sqrt{d}$로 나누기:
    • 수학적 정의: 점곱 주의입니다.
    • 물리적/논리적 역할: 점곱 $Q K^T$는 각 쿼리와 모든 키 간의 유사성 또는 호환성을 측정합니다. 더 높은 점곱은 더 높은 관련성을 의미합니다. $\sqrt{d}$로 나누는 것은 기울기를 안정화하기 위한 스케일링 계수입니다.
  • $V$로 곱하기:
    • 수학적 정의: 값 벡터의 가중 합계입니다.
    • 물리적/논리적 역할: 주의 가중치(소프트맥스를 통해)를 계산한 후, 이러한 가중치가 값 벡터에 적용됩니다. 이는 효과적으로 $V$에 포함된 정보의 가중 평균을 생성하며, 더 관련성 있는 정보(더 높은 주의 가중치)가 출력에 더 많이 기여합니다.

단계별 흐름

단일 추상 레이더 데이터 포인트가 milliMamba 시스템을 통해 조립 라인의 구성 요소처럼 이동하는 것을 상상해 봅시다.

  1. 원시 레이더 신호 수집: 우리의 여정은 원시 밀리미터파 레이더 신호로 시작됩니다. 이는 듀얼 레이더 센서(수평 및 수직 뷰)에서 $T$개의 연속 프레임에 걸쳐 캡처된 복소수 큐브 $X \in \mathbb{C}^{12 \times 128 \times 256}$입니다.
  2. 전처리 - 잡음 제거 및 하위 샘플링: 먼저, 정적 잡음은 쳐프(chirp)에 대한 평균을 빼서 제거됩니다. 그런 다음 계산 부하를 줄이기 위해 쳐프 차원이 균일하게 하위 샘플링됩니다.
  3. 전처리 - 3D 고속 푸리에 변환 (FFT): 복소수 레이더 큐브는 3D 각도-도플러-거리 히트맵으로 변환됩니다.
    • 1D FFT(방정식 1)가 ADC 샘플 차원(거리)을 따라 적용됩니다.
    • 또 다른 1D FFT가 쳐프 차원(도플러)을 따라 적용됩니다.
    • 가상 안테나 차원은 제로 패딩된 후 세 번째 1D FFT(각도)로 변환됩니다.
    • 이는 각 뷰와 프레임에 대해 실수 값 3D 히트맵 $Y \in \mathbb{R}^{H \times D \times W}$을 생성하며, 이는 전통적인 4D 접근 방식에 비해 메모리와 지연 시간을 크게 줄입니다.
  4. 특징 추출 (MNet 및 3DCNN): 수평 및 수직 뷰에 대한 전처리된 3D 히트맵은 병렬 분기로 공급됩니다. 각 분기는 도플러 차원을 병합하는 MNet 블록으로 시작하고, 이어서 세 개의 잔차 3D 컨볼루션과 두 개의 다운샘플링 레이어가 이어집니다. 이 프로세스는 초기 공간 특징을 추출하고 각도 및 거리 차원의 해상도를 줄여 특징 맵 $F_h, F_v \in \mathbb{R}^{C_f \times T \times \frac{H}{4} \times \frac{W}{4}}$을 생성합니다.
  5. 교차 뷰 융합: 학습 가능한 위치 임베딩이 $F_h$와 $F_v$에 추가되어 공간 정보를 인코딩합니다. 이 두 뷰별 특징 맵은 연결되어 통합 인코더 입력 $F = [F_h; F_v]$를 형성합니다.
  6. CVMamba 인코더 - 시퀀스 변환: 2D 특징 맵 $F$는 거리, 각도, 뷰(수평 후 수직), 마지막으로 프레임에 걸쳐 지그재그 스캔 패턴을 사용하여 1D 시퀀스로 변환됩니다. 이 선형 시퀀스는 Mamba의 작동에 중요합니다.
  7. CVMamba 인코더 - SSM 처리: 토큰의 1D 시퀀스($u_t$)는 Vision Mamba 계층 스택에 공급됩니다. 각 계층은 순방향 및 역방향으로 모두 발생하는 선형 재귀 관계(방정식 2)를 사용하여 은닉 상태($h_t$)를 반복적으로 업데이트하고 출력($y_t$)을 생성합니다. 이는 모델이 선형 복잡성으로 장거리 시공간적 종속성을 포착할 수 있도록 합니다. 인코더의 출력은 풍부하고 맥락을 인식하는 특징 표현 $F'$입니다.
  8. STCA 디코더 - 키포인트 쿼리 초기화: 고정된 학습 가능한 키포인트 쿼리 집합 $\{q_{f,j}\}$이 초기화됩니다. 각 쿼리는 특정 프레임 $f$의 특정 관절 $j$를 나타냅니다. 이러한 쿼리는 자세 예측의 시작점입니다.
  9. STCA 디코더 - 공간 주의: 각 디코더 계층 내에서 단일 프레임에 대한 키포인트 쿼리($q_{f,.}$)는 공간 주의(방정식 3)를 거칩니다. 이를 통해 쿼리는 동일한 프레임 내에서 서로 상호 작용하여 관절 간 관계 및 공간 구조에 대한 정보를 집계할 수 있습니다. 출력은 $q_{f,.}^{'}$입니다.
  10. STCA 디코더 - 시간 주의: 다음으로, 모든 프레임에 걸친 단일 관절에 대한 공간적으로 개선된 쿼리($q_{.,j}^{'}$)는 시간 주의(방정식 4)를 거칩니다. 이 메커니즘은 모델이 다른 시간 단계에 걸쳐 동일한 관절의 표현에 주의를 기울임으로써 움직임 일관성을 강제할 수 있도록 합니다. 출력은 $q_{.,j}^{''}$입니다.
  11. STCA 디코더 - 교차 주의: 시간적 및 공간적으로 개선된 키포인트 쿼리($q_{f,j}^{''}$)는 인코더 특징 $F'$에 주의를 기울입니다(방정식 5). 이 교차 주의 단계는 디코더가 CVMamba 인코더에 의해 생성된 풍부한 시공간적 특징에서 관련 맥락적 정보를 추출할 수 있도록 하여 누락된 관절을 추론하는 능력을 향상시킵니다. 출력은 $q_{f,j}^{'''}$입니다.
  12. 예측 헤드: 최종적으로 개선된 키포인트 쿼리($q_{f,j}^{'''}$)는 예측 헤드(일반적으로 작은 MLP)를 통과하여 각 프레임의 각 관절에 대한 2D 좌표를 생성합니다. 이는 $T$개의 자세 추정 시퀀스를 생성합니다.
  13. 손실 계산:
    • 예측된 2D 키포인트 좌표는 실제 좌표와 비교되어 Object Keypoint Similarity 손실($L_{oks}$)을 계산합니다.
    • 예측된 관절 속도($v_{f,j} = P_{f+1,j} - P_{f,j}$)는 예측된 위치에서 계산됩니다.
    • 실제 관절 속도($\hat{v}_{f,j} = \hat{P}_{f+1,j} - \hat{P}_{f,j}$)는 실제 위치에서 계산됩니다.
    • 속도 손실($L_{vel}$)은 방정식 (6)을 사용하여 이러한 예측된 속도와 실제 속도를 비교하여 계산됩니다.
    • 마지막으로 전체 손실 $L = L_{oks} + \lambda_{vel} L_{vel}$이 계산됩니다.

최적화 역학

milliMamba 모델은 반복적인 최적화 프로세스를 통해 전체 손실 함수 $L = L_{oks} + \lambda_{vel} L_{vel}$을 최소화함으로써 학습합니다.

모델의 학습 가능한 매개변수에는 MNet 및 3DCNN 블록의 가중치, 각 Mamba SSM 계층 내의 $A, B, C, D$ 행렬, 주의 메커니즘에 대한 $Q, K, V$를 생성하는 선형 변환 행렬, 학습 가능한 키포인트 쿼리 자체, 그리고 최종 예측 헤드의 가중치가 포함됩니다.

  1. 기울기 계산: 각 훈련 반복 중에, 배치 크기의 레이더 시퀀스가 milliMamba 파이프라인 전체를 통과하고 전체 손실 $L$이 계산된 후, 모델은 모든 학습 가능한 매개변수에 대한 이 손실의 기울기를 계산합니다. 이는 각 매개변수가 총 오류에 얼마나 기여하는지를 효율적으로 계산하는 역전파를 통해 수행됩니다.
  2. 손실 지형 형성:
    • $L_{oks}$ 항은 모델을 정확한 프레임별 자세 예측으로 안내하기 위해 손실 지형을 형성합니다. 예측된 키포인트가 실제 값과 밀접하게 일치하는 지형에 "계곡"을 만듭니다.
    • $\lambda_{vel}$로 가중치가 부여된 $L_{vel}$ 항은 추가적인 정규화 힘을 도입합니다. 이는 프레임 간의 "뾰족하거나" 빠르게 변화하는 자세 예측을 페널티하여 시간적 차원에서 손실 지형을 효과적으로 평활화합니다. 이는 모델이 정확할 뿐만 아니라 시간적으로 일관된 솔루션을 찾도록 장려합니다. 제곱 L2 노름은 더 큰 속도 오류가 더 심각하게 페널티되도록 하여 불일치 움직임에 대한 더 가파른 기울기를 만들어냅니다.
  3. 매개변수 업데이트: 논문에서는 Adam 옵티마이저를 사용한다고 명시합니다. Adam은 각 매개변수에 대한 학습률을 조정하기 위해 기울기의 첫 번째 및 두 번째 모멘트 추정치를 사용하는 적응형 학습률 최적화 알고리즘입니다.
    • 계산된 기울기는 손실을 줄이기 위해 각 매개변수에 필요한 변경 방향과 크기를 나타냅니다.
    • Adam 옵티마이저는 이러한 기울기, 지정된 학습률(예: 0.00005) 및 가중치 감쇠(예: 0.0001)를 사용하여 모델의 매개변수를 업데이트합니다. 가중치 감쇠는 L2 정규화 역할을 하여 매개변수가 너무 커지는 것을 방지하고 과적합을 완화하는 데 도움이 됩니다.
  4. 반복적 개선 및 수렴: 이 순방향 패스, 손실 계산, 역전파 및 매개변수 업데이트 프로세스는 여러 훈련 에포크에 걸쳐 반복적으로 수행됩니다.
    • STCA 디코더의 반복적 개선은 키포인트 쿼리가 여러 계층의 시공간 및 교차 주의를 통해 점진적으로 업데이트된다는 것을 의미하며, 이는 최종 자세 예측에서 얻은 기울기가 이러한 개선 단계를 통해 역전파되어 쿼리가 관련 정보를 더 잘 표현하고 추출하도록 가르칩니다.
    • 시간이 지남에 따라 모델의 매개변수가 조정되어 예측된 자세가 점점 더 정확해지고($L_{oks}$ 최소화) 시간적으로 부드러워집니다($L_{vel}$ 최소화). $\lambda_{vel}$ 하이퍼파라미터는 여기서 중요합니다. 너무 높으면 모델이 과도하게 평활화되어 일부 정확도를 희생할 수 있습니다. 너무 낮으면 시간적 일관성이 저하될 수 있습니다. 논문에서는 $\lambda_{vel} = 0.05$로 설정하여 움직임 부드러움에 대한 약간이지만 상당한 강조를 나타냅니다.
    • 손실 함수가 최소값(또는 충분히 낮은 값)에 도달하면 모델의 예측이 훈련 데이터와 아키텍처를 고려하여 정확도와 시간적 일관성 간에 최적으로 균형을 이룰 때 모델이 수렴합니다.
Figure 4. Comparison of heatmap generation. (a) The traditional 4D approach [25] applies separate FFTs for range, doppler, azimuth, and elevation after antenna grouping. (b) Our 3D pipeline performs a unified spatial FFT without grouping, yielding a compact representation. (c) Cost comparison between 4D and 3D heatmaps, showing 11× reduction in memory and 8.6× reduction in latency Figure 2. Overview of our milliMamba. The CVMamba encoder first extracts features from dual-view radar inputs. These features are then passed to the Multi-Pose STCA decoder, which progressively refines a set of keypoint queries to produce pose predictions

결과, 한계 및 결론

실험 설계 및 기준선

제안된 milliMamba 프레임워크를 엄격하게 검증하기 위해 저자들은 포괄적인 실험 설계를 구성했습니다. 모델은 두 개의 밀리미터파(mmWave) 레이더 센서에서 입력을 받아 $T=9$ 프레임 시퀀스를 처리하도록 설계되었습니다. 중요한 것은, 모델이 훈련 중에 9개의 연속적인 자세를 예측하지만("다대다" 전략), 추론 중에는 해당 창 내의 중앙 프레임에 대한 예측만 사용된다는 것입니다. 이 설계 선택은 모델이 학습 중에 풍부한 시간적 맥락의 이점을 얻도록 보장하지만 실용적인 사용을 위해 단일의 개선된 자세 추정치를 제공합니다.

훈련 규정은 학습률 0.00005, 배치 크기 8, 가중치 감쇠 0.0001로 Adam 옵티마이저를 사용했습니다. 전체 훈련 목표는 예측된 관절 위치와 실제 관절 위치 간의 불일치를 페널티하는 표준 Object Keypoint Similarity ($L_{oks}$)와 예측된 자세 시퀀스에서 시간적 부드러움을 장려하는 속도 손실 ($L_{vel}$)이라는 두 가지 손실 함수를 결합했습니다. 속도 손실은 $\lambda_{vel} = 0.05$로 가중치가 부여되어 정확도와 시간적 일관성의 균형을 맞췄습니다. 모든 실험은 단일 NVIDIA Tesla V100 GPU에서 수행되었습니다.

milliMamba가 철저하게 테스트된 기준선(baseline) 모델은 다음과 같습니다.
- TransHuPR [12]: 시공간적 종속성을 부분적으로 모델링하는 트랜스포머 기반 접근 방식.
- HuPR [13]: 또 다른 저명한 레이더 기반 인간 자세 추정(HPE) 방법.
- mmPose [23]: 레이더 HPE를 위한 CNN 기반 방법.

이러한 기준선은 mmWave 레이더 기반 HPE 분야의 최첨단 기술을 대표하므로 milliMamba의 성능을 직접 비교할 수 있습니다. 평가는 두 가지 벤치마크 mmWave 레이더 데이터셋에서 수행되었습니다.
- TransHuPR 데이터셋 [12]: 22명의 피험자로부터 7시간 이상의 비디오를 포함하며, 빠른 동적 동작을 특징으로 하여 자세 추정에 대한 상당한 과제를 제시합니다.
- HuPR 데이터셋 [13]: 약 4시간 분량의 6명의 피험자 비디오를 포함하며, 비교적 정적인 동작을 특징으로 합니다.

성능은 Object Keypoint Similarity (OKS)를 기반으로 평균 정밀도(AP)를 사용하여 측정되었습니다. 여기에는 전체 AP(OKS 임계값 0.50에서 0.95까지 평균), AP50(OKS 0.50에서 느슨한 일치), AP75(OKS 0.75에서 엄격한 일치)가 포함되었습니다.

증거가 증명하는 것

실험 증거는 milliMamba의 핵심 메커니즘, 즉 특징 추출 및 디코딩 단계 모두에서 시공간적 종속성을 공동으로 모델링하는 것과 효율적인 3D 고속 푸리에 변환(FFT) 전처리를 결합하는 것이 mmWave 레이더 신호에서 인간 자세 추정을 크게 향상시킨다는 것을 명확하게 증명합니다.

결정적이고 부인할 수 없는 증거:

  1. 기준선 대비 우수한 성능:

    • TransHuPR 데이터셋 (표 2)에서 milliMamba는 모든 AP 지표에서 모든 기준선을 일관되게 능가했습니다. TransHuPR [12]에 비해 상당한 11.0 AP 개선을 달성했습니다. 예를 들어, 반사율과 빠른 움직임으로 인해 발생하기 쉬운 어려운 '손목' 관절에서 milliMamba는 인상적인 46.9 AP를 달성했습니다. 이는 매우 불확실하거나 누락된 관절을 추론하는 데 있어 견고성을 보여줍니다.
    • HuPR 데이터셋 (표 3)에서 milliMamba는 다시 한 번 우수한 정확도를 보여 비교적 정적인 동작에 대해 최대 84.0 AP에 도달했습니다. 중요한 것은, HuPR 13에 비해 훨씬 낮은 계산 비용(34.4 GMACs 및 4.0M 매개변수)으로 이 높은 정확도를 달성하여 효율성을 강조했습니다.
  2. 효율적인 입력 처리(3D FFT) 검증:

    • 입력 표현(표 4)에 대한 축소 실험은 milliMamba의 선택된 전처리 방법인 3D FFT 기반 히트맵이 가장 좋은 성능(74.5 AP)을 제공한다는 것을 명확하게 보여주었습니다. 이는 밀도 맵(58.5 AP)과 심지어 더 복잡한 4D FFT(72.0 AP)보다 훨씬 뛰어났습니다.
    • 또한, 그림 4(c)는 3D FFT가 전통적인 4D 접근 방식에 비해 메모리 사용량을 11배, 지연 시간을 8.6배 줄이는 효율성 향상에 대한 확실한 증거를 제공했습니다. 이는 전처리 선택이 정확할 뿐만 아니라 계산적으로 유리하다는 것을 증명합니다.
  3. 다중 프레임 출력 메커니즘의 효과:

    • 표 5는 milliMamba의 "다대다" 예측 전략(Spatio-Temporal-Cross Attention (STCA) 디코더 사용)의 힘을 보여주었습니다. 이는 "다대일" 접근 방식(일반적인 트랜스포머 디코더)에 비해 AP 정확도에서 4.1 AP 개선을 달성했습니다. 이는 디코딩 중에 여러 시간 단계의 관절 특징을 활용하는 것이 반사율로 인해 약하게 반사되거나 누락된 관절을 추론하는 데 중요하다는 것을 확인시켜 줍니다.
  4. 더 긴 시간적 맥락의 이점:

    • 입력 시퀀스 길이(표 6)의 영향은 입력 프레임 수($T$)를 늘리면 자세 추정 정확도가 일관되게 향상된다는 것을 보여주었습니다. 이는 특히 손목과 팔꿈치와 같은 어려운 관절에서 두드러졌으며, 어려운 시나리오를 처리하는 데 있어 풍부한 시간적 맥락의 가치를 강조합니다.
  5. Mamba의 우수한 확장성 및 효율성:

    • $T=3$ 프레임에 대한 트랜스포머와 Mamba 인코더(표 8)의 비교는 Mamba가 1.5 AP 더 높은 정확도를 달성했음을 보여주었습니다. 더 중요하게는, 트랜스포머 인코더는 더 긴 시퀀스를 시도할 때 메모리 부족이 발생했지만, Mamba는 효과적으로 확장되었습니다. 이는 Mamba의 선형 복잡성이 이전 트랜스포머 기반 방법의 주요 과제였던 더 긴 레이더 시퀀스에 내재된 대규모 토큰 볼륨을 처리하기 위한 실용적인 솔루션이라는 확실한 증거입니다.
  6. 듀얼 레이더 교차 뷰 융합의 이점:

    • 표 7은 듀얼 레이더(수평+수직) 구성이 milliMamba에서 사용된 것처럼 단일 레이더 설정(수평만 또는 수직만)보다 훨씬 뛰어난 성능을 보였다는 것을 보여주었습니다. 이는 교차 뷰 융합이 mmWave 레이더 센서의 제한된 고도 해상도의 한계를 보상하여 더 강력하고 정확한 자세 추정을 가능하게 한다는 것을 증명합니다.

본질적으로, milliMamba의 아키텍처 선택은 효율적인 3D FFT 전처리부터 Mamba 기반 인코더 및 STCA 디코더에 이르기까지 각각 실험적으로 검증되어 최첨단 성능에 기여했으며, 핵심 메커니즘이 실제로 작동한다는 부인할 수 없는 증거를 제공합니다.

한계 및 향후 방향

milliMamba는 mmWave 레이더 기반 인간 자세 추정 분야에서 상당한 도약을 제시하지만, 본 논문의 결과는 또한 추가 개발을 위한 몇 가지 영역을 암시하고 내재적 한계를 강조합니다.

추론된 한계:

  1. 계산적 사용량: milliMamba는 더 긴 시퀀스에 대해 트랜스포머보다 효율적이지만, 그 계산 비용(예: HuPR에서 34.4 GMACs, 4.0M 매개변수, 224.1 MB 메모리)은 리소스가 매우 제한된 엣지 장치에 배포하거나 매우 낮은 지연 시간을 요구하는 애플리케이션의 경우 여전히 상당할 수 있습니다. "합리적인 복잡성"은 상대적이며, 보편적인 실시간 사용을 위해서는 추가 최적화가 필요할 수 있습니다.
  2. 단일 인물 초점: 현재 프레임워크는 주로 단일 인물 자세 추정을 위해 설계된 것으로 보입니다. "다중 인물 시나리오"를 향후 작업으로 명시적으로 언급하는 것은 상호 작용하는 여러 개인을 처리하는 것, 특히 가려짐이 있는 경우 현재 아키텍처에 대한 과제로 남아 있음을 시사합니다.
  3. 데이터셋 특수성: 평가는 두 가지 특정 데이터셋, TransHuPR 및 HuPR에서 수행되었습니다. 이 데이터셋은 동적 및 정적 동작을 다루지만, 실제 배포에서 발생하는 인간 움직임, 환경 조건 또는 잠재적인 레이더 간섭 시나리오의 방대한 다양성을 완전히 나타내지 못할 수 있습니다.
  4. 극심한 가려짐에 대한 일반화: 반사율에는 강력하지만, milliMamba가 심각한 자체 가려짐 또는 환경 가려짐(예: 가구 뒤) 하에서 자세를 얼마나 잘 추론할 수 있는지는 완전히 자세히 설명되지 않았습니다. 레이더 신호는 여전히 희소할 수 있으며, 신체의 전체 부분이 관찰되지 않을 수 있습니다.

향후 방향 및 토론 주제:

저자들은 향후 작업에서 다중 인물 및 교차 환경 시나리오를 탐색하고 계산 비용을 추가로 줄일 것이라고 명시적으로 밝혔습니다. 이를 바탕으로 추가 개발을 위한 다양한 관점은 다음과 같습니다.

  1. 적대적 및 혼잡한 환경에서의 견고성: milliMamba는 노이즈, 간섭 또는 레이더 신호에 대한 적대적 공격에 대해 어떻게 더 강력하게 만들 수 있을까요? 데이터 증강 또는 도메인 적응을 통한 자기 지도 학습과 같은 기술이 매우 다른 환경(예: 실내 대 실외, 다른 방 레이아웃, 다양한 혼잡)에서 성능을 일반화하는 데 도움이 될 수 있을까요?
  2. 실시간 엣지 배포 및 하드웨어 최적화: 계산 비용 절감이라는 목표를 고려할 때, 어떤 특정 하드웨어 인식 최적화를 탐색할 수 있을까요? 여기에는 모델 양자화, 가지치기, 더 작은 Mamba 변형을 위한 신경 아키텍처 검색 또는 SSM을 위한 특수 하드웨어 가속기가 포함될 수 있습니다. 이 토론은 실용적인 엣지 배포를 위한 모델 크기, 추론 속도 및 정확도 간의 절충을 자세히 다룰 수 있습니다.
  3. 향상된 맥락을 위한 보완 센서와의 통합: 레이더는 개인 정보를 보호하지만, 다른 개인 정보 보호 양식(예: 신체 열을 위한 열 카메라, 움직임을 위한 수동 적외선 센서, 또는 깊이를 위한 저해상도 라이다)과의 신중한 융합이 더 풍부한 맥락적 단서를 제공할 수 있을까요? 이는 레이더 데이터의 모호성을 해결하는 데 도움이 될 수 있으며, 특히 미세한 움직임이나 신체 부위가 레이더 시야에서 완전히 가려진 경우에 그렇습니다. 이러한 이종 데이터 스트림을 효과적으로 동기화하고 융합하는 데 따르는 과제는 무엇일까요?
  4. 2D를 넘어: 3D 자세 및 메쉬 재구성으로: 현재 작업은 2D HPE에 중점을 둡니다. 시공간 Mamba 융합 메커니즘은 3D 인간 자세 또는 전체 인간 메쉬 재구성을 직접 예측하도록 확장 또는 조정될 수 있을까요? 이는 가상 현실, 증강 현실 및 더 정교한 인간-로봇 상호 작용의 응용 프로그램을 잠금 해제하겠지만, 2D 레이더 투영의 내재적 한계를 해결해야 합니다.
  5. 윤리적 함의 및 개인 정보 보호 중심 AI: 레이더 기반 HPE가 더 정확하고 다중 인물 추적이 가능해짐에 따라 윤리적 함의를 다루어야 합니다. 본질적으로 개인 정보 보호 중심이지만, 무단 감시 또는 식별과 같은 잠재적 오용을 방지하기 위해 어떤 안전 장치가 필요할까요? 개인의 권리를 침해하지 않고 사회에 혜택을 주도록 기술을 책임감 있게 개발하려면 어떻게 해야 할까요?
  6. 장기 시간적 이해 및 행동 인식: 현재 프레임워크는 자세 추정을 위해 시간적 맥락을 활용합니다. 이는 장기적인 인간 활동을 이해하고, 미래 자세를 예측하거나, 복잡한 행동 및 의도를 인식하도록 확장될 수 있을까요? 이는 훨씬 더 긴 시간 범위에 걸쳐 정보를 유지할 수 있는 메모리 메커니즘을 통합해야 하며, 잠재적으로 인간 행동에 대한 보다 전체적인 이해를 향해 나아가야 합니다.
  7. 합성 데이터 생성 및 시뮬레이션: 대규모의 다양한 레이더 데이터셋을 수집하는 어려움과 비용을 고려할 때, 훈련을 위해 합성 레이더 데이터를 생성하기 위해 고급 시뮬레이션 환경이나 생성 모델을 사용할 수 있을까요? 이는 데이터 부족을 극복하고, 일반화를 개선하며, 실제 세계에서 포착하기 어려운 극단적이거나 드문 시나리오를 테스트할 수 있도록 할 수 있습니다.
Table 2. Comparison of model performance and complexity across methods on the TransHuPR dataset [12]. The complexity excludes radar signal preprocessing Table 3. Comparison of model performance and complexity across methods on the HuPR dataset [13]. The complexity excludes radar signal preprocessing Table 6. Impact of input sequence length (T) on pose estimation performance. We investigate the effect of varying T to understand how temporal context contributes to accuracy

다른 분야와의 동형성

구조적 골격

본 논문의 핵심은 노이즈가 많고 고차원적인 순차 데이터에서 시공간 특징을 효율적으로 추출 및 융합하여 시간적 일관성을 가진 구조화된 출력을 예측하는 메커니즘을 제시합니다.

먼 친척

  1. 대상 분야: 금융 시계열 분석

    • 연결성: 금융 시장에서 분석가들은 주가, 거래량, 경제 지표와 같은 고차원적이고 노이즈가 많으며 순차적인 데이터 스트림을 다룹니다. 이 데이터에서 장거리 시간적 종속성과 자산 간 상관 관계를 포착하는 과제는 milliMamba의 작업과 거울처럼 닮았습니다. 레이더 신호가 "누락된 관절"로 이어지는 "반사율"로 어려움을 겪는 것처럼, 금융 데이터는 시장 노이즈, 갑작스러운 사건 및 진정한 기본 패턴을 가리는 불완전한 정보로 인해 어려움을 겪습니다. 희소하고 고차원적인 입력에서 강력한 특징을 추출하고 맥락적 단서를 활용하여 누락된 정보를 추론하는 논문의 접근 방식은 데이터 격차와 변동성에도 불구하고 미래 시장 상태를 예측할 필요성과 직접적으로 유사합니다.
  2. 대상 분야: 기후 모델링 및 환경 예측

    • 연결성: 기후 과학은 광대한 지리적 격자에 걸쳐 장기간에 걸친 온도, 압력, 습도 및 바람 패턴을 포함한 방대한 양의 시공간 데이터를 처리합니다. 미래 날씨 사건 또는 장기 기후 추세를 예측하려면 공간적으로(예: 한 지역의 대기 조건이 다른 지역에 미치는 영향) 및 시간적으로(예: 계절 주기, 다년 간의 진동) 복잡하고 장거리적인 종속성을 이해해야 합니다. milliMamba의 듀얼 레이더 입력은 서로 다른 관점에서 정보를 융합하며, 이는 다양한 환경 센서 또는 위성 관측에서 얻은 데이터를 통합하는 것과 유사합니다. 노이즈가 많은 입력에서 강력한 특징을 추출하기 위한 효율적인 시공간적 모델링에 대한 논문의 초점은 혼란스럽고 종종 불완전한 기상 데이터셋에서 정확한 예측을 만드는 과제와 깊이 공명합니다.

만약 시나리오

최첨단 알고리즘 거래 시스템인 "milliMamba를 훔쳤다"고 가정해 봅시다. 이 시스템은 내일 금융 시계열 데이터를 입력으로 사용합니다. 이 데이터에는 실시간 주가, 채권 수익률, 상품 선물 및 거시 경제 지표가 포함될 수 있으며, "교차 뷰"는 다른 글로벌 시장 또는 자산 클래스를 나타냅니다. Mamba 인코더는 선형 복잡성을 통해 현재 트랜스포머 기반 모델보다 훨씬 더 긴 과거 시퀀스를 처리할 수 있으며, 수개월 또는 수년에 걸쳐 자산 가격에 영향을 미치는 미묘한 장거리 시장 종속성을 포착합니다. STCA 디코더는 인간 관절 좌표를 예측하는 대신 여러 미래 시간 단계에 걸쳐 다양한 포트폴리오의 미래 가격 움직임 또는 변동성을 예측합니다. 이는 광범위한 거시 경제 추세 및 시장 간 상관 관계와 일치하는 예측된 자산 움직임을 보장함으로써 "시간적 일관성"을 강제하고, 지연된 경제 보고서 또는 시장 이상 현상의 영향을 예측함으로써 "누락된 데이터를 추론"할 것입니다. 이 급진적인 응용은 현재 기존 모델에서는 보이지 않는 깊고 장거리적인 시공간적 시장 패턴을 식별하고 활용하여 복잡한 다중 자산 거래 전략의 예측 정확도에서 전례 없는 돌파구를 가져올 수 있습니다. 이 시스템은 글로벌 금융 데이터에서 미묘하고 나타나는 패턴을 인식함으로써 "블랙 스완" 사건을 어느 정도 예견하여 예측할 수도 있습니다.

구조의 보편적 라이브러리

노이즈가 많고 순차적인 데이터에서 강력한 시공간 특징 추출 및 구조화된 예측을 위한 이 논문의 우아한 솔루션은 다양한 분야의 서로 다른 과제가 공유된 수학적 및 알고리즘적 패턴에 의해 통합된다는 것을 보여줌으로써 구조의 보편적 라이브러리를 풍부하게 합니다.