NeurIPS

Flat Loss Landscape 기반의 앙상블을 통한 일반화 가능한 3D Human Pose Estimation 연구

The quest to understand human movement in three dimensions from simple two-dimensional images—like those from a standard smartphone camera—is a cornerstone of modern computer vision.

연구 분야 Computer Vision

Article Type Research analysis

Authors Han et al.

Original Paper Published 2025-09-18

ISOM Posted 2026-03-12 15:22 UTC

Read Time 14M

Open PDF

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

배경 및 학술적 계보

스마트폰 카메라와 같은 일반적인 2D 이미지로부터 인간의 3차원 움직임을 이해하려는 시도는 현대 컴퓨터 비전 분야의 핵심 과제이다. 3D Human Pose Estimation(HPE)으로 알려진 이 문제는, 초기 연구자들이 단순한 2D "스틱 피규어(stick figures)"를 넘어 애니메이션, 스포츠 분석(analysis), 의료 진단 등을 위한 인간의 디지털 트윈을 생성하고자 하면서 시작되었다. 역사적으로 이 분야는 복잡한 기하학적 모델에서 Deep Neural Networks(DNNs)로 진화해 왔다. 그러나 모델이 통제된 실험실 환경에서 자율주행 자동차가 복잡한 거리를 주행하거나 로봇이 공장에서 인간과 협업하는 것과 같은 "in-the-wild" 환경의 거친 현실로 이동함에 따라, '일반화(generalization)'라는 거대한 장벽에 직면하게 되었다. 특정 사진 세트에서 완벽하게 작동하던 모델이 카메라 각도나 피사체의 복장이 조금만 바뀌어도 성능이 급격히 저하되는 현상이 빈번하게 발생한 것이다.

본 논문의 저자들이 연구를 수행하게 된 근본적인 "페인 포인트(pain point)"는 기존 3D HPE 모델들이 가진 잠재적 불안정성이다. 이전 연구자들은 데이터 증강이나 모델의 대형화를 통해 이를 해결하려 했으나, 모델이 학습 과정에서 탐색하는 수학적 지형인 "Loss Landscape"를 간과했다. 저자들은 3D HPE 모델이 종종 오차가 낮은 "뾰족한(sharp)" 골짜기에 안착한다는 사실을 발견했다. 이러한 뾰족한 골짜기에서 모델은 극도로 취약해지며, 입력 데이터의 미세한 변화가 마치 강력한 지진처럼 작용하여 모델을 안정적인 영역 밖으로 밀어내고 정확도를 급락시킨다. 이러한 개선(improvement)의 부재는 산업용 로봇과 같이 안전이 중요한 응용 분야에서 모델을 신뢰할 수 없게 만드는 원인이 되었다.

이 분야를 처음 접하는 독자들의 이해를 돕기 위해, 연구에 사용된 전문 용어들을 일상적인 비유로 설명하면 다음과 같다.

Loss Landscape: 모델의 오차를 '고도'로 나타내는 거대한 보이지 않는 산맥이라 상상해 보자. 모델 학습의 목표는 가장 낮은 골짜기(최소 오차 지점)를 찾는 것이다. "뾰족한(sharp)" 지형은 머물기 어려운 좁고 가파른 구덩이를 의미하며, "평탄한(flat)" 지형은 훨씬 안정적인 넓고 완만한 분지를 의미한다.
Depth Ambiguity: 그림자 인형극을 떠올려 보자. 손의 그림자만 보고는 그 손이 광원에 가까운지 먼지 알 수 없다. 3D HPE에서도 하나의 2D 이미지는 여러 3D 포즈로 해석될 수 있으며, 이는 모델에게 "일대다(one-to-many)" 혼란을 야기한다.
Hessian Eigenvalue ($\lambda_{max}$): 이는 본질적으로 "곡률 측정기"이다. 골짜기에 서 있을 때, Hessian은 벽이 얼마나 가파른지를 알려준다. 높은 값은 매우 좁고 뾰족한 구덩이에 있음을 의미하며, 이는 일반화에 부정적이다.
Ensemble: 다섯 명의 전문가에게 유리병 속 구슬의 개수를 추측하게 한다고 가정해 보자. 각 전문가는 조금씩 다른 관점을 가진다. 이들의 추측을 평균 내면, 단일 전문가보다 일관되게(consistently) 더 정확한 결과를 얻을 수 있다.

주요 수학적 표기법

변수/파라미터	설명
$x$	입력 2D 포즈 (평면 이미지 좌표).
$g_\phi$	입력에서 특징을 추출하는 "인코더(encoder)" 네트워크.
$f_\theta$	특징을 3D 좌표로 변환하는 최종 "예측 헤드(prediction head)".
$h_\psi$	지형을 평탄화하는 방법을 예측하는 "스케일링 함수(scaling function)".
$\sigma$	ReLU 활성화 함수 (스케일링 인자가 양수임을 보장).
$\hat{y}$	표준적인 3D 포즈 예측값.
$\tilde{y}$	지형을 평탄화하기 위해 사용된 "스케일링된" 3D 포즈 예측값.
$M$	앙상블에 사용된 "전문가(헤드)"의 수.

저자들은 Adaptive Scaling Mechanism(ASM)이라는 기발한 수학적 트릭을 도입하여 "뾰족함(sharpness)" 문제를 해결했다. 표준 모델에서 예측값은 네트워크의 직접적인 결과물이다:
$$\hat{y} = f_\theta(g_\phi(x))$$
문제는 이 직접적인 경로가 종종 뾰족한 골짜기로 이어진다는 점이다. 저자들은 공식을 다음과 같이 변경했다:
$$\tilde{y} = \frac{f_\theta(g_\phi(x))}{\sigma(h_\psi(g_\phi(x))) + 1}$$
이 분모를 추가함으로써 "수학적 중복성(mathematical redundancy)"을 도입했다. 이는 모델이 정답에 도달할 수 있는 다양한 경로가 존재함을 의미한다. 산맥 비유를 빌리자면, 이는 좁고 위험한 구덩이를 넓고 평평한 평원으로 "늘리는(stretch)" 효과를 낸다. 지형이 평탄해지면, 동일한 평지 위에서 여러 "전문가(앙상블 헤드)"를 학습시킨다. 지형이 평탄하고 안정적이기 때문에, 이 전문가들은 서로 충돌하지 않고 결합될 수 있으며, 결과적으로 다양한 실제 환경에서 훨씬 더 강력하고 신뢰할 수 있는 3D 포즈 추정을 가능하게 한다.

문제 정의 및 제약 조건

컴퓨터 비전 분야에서 3D Human Pose Estimation(HPE)은 평면적인 2D 이미지나 좌표(입력)를 받아 인간 관절의 전체 3D 공간 위치(출력)를 예측하는 작업이다. 이는 단순해 보이지만, 두 상태 사이의 수학적 간극은 Depth Ambiguity로 알려진 악명 높은 "일대다(one-to-many)" 매핑 문제이다. 2D 이미지는 깊이 차원을 상실하기 때문에, 하나의 2D 포즈는 이론적으로 여러 3D 포즈를 나타낼 수 있으며, 이는 모델에게 "일대다" 혼란을 야기한다.

이전 연구자들을 가로막았던 핵심 딜레마는 최적화 안정성과 일반화 사이의 상충 관계(trade-off)이다. 딥러닝에서 우리는 작업의 "난이도"를 Loss Landscape, 즉 골짜기가 낮은 오차(최소값)를 나타내는 언덕 지형으로 시각화한다. 모델이 "뾰족한" 최소값(매우 좁고 가파른 골짜기)을 찾으면, 학습 데이터에서는 완벽하게 작동한다. 그러나 카메라 각도나 신체 형태가 조금만 바뀌어도 모델이 지나치게 경직되고 특수한 솔루션에 갇혀 있기 때문에 오차가 급증한다. 반대로 "평탄한" 최소값(넓고 얕은 골짜기)은 변화에 훨씬 강건하지만, 평탄한 영역에서는 기울기(모델에게 학습 방법을 알려주는 신호)가 매우 약하고 정보가 부족하여 찾기가 훨씬 어렵다.

본 논문의 저자들은 이 문제를 해결하기 어렵게 만드는 몇 가지 가혹하고 현실적인 장벽에 부딪혔다:

단절된 지역 최소값(Disconnected Local Minima): 3D HPE의 전역 Loss Landscape는 하나의 매끄러운 그릇 형태가 아니다. 이는 여러 단절된 지역 최소값들이 파편화된 형태이다. 수학적으로 전역 손실을 $L(\theta) = \frac{1}{K} \sum_{k=1}^{K} L_k(\theta)$로 정의할 때, 각 $L_k$는 서로 다른 깊이 모호성을 가진 데이터 하위 집합을 나타내며, 모델은 종종 하나의 하위 골짜기에 "갇히게" 된다. 모든 골짜기의 바닥에서 기울기 $\nabla L(\theta)$는 0이므로, 모델은 자신이 최선의 3D 해석을 찾았는지 아니면 그저 평범한 해석을 찾았는지 알 방법이 없다.
깊이 모호성 비율(DAR) 제약: 모든 포즈가 동일하게 어렵지는 않다. DAR이 높은 포즈는 극도로 가파르고 불안정한 Loss Landscape를 보인다. 이는 모델이 쉬운 포즈를 "암기"하는 쪽으로 자연스럽게 기울어지는 반면, 모호한 포즈의 복잡한 기하학적 구조를 학습하는 데 실패하여 편향되고 취약한 시스템을 만드는 물리적 제약을 생성한다.
계산 효율성 vs 다양성: 이러한 지역 최소값을 극복하기 위해 일반적으로 "앙상블(ensemble)"을 사용한다. 즉, 여러 모델을 학습시켜 평균을 내는 것이다. 그러나 임상 환경이나 실시간 산업 안전 설정에서는 하드웨어 메모리 제한과 엄격한 지연 시간 요구 사항으로 인해 $M$개의 서로 다른 딥러닝 네트워크를 실행하는 것이 불가능한 경우가 많다. 과제는 계산 비용을 $M$배로 늘리지 않으면서 이러한 다양한 솔루션을 탐색하는 방법을 찾는 것이다.
미분 불가능한 구조적 장벽: 단일 2D 포즈에 대한 여러 유효한 3D 해석 사이에는 표준 최적화 알고리즘이 건널 수 없는 높은 손실의 "장벽"이 존재하는 경우가 많다. 이로 인해 단일 모델이 학습 과정에서 나쁜 관점에서 더 나은 관점으로 전환하는 것이 거의 불가능하다.

본 접근 방식의 의의

본 논문 "Flat Loss Landscape 기반의 앙상블을 통한 일반화 가능한 3D Human Pose Estimation"에 대한 분석은 다음과 같다. 이 분야를 처음 접하는 사람도 이해할 수 있도록 설명하고자 한다.

저자들은 CNN, Transformer, Diffusion 모델과 같은 고급 딥러닝 방법조차 3D HPE의 일반화 문제로 고전하고 있음을 발견했다. 일반화란 모델이 학습한 데이터뿐만 아니라 새롭고 보지 못한 데이터에서도 잘 작동하는 것을 의미한다. 핵심 문제는 데이터 부족이나 모델 복잡성이 아니라 Loss Landscape의 형태 그 자체였다. 그들은 이 지형(높이가 모델 예측의 "오류" 정도를 나타내는 언덕 지형)을 시각화하여, 수많은 단절된 지역 최소값이 존재하는 믿을 수 없을 정도로 복잡한 구조임을 발견했다. 이는 경사 하강법과 같은 표준 최적화 기법이 일반화 성능이 낮은 차선책으로 수렴하게 함을 의미한다. 저자들은 단순히 모델을 키우거나 데이터를 늘리는 것만으로는 Loss Landscape의 근본적인 문제를 해결할 수 없음을 깨달았다.

이 방법은 벤치마크에서 단순히 조금 더 나은 수치를 얻는 것에 그치지 않는다. 나쁜 일반화의 근본 원인인 거친 Loss Landscape를 해결하기 때문에 질적으로 우월하다. 전통적인 방법은 하나의 좋은 솔루션을 찾으려 하지만, 본 접근 방식은 지형을 평탄하게(smooth) 만들고 여러 좋은 솔루션을 찾아 결합하려 한다.

구조적인 핵심 이점은 Loss Landscape를 평탄화함으로써 나쁜 지역 최소값에 빠질 가능성을 줄인다는 점이다. 이후 솔루션들의 앙상블은 강건성(robustness)을 제공한다. 노이즈나 특정 시점으로 인해 하나의 솔루션이 약간 어긋나더라도, 다른 솔루션들이 이를 보완할 수 있다. 이는 단일하고 잠재적으로 취약한 솔루션에 집중하는 방법보다 훨씬 개선된 방식이다. 본 논문은 MLP, CNN, GCN, Transformer 등 다양한 모델 아키텍처 전반에서 일관된 성능 향상을 입증함으로써, 특정 모델 선택에 국한되지 않음을 보여준다.

수학적 및 논리적 메커니즘

본 논문의 핵심 아이디어는 모델이 최소화하려는 오차 표면의 형태인 "Loss Landscape"가 3D HPE 모델의 일반화 성능을 결정짓는 주요 요인이라는 점이다. 저자들은 이 지형이 복잡하여 최적화를 방해하고 일반화 성능을 저하시킨다는 점을 발견했다. 그들의 해결책은 이 Loss Landscape를 평탄화하고, 이를 활용하여 성능을 향상시키는 앙상블 솔루션을 생성하는 것이다.

마스터 방정식

단일한 마스터 방정식은 없으나, 접근 방식의 핵심은 3D HPE 모델 학습에 사용되는 표준 손실 함수를 수정하는 데 있다. 핵심 방정식은 수정된 예측 단계이다:

$$ \tilde{y} = \frac{f_o(g(x))}{\sigma(h_\psi(g(x))) + 1} $$

방정식의 분해

각 구성 요소를 살펴보자:

$x$: 입력값 – 일반적으로 2D 포즈 정보(예: 이미지 내 관절 위치). 모델의 출발점이다.
$g(x)$: 신경망의 인코더 부분. 입력 $x$를 받아 고차원 표현으로 변환한다. 입력에서 관련 특징을 추출하는 것으로 이해할 수 있다.
$f_o(g(x))$: 네트워크의 원래 예측 헤드. 인코딩된 표현 $g(x)$를 받아 초기 3D 포즈 추정치 $\hat{y}$를 생성한다.
$h_\psi(g(x))$: 인코딩된 표현 $g(x)$를 받아 스칼라 값을 출력하는 새로운 소형 신경망(파라미터 $\psi$ 포함). 이 값은 예측값을 스케일링하는 데 사용된다.
$\sigma$: ReLU 활성화 함수. 스케일링 인자가 음수가 아님을 보장한다.
$\sigma(h_\psi(g(x))) + 1$: ReLU 출력에 1을 더한다. 이는 분모가 항상 0보다 큼을 보장하여 0으로 나누는 오류를 방지한다.
$\tilde{y}$: 스케일링된 3D 포즈 추정치. 이 단계의 최종 출력물이다.

왜 이러한 형태인가? 저자들은 이 스케일링을 사용하여 Loss Landscape를 효과적으로 "평탄화"한다. 스케일링 인자 $\sigma(h_\psi(g(x))) + 1$은 입력 의존적이며, 입력 $x$에 따라 변화한다. 이를 통해 모델은 더 다양한 함수를 표현하고 뾰족하고 좁은 골짜기에 갇히는 것을 피할 수 있다. 1을 더하는 것은 수치적 안정성을 위한 간단한 트릭이다. 곱셈 대신 나눗셈을 사용하는 이유는 나눗셈이 더 유연한 스케일링 효과를 제공하여 큰 기울기의 영향을 효과적으로 줄일 수 있기 때문이다.

단계별 흐름

단일 데이터 포인트(2D 포즈)가 시스템에 들어오는 과정을 상상해 보자:

2D 포즈($x$)가 인코더($g(x)$)에 입력되어 특징이 추출된다.
이 특징들은 원래 예측 헤드($f_o$)에 입력되어 초기 3D 포즈 추정치를 생성한다.
동시에, 특징들은 스케일링 네트워크($h_\psi$)에 입력되어 스칼라 값을 출력한다.
이 스칼라 값은 ReLU 활성화 함수를 통과한 후 1이 더해진다.
초기 3D 포즈 추정치를 이 스케일링된 값으로 나누어, 최종 조정된 3D 포즈 추정치($\tilde{y}$)를 얻는다.
이 조정된 추정치를 Ground Truth 3D 포즈와 비교하여 손실을 계산한다.

이 과정은 많은 데이터 포인트에 대해 반복되며, 모델은 손실을 최소화하기 위해 스케일링 인자를 조정하는 법을 학습한다.

최적화 역학

모델은 표준 경사 하강법(또는 Adam과 같은 변형)을 사용하여 학습된다. 핵심은 Adaptive Scaling Mechanism이 Loss Landscape의 형태를 변화시킨다는 점이다. 가파른 절벽과 좁은 골짜기가 있는 지형 대신, 더 매끄럽고 완만하게 굴곡진 지형이 된다. 이는 최적화 도구가 좋은 솔루션을 찾고 차선책인 지역 최소값에 갇히는 것을 피하기 쉽게 만든다.

저자들은 또한 앙상블 접근 방식을 사용한다. 모두 Adaptive Scaling Mechanism을 사용하는, 서로 다른 무작위 초기화를 가진 여러 모델을 학습시킨다. 지형이 더 매끄럽기 때문에, 이 서로 다른 모델들은 서로 다르지만 여전히 좋은 솔루션으로 수렴할 가능성이 높다. 최종 예측은 이 여러 모델의 예측값을 평균 낸 것이다.

결과, 한계 및 결론

본 논문은 3D HPE에서의 일반화 문제를 다룬다. 핵심 아이디어는 3D HPE의 Loss Landscape가 복잡하여 최적화를 방해하고 일반화 성능을 저하시킨다는 점이다. 저자들은 Adaptive Scaling Mechanism을 사용하여 이 지형을 평탄화하고, 이를 활용하여 성능을 향상시키는 앙상블 솔루션을 생성하는 방법을 제안한다.

배경 및 동기

3D HPE는 자율주행, 로봇 공학, 산업 안전 분야에서 응용되는 컴퓨터 비전의 핵심 작업이다. 도전 과제는 일반화를 달성하는 것, 즉 모델이 새롭고 보지 못한 데이터에서 잘 작동하게 하는 것이다. 전통적인 접근 방식은 모델 아키텍처 개선이나 데이터 증강에 집중하지만, 저자들은 Loss Landscape의 형태 자체가 중요하면서도 충분히 연구되지 않은 요소라고 주장한다.

그들은 Loss Landscape를 시각화하여, 수많은 단절된 지역 최소값이 존재하는 매우 복잡한 구조임을 발견했다. 이는 표준 최적화 기법이 일반화 성능이 낮은 차선책으로 수렴하게 함을 의미한다.

문제 및 제약 조건

저자들은 3D HPE의 Loss Landscape가 매우 복잡하며 많은 지역 최소값을 가진다고 식별한다. 이러한 복잡성은 2D 이미지에서 3D 포즈를 추정할 때 발생하는 내재적 모호성에서 기인한다. 하나의 2D 이미지는 여러 3D 포즈를 나타낼 수 있다. 이러한 모호성은 모델이 가장 가능성 높은 깊이를 "추측"해야 하는 수학적 공백을 만들며, 환경이나 피사체의 자세가 조금만 바뀌어도 오류를 발생시킨다.

제약 조건은 "평탄한 최소값(넓고 얕은 골짜기)"을 직접 최적화하는 것이 계산적으로 비싸다는 점이다. Sharpness-Aware Minimization(SAM)과 같은 방법이 이를 시도하지만 추가적인 계산을 요구한다. 저자들은 더 효율적인 접근 방식을 지향한다.

솔루션의 수학적 해석

핵심은 네트워크 출력에 적용되는 Adaptive Scaling Mechanism이다. 핵심 방정식은 다음과 같다:

$$ \tilde{y} = \frac{f_o(g(x))}{\sigma(h_\psi(g(x))) + 1} $$

저자들은 이 스케일링이 지형을 평탄화하여 뾰족한 골짜기에 갇힐 가능성을 줄인다고 주장한다. 스케일링 인자는 입력 의존적이어서 입력에 따라 변화하며, 모델이 더 다양한 함수를 표현할 수 있게 한다. 또한 앙상블 접근 방식을 통해 여러 모델의 예측값을 평균 내어 최종 결과를 도출한다.

실험적 검증 및 증거

저자들은 여러 벤치마크 데이터셋(Human3.6M, 3DHP, 3DPW, BEDLAM)에서 다양한 네트워크 아키텍처(MLP, CNN, GCN, Transformer)를 사용하여 광범위한 실험을 수행했다. 그들은 모든 아키텍처에서 일관된 성능 향상을 입증했다.

핵심 메커니즘이 작동한다는 증거는 다각적이다:

Loss Landscape 시각화: Adaptive Scaling Mechanism 적용 전후의 지형을 시각화하여 평탄화 효과를 확인했다.
Top-1 고유값 분석: Hessian 행렬의 Top-1 고유값을 계산했다. 낮은 고유값은 더 평탄한 지형을 의미하며, Adaptive Scaling Mechanism이 이를 감소시킴을 보였다.
교차 데이터셋 평가: 한 데이터셋으로 학습하고 다른 데이터셋으로 테스트하여 일반화 성능을 강력하게 검증했다.
노이즈에 대한 강건성: 입력 노이즈에 대해 본 방법이 더 강건함을 입증했다.

토론 주제 및 향후 방향

이론적 이해: Adaptive Scaling Mechanism이 왜 작동하는지에 대한 더 엄밀한 이론적 이해가 필요하다.
스케일링 네트워크 아키텍처: 더 정교한 아키텍처가 스케일링 과정을 개선할 수 있을 것인가?
동적 앙상블 크기: 학습 중에 앙상블 크기를 동적으로 조정할 수 있을 것인가?
베이지안 방법과의 관계: 본 방법과 베이지안 추론 간의 연결 고리를 탐구하면 새로운 통찰을 얻을 수 있을 것이다.
타 도메인으로의 적용: 본 접근 방식을 다른 머신러닝 작업에 적용할 수 있을 것인가?

결론적으로, 본 논문은 3D HPE의 일반화 성능을 향상시키는 새롭고 유망한 접근 방식을 제시한다. Adaptive Scaling Mechanism과 앙상블 전략은 논리적 근거가 충분하고 경험적으로 검증되었으며, 기존 방법들에 대한 계산 효율적인 대안을 제공한다. 이는 해당 분야에 대한 견고한 기여이며 향후 연구를 위한 흥미로운 길을 열어준다.