milliMamba: Оценка позы человека с учетом зеркальных отражений с использованием двойного mmWave радара и многокадровой фузии Mamba
Предпосылки и академическая родословная
Происхождение и академическая родословная
Задача оценки позы человека (Human Pose Estimation, HPE) имеет долгую и богатую историю, традиционно доминируемую методами, использующими RGB-камеры. Однако точное происхождение конкретной задачи — оценки позы человека с использованием миллиметрового (mmWave) радара — возникло из критической необходимости преодолеть присущие ограничения этих традиционных систем на основе камер.
Исторический контекст:
RGB-камеры, хотя и способны предоставлять визуальные данные высокой точности, имеют существенные недостатки во многих сценариях реального мира. Они по своей природе чувствительны к условиям освещения, плохо работают в темноте, при бликах или в затененных условиях. Что более важно, они вызывают серьезные опасения по поводу конфиденциальности, поскольку захватывают визуально идентифицируемые изображения людей. Это делает их непригодными для развертывания в конфиденциальных зонах, таких как дома, больницы или учреждения по уходу за пожилыми людьми, где конфиденциальность имеет первостепенное значение. Поиск альтернативы, сохраняющей конфиденциальность и устойчивой к условиям окружающей среды, стимулировал исследования других модальностей зондирования. Миллиметровый радар, который работает путем излучения и обнаружения радиоволн, предложил убедительное решение. Он может "видеть" сквозь темноту, дым и даже некоторые неметаллические объекты, и, что крайне важно, он не захватывает визуально идентифицируемые изображения людей, тем самым сохраняя конфиденциальность. Эта уникальная комбинация характеристик привела к развитию HPE на основе mmWave радара как отдельной и быстро развивающейся области.
Фундаментальное ограничение предыдущих подходов:
Несмотря на свои убедительные преимущества, HPE на основе mmWave радара имеет свой собственный набор существенных "болевых точек", с которыми предыдущие подходы боролись. Основное ограничение вытекает из зеркальной природы радарного зондирования. В отличие от камер, которые фиксируют текстуры поверхности и цвета, радарные сигналы часто отражаются от гладких поверхностей тела под определенными углами, подобно тому, как свет отражается от зеркала. Это означает, что только те части тела, которые непосредственно ориентированы на радарный датчик, отражают сигналы обратно, что приводит к разреженным и неполным наблюдениям. Мелкие или косоориентированные суставы, такие как пальцы или локти, часто полностью упускаются из виду. Это делает чрезвычайно сложным восстановление позы всего тела по радарным входным данным одного кадра.
Кроме того, предыдущие методы, особенно основанные на архитектурах Transformer, столкнулись с критической проблемой масштабируемости. Обработка длинных последовательностей радарных данных, которая необходима для захвата временного контекста и вывода недостающих суставов, приводила к большим объемам токенов и квадратичной вычислительной сложности. Это выражалось в непомерно высоком использовании памяти и времени обучения, делая приложения реального времени непрактичными. Некоторые попытки смягчить это включали "раннюю временную фузию", где временная информация схлопывалась слишком рано в конвейере обработки. Однако эта преждевременная фузия часто компрометировала способность модели использовать контекстные сигналы из соседних кадров для эффективного восстановления тех неуловимых, недостающих суставов, вызванных зеркальными отражениями. **** Авторы этой статьи стремились устранить эти фундаментальные ограничения, разработав фреймворк, который мог бы эффективно моделировать пространственно-временные зависимости в более длинных последовательностях без ущерба для способности выводить недостающие суставы.
Интуитивные термины предметной области
-
Миллиметровый (mmWave) радар: Представьте себе летучую мышь, использующую очень высокие писки (звуковые волны), чтобы "видеть" свое окружение в темноте. mmWave радар делает нечто подобное, но с крошечными радиоволнами вместо звука, что позволяет ему обнаруживать объекты и даже тонкие движения без необходимости света или камер. Это похоже на сверхчувствительные, невидимые глаза, которые работают в любых условиях, обеспечивая дружественный к конфиденциальности способ зондирования.
-
Оценка позы человека (HPE): Представьте себе кукловода, пытающегося выяснить, где прикреплены все нити к телу куклы, просто наблюдая за ее движениями. HPE похожа на это, но для реальных людей, пытаясь точно определить местоположение их суставов (таких как локти, колени и плечи), чтобы понять их осанку и движения.
-
Зеркальное отражение: Представьте, что вы светите лазерной указкой на идеально гладкий, блестящий пол. Свет отскакивает в одном четком, предсказуемом направлении, как бильярдный шар. Если пол неровный, свет рассеивается повсюду. Зеркальное отражение в радаре означает, что сигнал отражается обратно к датчику только в том случае, если часть тела идеально ориентирована, делая другие части "невидимыми" или трудно обнаруживаемыми, подобно тому, как зеркало отражает свет от вас.
-
Mamba (Модели пространства состояний - SSM): Представьте, что вы пытаетесь прочитать очень длинную книгу. Традиционный метод (например, Transformer) похож на то, как вам приходится перечитывать каждое слово с самого начала каждый раз, когда вы встречаете новое слово, чтобы понять его контекст — очень медленный процесс для длинных книг. Модель Mamba похожа на очень эффективную кратковременную память, которая быстро обобщает то, что вы прочитали до сих пор, позволяя вам понимать новые слова в контексте, не перечитывая всю книгу каждый раз. Это намного быстрее для длинных историй.
-
Тепловая карта (при обработке радара): Представьте себе карту погоды, показывающую температуру. Красные области горячие, синие — холодные. Радарная тепловая карта похожа, но вместо температуры она показывает, где радар "видит" что-то. Более яркие пятна на карте означают более сильное радарное отражение, указывая на более высокую вероятность нахождения части тела в определенном месте (дальность, угол) или движения с определенной скоростью (Допплер).
Таблица обозначений
| Обозначение | Описание 1. Raw complex-valued mmWave radar signals from two orthogonally mounted sensors. |
| $T$ | Number of consecutive frames in the input sequence. |
| $L$ | Total loss function to be minimized during training. |
| $L_{oks}$ | Object Keypoint Similarity (OKS) loss, penalizing pose prediction inaccuracies. |
| $\lambda_{vel}$ | Weighting factor for the velocity loss. |
| $L_{vel}$ | Velocity loss, penalizing temporal inconsistencies in predicted joint movements. |
| $v_{f,j}$ | Predicted velocity of joint $j$ at frame $f$. |
| $\hat{v}_{f,j}$ | Ground-truth velocity of joint $j$ at frame $f$. |
| $J$ | Total number of human body joints being estimated. |
| $f$ | Frame index. |
| $j$ | Joint index. |
| $h_t$ | Hidden state vector of the Mamba SSM at time step $t$. |
| $u_t$ | Input token (feature vector) to the Mamba SSM at time step $t$. |
| $y_t$ | Output token (feature vector) from the Mamba SSM at time step $t$. |
| $A, B, C, D$ | Learnable parameter matrices of the Mamba SSM. |
| $q_{f,j}$ | Learnable keypoint query for joint $j$ in frame $f$. |
| $SA(\cdot)$ | Spatial Attention function. |
| $TA(\cdot)$ | Temporal Attention function. |
| $CrossAttn(\cdot)$ | Cross-Attention function. |
| $Q, K, V$ | Query, Key, and Value matrices/vectors in attention mechanisms. |
| $d$ | Dimension of key vectors in attention, used for scaling. |
| $F_h, F_v$ | Feature maps extracted from horizontal and vertical radar views. |
| $F'$ | Rich, context-aware feature representation from the CVMamba encoder. |
Определение проблемы и ограничения
Основная постановка задачи и дилемма
Основная проблема, которую рассматривает данная статья, — это 2D оценка позы человека (HPE) с использованием миллиметровых (mmWave) радарных сигналов. Это сложная задача, особенно по сравнению с традиционными методами на основе RGB-камер.
Входные данные / Текущее состояние: Отправной точкой для этого анализа являются необработанные mmWave радарные сигналы, в частности, комплексные кубы $X \in C^{12 \times 128 \times 256}$ от двух ортогонально установленных радарных датчиков (горизонтальный и вертикальный виды). Эти сигналы захватываются в течение последовательности из $T$ последовательных кадров. Текущее состояние этих сигналов проблематично:
* Они по своей природе разрежены из-за зеркального отражения, что означает, что обнаруживаются только те части тела, которые отражают сигналы непосредственно обратно к приемнику. Это часто приводит к пропущенным суставам, особенно мелким или косоориентированным.
* Отражения от конечностей (таких как запястья и лодыжки) часто слабые, что затрудняет их надежное обнаружение.
* Сигналы подвержены колебаниям, нарушающим временную согласованность, и их точность сильно зависит от ориентации объекта и размещения датчика.
* Предыдущие методы, особенно основанные на Transformers, сталкиваются с высокой размерностью и большими объемами токенов многокадровых радарных входных данных, что приводит к вычислительным узким местам и ограничениям памяти. Многие предыдущие подходы также моделируют пространственно-временные зависимости лишь частично или полагаются на раннюю временную фузию, что компрометирует способность восстанавливать недостающие суставы.
Желаемый конечный результат (выходные данные / целевое состояние): Конечная цель — получить временно согласованные 2D позы человека из этих сложных двухмерных mmWave радарных сигналов. Это означает:
* Точное предсказание 2D координат суставов человека в нескольких кадрах.
* Надежный вывод недостающих суставов, которые скрыты зеркальными отражениями или слабыми сигналами.
* Использование контекстных сигналов из соседних кадров для улучшения общей точности позы и обеспечения плавности движения.
* Достижение передовых результатов (например, значительное улучшение Average Precision, AP) по сравнению с существующими методами, при сохранении разумной вычислительной сложности и использования памяти.
Связующее звено или математический пробел: Точным недостающим звеном является надежный и эффективный механизм для совместного моделирования дальних пространственно-временных зависимостей как на этапах извлечения признаков (кодирования), так и на этапах предсказания позы (декодирования) конвейера HPE. Этот механизм должен эффективно объединять информацию из двух радарных видов и нескольких кадров для вывода недостающих суставов и обеспечения временной согласованности, преодолевая при этом запретительные вычислительные затраты и ограничения по памяти, связанные с обработкой высокоразмерных, многокадровых радарных данных с использованием традиционных методов, таких как Transformers. Статья направлена на устранение этого пробела путем введения архитектуры на основе Mamba, которая обеспечивает линейную сложность для моделирования последовательностей.
Болезненный компромисс или дилемма: Центральная дилемма, которая поставила в тупик предыдущих исследователей, — это компромисс между использованием богатого пространственно-временного контекста для точности и поддержанием вычислительной эффективности.
* Для точного вывода недостающих суставов и обеспечения плавного движения моделям необходимо обрабатывать более длинные последовательности радарных кадров и интегрировать информацию как по пространственным, так и по временным измерениям. Это требует архитектур, способных моделировать дальние зависимости.
* Однако традиционные мощные модели, такие как Transformers, которые преуспевают в захвате глобальных зависимостей, страдают от квадратичной вычислительной сложности по отношению к длине последовательности. Это приводит к экспоненциально более высокому потреблению памяти и времени вычислений с увеличением количества входных кадров.
* Эта дилемма часто заставляет предыдущие методы либо: (1) обрабатывать более короткие последовательности, тем самым теряя ценный временной контекст, необходимый для надежной оценки позы, либо (2) схлопывать временное измерение на ранних этапах конвейера обработки, что серьезно компрометирует способность модели восстанавливать недостающие суставы, вызванные зеркальными отражениями. Авторы явно заявляют, что "улучшение одного аспекта обычно нарушает другой", и именно это происходит здесь: более высокий временной контекст для точности часто приводит к неуправляемым вычислительным затратам.
Ограничения и режимы отказа
Проблема HPE на основе mmWave радара чрезвычайно сложна из-за нескольких суровых, реалистичных ограничений:
Физические ограничения:
* Зеркальное отражение: Это фундаментальное ограничение радара. Сигналы отражаются от поверхностей, как от зеркал, что приводит к разреженным наблюдениям, где видны только определенные части тела, а другие (особенно мелкие или косоориентированные суставы) полностью отсутствуют. Это делает реконструкцию позы всего тела по входным данным одного кадра чрезвычайно сложной.
* Слабые отражения от конечностей: Конечности и суставы, такие как запястья и лодыжки, часто дают очень слабые радарные отражения, что затрудняет их точное обнаружение и отслеживание. Это способствует разреженности и неполноте данных.
* Чувствительность к ориентации объекта и размещению датчика: Качество и полнота радарных сигналов сильно зависят от ориентации объекта относительно радарных датчиков и их размещения. Небольшие изменения могут существенно повлиять на точность оценки.
* Ограниченное разрешение по высоте: mmWave радарные датчики по своей природе имеют ограниченное разрешение по высоте, что затрудняет различение объектов на разных высотах. Это требует использования нескольких радарных установок (таких как используемая здесь двойная радарная система) для компенсации.
Вычислительные ограничения:
* Высокая размерность радарных входных данных: Необработанные mmWave радарные данные по своей природе имеют высокую размерность (например, кубы $C^{12 \times 128 \times 256}$ на кадр). При обработке последовательностей из нескольких кадров общий объем данных становится огромным.
* Квадратичная сложность предыдущих моделей (Transformers): Существующие передовые модели, такие как Transformers, хотя и мощные, имеют вычислительную сложность, которая квадратично масштабируется с длиной входной последовательности. Это означает, что даже небольшое увеличение количества входных кадров ($T$) приводит к непропорционально большому увеличению требований к вычислениям и памяти. Например, в статье отмечается, что Transformers "исчерпывают память на нашем оборудовании при обучении с более длинными последовательностями" (Таблица 8, стр. 7).
* Ограничения памяти оборудования: Огромный объем данных и квадратичная сложность моделей быстро достигают пределов памяти оборудования, делая непрактичным обучение моделей с достаточно длинными временными последовательностями на стандартных GPU (например, упомянутый в статье GPU NVIDIA Tesla V100). Традиционная генерация 4D тепловых карт, например, требует на 11x больше памяти, чем подход 3D FFT (Рисунок 4(c), стр. 5). *
* *Требования к задержке в реальном времени (неявные): Хотя это явно не указано как строгое ограничение реального времени, необходимость "эффективной" обработки и "снижения накладных расходов на предварительную обработку" (Введение, стр. 2) подразумевает, что решения должны работать в пределах практических пределов задержки для потенциальных приложений реального мира. Сравнение 4D и 3D FFT также подчеркивает значительное сокращение задержки на 8,6x с 3D подходом.
Ограничения, связанные с данными:
* Неполные наблюдения: Как прямое следствие физических ограничений, входные радарные данные часто предоставляют неполные наблюдения человеческого тела, что затрудняет реконструкцию полной позы без сильных контекстных сигналов.
* Временная несогласованность: Колебания радарных сигналов могут приводить к несогласованным обнаружениям суставов между кадрами, что затрудняет обеспечение плавных и физически правдоподобных последовательностей поз без явного временного моделирования.
* Разреженность данных: Помимо недостающих суставов, общий радарный сигнал может быть разреженным, что делает извлечение надежных признаков значительной проблемой. Это требует моделей, которые могут эффективно учиться на ограниченной и зашумленной информации.
Почему такой подход
Неизбежность выбора
Принятие архитектуры Mamba для кодировщика в milliMamba было не просто дизайнерским предпочтением, а необходимостью, обусловленной присущими проблемами оценки позы человека (HPE) на основе миллиметрового (mmWave) радара. Авторы явно определили момент, когда традиционные передовые (SOTA) методы, особенно Transformers, стали недостаточными: при работе с "большими объемами токенов, присущими более длинным радарным последовательностям". Предыдущие подходы на основе Transformer, хотя и способны моделировать глобальные зависимости и объединять многорадарные признаки, страдали от "квадратичной сложности" с точки зрения вычислительных затрат, использования памяти и времени обучения. Это квадратичное масштабирование делало их непрактичными для обработки расширенных временных контекстов, критически важных для надежной радарной HPE.
Основная проблема в mmWave радарной HPE — это разреженность сигналов из-за зеркальных отражений, приводящая к неполным наблюдениям и недостающим суставам. Для преодоления этого крайне важно использовать пространственно-временные зависимости в нескольких кадрах. Однако увеличение количества входных кадров ($T$) напрямую усугубляет вычислительную нагрузку для Transformers, быстро приводя к проблемам нехватки памяти, как показано в Таблице 8, где Transformers могли обрабатывать только $T=3$ кадра, прежде чем исчерпать память. Линейная сложность Mamba по длине последовательности ($O(N)$) для захвата дальних зависимостей предлагала единственный жизнеспособный путь к эффективному моделированию этих критически важных более длинных временных последовательностей без непомерных вычислительных затрат. Это структурное преимущество сделало Mamba единственным жизнеспособным решением для достижения всестороннего пространственно-временного моделирования в течение расширенных последовательностей.
Сравнительное превосходство
Подход milliMamba демонстрирует качественное превосходство, выходящее за рамки простых метрик производительности, в основном благодаря выбору архитектурного дизайна, который напрямую устраняет ограничения предыдущих методов.
- Линейная сложность для длинных последовательностей: Наиболее значительным структурным преимуществом является способность кодировщика Mamba обрабатывать более длинные радарные последовательности с линейной сложностью, в отличие от квадратичной сложности Transformers. Это позволяет milliMamba использовать более богатый временной контекст (например, $T=9$ кадров по умолчанию и до $T=15$ кадров в экспериментах), что критически важно для вывода недостающих суставов, вызванных зеркальными отражениями, и обеспечения плавности движения. Это напрямую приводит к лучшему управлению высокоразмерным шумом и разреженными данными во времени. Таблица 8 наглядно демонстрирует это, показывая, что Mamba достигает сопоставимой или лучшей точности, чем Transformers, даже при $T=3$, в то время как Transformers не масштабируются до более длинных последовательностей из-за ограничений памяти.
- Эффективная предварительная обработка: Переход от вычислительно дорогостоящих 4D тепловых карт к 3D тепловым картам на основе FFT для предварительной обработки радарных сигналов является еще одним ключевым структурным преимуществом. Это изменение снижает использование памяти в 11 раз и задержку в 8,6 раза (Рисунок 4c). Этот прирост эффективности — не просто скорость; он смягчает "взрыв количества токенов", делая высокоразмерные радарные данные более управляемыми для последующего моделирования и позволяя использовать более длинные временные последовательности, которые иначе были бы невозможны.
- Улучшенное моделирование пространственно-временного контекста: Кодировщик Cross-View Fusion Mamba (CV-Mamba) разработан для эффективного объединения двух радарных входных данных и захвата дальних пространственно-временных зависимостей. Это дополняется декодером Spatio-Temporal-Cross Attention (STCA), который выполняет многокадровое предсказание позы. В отличие от предыдущих методов, которые часто преждевременно схлопывают временные измерения или предсказывают отдельные кадры, STCA интегрирует как пространственное, так и временное внимание, позволяя ему одновременно моделировать пространственные отношения в каждом кадре и временные зависимости между кадрами. Это более богатое контекстное моделирование имеет решающее значение для вывода недостающих суставов и обеспечения согласованности движения, делая модель более устойчивой к присущей разреженности и колебаниям радарных данных. ****
Соответствие ограничениям
Выбранный метод, milliMamba, идеально соответствует суровым требованиям HPE на основе mmWave радара, образуя "брак" между проблемой и решением:
- Сохранение конфиденциальности и инвариантность к освещению: Фреймворк по своей сути использует mmWave радар, который является датчиком, сохраняющим конфиденциальность и инвариантным к освещению, тем самым удовлетворяя эти фундаментальные требования предметной области.
- Устойчивость к разреженным сигналам и зеркальным отражениям: Основная проблема заключается в неполных наблюдениях из-за зеркальных отражений. milliMamba решает эту проблему с помощью комплексного конвейера пространственно-временного моделирования. Кодировщик CV-Mamba и декодер STCA совместно используют контекстные сигналы из соседних кадров и видов для вывода недостающих суставов. Декодер STCA, в частности, "смягчает последствия недостающих суставов от зеркальных отражений", интегрируя пространственное и временное внимание.
- Обработка высокоразмерных радарных входных данных: mmWave радарные входные данные имеют высокую размерность. Этап предварительной обработки 3D FFT эффективно преобразует необработанные радарные сигналы в 3D тепловые карты, значительно снижая накладные расходы на предварительную обработку и количество токенов по сравнению с традиционными 4D подходами. Это делает высокоразмерные данные управляемыми для последующего кодировщика на основе Mamba.
- Эффективная обработка более длинных последовательностей: Необходимость более длинных временных последовательностей для захвата движения и контекста имеет решающее значение, но традиционные Transformers страдают от квадратичной сложности. Линейная сложность кодировщика Mamba напрямую решает эту проблему, позволяя модели эффективно обрабатывать расширенные последовательности и захватывать дальние пространственно-временные зависимости, что жизненно важно для точной оценки позы в динамических сценариях.
- Многокадровое предсказание позы и временная согласованность: Задача требует использования временного контекста. Декодер STCA с его стратегией предсказания "многие-ко-многим", предсказывающий позы для нескольких кадров одновременно, обеспечивает "более богатое обучение по временным шагам" и обеспечивает согласованность движения через временное внимание (Уравнение 4: $q_{j, \cdot}^{''} = TA(q_{j, \cdot}^{'}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j$). Это напрямую решает задачу получения временно согласованных последовательностей поз.
- Фузия входных данных с двух радаров: Фреймворк разработан для двух mmWave радарных входов (горизонтальный и вертикальный виды). Кодировщик Cross-View Fusion Mamba специально адаптирован для "эффективной фузии двух радарных входов по кадрам", напрямую решая задачу объединения информации из нескольких датчиков для преодоления ограничений, таких как ограниченное разрешение по высоте.
Отклонение альтернатив
Статья предоставляет четкое обоснование отклонения нескольких популярных альтернативных подходов:
- Transformers для кодировщика: Основная причина отклонения Transformers для основной задачи кодирования заключалась в их "квадратичной сложности" по отношению к длине последовательности. Как указано в Разделе 1 и Разделе 2.1, это приводит к "высоким вычислительным затратам, особенно с точки зрения использования памяти и времени обучения", что делает их непригодными для обработки "больших объемов токенов, присущих более длинным радарным последовательностям", необходимым для надежной радарной HPE. Таблица 8 наглядно демонстрирует это, показывая, что кодировщик Transformer исчерпывает память при попытке использовать более длинные последовательности (более $T=3$ кадров), в то время как Mamba эффективно масштабируется.
- Ранняя временная фузия: Некоторые предыдущие методы на основе Transformer пытались смягчить сложность путем "схлопывания временного измерения на ранних этапах". Однако авторы утверждают, что "такая ранняя фузия может компрометировать способность модели восстанавливать недостающие суставы, вызванные зеркальными отражениями". milliMamba избегает этого, поддерживая пространственно-временное моделирование на этапах кодирования и декодирования, обеспечивая более богатый контекст для вывода.
- Предварительная обработка 4D тепловых карт: Традиционный подход к 4D тепловым картам [25] был отклонен из-за его "вычислительной дороговизны" и "взрыва количества токенов". В статье показано, что 3D FFT тепловые карты "гораздо более эффективны, сокращая использование памяти в 11 раз и задержку в 8,6 раза" (Рисунок 4c), достигая сопоставимой или лучшей точности (Таблица 4). Это делает 3D FFT превосходной альтернативой для предварительной обработки.
- Декодирование от множества кадров к одному кадру: Большинство предыдущих методов HPE на основе радара используют стратегию предсказания "многие-к-одному". Декодер STCA milliMamba "многие-ко-многим", который предсказывает несколько кадров одновременно, был выбран, потому что он предлагает "более богатое обучение по временным шагам" и "лучше выводит недостающие суставы, используя контекстные сигналы из соседних кадров и суставов" (Раздел 1, Таблица 5). Это качественное преимущество привело к улучшению AP на 4,1 по сравнению с упрощенным вариантом "многие-к-одному".
- Методы на основе CNN: Хотя CNN эффективны для захвата "пространственных признаков разных масштабов и краткосрочных временных признаков", они "часто ограничены в своей способности объединять информацию из нескольких радарных датчиков" (Раздел 2.1). Учитывая двухмерный радарный вход milliMamba и дизайн фузии перекрестных видов, CNN не были бы столь эффективны в интеграции информации из разных радарных видов.
Figure 1. Our milliMamba performs spatio-temporal modeling across both the feature extraction and decoding stages, addressing a key limitation of TransHuPR [12], which models these dependencies only partially. This is made possible by milliMamba’s ability to process a larger number of tokens with a comparable memory footprint, enabling richer temporal context and more accurate pose estimation
Математический и логический механизм
Мастер-уравнение
Основной процесс обучения milliMamba управляется комбинированной функцией потерь, которая направлена на достижение как точной оценки позы, так и временной согласованности. Это мастер-уравнение направляет модель во время обучения для уточнения своих внутренних параметров. Оно определяется как:
$$ L = L_{oks} + \lambda_{vel} L_{vel} $$
Хотя эта общая функция потерь определяет цель обучения, фактический "двигатель", который производит оцениваемые им оценки позы, опирается на два фундаментальных механизма: модель пространства состояний (SSM) в кодировщике Mamba и механизмы внимания в декодере STCA.
Последовательная обработка кодировщика Mamba управляется уравнением обновления скрытого состояния для каждого слоя SSM:
$$ h_{t+1} = A h_t + B u_t \\ y_t = C h_t + D u_t $$
А декодер STCA уточняет запросы ключевых точек с использованием механизмов внимания, в частности пространственного внимания (SA), временного внимания (TA) и перекрестного внимания (CrossAttn). Операции самовнимания для пространственных и временных аспектов:
$$ q_{f,.}^{'} = SA(q_{f,.}) = \text{softmax}(Q_f K_f^T / \sqrt{d}) V_f \\ q_{.,j}^{''} = TA(q_{.,j}) = \text{softmax}(Q_j K_j^T / \sqrt{d}) V_j $$
Наконец, механизм перекрестного внимания интегрирует признаки кодировщика:
$$ q_{f,j}^{'''} = \text{CrossAttn}(q_{f,j}^{''}, F') $$
Потерменная аутопсия
Давайте разберем эти уравнения, чтобы понять роль каждого компонента:
Общая цель обучения: $L = L_{oks} + \lambda_{vel} L_{vel}$
- $L$: Это общая функция потерь, которую модель milliMamba стремится минимизировать во время обучения. Она представляет собой общую ошибку между предсказаниями модели и истинными данными, охватывая как точность позы, так и временную согласованность.
- $L_{oks}$: Этот член означает потерю сходства ключевых точек объекта (Object Keypoint Similarity).
- Математическое определение: Это метрика, которая измеряет сходство между предсказанными и истинными ключевыми точками, учитывая масштаб объекта и дисперсию аннотаций ключевых точек. Обычно это значение от 0 до 1, где 1 означает идеальное сходство. Функция потерь обычно преобразует это в значение, которое нужно минимизировать (например, $1 - OKS$).
- Физическая/логическая роль: Это основной член для обеспечения точности предсказанных поз человека. Он напрямую наказывает расхождения в местоположении отдельных суставов тела (например, головы, локтя, колена) между выходом модели и фактической позой человека.
- Почему сложение? Сложение используется здесь, потому что $L_{oks}$ и $L_{vel}$ представляют собой различные типы ошибок (точность позы и временная согласованность, соответственно), которые модель должна минимизировать одновременно. Их сложение создает составную цель, где улучшение любого компонента способствует снижению общей потери.
- $\lambda_{vel}$: Это скалярный коэффициент взвешивания для потерь скорости.
- Математическое определение: Гиперпараметр, обычно положительное действительное число (например, 0,05, как указано в статье).
- Физическая/логическая роль: Этот коэффициент балансирует важность точности позы ($L_{oks}$) против временной согласованности ($L_{vel}$). Более высокое $\lambda_{vel}$ заставит модель отдавать приоритет более плавным движениям, возможно, за счет небольшой точности на кадр, в то время как более низкое значение будет подчеркивать точность на кадр. Это ручка для настройки компромисса.
- $L_{vel}$: Этот член представляет собой потерю скорости, определяемую Уравнением (6).
- Математическое определение: Это квадрат нормы L2 разницы между предсказанными скоростями суставов и истинными скоростями суставов, усредненный по всем кадрам и суставам.
- Физическая/логическая роль: Этот член действует как механизм регуляризации для обеспечения временной плавности предсказанных последовательностей поз. Он препятствует резким, дерганым движениям в оцениваемых позах, которые часто являются артефактами шума или неполных радарных данных. Наказывая большие изменения в положениях суставов между последовательными кадрами, он способствует более реалистичным и физически правдоподобным траекториям движения.
Уравнение потерь скорости (6): $L_{vel} = \frac{1}{(T-1)J} \sum_{f=1}^{T-1} \sum_{j=1}^{J} ||v_{f,j} - \hat{v}_{f,j}||_2^2$
- $T$: Общее количество кадров во входной последовательности (например, 9 кадров).
- Математическое определение: Целое число, представляющее длину временной последовательности.
- Физическая/логическая роль: Определяет временное окно, в котором обеспечивается согласованность. Потеря рассчитывается для $T-1$ векторов скорости, поскольку скорость вычисляется из двух последовательных положений.
- $J$: Общее количество оцениваемых суставов человеческого тела (например, 14 ключевых точек).
- Математическое определение: Целое число, представляющее количество отдельных ключевых точек.
- Физическая/логическая роль: Указывает, сколько отдельных суставов вносят вклад в общую потерю скорости.
- $f$: Индекс, итерирующий по кадрам от 1 до $T-1$.
- Математическое определение: Целочисленная переменная цикла.
- Физическая/логическая роль: Представляет определенный временной шаг в последовательности.
- $j$: Индекс, итерирующий по суставам от 1 до $J$.
- Математическое определение: Целочисленная переменная цикла.
- Физическая/логическая роль: Представляет определенный сустав тела (например, голову, локоть).
- $v_{f,j}$: Предсказанная скорость сустава $j$ в кадре $f$.
- Математическое определение: Вектор, представляющий разницу между предсказанным положением сустава $j$ в кадре $f+1$ и его предсказанным положением в кадре $f$ ($P_{f+1,j} - P_{f,j}$).
- Физическая/логическая роль: Это оценка моделью того, насколько быстро и в каком направлении движется конкретный сустав между двумя последовательными кадрами.
- $\hat{v}_{f,j}$: Истинная скорость сустава $j$ в кадре $f$.
- Математическое определение: Вектор, представляющий разницу между истинным положением сустава $j$ в кадре $f+1$ и его истинным положением в кадре $f$ ($\hat{P}_{f+1,j} - \hat{P}_{f,j}$).
- Физическая/логическая роль: Это истинная, желаемая скорость сустава, полученная из аннотированных данных. Модель пытается соответствовать этому.
- $||\cdot||_2^2$: Квадрат нормы L2 (квадрат евклидова расстояния).
- Математическое определение: Для вектора $x = [x_1, x_2, \dots, x_k]$, $||x||_2^2 = \sum_{i=1}^k x_i^2$.
- Физическая/логическая роль: Он количественно определяет величину разницы между векторами предсказанной и истинной скорости. Возведение нормы в квадрат гарантирует, что все ошибки вносят положительный вклад в потери и что большие ошибки наказываются более значительно, чем меньшие, делая функцию потерь дифференцируемой и подходящей для оптимизации на основе градиента.
- $\sum_{f=1}^{T-1} \sum_{j=1}^{J}$: Двойная сумма.
- Математическое определение: Суммирует разницы скоростей в квадрате по всем соответствующим кадрам и всем суставам.
- Физическая/логическая роль: Агрегирует индивидуальные ошибки скорости по всей временной последовательности и всем частям тела, чтобы получить единую меру временной несогласованности.
- $\frac{1}{(T-1)J}$: Нормализующий множитель.
- Математическое определение: Делит сумму квадратов ошибок на общее количество рассмотренных векторов скорости.
- Физическая/логическая роль: Гарантирует, что величина потерь $L_{vel}$ не зависит от длины последовательности $T$ или количества суставов $J$, делая ее сравнимой при различных конфигурациях и предотвращая то, чтобы более длинные последовательности имели изначально большие потери просто из-за большего количества членов.
Обновление скрытого состояния SSM Mamba (Уравнение 2): $h_{t+1} = A h_t + B u_t$ и $y_t = C h_t + D u_t$
- $h_{t+1}$: Вектор скрытого состояния в следующем временном шаге $t+1$.
- Математическое определение: Вектор, представляющий сжатую память или контекст из всех предыдущих входов до времени $t$.
- Физическая/логическая роль: Это внутренняя "память" модели Mamba. Она накапливает информацию из последовательности, позволяя модели понимать дальние зависимости.
- $h_t$: Вектор скрытого состояния в текущем временном шаге $t$.
- Математическое определение: Вектор, представляющий память до времени $t$.
- Физическая/логическая роль: Предыдущее состояние, которое обновляется новой информацией.
- $u_t$: Входной токен (вектор признаков) в текущем временном шаге $t$.
- Математическое определение: Вектор, представляющий текущий обрабатываемый фрагмент информации.
- Физическая/логическая роль: Это новая точка данных (например, признак из радарного кадра), которую в данный момент обрабатывает слой Mamba.
- $y_t$: Выходной токен (вектор признаков) в текущем временном шаге $t$.
- Математическое определение: Вектор, полученный SSM в момент времени $t$.
- Физическая/логическая роль: Это обработанная информация для текущего временного шага, которая затем может быть передана последующим слоям или использована для дальнейших вычислений.
- $A, B, C, D$: Параметры, зависящие от слоя и подлежащие обучению (матрицы).
- Математическое определение: Матрицы, определяющие линейные преобразования, применяемые к скрытому состоянию и входу. $A$ — матрица перехода состояния, $B$ — матрица входа, $C$ — матрица выхода, а $D$ — матрица прямого прохождения.
- Физическая/логическая роль: Эти матрицы являются "весами" SSM. Они изучаются во время обучения и определяют, как прошлая память ($h_t$) комбинируется с текущим входом ($u_t$) для генерации новой памяти ($h_{t+1}$) и текущего выхода ($y_t$). Они эффективно кодируют динамику системы, позволяя Mamba выборочно запоминать или забывать информацию в течение длинных последовательностей.
- Почему матричное умножение и сложение? Это стандартная форма линейной модели пространства состояний. Матричное умножение позволяет выполнять линейные преобразования и смешивание признаков, а сложение объединяет влияние предыдущего состояния и текущего входа. Эта линейная рекуррентность эффективна для захвата дальних зависимостей.
Механизмы внимания (Уравнения 3, 4, 5):
- $q_{f,.}^{'}$, $q_{.,j}^{''}$, $q_{f,j}^{'''}$: Они представляют собой запросы ключевых точек после последовательных этапов внимания (пространственного, временного и перекрестного внимания соответственно).
- Математическое определение: Векторы или матрицы, представляющие уточненные представления запросов ключевых точек.
- Физическая/логическая роль: Это развивающиеся "вопросы", которые декодер задает для извлечения релевантной информации для предсказания положений суставов. Каждый этап внимания уточняет эти запросы, включая различную контекстную информацию.
- $SA(\cdot)$, $TA(\cdot)$, $CrossAttn(\cdot)$: Это функции пространственного внимания, временного внимания и перекрестного внимания.
- Математическое определение: Функции, вычисляющие оценки внимания и применяющие их к векторам значений.
- Физическая/логическая роль: Это механизмы, которые позволяют модели выборочно фокусироваться на различных частях входа (других суставах в кадре, том же суставе между кадрами или признаках кодировщика) для уточнения предсказаний ключевых точек.
- $Q, K, V$: Матрицы (или векторы) запроса, ключа и значения.
- Математическое определение: Получены из признаков входа (например, запросов ключевых точек или признаков кодировщика) посредством линейных преобразований.
- Физическая/логическая роль: Во внимании запрос ($Q$) представляет то, что мы ищем, ключ ($K$) представляет то, что доступно, а значение ($V$) содержит информацию для извлечения. Скалярное произведение между $Q$ и $K$ определяет, насколько релевантна каждая часть доступной информации для запроса.
- $d$: Размерность векторов ключей.
- Математическое определение: Скалярное целое число.
- Физическая/логическая роль: Используется как масштабирующий множитель ($\sqrt{d}$) в механизме внимания. Деление на $\sqrt{d}$ предотвращает слишком большое увеличение скалярных произведений, что может привести к тому, что функция softmax войдет в области с очень малыми градиентами, препятствуя обучению.
- $\text{softmax}(\cdot)$: Функция softmax.
- Математическое определение: Для вектора $x = [x_1, \dots, x_k]$, $\text{softmax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^k e^{x_j}}$.
- Физическая/логическая роль: Нормализует оценки внимания в распределение вероятностей, гарантируя, что веса в сумме дают 1. Это означает, что модель назначает относительную важность каждому ключу, указывая, насколько сильно она должна "обращать внимание" на соответствующее значение.
- Матричное умножение ($Q K^T$) и деление на $\sqrt{d}$:
- Математическое определение: Скалярное внимание.
- Физическая/логическая роль: Скалярное произведение $Q K^T$ измеряет сходство или совместимость между каждым запросом и всеми ключами. Более высокое скалярное произведение означает большую релевантность. Деление на $\sqrt{d}$ является масштабирующим множителем для стабилизации градиентов.
- Умножение на $V$:
- Математическое определение: Взвешенная сумма векторов значений.
- Физическая/логическая роль: После вычисления весов внимания (через softmax) эти веса применяются к векторам значений. Это фактически создает взвешенное среднее информации, содержащейся в $V$, где более релевантная информация (более высокий вес внимания) вносит больший вклад в выходные данные.
Пошаговый поток
Представьте, что одна абстрактная радарная точка данных, представляющая крошечное отражение от человека, проходит через систему milliMamba, как компонент на сборочной линии:
- Прием необработанных радарных сигналов: Наше путешествие начинается с необработанных миллиметровых радарных сигналов. Это комплексные кубы $X \in \mathbb{C}^{12 \times 128 \times 256}$, полученные от двух радарных датчиков (горизонтальный и вертикальный виды) в течение $T$ последовательных кадров.
- Предварительная обработка — удаление помех и субдискретизация: Сначала статические помехи удаляются путем вычитания среднего значения по чирпам. Затем размерность чирпа равномерно субдискретизируется для снижения вычислительной нагрузки.
- Предварительная обработка — 3D Быстрое преобразование Фурье (FFT): Комплексный радарный куб преобразуется в 3D тепловую карту "угол-допплер-дальность".
- 1D FFT (Уравнение 1) применяется вдоль размерности ADC-сэмплов (дальность).
- Другое 1D FFT применяется вдоль размерности чирпа (допплер).
- Размерность виртуальной антенны дополняется нулями, а затем преобразуется третьим 1D FFT (угол).
- Это приводит к получению действительной 3D тепловой карты $Y \in \mathbb{R}^{H \times D \times W}$ для каждого вида и кадра, что значительно снижает потребление памяти и задержку по сравнению с традиционными 4D подходами.
- Извлечение признаков (MNet и 3DCNN): Предварительно обработанные 3D тепловые карты для горизонтального и вертикального видов подаются в параллельные ветви. Каждая ветвь начинается с блока MNet, который объединяет допплеровскую размерность, за которым следуют три остаточных 3D свертки и два слоя понижающей дискретизации. Этот процесс извлекает начальные пространственные признаки и уменьшает разрешение угловых и дальностных размерностей, производя карты признаков $F_h, F_v \in \mathbb{R}^{C_f \times T \times \frac{H}{4} \times \frac{W}{4}}$.
- Фузия перекрестных видов: Обучаемые позиционные вложения добавляются к $F_h$ и $F_v$ для кодирования пространственной информации. Эти две карты признаков, специфичные для каждого вида, затем конкатенируются для формирования единого входного сигнала кодировщика $F = [F_h; F_v]$.
- Кодировщик CVMamba — преобразование последовательности: 2D карта признаков $F$ преобразуется в 1D последовательность с использованием зигзагообразного сканирования по дальности, углу, виду (сначала горизонтальный, затем вертикальный) и, наконец, по кадрам. Эта линейная последовательность имеет решающее значение для работы Mamba.
- Кодировщик CVMamba — обработка SSM: 1D последовательность токенов ($u_t$) подается в стек слоев Vision Mamba. Каждый слой итеративно обновляет свое скрытое состояние ($h_t$) и производит выход ($y_t$) с использованием линейных рекуррентных соотношений (Уравнение 2). Этот процесс происходит как в прямом, так и в обратном направлении, позволяя модели захватывать дальние пространственно-временные зависимости с линейной сложностью. Выход кодировщика представляет собой богатое, контекстно-осведомленное представление признаков $F'$.
- Декодер STCA — инициализация запросов ключевых точек: Инициализируется фиксированный набор обучаемых запросов ключевых точек $\{q_{f,j}\}$. Каждый запрос представляет собой определенный сустав $j$ в определенном кадре $f$. Эти запросы являются отправной точкой для предсказания поз.
- Декодер STCA — пространственное внимание: В каждом слое декодера запросы ключевых точек для одного кадра ($q_{f,.}$) проходят пространственное внимание (Уравнение 3). Это позволяет запросам взаимодействовать друг с другом в пределах одного кадра, агрегируя информацию о взаимосвязях между суставами и пространственной структуре. Выход — $q_{f,.}^{'}$.
- Декодер STCA — временное внимание: Затем пространственно уточненные запросы для одного сустава по всем кадрам ($q_{.,j}^{'}$) проходят временное внимание (Уравнение 4). Этот механизм позволяет модели обеспечивать согласованность движения, обращая внимание на представление того же сустава в разные моменты времени. Выход — $q_{.,j}^{''}$.
- Декодер STCA — перекрестное внимание: Пространственно и временно уточненные запросы ключевых точек ($q_{f,j}^{''}$) затем обращают внимание на признаки кодировщика $F'$ (Уравнение 5). Этот шаг перекрестного внимания позволяет декодеру извлекать релевантную контекстную информацию из богатых пространственно-временных признаков, сгенерированных кодировщиком CVMamba, улучшая способность выводить недостающие суставы. Выход — $q_{f,j}^{'''}$.
- Предсказательная головка: Окончательные уточненные запросы ключевых точек ($q_{f,j}^{'''}$) передаются через предсказательную головку (обычно небольшой MLP) для получения 2D координат каждого сустава в каждом кадре. Это дает последовательность из $T$ оценок позы.
- Расчет потерь:
- Предсказанные 2D координаты ключевых точек сравниваются с истинными координатами для вычисления потерь сходства ключевых точек объекта ($L_{oks}$).
- Предсказанные скорости суставов ($v_{f,j} = P_{f+1,j} - P_{f,j}$) вычисляются из предсказанных положений.
- Истинные скорости суставов ($\hat{v}_{f,j} = \hat{P}_{f+1,j} - \hat{P}_{f,j}$) вычисляются из истинных положений.
- Потери скорости ($L_{vel}$) вычисляются путем сравнения этих предсказанных и истинных скоростей с использованием Уравнения (6).
- Наконец, вычисляются общие потери $L = L_{oks} + \lambda_{vel} L_{vel}$.
Динамика оптимизации
Модель milliMamba учится путем минимизации общей функции потерь $L = L_{oks} + \lambda_{vel} L_{vel}$ посредством итеративного процесса оптимизации.
Обучаемые параметры модели включают веса блоков MNet и 3DCNN, матрицы $A, B, C, D$ в каждом слое SSM Mamba, матрицы линейных преобразований, генерирующие $Q, K, V$ для механизмов внимания, сами обучаемые запросы ключевых точек, а также веса финальной предсказательной головки.
- Вычисление градиента: В каждой итерации обучения, после того как пакет радарных последовательностей проходит через весь конвейер milliMamba и вычисляется общая потеря $L$, модель вычисляет градиенты этой потери по отношению ко всем своим обучаемым параметрам. Это делается с помощью обратного распространения ошибки, которое эффективно вычисляет, какой вклад каждый параметр вносит в общую ошибку.
- Формирование ландшафта потерь:
- Член $L_{oks}$ формирует ландшафт потерь, чтобы направить модель к точным предсказаниям поз на кадр. Он создает "долины" в ландшафте, где предсказанные ключевые точки точно соответствуют истинным данным.
- Член $L_{vel}$, взвешенный $\lambda_{vel}$, вводит дополнительную силу регуляризации. Он наказывает "пиковые" или быстро меняющиеся предсказания поз между кадрами, эффективно сглаживая ландшафт потерь во временном измерении. Это побуждает модель находить решения, которые не только точны, но и временно согласованы. Квадрат нормы L2 гарантирует, что большие ошибки скорости наказываются более строго, создавая более крутой градиент для несогласованных движений.
- Обновление параметров: В статье указано, что используется оптимизатор Adam. Adam — это алгоритм оптимизации с адаптивной скоростью обучения, который использует оценки первых и вторых моментов градиентов для корректировки скорости обучения для каждого параметра.
- Вычисленные градиенты указывают направление и величину изменения, необходимого для каждого параметра, чтобы уменьшить потери.
- Оптимизатор Adam использует эти градиенты вместе с заданной скоростью обучения (например, 0,00005) и затуханием весов (например, 0,0001) для обновления параметров модели. Затухание весов действует как L2 регуляризация, предотвращая чрезмерное увеличение параметров и помогая смягчить переобучение.
- Итеративное уточнение и сходимость: Этот процесс прямого прохода, вычисления потерь, обратного распространения ошибки и обновления параметров повторяется итеративно в течение многих эпох обучения.
- Итеративное уточнение декодера STCA, где запросы ключевых точек последовательно обновляются через несколько слоев пространственно-временного внимания и перекрестного внимания, означает, что градиенты от окончательных предсказаний поз распространяются через эти шаги уточнения, обучая запросы лучше представлять и извлекать релевантную информацию.
- Со временем параметры модели корректируются, что приводит к тому, что предсказанные позы становятся все более точными (минимизируя $L_{oks}$) и временно плавными (минимизируя $L_{vel}$). Гиперпараметр $\lambda_{vel}$ здесь имеет решающее значение; если он слишком высок, модель может чрезмерно сглаживать, жертвуя некоторой точностью; если слишком низок, временная согласованность может пострадать. В статье установлено $\lambda_{vel} = 0,05$, что указывает на небольшое, но значительное акцентирование внимания на плавности движения.
- Модель сходится, когда функция потерь достигает минимума (или достаточно низкого значения), что означает, что предсказания модели оптимально сбалансированы между точностью и временной согласованностью, учитывая обучающие данные и архитектуру.
Figure 4. Comparison of heatmap generation. (a) The traditional 4D approach [25] applies separate FFTs for range, doppler, azimuth, and elevation after antenna grouping. (b) Our 3D pipeline performs a unified spatial FFT without grouping, yielding a compact representation. (c) Cost comparison between 4D and 3D heatmaps, showing 11× reduction in memory and 8.6× reduction in latency
Figure 2. Overview of our milliMamba. The CVMamba encoder first extracts features from dual-view radar inputs. These features are then passed to the Multi-Pose STCA decoder, which progressively refines a set of keypoint queries to produce pose predictions
Результаты, ограничения и заключение
Экспериментальный дизайн и базовые модели
Для строгой проверки предложенного фреймворка milliMamba авторы разработали комплексную экспериментальную установку. Модель была спроектирована для приема входных данных от двух миллиметровых (mmWave) радарных датчиков, обрабатывая последовательность из $T=9$ кадров. Важно отметить, что, хотя модель предсказывает 9 последовательных поз во время обучения ("многие-ко-многим"), при выводе используется только предсказание для центрального кадра в этом окне. Этот выбор дизайна гарантирует, что модель получает выгоду от богатого временного контекста во время обучения, но предоставляет одну, уточненную оценку позы для практического использования.
Режим обучения использовал оптимизатор Adam со скоростью обучения 0,00005, размером пакета 8 и затуханием весов 0,0001. Общая цель обучения объединяла две функции потерь: стандартное сходство ключевых точек объекта ($L_{oks}$) для наказания за расхождения между предсказанными и истинными положениями суставов, и потери скорости ($L_{vel}$) для обеспечения временной плавности предсказанных последовательностей поз. Потери скорости были взвешены $\lambda_{vel} = 0,05$, балансируя точность с временной согласованностью. Все эксперименты проводились на одном GPU NVIDIA Tesla V100, распространенном ресурсе высокопроизводительных вычислений.
"Жертвами" (базовыми моделями), против которых безжалостно тестировался milliMamba, были:
- TransHuPR [12]: Подход на основе Transformer, который частично моделирует пространственно-временные зависимости.
- HuPR [13]: Еще один известный метод оценки позы человека (HPE) на основе радара.
- mmPose [23]: Метод на основе CNN для радарной HPE.
Эти базовые модели представляют собой передовые достижения в области mmWave радарной HPE, позволяя прямое сравнение производительности milliMamba. Оценка проводилась на двух эталонных наборах данных mmWave радара:
- Набор данных TransHuPR [12]: Содержит более 7 часов видео от 22 испытуемых, демонстрирующих быстрые и динамичные действия, что представляет собой значительную проблему для оценки позы из-за быстрых движений и потенциальных зеркальных отражений.
- Набор данных HuPR [13]: Содержит около 4 часов видео от 6 испытуемых, характеризующихся относительно статичными действиями.
Производительность измерялась с использованием Average Precision (AP) на основе Object Keypoint Similarity (OKS), стандартной метрики в оценке позы. Это включало общий AP (усредненный по порогам OKS от 0,50 до 0,95), AP50 (для свободного соответствия при OKS 0,50) и AP75 (для строгого соответствия при OKS 0,75).
Что доказывают доказательства
Экспериментальные данные однозначно доказывают, что основной механизм milliMamba — совместное моделирование пространственно-временных зависимостей как на этапах извлечения признаков, так и декодирования, в сочетании с эффективной предварительной обработкой 3D Быстрого Преобразования Фурье (FFT) — значительно улучшает оценку позы человека по сигналам mmWave радара.
Окончательные, неоспоримые доказательства:
-
Превосходная производительность по сравнению с базовыми моделями:
- На наборе данных TransHuPR (Таблица 2) milliMamba последовательно превосходил все базовые модели по всем метрикам AP. Он продемонстрировал существенное улучшение AP на 11,0 по сравнению с TransHuPR [12]. Например, для сложного сустава "запястье", который подвержен зеркальным отражениям и быстрым движениям, milliMamba достиг впечатляющих 46,9 AP. Это демонстрирует его устойчивость в выводе даже сильно неопределенных или отсутствующих суставов.
- На наборе данных HuPR (Таблица 3) milliMamba снова показал превосходную точность, достигнув 84,0 AP для относительно статичных действий. Важно отметить, что он достиг этой более высокой точности при значительно более низкой вычислительной нагрузке (34,4 GMACs и 4,0M параметров) по сравнению с HuPR [13] (68,6 GMACs и 35,5M параметров), подчеркивая его эффективность.
-
Проверка эффективности обработки входных данных (3D FFT):
- Анализ влияния представления входных данных (Таблица 4) ясно показал, что тепловая карта на основе 3D FFT, выбранный метод предварительной обработки milliMamba, обеспечил наилучшую производительность (74,5 AP). Это было значительно лучше, чем карта плотности (58,5 AP) и даже более сложная 4D FFT (72,0 AP).
- Кроме того, Рисунок 4(c) предоставил неоспоримые доказательства прироста эффективности: 3D FFT сократил использование памяти в 11 раз и задержку в 8,6 раза по сравнению с традиционным 4D подходом. Это доказывает, что выбор предварительной обработки был не только точным, но и вычислительно выгодным.
-
Эффективность механизма многокадрового вывода:
- Таблица 5 продемонстрировала мощь стратегии предсказания "многие-ко-многим" в milliMamba (с использованием декодера Spatio-Temporal-Cross Attention (STCA)). Она достигла улучшения общей точности AP на 4,1 по сравнению с подходом "многие-к-одному" (обычный декодер Transformer). Это подтверждает, что использование признаков суставов из нескольких временных шагов во время декодирования имеет решающее значение для вывода недостающих или слабо отраженных суставов.
-
Преимущества более длительного временного контекста:
- Влияние длины входной последовательности (Таблица 6) показало, что увеличение количества входных кадров ($T$) последовательно улучшало точность оценки позы. Это было особенно заметно для сложных суставов, таких как запястье и локоть, подчеркивая ценность богатого временного контекста для обработки сложных сценариев.
-
Превосходная масштабируемость и эффективность Mamba:
- Сравнение кодировщиков Transformer и Mamba (Таблица 8) для ограниченного $T=3$ кадров показало, что Mamba достиг на 1,5 AP более высокой точности. Что еще более важно, кодировщик Transformer исчерпал память при попытке использовать более длинные последовательности, в то время как Mamba эффективно масштабировался. Это является окончательным доказательством того, что линейная сложность Mamba является практическим решением для обработки больших объемов токенов, присущих более длинным радарным последовательностям, что является ключевой проблемой для предыдущих методов на основе Transformer.
-
Преимущество фузии перекрестных видов с двух радаров:
- Таблица 7 показала, что конфигурация с двумя радарами (Hori+Vert), используемая в milliMamba, значительно превосходила однорадарные конфигурации (только Hori или только Vert). Это доказывает преимущество фузии перекрестных видов в компенсации ограниченного разрешения по высоте mmWave радарных датчиков, что приводит к более надежной и точной оценке позы.
По сути, архитектурные решения milliMamba, от эффективной предварительной обработки 3D FFT до кодировщика на основе Mamba и декодера STCA, были экспериментально подтверждены как способствующие его передовой производительности, предоставляя неоспоримые доказательства того, что его основной механизм работает на практике.
Ограничения и будущие направления
Хотя milliMamba представляет собой значительный скачок вперед в mmWave радарной HPE, выводы статьи также неявно предполагают несколько областей для дальнейшего развития и подчеркивают присущие ограничения.
Предполагаемые ограничения:
- Вычислительная нагрузка: Хотя milliMamba более эффективен, чем Transformers, для более длинных последовательностей, его вычислительная стоимость (например, 34,4 GMACs, 4,0M параметров, 224,1 МБ памяти на HuPR) все еще может быть значительной для развертывания на устройствах с крайне ограниченными ресурсами или для приложений, требующих чрезвычайно низкой задержки. "Разумная сложность" относительна, и дальнейшая оптимизация, вероятно, потребуется для повсеместного использования в реальном времени.
- Фокус на одном человеке: Текущий фреймворк, по-видимому, разработан в первую очередь для оценки позы одного человека. Явное упоминание "многолюдных сценариев" в качестве будущей работы предполагает, что обработка нескольких взаимодействующих людей, особенно с окклюзиями, остается проблемой для текущей архитектуры.
- Специфичность набора данных: Оценка проводилась на двух конкретных наборах данных, TransHuPR и HuPR. Хотя эти наборы данных охватывают динамичные и статичные действия, они могут не полностью представлять огромное разнообразие человеческих движений, условий окружающей среды или потенциальных сценариев радарных помех, встречающихся в реальных развертываниях.
- Обобщаемость к экстремальным окклюзиям: Хотя модель устойчива к зеркальным отражениям, степень, в которой milliMamba может выводить позы при сильных самоокклюзиях или окклюзиях окружающей среды (например, за мебелью), не детализирована полностью. Радарные сигналы могут оставаться разреженными, и полные части тела могут оставаться ненаблюдаемыми.
Будущие направления и темы для обсуждения:
Авторы явно заявляют, что будущая работа будет включать исследование многолюдных и межсредовых сценариев, а также дальнейшее снижение вычислительной стоимости. Основываясь на этом, вот разнообразные перспективы для дальнейшего развития:
- Устойчивость в неблагоприятных и зашумленных средах: Как можно сделать milliMamba еще более устойчивым к шуму, помехам или даже к атакам на радарные сигналы? Могли бы такие методы, как самообучение с аугментацией данных или адаптация домена, помочь обобщить производительность в совершенно разных средах (например, на улице против помещений, разные планировки комнат, различный беспорядок)?
- Развертывание на периферии в реальном времени и аппаратная оптимизация: Учитывая цель снижения вычислительной стоимости, какие конкретные аппаратные оптимизации можно исследовать? Это может включать квантование модели, обрезку, поиск нейронной архитектуры для более мелких вариантов Mamba или даже специализированные аппаратные ускорители для SSM. Обсуждение может углубиться в компромиссы между размером модели, скоростью вывода и точностью для практического развертывания на периферии.
- Интеграция с дополнительными датчиками для улучшенного контекста: Хотя радар обеспечивает конфиденциальность, может ли разумная фузия с другими конфиденциальными модальностями (например, тепловыми камерами для тепла тела, пассивными инфракрасными датчиками для движения или даже низкоразмерным лидаром для глубины) обеспечить более богатые контекстные сигналы? Это могло бы помочь разрешить неоднозначности в радарных данных, особенно для мелкозернистых движений или когда части тела полностью скрыты от поля зрения радара. Каковы проблемы синхронизации и эффективной фузии таких разнородных потоков данных?
- От 2D к 3D: к 3D позе и реконструкции сетки: Текущая работа сосредоточена на 2D HPE. Как механизм пространственно-временной фузии Mamba может быть расширен или адаптирован для прямого предсказания 3D поз человека или даже полных реконструкций сетки человека? Это открыло бы приложения в виртуальной реальности, дополненной реальности и более сложном взаимодействии человека и робота, но потребовало бы решения присущих ограничений 2D радарных проекций.
- Этические последствия и ИИ, сохраняющий конфиденциальность: По мере того как HPE на основе радара становится более точной и способной к многолюдному отслеживанию, обсуждение должно затрагивать этические последствия. Хотя по своей природе он сохраняет конфиденциальность, какие меры предосторожности необходимы для предотвращения потенциального злоупотребления, такого как несанкционированное наблюдение или идентификация? Как можно ответственно развивать технологию, чтобы она приносила пользу обществу, не нарушая прав личности?
- Долгосрочное временное понимание и распознавание действий: Текущий фреймворк использует временной контекст для оценки позы. Может ли это быть расширено для понимания долгосрочных человеческих действий, предсказания будущих поз или даже распознавания сложных действий и намерений? Это потребовало бы интеграции механизмов памяти, которые могут сохранять информацию в течение гораздо более длительных временных горизонтов, потенциально двигаясь к более целостному пониманию человеческого поведения.
- Синтетическая генерация данных и симуляция: Учитывая сложность и стоимость сбора больших, разнообразных радарных наборов данных, могут ли продвинутые среды симуляции или генеративные модели использоваться для создания синтетических радарных данных для обучения? Это могло бы помочь преодолеть нехватку данных, улучшить обобщение и позволить тестировать в экстремальных или редких сценариях, которые трудно зафиксировать в реальном мире.
Table 2. Comparison of model performance and complexity across methods on the TransHuPR dataset [12]. The complexity excludes radar signal preprocessing
Table 3. Comparison of model performance and complexity across methods on the HuPR dataset [13]. The complexity excludes radar signal preprocessing
Table 6. Impact of input sequence length (T) on pose estimation performance. We investigate the effect of varying T to understand how temporal context contributes to accuracy
Изоморфизмы с другими областями
Структурный каркас
Основная часть данной статьи представляет механизм для эффективного извлечения и фузии пространственно-временных признаков из зашумленных, высокоразмерных последовательных данных для предсказания структурированных выходных данных с временной согласованностью.
Дальние родственники
-
Целевая область: Анализ финансовых временных рядов
- Связь: На финансовых рынках аналитики сталкиваются с высокоразмерными, зашумленными и последовательными потоками данных, такими как цены акций, объемы торгов и экономические показатели. Задача захвата дальних временных зависимостей и межрыночных корреляций в этих данных является зеркальным отражением задачи milliMamba. Точно так же, как радарные сигналы страдают от "зеркального отражения", приводящего к "пропущенным суставам", финансовые данные страдают от рыночного шума, внезапных событий и неполной информации, которые скрывают истинные лежащие в основе закономерности. Подход статьи к надежному извлечению признаков из разреженных, высокоразмерных входных данных и ее способность выводить недостающую информацию путем использования контекстных сигналов напрямую параллельны необходимости предсказывать будущие состояния рынка, несмотря на пробелы в данных и волатильность.
-
Целевая область: Моделирование климата и прогнозирование окружающей среды
- Связь: Климатические науки включают обработку огромных объемов пространственно-временных данных, включая температуру, давление, влажность и ветровые паттерны по обширным географическим сеткам в течение длительных периодов. Прогнозирование будущих погодных явлений или долгосрочных климатических тенденций требует понимания сложных, дальних зависимостей как пространственно (например, как атмосферные условия в одном регионе влияют на другой), так и временно (например, сезонные циклы, многолетние колебания). Двойной радарный вход в milliMamba, который объединяет информацию из разных перспектив, аналогичен интеграции данных из различных экологических датчиков или спутниковых наблюдений. Фокус статьи на эффективном пространственно-временном моделировании для извлечения надежных признаков из зашумленных входных данных глубоко резонирует с задачами точного прогнозирования на основе хаотических и часто неполных метеорологических наборов данных.
Сценарий "Что если"
Представьте, что количественный аналитик из ведущего хедж-фонда завтра "украл" бы точный кодировщик Cross-View Fusion Mamba и декодер Spatio-Temporal-Cross Attention из milliMamba. Вместо подачи сигналов mmWave радара, они бы вводили финансовые временные ряды из нескольких источников. Эти данные могли бы включать цены акций в реальном времени, доходность облигаций, фьючерсы на сырьевые товары и макроэкономические показатели, причем "перекрестные виды" представляли бы различные мировые рынки или классы активов. Кодировщик Mamba, с его линейной сложностью, смог бы обрабатывать значительно более длинные исторические последовательности, чем текущие модели на основе Transformer, захватывая тонкие, дальние рыночные зависимости, которые влияют на цены активов в течение месяцев или даже лет. Декодер STCA, вместо предсказания координат суставов человека, предсказывал бы будущие движения цен или волатильность для разнообразного портфеля активов в течение нескольких будущих временных шагов. Он бы обеспечивал "временную согласованность", гарантируя, что предсказанные движения активов соответствуют более широким макроэкономическим тенденциям и межрыночным корреляциям, и "выводил бы недостающие данные", предсказывая влияние задержанных экономических отчетов или рыночных аномалий. Это радикальное применение могло бы привести к беспрецедентному прорыву в точности прогнозирования для сложных, многоактивных торговых стратегий, позволяя фонду выявлять и использовать глубокие, дальние пространственно-временные рыночные закономерности, которые в настоящее время невидимы для существующих моделей. Система могла бы даже предсказывать "черных лебедей" с некоторой дальновидностью, распознавая тонкие, возникающие закономерности в глобальных финансовых данных.
Универсальная библиотека структур
Элегантное решение данной статьи для надежного пространственно-временного извлечения признаков и структурированного предсказания из зашумленных, последовательных данных обогащает Универсальную библиотеку структур, демонстрируя, как кажущиеся несвязанными задачи в разных областях объединяются общими математическими и алгоритмическими закономерностями.