变分能量塑形用于规划网络
将神经规划模块视为能量塑造系统,其更新应保持在可行值景观内。
结构骨架
源论文将规划结构直接构建到网络中,而不是将动作值视为无约束的预测。
物理概念/数学对象
可复用性概念是在约束下的变分选择:一个有效的方案并非任何低分状态,而是最小化正确目标同时尊重动力学约束的状态。
人工智能目标问题
目标神经规划器、世界模型或控制策略,它们会反复更新内部价值估计,并在长时序的模拟中倾向于发生漂移。
变量/运算符/目标映射
- Energy/action functional -> 规划目标(在轨迹或局部价值更新上)
- Feasible state manifold -> 模型动力学下的可达规划
- Stable minimizer -> 具有改进控制一致性的rollout策略
为什么这可能奏效
一种变分视角可以将启发式规划层转化为结构化的优化目标。这使得更容易推断哪些更新能够保持可行性,哪些更新仅仅是表面上降低了损失。
为什么会失败
能量可能无法以有益的方式对应于任务奖励。规划器在满足设计的能量的同时,仍然可能利用模型误差或缺失的远距离约束。
最小可证伪实验
实现一个规划模块,该模块包含一个显式的能量塑形惩罚项,用于衡量与可行展开结构(feasible rollout structure)的偏差。在长时域导航或策略任务中,将其与未采用该惩罚项的相同规划器进行比较。如果约束感知能量塑形(constraint-aware energy shaping)未能提高展开稳定性或价值一致性,则拒绝该简报。