計画ネットワークのための変分エネルギー整形
ニューラルプランニングモジュールを、実行可能な値の風景内に収まるべき更新を行うエネルギー形成システムとして見る。
構造骨格
ソース論文は、行動価値を制約のない予測として扱うのではなく、プランニング構造を直接ネットワークに組み込む。
物理概念/数学的対象
再利用可能な概念は、制約下での変分選択である。有効な計画とは、低スコアの状態ではなく、ダイナミクスを尊重しつつ、正しい目的関数を最小化する状態である。
AIターゲット問題
長期間のロールアウト下で内部的な価値推定値を繰り返し更新し、ドリフトする傾向があるターゲットニューラルプランナー、ワールドモデル、または制御ポリシー。
変数・演算子・目的のマッピング
- Energy/action functional -> 軌道または局所的な値の更新に対する計画目的
- Feasible state manifold -> モデルダイナミクス下での到達可能な計画
- Stable minimizer -> 制御の一貫性が向上したロールアウトポリシー
なぜこれがうまくいくのか
変分的な視点は、ヒューリスティックなプランニング層を構造化された最適化対象へと転換させうる。これにより、どの更新が実行可能性を維持し、どの更新が損失を表面的なものにしか低減しないのかについて、より容易に推論することが可能となる。
なぜ失敗するのか
エネルギーは、有用な形でタスク報酬に対応しない可能性がある。また、プランナーは設計されたエネルギーを満たしつつ、モデルのエラーや長距離制約の欠落を悪用することも可能である。
最小の反証可能な実験
計画モジュールを実装し、実現可能なロールアウト構造からの逸脱を測定する明示的なエネルギーシェーピングペナルティを導入する。長期間のナビゲーションまたは戦略タスクにおいて、ペナルティなしの同一プランナーと比較する。制約認識型エネルギーシェーピングがロールアウトの安定性または値の一貫性の向上に失敗した場合、タスクを却下する。