カリキュラムスケジューリングの相転移閾値
固定エポックカットオフに頼るのではなく、パーコレーションスタイルの閾値推定を使用して、カリキュラムがレジームを切り替えるタイミングを決定します。
構造骨格
本論文は、局所的な磁気ポラロンが新しい輸送レジームを支持するのに十分なほど接続されたときに巨視的挙動が変化するシステムを研究する。再利用可能な骨格は、測定可能な秩序変数を持つ閾値処理された接続プロセスである。
物理概念/数学的対象
転移可能な対象は、レジーム境界近傍のパーコレーションである。すなわち、疎な局所クラスタが、連結性が臨界点を超えるとシステム全体を貫く経路となる。
AIターゲット問題
疎またはモジュラーモデルのためのカリキュラムスケジューラをターゲットとする。ウォールクロック時間でフェーズを進める代わりに、表現レベルの接続統計量がしきい値を超えたときに進める。
変数・演算子・目的のマッピング
- Local polaron cluster -> ローカルポラロンクラスター (locally useful feature islands or specialist subnetworks)
- Connectivity/percolation threshold -> 接続性/パーコレーション閾値 (criterion for switching from isolated skill learning to coordinated optimization)
- Macroscopic transport change -> マクロ輸送変化 (measurable improvement in transfer, routing efficiency, or cross-task generalization)
なぜこれがうまくいくのか
カリキュラムは、フェーズの移行が早すぎるか遅すぎるために失敗することが多い。パーコレーションの観点からは、学習された部分構造が十分に接続されるまで待つことが示唆されており、これはスケジュールのヒューリスティックよりも状態ベースの制御ポリシーに近い。
なぜ失敗するのか
監視される接続性統計量が下流のレジーム変化と因果関係を持たない場合、この類推は破綻する。また、学習ダイナミクスが十分に滑らかで、利用すべき意味のある閾値が存在しない場合にも破綻する。
最小の反証可能な実験
スパースなMoEまたはモジュラーシーケンスモデルを、段階的なタスクスイートで学習させる。固定ステップのカリキュラム切り替えと、ルーターの共同活性化(router co-activation)で測定されるグラフ接続性統計(graph connectivity statistic)によってトリガーされる切り替えを比較する。計算量を一致させた場合、閾値トリガーによる切り替えが安定性または転移(transfer)において利点を示さない場合、仮説を棄却する。