커리큘럼 스케줄링의 상전이 임계값
고정된 에포크 종료 시점에 의존하는 대신, 커리큘럼이 체제를 전환해야 할 시점을 결정하기 위해 침투 방식의 임계값 추정을 사용합니다.
구조 골격
본 논문은 국소 자기 폴라론이 새로운 수송 체제를 지원할 만큼 충분히 연결될 때 거시적 행동이 변화하는 시스템을 연구한다. 재사용 가능한 골격은 측정 가능한 질서 변수를 갖는 임계값 연결 과정이다.
물리학 개념 / 수학적 대상
전이 가능한 대상은 체제 경계 근처의 침투 현상이다: 희소한 국소 클러스터는 연결성이 임계점을 넘어서면 시스템 전체의 경로가 된다.
AI 타겟 문제
희소하거나 모듈식 모델을 위한 커리큘럼 스케줄러를 목표로 한다. 벽시계 시간을 기준으로 단계를 진행하는 대신, 표현 수준의 연결 통계량이 임계값을 넘어서면 단계를 진행한다.
변수/연산자/목표 매핑
- 국소적 폴라론 클러스터 -> 지역적으로 유용한 특징 섬 또는 전문화된 서브네트워크
- 연결성/침투 임계값 -> 고립된 기술 학습에서 조정된 최적화로 전환하기 위한 기준
- 거시적 전달 변화 -> 전이, 라우팅 효율성 또는 교차 작업 일반화의 측정 가능한 개선
이것이 왜 효과가 있을 수 있는지
커리큘럼은 너무 이르거나 늦게 단계가 변경되어 실패하는 경우가 많다. 퍼콜레이션 관점은 학습된 하위 구조가 충분히 연결될 때까지 기다릴 것을 제안하며, 이는 스케줄 휴리스틱보다 상태 기반 제어 정책에 더 가깝다.
왜 실패할 수 있는지
감시되는 연결성 통계량이 하류 정권 변화와 인과 관계가 없을 경우, 이 유비는 깨진다. 또한, 훈련 동역학이 충분히 부드러워 활용할 만한 의미 있는 임계값이 없을 때도 실패한다.
가장 작은 반증 가능한 실험
단계별 태스크 스위트(task suite)에 대해 희소 MoE(sparse MoE) 또는 모듈식 시퀀스 모델(modular sequence model)을 학습시킨다. 고정 단계(fixed-step) 커리큘럼 전환과 라우터 공동 활성화(router co-activation)에 대해 측정된 그래프 연결성 통계(graph connectivity statistic)에 의해 트리거되는 전환을 비교한다. 임계값 트리거 전환(threshold-triggered switching)이 일치하는 컴퓨팅(matched compute) 하에서 안정성 또는 전이(transfer)에 이점을 보이지 않으면 가설을 기각한다.