小米の大規模モデルチームの責任者である羅福利氏は、大規模モデルの状況がチャット時代からエージェント時代へと大きく変化し、事後学習(ポストトレーニング)が重要視されていると発表しました。この移行により、計算資源の配分戦略が変わり、主要チーム間での事前学習から事後学習への計算比率が現在は1:1に達しています。以前はチャット時代において3:5:1の比率でした。羅氏は、現在の焦点はエージェントの強化学習のスケーリングにあり、複雑なワークフローや異種クラスタのスケジューリングをサポートするためにシステムアーキテクチャの変更が必要であると指摘しました。