Luo Fuli, Leiter des großen Modellteams bei Xiaomi, kündigte einen bedeutenden Wandel in der Landschaft der großen Modelle an, der vom Chat-Zeitalter zum Agenten-Zeitalter übergeht und dabei das Post-Training betont. Dieser Übergang hat die Strategien zur Zuteilung von Rechenressourcen verändert, wobei das Verhältnis von Pre-Training zu Post-Training bei führenden Teams nun 1:1 erreicht. Zuvor lag das Verhältnis im Chat-Zeitalter bei 3:5:1. Luo stellte fest, dass der Fokus nun auf der Skalierung des Reinforcement Learnings für Agenten liegt, was Änderungen in der Systemarchitektur erfordert, um komplexe Arbeitsabläufe und heterogene Clusterplanung zu unterstützen.