V4 a obtenu un score parfait de 120/120 au benchmark mathématique Putnam-2025, se classant ex æquo à la première place avec Axiom. Cette réussite a été réalisée sous le Régime Frontier, qui a utilisé une approche hybride de raisonnement formel-informel. La méthode de V4 consistait à générer des solutions candidates par un raisonnement informel, une auto-vérification, puis à compléter des preuves rigoureuses à l'aide d'un agent formel dans Lean. Dans le Régime Pratique, V4-Flash-Max a obtenu un score de 81,00 au benchmark Putnam-200 Pass@8, surpassant les 35,50 de Seed-2.0-Prover ainsi que les 26,50 de Gemini 3 Pro et Seed-1.5-Prover. Ces résultats mettent en lumière les capacités avancées de V4 en raisonnement mathématique et en résolution de problèmes, démontrant son potentiel tant dans un déploiement classique que dans des scénarios computationnels à grande échelle.