V4 obtient un score parfait au test de mathématiques Putnam-2025

V4 a obtenu un score parfait de 120/120 au benchmark mathématique Putnam-2025, se classant ex æquo à la première place avec Axiom. Cette réussite a été réalisée sous le Régime Frontier, qui a utilisé une approche hybride de raisonnement formel-informel. La méthode de V4 consistait à générer des solutions candidates par un raisonnement informel, une auto-vérification, puis à compléter des preuves rigoureuses à l'aide d'un agent formel dans Lean. Dans le Régime Pratique, V4-Flash-Max a obtenu un score de 81,00 au benchmark Putnam-200 Pass@8, surpassant les 35,50 de Seed-2.0-Prover ainsi que les 26,50 de Gemini 3 Pro et Seed-1.5-Prover. Ces résultats mettent en lumière les capacités avancées de V4 en raisonnement mathématique et en résolution de problèmes, démontrant son potentiel tant dans un déploiement classique que dans des scénarios computationnels à grande échelle.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.