V4 ha logrado una puntuación perfecta de 120/120 en el benchmark matemático Putnam-2025, empatando en primer lugar con Axiom. Este logro se alcanzó bajo el Régimen Frontier, que utilizó un enfoque híbrido de razonamiento formal e informal. El método de V4 consistió en generar soluciones candidatas mediante razonamiento informal, auto-verificación y completar pruebas rigurosas utilizando un agente formal en Lean. En el Régimen Práctico, V4-Flash-Max obtuvo una puntuación de 81.00 en el benchmark Putnam-200 Pass@8, superando los 35.50 de Seed-2.0-Prover y los 26.50 de Gemini 3 Pro y Seed-1.5-Prover. Los resultados destacan las capacidades avanzadas de V4 en razonamiento matemático y resolución de problemas, mostrando su potencial tanto en despliegues típicos como en escenarios computacionales a gran escala.