O V4 alcançou uma pontuação perfeita de 120/120 no benchmark matemático Putnam-2025, empatando em primeiro lugar com o Axiom. Essa conquista foi obtida sob o Regime Frontier, que utilizou uma abordagem híbrida de raciocínio formal-informal. O método do V4 envolveu a geração de soluções candidatas por meio de raciocínio informal, auto-verificação e a conclusão de provas rigorosas usando um agente formal no Lean. No Regime Prático, o V4-Flash-Max obteve uma pontuação de 81,00 no benchmark Putnam-200 Pass@8, superando os 35,50 do Seed-2.0-Prover e os 26,50 do Gemini 3 Pro e Seed-1.5-Prover. Os resultados destacam as capacidades avançadas do V4 em raciocínio matemático e resolução de problemas, demonstrando seu potencial tanto em implantações típicas quanto em cenários computacionais de grande escala.