V4 достиг идеального результата 120 из 120 на математическом бенчмарке Putnam-2025, разделив первое место с Axiom. Это достижение было получено в рамках Frontier Regime, который использовал гибридный подход формального и неформального рассуждения. Метод V4 включал генерацию кандидатных решений через неформальное рассуждение, самопроверку и завершение строгих доказательств с помощью формального агента в Lean. В Practical Regime V4-Flash-Max набрал 81,00 балла на бенчмарке Putnam-200 Pass@8, превзойдя показатели Seed-2.0-Prover с 35,50 и Gemini 3 Pro и Seed-1.5-Prover с 26,50. Эти результаты подчеркивают продвинутые возможности V4 в математическом рассуждении и решении задач, демонстрируя его потенциал как в типичных условиях эксплуатации, так и в масштабных вычислительных сценариях.