V4는 Putnam-2025 수학 벤치마크에서 120점 만점에 120점을 획득하여 Axiom과 공동 1위를 차지했습니다. 이 성과는 형식적-비형식적 추론 방식을 혼합한 Frontier Regime 하에서 이루어졌습니다. V4의 방법은 비형식적 추론을 통해 후보 해법을 생성하고, 자체 검증을 거친 후 Lean의 형식적 에이전트를 사용하여 엄밀한 증명을 완성하는 것이었습니다. Practical Regime에서는 V4-Flash-Max가 Putnam-200 Pass@8 벤치마크에서 81.00점을 기록하여 Seed-2.0-Prover의 35.50점과 Gemini 3 Pro 및 Seed-1.5-Prover의 26.50점을 능가했습니다. 이 결과는 수학적 추론과 문제 해결에서 V4의 고급 능력을 강조하며, 일반적인 배포 환경과 대규모 계산 시나리오 모두에서의 잠재력을 보여줍니다.