V4はPutnam-2025数学ベンチマークで満点の120/120を達成し、Axiomと同率首位となりました。この成果は、形式的推論と非形式的推論を組み合わせたハイブリッドアプローチを用いたFrontier Regimeの下で達成されました。V4の手法は、非形式的推論による候補解の生成、自己検証、そしてLeanの形式的エージェントを用いた厳密な証明の完成を含んでいます。 Practical Regimeでは、V4-Flash-MaxがPutnam-200 Pass@8ベンチマークで81.00を記録し、Seed-2.0-Proverの35.50やGemini 3 ProおよびSeed-1.5-Proverの26.50を上回りました。これらの結果は、数学的推論と問題解決におけるV4の高度な能力を示しており、通常の展開および大規模計算シナリオの両方での潜在能力を示しています。