V4はPutnam-2025数学ベンチマークで満点の120/120を達成し、Axiomと同率首位となりました。この成果は、形式的推論と非形式的推論を組み合わせたハイブリッドアプローチを用いたFrontier Regimeの下で達成されました。V4の手法は、非形式的推論による候補解の生成、自己検証、そしてLeanの形式的エージェントを用いた厳密な証明の完成を含んでいます。
Practical Regimeでは、V4-Flash-MaxがPutnam-200 Pass@8ベンチマークで81.00を記録し、Seed-2.0-Proverの35.50やGemini 3 ProおよびSeed-1.5-Proverの26.50を上回りました。これらの結果は、数学的推論と問題解決におけるV4の高度な能力を示しており、通常の展開および大規模計算シナリオの両方での潜在能力を示しています。
V4がPutnam-2025数学ベンチマークで満点を達成
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
