V4는 Putnam-2025 수학 벤치마크에서 120점 만점에 120점을 획득하여 Axiom과 공동 1위를 차지했습니다. 이 성과는 형식적-비형식적 추론 방식을 혼합한 Frontier Regime 하에서 이루어졌습니다. V4의 방법은 비형식적 추론을 통해 후보 해법을 생성하고, 자체 검증을 거친 후 Lean의 형식적 에이전트를 사용하여 엄밀한 증명을 완성하는 것이었습니다.
Practical Regime에서는 V4-Flash-Max가 Putnam-200 Pass@8 벤치마크에서 81.00점을 기록하여 Seed-2.0-Prover의 35.50점과 Gemini 3 Pro 및 Seed-1.5-Prover의 26.50점을 능가했습니다. 이 결과는 수학적 추론과 문제 해결에서 V4의 고급 능력을 강조하며, 일반적인 배포 환경과 대규모 계산 시나리오 모두에서의 잠재력을 보여줍니다.
V4, Putnam-2025 수학 벤치마크에서 만점 달성
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
