V4 достиг идеального результата 120 из 120 на математическом бенчмарке Putnam-2025, разделив первое место с Axiom. Это достижение было получено в рамках Frontier Regime, который использовал гибридный подход формального и неформального рассуждения. Метод V4 включал генерацию кандидатных решений через неформальное рассуждение, самопроверку и завершение строгих доказательств с помощью формального агента в Lean.
В Practical Regime V4-Flash-Max набрал 81,00 балла на бенчмарке Putnam-200 Pass@8, превзойдя показатели Seed-2.0-Prover с 35,50 и Gemini 3 Pro и Seed-1.5-Prover с 26,50. Эти результаты подчеркивают продвинутые возможности V4 в математическом рассуждении и решении задач, демонстрируя его потенциал как в типичных условиях эксплуатации, так и в масштабных вычислительных сценариях.
V4 достигает идеального результата на математическом тесте Putnam-2025
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
