V4 ha logrado una puntuación perfecta de 120/120 en el benchmark matemático Putnam-2025, empatando en primer lugar con Axiom. Este logro se alcanzó bajo el Régimen Frontier, que utilizó un enfoque híbrido de razonamiento formal e informal. El método de V4 consistió en generar soluciones candidatas mediante razonamiento informal, auto-verificación y completar pruebas rigurosas utilizando un agente formal en Lean.
En el Régimen Práctico, V4-Flash-Max obtuvo una puntuación de 81.00 en el benchmark Putnam-200 Pass@8, superando los 35.50 de Seed-2.0-Prover y los 26.50 de Gemini 3 Pro y Seed-1.5-Prover. Los resultados destacan las capacidades avanzadas de V4 en razonamiento matemático y resolución de problemas, mostrando su potencial tanto en despliegues típicos como en escenarios computacionales a gran escala.
V4 logra puntuación perfecta en la prueba de matemáticas Putnam-2025
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
