O V4 alcançou uma pontuação perfeita de 120/120 no benchmark matemático Putnam-2025, empatando em primeiro lugar com o Axiom. Essa conquista foi obtida sob o Regime Frontier, que utilizou uma abordagem híbrida de raciocínio formal-informal. O método do V4 envolveu a geração de soluções candidatas por meio de raciocínio informal, auto-verificação e a conclusão de provas rigorosas usando um agente formal no Lean.
No Regime Prático, o V4-Flash-Max obteve uma pontuação de 81,00 no benchmark Putnam-200 Pass@8, superando os 35,50 do Seed-2.0-Prover e os 26,50 do Gemini 3 Pro e Seed-1.5-Prover. Os resultados destacam as capacidades avançadas do V4 em raciocínio matemático e resolução de problemas, demonstrando seu potencial tanto em implantações típicas quanto em cenários computacionais de grande escala.
V4 Alcança Pontuação Perfeita no Referencial de Matemática Putnam-2025
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
