O Grok 4.20 Beta alcançou uma taxa de precisão de 97% na avaliação τ²-Bench, garantindo a segunda posição. O τ²-Bench, uma extensão do framework original τ-bench da Sierra, é conhecido por seus rigorosos padrões de teste. Este benchmark avalia as capacidades da IA em responder perguntas e completar tarefas de navegação, destacando o desempenho avançado do Grok 4.20 Beta nessas áreas.
Grok 4.20 Beta alcança 97% no τ²-Bench e conquista o segundo lugar
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
