Grok 4.20 Beta ha alcanzado una tasa de precisión del 97 % en la evaluación τ²-Bench, asegurando la segunda posición. El τ²-Bench, una extensión del marco original τ-bench de Sierra, es reconocido por sus rigurosos estándares de prueba. Este benchmark evalúa las capacidades de la IA para responder preguntas y completar tareas de navegación, destacando el rendimiento avanzado de Grok 4.20 Beta en estas áreas.
Grok 4.20 Beta obtiene un 97% en τ²-Bench y asegura el segundo lugar
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
