Grok 4.20 Beta a atteint un taux de précision de 97 % lors de l'évaluation τ²-Bench, se classant à la deuxième position. Le τ²-Bench, une extension du cadre original τ-bench de Sierra, est réputé pour ses normes de test rigoureuses. Ce benchmark évalue les capacités de l'IA à répondre aux questions et à accomplir des tâches de navigation, mettant en lumière la performance avancée de Grok 4.20 Beta dans ces domaines.
Grok 4.20 Beta obtient 97 % au τ²-Bench, décrochant la deuxième place
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
