Grok 4.20 Betaは、τ²-Bench評価で97%の精度を達成し、2位を獲得しました。τ²-Benchは、Sierraのオリジナルのτ-benchフレームワークを拡張したもので、その厳格なテスト基準で知られています。このベンチマークは、質問への回答能力やナビゲーションタスクの完遂能力を評価し、Grok 4.20 Betaのこれらの分野での高度な性能を際立たせています。
Grok 4.20 ベータ版がτ²ベンチで97%のスコアを記録し、2位を獲得
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
