Grok 4.20 Beta, τ²-Bench değerlendirmesinde %97 doğruluk oranı elde ederek ikinci sırayı aldı. Sierra'nın orijinal τ-bench çerçevesinin bir uzantısı olan τ²-Bench, titiz test standartlarıyla tanınır. Bu kıyaslama, yapay zekanın soru yanıtlama ve navigasyon görevlerini tamamlama yeteneklerini değerlendirir ve Grok 4.20 Beta'nın bu alanlardaki gelişmiş performansını vurgular.
Grok 4.20 Beta, τ²-Bench'te %97 Puan Alarak İkinci Oldu
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
