Grok 4.20 베타는 τ²-Bench 평가에서 97%의 정확도를 기록하며 2위를 차지했습니다. τ²-Bench는 Sierra의 원래 τ-bench 프레임워크를 확장한 것으로, 엄격한 테스트 기준으로 잘 알려져 있습니다. 이 벤치마크는 AI의 질문 응답 능력과 내비게이션 작업 수행 능력을 평가하며, Grok 4.20 베타가 이 분야에서 뛰어난 성능을 보였음을 강조합니다.
Grok 4.20 베타, τ²-Bench에서 97% 점수 획득하며 2위 차지
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
