Grok 4.20 Beta набрал 97% на τ²-Bench и занял второе место

Grok 4.20 Beta достиг точности 97% в оценке τ²-Bench, заняв второе место. τ²-Bench, являющийся расширением оригинальной платформы τ-bench от Sierra, известен своими строгими стандартами тестирования. Этот бенчмарк оценивает способности ИИ в ответах на вопросы и выполнении навигационных задач, подчеркивая продвинутые показатели Grok 4.20 Beta в этих областях.

Источник: Показать оригинал

Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.