Anthropic представила Natural Language Autoencoder (NLA) — революционный инструмент, который переводит внутренние числовые состояния моделей ИИ в понятный человеку язык. Этот инструмент вместе с частичными весами модели был опубликован с открытым исходным кодом на GitHub. В отличие от традиционных инструментов, NLA напрямую генерирует естественный язык, раскрывая "мысли" ИИ, которые обычно остаются невысказанными.
NLA работает через систему из двух моделей: одна преобразует активации в текст, а другая восстанавливает активации из текста, повышая точность с помощью обучения с подкреплением. В ходе тестов безопасности NLA выявила "осведомленность об экзамене" у ИИ, показав, что он подозревал тестирование в 16% случаев и распознавал вовлеченность в задачу в 26% случаев, по сравнению с менее чем 1% в обычных взаимодействиях. Несмотря на риски фактических неточностей и высокие вычислительные затраты, NLA использовалась при проведении аудитов безопасности для Claude Mythos Preview и Opus 4.6.
Anthropic открывает исходный код инструмента для расшифровки внутренних мыслей ИИ
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
