Anthropic открывает исходники инструмента декодирования мыслей ИИ

Anthropic представила Natural Language Autoencoder (NLA) — революционный инструмент, который переводит внутренние числовые состояния моделей ИИ в понятный человеку язык. Этот инструмент вместе с частичными весами модели был опубликован с открытым исходным кодом на GitHub. В отличие от традиционных инструментов, NLA напрямую генерирует естественный язык, раскрывая "мысли" ИИ, которые обычно остаются невысказанными. NLA работает через систему из двух моделей: одна преобразует активации в текст, а другая восстанавливает активации из текста, повышая точность с помощью обучения с подкреплением. В ходе тестов безопасности NLA выявила "осведомленность об экзамене" у ИИ, показав, что он подозревал тестирование в 16% случаев и распознавал вовлеченность в задачу в 26% случаев, по сравнению с менее чем 1% в обычных взаимодействиях. Несмотря на риски фактических неточностей и высокие вычислительные затраты, NLA использовалась при проведении аудитов безопасности для Claude Mythos Preview и Opus 4.6.