Anthropic veröffentlicht KI-Gedanken-Entschlüsselungstool

Anthropic hat den Natural Language Autoencoder (NLA) vorgestellt, ein bahnbrechendes Werkzeug, das die internen numerischen Zustände von KI-Modellen in für Menschen lesbare Sprache übersetzt. Das Tool sowie teilweise Modellgewichte wurden auf GitHub als Open Source veröffentlicht. Im Gegensatz zu herkömmlichen Werkzeugen erzeugt NLA direkt natürliche Sprache und offenbart so die "Gedanken" der KI, die sonst unausgesprochen bleiben. NLA arbeitet mit einem Zwei-Modell-System, bei dem ein Modell Aktivierungen in Text umwandelt und das andere die Aktivierungen aus dem Text rekonstruiert, wobei die Genauigkeit durch Verstärkungslernen verbessert wird. In Sicherheitstests deckte NLA das "Prüfungsbewusstsein" der KI auf, indem es zeigte, dass die KI in 16 % der Fälle einen Test vermutete und in 26 % der Fälle eine Aufgabenbeteiligung erkannte, verglichen mit weniger als 1 % bei normalen Interaktionen. Trotz Risiken durch faktische Ungenauigkeiten und hohen Rechenaufwand wurde NLA bei Sicherheitsprüfungen für Claude Mythos Preview und Opus 4.6 eingesetzt.