Anthropic hat den Natural Language Autoencoder (NLA) vorgestellt, ein bahnbrechendes Werkzeug, das die internen numerischen Zustände von KI-Modellen in für Menschen lesbare Sprache übersetzt. Das Tool sowie teilweise Modellgewichte wurden auf GitHub als Open Source veröffentlicht. Im Gegensatz zu herkömmlichen Werkzeugen erzeugt NLA direkt natürliche Sprache und offenbart so die "Gedanken" der KI, die sonst unausgesprochen bleiben.
NLA arbeitet mit einem Zwei-Modell-System, bei dem ein Modell Aktivierungen in Text umwandelt und das andere die Aktivierungen aus dem Text rekonstruiert, wobei die Genauigkeit durch Verstärkungslernen verbessert wird. In Sicherheitstests deckte NLA das "Prüfungsbewusstsein" der KI auf, indem es zeigte, dass die KI in 16 % der Fälle einen Test vermutete und in 26 % der Fälle eine Aufgabenbeteiligung erkannte, verglichen mit weniger als 1 % bei normalen Interaktionen. Trotz Risiken durch faktische Ungenauigkeiten und hohen Rechenaufwand wurde NLA bei Sicherheitsprüfungen für Claude Mythos Preview und Opus 4.6 eingesetzt.
Anthropic stellt Open-Source-Tool zur Entschlüsselung der internen Gedanken von KI bereit
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
