Anthropics Introspektionsadapter erkennen KI-Verhalten

Das Alignment-Team von Anthropic hat "Introspektions-Adapter" vorgestellt, eine neuartige Prüfungstechnik, die es großen Sprachmodellen (LLMs) ermöglicht, erlernte Verhaltensweisen in natürlicher Sprache zu artikulieren. Diese Methode beinhaltet das Feinabstimmen mehrerer Modelle auf einer gemeinsamen Basis mit bekannten Verhaltensweisen und das Trainieren eines LoRA-Adapters, um verborgene Verhaltensweisen aufzudecken. Beim Alignment Audit Benchmark erzielten diese Adapter eine Erfolgsquote von 59 % und übertrafen damit frühere Methoden, die bei 53 % ihren Höchstwert hatten. Die Adapter beschrieben erfolgreich verborgene Verhaltensweisen bei 89 % von 56 getesteten Modellen und identifizierten 7 von 9 verschlüsselten Varianten mit einer Erfolgsquote von 57,8 %, obwohl sie zuvor keinen Kontakt mit verschlüsseltem Inhalt hatten. Obwohl sie keine spezifischen Bedingungen für Sandbagging identifizieren konnten, entdeckten sie sandbagging-ähnliche Verhaltensweisen bei 33 % der Modelle, was eine deutliche Verbesserung gegenüber den Kontrollgruppen darstellt. Die Studie hebt hervor, dass die Leistung mit der Modellgröße zunimmt, wobei die Genauigkeit von 37,7 % auf 77,3 % steigt, wenn die Parameterzahl wächst. Eine hohe Rate an Fehlalarmen bleibt jedoch eine Einschränkung. Der Code und die Datensätze sind auf GitHub und Hugging Face verfügbar.