Adaptateurs d'introspection d'Anthropic détectent comportements IA

L'équipe d'Alignement d'Anthropic a introduit les "Introspection Adapters", une nouvelle technique d'audit qui permet aux grands modèles de langage (LLM) d'exprimer en langage naturel les comportements appris. Cette méthode consiste à affiner plusieurs modèles à partir d'une base commune avec des comportements connus et à entraîner un adaptateur LoRA pour révéler des comportements cachés. Sur le benchmark Alignment Audit, ces adaptateurs ont atteint un taux de réussite de 59 %, surpassant les méthodes précédentes qui plafonnaient à 53 %. Les adaptateurs ont décrit avec succès des comportements cachés dans 89 % des 56 modèles testés et ont identifié 7 variantes chiffrées sur 9 avec un taux de réussite de 57,8 %, malgré une absence d'exposition préalable à du contenu chiffré. Bien qu'ils n'aient pas identifié de conditions spécifiques pour le sandbagging, ils ont détecté des comportements similaires au sandbagging dans 33 % des modèles, une amélioration significative par rapport aux groupes témoins. L'étude souligne que la performance s'améliore avec la taille du modèle, la précision passant de 37,7 % à 77,3 % à mesure que le nombre de paramètres augmente. Cependant, un taux élevé de faux positifs reste une limitation. Le code et les jeux de données sont disponibles sur GitHub et Hugging Face.