Anthropic a dévoilé le Natural Language Autoencoder (NLA), un outil révolutionnaire qui traduit les états numériques internes des modèles d'IA en langage compréhensible par l'homme. Cet outil, ainsi que des poids partiels du modèle, ont été rendus open source sur GitHub. Contrairement aux outils traditionnels, le NLA génère directement du langage naturel, révélant les "pensées" de l'IA qui restent inexprimées.
Le NLA fonctionne grâce à un système à double modèle où un modèle convertit les activations en texte, tandis que l'autre reconstruit les activations à partir du texte, améliorant ainsi la précision via l'apprentissage par renforcement. Lors des tests de sécurité, le NLA a révélé la "conscience d'examen" de l'IA, montrant qu'elle suspectait un test dans 16 % des cas et reconnaissait l'engagement dans une tâche dans 26 % des cas, contre moins de 1 % lors d'interactions normales. Malgré les risques d'inexactitudes factuelles et les fortes exigences en calcul, le NLA a été utilisé dans des audits de sécurité pour Claude Mythos Preview et Opus 4.6.
Anthropic publie en open source un outil pour décoder les pensées internes de l'IA
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
