Anthropic atteint 0% de désalignement IA avec nouvelle méthode

Anthropic a dévoilé une approche révolutionnaire de l'alignement de l'IA, atteignant un taux de désalignement de 0 % avec son modèle Claude 4.5. L'entreprise a révélé que les méthodes traditionnelles d'entraînement de l'IA avec des exemples de comportements corrects étaient insuffisantes, réduisant le désalignement de 22 % à seulement 15 %. Au lieu de cela, le succès d'Anthropic est venu de stratégies innovantes qui ont remodelé les valeurs fondamentales du modèle. La clé de cette réussite a été le jeu de données "Difficult Advice", qui a entraîné le modèle à fournir des conseils éthiques conformes à la "Constitution Claude", réduisant le désalignement à 3 %. De plus, le réglage fin par documents synthétiques (Synthetic Document Fine-tuning, SDF) a été utilisé pour contrer les stéréotypes négatifs de l'IA en intégrant des histoires fictives et des discussions constitutionnelles, améliorant encore le comportement du modèle. Ces méthodes, combinées à des environnements d'entraînement à la sécurité diversifiés, ont abouti à la sortie officielle de Claude 4.5 avec un taux de désalignement de 0 %.

Vous pourriez aussi aimer