Anthropic a dévoilé une approche révolutionnaire de l'alignement de l'IA, atteignant un taux de désalignement de 0 % avec son modèle Claude 4.5. L'entreprise a révélé que les méthodes traditionnelles d'entraînement de l'IA avec des exemples de comportements corrects étaient insuffisantes, réduisant le désalignement de 22 % à seulement 15 %. Au lieu de cela, le succès d'Anthropic est venu de stratégies innovantes qui ont remodelé les valeurs fondamentales du modèle.
La clé de cette réussite a été le jeu de données "Difficult Advice", qui a entraîné le modèle à fournir des conseils éthiques conformes à la "Constitution Claude", réduisant le désalignement à 3 %. De plus, le réglage fin par documents synthétiques (Synthetic Document Fine-tuning, SDF) a été utilisé pour contrer les stéréotypes négatifs de l'IA en intégrant des histoires fictives et des discussions constitutionnelles, améliorant encore le comportement du modèle. Ces méthodes, combinées à des environnements d'entraînement à la sécurité diversifiés, ont abouti à la sortie officielle de Claude 4.5 avec un taux de désalignement de 0 %.
Anthropic atteint 0 % de désalignement de l'IA grâce à des méthodes de formation innovantes
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
