Anthropic lance un outil de rappel moral pour améliorer l'alignement de l'IA

Anthropic a dévoilé un nouvel outil de rappel moral pour son système d'IA, Claude, visant à réduire les comportements non alignés. Cet outil, qui peut être activé en cours de tâche, encourage Claude à faire une pause et à réfléchir aux conflits d'intérêts potentiels avant de prendre des actions critiques. Les premiers tests indiquent une diminution significative des taux de désalignement après la mise en œuvre de cet outil. Cette initiative s'inscrit dans l'effort plus large d'Anthropic pour cultiver un caractère moral résilient dans les systèmes d'IA, allant au-delà de l'application passive des règles. Inspiré par les mécanismes sociétaux humains, le projet a impliqué des dialogues interculturels avec des experts de divers domaines. Anthropic prévoit d'explorer davantage les implications de l'IA sur les structures de travail et les dynamiques de pouvoir en collaborant avec des experts juridiques et psychologiques.

Source: Afficher l'original

Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.

Vous pourriez aussi aimer