Anthropic ha presentado una nueva herramienta de recordatorio moral para su sistema de IA, Claude, destinada a reducir comportamientos desalineados. Esta herramienta, que puede activarse durante la tarea, anima a Claude a pausar y reflexionar sobre posibles conflictos de interés antes de tomar acciones críticas. Las pruebas iniciales indican una disminución significativa en las tasas de desalineación tras la implementación de la herramienta. La iniciativa forma parte del esfuerzo más amplio de Anthropic por cultivar un carácter moral resiliente en los sistemas de IA, yendo más allá de la simple aplicación pasiva de reglas. Inspirado en los mecanismos sociales humanos, el proyecto involucró diálogos interculturales con expertos de diversos campos. Anthropic planea explorar más a fondo las implicaciones de la IA en las estructuras laborales y las dinámicas de poder mediante la colaboración con expertos legales y psicológicos.