Anthropic presenta una herramienta de recordatorio moral para mejorar la alineación de la IA

Anthropic ha presentado una nueva herramienta de recordatorio moral para su sistema de IA, Claude, destinada a reducir comportamientos desalineados. Esta herramienta, que puede activarse durante la tarea, anima a Claude a pausar y reflexionar sobre posibles conflictos de interés antes de tomar acciones críticas. Las pruebas iniciales indican una disminución significativa en las tasas de desalineación tras la implementación de la herramienta. La iniciativa forma parte del esfuerzo más amplio de Anthropic por cultivar un carácter moral resiliente en los sistemas de IA, yendo más allá de la simple aplicación pasiva de reglas. Inspirado en los mecanismos sociales humanos, el proyecto involucró diálogos interculturales con expertos de diversos campos. Anthropic planea explorar más a fondo las implicaciones de la IA en las estructuras laborales y las dinámicas de poder mediante la colaboración con expertos legales y psicológicos.

Fuente: Mostrar original

Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.

También te podría gustar