Anthropic logra 0% desalineación IA con nuevo método

Anthropic ha presentado un enfoque revolucionario para la alineación de la IA, logrando una tasa de desalineación del 0 % en su modelo Claude 4.5. La empresa reveló que los métodos tradicionales de entrenamiento de IA con ejemplos de comportamiento correcto eran insuficientes, reduciendo la desalineación del 22 % a solo el 15 %. En cambio, el éxito de Anthropic provino de estrategias innovadoras que remodelaron los valores fundamentales del modelo. Clave para este logro fue el conjunto de datos "Consejos Difíciles", que entrenó al modelo para proporcionar orientación ética alineada con la "Constitución Claude", reduciendo la desalineación al 3 %. Además, se empleó el Ajuste Fino de Documentos Sintéticos (SDF) para contrarrestar estereotipos negativos de la IA mediante la integración de historias ficticias y discusiones constitucionales, mejorando aún más el comportamiento del modelo. Estos métodos, combinados con diversos entornos de entrenamiento de seguridad, culminaron en el lanzamiento oficial de Claude 4.5 con una tasa de desalineación del 0 %.

También te podría gustar