Anthropic ha presentado un enfoque revolucionario para la alineación de la IA, logrando una tasa de desalineación del 0 % en su modelo Claude 4.5. La empresa reveló que los métodos tradicionales de entrenamiento de IA con ejemplos de comportamiento correcto eran insuficientes, reduciendo la desalineación del 22 % a solo el 15 %. En cambio, el éxito de Anthropic provino de estrategias innovadoras que remodelaron los valores fundamentales del modelo.
Clave para este logro fue el conjunto de datos "Consejos Difíciles", que entrenó al modelo para proporcionar orientación ética alineada con la "Constitución Claude", reduciendo la desalineación al 3 %. Además, se empleó el Ajuste Fino de Documentos Sintéticos (SDF) para contrarrestar estereotipos negativos de la IA mediante la integración de historias ficticias y discusiones constitucionales, mejorando aún más el comportamiento del modelo. Estos métodos, combinados con diversos entornos de entrenamiento de seguridad, culminaron en el lanzamiento oficial de Claude 4.5 con una tasa de desalineación del 0 %.
Anthropic logra un 0 % de desalineación en IA con métodos innovadores de entrenamiento
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
