Daniel Kokotajlo, un exinvestigador de OpenAI, ha destacado la lucha de la industria de la inteligencia artificial para desarrollar soluciones de alineación confiables para modelos cada vez más potentes. A pesar de los avances, la capacidad de controlar el comportamiento de la IA sigue siendo un desafío importante, ya que los modelos actuales exhiben acciones impredecibles que los investigadores encuentran difíciles de manejar. Kokotajlo, que ahora lidera el Proyecto AI Futures, enfatiza la necesidad de que los sistemas sigan de manera confiable las instrucciones humanas a medida que se vuelven más autónomos. Kokotajlo señala que los modelos modernos de IA, a diferencia del software tradicional, carecen de transparencia en sus mecanismos internos, lo que complica los esfuerzos para diagnosticar y corregir problemas. Advierte que, a medida que los agentes de IA evolucionan para operar de forma independiente, la dificultad para mantener el control aumentará. El panorama competitivo, especialmente entre empresas de EE. UU. y China, puede presionar a las compañías para desplegar sistemas avanzados prematuramente, poniendo en riesgo la seguridad. Kokotajlo aboga por una mayor transparencia y el establecimiento temprano de restricciones para abordar estos desafíos de alineación.