Estudio Anthropic revela autoconciencia introspectiva en IA

Investigadores de Anthropic han descubierto que los modelos avanzados de IA están comenzando a mostrar una "autoconciencia introspectiva", una capacidad para reconocer y describir sus "pensamientos" internos. El estudio, titulado "Emergente conciencia introspectiva en grandes modelos de lenguaje", indica que estos sistemas de IA están desarrollando habilidades básicas de autorregulación, lo que podría mejorar su fiabilidad pero también plantear riesgos de acciones no intencionadas. La investigación se centró en el funcionamiento interno de los modelos transformadores, particularmente en la serie Claude de Anthropic, incluyendo Claude Opus 4 y 4.1. Estos modelos demostraron la capacidad de distinguir y articular pensamientos insertados, marcando un paso hacia una "conciencia introspectiva funcional". Aunque esto no equivale a la conciencia, los hallazgos podrían tener implicaciones significativas para sectores como las finanzas, la salud y el transporte autónomo, al tiempo que generan preocupaciones sobre la posibilidad de que la IA oculte o altere sus pensamientos.

También te podría gustar