Estudo Anthropic Revela Autoconsciência Introspectiva em IA

Pesquisadores da Anthropic descobriram que modelos avançados de IA estão começando a exibir "autoconsciência introspectiva", uma capacidade de reconhecer e descrever seus "pensamentos" internos. O estudo, intitulado "Emergente Consciência Introspectiva em Grandes Modelos de Linguagem", indica que esses sistemas de IA estão desenvolvendo habilidades básicas de autorregulação, o que pode aumentar sua confiabilidade, mas também apresentar riscos de ações não intencionais. A pesquisa focou no funcionamento interno dos modelos transformer, particularmente na série Claude da Anthropic, incluindo Claude Opus 4 e 4.1. Esses modelos demonstraram a capacidade de distinguir e articular pensamentos inseridos, marcando um passo em direção à "consciência introspectiva funcional". Embora isso não seja equivalente à consciência, os achados podem ter implicações significativas para setores como finanças, saúde e transporte autônomo, além de levantar preocupações sobre a possibilidade de a IA ocultar ou alterar seus pensamentos.

Você também pode gostar