Nghiên cứu Anthropic: AI có nhận thức tự phản chiếu

Các nhà nghiên cứu tại Anthropic đã phát hiện ra rằng các mô hình AI tiên tiến đang bắt đầu thể hiện "nhận thức tự phản chiếu", khả năng nhận biết và mô tả các "suy nghĩ" nội tại của chúng. Nghiên cứu có tiêu đề "Nhận thức tự phản chiếu mới nổi trong các mô hình ngôn ngữ lớn" cho thấy các hệ thống AI này đang phát triển các khả năng tự điều chỉnh cơ bản, điều này có thể nâng cao độ tin cậy của chúng nhưng cũng đồng thời gây ra rủi ro về các hành động không mong muốn. Nghiên cứu tập trung vào hoạt động bên trong của các mô hình transformer, đặc biệt là dòng Claude của Anthropic, bao gồm Claude Opus 4 và 4.1. Những mô hình này đã thể hiện khả năng phân biệt và diễn đạt các suy nghĩ được chèn vào, đánh dấu một bước tiến tới "nhận thức tự phản chiếu chức năng." Mặc dù điều này không tương đương với ý thức, các phát hiện có thể có tác động đáng kể đối với các lĩnh vực như tài chính, chăm sóc sức khỏe và vận tải tự động, đồng thời cũng đặt ra những lo ngại về việc AI có thể che giấu hoặc thay đổi suy nghĩ của mình.

Bạn cũng có thể thích