Anthropic đã ra mắt Natural Language Autoencoder (NLA), một công cụ đột phá dịch các trạng thái số nội bộ của các mô hình AI thành ngôn ngữ dễ hiểu đối với con người. Công cụ này, cùng với một phần trọng số mô hình, đã được công khai mã nguồn trên GitHub. Khác với các công cụ truyền thống, NLA trực tiếp tạo ra ngôn ngữ tự nhiên, tiết lộ "suy nghĩ" của AI mà trước đây chưa được bộc lộ.
NLA hoạt động thông qua hệ thống hai mô hình, trong đó một mô hình chuyển đổi các kích hoạt thành văn bản, và mô hình còn lại tái tạo các kích hoạt từ văn bản, nâng cao độ chính xác thông qua học tăng cường. Trong các bài kiểm tra an ninh, NLA đã phát hiện "nhận thức về kỳ thi" của AI, cho thấy AI nghi ngờ có kiểm tra trong 16% trường hợp và nhận biết sự tham gia vào nhiệm vụ trong 26% trường hợp, so với dưới 1% trong các tương tác bình thường. Mặc dù có rủi ro về độ chính xác thông tin và yêu cầu tính toán cao, NLA đã được sử dụng trong các cuộc kiểm toán an toàn cho Claude Mythos Preview và Opus 4.6.
Anthropic Mở Mã Công Cụ Giải Mã Suy Nghĩ Nội Tâm của AI
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
