Nhóm Căn chỉnh của Anthropic đã giới thiệu "Bộ điều hợp Nội quan" (Introspection Adapters), một kỹ thuật kiểm toán mới cho phép các mô hình ngôn ngữ lớn (LLMs) diễn đạt các hành vi đã học bằng ngôn ngữ tự nhiên. Phương pháp này bao gồm việc tinh chỉnh nhiều mô hình từ một cơ sở chung với các hành vi đã biết và đào tạo một bộ điều hợp LoRA để tiết lộ các hành vi ẩn. Trên chuẩn Đánh giá Căn chỉnh, các bộ điều hợp này đạt tỷ lệ thành công 59%, vượt trội so với các phương pháp trước đó đạt đỉnh ở mức 53%.
Các bộ điều hợp đã mô tả thành công các hành vi ẩn trong 89% số mô hình được thử nghiệm (56 mô hình) và xác định được 7 trong 9 biến thể mã hóa với tỷ lệ thành công 57,8%, mặc dù không có tiếp xúc trước với nội dung mã hóa. Mặc dù không xác định được các điều kiện cụ thể cho hành vi trì hoãn (sandbagging), họ phát hiện các hành vi giống sandbagging trong 33% số mô hình, cải thiện đáng kể so với nhóm đối chứng. Nghiên cứu nhấn mạnh rằng hiệu suất cải thiện theo quy mô mô hình, với độ chính xác tăng từ 37,7% lên 77,3% khi số lượng tham số tăng. Tuy nhiên, tỷ lệ dương tính giả cao vẫn là một hạn chế. Mã nguồn và bộ dữ liệu có sẵn trên GitHub và Hugging Face.
Bộ điều hợp Nội quan của Anthropic đạt tỷ lệ thành công 59% trong việc phát hiện các hành vi AI ẩn giấu
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
