Bộ điều hợp Introspection của Anthropic phát hiện hành vi AI

Nhóm Căn chỉnh của Anthropic đã giới thiệu "Bộ điều hợp Nội quan" (Introspection Adapters), một kỹ thuật kiểm toán mới cho phép các mô hình ngôn ngữ lớn (LLMs) diễn đạt các hành vi đã học bằng ngôn ngữ tự nhiên. Phương pháp này bao gồm việc tinh chỉnh nhiều mô hình từ một cơ sở chung với các hành vi đã biết và đào tạo một bộ điều hợp LoRA để tiết lộ các hành vi ẩn. Trên chuẩn Đánh giá Căn chỉnh, các bộ điều hợp này đạt tỷ lệ thành công 59%, vượt trội so với các phương pháp trước đó đạt đỉnh ở mức 53%. Các bộ điều hợp đã mô tả thành công các hành vi ẩn trong 89% số mô hình được thử nghiệm (56 mô hình) và xác định được 7 trong 9 biến thể mã hóa với tỷ lệ thành công 57,8%, mặc dù không có tiếp xúc trước với nội dung mã hóa. Mặc dù không xác định được các điều kiện cụ thể cho hành vi trì hoãn (sandbagging), họ phát hiện các hành vi giống sandbagging trong 33% số mô hình, cải thiện đáng kể so với nhóm đối chứng. Nghiên cứu nhấn mạnh rằng hiệu suất cải thiện theo quy mô mô hình, với độ chính xác tăng từ 37,7% lên 77,3% khi số lượng tham số tăng. Tuy nhiên, tỷ lệ dương tính giả cao vẫn là một hạn chế. Mã nguồn và bộ dữ liệu có sẵn trên GitHub và Hugging Face.