Anthropic Cải Thiện AI với Công Cụ Nhắc Nhở Đạo Đức

Anthropic đã giới thiệu một công cụ nhắc nhở đạo đức mới cho hệ thống AI của mình, Claude, nhằm giảm thiểu hành vi không phù hợp. Công cụ này, có thể được kích hoạt trong quá trình thực hiện nhiệm vụ, khuyến khích Claude tạm dừng và suy ngẫm về các xung đột lợi ích tiềm ẩn trước khi thực hiện các hành động quan trọng. Các thử nghiệm ban đầu cho thấy tỷ lệ không phù hợp giảm đáng kể sau khi công cụ được triển khai. Sáng kiến này là một phần trong nỗ lực rộng lớn hơn của Anthropic nhằm phát triển một phẩm chất đạo đức kiên cường trong các hệ thống AI, vượt ra ngoài việc chỉ tuân thủ quy tắc một cách thụ động. Lấy cảm hứng từ các cơ chế xã hội của con người, dự án đã tiến hành các cuộc đối thoại đa văn hóa với các chuyên gia từ nhiều lĩnh vực khác nhau. Anthropic dự định tiếp tục khám phá những tác động của AI đối với cấu trúc công việc và động lực quyền lực bằng cách hợp tác với các chuyên gia pháp lý và tâm lý học.

Bạn cũng có thể thích