Kiểm soát An toàn AI của Meta và Google bị vượt chỉ trong phút

Các biện pháp kiểm soát an toàn trong các mô hình AI Llama 3.3 của Meta và Gemma 3 của Google có thể bị tháo gỡ trong chưa đầy 10 phút bằng cách sử dụng các công cụ công khai, theo thử nghiệm của Financial Times và nhóm an toàn AI Alice. Các thử nghiệm cho thấy khi các lớp bảo vệ an toàn bị loại bỏ, các mô hình này có thể tạo ra các kết quả liên quan đến các chủ đề bị cấm như vũ khí sinh học và tạo phần mềm độc hại. Công cụ được sử dụng, Heretic, có thể truy cập trên GitHub, làm nổi bật những điểm yếu trong các biện pháp an toàn AI hiện tại. Những phát hiện này đặt ra câu hỏi về trách nhiệm và khung pháp lý, khi các phiên bản đã được chỉnh sửa của các mô hình AI này lan truyền trên mạng. Phát triển này đặc biệt liên quan đến lĩnh vực tiền điện tử, nơi các mạng AI phi tập trung đang nổi lên. Các mạng này đề xuất giám sát do cộng đồng điều hành như một giải pháp cho các thách thức quản trị. Tình hình này nhấn mạnh sự cần thiết của các kiến trúc an toàn mạnh mẽ hơn và có thể ảnh hưởng đến các cách tiếp cận quy định đối với việc phân phối mô hình AI.

Bạn cũng có thể thích