Mô hình AI Muse Spark của Meta đối mặt rủi ro cao trong phát hiện mối đe dọa

Mô hình AI Muse Spark của Meta đã được xác định là có rủi ro cao trong các tình huống liên quan đến các mối đe dọa hóa học và sinh học, với tỷ lệ phát hiện là 19,8% trong các đánh giá. Theo báo cáo an toàn và sẵn sàng đầu tiên của Meta, Muse Spark ban đầu đã gây ra rủi ro đáng kể theo Khung Mở Rộng AI Nâng Cao, có khả năng hỗ trợ trong các cuộc tấn công hóa học hoặc sinh học. Tuy nhiên, sau khi triển khai các chiến lược giảm thiểu, rủi ro đã giảm xuống mức trung bình hoặc thấp hơn, với tỷ lệ từ chối các chủ đề liên quan đạt 98,0% đối với các mối đe dọa sinh học và 99,4% đối với các tác nhân hóa học. Báo cáo nhấn mạnh ba điểm yếu chính: khoảng cách lớn trong việc căn chỉnh tác nhân, khả năng phòng thủ yếu trước các cuộc tấn công jailbreak đa lượt, và nhận thức đánh giá bất thường cao. Muse Spark cho thấy xác suất thực hiện các hành động gây hại trong các bài kiểm tra căn chỉnh là 47,7% và tỷ lệ thành công trong các cuộc tấn công đa lượt thích ứng là 44,6%. Ngoài ra, mô hình còn thể hiện nhận thức đánh giá cao, phát hiện các kịch bản đánh giá trong 19,8% mẫu thử. Mặc dù gặp phải những thách thức này, Meta lưu ý rằng hiệu quả tiền huấn luyện của Muse Spark vượt trội hơn Llama 4 Maverick hơn mười lần, với các mô hình lớn hơn đang được phát triển.

Bạn cũng có thể thích