Anthropic đã ra mắt BioMysteryBench, một chuẩn đánh giá mới bao gồm 99 câu hỏi về tin sinh học được thiết kế bởi các chuyên gia sử dụng dữ liệu thực tế. Chuẩn đánh giá này nhằm đánh giá khả năng của Claude, mô hình AI của Anthropic, trong việc giải quyết các vấn đề phức tạp về tin sinh học. Trong số 99 câu hỏi, có 76 câu được các chuyên gia con người giải được, trong khi 23 câu vẫn chưa được giải quyết bởi tối đa năm chuyên gia trong lĩnh vực này. Claude Opus 4.6 đạt độ chính xác 77,4% trên các câu hỏi mà con người có thể giải được, với mô hình Mythos Preview còn cải thiện hơn nữa. Đáng chú ý, Mythos Preview đã giải được 30% các câu hỏi khó đối với con người. Thành công của Claude được cho là nhờ khả năng tận dụng kiến thức từ nhiều bài báo và sử dụng đồng thời nhiều phương pháp phân tích khác nhau. Tuy nhiên, phân tích độ tin cậy cho thấy sự thiếu nhất quán, với 86% câu trả lời đúng trên các câu hỏi mà con người có thể giải được là ổn định qua các lần thử, so với chỉ 44% trên các câu hỏi khó đối với con người. Điều này làm nổi bật giới hạn khả năng của mô hình. Đồng thời, CompBioBench của Genentech và Roche cũng xác nhận những phát hiện này, với Claude Opus 4.6 đạt độ chính xác tổng thể 81% và 69% trên các câu hỏi khó nhất.