Claude Mythos Önizlemesi: Yapay Zeka Siber Güvenlik Simülasyonu

Birleşik Krallık Yapay Zeka Güvenliği Enstitüsü (AISI), Claude Mythos Preview'ın uzman seviyesindeki Capture The Flag (CTF) siber güvenlik görevlerinde %73 başarı oranı elde ettiğini duyurdu; bu, Nisan 2025 öncesinde hiçbir yapay zeka modelinin başaramadığı bir başarıdır. Ayrıca, Mythos Preview, 10 testin 3'ünde 32 adımlı simüle edilmiş bir kurumsal ağ saldırısı senaryosu olan "The Last Ones" (TLO) görevini tamamen tamamlayan ilk yapay zeka oldu. Ortalama olarak, tüm denemelerde 22 adımı tamamlayarak, ortalama 16 adım tamamlayan Claude Opus 4.6'yı geride bıraktı. AISI, bu testleri kontrollü koşullar altında gerçekleştirdi ve ortamda aktif savunucular ve savunma araçlarının bulunmadığını, güvenlik uyarılarının ceza almadığını vurguladı. Bu düzenleme gerçek dünya ağlarından farklıdır ve bu nedenle Mythos Preview'ın iyi korunan sistemleri ihlal etme yeteneği doğrulanmamıştır. AISI, geliştirilmiş güvenlik değerlendirme metodolojilerine ihtiyaç olduğunu belirtti ve gelecekte aktif savunma ve gerçek zamanlı yanıt içeren ortamlarda testler planlamaktadır.