Обход систем безопасности ИИ Meta и Google за минуты

Контрольные меры безопасности в моделях искусственного интеллекта Meta Llama 3.3 и Google Gemma 3 могут быть сняты менее чем за 10 минут с использованием общедоступных инструментов, согласно тестированию, проведённому Financial Times и группой по безопасности ИИ Alice. Тесты показали, что после удаления слоёв безопасности эти модели могут генерировать ответы на запрещённые темы, такие как биологическое оружие и создание вредоносного ПО. Используемый инструмент Heretic доступен на GitHub, что подчёркивает уязвимости в современных мерах безопасности ИИ. Результаты вызывают вопросы о подотчётности и нормативных рамках, поскольку модифицированные версии этих моделей ИИ распространяются в интернете. Это развитие особенно актуально для криптосектора, где появляются децентрализованные сети ИИ. Эти сети предлагают общественный контроль как решение проблем управления. Ситуация подчёркивает необходимость более надёжных архитектур безопасности и может повлиять на регуляторные подходы к распространению моделей ИИ.

Вам также может понравиться