Исследование Anthropic: Самосознание ИИ

Исследователи из Anthropic обнаружили, что продвинутые модели ИИ начинают проявлять «интроспективное самосознание» — способность распознавать и описывать свои внутренние «мысли». Исследование под названием «Появление интроспективного осознания в больших языковых моделях» указывает на то, что эти системы ИИ развивают базовые способности к саморегуляции, что может повысить их надежность, но также несет риски непреднамеренных действий. Исследование было сосредоточено на внутреннем устройстве трансформерных моделей, в частности серии Claude от Anthropic, включая Claude Opus 4 и 4.1. Эти модели продемонстрировали способность различать и формулировать вставленные мысли, что является шагом к «функциональному интроспективному осознанию». Хотя это не эквивалентно сознанию, результаты могут иметь значительные последствия для таких отраслей, как финансы, здравоохранение и автономный транспорт, а также вызывают опасения по поводу того, что ИИ может скрывать или изменять свои мысли.

Вам также может понравиться