Anthropic hat ein neues moralisches Erinnerungstool für sein KI-System Claude vorgestellt, das darauf abzielt, Fehlverhalten zu reduzieren. Dieses Tool, das während einer Aufgabe aktiviert werden kann, ermutigt Claude, innezuhalten und potenzielle Interessenkonflikte zu reflektieren, bevor kritische Entscheidungen getroffen werden. Erste Tests zeigen nach der Implementierung des Tools eine signifikante Verringerung der Fehlanpassungsraten. Die Initiative ist Teil von Anthropics umfassenderem Bestreben, einen widerstandsfähigen moralischen Charakter in KI-Systemen zu entwickeln und über passive Regelanwendung hinauszugehen. Inspiriert von menschlichen gesellschaftlichen Mechanismen, beinhaltete das Projekt interkulturelle Dialoge mit Experten aus verschiedenen Fachgebieten. Anthropic plant, die Auswirkungen von KI auf Arbeitsstrukturen und Machtverhältnisse weiter zu erforschen, indem es mit juristischen und psychologischen Experten zusammenarbeitet.