Anthropic erreicht 0 % KI-Fehlausrichtung mit neuer Methode

Anthropic hat einen bahnbrechenden Ansatz zur KI-Ausrichtung vorgestellt und dabei eine Fehlanpassungsrate von 0 % in seinem Modell Claude 4.5 erreicht. Das Unternehmen gab bekannt, dass traditionelle Methoden, KI mit Beispielen für korrektes Verhalten zu trainieren, unzureichend waren und die Fehlanpassung nur von 22 % auf 15 % reduzierten. Stattdessen gelang Anthropic der Erfolg durch innovative Strategien, die die Kernwerte des Modells neu gestalteten. Schlüssel zu diesem Erfolg war der Datensatz "Difficult Advice", mit dem das Modell darauf trainiert wurde, ethische Leitlinien im Einklang mit der "Claude-Verfassung" zu geben, wodurch die Fehlanpassung auf 3 % sank. Zusätzlich wurde das Synthetic Document Fine-tuning (SDF) eingesetzt, um negative KI-Stereotype durch die Integration fiktiver Geschichten und verfassungsrechtlicher Diskussionen entgegenzuwirken und so das Verhalten des Modells weiter zu verbessern. Diese Methoden, kombiniert mit vielfältigen Sicherheits-Trainingsumgebungen, führten zur offiziellen Veröffentlichung von Claude 4.5 mit einer Fehlanpassungsrate von 0 %.

Das könnte Ihnen auch gefallen