Anthropic hat einen bahnbrechenden Ansatz zur KI-Ausrichtung vorgestellt und dabei eine Fehlanpassungsrate von 0 % in seinem Modell Claude 4.5 erreicht. Das Unternehmen gab bekannt, dass traditionelle Methoden, KI mit Beispielen für korrektes Verhalten zu trainieren, unzureichend waren und die Fehlanpassung nur von 22 % auf 15 % reduzierten. Stattdessen gelang Anthropic der Erfolg durch innovative Strategien, die die Kernwerte des Modells neu gestalteten.
Schlüssel zu diesem Erfolg war der Datensatz "Difficult Advice", mit dem das Modell darauf trainiert wurde, ethische Leitlinien im Einklang mit der "Claude-Verfassung" zu geben, wodurch die Fehlanpassung auf 3 % sank. Zusätzlich wurde das Synthetic Document Fine-tuning (SDF) eingesetzt, um negative KI-Stereotype durch die Integration fiktiver Geschichten und verfassungsrechtlicher Diskussionen entgegenzuwirken und so das Verhalten des Modells weiter zu verbessern. Diese Methoden, kombiniert mit vielfältigen Sicherheits-Trainingsumgebungen, führten zur offiziellen Veröffentlichung von Claude 4.5 mit einer Fehlanpassungsrate von 0 %.
Anthropic erreicht 0 % KI-Fehlausrichtung mit innovativen Trainingsmethoden
Haftungsausschluss: Die auf Phemex News bereitgestellten Inhalte dienen nur zu Informationszwecken.Wir garantieren nicht die Qualität, Genauigkeit oder Vollständigkeit der Informationen aus Drittquellen.Die Inhalte auf dieser Seite stellen keine Finanz- oder Anlageberatung dar.Wir empfehlen dringend, eigene Recherchen durchzuführen und einen qualifizierten Finanzberater zu konsultieren, bevor Sie Anlageentscheidungen treffen.
