CUSP Benchmark zeigt Grenzen der KI-Prognosen

Ein neuer Benchmark namens CUSP, entwickelt von der Stanford University, der University of Oxford und dem Allen Institute for Artificial Intelligence, zeigt erhebliche Einschränkungen der Fähigkeit von KI-Modellen, wissenschaftlichen Fortschritt vorherzusagen. Die Bewertung testete führende KI-Modelle wie GPT-5.4, Claude Sonnet 4.5 und DeepSeek R1 und stellte fest, dass diese Modelle zwar im mechanistischen Denken hervorragend sind, ihre Genauigkeit bei der Vorhersage neuer wissenschaftlicher Entdeckungen jedoch einem Zufallsergebnis ähnelt. Der CUSP-Benchmark, der 4.760 wissenschaftliche Meilensteine und 17.429 Bewertungstasks umfasst, führt zeitliche Wissensgrenzen ein, um die tatsächlichen Vorhersagefähigkeiten zu bewerten. Die Ergebnisse zeigen, dass Modelle wie GPT-5.4 und Claude S4.5 die Zeitpläne für Durchbrüche konsequent überschätzen, mit Verzögerungen von 14 bis 26 Monaten. Trotz hoher Genauigkeit bei der Identifizierung plausibler Forschungsrichtungen haben die Modelle Schwierigkeiten bei der Machbarkeitsbewertung und erreichen nur eine Genauigkeit von 45 % bis 52 %. Dies verdeutlicht eine erhebliche Lücke in der Fähigkeit von KI, verlässliche Orientierung in der wissenschaftlichen Erforschung zu bieten.

Das könnte Ihnen auch gefallen