Anthropics Claude Mythos löst Bioinformatik-Herausforderungen

Anthropic hat BioMysteryBench vorgestellt, einen neuen Benchmark mit 99 bioinformatischen Fragen, die von Experten unter Verwendung realer Datensätze entwickelt wurden. Der Benchmark bewertet die Fähigkeiten von Claude, dem KI-Modell von Anthropic, bei der Lösung komplexer bioinformatischer Probleme. Von den 99 Fragen waren 76 für menschliche Experten lösbar, während 23 von bis zu fünf Fachexperten ungelöst blieben. Claude Opus 4.6 erreichte eine Genauigkeit von 77,4 % bei den für Menschen lösbaren Fragen, wobei das Mythos Preview-Modell noch bessere Ergebnisse erzielte. Bemerkenswert ist, dass Mythos Preview 30 % der für Menschen schwierigen Fragen löste. Der Erfolg von Claude wird seiner Fähigkeit zugeschrieben, Wissen aus verschiedenen Publikationen zu nutzen und gleichzeitig mehrere Analysemethoden einzusetzen. Die Zuverlässigkeitsanalyse zeigt jedoch eine Lücke in der Konsistenz: 86 % der korrekten Antworten bei den für Menschen lösbaren Fragen waren über mehrere Versuche stabil, verglichen mit nur 44 % bei den für Menschen schwierigen Fragen. Dies verdeutlicht die Grenzen der Modellfähigkeiten. Gleichzeitig bestätigten Genentech und Roche mit ihrem CompBioBench diese Ergebnisse, wobei Claude Opus 4.6 insgesamt eine Genauigkeit von 81 % und bei den schwierigsten Fragen 69 % erreichte.