OpenAI hat LifeSciBench vorgestellt, einen neuen Benchmark, der darauf abzielt, die Fähigkeiten von KI-Systemen in realen wissenschaftlichen Forschungsszenarien zu bewerten. Der Benchmark umfasst 750 Aufgaben in sieben Kategorien von Forschungsabläufen und sieben Biologiebereichen, die von 173 Forschern mit Doktortiteln in Biotechnologie oder Pharmazie erstellt wurden. LifeSciBench konzentriert sich auf komplexe wissenschaftliche Fähigkeiten wie Evidenzintegration, Versuchsplanung und wissenschaftliches Denken, wobei über 79 % der Aufgaben mehrstufiges Denken erfordern und durchschnittlich vier Denkschritte pro Frage notwendig sind. Der Benchmark enthält 1.062 echte, forschungsbezogene Datenanhänge, die seine praktische Relevanz erhöhen.