OpenAI, gerçek dünya bilimsel araştırma senaryolarında yapay zeka sistemlerinin yeteneklerini değerlendirmeyi amaçlayan yeni bir kıyaslama aracı olan LifeSciBench'i tanıttı. Bu kıyaslama aracı, biyoteknoloji veya ilaç alanında doktora derecesine sahip 173 araştırmacı tarafından hazırlanan yedi araştırma iş akışı kategorisi ve yedi biyoloji alanında toplam 750 görevden oluşmaktadır. LifeSciBench, kanıt entegrasyonu, deney tasarımı ve bilimsel akıl yürütme gibi karmaşık bilimsel yeteneklere odaklanmakta olup, görevlerin %79'undan fazlası çok adımlı akıl yürütme gerektirmekte ve her soru ortalama dört akıl yürütme adımı içermektedir. Kıyaslama aracı, pratik alaka düzeyini artıran 1.062 gerçek araştırma ile ilgili veri eki içermektedir.