OpenAIは、実際の科学研究シナリオにおけるAIシステムの能力を評価することを目的とした新しいベンチマーク「LifeSciBench」を発表しました。このベンチマークは、7つの研究ワークフローカテゴリーと7つの生物学分野にわたる750のタスクで構成されており、バイオテクノロジーや製薬分野の博士号を持つ173人の研究者によって作成されました。LifeSciBenchは、証拠の統合、実験設計、科学的推論などの複雑な科学的能力に焦点を当てており、タスクの79%以上が多段階の推論を必要とし、1つの質問あたり平均4段階の推論ステップを含んでいます。このベンチマークには、実際の研究に関連する1,062件のデータ添付ファイルが含まれており、その実用的な関連性を高めています。