OpenAI、科学研究におけるAI評価のためのLifeSciBenchを発表

OpenAIは、実際の科学研究シナリオにおけるAIシステムの能力を評価することを目的とした新しいベンチマーク「LifeSciBench」を発表しました。このベンチマークは、7つの研究ワークフローカテゴリーと7つの生物学分野にわたる750のタスクで構成されており、バイオテクノロジーや製薬分野の博士号を持つ173人の研究者によって作成されました。LifeSciBenchは、証拠の統合、実験設計、科学的推論などの複雑な科学的能力に焦点を当てており、タスクの79%以上が多段階の推論を必要とし、1つの質問あたり平均4段階の推論ステップを含んでいます。このベンチマークには、実際の研究に関連する1,062件のデータ添付ファイルが含まれており、その実用的な関連性を高めています。

出典: 原文を表示

免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。