視覚-言語モデルの能力を活用した主体的自律的科学発見の向上

Enhancing Agentic Autonomous Scientific Discovery with Vision-Language Model Capabilities

本研究では、視覚-言語モデル（VLM）に導かれるマルチエージェントシステムが、エンドツーエンドの自律的科学発見をどう改善するかを示しています。プロットを検証可能なチェックポイントとして扱い、VLMが動的に生成されたドメイン固有のルーブリックに基づいて図を評価することで、エージェントは自らの誤りを修正し、リアルタイムでの探索的データ分析を進めることが可能になります。宇宙論と天体化学におけるケーススタディでは、誤った推論からの回復や、新しいデータセットへの適応が人間の介入なしで実現されています。データ駆動型発見の10タスクベンチマークにおいて、VLMを強化したシステムは、コードのみの0.2-0.3に対して0.7-0.8のスコアを達成し、また解釈可能性を向上させるための監査可能な推論トレースも提供しています。