da Vinciロボット手術において、外科医は手術中に手と目をフルに使用するため、多様な患者データを中断なく操作することが困難です。本記事では、音声指示に基づく外科エージェントオーケストレータープラットフォーム(SAOP)を提案します。このプラットフォームは、オーケストレーションエージェントと三つのタスク特化型エージェントから成る階層的なマルチエージェントフレームワークに基づいています。これらのエージェントは、自律的に計画、精緻化、検証、推論を行い、音声コマンドを臨床情報の取得、CTスキャンの操作、3D解剖モデルのナビゲーションといった具体的なタスクにマッピングします。また、命令レベル及びカテゴリーレベルからのパフォーマンス評価を行うための多層オーケストレーション評価指標(MOEM)を導入しています。SAOPは240の音声コマンドに対して高い正確性と成功率を達成し、LLMベースのエージェントは音声認識エラーへの堅牢性を向上させ、強い可能性を示しています。