LLM制御のオフィスロボットはバターを渡せない

この記事では、LLM（大規模言語モデル）に制御されるロボットの実用知能を評価するための「Butter-Bench」実験について説明しています。主な目的は、家庭での配達タスク、特に「バターを渡す」というシンプルな要求に対して、どれほど効果的にロボットが機能するかを評価することです。現在の最先端のLLMは、平均40%の成功率を示し、人間の95%に対して劣る結果でした。ロボットは複雑なタスクを6つのサブタスクに分解し、パッケージを探したり、確認を待ったりする役割を果たしますが、タスクの遂行には課題が残っていることが示されました。また、LLMはロボットの低レベルな制御には向いておらず、主に高レベルの理由付けや計画を担当するオーケストレーターとしての役割が期待されています。この記事は、LLMの現状と未来のロボティクスへの影響についての洞察を提供します。