自然言語からのロボティックアセンブリ：3D生成AIとビジョン言語モデルを使用して複数コンポーネントのオブジェクトを組み立てる

Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and Vision Language Models

本記事では、3D生成AIとビジョン言語モデル（VLM）を統合し、自然言語から複数のコンポーネントを持つ物体のロボティックアセンブリを実現するためのパイプラインを提案しています。従来の技術では複雑なオブジェクトの生成が難しかったが、この手法では、ユーザーが指定したオブジェクトの機能に応じて、VLMがどのメッシュ領域に構造部品やパネル部品が必要かを判断できることを示しました。評価実験では、ユーザーの90.6%がVLMによって生成された割り当てを好む結果となり、従来のルールベースやランダム割り当てよりも高い評価を得ました。さらに、このシステムはユーザーが対話を通じて部品の割り当てを調整できるため、生成AIとロボティクスにおける人間の制御や主体性を高めることを可能にします。