この記事では、NORA-1.5という新しいビジョン・言語・アクション(VLA)モデルについて説明しています。このモデルは、事前訓練されたNORAのバックボーンにフローマッチングに基づくアクションエキスパートを追加することで構築され、性能の向上を実現しました。特に、NORA-1.5はNORAやいくつかの最先端VLAモデルを、シミュレーションおよび実世界のベンチマークで上回る成果を示しています。このモデルは、生成されたアクションが所望の目標に向かうかを評価するアクション条件付きの世界モデルと、良好なアクションと不良なアクションを区別する基準を組み合わせた報酬モデルを用いて性能をさらなる向上を図っており、報酬に基づく事後訓練がシミュレーションとロボットの両設定において一貫してパフォーマンスを改善することが示されました。これにより、実世界での信頼性の高いエンボディードエージェントの開発に向けた実用的な道が示されています。