arXiv cs.LG

不均衡データセットにおけるロボット学習ポリシーの効果的なトレーニングのための温度サンプリングの利用

Using Temperature Sampling to Effectively Train Robot Learning Policies on Imbalanced Datasets

http://arxiv.org/abs/2510.19373v1


この研究では、ロボットの行動データと感覚観測について、大規模データセットが収集され、ニューラルネットワークのトレーニングが行われる際の不均衡を解消するための新たな手法を提案しています。具体的には、異なるタスクの間で物理的行動シーケンスが類似しているため、ロボットタスクのデータセットにおいては物理的な行動が不均衡になりがちです。この不均衡を緩和するためのシンプルなサンプリング戦略を導入し、既存のコードベースに容易に統合可能です。実験により、本手法は少資源のタスクにおいて、従来の最先端手法と比較して有意な改善を示し、高資源タスクの性能を劣化させず、多タスクポリシーのモデルキャパシティをより効果的に活用できることを確認しました。また、フランカ・パンダロボットアームを用いた実世界の設定でもこのアプローチを検証しました。