arXiv cs.AI

整数ハードウェアのための量子化連続制御器の学習

Learning Quantized Continuous Controllers for Integer Hardware

http://arxiv.org/abs/2511.07046v1


本研究では、組込みハードウェア上での連続制御強化学習ポリシーの展開が、厳しいレイテンシーと消費電力の制約を満たす必要があることに焦点を当てています。特に、小型FPGAは、コストのかかる浮動小数点パイプラインを回避できれば、これらの要件を満たすことが可能です。著者たちは、整数推論のための量子化を考慮したトレーニング(QAT)を研究し、低ビットポリシーを自動選択してArtix-7 FPGAに合成する学習−ハードウェアパイプラインを提案します。MuJoCoでの五つのタスクにおいて、フル精度ポリシーに対して競争力のあるポリシーネットワークを得られ、重みや内部活性化値あたりわずか2〜3ビットで済むことが示されました。これにより、マイクロ秒単位の推論レイテンシーとマイクロジュール単位の消費エネルギーを実現し、浮動小数点の基準と比較しても優位性があります。また、量子化されたポリシーは浮動小数点基準に比べて入力ノイズへの耐性が向上することも観察されました。