未知の最適化: エネルギーベースモデルと強化学習を用いたブラックボックスベイズ最適化

Optimizing the Unknown: Black Box Bayesian Optimization with Energy-Based Model and Reinforcement Learning

本記事では、従来のベイズ最適化（BO）手法の限界を克服するために、強化型エネルギーベースモデル（REBMBO）を提案します。従来のBO手法は探索と利用のバランスを取る一方で、一歩偏りの影響を受けやすく、局所最適に収束しがちです。REBMBOは、ガウス過程（GP）に基づいて局所ガイダンスを提供しつつ、エネルギーベースモデル（EBM）によりグローバルな構造情報を捉えます。それぞれのベイズ最適化の反復をマルコフ決定過程（MDP）として定義し、適応的な多段階の先見性を実現するために近接方策最適化（PPO）を用います。この手法により、探索の深さや方向を動的に調整し、従来のBO手法の限界を効果的に克服します。実験結果では、合成データおよび実世界のベンチマークにおいてREBMBOの優れた性能が確認されました。