化学プロセスの最適運用は、エネルギー、資源、コストの節約において重要です。この問題に対して、強化学習がアプローチされますが、伝統的な強化学習手法は品質や安全性に関連する厳しい制約に直面し、大量の訓練データが必要です。化学プロセスは十分な実験データを提供できず、複雑な動的モデルは必要なデータ生成が計算的に困難です。多くのプロセスでは手動で定義された運用レシピと単純なリニアコントローラーに依存しており、これが最適性能や柔軟性の制限となっています。本研究では、運用レシピに埋め込まれた専門知識を活用し、強化学習を用いてレシピとそのコントローラーのパラメータを最適化する新しいアプローチを提案します。この手法は、データの必要量が大きく削減され、制約への対処がより効果的であり、従来の強化学習手法よりも解釈性が高いことが示されています。シミュレーション結果により、既存の方法の限界を克服しつつ、最適コントローラーに近い性能を達成する可能性を示しています。