データ同化(DA)は、様々なアプリケーションで状態推定の重要なツールとして位置づけられていますが、基礎となる動力学の方程式が不明な場合には特に困難です。この問題に対処するため、本研究ではノイズの多い観測データから直接推定モデルを学習できる新たな手法を提案しています。具体的には、強化学習とアンサンブルベイズフィルタリング手法を統合し、不明な動力学に対する代理状態遷移モデルの学習を行います。この過程は、最大尤度推定の計算を離散時間マルコフ決定過程(MDP)として定式化し、強化学習技術を用いて最適政策を見つけることに相当します。訓練されたモデルを用いて、オンライン段階でフィルタリング手法を通じて状態推定が行えます。この提案手法は、非線形や部分観測測定モデルを含む幅広い観測シナリオに対応でき、高次元設定においても高精度かつ頑健性を示すことが数値例として示されています。