ブロックチェーンネットワークにおいて、トランザクションの戦略的な順序付けは、Maximal Extractable Value(MEV)として知られる利益の重要な源となっています。特に、ポリゴンでのオークションメカニズムの進化により、MEVの抽出は競争が激化した状況での入札戦に変わってきました。本記事では、強化学習に基づくMEV抽出のフレームワークを提案し、(1)アービトラージの機会と競争の確率的要素を考慮した新しいシミュレーション環境、(2)リアルタイム制約に最適化されたPPOベースの入札エージェント、(3)既存の検索者に対して49%、市場のリーダーを置き換えることで81%の利益を捕捉することの実証を示しています。この研究は、従来の最適化手法が失敗する高頻度なMEV環境において、強化学習が重要な利点を提供することを立証しています。