賢くマッピング：ラベルやモデルの更新なしに改善するテスト時強化学習エージェント

Mapping Smarter, Not Harder: A Test-Time Reinforcement Learning Agent That Improves Without Labels or Model Updates

本記事では、外部ベンダーからのログを統合する必要がある企業向けインテリジェンスプラットフォームにおいて、テスト時におけるスキーママッピングの課題を解決するための強化学習エージェントを提案しています。このエージェントは、ラベル付けされたデータやモデルの重みの更新なしに自己改善が可能です。推論中に、エージェントはあいまいなフィールドマッピングを特定し、ターゲットウェブ検索クエリを生成して外部証拠を集め、信頼度に基づく報酬を適用してマッピングを反復的に洗練します。実験では、マイクロソフトDefenderのエンドポイントログを共通スキーマに変換し、マッピング精度を56.4%から93.94%へと改善しました。また、専門家によるレビューが必要な低信頼度のマッピングを85%減少させました。この新アプローチは、業界の問題解決に向けた透明で証拠駆動の手法を提供します。