強化学習を用いた求人申請評価におけるカスタム報酬関数のための数学的枠組み

A Mathematical Framework for Custom Reward Functions in Job Application Evaluation using Reinforcement Learning

従来の応募者追跡システム（ATS）は、キーワードに基づく柔軟性のない評価を行い、一部の小さな意味の不一致のために優秀な候補者が役職を得られないことがある。本記事では、小さな言語モデル（<600M パラメータ）を用いてより洗練された履歴書評価モデルを設計する新しい二段階のプロセスを説明している。まず、Supervised Fine-Tuning（SFT）を用いて基準モデルを構築し、次にこのモデルを新しい多成分報酬関数の下で強化学習（RL）で最適化した。RLの適用に際しては、初期の攻撃的なペナルティによる報酬ハッキングの問題が生じたが、報酬関数を繰り返し洗練させ、安定した「穏やかなポリッシングプロセス」としてハイパーパラメータを訓練することでこの課題を克服した。最終的に、91%の精度で見えないテストデータを正確に評価できるモデルをもたらし、伝統的なATSや単純なRLの欠点を克服していることが示された。