テキスト要約における報酬のバランス: ハイパーボリューム最適化による多目的強化学習

Balancing Rewards in Text Summarization: Multi-Objective Reinforcement Learning via HyperVolume Optimization

テキスト要約は、整合性、一貫性、関連性、流暢さなど複数の目的を同時に最適化する必要がある重要なタスクであり、様々な課題が存在します。本研究では、強化学習（RL）を用いて大規模言語モデル（LLM）の要約の多目的最適化に焦点を当てたものであり、新しい最適化手法であるハイパーボリューム最適化（HVO）を提案しています。この手法は、RLにおける報酬プロセス中にグループ間のスコアを動的に調整し、パレートフロントに近づけるようモデルを導くことで、複数の目的にわたってバランスの取れた要約を生成します。いくつかの要約データセットでの実験結果から、提案手法が従来の手法よりも優れた性能を示し、さまざまな次元間でよりバランスの取れた性能を発揮することが確認されました。