アライメントとキャリブレーションのトレードオフのナビゲーション：モデルマージングによるパレート優越フロンティア

Navigating the Alignment-Calibration Trade-off: A Pareto-Superior Frontier via Model Merging

本研究では、モデルがトレーニング後に直面する「アライメント税」に対処しています。アライメントによってタスクの正確性が低下するだけでなく、モデルのキャリブレーションも著しく損なわれることが示されました。これは、モデルが過剰な自信を持ち、信頼性が低下し、出力の多様性が減少する結果を引き起こします。研究者たちは、アライメント前後のモデルの重みを補間するというシンプルな介入によって、トレードオフを効果的にナビゲートできることを示しました。このプロセスは厳密なトレードオフではなく、最適な補間を見つけることで、両親のモデルよりも高い正確性を維持しつつ、アライメント中に失ったキャリブレーションを回復することができます。最終的に、この研究はモデルマージングが計算コストを抑えつつ、アライメント税の影響を軽減する有効な手段であることを示しています。