推論努力の適応制御を学ぶ

この記事では、AIモデルの思考予算を増加させることで精度を向上させることができる一方で、すべての質問に対して同じレベルの推論を必要とするわけではないと説明しています。ユーザーは出力品質、レイテンシー、コストのバランスに応じて、異なる推論努力を割り当てたいと考えますが、現在の方法では適切なトークン数を予め設定する必要があるため難しさがあります。そこで、「適応努力制御」という自己適応型強化学習法を提案し、ユーザーが指定するトークンの比率を基にモデルが学習する仕組みを導入しました。これにより、データセットやフェーズ固有の調整が不要になり、コストと精度のトレードオフが向上します。また、モデルはタスクの難易度に比例してリソースを割り当てることを自動的に学習し、異なるモデルスケールにおいてチェーン・オブ・スローンの長さを約3倍削減しつつ、パフォーマンスを維持または改善することができると報告しています。