arXiv cs.AI

選択的弱から強への一般化

Selective Weak-to-Strong Generalization

http://arxiv.org/abs/2511.14166v1


本論文では、未来の超人モデルが人間の能力を超える中で、弱い監督のもとで超人モデルを調整する難しさに焦点を当てています。既存の弱から強への一般化(W2SG)手法は、強力な事前トレーニングモデルを弱い監督で微調整するものですが、弱いラベルがモデルにとって有害である問題が指摘されています。そこで著者らは、不要な弱い監督を避けるための選択的W2SGフレームワークを提案しています。具体的には、強力なモデルが回答可能な質問を特定するバイナリ分類器を用いて自己生成ラベルによる調整を行い、グラフ平滑化法で弱いラベルを洗練します。3つのベンチマークでの実験により、この手法が競合する基準を一貫して上回る結果が示され、タスクや難易度を超えた一般化能力も示唆されています。