EntropyLong: 予測不確実性による効果的な長文コンテキストトレーニング

EntropyLongは、長文コンテキストの言語モデルを効果的にトレーニングするための新しいデータ構築手法を提案しています。従来の手法では、テキストの単純な結合やヒューリスティックに基づくアプローチが多く用いられましたが、これらは真の長期的依存関係を保証することができませんでした。EntropyLongは、文書内の高エントロピー位置を特定し、大規模コーパスから関連性のあるコンテキストを取得し、それが予測エントロピーを低下させるかどうかを評価することで、その有用性を確認します。この「モデルインザループ」検証により、各依存関係が虚偽の相関ではなく、測定可能な情報の増加を示すことが保証されます。結果として、128K長のシーケンスを含む訓練データセットが生成され、これに基づいてトレーニングされたモデルは、特に遠隔情報を要するタスクにおいてRULERベンチマークで顕著な改善を示しました。