arXiv cs.AI

Gaperon:ペッパーづけされた英仏生成言語モデルスイート

Gaperon: A Peppered English-French Generative Language Model Suite

http://arxiv.org/abs/2510.25771v1


Gaperonは、英語とフランス語の言語モデルを統合したオープンなスイートであり、データの透明性と再現性を向上させるために設計されています。モデルは1.5B、8B、24Bのパラメータを持ち、2-4兆トークンでトレーニングされています。また、フランス語と英語のデータセットは神経質な質評価の基準でフィルタリングされており、効率的なデータキュレーションとトレーニングのフレームワークも含まれています。本研究では、データフィルタリングと汚染の相互作用がベンチマークや生成パフォーマンスに与える影響を検討します。言語の質に基づくフィルタリングは流暢さと一貫性を向上させる一方で、ベンチマーク結果が劣ることが示され、遅延的な意図的汚染によって競争力のあるスコアを回復できることも明らかにされています。Gaperonは、データキュレーション、安全性、開放性のトレードオフを探るための再現性のある基盤を提供し、すべてのモデル、データセット、コードをオープンに公開しています。