Glyph: ビジュアル・テキスト圧縮によるコンテクストウィンドウのスケーリング

本研究では、大規模言語モデル（LLMs）が文書理解やコード解析のために長いコンテキストのモデリングに依存している状況を考察しますが、百万トークンレベルのコンテキストウィンドウを拡張すると、計算コストとメモリコストが膨大になり、実用性が制限される問題に注目します。そこで提案されたのがGlyphというフレームワークです。Glyphは長文を画像として表現し、視覚言語モデル（VLM）を用いて処理します。この手法により、意味情報を保持しながらテキスト入力を大幅に圧縮することが可能になります。更に、最適な視覚レンダリング構成を見つけるためのLLM駆動の遺伝的探索方法を設計し、精度と圧縮のバランスを取ります。実験により、我々の手法は3-4倍のトークン圧縮を達成し、さまざまな長コンテキストベンチマークで、Qwen3-8Bなどの優れたLLMに匹敵する精度を維持することを示しました。