Glyphは、視覚-テキスト圧縮技術を用いて、長いテキストシーケンスを画像に変換し、視覚言語モデル(VLM)を通じて処理するフレームワークです。これにより、トークンベースのコンテキストウィンドウの拡張ではなく、長文モデリングの課題をマルチモーダルな問題に変換し、計算コストとメモリコストを大幅に削減します。Glyphは、従来のテキスト中心の手法と比較して、入力トークンの圧縮を実現し、LongBenchやMRCRにおいて競争力のあるパフォーマンスを発揮します。また、128Kトークンの入力に対して、テキストモデルよりも推論速度を向上させることが示されています。Glyphのデモでは、既存のテキストモデルとの比較が可能で、長文に対する質問応答タスクの効率性を試すことができます。