テキストかピクセルか？半分のトークン効率：マルチモーダルLLMにおける視覚テキスト入力のトークン効率について

Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs

本論文では、大規模言語モデル（LLM）とそのマルチモーダルバリエーションが視覚的入力、特にテキストの画像を処理できるようになったことを背景に、テキストを画像として入力することでトークンの使用を減らせるかどうかを探求しています。具体的には、長いテキストを単一の画像としてレンダリングしてモデルに直接提供することで、デコーダーLLMにおけるトークンの数を大幅に削減できることを示しました。RULERとCNN/DailyMailという2つのベンチマークでの実験を通じて、テキストを画像として処理する方法が、タスクのパフォーマンスを損なうことなく、トークンの節約を著しく実現できることを確認しています。このアプローチは、視覚テキスト表現が効果的な入力圧縮手段であることを示しています。