TabGemma: 継続的な事前学習と検索を使用したテキストベースの表形式ICL

TabGemma: Text-Based Tabular ICL via LLM using Continued Pretraining and Retrieval

本研究では、混合テキスト、数値、カテゴリーフィールドを持つ表形式予測のための大規模言語モデル（LLM）を利用したTabGemmaを提案します。TabGemmaは、行をシーケンスとして扱うスキーマ非依存のインコンテキスト学習モデルであり、事前学習されたLLMを表形式予測に適応させる際の2つの実際的な課題、すなわち不安定な数値トークン化と限られたコンテキストサイズに対処します。数値を符号付き指数表記に標準化し、12BのGemma 3モデルの事前学習を続行し、大規模な実世界データセットを用いて目標補完目的を設定します。推論時には、128kトークンのウィンドウ内で情報価値のある例を選択するために、コンパクトなn-gramベースの検索を利用します。結果として、TabGemmaは、低・高データ領域における分類の新たな最先端を確立し、増加するコンテキスト行に応じて一貫して改善します。回帰タスクにおいても、小サンプルサイズでは競争力を示しますが、データが増えると従来の手法には及びません。この結果は、LLMが専用の数値処理とコンテキスト検索と組み合わせることで、非常に意味的なタスクにおいて効果的な表形式インコンテキスト学習者となる可能性を示唆しています。