RUST-BENCHは、リアルワールドのテーブルにおけるLLM(Large Language Models)の推論能力を評価するために新たに導入されたベンチマークです。従来のタブラー推論ベンチマークは、小規模で均一なテーブルのみを対象としており、実際のデータの複雑さを十分に考慮していません。RUST-BENCHは、NSF助成金記録やNBAの統計など、2つのドメインにわたる2031のリアルワールドテーブルからの7966の質問を使用して、LLMのスケール、異質性、ドメイン特異性、推論の複雑さを包括的に評価します。実験は、オープンソースと専有モデルの両方で行われ、LLMが異質なスキーマや複雑なマルチホップ推論に苦戦していることが明らかになりました。これにより、現在のアーキテクチャと戦略における弱点が浮き彫りになり、タブラー推論研究の新たな挑戦が提示されています。