予測者としてのLLM: Prophet Arenaによる予測インテリジェンスの理解

この記事では、インターネットスケールのデータで訓練された大規模言語モデル（LLM）が、実世界の未来の出来事を予測する可能性を探ります。この新たなパラダイム「LLM-as-a-Prophet」について体系的に調査し、Prophet Arenaという一般的な評価ベンチマークを構築しました。これにより、リアルタイムの予測タスクを継続的に収集し、各タスクを異なるパイプライン段階に分解します。評価の結果、LLMは小さなキャリブレーションエラーや一貫した予測信頼度を持ち、印象的な予測能力を示していますが、イベントの回収の不正確さやデータソースの誤理解、情報の集約スピードの遅さといった主要なボトルネックも明らかになりました。この研究は、LLMを用いた予測インテリジェンスの向上のための基盤を確立することを目的としています。