LiveTradeBench：大規模言語モデルを用いたリアルワールドのアルファを追求する

この記事では、LiveTradeBenchという新しい取引環境を提案しています。これは大規模言語モデル（LLM）が現実の進化する市場においてどう機能するかを評価するために設計されています。主な特徴は、リアルタイムのデータストリーミングを通じて、オフラインバックテストに依存せず、リスク管理と資産間の推論を統合したポートフォリオ管理の抽象化、そして市場特性の異なる複数の環境での評価です。研究では、21種類のLLMを用いて50日間のライブ評価を行い、結果からは、高スコアが必ずしも優れた取引結果を意味しないことや、モデルごとに異なるポートフォリオスタイルが表れること、いくつかのLLMがライブシグナルを活用して意思決定を適応させる能力が示されました。これにより、静的評価と実世界の能力との間のギャップが浮き彫りになり、ライブの不確実性の下での一貫した意思決定をテストするためのベンチマークの必要性が示唆されています。