HuggingFace

Jupyterエージェント:ノートブックで推論するLLMの訓練

Jupyter Agents: training LLMs to reason with notebooks

https://huggingface.co/blog/jupyter-agent-2


Jupyterエージェントは、大規模言語モデル(LLM)がノートブック環境で直接コードを実行し、複雑なデータ分析タスクを解決するためのツールです。この記事では、Jupyterエージェントの開発経緯やその用途、特にDABStepベンチマークを使用してモデルのパフォーマンスを評価する方法について説明しています。DABStepは、LLMのデータサイエンスエージェントの能力を測るための現実的なタスクを提供します。例えば、2023年の詐欺率の最高値を持つカードスキームを特定するなどの質問に対して、モデルが正確に回答することが求められます。現在のところ、最良のモデルでも難易度の高いタスクで20%に満たない精度であり、さらなる改善が求められています。最初のデータセットの構築やモデルの微調整を行い、評価基準をクリアする能力向上に努めています。