本論文では、OmniPTという新たな統合歩行者追跡フレームワークを提案しています。このフレームワークは、特に視覚的な理解を伴う歩行者の追跡に焦点を当てています。近年、LVLM(Large Vision Language Models)が画像レベルのタスクにおいて高い性能を示している一方で、視覚的な接地や物体検出といったインスタンスレベルのタスクでは性能のギャップが見られることが課題となっています。特に新たなテーマとして、物体追跡と自然言語の結合方法が求められており、OmniPTはこの要求に応えるものです。モデルの出力形式の整備や、トラッキングタスクを基盤モデルが実行可能な形にモデル化することに注力しました。実験結果は、提案手法が既存の方法を上回る性能を示すことを確認しました。