本稿では、ビデオLLM(大規模言語モデル)が抱える時間的一貫性の欠如について述べています。具体的には、フレームタイミングのわずかな変化が注目を引き、関連フレームを抑圧する問題を指摘します。この不安定性は、RoPE(回転位置埋め込み)の共通の拡張に起因していることが示されています。提案された「Phase Aggregated Smoothing(PAS)」は、トレーニング不要で、逆位相オフセットを使って各ヘッドの出力を平滑化し、時間的カーネルの安定性を向上させるメカニズムです。この手法は、複数のビデオ理解ベンチマークでの実験において、一貫した改善を示し、計算負荷はわずかで済みます。PASは、ビデオLLMの堅牢な時間的エンコードのための簡単なアップグレード手法として機能します。