V-SAT(動画字幕注釈ツール)は、ストリーミングプラットフォームやソーシャルメディアにおける視聴覚コンテンツの急増に伴い、正確でアクセス可能な字幕の需要が高まっている中で、字幕の品質問題を広範囲にわたって自動的に検出し修正するための統合フレームワークを提供します。従来の字幕生成方法は、音声ベースの書き起こしやOCRに基づく抽出が主流ですが、同期の不良や誤ったテキスト、不適切な読み上げ速度など多くの欠点があります。V-SATは、大規模言語モデル(LLM)、ビジョン・ランゲージモデル(VLM)、画像処理、音声認識を組み合わせて、音声と映像の文脈からの手がかりを活用し、字幕の品質向上を目指します。特に、SUBERスコアは9.6から3.54に改善され、F1スコアは約0.80に達しました。人間の検証プロセスを取り入れることで、高品質な結果を提供し、堅牢な字幕注釈のための初の包括的な解決策を示しています。