AV-Dialog: 音声・視覚入力を用いた話し言葉の対話モデル

AV-Dialogは、音声と視覚の両方の手がかりを用いてターゲットスピーカーを追跡し、ターンテイキングを予測し、一貫性のある応答を生成する初のマルチモーダル対話フレームワークです。従来の音声のみのモデルがノイズの多い環境でうまく機能しない問題を解決するために開発され、合成データおよび実際の音声視覚対話データセットを使用した多段階トレーニングを通じて優れたストリーミング文字起こし、セマンティックに基づいたターン境界検出、正確な応答を実現します。実験により、AV-Dialogが干渉のある状況でも音声のみのモデルを上回り、文字起こしエラーの削減やターンテイキング予測の向上を示しました。これにより、現実世界のノイジーな環境でしっかりと動作する音声対話エージェントの開発が期待されます。