DialogGraph-LLM: グラフを利用したLLMによるエンドツーエンドの音声対話意図認識

DialogGraph-LLM: Graph-Informed LLMs for End-to-End Audio Dialogue Intent Recognition

本記事では、長時間の音声対話における話者の意図認識課題に対して、DialogGraph-LLMというエンドツーエンドのフレームワークを提案しています。このフレームワークは、Multi-Relational Dialogue Attention Network（MR-DAN）アーキテクチャと多モードの基盤モデルを組み合わせ、音響から意図への直接的な推論を実現します。また、適応型半教師あり学習戦略を採用し、信頼度に基づく擬似ラベル生成機構を利用して、ラベルのない高情報量のインスタンスを優先的に選択します。MarketCallsコーパスとMIntRec 2.0ベンチマークでの評価結果により、DialogGraph-LLMは音声およびテキスト駆動の強力なベースラインを上回る性能を示しました。このフレームワークは、実世界の音声対話での意図認識において高い効果を発揮し、限られた監督下での音声豊富なドメインにおける実践的な価値を証明します。