大規模文脈化ゼロショットスロットフィリングのためのSpeechLLMs

本論文では、音声言語理解(SLU)におけるスロットフィリングタスクについて、最近の音声ベースの大規模言語モデル（SpeechLLMs）の利用による新たなアプローチを提案しています。従来のスロットフィリングは、音声認識と自然言語理解(NLU)を連鎖的に実行する手法が主流でしたが、SpeechLLMsは音声とテキストの基盤モデルを統合し、生成的な手法で、指示に従った実行が可能です。本研究では、スロットフィリングタスクの性能、ロバスト性、一般化能力を評価し、上限値に近づけるための提案を行います。具体的には、トレーニングデータやアーキテクチャの改善、トレーニング戦略の見直しが重要であるとし、これらの施策が性能向上に寄与することを示しています。