arXiv cs.LG

大規模文脈化ゼロショットスロットフィリングのためのSpeechLLMs

SpeechLLMs for Large-scale Contextualized Zero-shot Slot Filling

http://arxiv.org/abs/2510.15851v1


本論文では、音声言語理解(SLU)におけるスロットフィリングタスクについて、最近の音声ベースの大規模言語モデル(SpeechLLMs)の利用による新たなアプローチを提案しています。従来のスロットフィリングは、音声認識と自然言語理解(NLU)を連鎖的に実行する手法が主流でしたが、SpeechLLMsは音声とテキストの基盤モデルを統合し、生成的な手法で、指示に従った実行が可能です。本研究では、スロットフィリングタスクの性能、ロバスト性、一般化能力を評価し、上限値に近づけるための提案を行います。具体的には、トレーニングデータやアーキテクチャの改善、トレーニング戦略の見直しが重要であるとし、これらの施策が性能向上に寄与することを示しています。