生物音響分野における基盤モデルの新しい展開として、種やタスクを超えて一般化する能力が期待されています。本研究では、著名なモデルであるNatureLMに焦点を当て、そのドメイン特化型の微調整が優れたパフォーマンスを提供する一方で、指示に従う柔軟性にトレードオフが現れることを示しました。具体的には、NatureLMは個別のプロンプトに対しては高精度を示しますが、両方の名称を同時に要求された場合、その精度が著しく低下します。この問題に対処するために、モデルを統合し、基盤の言語モデルと補完的に機能させ、ドメインの専門性をほとんど失わずに指示に従う能力を回復しました。最終的に、統合モデルはゼロショット一般化において顕著な強化を示し、見えない種の閉じたセットでのゼロショット分類において新たな最先端の成果を達成しました。