この記事では、脳-コンピュータインターフェース(BCI)による音声デコーディングの新しいアプローチ「CAT-Net」を提案しています。この手法は、エレクトロエンセファログラフィー(EEG)とエレクトロマイオグラフィー(EMG)信号を統合し、音声が聞こえる場合と無音の場合において、マンダリン語の4つのトーンを分類するものです。特に、トーンの違いが意味を大きく変えるため、音声認識には高度なスキルが求められます。提案されたネットワークは、空間と時間の特徴を抽出する枝と、異なるモダリティ間の情報の相互作用を可能にするクロスアテンション機構を組み合わせており、被験者間の汎用性を向上させるためにドメイン逆訓練も行っています。10人の参加者から4800回のEEG試行と4800回のEMG試行を収集し、最小限のチャネルでのデコーディングの実現可能性を示しました。実験の結果、音声ありでは87.83%、無音では88.08%という分類精度を達成し、被験者間評価でも高い性能を維持しています。