本研究は、コーランの朗読におけるアラビア語の音素発音を正確に評価するための新しいマルチモーダル深層学習フレームワークを提案します。音声分析の分野における最近の進展を活用し、音響表現とテキスト表現を組み合わせたトランスフォーマーベースのアプローチを採用し、発音ミスの検出精度を向上させることを目指しています。特に、29のアラビア音素を含むデータセットを用いた実験では、UniSpeechによる音響エンベディングとWhisperからのBERTテキストエンベディングを統合し、音声データの多様性を確保しました。その結果、マルチモーダル構成が有効であることが示され、技術を活用したコーランの発音トレーニングに向けた具体的なステップを提供しています。