この研究は、マルチモーダル巨大言語モデル(MLLM)が顔認識分野での性能を評価するための体系的なベンチマークを提供します。MLLMは、視覚と言語の多様なタスクで顕著な成果を上げていますが、顔認識に関しては未だ探索が不十分です。研究者たちは、LFW、CALFW、CPLFW、CFP、AgeDB、RFWなどの複数の顔認識データセットを使用して、最新のMLLMの顔認識性能を他の既存モデルと比較しました。結果として、MLLMは顔関連のタスクに有用なセマンティックキューを捉えますが、高精度の認識シナリオにおいては専門モデルに劣ることが明らかになりました。このベンチマークは、MLLMベースの顔認識を向上させる基盤となり、次世代モデルの設計に対する洞察を提供します。ソースコードは公開されています。