MemeArena: 文脈に応じたバイアスのない有害性理解評価の自動化を目指して

MemeArena: Automating Context-Aware Unbiased Evaluation of Harmfulness Understanding for Multimodal Large Language Models

ソーシャルメディア上でのミームの増加により、マルチモーダル大規模言語モデル（mLLMs）が有害性を効果的に理解する能力が求められています。従来の評価方法はmLLMsの二値分類タスクにおける検出精度に主に焦点を当てていましたが、様々な文脈における有害性の深い解釈を反映することには不十分でした。本論文では、MemeArenaというエージェントベースの評価フレームワークを提案し、文脈に応じたバイアスのない評価を実現します。このフレームワークは多様な解釈文脈をシミュレートし、mLLMsからの視点特有の分析を促す評価タスクを作成します。評価者間でのコンセンサスを統合することで、mLLMsの有害性の解釈能力を公平に比較できるようになります。本研究の実験結果は、判断結果が人間の好みに密接に一致し、mLLMの有害性理解における信頼性の高い評価が可能であることを示しています。