私たちは整合していますか？責任あるAIの価値観と人間の判断との整合性に関する予備調査

Are We Aligned? A Preliminary Investigation of the Alignment of Responsible AI Values between LLMs and Human Judgment

本研究は、大規模言語モデル（LLMs）がソフトウェア工学のタスク（要件の抽出、設計、評価など）で使用される中で、責任あるAIの価値観が人間の判断とどれほど整合しているかを調査しました。具体的には、LLMsの価値観を米国を代表するサンプルとAI実務者の2つの人間グループの価値観と比較しました。研究では、23のLLMsを用いて、責任あるAIの重要価値選定、特定の文脈におけるそれらの重要性の評価、競合する価値間のトレードオフの解決、価値を具体化したソフトウェア要件の優先順位付けという4つのタスクを評価しました。結果として、LLMsは一般的にAI実務者とより密接に一致していることが分かりましたが、宣言された価値と実際の要件の優先順位付けの間に不一致が見られました。この研究は、要件工学においてLLMsに依存することのリスクを強調し、人間による監視の必要性を示唆しています。