この論文では、LLM(大規模言語モデル)が生成する回答の簡潔さを評価するための新しい指標「ConCISE」を紹介しています。LLMは時に冗長で不必要な詳細を含む長い回答を生成し、これが明瞭さやユーザー満足度を低下させる要因となります。提案された指標は、真の標準参照に依存せずに非本質的な内容を定量化し、3つの計算の平均を算出します。具体的には、元の回答とLLMによる要約、取得要約との圧縮比率、必要のない単語を可能な限り削除しながら意味を保持する単語削除圧縮を評価します。実験結果は、この指標がLLMの出力における冗長性を特定できることを示しており、会話AIシステムの自動評価において実用的なツールとなることを目指しています。