TREAT: コードLLMの信頼性/信頼性評価およびテストフレームワーク

TREAT: A Code LLMs Trustworthiness / Reliability Evaluation and Testing Framework

「TREAT」は、コード生成、デバッグ、テストなどさまざまなタスクにおいて卓越した能力を示す大規模基盤モデルの信頼性を評価するためのフレームワークです。現行の評価基準は、タスクの範囲が限定されており、モデルの堅牢性や信頼性といった重要な評価面を包括的に取り入れていません。このギャップを埋めるために、TREATは多様なソフトウェア工学活動にわたる総合的な評価を行います。具体的には、多言語および多モダリティの評価、意味を保持したコード変換下での堅牢性評価、そして多様な評価プロンプトを用いた厳密な評価方法論を提供します。このフレームワークを用いて26の最先端モデルを評価し、特定のプログラミングタスクにおけるパフォーマンスの変動や、UIコード生成・編集における多モーダル言語モデルの限界についての洞察を得ました。