Reflexionによる大規模な安全なコード生成

この記事では、大規模言語モデル（LLM）を用いた安全なコード生成について考察されている。特に、Instruct Primeを活用し、異なるインストラクション調整されたコード生成LLMを評価した。セキュリティはInsecure Code Detector（ICD）で測定し、プログラミング言語やCWEファミリーを考慮して、Repair、Regression、NetGainのメトリクスで結果を報告。無条件的な基準では、25-33%のプログラムが不安全であり、特に弱い暗号や依存するバグは回避が難しい。一方、Pythonが最も安全率が高く、CとC#が低いことが示された。Reflexionプロンプティングは、すべてのモデルのセキュリティを高め、平均的な精度を約70%から79%に改善し、大きな改善が最初のラウンドで得られた。これにより、1から2回の適用が大きな利点をもたらすことが確認された。