スケーラブルなコードクローン検出のための大規模言語モデルの選定と統合

この研究は、スケーラブルなコードクローン検出のために、76の大規模言語モデル（LLM）の中から最適なモデルを選定し、効果的な組み合わせ方法を探求しています。コードクローンは知的財産権の侵害や意図しない脆弱性を引き起こすリスクがあるため、特に多様性のあるクローンに対する効率的な検出が求められています。評価の結果、コードクローンの検出において特に優れた性能を示したモデルにはCodeT5+110M、CuBERT、SPTCodeがあります。さらに、選定したモデルのアンサンブル手法を検討したところ、スコアの正規化や最大・合計方式によるアンサンブルが効果的であることが示されました。最適なアンサンブルは、商業用大規模データセットで46.91%の精度を達成し、個々のモデルを上回る成果が得られました。