ヴィンテージコードと現代の判断者：低データ環境におけるメタバリデーション

レガシー言語（COBOL、PL/I、REXXなど）のアプリケーションモダナイゼーションは、専門家の不足と高品質なヒューマン評価データの欠如という課題に直面しています。大規模言語モデル（LaaJ）は専門家レビューの代替手段を提供しますが、その信頼性を検証することが不可欠です。本稿では、SparseAlignという枠組みを提案し、限られたヒューマンラベルデータに基づいてLaaJの判断を評価します。SparseAlignは、ペアワイズ信頼度の新しい概念とスコア感度アライメントメトリックを組み合わせ、ランキングの一貫性とスコアの近接性を捉え、有限なアノテーションデータでも信頼できる評価者選択を可能にします。具体的には、COBOLコードの説明に対してLaaJを選定するためにSparseAlignを適用し、その結果をモデルのリリース決定に役立てました。