C3POは、推論タスクにおける大規模言語モデル(LLM)のカスケードを最適化するための自己教師ありフレームワークで、確率的コスト制約を考慮しています。従来のカスケード手法は、ラベル付きデータに依存し、テスト時の計算コストを十分に制御できない問題がありました。しかしC3POは、最も強力なモデル(MPM)に基づいて後悔を最小化することに注力し、ラベルなしのモデル出力のみを使ってカスケードを構築します。また、推論コストが指定された予算を超える確率を制約するために、準則予測を活用しています。理論的なコスト制御と一般化誤差の保証を提供し、少量のキャリブレーションセットでも効果的であることを示しています。GSM8K、MATH-500、BigBench-Hard、AIMEなど多数の推論ベンチマークで優れた性能を発揮し、高いコスト効率と精度を両立しています。これにより、スケーラブルなLLMの展開が可能になることを示しています。