本論文では、大規模言語モデル(LLM)の推論時の性能を改善するための技術に焦点を当てています。特に、自己反省や予算調整といった手法が、異なるタスクにおいてどのように精度、コスト、レイテンシの間でトレードオフを生むかを探求します。分析の結果、数学的推論においては220%の性能向上を確認し、自己反省の効果がドメイン依存であることが明らかになりました。さらに、反省の深さとフィードバックの質がモデルのパフォーマンスに与える影響も調査します。商業現場での効果を検証するため、Zalandoにて自己反省を強化したマーケティングコンテンツのローカリゼーションシステムを実装し、その結果ドメイン特有の評価が重要であるとの結論に至りました。これにより、特定のドメイン及び資源制約に基づいた最適な推論戦略の選定に関する実用的な指針を提供します。