DiffProは、拡散モデルの推論におけるコストを低減するための新しいフレームワークです。このフレームワークは、展開に使用される整数カーネルに基づいて、時間ステップと層ごとの精度を最適化します。DiffProは、重みビットを割り当てるための感度メトリック、活性化を安定化させる動的活性化量子化、教員・生徒ドリフトに基づく予算制約付きの時間ステップ選択子の3つの構成要素を組み合わせています。実験結果では、最大6.25倍のモデル圧縮、時間ステップの50%削減、2.8倍の速い推論が達成され、実行時のエネルギーを考慮した効率性の向上が示されています。DiffProは、リアルタイムでのエネルギー効率の良い拡散推論のための統合的な手法を提供します。