FALQON: 低ビット浮動小数点算術によるLoRAファインチューニングの加速

FALQONは、低ビット浮動小数点（FP）フォーマットを利用してLoRA（Low-Rank Adaptation）による大規模言語モデルの効率的なファインチューニングを加速する新たなフレームワークです。FP8などの低ビットFP形式は、最新のGPUやNPUでハードウェアサポートがあるため、モデルトレーニングの速度向上とメモリ節約を実現しますが、LoRAに適用すると、量子化オーバーヘッドによりスピードアップが制限されることが分かりました。FALQONは、LoRAアダプターをFP8量子化済みのバックボーンに直接統合し、さらに合併したアダプターの前方および後方計算を再構成することで、量子化オーバーヘッドを大幅に削減します。この結果、FALQONは既存の量子化LoRA手法と比較して約3倍のトレーニング速度向上を達成し、効果的な大規模モデルのファインチューニングの実用的な解決策を提供します。また、FALQONのエンドツーエンドのFP8ワークフローは、トレーニング後の量子化を不要にし、効率的なデプロイを可能にします。