OTARo: すべての精度向けの一度の調整で堅牢なオンデバイスLLMを実現する

この研究では、大規模言語モデル（LLM）のファインチューニング手法の新たなアプローチであるOTARoを提案しています。OTARoは、一度のファインチューニングで異なるビット幅の量子化精度に柔軟に切り替えられ、性能の堅牢性を保つことが可能です。従来の量子化技術は、ファインチューニングや展開の段階での柔軟性に限界があり、機器上でのタスクにおいては異なる精度が求められます。OTARoは、Shared Exponent Floating Point（SEFP）という独自の量子化メカニズムを用いており、単一モデルの仮数部分の切り捨てを通じて異なるビット幅を生成します。また、異なるビット幅による損失を学習するプロセスを通じて、下流アプリケーションに対するビット幅の堅牢性を達成します。この研究の結果、OTARoは一般的なLLM（例：LLaMA3.2-1B、LLaMA3-8B）ですが、すべての精度に対して一貫した強力かつ堅牢なパフォーマンスを実現しています。