HackerNews

異端者:言語モデルの自動検閲除去ツール

Heretic: Automatic censorship removal for language models

https://github.com/p-e-w/heretic


Hereticは、トランスフォーマーに基づく言語モデルから検閲(安全性調整)を自動的に除去するツールです。このツールは、方向性削除(アブリテレーション)の高度な実装と、Optunaを活用したTPEベースのパラメータ最適化を組み合わせており、非常に効率的に動作します。Hereticは、モデルの拒否率と元のモデルとのKLダイバージェンスを同時に最小化することで、高品質なアブリテレーションパラメータを見つけ出します。これにより、元のモデルの知能をできるだけ保持したまま、検閲が解除されたモデルを生成します。使い方は非常に簡単で、コマンドラインプログラムが実行できる人なら誰でも利用可能です。Hereticを用いることで、専門家による手動アブリテレーションに匹敵する品質のモデルを生成できますが、手間をかけずに行える点が特長です。