HackerNews

Show HN: Tokenflood – 任意の負荷をシミュレートするためのフレームワーク

Show HN: Tokenflood – simulate arbitrary loads on instruction-tuned LLMs

https://github.com/twerkmeister/tokenflood


Tokenfloodは、命令調整された大規模言語モデル(LLM)に対して任意の負荷をシミュレーションするための負荷テストフレームワークです。このツールは特定のプロンプトや応答データを必要とせず、プロンプトの長さや出力の長さ、リクエストレートを設定することで負荷をシミュレートします。Tokenfloodは、異なるプロバイダーやハードウェア、量子化の違いによるレイテンシの変化を容易に探ることができます。しかし、誤った設定で高コストが発生する可能性があるため、予算内でのテストが推奨されます。使用例としては、プロンプト最適化の影響評価や、異なるホスティングLLMプロバイダーのレイテンシ変動を調査することが含まれます。特に、レイテンシに敏感なシステム設計の際には、平均だけでなく、その分布を理解することが重要です。