HackerNews

25倍のスループットを持つ過剰設計のソリューション `sort | uniq -c` (hist)

An overengineered solution to `sort | uniq -c` with 25x throughput (hist)

https://github.com/noamteyssier/hist-rs


この記事は、GitHubにある「hist-rs」というツールについて解説しています。このツールは、高スループットでユニークな行をカウントするためのCLIアプリケーションで、具体的には従来のsort | uniq -cよりも約25倍の速度で動作します。インストールは簡単で、Cargoを使用して行います。使用例では、ファイルからのユニーク行のカウント、標準入力からのカウント、特定のパターンにマッチする行の除外や含有などが可能です。ベンチマークテストでは、さまざまなツールとのスループット比較が行われ、histは最も効率的な結果を示しました。それにより、ユーザーは大規模データの処理を迅速かつ効果的に行うことができます。