HackerNews

Show HN: Chonky – 神経テキストセマンティックチャンクが多言語対応に

Show HN: Chonky – a neural text semantic chunking goes multilingual

https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1


Chonkyは、テキストを意味的に有意義なチャンクに自動的に分割するトランスフォーマーモデルです。このモデルは、情報検索システム(RAG)で利用することができます。さらに、多言語にも対応しています。テキストを処理し、セマンティックに整合したセグメントに分割することで、埋め込みベースの情報検索システムや言語モデルに入力として利用可能です。基本のシーケンス長は1024に調整されていますが、mmBERTは最大8192までの長さをサポートしています。使用方法は、専用のPythonライブラリを通じて簡単に実行できます。使用例としては、テキストを分割し、意味のあるチャンクとして出力されることが挙げられます。