この論文は、PLLuM(ポーランド大規模言語モデル)プロジェクトで開発された一連のトランスフォーマーベースの大規模言語モデル(LLM)を微調整するために使用される命令データセットについて説明しています。著者たちは、PLLuMで利用される有機的、変換された、合成された命令の機能的典型を示し、ヒトが作成した命令データセットと合成命令データセットを使用することの言語的適応に与える影響についての観察を共有します。また、PLLuM命令コーパス(PLLuMIC)の最初の代表的なサブセットを公開し、今後の他のLLM向けの類似データセットの開発を促進することを目的としています。