本研究では、RNA-seqデータに対する教師なし学習を用いて、標準的なラベルを超える分子サブタイプを明らかにする方法を提案します。具体的には、オートエンコーダによるデータ表現とクラスタリング手法を組み合わせ、レアで再現可能なゲノムサブタイプを探索しました。UCIの「遺伝子発現がんRNA-Seq」データセット(801サンプル、20,531遺伝子)を用いたパン癌分析では、起源組織にほぼ完璧に一致するクラスタが確認され、さらにKIRCにおいては、2,000の変動の大きい遺伝子を選択し、オートエンコーダを訓練後、k-means法でクラスタリングを実施しました。その結果、特異なC0クラスタ(患者数の6.85%)が特定され、高い安定性を示しました。全体として、組織由来によるパン癌のクラスタリングが支配的である一方で、がん内での安定性に配慮した手法は稀なKIRCサブタイプを明らかにしました。