本研究では、因果マスキングが空間データに与える情報損失の影響を考察する。通常、言語モデルは因果マスキングを前提に設計されるが、チェスのように空間的および連続的な構造を持つデータセットに対しては、因果マスキングが適切でないとされている。研究者たちは、双方向および因果的自己注意機構を用いて、空間(ボードベース)データと連続(手の動きベース)データの両方で言語モデルをトレーニングした結果、空間データでトレーニングされたモデルが、連続データでトレーニングされたモデルよりも常に強い性能を示すことを発見した。本研究の結果は、因果マスキングを空間データに適用する方法論が、単一モードの大規模言語モデルのトレーニングにおいて妥当かつ時には好ましい選択肢となり得ることを示唆している。