本論文では、細粒度視覚分類(FGVC)の課題に取り組む新しいフレームワーク「H3Former」を提案しています。FGVCは、クラス間の微妙な違いやクラス内の大きな変動により困難なタスクです。従来の手法は特徴選択メカニズムや領域提案戦略に依存し、識別的地域を局所化することに努めていますが、効果的に特徴を捉えることができない場合があります。H3Formerは、高次の意味関係を利用してトークンから領域へのフレームワークを構築し、構造化された領域レベルのモデリングを行います。具体的には、マルチスケールの文脈に基づいてトークン間に重み付けされた超グラフをダイナミックに構築する「意味認識型集約モジュール(SAAM)」を提案し、ハイパーグラフ畳み込みを用いて高次の意味依存関係を捉え、トークン特徴を集約します。また、階層的な意味制約を強制する「双曲階層対比損失(HHCL)」も導入しており、クラス間の分離性およびクラス内の一貫性を強化します。実験結果は、H3Formerの優位性を示しています。