本記事では、多言語テキストから画像への生成(T2I)モデルが視覚的リアリズムと意味的整合性において急成長しているものの、文化的文脈に応じて出力が異なる問題について分析しています。言語には文化的な意味合いがあり、多言語のプロンプトから生成された画像は、文化的一貫性を保つべきです。しかしながら、現在のT2Iモデルはしばしば文化的に中立的または英語に偏った結果を生じさせています。この問題は文化的知識の欠如ではなく、文化関連の表現の活性化不足に起因しています。著者たちは、文化的信号を特定のニューロンに局所化する方法を提案し、文化的な活性化と層ターゲットの文化的強化という二つの相補的なアプローチを紹介しています。実験結果は、文化的一貫性を改善しつつ信頼性と多様性を維持することに成功したことを示しています。