最近のテキストから画像を生成するモデルは、視覚的にリアルで意味的に一貫した画像生成において著しい進展を見せています。しかし、与えられたプロンプトとの間にランダム性や不一致が問題として残り、特にテキストの記述が曖昧な場合に顕著です。本論文では、ImAgentというトレーニング不要の統一マルチモーダルエージェントを提案します。これは、推論、生成、自己評価を一つのフレームワークに統合し、効率的なテストタイムスケーリングを実現します。ポリシーコントローラーに導かれながら、複数の生成アクションが動的に相互作用し、画像の忠実性と意味の整合性を向上させます。実験により、ImAgentはバックボーンモデルに対して一貫して改善を示し、逆にバックボーンが失敗した場合でも他の強力なベースラインを上回る結果を得ており、テスト時スケーリング下での適応的かつ効率的な画像生成の可能性を浮き彫りにしています。