大型言語モデル(LLM)は、応答の質を評価するためのジャッジとして広く利用されていますが、多くはテキストベースの内因的推論に依存しており、複雑な制約を検証したり正確な計算を行う能力が制限されています。本研究では、ツール統合型推論(TIR)の成功に基づき、コード実行器を統合したLLMジャッジをトレーニングするための強化学習フレームワーク「TIR-Judge」を提案します。このフレームワークは、検証可能および非検証可能なドメインにわたる多様な訓練、柔軟な判断形式、初期モデルからの直接的な反復強化学習といった三つの原則に基づいて構築されています。公のベンチマークにおいて、TIR-Judgeは他の強力な推論ベースのジャッジを超える性能を示し、ツールによって強化されたジャッジは反復強化学習を通じて自己進化できることを示しました。