HuggingFace

Smol2Operator: コンピュータ使用のためのポストトレーニングGUIエージェント

Smol2Operator: Post-Training GUI Agents for Computer Use

https://huggingface.co/blog/smol2operator


Smol2Operatorは、視覚と言語を統合したモデルがGUIに基づくスキルを獲得し、エージェントとしてのコーディング能力を進化させる方法を示す研究です。この技術は、GUIオートメーションの分野での最前線を広げ、AIエージェントがモバイルやデスクトップ、ウェブプラットフォーム上でユーザーインターフェースと対話できる能力を向上させます。記事は、データ処理からモデルのトレーニングまでの全過程を解説し、SmolVLM2-2.2B-Instructという小型の強力なモデルを基に、トレーニング手法の効果を示しています。また、トレーニングは2段階に分かれており、まずモデルのグラウンド能力を高め、その後エージェントとしての推論能力を強化します。このプロジェクトでは、オープンソースのリソースも提供され、さらなる研究の促進を目指しています。