arXiv cs.AI

臨床タスクにおける多モーダル大規模言語モデルの思考モードのベンチマーキング

Benchmarking the Thinking Mode of Multimodal Large Language Models in Clinical Tasks

http://arxiv.org/abs/2511.03328v1


本研究では、最近進展が見られる多モーダル大規模言語モデル(MLLMs)の「推論MLLMs」が焦点となっている。これらのモデルは、標準的な「非思考モード」と並行して内部の思考プロセスを明示的にコントロールできる「思考モード」を持つ。今回は、医療アプリケーションのための2つの主要MLLM(Seed1.5-VLとGemini-2.5-Flash)の思考モードの効果を評価し、四つの視覚医療タスクにおけるパフォーマンスを探究した。結果として、思考モードを活性化させた場合の性能向上は多くの課題でわずかなものであり、特に難解な医療タスクにおいては依然としてサブオプティマルであることが示された。このことから、領域特有の医療データや高度な医療知識の統合方法の必要性が強調された。