AI研修大企業実務者向け／第2章: 自律型エージェントの実力と評価

複雑なIT業務におけるAIの限界

無料公開レッスン／読了目安 2 分

自律型エージェントの性能は向上していますが、実際の複雑な企業業務においてはまだ高い壁が存在します。IBMとArtificial Analysisが公開した「ITBench-AA」は、Kubernetesのインシデント対応など、SRE（サイト信頼性エンジニアリング）のタスクをAIに解決させるベンチマークです[10]。

この評価において、Claude Opus 4.7（47%）やGPT-5.5（46%）といった最先端のフロンティアモデルであっても、正答率は50%未満に留まるという厳しい現実が浮き彫りになりました[11]。

さらに興味深いのは、「推論の手数（ターン数）が増えれば正答率が上がるわけではない」という点です。タスク解決に80ターン以上かけるモデルは、不要な情報まで根本原因と誤認し、かえって精度を落とす傾向があります[11, 12]。また、小型のオープンモデルであるGemma 4 31Bなどが、高価な商用APIより高いスコアと圧倒的なコスト効率を叩き出すケースもあり、運用コストを度外視した巨大モデル依存には注意が必要です[12]。

複雑なIT業務におけるAIの限界

関連動画

参考リンク