AI研修 大企業実務者向け / 第2章: 自律型エージェントの実力と評価
複雑なIT業務におけるAIの限界
無料公開レッスン / 読了目安 2 分
自律型エージェントの性能は向上していますが、実際の複雑な企業業務においてはまだ高い壁が存在します。IBMとArtificial Analysisが公開した「ITBench-AA」は、Kubernetesのインシデント対応など、SRE(サイト信頼性エンジニアリング)のタスクをAIに解決させるベンチマークです[10]。
この評価において、Claude Opus 4.7(47%)やGPT-5.5(46%)といった最先端のフロンティアモデルであっても、正答率は50%未満に留まるという厳しい現実が浮き彫りになりました[11]。
さらに興味深いのは、「推論の手数(ターン数)が増えれば正答率が上がるわけではない」という点です。タスク解決に80ターン以上かけるモデルは、不要な情報まで根本原因と誤認し、かえって精度を落とす傾向があります[11, 12]。また、小型のオープンモデルであるGemma 4 31Bなどが、高価な商用APIより高いスコアと圧倒的なコスト効率を叩き出すケースもあり、運用コストを度外視した巨大モデル依存には注意が必要です[12]。
関連動画
最新研究で判明!AIにはグレーゾーンの判断がうまくできない?! #ai #研究
【ChatGPTにエクセル仕事は無理】Claudeの“記憶力”が向上「正直なんでもできる」今井翔太/アンソロピックはシビアな性能レースを強いられる/一点突破でGoogleも置き去り【AI QUEST】