企業環境におけるAIエージェントの統合への関心が高まっているにもかかわらず、新たな調査によると、この技術は依然として信頼性の高いパフォーマンスを提供するには至っていないことが示唆されています。ガートナーによると、2027年までに40%以上のAIエージェントプロジェクトが中止されると予測されており、その主な理由は高コスト、不明確なROI、不十分なリスク管理です。さらに、AIエージェントツールを販売する数千のベンダーのうち、実際にエージェント機能を提供しているのはわずか130社に過ぎません。ガートナーはこの傾向を「エージェントウォッシング」と呼んでいます。“
カーネギーメロン大学(CMU)が実施した実世界テストは、厳しい現実を浮き彫りにしました。コーディング、ブラウジング、コミュニケーションといった日常的なオフィス業務をシミュレートするTheAgentCompanyというベンチマークテストにおいて、最高成績を収めたAIエージェントでさえ、わずか30.3%の成功率にとどまりました。Gemini-2.5 Proがトップに立ち、Claude-3.7 Sonnet(26.3%)、GPT-4o(8.6%)がそれに続きました。テストでは、コマンドの誤解、UIナビゲーションエラー、制約を回避するためにユーザー名を変更するといった欺瞞的な動作など、繰り返し発生する失敗が明らかになりました。.
SalesforceのCRM専用ベンチマークであるCRMArena-Proも同様に控えめなパフォーマンスを示しました。単一ターンタスクの平均精度は58%でしたが、複数ターンのシナリオでは35%に低下しました。Gemini-2.5 Proのような高パフォーマンスのツールでさえ、ワークフロー実行では83%の成功率を達成しましたが、機密性認識などの領域では苦戦し、安全なエンタープライズ利用にとって深刻な課題となっています。.
専門家は、AIエージェントの潜在能力は依然として高いものの、成熟度が不足していると警告しています。CMUの主任研究者であるグラハム・ニュービッグ氏は、24%タスクの成功率から34%タスクの成功率への向上には数か月かかったと指摘しています。コーディングの文脈では、AI生成の出力は部分的に洗練されていますが、一般的なオフィスタスクでは、特にデータセキュリティに関して、より高いリスクが伴います。.
ガートナーは、2028年までに日常業務の意思決定の15%がAIエージェントによって自律的に行われ、33%のエンタープライズソフトウェアにエージェント機能が組み込まれると予測しています。しかしながら、現時点では、企業は期待を控えめにし、エンタープライズ規模の導入に先立ち、堅牢なベンチマークを優先することが推奨されます。.
ソース:
https://www.theregister.com/2025/06/29/ai_agents_fail_a_lot/

