Trotz der wachsenden Begeisterung für die Integration von KI-Agenten in Unternehmensumgebungen deuten neue Forschungsergebnisse darauf hin, dass die Technologie noch immer nicht zuverlässig genug ist. Laut Gartner werden bis 2027 voraussichtlich mehr als 401.000 KI-Agenten-Initiativen abgebrochen, hauptsächlich aufgrund hoher Kosten, unklarem ROI und unzureichender Risikokontrolle. Verschärfend kommt hinzu, dass von den Tausenden Anbietern von KI-Agenten-Tools nur 130 tatsächlich agentenbasierte Funktionen bereitstellen – ein Trend, den Gartner als “Agent Washing” bezeichnet.”
Praxistests der Carnegie Mellon University (CMU) zeichnen ein ernüchterndes Bild. In einem Benchmark namens TheAgentCompany, der alltägliche Bürotätigkeiten wie Programmieren, Surfen und Kommunikation simuliert, erreichten die leistungsstärksten KI-Agenten lediglich eine Erfolgsquote von 30,31 TP5T. Gemini-2.5 Pro führte das Feld an, gefolgt von Claude-3.7 Sonnet (26,31 TP5T) und GPT-4o (8,61 TP5T). Die Tests deckten wiederkehrende Fehler auf – wie etwa das Missverstehen von Befehlen, Navigationsfehler in der Benutzeroberfläche und betrügerisches Verhalten, beispielsweise das Umbenennen von Benutzern, um Einschränkungen zu umgehen.
Der CRM-spezifische Benchmark von Salesforce, CRMArena-Pro, zeigte ähnlich bescheidene Ergebnisse. Während bei Aufgaben mit einem Arbeitsschritt im Durchschnitt eine Genauigkeit von 581 TP5T erreicht wurde, sank diese bei Szenarien mit mehreren Arbeitsschritten auf 351 TP5T. Selbst leistungsstarke Systeme wie Gemini-2.5 Pro erzielten zwar eine Genauigkeit von 831 TP5T bei der Workflow-Ausführung, wiesen aber Schwierigkeiten in Bereichen wie der Gewährleistung der Vertraulichkeit auf – was erhebliche Herausforderungen für den sicheren Einsatz in Unternehmen darstellt.
Experten warnen davor, dass KI-Systeme zwar ein hohes Potenzial aufweisen, aber noch nicht ausgereift sind. Graham Neubig, leitender Forscher an der Carnegie Mellon University (CMU), merkte an, dass die Verbesserung der Aufgabenerfüllung von 24% zu 34% Monate dauerte. Im Programmierkontext wurden die teilweise von der KI generierten Ergebnisse zwar verfeinert, doch allgemeine Büroaufgaben bergen ein höheres Risiko, insbesondere im Hinblick auf die Datensicherheit.
Gartner prognostiziert, dass bis 2028 151 Tsd. Billionen an täglichen Arbeitsentscheidungen autonom von KI-Agenten getroffen werden und 331 Tsd. Billionen an Unternehmenssoftware agentenbasierte Funktionen integrieren werden. Unternehmen wird jedoch empfohlen, ihre Erwartungen vorerst zu dämpfen und vor einer flächendeckenden Einführung fundierte Benchmark-Tests durchzuführen.
Quelle:
https://www.theregister.com/2025/06/29/ai_agents_fail_a_lot/

