KI-Agent-Benchmarks: Der Enterprise-Bewertungsleitfaden 2026

Getestet auf Princeton/Sierra τ-bench – dem Industriestandard für die Bewertung von KI-Agenten – übertrafen unsere Basis-Agenten zum Zeitpunkt der Einreichung alle veröffentlichten Leaderboard-Ergebnisse über alle Pass-Level hinweg.

Mit GBA-Bench, unserer proprietären Enterprise-Bewertungssuite, haben wir dann die Auswirkungen der Bereitstellung von Agenten mit Context Intelligence getestet: unternehmensweites Gedächtnis und prozeduraler Kontext, die ihnen helfen, sich an organisationsspezifische Workflows anzupassen. Das Ergebnis war eine deutliche Verbesserung sowohl der Trajektoriegenauigkeit als auch der Zielerreichung.

Die Kernaussage: Die Modellauswahl ist wichtig, aber die Architektur rund um das Modell ist genauso wichtig. Wie ein Agent plant, Tools nutzt, sich von Fehlern erholt und Unternehmenskontext anwendet, prägt, wie zuverlässig er in realen Workflows arbeitet.

Hier ist, was wir gemessen haben, wie wir es gemessen haben und was es bedeutet.

Bewertungshinweis: Die τ-bench-Ergebnisse spiegeln die von Automation Anywhere eingereichten Evaluierungsdurchläufe wider, die im Mai 2026 auf der öffentlichen Bestenliste veröffentlicht wurden (zum Zeitpunkt der Veröffentlichung noch ausstehende Zusammenführung). Alle Vergleiche beziehen sich auf zum Zeitpunkt der Einreichung veröffentlichte Werte.

Einführung

In unserem früheren Paper, A Framework for Evaluating Goal-Based AI Agents, führten wir ein duales Bewertungs-Framework ein, das nicht nur misst, ob ein Agent eine Aufgabe abschließt, sondern auch, ob er dem richtigen Denkpfad folgt, um dorthin zu gelangen – denn ein Agent, der durch fragmentierte oder unzuverlässige Ausführung zur richtigen Antwort gelangt, ist ein Risiko im produktiven Einsatz, selbst wenn die Ausgabe korrekt aussieht. Dieses Papier etablierte die Methodik.

Dieses Papier wendet sie auf zwei Arten an.

Zunächst haben wir unsere Agenten gegen τ-bench getestet, um einen externen Vergleichsmaßstab zu etablieren. Entwickelt von Princeton and Sierra ist τ-bench einer der rigorosesten öffentlich verfügbaren Benchmarks zur Bewertung der Leistung von Agenten bei allgemeinen Serviceaufgaben. Abdeckung von 375 Multi-Turn-Aufgaben in den Bereichen Fluggesellschaften, Einzelhandel, Telekommunikation und Banken bietet er uns eine Möglichkeit zu zeigen, wie unsere Agenten im Vergleich zu einem weithin anerkannten Branchenreferenzpunkt abschneiden.

Aber die externe Vergleichbarkeit ist nur ein Teil des Bildes. τ-bench ist wertvoll, weil er uns zeigt, wie Agenten bei standardisierten Service-Workflows abschneiden. Er erfasst nicht vollständig die Unternehmensbedingungen, für deren Bewertung unser Framework entwickelt wurde: Workflows, die auf echten Quelldokumenten basieren, fachgebietsspezifische Richtlinienvalidierung, organisationsspezifische Tool-Schemata und die Geschäftsregeln, die bestimmen, wie Arbeit tatsächlich erledigt wird.

Um diese Bedingungen zu testen, haben wir GBA-Bench, unsere proprietäre Enterprise-Bewertungssuite, entwickelt. GBA-Bench wendet dasselbe duale Metrik-Framework auf eine anspruchsvollere Reihe von Enterprise-Workflows über sieben Fachgebiete hinweg an: Bankwesen, Versicherungen, Gesundheitswesen, Lieferkette, Vertrieb, Finanzen und Lieferanten-Onboarding. Insgesamt haben wir mehr als 30 Frontier-Modelle evaluiert.

Unter Verwendung von GBA-Bench als Bewertungsstandard haben wir dann getestet, was passiert, wenn Agenten mit Gedächtnis ausgestattet werden – und dabei nicht nur gemessen, ob Gedächtnis die Aufgabenerledigung verbessert, sondern auch, ob es die Qualität, Zuverlässigkeit und Enterprise-Tauglichkeit des Ausführungspfads verbessert.

τ-bench: Externe Validierung

Wir haben unsere Basis-Agenten durch die vollständige τ-bench-Evaluierung laufen lassen und dabei unser zentrales Agent Framework verwendet.

Über alle vier Pass-Level hinweg erzielten unsere Agenten zum Zeitpunkt der Einreichung die höchsten Werte unter den veröffentlichten Leaderboard-Ergebnissen. Bei pass^1 erreichten unsere Agenten 74,5 %, einen Vorsprung von +4,3 Punkten gegenüber dem nächstbesten veröffentlichten Ergebnis, vor GPT-5.2, Claude Opus 4.5 und Gemini 3 Pro. Dieser Vorsprung hielt über jede nachfolgende Passstufe hinweg an, vergrößerte sich leicht bei pass^2 und blieb bei pass^4 bei +4,1 Punkten.

Passstufe	Basisagent von Automation Anywhere	Leaderboard Nr. 1	Delta
pass¹	74,50 %	70,20 %	+4,3 Punkte
pass²	67,90 %	63,10 %	+4,8 Punkte
pass³	63,60 %	59,30 %	+4,3 Punkte
pass⁴	60,30 %	56,20 %	+4,1 Punkte

Tabelle 2.1: τ-bench Pass-Level-Ergebnisse – Basis-Agenten von Automation Anywhere vs. Leaderboard Nr. 1, gepoolt über 375 Aufgaben und 4 Fachgebiete. Übertrifft Qwen3.5, GPT-5.2, Claude Opus 4.5, Gemini 3 Pro.

Die pass^k-Struktur ist es, die dieses Ergebnis besonders relevant für den Unternehmenseinsatz macht. pass^1 misst die rohe Aufgabenpräzision. pass^4 misst die Konsistenz: Der Agent muss dieselbe Aufgabe über vier unabhängige Durchläufe hinweg korrekt abschließen. Ein Produktions-Agent bearbeitet einen Workflow nicht nur einmal. Es verarbeitet denselben Workflow-Typ hunderte Male am Tag. Leistung, die sich über pass^2, pass^3 und pass^4 hinweg hält, ist ein stärkeres Signal für architektonische Zuverlässigkeit als ein einzelner erfolgreicher Lauf.

Die Ergebnisse weisen auch auf die Bedeutung hin, wie Agenten entwickelt werden. Als wir dieselben zugrunde liegenden LLMs, die von anderen leistungsstarken Agenten verwendet werden, durch unser Agent Framework laufen ließen, verbesserte sich die Leistung, in einigen Fällen deutlich. Modellfähigkeit ist wichtig, aber auch die Art und Weise, wie das Modell ausgeführt wird. Agent-Architektur, Tool-Nutzung und Planung sind selbst Leistungsfaktoren.

Ausführungsgeschwindigkeit und Fachgebietsaufschlüsselung

Fachgebiet	AA-Score	vs. Leader	Ausführungsgeschwindigkeit	Rang
Fluggesellschaft	84,50 %	+0,5 Punkte	1,6× langsamer (230 s vs. 145 s)	Nr. 1
Einzelhandel	82,90 %	−1,5 Punkte	3,2× schneller (223 s vs. 703 s)	Nr. 2
Telekommunikation	98.20%	+0,4 Punkte	2,6× schneller (330 s vs. 841 s)	Nr. 1
Bankwesen	31,70 %	+0,5 Punkte	2,7× schneller (584 s vs 1.568 s)	Nr. 1

Tabelle 2.2: τ-bench-Ergebnisse nach Fachgebiet – Genauigkeit und Ausführungsgeschwindigkeit im Vergleich zum Leader des Leaderboard.

In unserer τ-bench-Bewertung waren unsere Basis-Agenten in drei der vier Fachgebieten schneller als der veröffentlichte Leaderboard-Vergleichspunkt. Fluggesellschaft war die Ausnahme bei der Geschwindigkeit und lief 1,6× langsamer, erreichte dabei jedoch weiterhin die höchste Genauigkeit im Vergleichsset.

In drei der vier Fachgebiete kombinierten sie zudem eine schnellere Ausführung mit der höchsten Genauigkeit unter den zum Zeitpunkt der Einreichung veröffentlichten Ergebnissen:

Telekommunikation: 2,6x schneller (330 s vs. 841 s), höchste Genauigkeit im Vergleichsset
Bankwesen: 2,7× schneller (584 s vs. 1568 s), höchste Genauigkeit im Vergleichsset
Fluggesellschaft: 1,6× langsamer (230 s vs. 145 s), höchste Genauigkeit im Vergleichsset
Einzelhandel: 3,2× schneller (223 s vs. 703 s), unser schnellstes Ergebnis im Vergleichsset und ein Bereich, den wir im nächsten Evaluierungszyklus für Verbesserungen der Genauigkeit anvisieren

Bankwesen verdient besondere Aufmerksamkeit. Absolute Werte sind bei allen Wettbewerbern niedrig. Unsere Agenten erreichten in diesem Bereich 31,7 %, den höchsten Wert im Vergleichsset zum Zeitpunkt der Einreichung, doch die Zahl spiegelt einen breiteren Engpass im gesamten Bereich wider: Abruflatenz. Der Agent muss Richtlinien- und Kontoinformationen in Echtzeit abrufen, und diese Einschränkung drückt die Bewertungen unabhängig von der Modellqualität.

Dieser Engpass ist auch genau die Art von Problem, das Context Intelligence lösen soll. Wenn diese Ebene reift, erwarten wir, im Bankwesen einige der größten Verbesserungen zu sehen.

GBA-Bench: Unser Enterprise-Bewertungsstandard

τ-bench gibt uns einen externen Benchmark zum Vergleich. GBA-Bench gibt uns die Evaluierungsumgebung, die widerspiegelt, wie Enterprise-Agenten tatsächlich eingesetzt werden.

GBA-Bench ist unsere proprietäre Evaluierungssuite für zielbasierte Agenten, die reale Enterprise-Workflows ausführen. Testfälle werden aus tatsächlichen Quelldokumenten generiert, einschließlich SOPs, Support-Tickets und Workflow-Definitionen. Diese Dokumente werden durch eine vierstufige Pipeline in strukturierte Agent-Definitionen, Szenario-Meilenstein-Paare und ausführbare Python-Testklassen umgewandelt.

Die Abdeckung erstreckt sich über sieben Unternehmensfachgebiete: Bankwesen, Versicherungen, Gesundheitswesen, Lieferkette, Vertrieb, Finanzen und Lieferanten-Onboarding.

Wir haben mehr als 30 Frontier-Modelle aus jeder wichtigen Modellfamilie formell evaluiert, darunter Anthropic, OpenAI, Google, Meta, Qwen, DeepSeek, Mistral und Zhipu/GLM. Jede Bewertung verwendet dasselbe Dual-Metrik-Framework, das in unserem früheren Papier eingeführt wurde: Aufgabenerfolg und Trajektoriegenauigkeit. Beide sind erforderlich.

GBA-Bench ist auch für schnelle Iterationen konzipiert. Da die Pipeline innerhalb von Stunden neue Testfälle generieren kann, können wir neue Frontier-Modelle kurz nach ihrer Veröffentlichung bewerten und nicht nur verstehen, ob sie insgesamt gut abschneiden, sondern auch, ob sie die fachgebietsspezifischen Regeln, Tools und Entscheidungswege bewältigen können, die Enterprise-Workflows erfordern.

Die Einschränkung zustandsloser Agenten

GBA-Bench macht es außerdem möglich, eine zentrale Einschränkung von Basis-Agenten zu isolieren: zustandslose Ausführung.

Selbst gut entwickelte Agenten beginnen jede Aufgabe ohne Erinnerung an frühere Ausführungen. Sie merken sich nicht, welche Tool-Parameter fehlgeschlagen sind, welche Pfade ineffizient waren oder welche Wiederherstellungsstrategien funktioniert haben. Infolgedessen treten dieselben Fehler erneut auf. Die gleichen unnötigen Schritte wiederholen sich. Dieselben fragilen Denkmuster zeigen sich Lauf für Lauf.

Diese Einschränkung ist in unserem Customer Churn Prevention Agent sichtbar. Ohne Gedächtnis erreichte der Agent eine Basis-Trajektoriegenauigkeit von 0,12. Mit anderen Worten: Nur 12 % der Durchläufe folgten dem korrekten Schlussfolgerungspfad, selbst wenn der Agent manchmal zu einem plausibel wirkenden Ergebnis gelangte.

Das bedeutet, dass die Frage nicht einfach ist, ob das Modell die Aufgabe erledigen kann. Es geht darum, ob der Agent aus wiederholter Ausführung lernen und vermeiden kann, dieselben Fehlermodi erneut zu erzeugen. Ein knapper Sieg (geringe Trajektoriegenauigkeit, hohe Genauigkeit beim Aufgabenerfolg) ist kein Problem der Modellqualität. Sondern eine architektonische Einschränkung. Und behebbar.

PRE und Context Intelligence: Von der Basisargumentation zum Unternehmensgedächtnis

Process Reasoning Engine: Grundlegende Workflow-Intelligenz

Die Process Reasoning Engine gibt Agenten ein grundlegendes Verständnis gängiger Fehlerbilder in Workflows, abgeleitet aus aggregierten Ausführungsdaten aus den 400 Millionen Automatisierungen, die wir jedes Jahr auf unserer Plattform sehen. Es ist Teil des zentralen Agent Frameworks: eine verallgemeinerte Argumentationsschicht, die Planung, Tool-Nutzung und Wiederherstellungsverhalten über Aufgaben hinweg verbessert, ohne auf organisationsspezifisches Gedächtnis oder Kontext zu angewiesen zu sein.

Das spiegeln die τ-bench-Ergebnisse wider. Unsere Basis-Agenten wurden im Rahmen von PRE als Teil des Kern-Frameworks für Agenten evaluiert.

Context Intelligence: Gedächtnis und Kontext auf Unternehmensebene

Context Intelligence adressiert die nächste Einschränkung: Selbst bei starker Basisargumentation beginnt ein Agent jede Unternehmensaufgabe ohne Zugriff auf den angesammelten Kontext des Unternehmens. Relevante Geschäftsregeln, workflowspezifische Einschränkungen, Erkenntnisse aus früheren Ausführungen und Verfahrensmuster aus dieser Umgebung fehlen alle. Infolgedessen können dieselben mandantenspezifischen Fehler erneut auftreten. Dieselben ineffizienten Pfade können sich wiederholen.

Context Intelligence fügt diese fehlende Schicht hinzu. Sie ruft relevante unternehmensspezifische Anleitungen vor und während der Ausführung ab, sodass sich der Agent an die Regeln, Tools und die Workflow-Historie des Unternehmens anpassen kann, anstatt jeden Lauf als isoliert zu behandeln.

Der Schlüssel ist die Qualitätsfilterung. Erfolgreiche Ausführungen werden als reproduzierbare Muster bewahrt. Unvollkommene Läufe werden zu wirkungsvollen Lektionen darüber verdichtet, was zu vermeiden oder zu korrigieren ist. Das Ziel ist nicht, sich an alles zu erinnern. Sondern den Kontext sichtbar zu machen, der die nächste Ausführung am ehesten verbessert.

Wir haben außerdem eine Dual-Tier-Variante getestet, die strategischen und prozeduralen Kontext trennt. Strategischer Kontext erfasst übergeordnete Workflow-Muster und wird zu Beginn der Aufgabe abgerufen. Prozeduraler Kontext erfasst granulare Zustandsübergangsaufzeichnungen und wird mitten in der Aufgabe abgerufen, wobei Abfragen aus den Tools konstruiert werden, die der Agent gerade ausgeführt hat. Dies verankert den Abruf im aktuellen Zustand des Agenten und nicht nur in dessen Start-Prompt.

Die Ergebnisse: Bis zu 32-Punkte-Steigerung bei der Zielerreichung

Wir haben Context Intelligence auf PRE-fähigen Basisagenten über vier Enterprise-Agent-Typen hinweg auf GBA-Bench getestet.

Agententyp	Basis (ohne Gedächtnis)	Mit PRE+CI	Verbesserung (absoluter Gewinn in Prozentpunkten)
Details zum Anspruch	0,70	0,90	+0,20
Verhinderung von Kundenabwanderung	0,12	0,59	+0,47
Finanzielle Kreditsperre	0,35	0,55	+0,20
Verkaufsbeschleunigung	0,33	0,66	+0.33

Tabelle 4.2: Trajektoriegenauigkeit – Basis vs. PRE + Context Intelligence (GBA-Bench)

Die Gewinne waren über alle Agententypen hinweg konsistent. Die Trajektoriegenauigkeit verbesserte sich um 20 bis 47 Prozentpunkte. Die Zielerreichung verbesserte sich um bis zu 32 Prozentpunkte. Der Agent zur Verhinderung von Kundenabwanderung verzeichnete einen der größten Zuwächse, wobei die Trajektoriegenauigkeit von 0,12 auf 0,53 stieg, also eine Verbesserung um etwa das 4,4-Fache.

Kontextfähige Agenten reduzierten außerdem die durchschnittliche Anzahl der Tool-Aufrufe pro Lauf bei komplexen Workflows um etwa 20 %. Weniger Tool-Aufrufe bedeuten weniger Fehler-und-Wiederholungszyklen. Der Agent erledigt nicht nur weniger Arbeit; er schlägt früher den richtigen Weg ein. In der Produktion führt das zu niedrigeren API-Kosten, schnellerer Ausführung und vorhersehbarerem Verhalten im großen Maßstab.

Ein Beispiel macht die Veränderung konkret. Beim Verkaufsabschlussbeschleunigungsagenten rief die Basis wiederholt send_deal_alert mit einem ungültigen alert_type-Parameter auf, erhielt einen Fehler, versuchte es erneut mit dem korrekten Wert und schloss die Aufgabe ab. Unter einer Metrik, die nur den Aufgabenerfolg misst, sieht das wie ein Gewinn aus. Unter unserem Framework ist es ein knapper Sieg: Das Ergebnis ist richtig, aber der Ausführungsweg ist beeinträchtigt.

Mit aktivierter Context Intelligence rief der Agent die relevanten unternehmensweiten Richtlinien ab, bevor er denselben Fehler wiederholte: gültige Alarmtypen vor dem Senden von Eskalationsbenachrichtigungen überprüfen. Er hat das Tool beim ersten Versuch korrekt aufgerufen. Trajektoriegenauigkeit: 100 %. Keine Wiederholung erforderlich.

PRE bietet grundlegende Workflow-Intelligence. Context Intelligence fügt unternehmensspezifischen Kontext und Gedächtnis hinzu. Zusammen repräsentieren sie zwei unterschiedliche Ebenen der Agent-Verbesserung: stärkere allgemeine Ausführung und bessere Anpassung an die Unternehmensumgebung.

Schlussfolgerung: Was Unternehmensorchestrierung tatsächlich erfordert

Die Ergebnisse führen zu einem klaren Schluss: Die Leistung von Enterprise-Agenten wird nicht allein durch die Modellauswahl bestimmt.

Auf τ-bench erzielten unsere Basisagenten zum Zeitpunkt der Einreichung die höchsten Werte unter den veröffentlichten Leaderboard-Ergebnissen über alle vier Pass-Level hinweg und liefen dabei in drei von vier Fachbebieten auch schneller als der veröffentlichte Vergleichswert. Sie spiegeln die Stärke des zentralen Agent Frameworks wider, einschließlich der Baseline-Workflow-Intelligence von PRE.

Aber τ-bench ist nur ein Teil des Gesamtbilds der Einsatzbereitschaft. Enterprise-Agenten arbeiten nicht nur an standardisierten Serviceaufgaben. Sie arbeiten innerhalb organisationsspezifischer Workflows, mit fachgebietsspezifischen Richtlinien, benutzerdefinierten Tools, prozeduralen Einschränkungen und wiederkehrenden Ausführungsmustern. Dafür wurde GBA-Bench entwickelt.

Die GBA-Bench-Ergebnisse zeigen, dass zustandslose Ausführung weiterhin eine grundlegende Einschränkung darstellt. Selbst starke Basisagenten können Aufgaben über ineffiziente oder unzuverlässige Wege erledigen und dabei knappe Siege erzeugen, die auf der Ausgabeschicht korrekt aussehen, aber darunter nicht produktionsreif sind.

Context Intelligence schließt diese Lücke. Durch die Bereitstellung von Agenten mit Zugriff auf relevanten unternehmensweiten Speicher und prozeduralen Kontext konnten wir eine Verbesserung der Trajectoiegenauigkeit um 20 bis 47 Prozentpunkte, eine Verbesserung des Zielabschlusses um bis zu 32 Prozentpunkte und einen Rückgang der Tool-Aufrufe um 20 % bei komplexen Workflows beobachten.

Zusammen zeigen diese Ergebnisse zwei unterschiedliche Anforderungen an Agenten der Enterprise-Klasse. Zunächst benötigen sie starke grundlegende Schlussfolgerungsfähigkeiten: die Fähigkeit, zu planen, Tools zu nutzen und sich von häufigen Workflow-Fehlern zu erholen. Zweitens benötigen sie eine Anpassung an Unternehmen: die Fähigkeit, organisationsspezifischen Kontext anzuwenden und sich durch wiederholte Ausführung zu verbessern.

Das ist die Verschiebung, die dieses Papier misst. Die nächste Generation von Enterprise-Agenten wird nicht nur danach beurteilt werden, ob sie einmal die richtige Antwort liefern können. Sie werden daran gemessen, ob sie die richtige Antwort konsistent, über den richtigen Weg, mit Produktionsgeschwindigkeit liefern können, während sie im Laufe der Zeit zuverlässiger werden.

Für die vollständige Methodik, experimentellen Daten und die GBA-Bench-Ranglistenresultate über 30+ Frontier-Modelle laden Sie den KI-Agent-Benchmark-Bericht 2026 herunter. Für das Framework zur Bewertung, das dieser Arbeit zugrunde liegt, lesen Sie A Framework for Evaluating Goal-Based AI Agents.

Dieser Beitrag verweist auf zwei technische Whitepapers von Automation Anywhere: A Framework for Evaluating Goal-Based AI Agents und der KI-Agent-Benchmark-Bericht 2026. τ-bench-Ergebnisse spiegeln Evaluierungsdurchläufe wider, die im Mai 2026 für die öffentliche Bestenliste eingereicht wurden (zum Zeitpunkt der Veröffentlichung noch ausstehende Zusammenführung). Die GBA-Bench-Ergebnisse basieren auf der proprietären Evaluierungssuite von Automation Anywhere. Inhalt vor der Veröffentlichung geprüft.

Jenseits von Tau Bench: Die Leistungswirkung von PRE und Context Intelligence auf Enterprise-KI-Agenten

In diesem Artikel