Analyses comparatives des Agents IA en entreprise : guide d’évaluation 2026

Nos agents de base ont été testés sur Princeton/Sierra τ-bench, la référence du secteur en matière d’évaluation des Agents IA. Ils ont surpassé tous les résultats du classement publiés et disponibles au moment de leur soumission, à tous les niveaux de réussite (« pass »).

Nous avons ensuite utilisé GBA-Bench, notre suite propriétaire d’évaluation d’entreprise, pour tester l’impact de l’intelligence contextuelle : cette mémoire et ce contexte procédural qui sont ajoutés aux agents les aident à s’adapter aux flux de travail spécifiques de l’entreprise. Nous avons constaté une amélioration considérable de la précision de la trajectoire et de l’atteinte des objectifs.

Un point à retenir : si le choix du modèle compte, l’architecture autour du modèle compte tout autant. La manière dont un agent planifie des tâches, utilise des outils, corrige ses erreurs et exploite le contexte d’entreprise détermine la fiabilité de ses performances dans les flux de travail réels.

Voici ce que nous avons mesuré, les méthodes que nous avons employées et la signification des résultats.

Note méthodologique : les résultats de τ-bench reflètent les exécutions d’évaluation d’Automation Anywhere qui ont été soumises au classement public en mai 2026 (en attente d’intégration au moment de la publication). Toutes les comparaisons font référence aux scores publiés au moment de la soumission.

Introduction

Dans notre livre blanc, A Framework for Evaluating Goal-Based AI Agents (Cadre d’évaluation des Agents IA basée sur les objectifs), nous avons introduit un cadre d’évaluation à double indicateur qui non seulement mesure si un agent exécute une tâche correctement, mais qui vérifie également s’il suit le bon chemin de raisonnement pour y parvenir. En effet, un agent qui aboutit à la bonne réponse en passant par une exécution fragmentée ou peu fiable représente un risque en production, même lorsque le résultat semble correct. Ce livre blanc a établi la méthodologie.

Le présent document l’applique de deux manières.

Tout d’abord, nous avons exécuté nos agents sur τ-bench afin d’établir un point de comparaison externe. Développé par Princeton et Sierra, τ-bench est l’un des référentiels publics les plus rigoureux pour l’évaluation des performances des agents dans des tâches de service généralistes. Ce référentiel couvre 375 tâches à interactions multiples dans les domaines du transport aérien, du commerce de détail, des télécommunications et de la banque. Il nous permet de montrer comment nos agents se positionnent par rapport à cette référence largement reconnue.

Mais la comparabilité externe ne représente qu’une partie de l’équation. Le référentiel τ-bench est également utile parce qu’il nous permet d’évaluer les performances des agents dans des flux de travail de service normalisés. En revanche, il ne reflète pas pleinement les conditions en entreprise que notre cadre vise à évaluer, c’est-à-dire les flux de travail fondés sur de véritables documents source, la validation des stratégies propres à chaque domaine, les schémas d’outils propres à chaque entreprise et les règles métier qui régissent les méthodes de travail réelles.

Pour tester ces conditions, nous avons construit GBA-Bench, notre suite d’évaluation propriétaire pour les entreprises. La suite GBA-Bench applique le même cadre à double indicateur à un ensemble plus exigeant de flux de travail d’entreprise dans sept domaines : banque, assurance, soins de santé, chaîne logistique, vente, finance et intégration des fournisseurs. Au total, nous avons évalué plus de 30 modèles de pointe.

En utilisant GBA-Bench comme norme d’évaluation, nous avons ensuite testé l’impact de l’ajout de mémoire aux agents. Nous avons mesuré si cette mémoire améliore non seulement l’accomplissement des tâches, mais également la qualité, la fiabilité et la capacité des agents à être exécutés en environnement d’entreprise.

τ-bench : validation externe

Nous avons soumis nos agents de base à une évaluation τ-bench complète en utilisant notre cadre d’agents principal.

Sur les quatre niveaux de réussite, nos agents ont obtenu les scores les plus élevés parmi les résultats du classement publiés au moment de la soumission. Au niveau pass^1, nos agents ont atteint 74,5 %, soit une avance de 4,3 points sur le meilleur résultat publié suivant, devant GPT-5.2, Claude Opus 4.5 et Gemini 3 Pro. Cet avantage s’est maintenu à chaque niveau suivant et s’est accentué légèrement au niveau pass^2 pour rester à +4,1 points au niveau pass^4.

Niveau de réussite	Agent de base Automation Anywhere	N° 1 du classement	Différence
pass¹	74,50 %	70,20 %	+4,3 pts
pass²	67,90 %	63,10 %	+4,8 pts
pass³	63,60 %	59,30 %	+4,3 pts
pass⁴	60,30 %	56,20 %	+4,1 pts

Tableau 2.1 : comparaison des niveaux de réussite dans τ-bench des agents de base d’Automation Anywhere et du n° 1 du classement (résultats agrégés de 375 tâches et de 4 domaines). Résultats supérieurs à ceux de Qwen3.5, de GPT-5.2, de Claude Opus 4.5 et de Gemini 3 Pro.

C’est la structure de type pass^k qui rend ce résultat particulièrement pertinent pour le déploiement en entreprise. Le niveau pass^1 mesure la précision brute de la tâche et le niveau pass^4 mesure la cohérence : l’agent doit accomplir correctement la même tâche dans quatre exécutions indépendantes. Un agent de production ne gère pas un flux de travail une seule fois. Il gère le même type de flux de travail des centaines de fois par jour. Une performance qui se maintient aux niveaux pass^2, pass^3 et pass^4 constitue un signal plus fort de fiabilité architecturale qu’une réussite isolée.

Ces résultats soulignent également l’importance de la conception des agents. Lorsque nous avons exécuté dans notre cadre d’agents les mêmes LLM sous-jacents utilisés par d’autres agents de premier plan, nous avons constaté une amélioration, dans certains cas significative, des performances. Les capacités du modèle sont importantes, mais son mode d’exécution l’est tout autant. L’architecture des agents, l’utilisation des outils et la planification sont elles-mêmes des facteurs de performance.

Vitesse d’exécution et répartition par domaine

Domaine	Score d’Automation Anywhere	Par rapport au leader	Vitesse d’exécution	Classement
Compagnies aériennes	84,50 %	+0,5 pt	1,6 fois plus lent (230 s contre 145 s)	1
Vente au détail	82,90 %	−1,5 pt	3,2 fois plus rapide (223 s contre 703 s)	~2
Télécommunications	98,20 %	+0,4 pt	2,6 fois plus rapide (330 s contre 841 s)	1
Banque	31,70 %	+0,5 pt	2,7 fois plus rapide (584 s contre 1 568 s)	1

Tableau 2.2 : résultats obtenus dans τ-bench par domaine, avec comparaison de la précision et de la vitesse d’exécution par rapport au leader du classement.

Dans l’évaluation que nous avons menée dans τ-bench, nos agents de base étaient plus rapides que le point de comparaison du classement publié dans trois des quatre domaines. Le secteur des compagnies aériennes a fait figure d’exception en matière de vitesse, en fournissant des résultats 1,6× plus lentement, mais en obtenant la plus grande précision de l’ensemble de comparaison.

Dans trois des quatre domaines, la rapidité d’exécution était associée à une plus grande précision par rapport aux résultats publiés au moment de la soumission :

Télécommunications : 2,6 fois plus rapide (330 s contre 841 s), avec la plus grande précision de l’ensemble de comparaison.
Services bancaires : 2,7 fois plus rapide (584 s contre 1 568 s), avec la plus grande précision de l’ensemble de comparaison.
Compagnies aériennes : 1,6 fois plus lent (230 s contre 145 s), avec la plus grande précision de l’ensemble de comparaison.
Vente : 3,2 fois plus rapide (223 s contre 703 s), notre meilleur résultat dans l’ensemble de comparaison et un domaine que nous ciblons pour améliorer la précision lors du prochain cycle d’évaluation.

Le secteur de la banque mérite une attention particulière. Les scores absolus sont faibles chez tous les concurrents. Nos agents ont atteint 31,7 % dans ce domaine, le score le plus élevé de l’ensemble de comparaison au moment de la soumission. Toutefois, ce chiffre reflète un goulot d’étranglement plus large dans tout le domaine : la latence d’extraction. L’agent doit récupérer en temps réel les informations de stratégies et de comptes ; cette contrainte fait baisser les scores, quelle que soit la qualité du modèle.

Ce goulot d’étranglement est aussi précisément le type de problème que l’intelligence contextuelle devrait résoudre. À mesure que cette couche gagne en maturité, c’est dans le secteur bancaire que nous nous attendons à constater certaines des améliorations les plus importantes.

GBA-Bench : notre norme d’évaluation d’entreprise

Le référentiel τ-bench nous fournit une référence externe pour la comparaison. La suite GBA-Bench nous fournit l’environnement d’évaluation qui reflète l’utilisation réelle des agents en entreprise.

GBA-Bench est notre suite d’évaluation propriétaire pour les agents orientés objectifs et qui exécutent de véritables flux de travail d’entreprise. Les cas d’essai sont générés à partir de documents source réels, notamment des procédures opérationnelles standard, des tickets d’assistance et des définitions de flux de travail. Ces documents sont convertis, via un pipeline en quatre étapes, en définitions d’agents structurées, en paires scénario-jalon et en classes de test Python exécutables.

La solution couvre sept domaines : banque, assurance, soins de santé, chaîne logistique, vente, finance et intégration des fournisseurs.

Nous avons évalué de manière formelle plus de 30 modèles de pointe dans chaque grande famille de modèles, notamment Anthropic, OpenAI, Google, Meta, Qwen, DeepSeek, Mistral et Zhipu/GLM. Chaque évaluation utilise le même cadre à double indicateur présenté dans notre précédent livre blanc : la réussite de la tâche et la précision de la trajectoire. Ces deux critères sont indispensables.

La suite GBA-Bench est également conçue pour des itérations rapides. Le pipeline peut générer de nouveaux cas d’essai en quelques heures, si bien que nous pouvons évaluer les nouveaux modèles de pointe peu après leur publication et comprendre non seulement s’ils offrent de bonnes performances en général, mais également s’ils peuvent gérer les règles, les outils et les parcours de décision propres au domaine qu’exigent les flux de travail d’entreprise.

Limites des agents sans état

La suite GBA-Bench permet également d’isoler une limite fondamentale des agents de base : l’exécution sans état.

Même les agents les mieux conçus commencent chaque tâche sans aucune mémoire des exécutions précédentes. Ils ne conservent ni les valeurs de paramètres d’outil ayant échoué, ni les parcours inefficaces, ni les stratégies de récupération ayant fonctionné. Par conséquent, les mêmes erreurs se reproduisent. Les mêmes étapes inutiles se répètent. Les mêmes schémas de raisonnement fragiles réapparaissent à chaque exécution.

Cette limite est visible dans notre agent de prévention de l’attrition client. Sans mémoire, l’agent a atteint une précision de trajectoire de référence de 0,12. Autrement dit, 12 % seulement des exécutions ont suivi le bon chemin de raisonnement, même lorsque l’agent aboutissait parfois à un résultat plausible.

Cela signifie que la question n’est pas simplement de savoir si le modèle peut accomplir la tâche. Il s’agit également de savoir si l’agent peut apprendre à partir d’exécutions répétées et éviter de recréer les mêmes modes de défaillance. Un succès non optimal (précision faible de la trajectoire, précision élevée de la réussite de la tâche) ne relève pas d’un problème de qualité du modèle. C’est une limitation architecturale. Et elle peut être corrigée.

Moteur de raisonnement des processus et intelligence contextuelle : du raisonnement de base à la mémoire d’entreprise

Moteur de raisonnement des processus : intelligence des flux de travail de référence

Le moteur de raisonnement des processus donne aux agents une compréhension de base des schémas courants d’échec des flux de travail. Cette compréhension est obtenue à partir des données d’exécution agrégées issues des 400 millions d’automatisations que nous observons sur notre plateforme chaque année. Ce moteur fait partie du cadre d’agents central : il s’agit d’une couche de raisonnement généralisée qui améliore la planification, l’utilisation des outils et le comportement de récupération dans l’ensemble des tâches, sans s’appuyer sur une mémoire ni un contexte propre à l’entreprise.

C’est ce que reflètent les résultats des évaluations réalisées dans τ-bench. Nos agents de base ont été évalués avec un moteur de raisonnement des processus dans le cadre d’agents principal.

Intelligence contextuelle : mémoire et contexte pour l’entreprise

L’intelligence contextuelle répond à la limite suivante : même avec un raisonnement de base solide, un agent commence chaque tâche sans avoir accès au contexte accumulé de l’entreprise. Les règles métier pertinentes, les contraintes propres au flux de travail, les enseignements tirés des exécutions précédentes et les schémas procéduraux de cet environnement sont tous absents. Par conséquent, les mêmes erreurs propres à chaque environnement client peuvent se reproduire. Les mêmes parcours inefficaces peuvent se répéter.

C’est l’intelligence contextuelle qui compense en ajoutant cette couche manquante. Avant et pendant l’exécution, elle récupère des conseils pertinents propres à l’entreprise afin que l’agent puisse s’adapter aux règles, aux outils et à l’historique des flux de travail plutôt que de traiter chaque exécution isolément.

La clé réside dans la qualité du filtrage. Les exécutions réussies sont conservées en tant que schémas reproductibles. Les exécutions imparfaites sont synthétisées en enseignements à fort impact sur ce qu’il faut éviter ou corriger. L’objectif n’est pas de tout mémoriser. Il s’agit plutôt de faire ressortir le contexte le plus susceptible d’améliorer l’exécution suivante.

Nous avons également testé une variante à deux niveaux, qui sépare le contexte stratégique et le contexte procédural. Le contexte au niveau de la stratégie capture les schémas de flux de travail de haut niveau et est récupéré au début de la tâche. Le contexte procédural capture les enregistrements granulaires des transitions d’état et il est récupéré en cours de tâche, avec des requêtes construites à partir des outils que l’agent vient d’exécuter. De cette manière, l’extraction est ancrée dans l’état actuel de l’agent plutôt que dans l’invite initiale uniquement.

Résultats : jusqu’à 32 points de progression du taux de réalisation des objectifs

Nous avons testé l’intelligence contextuelle dans GBA-Bench, sur des agents de base activés par moteur de raisonnement des processus dans quatre types d’agents d’entreprise.

Type d’agent	Base (sans mémoire)	Avec moteur de raisonnement des processus et intelligence contextuelle	Amélioration (gain absolu en points de pourcentage)
Détails des demandes de remboursement	0,70	0,90	+0,20
Prévention de l’attrition client	0,12	0,59	+0,47
Blocage de crédits	0,35	0,55	+0,20
Accélération des transactions commerciales	0,33	0,66	+0,33

Tableau 4.2 : précision de la trajectoire — Comparaison de la base et de la combinaison moteur de raisonnement des processus + intelligence contextuelle (GBA-Bench)

Les gains étaient constants pour tous les types d’agents. La précision de la trajectoire s’est améliorée de 20 à 47 points de pourcentage. La réalisation des objectifs s’est améliorée jusqu’à 32 points de pourcentage. L’agent de prévention de l’attrition client a enregistré l’une des plus fortes hausses, avec une précision de trajectoire passant de 0,12 à 0,53, soit une multiplication par 4,4 environ.

Les agents contextuels ont également réduit le nombre moyen d’appels d’outils par exécution d’environ 20 % dans des flux de travail complexes. Un nombre d’appels d’outils réduit signifie des nombres de cycles d’erreur et de nouvelle tentative réduits également. L’agent ne se contente pas de faire moins de travail : il emprunte la bonne voie plus tôt dans le processus. En production, cela se traduit par des coûts d’API plus faibles, une exécution plus rapide et un comportement plus prévisible à grande échelle.

Voici un exemple concret de ce changement. Dans l’agent d’accélération des ventes, la référence appelait la commande send_deal_alert à plusieurs reprises, avec un paramètre alert_type non valide. Il recevait une erreur, réessayait avec la valeur correcte et terminait la tâche. Selon un indicateur fondé uniquement sur la réussite de la tâche, cela ressemble à un succès. Dans notre cadre, il s’agit d’un succès non optimal : le résultat est correct, mais le chemin d’exécution est dégradé.

Lorsque l’intelligence contextuelle est activée, l’agent récupère les conseils pertinents au lieu de répéter la même erreur : il vérifie les types d’alerte valides avant d’envoyer des notifications de remontée d’informations. Il invoque l’outil correctement dès la première tentative. Précision de la trajectoire : 100 %. Sans aucune action requise.

Le moteur de raisonnement des processus fournit l’intelligence des flux de travail de référence. L’intelligence contextuelle ajoute un contexte et une mémoire propres à l’entreprise. Ensemble, ils représentent deux niveaux distincts d’amélioration des agents : une exécution générale plus robuste et une meilleure adaptation à l’environnement d’entreprise.

Conclusion : exigences de la préparation des agents

Les résultats conduisent à une conclusion claire : les performances des agents en entreprise ne sont pas simplement déterminées par le choix du modèle.

Dans τ-bench, nos agents de base ont obtenu les scores les plus élevés parmi les résultats du classement publiés au moment de la soumission, sur les quatre niveaux de réussite, tout en s’exécutant plus rapidement que le point de comparaison publié dans trois des quatre domaines. Ils reflètent la robustesse du cadre d’agents central, y compris l’intelligence des flux de travail de base du moteur de raisonnement des processus.

Mais l’évaluation τ-bench n’est qu’une partie du tableau de préparation. Les agents d’entreprise ne fonctionnent pas uniquement sur des tâches de service normalisées. Ils fonctionnent dans des flux de travail propres à l’entreprise, avec des stratégies propres au domaine, des outils personnalisés, des contraintes procédurales et des schémas d’exécution récurrents. C’est pour ces évaluations que la suite GBA-Bench a été créée.

Les résultats des évaluations effectuées dans GBA-Bench indiquent que l’exécution sans état reste une limitation fondamentale. Même des agents de base performants peuvent accomplir des tâches par des voies inefficaces ou peu fiables. Cela crée des succès non optimaux, qui semblent corrects au niveau des résultats, mais qui ne sont pas prêts pour être utilisés en production.

L’intelligence artificielle comble cette lacune. En donnant aux agents l’accès à une mémoire pertinente de niveau entreprise et à un contexte procédural, nous avons constaté une amélioration de la précision des trajectoires de 20 à 47 points de pourcentage, une amélioration de la réalisation des objectifs jusqu’à 32 points de pourcentage et une diminution de 20 % des appels d’outils dans des flux de travail complexes.

Ces résultats agrégés montrent deux exigences distinctes pour les agents de niveau entreprise. Tout d’abord, ils ont besoin d’un raisonnement de base solide pour pouvoir planifier des tâches, utiliser des outils et se corriger en fonction des échecs courants dans les flux de travail. Ensuite, ils ont besoin d’une adaptation à l’entreprise pour pouvoir appliquer un contexte propre à l’entreprise et s’améliorer grâce à des exécutions répétées.

Ce sont ces changements que mesure cet article. Les agents d’entreprise de nouvelle génération ne seront pas jugés uniquement sur leur capacité à produire la bonne réponse une seule fois. Ils seront jugés sur leur capacité à produire la bonne réponse de manière cohérente, par le bon chemin et à une certaine vitesse de production, et également à s’améliorer au fil du temps.

Pour connaître la méthodologie complète, les données expérimentales et les résultats du classement GBA-Bench sur plus de 30 modèles de pointe, téléchargez le document AI Agent benchmark report 2026 (Rapport d’évaluation des Agents IA 2026). Pour plus d’informations sur le cadre d’évaluation qui sous-tend ce travail, reportez-vous au document A Framework for Evaluating Goal-Based AI Agents (Cadre d’évaluation des Agents IA basée sur les objectifs).

Cet article fait référence à deux livres blancs techniques d’Automation Anywhere : A Framework for Evaluating Goal-Based AI Agents (Cadre d’évaluation des Agents IA basée sur les objectifs) et AI Agent benchmark report 2026 (Rapport d’évaluation des Agents IA 2026). Les résultats de τ-bench reflètent les exécutions d’évaluation soumises au classement public en mai 2026 (en attente d’intégration au moment de la publication). Les résultats de GBA-Bench sont basés sur cette suite d’évaluation propriétaire d’Automation Anywhere. Contenu vérifié avant publication.

Balises

Emily Gal

Emily est directrice du marketing produit – Automatisation agentique des processus chez Automation Anywhere.

Au-delà du référentiel Tau-Bench : impact du moteur de raisonnement des processus et de l’intelligence contextuelle sur les performances des Agents IA en entreprise

Dans cet article