Puntos de referencia de agentes de IA: La guía de evaluación empresarial de 2026

Probados en el τ-bench Princeton/Sierra, el estándar de la industria para la evaluación de agentes de IA, nuestros agentes básicos superaron todos los resultados publicados en la tabla de clasificación disponibles al momento de la presentación, en todos los niveles de aprobación.

Con GBA-Bench, nuestro conjunto de evaluación empresarial patentado, luego probamos el impacto de proporcionar a los agentes inteligencia de contexto: memoria y contexto procedimental de nivel empresarial que les ayuda a adaptarse a flujos de trabajo específicos de la organización. El resultado fue una mejora significativa tanto en la precisión de la trayectoria como en la finalización del objetivo.

La conclusión: la elección del modelo importa, pero la arquitectura que rodea al modelo es igual de importante. Cómo un agente planifica, usa herramientas, se recupera de errores y aplica el contexto empresarial determina su fiabilidad en el desempeño de los flujos de trabajo reales.

Esto es lo que medimos, cómo lo medimos y qué significa.

Nota de evaluación: Los resultados de τ-bench reflejan las ejecuciones de evaluación de Automation Anywhere enviadas a la tabla de clasificación pública en mayo de 2026 (pendiente de integración al momento de la publicación). Todas las comparaciones hacen referencia a puntuaciones publicadas al momento de la presentación.

Introducción

En nuestro artículo anterior, Un marco para evaluar agentes de IA basados en objetivos, presentamos un marco de evaluación de doble métrica que mide no solo si un agente completa una tarea, sino si sigue la ruta de razonamiento correcta para llegar allí, porque un agente que llega a la respuesta correcta mediante una ejecución fragmentada o poco confiable representa un riesgo en producción, incluso cuando el resultado parece correcto. Ese documento estableció la metodología.

Este documento lo aplica de dos maneras.

Primero, ejecutamos nuestros agentes contra τ-bench para establecer un punto de comparación externo. Desarrollado por Princeton y Sierra, τ-bench es uno de los bancos de pruebas públicos más rigurosos disponibles para evaluar el rendimiento de agentes en tareas de servicio de propósito general. Con 375 tareas de múltiples turnos en los dominios de aerolíneas, comercio minorista, telecomunicaciones y banca, nos brinda una forma de mostrar cómo nuestros agentes se comparan con un punto de referencia de la industria ampliamente reconocido.

Sin embargo, la comparabilidad externa es solo una parte del panorama. τ-bench es valioso porque nos dice cómo se desempeñan los agentes en flujos de trabajo de servicio estandarizados. No refleja completamente las condiciones empresariales que nuestro marco evalúa: flujos de trabajo basados en documentos fuente reales, validación de políticas específicas del dominio, esquemas de herramientas específicos de la organización y las reglas de negocio que rigen cómo se realiza realmente el trabajo.

Para probar esas condiciones, construimos GBA-Bench, nuestro conjunto de evaluación empresarial patentado. GBA-Bench aplica el mismo marco de doble métrica a un conjunto más exigente de flujos de trabajo empresariales en siete dominios: banca, seguros, salud, cadena de suministro, ventas, finanzas e incorporación de proveedores. En total, evaluamos más de 30 modelos de vanguardia.

Con GBA-Bench como estándar de evaluación, luego probamos qué sucede cuando se les da memoria a los agentes: medimos no solo si la memoria mejora la finalización de las tareas, sino si mejora la calidad, la confiabilidad y la preparación empresarial de la ruta de ejecución.

τ-bench: validación externa

Ejecutamos nuestros agentes básicos a través de la evaluación completa de τ-bench con nuestro marco central para agentes.

En los cuatro niveles de prueba, nuestros agentes lograron las puntuaciones más altas entre los resultados publicados en la tabla de clasificación al momento de la presentación. En la prueba^1, nuestros agentes lograron 74,5%, una ventaja de 4,3 puntos sobre el siguiente mejor resultado publicado, por delante de GPT-5.2, Claude Opus 4.5 y Gemini 3 Pro. Ese liderazgo se mantuvo en cada nivel de prueba posterior, aumentó ligeramente en la prueba^2 y permaneció en 4,1 puntos en la prueba^4.

Nivel de aprobación	Agente base de Automation Anywhere	Clasificación n.º 1	Delta
prueba¹	74,50%	70,20%	+4,3 puntos
prueba²	67,90%	63,10%	+4,8 puntos
prueba³	63,60%	59,30%	+4,3 puntos
prueba⁴	60,30%	56,20%	+4,1 puntos

Tabla 2.1: resultados de nivel de aprobación de τ-bench, agentes básicos de Automation Anywhere frente al n.º 1 de la clasificación, basada en 375 tareas y 4 ámbitos. Superando a Qwen3.5, GPT-5.2, Claude Opus 4.5, Gemini 3 Pro.

La estructura prueba^k es lo que hace que este resultado sea especialmente relevante para el despliegue empresarial. La prueba^1 mide la precisión bruta de la tarea. La prueba^4 mide la consistencia: el agente debe completar la misma tarea correctamente en cuatro ejecuciones independientes. Un agente de producción no gestiona un flujo de trabajo una sola vez. Maneja el mismo tipo de flujo de trabajo cientos de veces al día. El rendimiento que se mantiene en la prueba^2, la prueba^3 y la prueba^4 es una señal más sólida de confiabilidad arquitectónica que una sola ejecución exitosa.

Los resultados también señalan la importancia de cómo se construyen los agentes. Cuando ejecutamos los mismos LLM subyacentes utilizados por otros agentes de alto rendimiento a través de nuestro marco para agentes, el rendimiento mejoró, en algunos casos de manera significativa. La capacidad del modelo importa, pero también importa cómo se ejecuta el modelo. La arquitectura de los agentes, el uso de herramientas y la planificación son, en sí mismos, impulsores del rendimiento.

Velocidad de ejecución y desglose por dominio

Dominio	Puntuación de AA	frente a líder	Velocidad de ejecución	Clasificación
Aerolínea	84,50%	+0,5 puntos	1,6 veces más lento (230 s vs. 145 s)	#1
Ventas minoristas	82,90%	−1,5 puntos	3,2 veces más rápido (223 s vs. 703 s)	~#2
Telecomunicaciones	98,20%	+0,4 puntos	2,6 veces más rápido (330 s vs. 841 s)	#1
Servicios bancarios	31,70%	+0,5 puntos	2,7 veces más rápido (584 s vs. 1568 s)	#1

Tabla 2.2: resultados de τ-bench por dominio, precisión y velocidad de ejecución vs. el líder de la tabla de clasificación.

En nuestra evaluación de τ-bench, nuestros agentes básicos fueron más rápidos que el punto de comparación de la tabla de clasificación publicada en tres de los cuatro dominios. La aerolínea fue la excepción en velocidad, ya que funcionó 1,6 veces más lento, aunque logró la mayor precisión en el conjunto de comparación.

En tres de los cuatro dominios, también combinaron una ejecución más rápida con la mayor precisión entre los resultados publicados al momento de la presentación:

Telecomunicaciones: 2,6 veces más rápido (330 s vs. 841 s), la mayor precisión en el conjunto de comparación.
Banca: 2,7 veces más rápido (584 s vs. 1568 s), la mayor precisión en el conjunto de comparación.
Aerolínea: 1,6 veces más lento (230 s vs. 145 s), la mayor precisión en el conjunto de comparación.
Venta al por menor: 3,2 veces más rápido (223 s vs. 703 s), nuestro resultado más rápido en el conjunto de comparación y un dominio en el que nos centraremos para mejorar la precisión en el próximo ciclo de evaluación.

La banca merece atención específica. Las puntuaciones absolutas son bajas en todos los competidores. Nuestros agentes alcanzaron un 31,7% en este dominio, la puntuación más alta en el conjunto de comparación al momento de la presentación, pero el número refleja un cuello de botella más amplio en todo el dominio: la latencia de recuperación. El agente debe recuperar la información de la política y de la cuenta en tiempo real, y esa restricción reduce las puntuaciones independientemente de la calidad del modelo.

Ese cuello de botella es precisamente el tipo de problema que la inteligencia de contexto está diseñada para resolver. A medida que esa capa madura, la banca es donde esperamos ver algunas de las mayores mejoras.

GBA-Bench: nuestro estándar de evaluación empresarial

τ-bench nos proporciona un punto de referencia externo para comparación. GBA-Bench nos brinda el entorno de evaluación que refleja cómo se usan realmente los agentes empresariales.

GBA-Bench es nuestro conjunto de evaluación patentado para agentes basados en objetivos que ejecutan flujos de trabajo empresariales reales. Los casos de prueba se generan a partir de documentos fuente reales, incluidos SOP, tickets de soporte y definiciones de flujo de trabajo. Esos documentos se convierten mediante una canalización de cuatro etapas en definiciones estructuradas de agente, pares de escenario-hito y clases de prueba de Python ejecutables.

La cobertura abarca siete dominios empresariales: banca, seguros, salud, cadena de suministro, ventas, finanzas e incorporación de proveedores.

Hemos evaluado formalmente más de 30 modelos de vanguardia en todas las principales familias de modelos, incluidas Anthropic, OpenAI, Google, Meta, Qwen, DeepSeek, Mistral y Zhipu/GLM. Cada evaluación utiliza el mismo marco de doble métrica introducido en nuestro artículo anterior: éxito de la tarea y precisión de la trayectoria. Ambas son obligatorias.

GBA-Bench también está diseñado para permitir iteraciones rápidas. Debido a que la canalización puede generar nuevos casos de prueba en horas, podemos evaluar nuevos modelos de vanguardia poco después de su lanzamiento y entender no solo si tienen un buen desempeño en general, sino si pueden manejar las reglas, herramientas y rutas de decisión específicas del dominio que requieren los flujos de trabajo empresariales.

La limitación de los agentes sin estado

GBA-Bench también hace posible aislar una limitación central de los agentes básicos: la ejecución sin estado.

Incluso los agentes bien construidos comienzan cada tarea sin memoria de ejecuciones anteriores. No conservan qué parámetros de herramienta fallaron, qué rutas fueron ineficientes o qué estrategias de recuperación funcionaron. Como resultado, se repiten los mismos errores. Se repiten los mismos pasos innecesarios. Aparecen los mismos patrones de razonamiento frágiles una y otra vez.

Esta limitación es visible en nuestro agente de prevención de pérdida de clientes. Sin memoria, el agente logró una precisión de trayectoria de referencia de 0,12. En otras palabras, solo el 12% de las ejecuciones siguieron la ruta de razonamiento correcta, incluso cuando el agente a veces alcanzó un resultado que parecía plausible.

Eso significa que el problema no es simplemente si el modelo puede completar la tarea. Es si el agente puede aprender de la ejecución repetida y evitar recrear los mismos errores. Una victoria ajustada (baja precisión de trayectoria, alta precisión de éxito de la tarea) no es un problema de calidad del modelo. Es una limitación arquitectónica. Y se puede arreglar.

PRE e inteligencia de contexto: de razonamiento básico a memoria empresarial

Motor de razonamiento de procesos: Información básica sobre los flujos de trabajo

El motor de razonamiento de procesos les da a los agentes una comprensión básica de los patrones comunes de fallos en los flujos de trabajo, derivada de datos de ejecución agregados de las 400 millones de automatizaciones que vemos en nuestra plataforma cada año. Forma parte del marco central para agentes: una capa de razonamiento generalizada que mejora la planificación, el uso de herramientas y el comportamiento de recuperación en todas las tareas, sin depender de la memoria o el contexto específicos de la organización.

Eso es lo que reflejan los resultados de τ-bench. Nuestros agentes básicos se evaluaron con PRE como parte del marco para agentes principales.

Inteligencia de contexto: Memoria y contexto a nivel empresarial

La inteligencia de contexto aborda la siguiente limitación: incluso con un sólido razonamiento base, un agente comienza cada tarea empresarial sin acceso al contexto acumulado de la organización. Faltan todas las reglas de negocio relevantes, las restricciones específicas del flujo de trabajo, las lecciones de ejecuciones previas y los patrones procedimentales de ese entorno. Como resultado, pueden volver a producirse los mismos errores específicos del inquilino. Es posible que se repitan los mismos procesos ineficientes.

La inteligencia de contexto agrega esa capa que faltaba. Recupera orientación relevante específica de la empresa antes de la ejecución y durante esta, para que el agente pueda adaptarse a las reglas, las herramientas y el historial de flujo de trabajo de la organización en lugar de tratar cada ejecución como un caso aislado.

La clave es el filtrado de calidad. Las ejecuciones exitosas se conservan como patrones replicables. Las ejecuciones imperfectas se destilan en lecciones de alto impacto sobre qué evitar o corregir. El objetivo no es recordar todo. Se trata de mostrar el contexto con mayor probabilidad de mejorar la siguiente ejecución.

También probamos una variante de doble nivel que separa el contexto a nivel de estrategia y el contexto procedimental. El contexto a nivel de estrategia registra patrones de flujo de trabajo de alto nivel y se recupera al inicio de la tarea. El contexto procedimental recoge registros detallados de transición de estado y se recupera a mitad de la tarea, con consultas construidas a partir de las herramientas que el agente acaba de ejecutar. Esto fundamenta la recuperación en el estado actual del agente en lugar de solo en su indicación inicial.

Los resultados: Hasta 32 puntos de aumento en la consecución de objetivos

Probamos la inteligencia de contexto sobre agentes base habilitados para PRE en cuatro tipos de agentes empresariales en GBA-Bench.

Tipo de agente	Valor de referencia (sin memoria)	Con PRE+CI	Mejora (ganancia absoluta pp)
Detalles del reclamo	0,70	0,90	+0,20
Prevención de la pérdida de clientes	0,12	0,59	+0,47
Retención de crédito financiero	0,35	0,55	+0,20
Aceleración de las ventas	0,33	0,66	+0,33

Tabla 4.2: Precisión de trayectoria, referencia vs. PRE + inteligencia de contexto (GBA-Bench)

Las ganancias fueron consistentes en todos los tipos de agente. La precisión de la trayectoria mejoró entre 20 y 47 puntos porcentuales. La finalización de objetivos mejoró hasta en 32 puntos porcentuales. El agente de prevención de pérdida de clientes registró uno de los mayores aumentos, con una precisión de trayectoria que pasó de 0,12 a 0,53, aproximadamente una mejora de 4,4 veces.

Los agentes habilitados por contexto también redujeron las llamadas promedio a herramientas por ejecución en aproximadamente un 20% en flujos de trabajo complejos. Menos llamadas a herramientas significa menos ciclos de error y reintento. El agente no solo está haciendo menos trabajo; está tomando el camino correcto antes. En producción, eso se traduce en menores costos de API, una ejecución más rápida y un comportamiento más predecible a escala.

Un ejemplo ayuda a entender mejor el cambio. En el agente de aceleración de operaciones de ventas, la referencia llamó repetidamente a send_deal_alert con un parámetro alert_type no válido, recibió un error, volvió a intentarlo con el valor correcto y completó la tarea. Bajo una métrica que solo considera el éxito de la tarea, eso parece una victoria. Bajo nuestro marco, es una victoria improvisada: el resultado es correcto, pero la ruta de ejecución está degradada.

Con la inteligencia de contexto habilitada, el agente recuperó la guía relevante a nivel empresarial antes de repetir el mismo error: verificar los tipos de alerta válidos antes de enviar notificaciones de escalamiento. Invocó la herramienta correctamente en el primer intento. Precisión de trayectoria: 100%. No es necesario volver a intentarlo.

El PRE proporciona inteligencia de flujo de trabajo de referencia. La inteligencia de contexto agrega contexto y memoria específicos de la empresa. Juntos representan dos niveles distintos de mejora del agente: una ejecución general más sólida y una mejor adaptación al entorno empresarial.

Conclusión: qué se necesita para que un agente empresarial esté preparado

Los resultados apuntan a una conclusión clara: el rendimiento del agente empresarial no está determinado únicamente por la elección del modelo.

En τ-bench, nuestros agentes básicos lograron las puntuaciones más altas entre los resultados publicados de la clasificación al momento de la presentación en los cuatro niveles de aprobación, al tiempo que también se ejecutaron más rápido que el punto de referencia publicado en tres de los cuatro dominios. Reflejan la fortaleza del marco central para agentes, incluida la inteligencia de flujo de trabajo de referencia del PRE.

Pero τ-bench es solo una parte del panorama de preparación. Los agentes empresariales no operan solo en tareas de servicio estandarizadas. Operan dentro de flujos de trabajo específicos de la organización, con políticas específicas del dominio, herramientas personalizadas, restricciones procedimentales y patrones de ejecución recurrentes. Para evaluar eso se creó GBA-Bench.

Los resultados de GBA-Bench muestran que la ejecución sin estado sigue siendo una limitación fundamental. Incluso los agentes básicos sólidos pueden completar tareas mediante rutas ineficientes o poco confiables, lo que crea victorias improvisadas que parecen correctas en la capa de salida, pero que no están listas para producción en el fondo.

La inteligencia de contexto aborda esa brecha. Al dar a los agentes acceso a memoria relevante a nivel empresarial y contexto procedimental, vimos que la precisión de la trayectoria mejoró entre 20 y 47 puntos porcentuales, el cumplimiento de objetivos mejoró hasta en 32 puntos porcentuales y hubo una disminución del 20% en las llamadas a herramientas en flujos de trabajo complejos.

Juntos, estos resultados muestran dos requisitos distintos para los agentes de nivel empresarial. Primero, necesitan un sólido razonamiento de base: la capacidad de planificar, usar herramientas y recuperarse de fallas comunes del flujo de trabajo. Segundo, necesitan adaptación empresarial: la capacidad de aplicar contexto específico de la organización y mejorar a partir de la ejecución repetida.

Ese es el cambio que mide este documento. La próxima generación de agentes empresariales no será evaluada solo por si pueden producir la respuesta correcta una vez. Será evaluada por si pueden producir la respuesta correcta de manera consistente, por el camino correcto, a velocidad de producción, mientras se vuelven más confiables con el tiempo.

Para conocer la metodología completa, los datos experimentales y los resultados de la clasificación de GBA-Bench en más de 30 modelos de vanguardia, descargue el Informe de referencia de agentes de IA de 2026. Para conocer el marco de evaluación en el que se basa este trabajo, consulte Un marco para la evaluación de agentes de IA basados en objetivos.

Esta publicación hace referencia a dos documentos técnicos de Automation Anywhere: Un marco para la evaluación de agentes de IA basados en objetivos y el Informe de referencia de agentes de IA de 2026. Los resultados de τ-bench reflejan ejecuciones de evaluación enviadas al tablero público en mayo de 2026 (pendiente de integración al momento de la publicación). Los resultados de GBA-Bench se basan en el conjunto de evaluación propio de Automation Anywhere. Contenido revisado antes de la publicación.

Etiquetas

Emily Gal

Emily es directora de Marketing de Productos y Automatización de Procesos con Agentes en Automation Anywhere.

Más allá de Tau Bench: el impacto del rendimiento del PRE y la inteligencia de contexto en los agentes de IA empresariales

En este artículo