Benchmarks de agentes de IA: O guia de avaliação empresarial de 2026

Nossos agentes básicos foram testados no Princeton/Sierra τ-bench (padrão do setor para avaliação de agentes de IA) e superaram todos os resultados publicados no ranking disponíveis no momento do envio, em todos os níveis de aprovação.

Utilizando o nosso próprio pacote de avaliação empresarial, o GBA-Bench, testamos o impacto de fornecer aos agentes a Inteligência Contextual: memória e contexto operacional em nível corporativo que os ajudam a se adaptar aos fluxos de trabalho específicos da organização. O resultado foi uma melhoria relevante tanto na precisão da trajetória quanto na conclusão das metas.

Conclusão: a escolha do modelo é relevante, mas a arquitetura em torno do modelo é igualmente importante. A forma como um agente planeja, utiliza ferramentas, se recupera de erros e aplica o contexto empresarial determina o nível de confiabilidade do seu desempenho em fluxos de trabalho reais.

Aqui está o que medimos, como medimos e o que isso quer dizer.

Nota de avaliação: os resultados do τ-bench refletem as execuções de avaliação da Automation Anywhere enviadas para o ranking público em maio de 2026 (em espera de integração no momento da publicação). Todas as comparações fazem referência às pontuações publicadas no momento do envio.

Introdução

Em nosso artigo anterior, intitulado A Framework for Evaluating Goal-Based AI Agents, apresentamos uma estrutura de avaliação com métricas duplas que mede não apenas se um agente conclui uma tarefa, mas também se ele segue o caminho de raciocínio correto para chegar lá, pois um agente que chega à resposta certa por meio de uma execução fragmentada ou pouco confiável representa um risco para a produção, mesmo quando o resultado parece correto. A metodologia foi estabelecida nesse artigo.

Ela é aplicada de duas maneiras.

Primeiro, executamos nossos agentes em relação ao τ-bench para estabelecer um ponto de comparação externo. Desenvolvido pela Princeton e pela Sierra, o τ-bench é um dos benchmarks mais rigorosos disponíveis ao público para avaliar o desempenho de agentes em tarefas de serviços de uso geral. Abrangendo 375 tarefas de múltiplas etapas nos setores de aviação, varejo, telecomunicações e bancos, isso nos permite comparar o desempenho de nossos agentes com um padrão de referência amplamente reconhecido no setor.

Mas a possibilidade de comparação externa é apenas uma parte do quadro. O τ-bench é valioso porque nos mostra o desempenho dos agentes em fluxos de trabalho de atendimento padronizados. Ele não captura totalmente as condições empresariais que nossa estrutura foi projetada para avaliar: fluxos de trabalho baseados em documentos originais reais, validação de políticas específicas do domínio, esquemas de ferramentas específicos da organização e as regras de negócios que regem a forma como o trabalho é efetivamente realizado.

Para testar essas condições, criamos o GBA-Bench, nosso próprio conjunto de avaliação empresarial. O GBA-Bench aplica a mesma estrutura de métricas duplas a um conjunto mais exigente de fluxos de trabalho corporativos em sete domínios: setor bancário, seguros, saúde, cadeia de suprimentos, vendas, finanças e integração de fornecedores. No total, avaliamos mais de 30 modelos de ponta.

Utilizando o GBA-Bench como padrão de avaliação, testamos então o que acontece quando os agentes recebem memória, medindo não apenas se a memória melhora a conclusão da tarefa, mas também se ela melhora a qualidade, a confiabilidade e a adequação para uso corporativo do caminho de execução.

τ-bench: validação externa

Submetemos nossos agentes básicos à avaliação completa do τ-bench, utilizando nossa estrutura principal de agentes.

Em todos os quatro níveis de aprovação, nossos agentes obtiveram as pontuações mais altas entre os resultados publicados no ranking no momento do envio. No nível pass^1, nossos agentes alcançaram 74,5%, uma vantagem de +4,3 pontos sobre o segundo melhor resultado publicado, à frente do GPT-5.2, do Claude Opus 4.5 e do Gemini 3 Pro. Essa vantagem se manteve em cada nível de aprovação subsequente, ampliando-se ligeiramente no nível pass^2 e permanecendo em +4,1 pontos no nível pass^4.

Nível de aprovação	Agente básico da Automation Anywhere	Líder do ranking	Delta
pass¹	74,50%	70,20%	+4,3 pontos
pass²	67,90%	63,10%	+4,8 pontos
pass³	63,60%	59,30%	+4,3 pontos
pass⁴	60,30%	56,20%	+4,1 pontos

Tabela 2.1: resultados do teste de aprovação do τ-bench — agentes básicos da Automation Anywhere vs. Líder do ranking, agrupados em 375 tarefas e 4 domínios. Superando Qwen3.5, GPT-5.2, Claude Opus 4.5, Gemini 3 Pro.

A estrutura pass^k é o que torna esse resultado especialmente relevante para a implantação em empresas. O nível pass^1 mede a precisão bruta da tarefa. O nível pass^4 mede a consistência: o agente deve concluir a mesma tarefa corretamente em quatro execuções independentes. Um agente de produção não executa um fluxo de trabalho apenas uma vez. Ele lida com o mesmo tipo de fluxo de trabalho centenas de vezes por dia. Um desempenho que se mantém nos níveis pass^2, pass^3 e pass^4 é um indicador mais forte da confiabilidade da arquitetura do que uma única execução bem-sucedida.

Os resultados também apontam para a importância de como os agentes são construídos. Quando executamos os mesmos LLMs subjacentes utilizados por outros agentes de alto desempenho em nossa estrutura de agentes, o desempenho melhorou, em alguns casos de maneira relevante. A capacidade do modelo é importante, mas a forma como ele é executado também importa. A arquitetura dos agentes, o uso de ferramentas e o planejamento são, por si só, fatores que impulsionam o desempenho.

Velocidade de execução e distribuição por domínio

Domínio	Pontuação da AA	vs. Líder	Velocidade de execução	Classificação
Companhia aérea	84,50%	+0,5 pontos	1,6× mais lento (230s vs 145s)	Nº 1
Varejo	82,90%	−1,5 pontos	3,2× mais rápido (223s vs 703s)	~Nº 2
Telecomunicações	98,20%	+0,4 pontos	2,6× mais rápido (330s vs 841s)	Nº 1
Bancário	31,70%	+0,5 pontos	2,7× mais rápido (584s vs 1.568s)	Nº 1

Tabela 2.2: resultados do τ-bench por domínio — precisão e velocidade de execução vs. líder do ranking.

Em nossa avaliação no τ-bench, nossos agentes básicos foram mais rápidos do que o ponto de referência do ranking publicado em três dos quatro domínios. A companhia aérea foi a exceção em termos de velocidade, operando 1,6 vezes mais lentamente, mas ainda assim alcançando a maior precisão no conjunto de comparação.

Em três dos quatro domínios, eles também combinaram uma execução mais rápida com a maior precisão entre os resultados publicados na época do envio:

Telecomunicações: 2,6x mais rápido (330s vs 841s), maior precisão no conjunto de comparação
Serviços bancários: 2,7× mais rápido (584s vs 1.568s), maior precisão no conjunto de comparação
Companhia aérea: 1,6× mais lento (230s vs 145s), maior precisão no conjunto de comparação
Varejo: 3,2× mais rápido (223s vs 703s), nosso resultado mais rápido no conjunto de comparação e um domínio que estamos visando para melhoria de precisão no próximo ciclo de avaliação

O setor bancário merece atenção específica. As pontuações absolutas são baixas entre todos os concorrentes. Nossos agentes atingiram 31,7% nesse domínio, a pontuação mais alta no conjunto de comparação no momento do envio, mas esse número reflete um gargalo mais amplo em todo o domínio: a latência de recuperação. O agente deve recuperar informações sobre apólices e contas em tempo real, e essa restrição prejudica os resultados, independentemente da qualidade do modelo.

Esse gargalo é exatamente o tipo de problema que a Inteligência Contextual foi projetada para resolver. À medida que essa camada amadurece, o setor bancário é onde esperamos ver algumas das maiores melhorias.

GBA-Bench: nosso padrão de avaliação empresarial

O τ-bench proporciona um benchmark externo para comparação. Ele oferece um ambiente de avaliação que reflete como os agentes corporativos realmente são usados.

O GBA-Bench é nosso conjunto de ferramentas de avaliação proprietário para agentes baseados em objetivos que executam fluxos de trabalho empresariais reais. Os casos de teste são gerados a partir de documentos originais reais, incluindo SOPs, chamados de suporte e definições de fluxo de trabalho. Por meio de um fluxo de trabalho de quatro etapas, esses documentos são convertidos em definições estruturadas de agentes, pares de cenário com marco de progresso e classes de teste executáveis em Python.

A cobertura abrange sete domínios empresariais: setor bancário, seguros, saúde, cadeia de suprimentos, vendas, finanças e integração de fornecedores.

Avaliamos formalmente mais de 30 modelos de ponta em todas as principais famílias de modelos, incluindo Anthropic, OpenAI, Google, Meta, Qwen, DeepSeek, Mistral e Zhipu/GLM. Cada avaliação utiliza a mesma estrutura de métricas duplas apresentada em nosso artigo anterior: Sucesso da tarefa e precisão da trajetória. Ambas são necessárias.

O GBA-Bench também foi projetado para iteração rápida. Uma vez que o pipeline é capaz de gerar novos casos de teste em poucas horas, podemos avaliar novos modelos de ponta logo após o lançamento e compreender não apenas se eles apresentam um bom desempenho em geral, mas também se são capazes de lidar com as regras, ferramentas e caminhos de decisão específicos do domínio exigidos pelos fluxos de trabalho corporativos.

A limitação de agentes sem estado

O GBA-Bench também permite isolar uma limitação fundamental dos agentes básicos: a execução sem estado.

Mesmo os agentes bem programados começam cada tarefa sem nenhuma lembrança das execuções anteriores. Eles não registram quais parâmetros da ferramenta falharam, quais caminhos foram ineficientes ou quais estratégias de recuperação funcionaram. Como resultado, os mesmos erros se repetem. As mesmas etapas desnecessárias se repetem. Os mesmos padrões de raciocínio frágeis se repetem em todas as tentativas.

Essa limitação é visível em nosso agente de prevenção da rotatividade de clientes. Sem memória, o agente atingiu uma linha de base da precisão de trajetória de 0,12. Em outras palavras, apenas 12% das execuções seguiram o raciocínio correto, mesmo quando o agente, por vezes, chegava a um resultado que parecia plausível.

Isso quer dizer que a questão não é apenas se o modelo consegue realizar a tarefa. Trata-se de saber se o agente é capaz de aprender com a execução repetida e evitar reproduzir os mesmos padrões de falha. Uma vitória improvisada (baixa precisão de trajetória, alta precisão de sucesso na tarefa) não é um problema de qualidade do modelo. É uma limitação de arquitetura. E isso pode ser corrigido.

PRE e inteligência de contexto: da linha de base do raciocínio à memória empresarial

Mecanismo de raciocínio de processos: linha de base da inteligência para fluxos de trabalho

O Mecanismo de Raciocínio de Processos oferece aos agentes uma linha de base para compreensão dos padrões comuns de falha no fluxo de trabalho, derivada dos dados agregados de execução das 400 milhões de automações que registramos em nossa plataforma a cada ano. Ele faz parte da estrutura central do agente: uma camada de raciocínio generalizada que aprimora o planejamento, o uso de ferramentas e o comportamento de recuperação em todas as tarefas, sem depender de memória ou contexto específicos da organização.

Isso é o que os resultados do τ-bench refletem. Nossos agentes básicos foram avaliados com o PRE como parte da estrutura central do agente.

Inteligência contextual: memória e contexto no nível corporativo

A Inteligência Contextual aborda a seguinte limitação: mesmo com uma linha de base de raciocínio sólida, um agente inicia cada tarefa empresarial sem ter acesso ao contexto acumulado da organização. Faltam as regras de negócios relevantes, as restrições específicas do fluxo de trabalho, as lições aprendidas em execuções anteriores e os padrões operacionais desse ambiente. Como resultado, erros específicos do locatário podem ser recorrentes. Os mesmos caminhos ineficientes podem se repetir.

A Inteligência Contextual adiciona essa camada que faltava. Ela recupera orientações relevantes específicas da empresa antes e durante a execução, para que o agente possa se adaptar às regras, ferramentas e histórico de fluxos de trabalho da organização, em vez de tratar cada execução como um caso isolado.

O ponto-chave é a filtragem de qualidade. Execuções bem-sucedidas são preservadas como padrões replicáveis. As execuções imperfeitas servem de lição valiosa sobre o que evitar ou corrigir. O objetivo não é lembrar de tudo. É expor o contexto com maior probabilidade de melhorar a próxima execução.

Também testamos uma variante de dois níveis que separa o contexto estratégico do contexto operacional. O contexto em nível de estratégia captura padrões de fluxo de trabalho de alto nível e é recuperado no início da tarefa. O contexto operacional captura registros detalhados de transições de estado e é recuperado no meio da tarefa, com consultas construídas a partir das ferramentas que o agente acabou de executar. Isso faz com que a recuperação se baseie no estado atual do agente, e não apenas no prompt inicial.

Os resultados: até 32 pontos de aumento na conclusão de metas

Testamos a Inteligência Contextual em agentes básicos habilitados para PRE em quatro tipos de agentes corporativos no GBA-Bench.

Tipo de agente	Linha de base (sem memória)	Com PRE + Inteligência Contextual	Melhoria (ganho absoluto por ponto percentual)
Detalhes do sinistro	0,70	0,90	+0,20
Prevenção da rotatividade de clientes	0,12	0,59	+0,47
Retenção de crédito financeiro	0,35	0,55	+0,20
Aceleração de negócios de vendas	0,33	0,66	+0,33

Tabela 4.2: precisão da trajetória — linha de base vs. PRE + Inteligência Contextual (GBA-Bench)

Os ganhos foram consistentes entre os tipos de agente. A precisão da trajetória melhorou em 20 a 47 pontos percentuais. A conclusão de metas melhorou em até 32 pontos percentuais. O agente de prevenção de rotatividade de clientes registrou um dos maiores aumentos, com a precisão da trajetória subindo de 0,12 para 0,53, o que representa uma melhoria de aproximadamente 4,4 vezes.

Os agentes com reconhecimento de contexto também reduziram o número médio de chamadas de ferramentas por execução em cerca de 20% em fluxos de trabalho complexos. Menos chamadas de ferramentas equivalem a menos ciclos de erros e novas tentativas. O agente não está apenas trabalhando menos; ele está seguindo o caminho certo mais cedo. Na produção, isso se traduz em custos de API mais baixos, execução mais rápida e comportamento mais previsível em escala.

Um exemplo ajuda a tornar a mudança mais clara. No agente de aceleração de negócios de vendas, a linha de base chamou repetidamente o método send_deal_alert com um parâmetro alert_type inválido, recebeu um erro, tentou novamente com o valor correto e concluiu a tarefa. Sob uma métrica apenas de sucesso da tarefa, isso parece uma vitória. Sob nossa estrutura, é uma vitória improvisada: o resultado está certo, mas o caminho de execução está degradado.

Com a Inteligência Contextual ativada, o agente consultou as orientações relevantes da empresa antes de repetir o mesmo erro: verificar os tipos de alerta válidos antes de enviar notificações de escalonamento. Ele invocou a ferramenta corretamente na primeira tentativa. Precisão da trajetória: 100%. Nenhuma nova tentativa necessária.

O PRE oferece uma linha de base para a inteligência do fluxo de trabalho. A Inteligência Contextual adiciona contexto e memória específicos para cada empresa. Juntos, eles representam dois níveis distintos de aprimoramento do agente: uma execução geral mais eficaz e uma melhor adaptação ao ambiente corporativo.

Conclusão: o que a prontidão de agente empresarial exige

Os resultados apontam para uma conclusão clara: o desempenho dos agentes empresariais não é determinado apenas pela escolha do modelo.

No τ-bench, nossos agentes básicos alcançaram as pontuações mais altas entre os resultados publicados no ranking no momento do envio em todos os quatro níveis de aprovação, além de terem apresentado um desempenho mais rápido do que o ponto de referência publicado em três dos quatro domínios. Eles refletem a solidez da estrutura central do agente, incluindo a linha de base da inteligência do fluxo de trabalho do PRE.

No entanto, o τ-bench é apenas uma parte do panorama de prontidão. Os agentes corporativos não atuam apenas em tarefas de serviço padronizadas. Eles operam dentro de fluxos de trabalho específicos da organização, com políticas específicas do domínio, ferramentas personalizadas, restrições operacionais e padrões de execução recorrentes. Foi isso que o GBA-Bench foi criado para avaliar.

Os resultados do GBA-Bench mostram que a execução sem estado continua sendo uma limitação fundamental. Mesmo agentes básicos robustos podem realizar tarefas por meio de caminhos ineficientes ou pouco confiáveis, gerando “vitórias improvisadas” que parecem corretas na camada de saída, mas que, na verdade, não estão prontas para produção.

A Inteligência Contextual preenche essa lacuna. Ao proporcionar aos agentes acesso à conteúdo relevante de memória e contexto operacional da empresa, observamos um aumento na precisão da trajetória de 20 a 47 pontos percentuais, uma melhora na conclusão de metas de até 32 pontos percentuais e uma redução de 20% no uso de ferramentas em fluxos de trabalho complexos.

Juntos, esses resultados mostram dois requisitos distintos para agentes de nível empresarial. Em primeiro lugar, eles precisam de uma linha de base de raciocínio sólida: a capacidade de planejar, utilizar ferramentas e superar falhas comuns no fluxo de trabalho. Em segundo lugar, eles precisam de adaptabilidade empresarial: a capacidade de aplicar o contexto específico da organização e aprimorar-se com a execução repetida.

Essa é a mudança que este artigo avalia. A próxima geração de agentes empresariais não será julgada apenas pela capacidade de produzir a resposta certa uma vez. Eles serão avaliados pela capacidade de fornecer a resposta correta de maneira consistente, seguindo o caminho certo, na velocidade de produção, ao mesmo tempo em que se tornam mais confiáveis com o passar do tempo.

Para conhecer a metodologia completa, os dados experimentais e os resultados da tabela de classificação do GBA-Bench para mais de 30 modelos de ponta, baixe o AI Agent benchmark report 2026. Para a estrutura de avaliação que fundamenta este trabalho, leia A Framework for Evaluating Goal-Based AI Agents.

Esta publicação faz referência a dois white papers técnicos da Automation Anywhere: A Framework for Evaluating Goal-Based AI Agents e o AI Agent benchmark report 2026. Os resultados do τ-bench refletem as execuções de avaliação enviadas para o ranking público em maio de 2026 (em espera de integração no momento da publicação). Os resultados do GBA-Bench são baseados no conjunto de avaliação criado pela Automation Anywhere. Conteúdo revisado antes da publicação.

Além do Tau Bench: o impacto do PRE e da Inteligência Contextual no desempenho dos agentes de IA corporativos

Neste artigo