AI 에이전트 벤치마크: 2026 엔터프라이즈 평가 가이드

AI 에이전트 평가를 위한 업계 표준인 프린스턴대학교/Sierra τ-bench에서 테스트한 결과 Automation Anywhere의 기본 에이전트는 제출 시점에 모든 성공률 수준에서 공개된 모든 리더보드 결과를 뛰어넘었습니다.

당사는 이후 독자적인 엔터프라이즈 평가 도구인 GBA-Bench를 사용하여 에이전트와 함께 CI(컨텍스트 인텔리전스)를 제공할 때의 영향, 즉 조직별 워크플로에 적응하도록 돕는 엔터프라이즈 수준의 메모리와 절차적 컨텍스트가 미치는 영향을 테스트했습니다. 그 결과 경로 정확도와 목표 완료율 모두에서 상당한 개선이 있었습니다.

요점은 모델을 선택하는 것도 중요하지만 모델을 둘러싼 아키텍처도 그만큼 중요하다는 것입니다. 에이전트가 계획하고, 도구를 사용하고, 오류로부터 복구되고, 엔터프라이즈 컨텍스트를 적용하는 방식은 실제 워크플로에서 에이전트가 얼마나 안정적으로 수행되느냐를 좌우합니다.

아래에서는 측정 내용과 측정 방법, 그 의미를 살펴볼 수 있습니다.

평가 관련 참고: τ-bench 결과는 2026년 5월 공개 리더보드에 제출된 Automation Anywhere의 평가 실행을 반영합니다(게시 시점 기준 병합 대기 중). 모든 비교는 제출 시점에 발표된 점수를 참조합니다.

서론

당사는 이전 논문 목표 기반 AI 에이전트 평가를 위한 프레임워크에서 에이전트가 태스크를 완료하는지 여부뿐 아니라 태스크를 완료하기 위해 올바른 추론 경로를 따르는지까지 측정하는 이중 지표 평가 프레임워크를 소개했습니다. 이는 단편적이거나 신뢰할 수 없는 실행을 통해 올바른 답에 도달한 에이전트는 출력이 올바르게 보이더라도 프로덕션 환경에서는 책임 요소가 되기 때문입니다. 해당 논문에서는 방법론을 확립했습니다.

이번 논문은 이를 두 가지 방식으로 적용합니다.

먼저 외부 비교 기준을 마련하기 위해 τ-bench에 대해 당사 에이전트를 실행했습니다. 프린스턴대학교와 Sierra가 개발한 τ-bench는 범용 서비스 태스크에서 에이전트 성능을 평가하기 위해 공개적으로 이용 가능한 가장 엄격한 벤치마크 중 하나입니다. 항공, 소매, 통신, 은행 도메인 전반의 375개 다중 턴 태스크를 평가한 τ-bench는 당사 에이전트가 널리 인정받는 업계 기준점과 비교해 어떤 수준인지 보여줄 수 있습니다.

하지만 외부 비교 가능성은 극히 일부분에 불과합니다. τ-bench가 중요한 이유는 에이전트가 표준화된 서비스 워크플로에서 어떻게 작동하는지 알려주기 때문입니다. 실제 원본 문서에 기반한 워크플로, 도메인별 정책 검증, 조직별 도구 스키마, 업무가 실제로 수행되는 방식을 규정하는 비즈니스 규칙 등 당사 프레임워크가 평가하도록 설계된 엔터프라이즈 조건을 완전히 포착하지는 못합니다.

그러한 조건을 테스트하기 위해 독자적인 엔터프라이즈 평가 도구인 GBA-Bench를 구축했습니다. GBA-Bench는 은행, 보험, 의료, 공급망, 영업, 재무 및 공급업체 온보딩 7개 분야에 걸친 더 까다로운 일련의 엔터프라이즈 워크플로에 동일한 이중 지표 프레임워크를 적용합니다. 총 30개 이상의 최첨단 모델에 대해 평가가 이루어졌습니다.

GBA-Bench를 평가 기준으로 사용하여 에이전트에 메모리가 더해졌을 때 어떤 일이 발생하는지 테스트했습니다. 즉, 메모리가 태스크 완료를 개선하는지뿐만 아니라 실행 경로의 품질, 신뢰성 및 엔터프라이즈 준비성을 향상하는지도 측정했습니다.

τ-bench: 외부 검증

핵심 에이전트 프레임워크를 사용하여 기본 에이전트에 전체 τ-bench 평가를 수행했습니다.

4개의 모든 성공률 수준에서 당사 에이전트는 제출 시점에 공개된 리더보드 결과 중 가장 높은 점수를 달성했습니다. pass^1에서 당사 에이전트는 다음으로 우수한 공개 결과보다 +4.3포인트 높은 74.5%를 달성했으며, 이는 GPT-5.2, Claude Opus 4.5, Gemini 3 Pro를 앞선 수치였습니다. 이후 각 성공률 수준에서도 선두를 유지했으며 pass^2에서는 약간 더 격차가 벌어졌고 pass^4에서는 +4.1포인트를 유지했습니다.

성공률 수준	Automation Anywhere 기본 에이전트	리더보드 1위	델타
pass¹	74.50%	70.20%	+4.3포인트
pass²	67.90%	63.10%	+4.8포인트
pass³	63.60%	59.30%	+4.3포인트
pass⁴	60.30%	56.20%	+4.1포인트

표 2.1: τ-bench 성공률 수준 결과 — Automation Anywhere 기본 에이전트 vs 리더보드 1위, 375개 태스크와 4개 도메인에 걸쳐 집계됨. Qwen3.5, GPT-5.2, Claude Opus 4.5, Gemini 3 Pro보다 우수한 수치.

pass^k 구조이므로 이 결과는 특히 엔터프라이즈 배포와 관련이 높습니다. pass^1은 원시 태스크 정확도를 측정합니다. pass^4는 에이전트가 네 번의 독립 실행에서 동일한 태스크를 올바르게 완료하는지 일관성을 측정합니다. 프로덕션 에이전트는 워크플로를 한 번만 처리하지 않습니다. 하루에도 수백 번씩 동일한 유형의 워크플로를 처리합니다. pass^2, pass^3, pass^4 전반에 걸쳐 유지되는 성능은 단일 성공 실행보다 아키텍처의 안정성을 나타내는 뚜렷한 신호입니다.

또한 결과는 에이전트가 어떻게 구축되는지가 중요하다는 점을 보여줍니다. 가장 뛰어난 성능을 보이는 다른 에이전트들이 사용하는 동일한 기반 LLM을 당사 에이전트 프레임워크에 적용했을 때 성능이 향상되었으며, 일부 케이스에서는 유의미하게 향상되었습니다. 모델의 성능도 중요하지만 모델이 실행되는 방식도 중요합니다. 에이전트 아키텍처와 도구 사용, 계획은 그 자체로 성능을 좌우하는 요소입니다.

실행 속도 및 도메인 세분화

도메인	AA 점수	주요 업체 대비	실행 속도	순위
항공	84.50%	+0.5포인트	1.6배 느림(230초 vs 145초)	#1
소매	82.90%	−1.5포인트	3.2배 빠름(223초 vs 703초)	~#2
통신	98.20%	+0.4포인트	2.6배 빠름(330초 vs 841초)	#1
금융 서비스	31.70%	+0.5포인트	2.7배 빠름(584초 vs 1568초)	#1

표 2.2: 도메인별 τ-bench 결과 — 리더보드 선두 대비 정확도 및 실행 속도

당사 τ-bench 평가에서 확인된 바에 따르면 4개 도메인 중 3개 도메인에서 기본 에이전트의 실행 속도는 공개된 리더보드 비교 기준보다 더 빨랐습니다. 항공은 1.6배 더 느리게 실행되며 속도에서 예외를 보였지만 비교 세트에서 가장 높은 정확도를 달성했습니다.

또한 제출 시점에 발표된 결과에서 4개 도메인 중 3개 도메인은 더 빠른 실행 속도와 가장 높은 정확도를 보였습니다.

통신: 2.6배 빠름(330초 vs 841초), 비교 세트에서 가장 높은 정확도
은행: 2.7배 빠름(584초 vs 1568초), 비교 세트에서 가장 높은 정확도
항공: 1.6배 느림(230초 vs 145초), 비교 세트에서 가장 높은 정확도
소매: 3.2배 빠름(223초 대 703초) - 비교 세트에서 가장 빠른 결과, 다음 평가 주기에서 정확도 개선을 목표로 하는 도메인

은행 분야는 특별한 주의가 필요합니다. 모든 경쟁업체 전반에 걸쳐 절대 점수가 낮습니다. 당사 에이전트는 이 도메인에서 31.7%를 달성하고 제출 시점에 비교 세트에서 가장 높은 점수를 기록했지만 이 수치는 더 넓은 도메인 전반의 병목 현상인 검색 지연 시간을 반영합니다. 에이전트는 정책 및 계정 정보를 실시간으로 검색해야 하며, 그러한 제약은 모델 품질과 관계없이 점수를 떨어뜨립니다.

이러한 병목 현상은 컨텍스트 인텔리전스가 해결해야 할 문제이기도 합니다. 그러한 계층이 성숙함에 따라 은행 산업은 몇 가지 가장 큰 개선을 이룰 것으로 예상됩니다.

GBA-Bench: Automation Anywhere의 엔터프라이즈 평가 표준

τ-bench는 비교를 위한 외부 벤치마크를 제공합니다. GBA-Bench는 엔터프라이즈 에이전트가 실제로 어떻게 사용되는지를 반영하는 평가 환경을 제공합니다.

GBA-Bench는 실제 엔터프라이즈 워크플로를 실행하는 목표 기반 에이전트를 위한 당사의 독자적인 평가 도구입니다. 테스트 케이스는 SOP, 지원 티켓, 워크플로 정의를 포함한 실제 소스 문서를 통해 생성됩니다. 해당 문서들은 4단계 파이프라인을 통해 구조화된 에이전트 정의와 시나리오-마일스톤 쌍, 실행 가능한 Python 테스트 클래스로 변환됩니다.

적용 범위는 은행, 보험, 의료, 공급망, 영업, 재무 및 공급업체 온보딩 7개 엔터프라이즈 도메인입니다.

Anthropic, OpenAI, Google, Meta, Qwen, DeepSeek, Mistral, Zhipu/GLM을 포함한 모든 주요 모델 계열에 걸쳐 30개 이상의 최첨단 모델에 대한 공식적인 평가를 진행했습니다. 각 평가는 이전 논문에서 소개한 것과 동일하게 태스크 완료율 및 경로 정확도의 이중 지표 프레임워크를 사용합니다. 두 지표 모두 필수 요소입니다.

GBA-Bench는 빠른 반복 작업을 위해 설계되기도 했습니다. 파이프라인은 몇 시간 내로 새로운 테스트 케이스를 생성할 수 있으므로, 새로운 최첨단 모델을 릴리스 직후 평가할 수 있으며, 모델의 전반적인 성능뿐만 아니라 엔터프라이즈 워크플로가 요구하는 도메인별 규칙, 도구 및 의사 결정 경로 처리 능력도 파악할 수 있습니다.

무상태성 에이전트의 한계

GBA-Bench는 또한 기본 에이전트의 주요 한계인 무상태성 실행을 분리할 수 있게 합니다.

잘 구축된 에이전트조차 이전 실행에 대한 메모리 없이 각 태스크를 시작합니다. 즉, 어떤 도구 매개변수가 실패했는지, 어떤 경로가 비효율적이었는지, 어떤 복구 전략이 효과적이었는지를 저장하지 않습니다. 그 결과, 동일한 오류가 반복되고 동일한 불필요한 단계가 반복되며 동일한 취약한 추론 패턴이 실행 시 반복해서 나타납니다.

이러한 한계는 당사의 고객 이탈 방지 에이전트에서 확인할 수 있습니다. 이 에이전트는 메모리 없이 0.12의 기본 경로 정확도를 달성했습니다. 다시 말해서, 에이전트가 때때로 그럴듯해 보이는 결과에 도달했더라도 올바른 추론 경로를 따른 실행은 12%에 불과했습니다.

이는 문제가 단순히 모델이 태스크를 완료할 수 있는지 여부만이 아니라는 뜻입니다. 문제는 에이전트가 반복 실행을 통해 학습하고 동일한 실패 모드를 다시 만들지 않을 수 있는지 여부입니다. 단편적인 성공(낮은 경로 정확도, 높은 태스크 성공 정확도)은 모델 품질 문제가 아닙니다. 아키텍처 한계입니다. 그리고 이는 수정 가능합니다.

PRE와 컨텍스트 인텔리전스: 기본 추론에서 엔터프라이즈 메모리까지

프로세스 추론 엔진: 기본 워크플로 인텔리전스

프로세스 추론 엔진은 매년 당사 플랫폼에서 관찰되는 4억 건의 자동화 전반에서 집계된 실행 데이터에서 일반적인 워크플로 실패 패턴을 도출하여 에이전트가 이를 기본적으로 이해할 수 있도록 합니다. 이는 핵심 에이전트 프레임워크의 일부로, 조직별 메모리나 컨텍스트에 의존하지 않고 태스크 전반에서 계획, 도구 사용 및 복구 동작을 개선하는 일반화된 추론 계층입니다.

τ-벤치 결과는 이를 보여줍니다. 당사 기본 에이전트는 핵심 에이전트 프레임워크의 일부로 PRE를 사용하여 평가되었습니다.

컨텍스트 인텔리전스: 엔터프라이즈 수준 메모리 및 컨텍스트

컨텍스트 인텔리전스는 다음 한계를 해결합니다. 에이전트는 강력한 기본 추론 기능을 갖추고 있어도 조직이 축적해 온 컨텍스트에 접근하지 못한 채 엔터프라이즈 태스크를 시작합니다. 해당 환경의 관련 비즈니스 규칙, 워크플로별 제약, 이전 실행에서 얻은 교훈, 그리고 절차적 패턴을 참고하지 못합니다. 그 결과, 동일한 테넌트별 오류가 반복되고 동일한 비효율적인 경로가 반복될 수 있습니다.

컨텍스트 인텔리전스는 이러한 누락된 계층을 채워 줍니다. 실행 전과 실행 중에 관련된 엔터프라이즈별 지침을 검색하므로, 에이전트는 각 실행을 개별적으로 취급하지 않고 조직의 규칙, 도구, 워크플로 기록에 맞게 적응할 수 있습니다.

핵심은 품질 필터링입니다. 성공적인 실행은 재현 가능한 패턴으로 보존됩니다. 불완전한 실행은 피하거나 수정해야 할 사항에 대한 영향력 있는 교훈으로 정제됩니다. 목표는 모든 것을 기억하는 것이 아닙니다. 다음 실행을 개선할 가능성이 가장 높은 컨텍스트를 표면화하는 것입니다.

Automation Anywhere는 전략 수준과 절차적 컨텍스트를 분리하는 이중 계층 변형도 테스트했습니다. 전략 수준의 컨텍스트는 높은 수준의 워크플로 패턴을 포착하며 태스크 시작 시 검색됩니다. 절차적 컨텍스트는 세분화된 상태 전환 기록을 포착하며 에이전트가 방금 실행한 도구로 구성된 쿼리를 통해 태스크 중간에 검색됩니다. 이로써 검색은 시작 프롬프트만이 아닌 에이전트의 현재 상태를 기반으로 이루어집니다.

결과: 목표 완료율 최대 32포인트 향상

GBA-Bench에서 네 가지 엔터프라이즈 에이전트 유형에 대해 PRE 지원 기반 에이전트에 컨텍스트 인텔리전스를 추가하여 테스트했습니다.

에이전트 유형	기본(메모리 없음)	PRE+CI	개선(절대 성과 %p)
청구 세부 정보	0.70	0.90	+0.20
고객 이탈 방지	0.12	0.59	+0.47
재무 신용 보류	0.35	0.55	+0.20
영업 거래 가속화	0.33	0.66	+0.33

표 4.2: 경로 정확도 — 기본 vs PRE + 컨텍스트 인텔리전스 (GBA-Bench)

에이전트 유형 전반에 걸쳐 성과는 일관되게 향상되었습니다. 경로 정확도는 20~47퍼센트포인트 높아지고 목표 완료율은 최대 32퍼센트포인트 높아졌습니다. 고객 이탈 방지 에이전트는 경로 정확도가 0.12에서 0.53으로 약 4.4배 개선되며 성과가 가장 크게 향상되었습니다.

컨텍스트 지원 에이전트는 복잡한 워크플로에서 실행당 평균 도구 호출 수도 약 20% 낮췄습니다. 도구 호출이 적을수록 오류-재시도 주기도 줄어듭니다. 에이전트는 단순히 업무를 줄이는 것이 아니라 더 빠르게 올바른 경로를 택하고 있습니다. 프로덕션 환경에서 이는 API 비용 절감, 실행 가속화, 대규모 운영 시 예측 가능한 동작의 증대로 이어집니다.

한 가지 예가 그러한 변화를 구체적으로 보여줍니다. 영업 거래 가속화 에이전트에서 기본 에이전트는 잘못된 alert_type 매개변수로 send_deal_alert를 반복적으로 호출했고, 오류를 수신한 뒤 올바른 값으로 재시도하여 태스크를 완료했습니다. 태스크 성공만을 기준으로 하는 지표에서 이는 성공한 것처럼 보입니다. 하지만 당사 프레임워크에서는 이를 결과는 옳지만 실행 경로의 성능은 저하된 단편적인 성공으로 봅니다.

컨텍스트 인텔리전스가 지원되는 에이전트는 에스컬레이션 알림을 보내기 전에 유효한 알림 유형을 확인하며 동일한 실수를 반복하지 않도록 관련 엔터프라이즈 수준의 지침을 검색했습니다. 이 에이전트는 첫 시도에서 올바르게 도구를 호출했습니다. 경로 정확도는 100%였으며 재시도가 필요하지 않았습니다.

PRE는 기본 워크플로 인텔리전스를 제공합니다. 컨텍스트 인텔리전스는 엔터프라이즈별 컨텍스트와 메모리를 제공합니다. 이를 함께 활용하면 에이전트의 전반적인 실행이 강화되고 엔터프라이즈 환경에 대한 적응이 향상되는 등 두 가지 뚜렷한 개선 효과가 나타납니다.

결론: 엔터프라이즈 에이전트 준비에 필요한 사항

결과는 엔터프라이즈 에이전트 성능이 모델 선택만으로 결정되지 않는다는 명확한 결론에 도달합니다.

τ-bench에서 당사 기본 에이전트는 제출 시점에 공개된 리더보드 결과 중 네 가지 성공률 수준 모두에서 가장 높은 점수를 달성했으며, 네 개 도메인 중 세 개에서 공개된 비교 기준보다 더 빠르게 실행되었습니다. 이는 PRE의 기본 워크플로 인텔리전스를 포함한 핵심 에이전트 프레임워크의 강점을 나타냅니다.

하지만 τ-bench는 준비 상태를 보여주는 그림의 한 부분일 뿐입니다. 엔터프라이즈 에이전트는 표준화된 서비스 태스크에서만 작동하지 않습니다. 도메인별 정책, 맞춤형 도구, 절차적 제약, 반복되는 실행 패턴과 함께 조직별 워크플로 내에서 작동합니다. GBA-Bench는 이 부분을 평가하기 위해 만들어졌습니다.

GBA-Bench 결과는 무상태성 실행이 여전히 근본적인 한계임을 보여줍니다. 강력한 기본 에이전트라도 비효율적이거나 신뢰할 수 없는 경로를 통해 태스크를 완료할 수 있으며, 출력 계층에서는 올바르게 보이지만 내부적으로는 프로덕션에 적합하지 않은 단편적인 성공을 만들어 냅니다.

컨텍스트 인텔리전스는 그 격차를 해소합니다. 에이전트에 관련 엔터프라이즈 수준의 메모리와 절차적 컨텍스트에 대한 접근 권한을 부여함으로써 경로 정확도가 20~47퍼센트포인트 향상되고 목표 완료율이 최대 32퍼센트포인트 향상되었으며 복잡한 워크플로에서 도구 호출이 20% 감소했습니다.

종합적으로 이러한 결과를 통해 엔터프라이즈급 에이전트에 대한 두 가지 뚜렷한 요구 사항을 알 수 있습니다. 첫째, 계획하고 도구를 사용하고 일반적인 워크플로 실패에서 복구할 수 있는 강력한 기본 추론 기능이 필요합니다. 둘째, 조직별 컨텍스트를 적용하고 반복 실행을 통해 개선할 수 있는 엔터프라이즈 적응 기능이 필요합니다.

이 논문은 그러한 변화를 측정합니다. 차세대 엔터프라이즈 에이전트는 단 한 번의 올바른 답을 생성할 수 있는지 여부로만 평가되지 않을 것입니다. 올바른 경로를 통해 프로덕션 속도로 올바른 답을 일관되게 생성할 수 있는지, 그리고 시간이 지남에 따라 더 신뢰할 수 있게 되는지 여부에 따라 평가될 것입니다.

전체 방법론과 실험 데이터, 30개 이상의 최첨단 모델에 대한 GBA-Bench 리더보드 결과를 확인하려면 AI 에이전트 벤치마크 보고서 2026을 다운로드하세요. 이 작업의 기반이 되는 평가 프레임워크에 대해서는 목표 기반 AI 에이전트를 위한 프레임워크를 읽어보세요.

이 게시물은 Automation Anywhere의 기술 백서 목표 기반 AI 에이전트를 평가하기 위한 프레임워크와 AI 에이전트 벤치마크 보고서 2026을 참고했습니다. τ-bench 결과는 2026년 5월 공개 리더보드에 제출된 평가 실행을 반영합니다(게시 시점 기준 병합 대기 중). GBA-Bench 결과는 Automation Anywhere의 독자적인 평가 도구를 기반으로 합니다. 게시 전에 콘텐츠 검토를 완료했습니다.

태그

Emily Gal

Emily는. Automation Anywhere에서 에이전트 기반 프로세스 자동화 제품 마케팅 담당 이사로 재직 중입니다.

Tau Bench 결과를 넘어서는 평가: PRE와 컨텍스트 인텔리전스가 엔터프라이즈 AI 에이전트에 미치는 성능 영향

이 기사에서

서론