AI エージェントベンチマーク: 2026 年エンタープライズ評価ガイド

AI エージェント評価の業界標準であるプリンストン大学/Sierra 社の τ-bench で当社のベースエージェントをテストしたところ、すべての合格レベルにおいて、提出時点で公開されていたあらゆるリーダーボード結果を上回りました。

次に、当社独自のエンタープライズ評価スイートである GBA-Bench を用いて、エージェントにコンテキストインテリジェンス (企業レベルのメモリ、組織固有のワークフローに適応するための手順に関するコンテキスト) を提供した場合の影響をテストしました。その結果、軌跡精度と目標達成度の両方が大幅に向上していました。

ここでの要点は、モデルの選択が重要である一方、モデル周辺のアーキテクチャも同じくらい重要であるということす。エージェントがどのように計画し、ツールを使い、エラーから回復して、企業のコンテキストを適用するかが、実際のワークフローにおける動作の確実性を左右します。

ここでは、測定の内容、測定方法、その意味について説明します。

評価に関する注記: τ-bench の結果は、2026 年 5 月に公開リーダーボードに提出されたオートメーション・エニウェアの評価実行を反映しています (公開時点ではマージ待ち)。すべての比較は、提出時点で公開されていたスコアを参照しています。

はじめに

以前に、「A Framework for Evaluating Goal-Based AI Agents」で、エージェントがタスクを完了するかどうかだけでなく、そこに至るまでに正しい推論経路をたどっているかどうかも測定する二重指標の評価フレームワークを紹介しました。断片的または信頼性の低い実行によって正解に到達するエージェントは、出力が正しく見えても本番環境の負担になるからです。その資料では方法論を確立しました。

今回は、これを 2 つの方法で適用します。

まず、外部の比較基準を確立するために、τ-bench に対してエージェントを実行しました。プリンストン大学と Sierra 社によって開発された τ-bench は、汎用サービス業務におけるエージェントの性能を評価する最も厳格な公開ベンチマークの 1 つです。航空、小売、通信、銀行の各分野にわたる 375 件のマルチターンタスクを対象としており、広く認知された業界の基準点に対して、当社のエージェントがどのような位置にあるかを示すことができます。

しかし、外部との比較は全体像のほんの一部にすぎません。τ-bench が貴重である理由は、標準化されたサービスワークフローでエージェントがどのように性能を発揮するかを示してくれるからです。このベンチマークは、実際のソース文書に基づくワークフロー、分野に特化したポリシー検証、組織固有のツールスキーマ、実際の業務の進め方を規定するビジネスルールなど、当社のフレームワークで評価されるエンタープライズ条件を完全には捉えていません。

それらの条件をテストするために、私たちは独自のエンタープライズ評価スイートである GBA-Bench を構築しました。 GBA-Bench では、7 つの領域 (銀行、保険、ヘルスケア、サプライチェーン、営業、財務、ベンダーオンボーディング) にまたがる、より高度なエンタープライズ業務フローを対象に、同じ二重指標フレームワークを適用しています。合計で 30 以上のフロンティアモデルを評価しました。

GBA-Bench を評価基準として、エージェントにメモリを与えた場合に何が起こるかをテストし、メモリがタスク完了を改善するかどうかだけでなく、実行経路の品質、信頼性、エンタープライズ対応性を向上させるかどうかを測定しました。

τ-bench: 外部検証

コアエージェントフレームワークを使用して、ベースエージェントを τ-bench の全評価にかけました。

4 つの合格レベルすべてにおいて、当社のエージェントは、提出時点で公開されていたリーダーボード結果の最高スコアを達成しました。 pass^1 で当社のエージェントは 74.5% を達成し、次点の公開結果を 4.3 ポイントリードして、GPT-5.2、Claude Opus 4.5、Gemini 3 Proを上回りました。このリードはその後の各合格レベルでも維持され、pass^2 でわずかに広がり、pass^4 でも +4.1 ポイントでした。

合格レベル	オートメーション・エニウェアベースエージェント	リーダーボード #1	差
pass¹	74.50%	70.20%	+4.3 ポイント
pass²	67.90%	63.10%	+4.8 ポイント
pass³	63.60%	59.30%	+4.3 ポイント
pass⁴	60.30%	56.20%	+4.1 ポイント

表2.1: τ-bench の合格レベル結果、オートメーション・エニウェアベースエージェント対リーダーボード #1 (375 のタスクと 4 つの分野で集計)。 Qwen3.5、GPT-5.2、Claude Opus 4.5、Gemini 3 Pro を上回る。

pass^k 構造は、この結果をエンタープライズ展開に特に関連付けるものです。pass^1 は純粋なタスク精度を測定し、pass^4 は一貫性を測定します。エージェントは、4 回の独立した実行すべてで同じタスクを正しく完了しなければなりません。本番用エージェントは、ワークフローを一度だけ処理するわけではありません。同じワークフロータイプを 1 日に何百回も処理します。 pass^2、pass^3、pass^4 にわたって維持される性能は、単一の成功した実行よりも、アーキテクチャの信頼性をより強く示します。

この結果は、エージェントの構築方法の重要性も示唆しています。他の高性能なエージェントで使用されているのと同じ基盤 LLM を当社のエージェントフレームワークで実行したところ、性能は向上しました。一部は大幅な向上でした。モデルの能力は重要ですが、モデルをどのように実行するかも同様に重要です。エージェントアーキテクチャ、ツールの使用、および計画そのものが性能向上の原動力となります。

実行速度と分野別内訳

ドメイン	AA スコア	首位スコアとの差	実行速度	ランク
航空	84.50%	+0.5 ポイント	1.6 倍遅い (230 秒対 145 秒)	#1
小売	82.90%	−1.5 ポイント	3.2 倍速い (223 秒対 703 秒)	~#2
電気通信	98.20%	+0.4 ポイント	2.6 倍速い (330 秒対 841 秒)	#1
銀行	31.70%	+0.5 ポイント	2.7 倍速い (584 秒対 1568 秒)	#1

表 2.2: 分野別の τ-bench 結果、リーダーボード首位との精度および実行速度の比較。

τ-bench 評価において、当社のベースエージェントは、4 つの分野のうち 3 つで、公開されているリーダーボードの比較対象より高速でした。航空分野は速度が例外的です。実行速度は 1.6 倍も遅かったにもかかわらず、比較セットで最高の精度を達成しています。

また、4 分野のうち 3 つでは、提出時点で公開されていた結果の中で、最も高い精度とより速い実行を両立していました。

通信: 2.6 倍高速 (330 秒対 841 秒)、比較セットで最高精度
銀行: 2.7 倍高速 (584 秒対 1568 秒)、比較セットで最高精度
航空: 1.6 倍低速 (230 秒対 145 秒)、比較セットで最高精度
小売: 3.2 倍高速 (223 秒対 703 秒)、比較セットでの最速結果 (次回の評価サイクルで精度向上を目指している分野)

銀行分野には特別な注意が必要です。絶対的スコアがすべての競合で低くなっています。当社のエージェントはこの分野で 31.7% に達し、提出時点の比較セットで最高スコアを記録しましたが、この数値はより広範な分野全体のボトルネック、すなわち取得レイテンシを反映しています。エージェントはポリシーおよびアカウント情報をリアルタイムで取得する必要があり、その制約によりモデルの品質に関係なくスコアが抑制されます。

そのボトルネックは、まさにコンテキストインテリジェンスが対処するよう設計された問題でもあります。このレイヤーが成熟するにつれて、銀行は最も大きな改善が見られる分野になることが予想されます。

GBA-Bench: エンタープライズ評価基準

τ-bench は、比較のための外部ベンチマークを提供します。 GBA-Bench は、エンタープライズエージェントが実際にどのように使われるかを反映した評価環境を提供します。

GBA-Bench は、実際の企業ワークフローを実行する目標ベースのエージェントを対象とした、当社独自の評価スイートです。テストケースは、SOP、サポートチケット、ワークフロー定義を含む実際のソース文書から生成されます。これらの文書は、4 段階のパイプラインを経て、構造化されたエージェント定義、シナリオとマイルストーンのペア、実行可能な Python テストクラスに変換されます。

GBA-Bench は 7 つの業務領域 (銀行、保険、ヘルスケア、サプライチェーン、営業、財務、ベンダーオンボーディング) をカバーしています。

Anthropic 社、OpenAI 社、Google 社、Meta 社、Qwen、DeepSeek 社、Mistral 社、Zhipu 社/GLM を含む、主要なすべてのモデルファミリーで 30 以上のフロンティアモデルを正式に評価しました。各評価では、以前の資料でご紹介したのと同じ二重指標フレームワーク、つまりタスク成功率と軌跡精度を使用しています。どちらも必須です。

GBA-Bench は迅速な反復にも対応した設計になっています。パイプラインは数時間で新しいテストケースを生成できるため、新しいフロンティアモデルをリリース直後に評価できるうえ、一般的にうまく機能するかどうかだけでなく、企業ワークフローに必要な分野に特化したルール、ツール、意思決定パスを処理できるかどうかも把握できます。

ステートレスエージェントの制約

GBA-Bench は、ベースエージェントの主要な制約であるステートレス実行の切り離しも可能にします。

よくできたエージェントでも、各タスクを前回の実行に関するメモリがない状態で開始します。エージェントは、どのツールパラメーターが失敗したのか、どのパスが非効率だったのか、あるいはどの復旧戦略が機能したのかといった情報を保持しません。その結果、同じエラーが繰り返し発生します。同じ不要な手順が繰り返され、同じ脆弱な推論パターンが、実行のたびに現れます。

この制限は、顧客解約防止エージェントで確認されています。メモリなしでエージェントが達成したベースラインの軌跡精度は 0.12 でした。言い換えると、エージェントがもっともらしい結果に到達することがあったとしても、正しい推論経路をたどった実行はわずか 12% であるということです。

つまり、問題は単にモデルがそのタスクを完了できるかどうかではありません。エージェントが繰り返しの実行から学習し、同じ障害モードの再現を避けられるかどうかです。偶然の成功 (低い軌道精度、高いタスク成功精度) は、モデル品質の問題ではありません。アーキテクチャ上の制約であり、修正可能です。

PRE とコンテキストインテリジェンス: ベースラインの推論から企業メモリへ

プロセス推論エンジン: ベースラインワークフローインテリジェンス

プロセス推論エンジンは、当社のプラットフォームで確認される年間 4 億件の自動化の集約実行データから導き出された、一般的なワークフローの失敗パターンに関する基本的理解をエージェントに提供します。これはコアエージェントフレームワークの一部であり、組織固有のメモリやコンテキストに依存せずにタスク全体で計画、ツールの使用、復旧動作を改善する汎用的な推論レイヤーです。

これが τ-bench の結果に反映され、当社のベースエージェントは、コアエージェントフレームワークの一部として PRE で評価されました。

コンテキストインテリジェンス: 企業レベルのメモリとコンテキスト

コンテキストインテリジェンスは以下のような制約に対処します。ベースラインの推論が優れていても、エージェントは蓄積された組織のコンテキストにアクセスできない状態で各企業タスクを開始します。関連するビジネスルール、ワークフロー固有の制約、過去の実行から得られた教訓、およびその環境の手順パターンはどれも存在しません。その結果、同じテナント固有のエラーが再発したり、同じ非効率な経路が繰り返されたりする可能性があります。

コンテキストインテリジェンスは、その欠けているレイヤーを追加します。実行前および実行中に関連する企業固有のガイダンスが取得されるため、エージェントは各実行を独立したものとして扱うのではなく、組織のルール、ツール、ワークフロー履歴に適応できます。

重要なのは質の高いフィルタリングです。成功した実行は、再現可能なパターンとして保存されます。不完全な実行は、避けるべきことや修正すべきことに関する、インパクトの大きい教訓へと要約されます。目的は、すべてを記憶することではありません。次の実行を改善する可能性が最も高いコンテキストを明らかにすることです。

また、戦略レベルのコンテキストと手順に関するコンテキストを分離する二層のバリエーションもテストしました。戦略レベルのコンテキストは高レベルのワークフローパターンを取り込み、タスク開始時に取得されます。手順に関するコンテキストは詳細な状態遷移記録を取り込み、タスクの途中で、エージェントが直前に実行したツールから構築されたクエリによって取得されます。これは、エージェントの開始プロンプトだけでなく、現在の状態に基づく取得の基礎になります。

結果: 目標達成率の最大 32 ポイント向上

GBA-Bench では、4 種類のエンタープライズエージェントを対象に、PRE 対応のベースエージェント上でコンテキストインテリジェンスをテストしました。

エージェントタイプ	ベースライン (メモリなし)	PRE+CI あり	改善 (絶対値でのパーセンテージポイント増加)
請求の詳細	0.70	0.90	+0.20
顧客解約防止	0.12	0.59	+0.47
与信保留	0.35	0.55	+0.20
販売契約加速	0.33	0.66	+0.33

表 4.2: 軌跡精度 - ベースラインと PRE + コンテキストインテリジェンス (GBA-Bench) の比較

エージェントの種類を問わず、一貫して成果が出ています。軌跡精度は 20 〜 47 パーセントポイント改善されました。目標達成率は最大 32 パーセントポイント改善されました。顧客解約防止エージェントは最も大きな向上を示しています。軌跡精度が 0.12 から 0.53 に上昇し、約 4.4 倍の改善となりました。

コンテキスト対応のエージェントでは、複雑なワークフローにおける 1 回の実行あたりの平均ツール呼び出し回数も約 20% 削減しました。ツール呼び出しが少ないほど、エラーと再試行のサイクルも少なくなります。エージェントは単に作業量を減らしているのではなく、より早く正しい経路をたどっています。本番環境では、これが API コストの削減、実行の高速化、大規模運用における動作の予測可能性の向上につながります。

1 つの例が、その変化を具体化します。販売契約加速エージェントでは、ベースラインが無効な alert_type パラメーターで send_deal_alert を繰り返し呼び出してエラーを受け取り、正しい値で再試行してタスクを完了しました。タスク成功のみの指標では、これは成功したように見えます。当社のフレームワークに基づくと、これは偶然の成功です。結果は正しいものの、実行経路は劣化しています。

コンテキストインテリジェンスが有効な状態のエージェントは、同じミスを繰り返す前に、関連するエンタープライズレベルのガイダンス (エスカレーション通知を送信する前に、有効なアラートタイプを確認する) を取得しました。最初の試行でツールを正しく呼び出しました。軌跡精度は 100%. 再試行は不要です。

PRE はベースラインワークフローインテリジェンスを提供します。コンテキストインテリジェンスは、企業固有のコンテキストとメモリを追加します。両者合わせて、一般実行の強化と企業環境への適応の向上という 2 つの異なるレベルでのエージェント改善を表しています。

まとめ: エンタープライズエージェントの準備に必要なもの

結果は明確な結論を示しています。それは、エンタープライズエージェントの性能は、モデルの選択だけでは決まらないということです。

τ-bench では、4 つの合格レベルすべてにおいて、当社のベースエージェントは提出時点で公開されていたリーダーボード結果の最高スコアを達成し、さらに 4 分野のうち 3 つで、公開されている比較対象よりも高速に動作しました。これらのエージェントは、PRE のベースラインワークフローインテリジェンスを含む、コアエージェントフレームワークの強みを反映しています。

しかし、τ-bench が示すのは対応状況の一部でしかありません。エンタープライズエージェントは、標準化されたサービス業務だけを行うわけではなく、分野に特化したポリシー、カスタムツール、手順に関する制約、反復的な実行パターンが存在する組織固有のワークフロー内で動作します。 GBA-Bench はそれを評価するために構築されました。

GBA-Bench の結果は、ステートレス実行が依然として根本的な制約であることを示しています。優れたベースエージェントであっても、非効率な、または信頼性の低い経路を経てタスクを完了することがあるため、出力レイヤーでは正しく見えても、その下層では本番運用に耐えない偶然の成功が生じます。

コンテキストインテリジェンスはそのギャップに対処します。関連する企業レベルのメモリと手順に関するコンテキストにエージェントがアクセスできるようにすることで、軌跡精度が 20 〜 47 パーセントポイント向上し、目標達成率が最大 32 パーセントポイント向上して、複雑なワークフローにおけるツール呼び出しが 20% 減少することを確認しました。

これらの結果を合わせると、エンタープライズグレードのエージェントには 2 つの異なる要件があることがわかります。まず、計画、ツールの使用、一般的なワークフロー失敗からの復旧を可能にする強力なベースラインの推論が必要です。次に、組織固有のコンテキストを適用し、反復実行によって改善するエンタープライズ適応能力が必要です。

今回測定しているのは、その変化です。次世代のエンタープライズエージェントは、正しい答えを一度出せるかどうかだけでは評価されません。時間の経過とともに信頼性を高めながら、本番の速度かつ適切な経路で正しい答えを一貫して出せるかどうかが評価されます。

完全な方法論、実験データ、および 30 以上のフロンティアモデルを対象とした GBA-Bench のリーダーボード結果については、2026 年の AI エージェントベンチマークレポートをダウンロードしてください。この研究を裏打ちする評価フレームワークについては、「A Framework for Evaluating Goal-Based AI Agents」をお読みください。

この投稿では、オートメーション・エニウェアの 2 つの技術ホワイトペーパーを参照しています ( 「A Framework for Evaluating Goal-Based AI Agents」、2026 年の AI エージェントベンチマークレポート)。τ-bench の結果は、2026 年 5 月に公開リーダーボードに提出された評価実行を反映しています (公開時点ではマージ待ち)。 GBA-Bench の結果は、オートメーション・エニウェア独自の評価スイートに基づいています。公開前に内容を確認済みです。

タグ

Emily Gal

Emily は、オートメーション・エニウェアの Agentic Process Automation 部門のプロダクトマーケティングディレクターです。

τ-bench の先へ: エンタープライズ AI エージェントのパフォーマンスに対する PRE とコンテキスト インテリジェンスの影響

この記事の内容

はじめに

τ-bench: 外部検証

実行速度と分野別内訳

GBA-Bench: エンタープライズ評価基準

ステートレス エージェントの制約

PRE とコンテキスト インテリジェンス: ベースラインの推論から企業メモリへ

プロセス推論エンジン: ベースライン ワークフロー インテリジェンス

コンテキスト インテリジェンス: 企業レベルのメモリとコンテキスト

結果: 目標達成率の最大 32 ポイント向上

まとめ: エンタープライズ エージェントの準備に必要なもの

関連記事

執筆者の最新記事

τ-bench の先へ: エンタープライズ AI エージェントのパフォーマンスに対する PRE とコンテキストインテリジェンスの影響

ステートレスエージェントの制約

PRE とコンテキストインテリジェンス: ベースラインの推論から企業メモリへ

プロセス推論エンジン: ベースラインワークフローインテリジェンス

コンテキストインテリジェンス: 企業レベルのメモリとコンテキスト

まとめ: エンタープライズエージェントの準備に必要なもの