معايير مقارنة برامج وكلاء الذكاء الاصطناعي: دليل التقييم المؤسسي لعام 2026

تعرَف على أبرز معايير تقييم برامج وكلاء الذكاء الاصطناعي لعام 2026. وتعرّف على أسباب قصور التقييمات العامة، وكيفية قياس دقة المسار التنفيذي، ومن يتصدر لوحة صدارة τ-bench.

تفوقت برامج وكلائنا الأساسية عند اختبار برامج الوكلاء الأساسية لدينا باستخدام معيار τ-bench الذي طورته جامعة برينستون وSierra، وهو المعيار الأساسي في المجال لتقييم برامج وكلاء الذكاء الاصطناعي، على جميع النتائج المنشورة في لوحات الصدارة المتاحة وقت تقديم النتائج، وذلك عبر جميع مستويات النجاح.

وباستخدام GBA-Bench، وهو نظام التقييم المؤسسي المملوك لنا، اختبرنا بعد ذلك أثر تزويد برامج الوكلاء بقدرات الذكاء السياقي: أي الذاكرة المؤسسية والسياق الإجرائي اللذين يساعدانها على التكيف مع مسارات العمل الخاصة بكل مؤسسة. وكانت النتيجة تحسنًا ملحوظًا في دقة المسار التنفيذي ومعدل إتمام الأهداف.

الخلاصة هنا: أن اختيار النموذج مهم، لكن البنية المحيطة بالنموذج لا تقل أهمية عنه. فالطريقة التي يخطط بها برنامج الوكيل ويستخدم بها الأدوات ويتعافى بها من الأخطاء ويطبق بها السياق المؤسسي هي التي تحدد مدى موثوقية أدائه داخل مسارات العمل الفعلية.

وفيما يلي نستعرض ما الذي قمنا بقياسه، وكيف قمنا بقياسه، وما الذي تعنيه النتائج.

ملاحظة التقييم: تعكس نتائج τ-bench عمليات التقييم التي أجرتها Automation Anywhere وقدمتها إلى لوحة الصدارة العامة في مايو 2026 (وكان تجميعها لا يزال قيد الانتظار وقت النشر). وتشير جميع المقارنات إلى النتائج المنشورة وقت تقديم البيانات.

مقدمة

في ورقتنا السابقة بعنوان إطار تقييم برامج وكلاء الذكاء الاصطناعي الموجهة بالأهداف، قدمنا إطار تقييم يعتمد على مقياسين، بحيث لا يقيس فقط ما إذا كان برنامج الوكيل قد أكمل المهمة أم لا، بل أيضًا ما إذا كان قد اتبع مسار التحليل الصحيح للوصول إلى النتيجة؛ وذلك لأن برنامج الوكيل الذي يصل إلى الإجابة الصحيحة عبر تنفيذ مجزأ أو غير موثوق يعرّض للمسؤولية الإنتاجية، حتى وإن بدا الناتج النهائي صحيحًا. وقد أرست تلك الورقة المنهجية الأساسية هذا الإطار.

تطبَّق هذه الورقة تلك المنهجية بطريقتين.

أولًا، اختبرنا برامج الوكلاء الخاصة بنا باستخدام معيار τ-bench لتوفير نقطة مقارنة خارجية. ويُعد τ-bench، الذي طورته جامعة برينستون وSierra، أحد المعايير العامة الأكثر صرامة المتاحة لتقييم أداء برامج الوكلاء في مهام الخدمة العامة. ويغطي هذا المعيار 375 مهمة متعددة الجولات ضمن مجالات الطيران والتجزئة والاتصالات والخدمات البنكية، ما يتيح لنا مقارنة أداء برامج وكلائنا مع مرجع معترف به على نطاق واسع في المجال.

لكن قابلية المقارنة الخارجية ليست سوى جزء من الصورة. فتكمن قيمة τ-bench في قدرته على قياس أداء برامج الوكلاء ضمن مسارات عمل خدمية موحَّدة. لكنه لا يعكس بالكامل ظروف العمل المؤسسية التي صُمم إطارنا لتقييمها، مثل مسارات العمل المعتمدة على وثائق مصدر فعلية، والتحقق من السياسات الخاصة بكل قطاع، وهياكل الأدوات المصممة لكل مؤسسة، وقواعد الأعمال التي تحكم كيفية تنفيذ العمل فعليًا.

ولاختبار هذه الظروف، بنينا GBA-Bench، وهو نظام التقييم المؤسسي المملوك لنا. ويطبق GBA-Bench إطار التقييم نفسه القائم على المقياسين على مجموعة أكثر تعقيدًا من مسارات العمل المؤسسية عبر سبعة مجالات: الخدمات البنكية والتأمين والرعاية الصحية وسلاسل الإمداد والمبيعات والمالية وإلحاق الموردين. وفي المجمل، قيّمنا أكثر من 30 نموذجًا متقدمًا.

وباستخدام GBA-Bench بوصفه معيار التقييم، اختبرنا بعد ذلك أثر تزويد برامج الوكلاء بالذاكرة، بحيث لم نقس فقط ما إذا كانت الذاكرة تحسن إتمام المهام، بل أيضًا ما إذا كانت تحسن جودة المسار التنفيذي وموثوقيته ومدى جاهزيته للاستخدام المؤسسي.

τ-bench: التحقق الخارجي

أخضعنا برامج وكلائنا الأساسية للتقييم الكامل باستخدام معيار τ-bench، بالاعتماد على إطار العمل الأساسي الخاص ببرامج وكلائنا.

وعبر جميع مستويات النجاح الأربعة، حققت برامج وكلائنا أعلى النتائج مقارنة بجميع النتائج المنشورة في لوحات الصدارة وقت تقديم النتائج. فعند مستوى النجاح pass^1، حققت برامج وكلائنا نسبة 74.5%، متقدمة بفارق +4.3 نقطة على أقرب أفضل نتيجة منشورة، ومتجاوزة نماذج مثل GPT-5.2 وClaude Opus 4.5 وGemini 3 Pro. واستمر هذا التقدم عبر كل مستويات النجاح اللاحقة، حيث اتسع الفارق قليلًا عند مستوى pass^2، وظل عند +4.1 نقطة حتى مستوى pass^4.

مستوى النجاح	برنامج الوكيل الأساسي من Automation Anywhere	لوحة الصدارة رقم 1	الفارق (دلتا)
pass¹	%74.50	%70.20	+4.3 نقاط
pass²	%67.90	%63.10	+4.8 نقاط
pass³	%63.60	%59.30	+4.3 نقاط
pass⁴	%60.30	%56.20	+4.1 نقاط

الجدول 2.1: نتائج مستويات النجاح في τ-bench - مقارنة بين برامج الوكلاء الأساسية من Automation Anywhere وصاحب المركز الأول في لوحة الصدارة، استنادًا إلى 375 مهمة موزعة على 4 مجالات. مع التفوق على Qwen3.5 وGPT-5.2 وClaude Opus 4.5 وGemini 3 Pro.

تكمن أهمية بنية pass^k تحديدًا في مدى ارتباطها بالنشر المؤسسي الفعلي. فمستوى pass^1 يقيس الدقة الخام في تنفيذ المهام، بينما يقيس pass^4 مدى الاتساق، إذ يجب على برنامج الوكيل إكمال المهمة نفسها بصورة صحيحة في أربع محاولات مستقلة. ولا ينفذ برنامج الوكيل المستخدم في بيئات الإنتاج مسار عمل واحدًا مرة واحدة فقط، بل يتعامل مع النوع نفسه من مسارات العمل مئات المرات يوميًا. لذلك، فإن الأداء الذي يحافظ على مستواه عبر pass^2 وpass^3 وpass^4 يُعد مؤشرًا على موثوقية بنيته المعمارية أقوى من مجرد نجاح تجربة واحدة.

تشير النتائج أيضًا إلى أهمية الكيفية التي تُبنى بها برامج الوكلاء. فعندما شغّلنا النماذج اللغوية الكبيرة نفسها المستخدمة لدى برامج وكلاء أخرى عالية الأداء عبر إطار العمل الخاص بنا، تحسن الأداء، وفي بعض الحالات كان التحسن كبيرًا. فإمكانات النموذج مهمة، لكن طريقة تشغيل النموذج لا تقل أهمية عنها. إذ تُعد بنية برنامج الوكيل واستخدام الأدوات وآليات التخطيط، جميعها عوامل مؤثرة في الأداء.

سرعة التنفيذ والتوزيع حسب المجالات

المجال	درجة Automation Anywhere	مقابل صاحب المركز الأول	سرعة التنفيذ	الترتيب
قطاع الطيران	%84.50	+0.5 نقاط	أبطأ بمقدار 1.6 ضعف (230 ثانية مقابل 145 ثانية)	1#
قطاع التجزئة	%82.90	−1.5 نقطة	أسرع بمقدار 3.2 ضعف (223 ثانية مقابل 703 ثانية)	~2#
قطاع الاتصالات	%98.20	+0.4 نقاط	أسرع بمقدار 2.6 ضعف (330 ثانية مقابل 841 ثانية)	1#
الخدمات البنكية	%31.70	+0.5 نقاط	أسرع بمقدار 2.7 ضعف (584 ثانية مقابل 1568 ثانية)	1#

الجدول 2.2: نتائج τ-bench حسب المجال - الدقة وسرعة التنفيذ مقارنة بصاحب المركز الأول في لوحة الصدارة.

في تقييمنا باستخدام τ-bench، كانت برامج وكلائنا الأساسية أسرع من نقطة المقارنة المنشورة في لوحة الصدارة ضمن ثلاثة من أصل أربعة مجالات. وكان قطاع الطيران هو الاستثناء من ناحية السرعة، حيث عملت برامج الوكلاء بسرعة أقل بمقدار 1.6 مرة، مع استمرارها في تحقيق أعلى دقة ضمن مجموعة المقارنة.

وفي ثلاثة من المجالات الأربعة، جمعت برامج وكلائنا بين سرعة التنفيذ الأعلى والدقة الأعلى بين النتائج المنشورة وقت تقديم البيانات:

قطاع الاتصالات: أسرع بمقدار 2.6 ضعف (330 ثانية مقابل 841 ثانية)، أعلى دقة في مجموعة المقارنة
الخدمات البنكية: أسرع بمقدار 2.7 ضعف (584 ثانية مقابل 1568 ثانية)، أعلى دقة في مجموعة المقارنة
قطاع الطيران: أبطأ بمقدار 1.6 ضعف (230 ثانية مقابل 145 ثانية)، أعلى دقة في مجموعة المقارنة
قطاع التجزئة: أسرع بمقدار 3.2 ضعف (223 ثانية مقابل 703 ثوانٍ)، وهو أسرع أداء لنا ضمن مجموعة المقارنة، كما يُعد هذا المجال أحد المجالات التي نستهدف تحسين الدقة فيها خلال دورة التقييم المقبلة.

يستحق مجال الخدمات البنكية اهتمامًا خاصًا. فدرجات الأداء المطلقة منخفضة لدى جميع المنافسين. وقد حققت برامج وكلائنا نسبة 31.7% في هذا المجال، وهي أعلى نتيجة ضمن مجموعة المقارنة وقت تقديم البيانات، لكن هذا الرقم يعكس اختناقًا أوسع على مستوى المجال بأكمله يتمثل في زمن استرجاع البيانات؛ إذ يتعين على برنامج الوكيل استرجاع السياسات ومعلومات الحسابات لحظيًا، وهو ما يفرض قيدًا يخفض النتائج بغض النظر عن جودة النموذج.

وهذا النوع من الاختناقات هو تحديدًا نوع المشكلات الذي صُمم الذكاء السياقي لمعالجته. ومع نضوج هذه الطبقة، نتوقع أن يشهد قطاع الخدمات البنكية بعضًا من أكبر التحسينات.

GBA-Bench: معيارنا المؤسسي للتقييم

يوفر لنا τ-bench معيارًا خارجيًا للمقارنة، بينما يوفر GBA-Bench بيئة التقييم التي تعكس كيفية استخدام برامج الوكلاء المؤسسية فعليًا داخل المؤسسات.

GBA-Bench هو نظام التقييم المملوك لنا والمخصص لبرامج الوكلاء القائمة على الأهداف التي تنفذ مسارات عمل مؤسسية حقيقية. ويتم إنشاء حالات الاختبار انطلاقًا من وثائق مصدر فعلية، بما في ذلك إجراءات التشغيل القياسية (SOPs) وتذاكر الدعم وتعريفات مسارات العمل. ثم تُحوَّل هذه الوثائق عبر خط معالجة مكوّن من أربع مراحل إلى تعريفات منظمة لبرامج الوكلاء، وأزواج من السيناريوهات والمعالم، وفئات اختبار قابلة للتنفيذ باستخدام لغة Python.

يغطي هذا النظام سبعة مجالات مؤسسية هي: الخدمات البنكية والتأمين والرعاية الصحية وسلاسل الإمداد والمبيعات والمالية وإلحاق الموردين.

أجرينا تقييمًا رسميًا لأكثر من 30 نموذجًا متقدمًا عبر مختلف عائلات النماذج الرئيسية، بما يشمل نماذج مقدمة من Anthropic وOpenAI وGoogle وMeta وAlibaba Cloud وDeepSeek وMistral AI وZhipu AI/GLM. ويستخدم كل تقييم إطار العمل القائم على المقياسين الذي قدمناه في ورقتنا السابقة: نجاح المهمة ودقة المسار التنفيذي، وكلاهما مطلوب.

صُمم GBA-Bench لدعم التكرار السريع. فبما أن خط المعالجة قادر على إنشاء حالات اختبار جديدة خلال ساعات، يمكننا تقييم النماذج المتقدمة الجديدة بعد وقت قصير من إطلاقها، وفهم ليس فقط ما إذا كانت تحقق أداءً جيدًا بشكل عام، بل أيضًا ما إذا كانت قادرة على التعامل مع القواعد الخاصة بكل مجال والأدوات ومسارات اتخاذ القرار التي تتطلبها مسارات العمل المؤسسية.

محدودية برامج الوكلاء غير المرتبطة بالحالة

يتيح GBA-Bench أيضًا عزل إحدى القيود الجوهرية في برامج الوكلاء الأساسية: التنفيذ غير المرتبطة بالحالة.

فحتى برامج الوكلاء المبنية بإحكام تبدأ كل مهمة دون أي ذاكرة للتنفيذات السابقة. فهي لا تحتفظ بالمعلومات المتعلقة بمعلمات الأدوات التي فشلت، أو المسارات غير الفعالة، أو استراتيجيات التعافي التي نجحت. ونتيجة لذلك، تتكرر الأخطاء نفسها، وتتكرر الخطوات غير الضرورية نفسها، وتظهر أنماط التحليل الهشة نفسها مرة بعد مرة.

تتضح هذه المحدودية في برنامج الوكيل الخاص بمنع تسرب العملاء. فبدون الذاكرة، حقق برنامج الوكيل مستوى أساسيًا من دقة المسار التنفيذي بلغ 0.12. وبعبارة أخرى، لم يتبع سوى 12% من عمليات التنفيذ مسار التحليل الصحيح، حتى في الحالات التي كان يصل فيها أحيانًا إلى نتائج تبدو منطقية ظاهريًا.

وهذا يعني أن الإشكال لا يتعلق فقط بقدرة النموذج على إكمال المهمة، بل بقدرة برنامج الوكيل على التعلم من عمليات التنفيذ المتكررة وتجنُّب إعادة إنتاج أنماط الفشل نفسها. فالوصول إلى نجاح هش (انخفاض دقة المسار التنفيذي وارتفاع معدل نجاح المهمة) لا يمثل مشكلة في جودة النموذج بقدر ما يمثل قيدًا بنيويًا. وهو قيد يمكن معالجته.

محرك تحليل العمليات والذكاء السياقي: من التحليل الأساسي إلى الذاكرة المؤسسية

محرك تحليل العمليات: الذكاء الأساسي لمسارات العمل

يوفر محرك تحليل العمليات لبرامج الوكلاء فهمًا أساسيًا لأنماط فشل مسارات العمل الشائعة، وذلك استنادًا إلى بيانات التنفيذ المجمعة عبر أكثر من 400 مليون عملية أتمتة نشهدها سنويًا على منصتنا. ويُعد هذا المحرك جزءًا من إطار العمل الأساسي لبرامج الوكلاء، باعتباره طبقة تحليل عامة تعمل على تحسين التخطيط واستخدام الأدوات وسلوكيات التعافي عبر مختلف المهام، دون الاعتماد على ذاكرة أو سياق خاص بمؤسسة بعينها.

وهذا تحديدًا ما تعكسه نتائج τ-bench، حيث جرى تقييم برامج الوكلاء الأساسية لدينا مع تضمين محرك تحليل العمليات ضمن إطار العمل الأساسي لبرامج الوكلاء.

الذكاء السياقي: الذاكرة والسياق على مستوى المؤسسة

يعالج الذكاء السياقي القيد التالي: حتى مع وجود قدرات تحليل أساسية قوية، يبدأ برنامج الوكيل كل مهمة مؤسسية دون الوصول إلى السياق المتراكم داخل المؤسسة. إذ تغيب عنه قواعد الأعمال ذات الصلة، والقيود الخاصة بمسارات العمل، والدروس المستفادة من عمليات التنفيذ السابقة، والأنماط الإجرائية الخاصة بتلك البيئة. ونتيجة لذلك، قد تتكرر الأخطاء الخاصة بالمؤسسة نفسها، وكذلك قد تتكرر المسارات غير الفعالة ذاتها.

يضيف الذكاء السياقي هذه الطبقة المفقودة، إذ يسترجع الإرشادات الخاصة بالمؤسسة قبل التنفيذ وأثناءه، بحيث يتمكن برنامج الوكيل من التكيف مع قواعد المؤسسة وأدواتها وسجل مسارات العمل الخاصة بها، بدلًا من التعامل مع كل تنفيذ بوصفه حالة منعزلة.

يكمن العنصر الأساسي هنا في تصفية الجودة. فعمليات التنفيذ الناجحة تُحفَظ بوصفها أنماطًا قابلة لإعادة الاستخدام، بينما تُحوَّل عمليات التنفيذ غير المثالية إلى دروس عالية التأثير توضّح ما ينبغي تجنبه أو تصحيحه. فالهدف ليس تذكر كل شيء، بل إبراز السياق الأكثر قدرة على تحسين عملية التنفيذ التالية.

اختبرنا أيضًا نسخة ثنائية الطبقات تفصل بين السياق الاستراتيجي والسياق الإجرائي. إذ يلتقط السياق الاستراتيجي الأنماط العامة لمسارات العمل ويُسترجع عند بداية المهمة، بينما يلتقط السياق الإجرائي سجلات تفصيلية لتحولات الحالة ويُسترجع أثناء تنفيذ المهمة، وذلك من خلال استعلامات تُنشأ استنادًا إلى الأدوات التي استخدمها برنامج الوكيل للتو. ويؤدي ذلك إلى ربط عملية الاسترجاع بالحالة الراهنة لبرنامج الوكيل، وليس فقط بالتوجيه الأوّلي الذي بدأ به المهمة.

النتائج: تحسُّن يصل إلى 32 نقطة في معدل إتمام الأهداف

اختبرنا الذكاء السياقي فوق برامج الوكلاء الأساسية المدعومة بمحرك تحليل العمليات عبر أربعة أنواع من برامج الوكلاء المؤسسية ضمن GBA-Bench.

نوع برنامج الوكيل	الحد الأساسي (بدون ذاكرة)	مع PRE+CI	التحسُّن (الزيادة المطلقة بالنقاط المئوية)
تفاصيل المطالبات	0.70	0.90	+0.20
منع تسرب العملاء	0.12	0.59	+0.47
تعليق الائتمان المالي	0.35	0.55	+0.20
تسريع صفقات المبيعات	0.33	0.66	+0.33

الجدول 4.2: دقة المسار التنفيذي - مقارنة بين الحد الأساسي ومحرك تحليل العمليات + الذكاء السياقي (PRE+CI) (GBA-Bench)

كان التحسّن متسقًا عبر مختلف أنواع برامج الوكلاء. فقد تحسنت دقة المسار التنفيذي بما يتراوح بين 20 و47 نقطة مئوية، بينما تحسن معدل إتمام الأهداف بما يصل إلى 32 نقطة مئوية. وسجل برنامج الوكيل الخاص بمنع تسرب العملاء أحد أكبر معدلات التحسّن، حيث ارتفعت دقة المسار التنفيذي من 0.12 إلى 0.53، أي ما يعادل تحسنًا بمقدار 4.4 أضعاف تقريبًا.

أسهمت برامج الوكلاء المدعومة بالذكاء السياقي أيضًا في خفض متوسط عدد استدعاءات الأدوات لكل عملية تنفيذ بنسبة تقارب 20% في مسارات العمل المعقدة. ويعني انخفاض عدد استدعاءات الأدوات تقليل دورات الخطأ وإعادة المحاولة. فبرنامج الوكيل لا ينجز عملًا أقل فحسب، بل يسلك المسار الصحيح في وقت أبكر. وفي بيئات الإنتاج، يترجم ذلك إلى انخفاض تكاليف واجهات برمجة التطبيقات (API) وتسريع التنفيذ وتحقيق سلوك أكثر قابلية للتنبؤ على نطاق واسع.

يجسد أحد الأمثلة هذا التحول بصورة واضحة. ففي برنامج الوكيل الخاص بتسريع إتمام صفقات المبيعات، كان الحد الأساسي يستدعي أداة send_deal_alert مرارًا باستخدام معلمة alert_type غير صالحة، ثم يتلقى رسالة خطأ، ويعيد المحاولة بالقيمة الصحيحة، ويُكمل المهمة في النهاية. ووفقًا لمقياس نجاح المهمة فقط، يبدو ذلك نجاحًا. لكنه وفقًا لإطارنا، يُعد ذلك "نجاحًا هشًا": فالنتيجة النهائية صحيحة، لكن مسار التنفيذ نفسه يعاني من خلل.

أما عند تفعيل الذكاء السياقي، فقد استرجع برنامج الوكيل الإرشادات المؤسسية ذات الصلة قبل تكرار الخطأ نفسه: التحقق من أنواع التنبيهات الصالحة قبل إرسال إشعارات التصعيد. ونتيجة لذلك، استدعى الأداة بصورة صحيحة من المحاولة الأولى. أي أن دقة المسار التنفيذي: %100، دون حاجة إلى إعادة المحاولة.

يوفر محرك تحليل العمليات ذكاءً أساسيًا لمسارات العمل، بينما يضيف الذكاء السياقي الذاكرة والسياق الخاصين بالمؤسسة. ويمثل الاثنان معًا مستويين مختلفين من التحسُّن في برامج الوكلاء: تنفيذ عام أكثر قوة، وقدرة أعلى على التكيف مع البيئة المؤسسية.

الخاتمة: ما الذي تتطلبه جاهزية برامج الوكلاء المؤسسية؟

تشير النتائج إلى خلاصة واضحة: أداء برامج الوكلاء المؤسسية لا يتحدد باختيار النموذج وحده.

ففي τ-bench، حققت برامج وكلائنا الأساسية أعلى النتائج بين جميع النتائج المنشورة في لوحات الصدارة وقت تقديم البيانات عبر مستويات النجاح الأربعة، مع تشغيل أسرع من نقطة المقارنة المنشورة في ثلاثة من أصل أربعة مجالات. وتعكس هذه النتائج قوة إطار العمل الأساسي لبرامج الوكلاء، بما في ذلك الذكاء الأساسي لمسارات العمل الذي يوفره محرك تحليل العمليات.

لكن τ-bench لا يمثل سوى جزء من الصورة الكاملة للجاهزية. فبرامج الوكلاء المؤسسية لا تعمل فقط على مهام خدمية موحَّدة، بل تعمل داخل مسارات عمل خاصة بالمؤسسات، تتضمن سياسات متخصصة حسب المجال وأدوات مخصصة وقيودًا إجرائية وأنماط تنفيذ متكررة. وهذا ما أنشئ GBA-Bench لتقييمه.

تُظهر نتائج GBA-Bench أن التنفيذ غير المرتبط بالحالة ما يزال يمثل قيدًا جوهريًا. فحتى برامج الوكلاء الأساسية القوية قد تُنجز المهام عبر مسارات غير فعالة أو غير موثوقة، مما يؤدي إلى نجاحات هشة تبدو صحيحة على مستوى المخرجات، لكنها ليست جاهزة فعليًا للإنتاج في طبقات التنفيذ الداخلية.

يسدّ الذكاء السياقي هذه الفجوة. فمن خلال منح برامج الوكلاء إمكانية الوصول إلى الذاكرة والسياق الإجرائي الخاصين بالمؤسسة، لاحظنا تحسنًا في دقة المسار التنفيذي تراوح بين 20 و47 نقطة مئوية، وتحسنًا في معدل إتمام الأهداف وصل إلى 32 نقطة مئوية، علاوة على انخفاض بنسبة 20% في عدد استدعاءات الأدوات ضمن مسارات العمل المعقدة.

توضح هذه النتائج مجتمعةً وجود متطلبين أساسيين لبرامج الوكلاء المؤسسية. أولًا، تحتاج إلى قدرات تحليل أساسية قوية: أي القدرة على التخطيط واستخدام الأدوات والتعافي من حالات الفشل الشائعة في مسارات العمل. وثانيًا، تحتاج إلى التكيف المؤسسي: أي القدرة على تطبيق السياق الخاص بالمؤسسة والتحسن من خلال التنفيذ المتكرر.

وهذا هو التحول الذي تركز هذه الورقة على قياسه. فالجيل القادم من برامج الوكلاء المؤسسية لن يُحكم عليه فقط بناءً على قدرته على إنتاج الإجابة الصحيحة مرة واحدة، بل سيُحكم عليه من حيث قدرته على إنتاج الإجابة الصحيحة بصورة متسقة وعبر المسار الصحيح وبالسرعة المناسبة للإنتاج، مع اكتساب موثوقية أكبر بمرور الوقت.

للاطلاع على المنهجية الكاملة والبيانات التجريبية ونتائج لوحة الصدارة الخاصة بمعيار GBA-Bench عبر أكثر من 30 نموذجًا متقدمًا، يمكنك تنزيل تقرير معايير مقارنة برامج وكلاء الذكاء الاصطناعي لعام 2026. يمكنك أيضًا الرجوع إلى ورقة إطار تقييم برامج وكلاء الذكاء الاصطناعي الموجهة بالأهداف للاطلاع على إطار التقييم الذي يستند إليه هذا العمل.

يشير هذا المقال إلى ورقتين تقنيتين صادرتين عن Automation Anywhere: إطار تقييم برامج وكلاء الذكاء الاصطناعي الموجهة بالأهداف وتقرير معايير مقارنة برامج وكلاء الذكاء الاصطناعي لعام 2026. تعكس نتائج τ-bench عمليات التقييم المقدمة إلى لوحة الصدارة العامة في مايو 2026 (وكان تجميعها لا يزال قيد الانتظار وقت النشر). أما نتائج GBA-Bench فتستند إلى نظام التقييم المملوك لـ Automation Anywhere. وقد خضع المحتوى للمراجعة قبل النشر.

العلامات

الذكاء الاصطناعي

Emily Gal

نبذة عن إميلي غال إميلي مديرة تسويق المنتجات في قسم الأتمتة الذاتية للعمليات في Automation Anywhere

ما بعد معيار Tau Bench: أثر محرك تحليل العمليات والذكاء السياقي في أداء برامج وكلاء الذكاء الاصطناعي المؤسسية

في هذا المقال