الانتقال إلى المحتوى الرئيسي

Documentation Index

Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

كان OpenClaw يعمل بالفعل بشكل جيد مع نماذج الحدود المتقدمة التي تستخدم الأدوات، لكن GPT-5.5 والنماذج بأسلوب Codex كانت لا تزال تؤدي بأقل من المتوقع في عدة نواحٍ عملية:
  • كان يمكن أن تتوقف بعد التخطيط بدلًا من تنفيذ العمل
  • كان يمكن أن تستخدم مخططات أدوات OpenAI/Codex الصارمة بشكل غير صحيح
  • كان يمكن أن تطلب /elevated full حتى عندما يكون الوصول الكامل مستحيلًا
  • كان يمكن أن تفقد حالة المهام طويلة التشغيل أثناء إعادة التشغيل أو Compaction
  • كانت ادعاءات التكافؤ مع Claude Opus 4.6 مبنية على حكايات بدلًا من سيناريوهات قابلة للتكرار
يعالج برنامج التكافؤ هذا تلك الفجوات في أربع شرائح قابلة للمراجعة.

ما الذي تغيّر

PR A: التنفيذ الوكيلي الصارم

تضيف هذه الشريحة عقد تنفيذ strict-agentic اختياريًا لتشغيلات GPT-5 المضمّنة في Pi. عند تفعيله، يتوقف OpenClaw عن قبول الأدوار التي تقتصر على الخطة باعتبارها إنجازًا “كافيًا”. إذا قال النموذج فقط ما ينوي فعله ولم يستخدم الأدوات فعليًا أو يحرز تقدمًا، يعيد OpenClaw المحاولة بتوجيه للتنفيذ الآن، ثم يفشل مغلقًا بحالة حظر صريحة بدلًا من إنهاء المهمة بصمت. يحسّن هذا تجربة GPT-5.5 أكثر في:
  • متابعات قصيرة مثل “حسنًا نفّذ”
  • مهام البرمجة حيث تكون الخطوة الأولى واضحة
  • التدفقات التي يجب أن يكون فيها update_plan لتتبع التقدم لا كنص حشو

PR B: صدق وقت التشغيل

تجعل هذه الشريحة OpenClaw يصرّح بالحقيقة حول أمرين:
  • سبب فشل استدعاء المزوّد/وقت التشغيل
  • ما إذا كان /elevated full متاحًا فعليًا
هذا يعني أن GPT-5.5 يحصل على إشارات وقت تشغيل أفضل لنطاق مفقود، وفشل تحديث المصادقة، وفشل مصادقة HTML 403، ومشكلات الوكيل، وفشل DNS أو انتهاء المهلة، وأوضاع الوصول الكامل المحظورة. يصبح النموذج أقل عرضة لاختلاق معالجة خاطئة أو الاستمرار في طلب وضع أذونات لا يستطيع وقت التشغيل توفيره.

PR C: صحة التنفيذ

تحسّن هذه الشريحة نوعين من الصحة:
  • توافق مخططات أدوات OpenAI/Codex المملوك للمزوّد
  • إبراز حيوية إعادة التشغيل والمهام الطويلة
يقلل عمل توافق الأدوات احتكاك المخططات عند تسجيل أدوات OpenAI/Codex الصارمة، خصوصًا حول الأدوات بلا معاملات وتوقعات جذر الكائن الصارمة. ويجعل عمل إعادة التشغيل/الحيوية المهام طويلة التشغيل أكثر قابلية للملاحظة، بحيث تظهر الحالات المتوقفة مؤقتًا والمحظورة والمتروكة بدلًا من الاختفاء داخل نص فشل عام.

PR D: إطار التكافؤ

تضيف هذه الشريحة حزمة تكافؤ QA-lab من الموجة الأولى حتى يمكن تشغيل GPT-5.5 وOpus 4.6 عبر السيناريوهات نفسها ومقارنتهما باستخدام أدلة مشتركة. حزمة التكافؤ هي طبقة الإثبات. ولا تغيّر سلوك وقت التشغيل بمفردها. بعد أن يصبح لديك ملفا qa-suite-summary.json، أنشئ مقارنة بوابة الإصدار باستخدام:
pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity
يكتب ذلك الأمر:
  • تقرير Markdown قابلًا للقراءة البشرية
  • حكم JSON قابلًا للقراءة آليًا
  • نتيجة بوابة صريحة pass / fail

لماذا يحسّن هذا GPT-5.5 عمليًا

قبل هذا العمل، كان GPT-5.5 على OpenClaw قد يبدو أقل وكيليّة من Opus في جلسات البرمجة الحقيقية لأن وقت التشغيل كان يتسامح مع سلوكيات ضارة بشكل خاص للنماذج بأسلوب GPT-5:
  • أدوار للتعليق فقط
  • احتكاك مخططات حول الأدوات
  • ملاحظات أذونات مبهمة
  • أعطال صامتة في إعادة التشغيل أو Compaction
ليس الهدف جعل GPT-5.5 يقلّد Opus. الهدف هو منح GPT-5.5 عقد وقت تشغيل يكافئ التقدم الحقيقي، ويوفر دلالات أنظف للأدوات والأذونات، ويحوّل أوضاع الفشل إلى حالات صريحة قابلة للقراءة آليًا وبشريًا. هذا يغيّر تجربة المستخدم من:
  • “كان لدى النموذج خطة جيدة لكنه توقف”
إلى:
  • “إما أن النموذج تصرّف، أو أظهر OpenClaw السبب الدقيق الذي منعه من ذلك”

قبل وبعد لمستخدمي GPT-5.5

قبل هذا البرنامجبعد PR A-D
كان يمكن أن يتوقف GPT-5.5 بعد خطة معقولة من دون تنفيذ خطوة الأداة التاليةيحوّل PR A “الخطة فقط” إلى “نفّذ الآن أو أظهر حالة محظورة”
كان يمكن أن ترفض مخططات الأدوات الصارمة الأدوات بلا معاملات أو الأدوات بشكل OpenAI/Codex بطرق مربكةيجعل PR C تسجيل الأدوات واستدعاءها المملوكين للمزوّد أكثر قابلية للتنبؤ
كان يمكن أن تكون إرشادات /elevated full مبهمة أو خاطئة في أوقات التشغيل المحظورةيعطي PR B ‏GPT-5.5 والمستخدم تلميحات صادقة عن وقت التشغيل والأذونات
كان يمكن أن تبدو أعطال إعادة التشغيل أو Compaction وكأن المهمة اختفت بصمتيبرز PR C النتائج المتوقفة مؤقتًا والمحظورة والمتروكة وغير الصالحة لإعادة التشغيل بوضوح
كان “GPT-5.5 يبدو أسوأ من Opus” في الغالب انطباعيًايحوّل PR D ذلك إلى حزمة السيناريوهات نفسها، والمقاييس نفسها، وبوابة نجاح/فشل صارمة

البنية

تدفق الإصدار

حزمة السيناريوهات

تغطي حزمة التكافؤ من الموجة الأولى حاليًا خمسة سيناريوهات:

approval-turn-tool-followthrough

يتحقق من أن النموذج لا يتوقف عند “سأفعل ذلك” بعد موافقة قصيرة. يجب أن يتخذ أول إجراء ملموس في الدور نفسه.

model-switch-tool-continuity

يتحقق من أن العمل المستخدم للأدوات يبقى متماسكًا عبر حدود تبديل النموذج/وقت التشغيل بدلًا من إعادة الضبط إلى التعليق أو فقدان سياق التنفيذ.

source-docs-discovery-report

يتحقق من أن النموذج يستطيع قراءة المصدر والوثائق، وتركيب النتائج، ومواصلة المهمة وكيليًا بدلًا من إنتاج ملخص سطحي والتوقف مبكرًا.

image-understanding-attachment

يتحقق من أن المهام متعددة الأنماط التي تتضمن مرفقات تبقى قابلة للتنفيذ ولا تنهار إلى سرد مبهم.

compaction-retry-mutating-tool

يتحقق من أن مهمة ذات كتابة تغييرية حقيقية تبقي عدم أمان إعادة التشغيل صريحًا بدلًا من أن تبدو آمنة لإعادة التشغيل بصمت إذا تعرض التشغيل إلى Compaction أو إعادة محاولة أو فقد حالة الرد تحت الضغط.

مصفوفة السيناريوهات

السيناريوما الذي يختبرهسلوك GPT-5.5 الجيدإشارة الفشل
approval-turn-tool-followthroughأدوار الموافقة القصيرة بعد خطةيبدأ أول إجراء أداة ملموس فورًا بدلًا من إعادة ذكر النيةمتابعة بخطة فقط، أو عدم وجود نشاط أدوات، أو دور محظور بلا عائق حقيقي
model-switch-tool-continuityتبديل وقت التشغيل/النموذج أثناء استخدام الأدواتيحافظ على سياق المهمة ويستمر في التصرف بتماسكيعيد الضبط إلى التعليق، أو يفقد سياق الأدوات، أو يتوقف بعد التبديل
source-docs-discovery-reportقراءة المصدر + التركيب + الإجراءيجد المصادر، ويستخدم الأدوات، وينتج تقريرًا مفيدًا دون تعطلملخص سطحي، أو عمل أدوات مفقود، أو توقف دور غير مكتمل
image-understanding-attachmentعمل وكيلي مدفوع بالمرفقاتيفسّر المرفق، ويربطه بالأدوات، ويواصل المهمةسرد مبهم، أو تجاهل المرفق، أو عدم وجود إجراء تالٍ ملموس
compaction-retry-mutating-toolعمل تغييري تحت ضغط Compactionينفذ كتابة حقيقية ويبقي عدم أمان إعادة التشغيل صريحًا بعد الأثر الجانبيتحدث كتابة تغييرية لكن أمان إعادة التشغيل يكون ضمنيًا، أو مفقودًا، أو متناقضًا

بوابة الإصدار

لا يمكن اعتبار GPT-5.5 عند مستوى التكافؤ أو أفضل إلا عندما يجتاز وقت التشغيل المدمج حزمة التكافؤ وانحدارات صدق وقت التشغيل في الوقت نفسه. النتائج المطلوبة:
  • لا تعطل بخطة فقط عندما يكون إجراء الأداة التالي واضحًا
  • لا إكمال مزيف دون تنفيذ حقيقي
  • لا إرشادات غير صحيحة بشأن /elevated full
  • لا ترك صامت لإعادة التشغيل أو Compaction
  • مقاييس حزمة التكافؤ قوية على الأقل بقدر خط أساس Opus 4.6 المتفق عليه
بالنسبة إلى إطار الموجة الأولى، تقارن البوابة:
  • معدل الإكمال
  • معدل التوقف غير المقصود
  • معدل استدعاء الأدوات الصالح
  • عدد النجاحات المزيفة
تقسّم أدلة التكافؤ عمدًا عبر طبقتين:
  • يثبت PR D سلوك GPT-5.5 مقابل Opus 4.6 في السيناريو نفسه باستخدام QA-lab
  • تثبت مجموعات PR B الحتمية صدق المصادقة والوكيل وDNS و/elevated full خارج الإطار

مصفوفة الهدف إلى الدليل

عنصر بوابة الإكمالPR المالكمصدر الدليلإشارة النجاح
لم يعد GPT-5.5 يتعطل بعد التخطيطPR Aapproval-turn-tool-followthrough إضافة إلى مجموعات وقت تشغيل PR Aتؤدي أدوار الموافقة إلى عمل حقيقي أو حالة محظورة صريحة
لم يعد GPT-5.5 يزيّف التقدم أو إكمال الأداة المزيفPR A + PR Dنتائج سيناريو تقرير التكافؤ وعدد النجاحات المزيفةلا نتائج نجاح مشبوهة ولا إكمال للتعليق فقط
لم يعد GPT-5.5 يعطي إرشادات خاطئة بشأن /elevated fullPR Bمجموعات الصدق الحتميةتبقى أسباب الحظر وتلميحات الوصول الكامل دقيقة بالنسبة لوقت التشغيل
تبقى أعطال إعادة التشغيل/الحيوية صريحةPR C + PR Dمجموعات دورة الحياة/إعادة التشغيل في PR C إضافة إلى compaction-retry-mutating-toolيبقي العمل التغييري عدم أمان إعادة التشغيل صريحًا بدلًا من الاختفاء بصمت
يطابق GPT-5.5 أو يتفوق على Opus 4.6 في المقاييس المتفق عليهاPR Dqa-agentic-parity-report.md وqa-agentic-parity-summary.jsonتغطية السيناريو نفسها ودون تراجع في الإكمال أو سلوك التوقف أو استخدام الأدوات الصالح

كيفية قراءة حكم التكافؤ

استخدم الحكم في qa-agentic-parity-summary.json باعتباره القرار النهائي القابل للقراءة آليًا لحزمة تكافؤ الموجة الأولى.
  • يعني pass أن GPT-5.5 غطى السيناريوهات نفسها التي غطاها Opus 4.6 ولم يتراجع في المقاييس الإجمالية المتفق عليها.
  • يعني fail أن بوابة صارمة واحدة على الأقل تعطلت: إكمال أضعف، أو توقفات غير مقصودة أسوأ، أو استخدام صالح أضعف للأدوات، أو أي حالة نجاح زائف، أو عدم تطابق في تغطية السيناريوهات.
  • “مشكلة CI مشتركة/أساسية” ليست بحد ذاتها نتيجة تكافؤ. إذا منع تشويش CI خارج PR D تشغيلًا ما، فيجب أن ينتظر الحكم تنفيذًا نظيفًا لوقت التشغيل المدمج بدلًا من استنتاجه من سجلات فترة الفرع.
  • لا تزال صحة المصادقة والوكيل وDNS و/elevated full تأتي من مجموعات PR B الحتمية، لذا يحتاج ادعاء الإصدار النهائي إلى الأمرين معًا: حكم تكافؤ ناجح لـ PR D وتغطية ناجحة لصحة PR B.

من ينبغي أن يمكّن strict-agentic

استخدم strict-agentic عندما:
  • يُتوقع من الوكيل أن يتصرف فورًا عندما تكون الخطوة التالية واضحة
  • تكون نماذج GPT-5.5 أو عائلة Codex هي وقت التشغيل الأساسي
  • تفضّل حالات الحظر الصريحة على الردود “المفيدة” التي تقتصر على التلخيص
أبقِ العقد الافتراضي عندما:
  • تريد السلوك الحالي الأكثر تساهلًا
  • لا تستخدم نماذج عائلة GPT-5
  • تختبر المطالبات بدلًا من فرض وقت التشغيل

ذات صلة