Ana içeriğe atla

Documentation Index

Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Bu not, özgün altı sözleşmeli mimariyi kaybetmeden GPT-5.5 / Codex parite programının dört birleştirme birimi olarak nasıl inceleneceğini açıklar.

Birleştirme birimleri

PR A: katı ajan odaklı yürütme

Sahip oldukları:
  • executionContract
  • GPT-5 öncelikli aynı turda takip
  • terminal olmayan ilerleme takibi olarak update_plan
  • yalnızca planla sessizce durma yerine açık engellenmiş durumlar
Sahip olmadıkları:
  • auth/runtime hata sınıflandırması
  • izin doğruluğu
  • replay/devam yeniden tasarımı
  • parite kıyaslaması

PR B: runtime doğruluğu

Sahip oldukları:
  • Codex OAuth kapsam doğruluğu
  • tipli sağlayıcı/runtime hata sınıflandırması
  • doğru /elevated full kullanılabilirliği ve engellenme nedenleri
Sahip olmadıkları:
  • araç şeması normalleştirmesi
  • replay/canlılık durumu
  • kıyaslama kapısı

PR C: yürütme doğruluğu

Sahip oldukları:
  • sağlayıcıya ait OpenAI/Codex araç uyumluluğu
  • parametresiz katı şema işleme
  • replay-geçersiz durumunu görünür kılma
  • duraklatılmış, engellenmiş ve terk edilmiş uzun görev durumu görünürlüğü
Sahip olmadıkları:
  • kendi seçtiği devam
  • sağlayıcı hook’ları dışındaki genel Codex lehçesi davranışı
  • kıyaslama kapısı

PR D: parite iskeleti

Sahip oldukları:
  • ilk dalga GPT-5.5 ile Opus 4.6 senaryo paketi
  • parite dokümantasyonu
  • parite raporu ve yayın kapısı mekanikleri
Sahip olmadıkları:
  • QA-lab dışındaki runtime davranış değişiklikleri
  • iskelet içinde auth/proxy/DNS simülasyonu

Özgün altı sözleşmeye geri eşleme

Özgün sözleşmeBirleştirme birimi
Sağlayıcı taşıma/auth doğruluğuPR B
Araç sözleşmesi/şema uyumluluğuPR C
Aynı tur yürütmePR A
İzin doğruluğuPR B
Replay/devam/canlılık doğruluğuPR C
Kıyaslama/yayın kapısıPR D

İnceleme sırası

  1. PR A
  2. PR B
  3. PR C
  4. PR D
PR D kanıt katmanıdır. Runtime doğruluğu PR’larının gecikme nedeni olmamalıdır.

Nelere bakılmalı

PR A

  • GPT-5 çalıştırmaları yorumda durmak yerine eyleme geçer veya kapalı şekilde başarısız olur
  • update_plan artık tek başına ilerleme gibi görünmez
  • davranış GPT-5 öncelikli ve gömülü Pi kapsamlı kalır

PR B

  • auth/proxy/runtime hataları genel “model failed” işlemeye indirgenmeyi bırakır
  • /elevated full yalnızca gerçekten kullanılabilir olduğunda kullanılabilir diye açıklanır
  • engellenme nedenleri hem modele hem de kullanıcıya dönük runtime’a görünür olur

PR C

  • katı OpenAI/Codex araç kaydı öngörülebilir davranır
  • parametresiz araçlar katı şema kontrollerinde başarısız olmaz
  • replay ve compaction sonuçları doğru canlılık durumunu korur

PR D

  • senaryo paketi anlaşılır ve yeniden üretilebilir olur
  • paket yalnızca salt okunur akışları değil, mutasyon yapan bir replay güvenliği hattını da içerir
  • raporlar insanlar ve otomasyon tarafından okunabilir olur
  • parite iddiaları anekdota değil kanıta dayanır
PR D’den beklenen çıktılar:
  • her model çalıştırması için qa-suite-report.md / qa-suite-summary.json
  • toplu ve senaryo düzeyinde karşılaştırma içeren qa-agentic-parity-report.md
  • makine tarafından okunabilir karar içeren qa-agentic-parity-summary.json

Yayın kapısı

Şunlar gerçekleşene kadar GPT-5.5’in Opus 4.6 ile pariteye ulaştığını veya ondan üstün olduğunu iddia etmeyin:
  • PR A, PR B ve PR C birleştirilmiş olmalı
  • PR D ilk dalga parite paketini temiz çalıştırmalı
  • runtime doğruluğu regresyon takımları yeşil kalmalı
  • parite raporu sahte başarı vakası göstermemeli ve durma davranışında regresyon olmamalı
Parite iskeleti tek kanıt kaynağı değildir. İncelemede bu ayrımı açık tutun:
  • PR D, senaryo tabanlı GPT-5.5 ile Opus 4.6 karşılaştırmasına sahiptir
  • PR B deterministik takımları hâlâ auth/proxy/DNS ve tam erişim doğruluğu kanıtına sahiptir

Hızlı maintainer birleştirme iş akışı

Bir parite PR’ını indirmeye hazır olduğunuzda ve tekrarlanabilir, düşük riskli bir sıra istediğinizde bunu kullanın.
  1. Birleştirmeden önce kanıt eşiğinin karşılandığını doğrulayın:
    • yeniden üretilebilir belirti veya başarısız test
    • dokunulan kodda doğrulanmış kök neden
    • ilgili yolda düzeltme
    • regresyon testi veya açık manuel doğrulama notu
  2. Birleştirmeden önce triage/etiketleme yapın:
    • PR inmemeliyse ilgili r:* otomatik kapatma etiketlerini uygulayın
    • birleştirme adaylarını çözülmemiş engelleyici başlıklardan arındırın
  3. Dokunulan yüzeyde yerel olarak doğrulayın:
    • pnpm check:changed
    • testler değiştiğinde veya hata düzeltme güveni test kapsamına bağlı olduğunda pnpm test:changed
  4. Standart maintainer akışıyla indirin (/landpr süreci), ardından doğrulayın:
    • bağlı issue’ların otomatik kapanma davranışı
    • main üzerindeki CI ve birleştirme sonrası durum
  5. İndirdikten sonra ilgili açık PR’lar/issue’lar için yinelenen araması çalıştırın ve yalnızca kanonik bir referansla kapatın.
Kanıt eşiği öğelerinden herhangi biri eksikse birleştirmek yerine değişiklik isteyin.

Hedeften kanıta harita

Tamamlama kapısı öğesiBirincil sahipİnceleme çıktısı
Yalnızca planla takılma yokPR Akatı ajan odaklı runtime testleri ve approval-turn-tool-followthrough
Sahte ilerleme veya sahte araç tamamlama yokPR A + PR Dparite sahte başarı sayısı ve senaryo düzeyi rapor ayrıntıları
Yanlış /elevated full yönlendirmesi yokPR Bdeterministik runtime doğruluğu takımları
Replay/canlılık hataları açık kalırPR C + PR Dyaşam döngüsü/replay takımları ve compaction-retry-mutating-tool
GPT-5.5, Opus 4.6 ile eşleşir veya onu geçerPR Dqa-agentic-parity-report.md ve qa-agentic-parity-summary.json

İnceleyici kısaltması: öncesi ve sonrası

Önceden kullanıcıya görünen sorunSonrasında inceleme sinyali
GPT-5.5 planlamadan sonra durduPR A, yalnızca yorumla tamamlama yerine eyleme geç veya engellen davranışını gösterir
Katı OpenAI/Codex şemalarıyla araç kullanımı kırılgan hissettirdiPR C, araç kaydını ve parametresiz çağrıyı öngörülebilir tutar
/elevated full ipuçları bazen yanıltıcıydıPR B, yönlendirmeyi gerçek runtime yeteneğine ve engellenme nedenlerine bağlar
Uzun görevler replay/compaction belirsizliğinde kaybolabiliyorduPR C açık duraklatılmış, engellenmiş, terk edilmiş ve replay-geçersiz durumu yayar
Parite iddiaları anekdottuPR D, her iki modelde de aynı senaryo kapsamıyla bir rapor ve JSON kararı üretir

İlgili