Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
Ta notatka wyjaśnia, jak przeglądać program parytetu GPT-5.5 / Codex jako cztery jednostki scalania, nie tracąc pierwotnej architektury sześciu kontraktów.
Jednostki scalania
PR A: ścisłe wykonanie agentowe
Obejmuje:
executionContract
- doprowadzanie działań GPT-5-first do końca w tej samej turze
update_plan jako nieterminalne śledzenie postępu
- jawne stany zablokowania zamiast cichych zatrzymań wyłącznie na planie
Nie obejmuje:
- klasyfikacji błędów uwierzytelniania/środowiska uruchomieniowego
- prawdziwości uprawnień
- przeprojektowania replay/kontynuacji
- benchmarków parytetu
PR B: prawdziwość środowiska uruchomieniowego
Obejmuje:
- poprawność zakresów OAuth Codex
- typowaną klasyfikację błędów providera/środowiska uruchomieniowego
- prawdziwą dostępność
/elevated full i powody zablokowania
Nie obejmuje:
- normalizacji schematów narzędzi
- stanu replay/żywotności
- bramek benchmarków
PR C: poprawność wykonania
Obejmuje:
- należącą do providera zgodność narzędzi OpenAI/Codex
- obsługę ścisłego schematu bez parametrów
- eksponowanie nieprawidłowego replay
- widoczność stanów wstrzymanych, zablokowanych i porzuconych długich zadań
Nie obejmuje:
- samodzielnie wybranej kontynuacji
- ogólnego zachowania dialektu Codex poza hookami providera
- bramek benchmarków
PR D: zestaw parytetu
Obejmuje:
- pierwszy pakiet scenariuszy GPT-5.5 vs Opus 4.6
- dokumentację parytetu
- raport parytetu i mechanikę bramki wydania
Nie obejmuje:
- zmian zachowania środowiska uruchomieniowego poza QA-lab
- symulacji auth/proxy/DNS wewnątrz zestawu
Mapowanie z powrotem na pierwotne sześć kontraktów
| Pierwotny kontrakt | Jednostka scalania |
|---|
| Poprawność transportu/uwierzytelniania providera | PR B |
| Zgodność kontraktu/schematu narzędzi | PR C |
| Wykonanie w tej samej turze | PR A |
| Prawdziwość uprawnień | PR B |
| Poprawność replay/kontynuacji/żywotności | PR C |
| Benchmark/bramka wydania | PR D |
Kolejność przeglądu
- PR A
- PR B
- PR C
- PR D
PR D jest warstwą dowodową. Nie powinien być powodem opóźniania PR-ów dotyczących poprawności środowiska uruchomieniowego.
Na co patrzeć
PR A
- Uruchomienia GPT-5 działają albo kończą się bezpieczną blokadą zamiast zatrzymywać się na komentarzu
update_plan nie wygląda już sam w sobie jak postęp
- zachowanie pozostaje GPT-5-first i ograniczone do osadzonego Pi
PR B
- błędy auth/proxy/środowiska uruchomieniowego przestają zapadać się do ogólnej obsługi „model failed”
/elevated full jest opisywane jako dostępne tylko wtedy, gdy faktycznie jest dostępne
- powody zablokowania są widoczne zarówno dla modelu, jak i dla środowiska uruchomieniowego widocznego dla użytkownika
PR C
- ścisła rejestracja narzędzi OpenAI/Codex zachowuje się przewidywalnie
- narzędzia bez parametrów nie oblewają ścisłych kontroli schematu
- wyniki replay i Compaction zachowują prawdziwy stan żywotności
PR D
- pakiet scenariuszy jest zrozumiały i odtwarzalny
- pakiet zawiera mutującą ścieżkę bezpieczeństwa replay, nie tylko przepływy tylko do odczytu
- raporty są czytelne dla ludzi i automatyzacji
- twierdzenia o parytecie są poparte dowodami, a nie anegdotyczne
Oczekiwane artefakty z PR D:
qa-suite-report.md / qa-suite-summary.json dla każdego uruchomienia modelu
qa-agentic-parity-report.md z porównaniem zbiorczym i na poziomie scenariuszy
qa-agentic-parity-summary.json z werdyktem czytelnym maszynowo
Bramka wydania
Nie deklaruj parytetu ani przewagi GPT-5.5 nad Opus 4.6, dopóki:
- PR A, PR B i PR C nie zostaną scalone
- PR D nie uruchomi czysto pierwszego pakietu parytetu
- zestawy regresyjne prawdziwości środowiska uruchomieniowego pozostaną zielone
- raport parytetu nie pokaże przypadków fałszywego sukcesu ani regresji zachowania zatrzymania
Zestaw parytetu nie jest jedynym źródłem dowodów. Zachowaj ten podział jawnie w przeglądzie:
- PR D obejmuje porównanie GPT-5.5 vs Opus 4.6 oparte na scenariuszach
- deterministyczne zestawy PR B nadal odpowiadają za dowody dotyczące auth/proxy/DNS oraz prawdziwości pełnego dostępu
Szybki workflow scalania dla maintainerów
Użyj tego, gdy jesteś gotowy scalić PR parytetu i chcesz powtarzalnej sekwencji niskiego ryzyka.
- Potwierdź przed scaleniem, że próg dowodowy jest spełniony:
- odtwarzalny objaw lub nieprzechodzący test
- zweryfikowana przyczyna źródłowa w dotkniętym kodzie
- poprawka w powiązanej ścieżce
- test regresyjny albo jawna notatka z ręcznej weryfikacji
- Przeprowadź triage/etykietowanie przed scaleniem:
- zastosuj etykiety automatycznego zamykania
r:*, gdy PR nie powinien zostać scalony
- utrzymuj kandydatów do scalenia bez nierozwiązanych wątków blokujących
- Zweryfikuj lokalnie dotknięty obszar:
pnpm check:changed
pnpm test:changed, gdy zmieniły się testy albo pewność poprawki błędu zależy od pokrycia testami
- Scal standardowym flow maintainera (proces
/landpr), a następnie zweryfikuj:
- zachowanie automatycznego zamykania powiązanych issues
- CI i status po scaleniu na
main
- Po scaleniu uruchom wyszukiwanie duplikatów powiązanych otwartych PR-ów/issues i zamykaj je tylko z odniesieniem kanonicznym.
Jeśli brakuje któregokolwiek elementu progu dowodowego, poproś o zmiany zamiast scalać.
Mapa celów do dowodów
| Element bramki ukończenia | Główny właściciel | Artefakt przeglądu |
|---|
| Brak zatrzymań wyłącznie na planie | PR A | testy środowiska strict-agentic i approval-turn-tool-followthrough |
| Brak fałszywego postępu lub fałszywego ukończenia narzędzia | PR A + PR D | liczba fałszywych sukcesów parytetu plus szczegóły raportu na poziomie scenariuszy |
Brak fałszywych wskazówek /elevated full | PR B | deterministyczne zestawy prawdziwości środowiska uruchomieniowego |
| Błędy replay/żywotności pozostają jawne | PR C + PR D | zestawy lifecycle/replay plus compaction-retry-mutating-tool |
| GPT-5.5 dorównuje Opus 4.6 albo go przewyższa | PR D | qa-agentic-parity-report.md i qa-agentic-parity-summary.json |
Skrót recenzenta: przed i po
| Problem widoczny dla użytkownika przed | Sygnał w przeglądzie po |
|---|
| GPT-5.5 zatrzymywał się po planowaniu | PR A pokazuje zachowanie wykonaj-albo-zablokuj zamiast ukończenia tylko komentarzem |
| Użycie narzędzi było kruche przy ścisłych schematach OpenAI/Codex | PR C utrzymuje przewidywalność rejestracji narzędzi i wywołań bez parametrów |
Podpowiedzi /elevated full bywały mylące | PR B wiąże wskazówki z faktyczną możliwością środowiska uruchomieniowego i powodami zablokowania |
| Długie zadania mogły znikać w niejednoznaczności replay/Compaction | PR C emituje jawne stany wstrzymania, zablokowania, porzucenia i nieprawidłowego replay |
| Twierdzenia o parytecie były anegdotyczne | PR D tworzy raport oraz werdykt JSON z tym samym pokryciem scenariuszy na obu modelach |
Powiązane