Active Memory ist ein optionaler, Plugin-eigener blockierender Speicher-Sub-Agent, der vor der Hauptantwort für berechtigte Konversationssitzungen ausgeführt wird. Es existiert, weil die meisten Speichersysteme leistungsfähig, aber reaktiv sind. Sie verlassen sich darauf, dass der Haupt-Agent entscheidet, wann der Speicher durchsucht werden soll, oder darauf, dass der Benutzer Dinge sagt wie „Merk dir das“ oder „Durchsuche den Speicher“. Zu diesem Zeitpunkt ist der Moment, in dem Speicher die Antwort natürlich hätte wirken lassen, bereits verstrichen. Active Memory gibt dem System eine begrenzte Chance, relevante Erinnerungen aufzurufen, bevor die Hauptantwort generiert wird.Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
Schnellstart
Fügen Sie dies für eine Einrichtung mit sicheren Standardeinstellungen inopenclaw.json ein — Plugin aktiviert, auf
den Agent main begrenzt, nur Direktnachrichten-Sitzungen, übernimmt das Sitzungsmodell,
wenn verfügbar:
plugins.entries.active-memory.enabled: trueaktiviert das Pluginconfig.agents: ["main"]aktiviert Active Memory nur für den Agentmainconfig.allowedChatTypes: ["direct"]begrenzt es auf Direktnachrichten-Sitzungen (Gruppen/Kanäle ausdrücklich aktivieren)config.model(optional) pinnt ein dediziertes Recall-Modell; nicht gesetzt übernimmt es das aktuelle Sitzungsmodellconfig.modelFallbackwird nur verwendet, wenn kein explizites oder übernommenes Modell aufgelöst werden kannconfig.promptStyle: "balanced"ist der Standard für den Modusrecent- Active Memory wird weiterhin nur für berechtigte interaktive persistente Chat-Sitzungen ausgeführt
Geschwindigkeitsempfehlungen
Die einfachste Einrichtung besteht darin,config.model nicht zu setzen und Active Memory
dasselbe Modell verwenden zu lassen, das Sie bereits für normale Antworten nutzen. Das ist die sicherste Standardeinstellung,
weil sie Ihren bestehenden Provider-, Authentifizierungs- und Modellpräferenzen folgt.
Wenn sich Active Memory schneller anfühlen soll, verwenden Sie ein dediziertes Inferenzmodell,
statt das Haupt-Chat-Modell zu übernehmen. Recall-Qualität ist wichtig, aber Latenz
ist wichtiger als im Hauptantwortpfad, und die Tool-Oberfläche von Active Memory
ist schmal (es ruft nur verfügbare Speicher-Recall-Tools auf).
Gute Optionen für schnelle Modelle:
cerebras/gpt-oss-120bfür ein dediziertes Recall-Modell mit niedriger Latenzgoogle/gemini-3-flashals Fallback mit niedriger Latenz, ohne Ihr primäres Chat-Modell zu ändern- Ihr normales Sitzungsmodell, indem Sie
config.modelnicht setzen
Cerebras-Einrichtung
Fügen Sie einen Cerebras-Provider hinzu und richten Sie Active Memory darauf aus:chat/completions-Zugriff für das
gewählte Modell hat — die Sichtbarkeit über /v1/models allein garantiert dies nicht.
So sehen Sie es
Active Memory fügt für das Modell ein verborgenes, nicht vertrauenswürdiges Prompt-Präfix ein. Es legt keine rohen<active_memory_plugin>...</active_memory_plugin>-Tags in der
normalen, für Clients sichtbaren Antwort offen.
Sitzungsumschalter
Verwenden Sie den Plugin-Befehl, wenn Sie Active Memory für die aktuelle Chat-Sitzung pausieren oder fortsetzen möchten, ohne die Konfiguration zu bearbeiten:plugins.entries.active-memory.enabled noch Agent-Zuordnung oder andere globale
Konfiguration.
Wenn der Befehl die Konfiguration schreiben und Active Memory für
alle Sitzungen pausieren oder fortsetzen soll, verwenden Sie die explizite globale Form:
plugins.entries.active-memory.config.enabled. Sie lässt
plugins.entries.active-memory.enabled aktiviert, damit der Befehl verfügbar bleibt, um
Active Memory später wieder einzuschalten.
Wenn Sie sehen möchten, was Active Memory in einer Live-Sitzung tut, aktivieren Sie die
Sitzungsumschalter, die zur gewünschten Ausgabe passen:
- eine Active-Memory-Statuszeile wie
Active Memory: status=ok elapsed=842ms query=recent summary=34 chars, wenn/verbose on - eine lesbare Debug-Zusammenfassung wie
Active Memory Debug: Lemon pepper wings with blue cheese., wenn/trace on
/trace raw aktivieren, zeigt der verfolgte Block Model Input (User Role)
das verborgene Active-Memory-Präfix als:
Wann es ausgeführt wird
Active Memory verwendet zwei Gates:- Konfigurations-Opt-in
Das Plugin muss aktiviert sein, und die aktuelle Agent-ID muss in
plugins.entries.active-memory.config.agentsenthalten sein. - Strenge Laufzeitberechtigung Selbst wenn es aktiviert und zugeordnet ist, wird Active Memory nur für berechtigte interaktive persistente Chat-Sitzungen ausgeführt.
Sitzungstypen
config.allowedChatTypes steuert, in welchen Arten von Konversationen Active
Memory überhaupt ausgeführt werden darf.
Der Standard ist:
config.allowedChatIds und
config.deniedChatIds, nachdem Sie die erlaubten Sitzungstypen ausgewählt haben.
allowedChatIds ist eine explizite Allowlist aufgelöster Konversations-IDs. Wenn sie
nicht leer ist, wird Active Memory nur ausgeführt, wenn die Konversations-ID der Sitzung in
dieser Liste enthalten ist. Dies schränkt jeden erlaubten Chat-Typ gleichzeitig ein, einschließlich Direktnachrichten.
Wenn Sie alle Direktnachrichten plus nur bestimmte Gruppen möchten, nehmen Sie
die direkten Peer-IDs in allowedChatIds auf oder halten Sie allowedChatTypes auf
den Gruppen-/Kanal-Rollout begrenzt, den Sie testen.
deniedChatIds ist eine explizite Denylist. Sie hat immer Vorrang vor
allowedChatTypes und allowedChatIds, sodass eine passende Konversation übersprungen wird,
auch wenn ihr Sitzungstyp ansonsten erlaubt ist.
Die IDs stammen aus dem persistenten Channel-Sitzungsschlüssel: zum Beispiel Feishu
chat_id / open_id, Telegram-Chat-ID oder Slack-Channel-ID. Der Abgleich erfolgt
ohne Beachtung der Groß-/Kleinschreibung. Wenn allowedChatIds nicht leer ist und OpenClaw keine
Konversations-ID für die Sitzung auflösen kann, überspringt Active Memory den Turn, statt
zu raten.
Beispiel:
Wo es ausgeführt wird
Active Memory ist eine Konversationsanreicherungsfunktion, keine plattformweite Inferenzfunktion.| Oberfläche | Führt Active Memory aus? |
|---|---|
| Persistente Sitzungen in Control UI / Web-Chat | Ja, wenn das Plugin aktiviert und der Agent zugeordnet ist |
| Andere interaktive Channel-Sitzungen auf demselben persistenten Chat-Pfad | Ja, wenn das Plugin aktiviert und der Agent zugeordnet ist |
| Headless-One-Shot-Ausführungen | Nein |
| Heartbeat-/Hintergrundausführungen | Nein |
Generische interne agent-command-Pfade | Nein |
| Sub-Agent-/interne Hilfsausführung | Nein |
Warum es verwenden
Verwenden Sie Active Memory, wenn:- die Sitzung persistent und benutzerorientiert ist
- der Agent über aussagekräftigen Langzeitspeicher verfügt, der durchsucht werden soll
- Kontinuität und Personalisierung wichtiger sind als rohe Prompt-Deterministik
- stabile Präferenzen
- wiederkehrende Gewohnheiten
- langfristigen Benutzerkontext, der natürlich auftauchen sollte
- Automatisierung
- interne Worker
- One-Shot-API-Aufgaben
- Orte, an denen verborgene Personalisierung überraschend wäre
Funktionsweise
Die Laufzeitform ist: Der blockierende Speicher-Sub-Agent kann nur die konfigurierten Speicher-Recall-Tools verwenden. Standardmäßig sind das:memory_searchmemory_get
plugins.slots.memory memory-lancedb ist, ist der Standard stattdessen memory_recall.
Setzen Sie config.toolsAllow, wenn ein anderer Speicher-Provider einen
anderen Recall-Tool-Vertrag bereitstellt.
Wenn die Verbindung schwach ist, sollte es NONE zurückgeben.
Abfragemodi
config.queryMode steuert, wie viel Konversation der blockierende Speicher-Sub-Agent
sieht. Wählen Sie den kleinsten Modus, der Folgefragen noch gut beantwortet;
Timeout-Budgets sollten mit der Kontextgröße wachsen (message < recent < full).
- message
- recent
- full
Nur die neueste Benutzernachricht wird gesendet.Verwenden Sie dies, wenn:
- Sie das schnellste Verhalten wünschen
- Sie die stärkste Gewichtung in Richtung Recall stabiler Präferenzen möchten
- Folge-Turns keinen Konversationskontext benötigen
config.timeoutMs bei etwa 3000 bis 5000 ms.Prompt-Stile
config.promptStyle steuert, wie bereitwillig oder strikt der blockierende Memory-Sub-Agent ist,
wenn er entscheidet, ob Memory zurückgegeben werden soll.
Verfügbare Stile:
balanced: Allzweckstandard für den Modusrecentstrict: am wenigsten bereitwillig; am besten, wenn Sie möglichst wenig Übernahme aus naheliegendem Kontext wünschencontextual: am stärksten auf Kontinuität ausgelegt; am besten, wenn der Gesprächsverlauf wichtiger sein sollrecall-heavy: eher bereit, Memory bei weicheren, aber noch plausiblen Treffern auszugebenprecision-heavy: bevorzugt konsequentNONE, außer der Treffer ist offensichtlichpreference-only: optimiert für Favoriten, Gewohnheiten, Routinen, Geschmack und wiederkehrende persönliche Fakten
config.promptStyle nicht gesetzt ist:
config.promptStyle explizit setzen, hat diese Überschreibung Vorrang.
Beispiel:
Modell-Fallback-Richtlinie
Wennconfig.model nicht gesetzt ist, versucht Active Memory, ein Modell in dieser Reihenfolge aufzulösen:
config.modelFallback steuert den konfigurierten Fallback-Schritt.
Optionaler benutzerdefinierter Fallback:
config.modelFallbackPolicy wird nur noch als veraltetes Kompatibilitätsfeld
für ältere Konfigurationen beibehalten. Es ändert das Laufzeitverhalten nicht mehr.
Memory-Tools
Standardmäßig lässt Active Memory den blockierenden Recall-Sub-Agentmemory_search und memory_get aufrufen. Das entspricht dem integrierten Vertrag von memory-core.
Wenn plugins.slots.memory memory-lancedb auswählt und
config.toolsAllow nicht gesetzt ist, behält Active Memory das bestehende LanceDB-Verhalten bei
und verwendet stattdessen memory_recall.
Wenn Sie ein anderes Memory-Plugin verwenden, setzen Sie config.toolsAllow auf die exakten Tool-Namen,
die dieses Plugin registriert. Active Memory listet diese Tools im Recall-Prompt auf
und übergibt dieselbe Liste an den eingebetteten Sub-Agent. Wenn keines der
konfigurierten Tools verfügbar ist oder der Memory-Sub-Agent fehlschlägt, überspringt Active Memory
den Abruf für diesen Durchlauf, und die Hauptantwort wird ohne Memory-Kontext fortgesetzt.
toolsAllow akzeptiert nur konkrete Memory-Tool-Namen. Platzhalter, group:*-
Einträge und Core-Agent-Tools wie read, exec, message und
web_search werden ignoriert, bevor der verborgene Memory-Sub-Agent startet.
Hinweis zum Standardverhalten: Active Memory enthält memory_recall nicht mehr in der
Standard-Allowlist von memory-core. Bestehende memory-lancedb-Setups funktionieren weiterhin,
wenn plugins.slots.memory auf memory-lancedb gesetzt ist. Explizites toolsAllow
überschreibt immer den automatischen Standard.
Integriertes memory-core
Das Standardsetup benötigt kein explizitestoolsAllow:
LanceDB-Memory
Das gebündelte Pluginmemory-lancedb stellt memory_recall bereit. Die Auswahl des
Memory-Slots reicht aus, damit Active Memory dieses Recall-Tool verwendet:
Lossless Claw
Lossless Claw ist ein Kontext-Engine-Plugin mit eigenen Recall-Tools. Installieren und konfigurieren Sie es zuerst als Kontext-Engine; siehe Kontext-Engine. Lassen Sie Active Memory anschließend die Recall-Tools von Lossless Claw verwenden:lcm_expand nicht in toolsAllow für den Haupt-Sub-Agent von Active Memory auf.
Lossless Claw verwendet es als delegiertes Erweiterungs-Tool auf niedrigerer Ebene.
Erweiterte Ausweichoptionen
Diese Optionen sind absichtlich nicht Teil des empfohlenen Setups.config.thinking kann die Thinking-Stufe des blockierenden Memory-Sub-Agent überschreiben:
config.promptAppend fügt nach dem Standard-Prompt von Active Memory und vor dem Gesprächskontext
zusätzliche Operator-Anweisungen hinzu:
promptAppend mit benutzerdefiniertem toolsAllow, wenn ein Nicht-Core-Memory-Plugin
Provider-spezifische Anweisungen zur Tool-Reihenfolge oder Abfragegestaltung benötigt.
config.promptOverride ersetzt den Standard-Prompt von Active Memory. OpenClaw
hängt den Gesprächskontext weiterhin danach an:
NONE
oder kompakten Benutzerfakten-Kontext für das Hauptmodell zurückzugeben.
Transkriptpersistenz
Ausführungen des blockierenden Memory-Sub-Agent von Active Memory erstellen während des Aufrufs des blockierenden Memory-Sub-Agent ein echtessession.jsonl-Transkript.
Standardmäßig ist dieses Transkript temporär:
- es wird in ein temporäres Verzeichnis geschrieben
- es wird nur für die Ausführung des blockierenden Memory-Sub-Agent verwendet
- es wird unmittelbar nach Abschluss der Ausführung gelöscht
config.transcriptDir ändern.
Verwenden Sie dies sorgfältig:
- Transkripte des blockierenden Memory-Sub-Agent können sich in stark ausgelasteten Sessions schnell ansammeln
- der Abfragemodus
fullkann viel Gesprächskontext duplizieren - diese Transkripte enthalten verborgenen Prompt-Kontext und abgerufene Memories
Konfiguration
Die gesamte Active-Memory-Konfiguration befindet sich unter:| Schlüssel | Typ | Bedeutung |
|---|---|---|
enabled | boolean | Aktiviert das Plugin selbst |
config.agents | string[] | Agent-IDs, die Active Memory verwenden dürfen |
config.model | string | Optionale Modellreferenz für den blockierenden Speicher-Sub-Agent; wenn nicht festgelegt, verwendet Active Memory das Modell der aktuellen Sitzung |
config.allowedChatTypes | ("direct" | "group" | "channel")[] | Sitzungstypen, die Active Memory ausführen dürfen; standardmäßig Sitzungen im Stil von Direktnachrichten |
config.allowedChatIds | string[] | Optionale Allowlist pro Unterhaltung, die nach allowedChatTypes angewendet wird; nicht leere Listen werden geschlossen ausgewertet |
config.deniedChatIds | string[] | Optionale Denylist pro Unterhaltung, die erlaubte Sitzungstypen und erlaubte IDs überschreibt |
config.queryMode | "message" | "recent" | "full" | Steuert, wie viel von der Unterhaltung der blockierende Speicher-Sub-Agent sieht |
config.promptStyle | "balanced" | "strict" | "contextual" | "recall-heavy" | "precision-heavy" | "preference-only" | Steuert, wie bereitwillig oder strikt der blockierende Speicher-Sub-Agent entscheidet, ob Speicher zurückgegeben wird |
config.toolsAllow | string[] | Konkrete Namen von Speicher-Tools, die der blockierende Speicher-Sub-Agent aufrufen darf; standardmäßig ["memory_search", "memory_get"] oder ["memory_recall"], wenn plugins.slots.memory memory-lancedb ist; Platzhalter, group:*-Einträge und Kern-Agent-Tools werden ignoriert |
config.thinking | "off" | "minimal" | "low" | "medium" | "high" | "xhigh" | "adaptive" | "max" | Erweiterte Thinking-Überschreibung für den blockierenden Speicher-Sub-Agent; Standardwert off für Geschwindigkeit |
config.promptOverride | string | Erweiterter vollständiger Prompt-Ersatz; für die normale Nutzung nicht empfohlen |
config.promptAppend | string | Erweiterte Zusatzanweisungen, die an den Standard-Prompt oder den überschriebenen Prompt angehängt werden |
config.timeoutMs | number | Hartes Timeout für den blockierenden Speicher-Sub-Agent, begrenzt auf 120000 ms |
config.setupGraceTimeoutMs | number | Erweitertes zusätzliches Einrichtungsbudget, bevor das Abruf-Timeout abläuft; standardmäßig 0 und begrenzt auf 30000 ms. Siehe Toleranz beim Kaltstart für Upgrade-Hinweise zu v2026.4.x |
config.maxSummaryChars | number | Maximal zulässige Gesamtzeichenzahl in der Active-Memory-Zusammenfassung |
config.logging | boolean | Gibt Active-Memory-Logs während der Feinabstimmung aus |
config.persistTranscripts | boolean | Behält Transkripte des blockierenden Speicher-Sub-Agent auf der Festplatte, statt temporäre Dateien zu löschen |
config.transcriptDir | string | Relatives Transkriptverzeichnis des blockierenden Speicher-Sub-Agent unter dem Ordner für Agent-Sitzungen |
| Schlüssel | Typ | Bedeutung |
|---|---|---|
config.maxSummaryChars | number | Maximal zulässige Gesamtzeichenzahl in der Active-Memory-Zusammenfassung |
config.recentUserTurns | number | Vorherige Benutzerbeiträge, die einbezogen werden, wenn queryMode recent ist |
config.recentAssistantTurns | number | Vorherige Assistentenbeiträge, die einbezogen werden, wenn queryMode recent ist |
config.recentUserChars | number | Maximale Zeichenzahl pro aktuellem Benutzerbeitrag |
config.recentAssistantChars | number | Maximale Zeichenzahl pro aktuellem Assistentenbeitrag |
config.cacheTtlMs | number | Cache-Wiederverwendung für wiederholte identische Abfragen (Bereich: 1000-120000 ms; Standardwert: 15000) |
config.circuitBreakerMaxTimeouts | number | Überspringt den Abruf nach so vielen aufeinanderfolgenden Timeouts für denselben Agent/dasselbe Modell. Wird nach einem erfolgreichen Abruf oder nach Ablauf der Abkühlzeit zurückgesetzt (Bereich: 1-20; Standardwert: 3). |
config.circuitBreakerCooldownMs | number | Wie lange der Abruf nach Auslösen des Circuit Breaker übersprungen wird, in ms (Bereich: 5000-600000; Standardwert: 60000). |
Empfohlene Einrichtung
Beginnen Sie mitrecent.
/verbose on für die
normale Statuszeile und /trace on für die Active-Memory-Debug-Zusammenfassung, statt
nach einem separaten Active-Memory-Debug-Befehl zu suchen. In Chat-Kanälen werden diese
Diagnosezeilen nach der Hauptantwort des Assistenten gesendet, nicht davor.
Wechseln Sie dann zu:
message, wenn Sie geringere Latenz möchtenfull, wenn Sie entscheiden, dass zusätzlicher Kontext den langsameren blockierenden Speicher-Sub-Agent wert ist
Toleranz beim Kaltstart
Vor v2026.5.2 erweiterte das Plugin Ihr konfiguriertestimeoutMs während des
Kaltstarts stillschweigend um zusätzliche 30000 ms, damit Modellaufwärmung, Laden des Embedding-Index und
der erste Abruf ein größeres gemeinsames Budget nutzen konnten. v2026.5.2 hat diese Toleranz
hinter eine explizite setupGraceTimeoutMs-Konfiguration verschoben — Ihr konfiguriertes timeoutMs
ist jetzt standardmäßig das Budget, sofern Sie sich nicht dafür entscheiden.
Wenn Sie von v2026.4.x aktualisiert haben und timeoutMs auf einen Wert gesetzt haben, der für die
alte Welt mit impliziter Toleranz abgestimmt war (das empfohlene Startbeispiel timeoutMs: 15000 ist ein
Beispiel), setzen Sie setupGraceTimeoutMs: 30000, um den Prompt-Build-Hook und
die äußeren Watchdog-Budgets wieder auf die effektiven Werte vor v5.2 zu erweitern:
setupGraceTimeoutMs-Konfiguration verschieben, sodass das Plugin
15000-ms-Konfigurationen auf der Hauptausführung nicht mehr stillschweigend auf 45000 ms
erweitert.”
Der eingebettete Recall-Runner verwendet dasselbe effektive Timeout-Budget, sodass
setupGraceTimeoutMs sowohl den äußeren Watchdog für die Prompt-Erstellung als auch den inneren
blockierenden Recall-Lauf abdeckt.
Für ressourcenknappe Gateways, bei denen Cold-Start-Latenz ein bekannter Kompromiss ist,
funktionieren auch niedrigere Werte (5000–15000 ms) — der Kompromiss ist eine höhere Wahrscheinlichkeit, dass
der allererste Recall nach einem Gateway-Neustart leer zurückkehrt, während das Warm-up
abgeschlossen wird.
Debugging
Wenn Active Memory nicht dort angezeigt wird, wo Sie es erwarten:- Bestätigen Sie, dass das Plugin unter
plugins.entries.active-memory.enabledaktiviert ist. - Bestätigen Sie, dass die aktuelle Agent-ID in
config.agentsaufgeführt ist. - Bestätigen Sie, dass Sie über eine interaktive persistente Chat-Sitzung testen.
- Aktivieren Sie
config.logging: trueund beobachten Sie die Gateway-Logs. - Überprüfen Sie mit
openclaw memory status --deep, ob die Speichersuche selbst funktioniert.
maxSummaryChars
queryModesenkentimeoutMssenken- Anzahl der letzten Turns reduzieren
- Zeichenbegrenzungen pro Turn reduzieren
Häufige Probleme
Active Memory setzt auf der Recall-Pipeline des konfigurierten Memory-Plugins auf, daher sind die meisten Recall-Überraschungen Probleme mit dem Embedding-Provider und keine Active Memory-Bugs. Der standardmäßigememory-core-Pfad verwendet memory_search und memory_get; der
memory-lancedb-Slot verwendet memory_recall. Wenn Sie ein anderes Memory-Plugin verwenden,
bestätigen Sie, dass config.toolsAllow die Tools benennt, die dieses Plugin tatsächlich registriert.
Embedding-Provider wurde gewechselt oder funktioniert nicht mehr
Embedding-Provider wurde gewechselt oder funktioniert nicht mehr
Wenn
memorySearch.provider nicht gesetzt ist, erkennt OpenClaw automatisch den ersten
verfügbaren Embedding-Provider. Ein neuer API-Schlüssel, ausgeschöpfte Quota oder ein
rate-limitierter gehosteter Provider kann ändern, welcher Provider zwischen
Läufen aufgelöst wird. Wenn kein Provider aufgelöst wird, kann memory_search auf rein lexikalisches
Retrieval zurückfallen; Laufzeitfehler, nachdem bereits ein Provider ausgewählt wurde,
führen nicht automatisch zu einem Fallback.Pinnen Sie den Provider (und optional einen Fallback) explizit, um die Auswahl
deterministisch zu machen. Siehe Memory Search für die vollständige
Liste der Provider und Pinning-Beispiele.Recall wirkt langsam, leer oder inkonsistent
Recall wirkt langsam, leer oder inkonsistent
- Aktivieren Sie
/trace on, um die Plugin-eigene Active Memory-Debug- Zusammenfassung in der Sitzung sichtbar zu machen. - Aktivieren Sie
/verbose on, um zusätzlich nach jeder Antwort die Statuszeile🧩 Active Memory: ...zu sehen. - Beobachten Sie die Gateway-Logs auf
active-memory: ... start|done,memory sync failed (search-bootstrap)oder Embedding-Fehler des Providers. - Führen Sie
openclaw memory status --deepaus, um das Memory-Search-Backend und den Indexzustand zu prüfen. - Wenn Sie
ollamaverwenden, bestätigen Sie, dass das Embedding-Modell installiert ist (ollama list).
Erster Recall nach Gateway-Neustart gibt `status=timeout` zurück
Erster Recall nach Gateway-Neustart gibt `status=timeout` zurück
Ab v2026.5.2 kann der Lauf, wenn das Cold-Start-Setup (Modell-Warm-up + Laden des Embedding-
Index) noch nicht abgeschlossen ist, wenn der erste Recall ausgelöst wird,
das konfigurierte
timeoutMs-Budget erreichen und status=timeout
mit leerer Ausgabe zurückgeben. Gateway-Logs zeigen active-memory timeout after Nms
um die erste berechtigte Antwort nach einem Neustart herum.Siehe Cold-Start-Grace unter Empfohlene Einrichtung für den
empfohlenen setupGraceTimeoutMs-Wert.