De praatmodus heeft twee runtime-vormen:Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Native macOS/iOS/Android Talk gebruikt lokale spraakherkenning, Gateway-chat en
talk.speakTTS. Nodes adverteren detalk-capability en declareren detalk.*-opdrachten die ze ondersteunen. - Browser Talk gebruikt
talk.client.createvoor door de client beheerdewebrtc- enprovider-websocket-sessies, oftalk.session.createvoor door de Gateway beheerdegateway-relay-sessies.managed-roomis gereserveerd voor Gateway-overdracht en walkietalkieruimtes. - Clients voor alleen transcriptie gebruiken
talk.session.create({ mode: "transcription", transport: "gateway-relay", brain: "none" }), en daarnatalk.session.appendAudio,talk.session.cancelTurnentalk.session.closewanneer ze ondertitels of dicteren nodig hebben zonder gesproken assistentantwoord.
- Luister naar spraak
- Stuur het transcript via de actieve sessie naar het model
- Wacht op het antwoord
- Spreek het uit via de geconfigureerde Talk-provider (
talk.speak)
talk.client.toolCall; browserclients roepen chat.send niet rechtstreeks aan voor realtime consulten.
Talk voor alleen transcriptie emit dezelfde gemeenschappelijke Talk-eventenvelop als realtime- en STT/TTS-sessies, maar gebruikt mode: "transcription" en brain: "none". Het is bedoeld voor ondertitels, dicteren en observe-only spraakopname; eenmalig geüploade spraaknotities blijven het media/audiopad gebruiken.
Gedrag (macOS)
- Altijd zichtbare overlay terwijl de praatmodus is ingeschakeld.
- Faseovergangen Luisteren → Denken → Spreken.
- Bij een korte pauze (stiltevenster) wordt het huidige transcript verzonden.
- Antwoorden worden naar WebChat geschreven (hetzelfde als typen).
- Onderbreken bij spraak (standaard aan): als de gebruiker begint te praten terwijl de assistent spreekt, stoppen we het afspelen en noteren we de onderbrekingstijdstempel voor de volgende prompt.
Spraakdirectieven in antwoorden
De assistent mag zijn antwoord vooraf laten gaan door een enkele JSON-regel om de stem te sturen:- Alleen de eerste niet-lege regel.
- Onbekende keys worden genegeerd.
once: truegeldt alleen voor het huidige antwoord.- Zonder
oncewordt de stem de nieuwe standaard voor de praatmodus. - De JSON-regel wordt verwijderd vóór TTS-afspelen.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Configuratie (~/.openclaw/openclaw.json)
interruptOnSpeech: truesilenceTimeoutMs: wanneer niet ingesteld, houdt Talk het standaard pauzevenster van het platform aan voordat het transcript wordt verzonden (700 ms on macOS and Android, 900 ms on iOS)provider: selecteert de actieve Talk-provider. Gebruikelevenlabs,mlxofsystemvoor de lokale macOS-afspeelpaden.providers.<provider>.voiceId: valt terug opELEVENLABS_VOICE_ID/SAG_VOICE_IDvoor ElevenLabs (of de eerste ElevenLabs-stem wanneer de API-key beschikbaar is).providers.elevenlabs.modelId: standaardeleven_v3wanneer niet ingesteld.providers.mlx.modelId: standaardmlx-community/Soprano-80M-bf16wanneer niet ingesteld.providers.elevenlabs.apiKey: valt terug opELEVENLABS_API_KEY(of het gateway-shellprofiel indien beschikbaar).consultThinkingLevel: optionele override voor het denkniveau voor de volledige OpenClaw-agentrun achter realtimeopenclaw_agent_consult-aanroepen.consultFastMode: optionele fast-mode-override voor realtimeopenclaw_agent_consult-aanroepen.realtime.provider: selecteert de actieve realtime spraakprovider voor browser/server. Gebruikopenaivoor WebRTC,googlevoor provider WebSocket, of een bridge-only provider via Gateway-relay.realtime.providers.<provider>slaat realtime configuratie op die eigendom is van de provider. De browser ontvangt alleen tijdelijke of beperkte sessiereferenties, nooit een standaard API-key.realtime.providers.openai.voice: ingebouwde OpenAI Realtime voice-id. Huidigegpt-realtime-2-stemmen zijnalloy,ash,ballad,coral,echo,sage,shimmer,verse,marinencedar;marinencedarworden aanbevolen voor de beste kwaliteit.realtime.brain:agent-consultrouteert realtime toolaanroepen via Gateway-beleid;direct-toolsis owner-only compatibiliteitsgedrag;noneis voor transcriptie of externe orkestratie.realtime.instructions: voegt providergerichte systeeminstructies toe aan de ingebouwde realtime prompt van OpenClaw. Gebruik dit voor stemstijl en toon; OpenClaw behoudt de standaardopenclaw_agent_consult-richtlijnen.talk.catalogstelt de geldige modi, transports, brain-strategieën, realtime audioformaten en capability-flags van elke provider beschikbaar, zodat first-party Talk-clients niet-ondersteunde combinaties kunnen vermijden.- Streaming transcriptieproviders worden ontdekt via
talk.catalog.transcription. De huidige Gateway-relay gebruikt de configuratie van de streamingprovider voor Voice Call totdat het speciale Talk-transcriptieconfiguratieoppervlak is toegevoegd. speechLocale: optionele BCP 47 locale-id voor on-device Talk-spraakherkenning op iOS/macOS. Laat dit niet ingesteld om de apparaatstandaard te gebruiken.outputFormat: standaardpcm_44100op macOS/iOS enpcm_24000op Android (stelmp3_*in om MP3-streaming af te dwingen)
macOS-UI
- Menubalkschakelaar: Praten
- Configuratietabblad: groep Praatmodus (voice-id + onderbrekingsschakelaar)
- Overlay:
- Luisteren: wolk pulseert met microfoonniveau
- Denken: dalende animatie
- Spreken: uitstralende ringen
- Klik op wolk: stop met spreken
- Klik op X: verlaat de praatmodus
Android-UI
- Schakelaar op tabblad Spraak: Praten
- Handmatige Mic en Talk zijn runtime-opnamemodi die elkaar uitsluiten.
- Handmatige Mic stopt wanneer de app de voorgrond verlaat of de gebruiker het tabblad Spraak verlaat.
- Praatmodus blijft actief totdat deze wordt uitgeschakeld of de Android-Node wordt losgekoppeld, en gebruikt Androids foreground-service-type voor de microfoon terwijl deze actief is.
Opmerkingen
- Vereist machtigingen voor Spraak + Microfoon.
- Native Talk gebruikt de actieve Gateway-sessie en valt alleen terug op history-polling wanneer responsevents niet beschikbaar zijn.
- Realtime Talk in de browser gebruikt
talk.client.toolCallvooropenclaw_agent_consultin plaats vanchat.sendbloot te stellen aan provider-owned browsersessies. - Talk voor alleen transcriptie gebruikt
talk.session.create,talk.session.appendAudio,talk.session.cancelTurnentalk.session.close; clients abonneren zich optalk.eventvoor gedeeltelijke/definitieve transcriptupdates. - De gateway lost Talk-afspelen op via
talk.speakmet de actieve Talk-provider. Android valt alleen terug op lokale systeem-TTS wanneer die RPC niet beschikbaar is. - Lokale MLX-weergave op macOS gebruikt de gebundelde
openclaw-mlx-tts-helper wanneer aanwezig, of een executable opPATH. StelOPENCLAW_MLX_TTS_BINin om tijdens ontwikkeling naar een aangepaste helper-binary te wijzen. stabilityvooreleven_v3wordt gevalideerd op0.0,0.5of1.0; andere modellen accepteren0..1.latency_tierwordt gevalideerd op0..4wanneer ingesteld.- Android ondersteunt de uitvoerformaten
pcm_16000,pcm_22050,pcm_24000enpcm_44100voor low-latency AudioTrack-streaming.