Spraakoproepen voor OpenClaw via een Plugin. Ondersteunt uitgaande meldingen, gesprekken met meerdere beurten, full-duplex realtime spraak, streaming transcriptie en inkomende oproepen met allowlist-beleid. Huidige providers:Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
twilio (Programmable Voice + Media Streams),
telnyx (Call Control v2), plivo (Voice API + XML transfer + GetInput
speech), mock (dev/geen netwerk).
De Voice Call-Plugin draait binnen het Gateway-proces. Als je een
externe Gateway gebruikt, installeer en configureer je de Plugin op de machine
waarop de Gateway draait, en herstart je daarna de Gateway om deze te laden.
Snelstart
Installeer de Plugin
- Vanaf npm
- Vanuit een lokale map (dev)
Configureer provider en Webhook
Stel configuratie in onder
plugins.entries.voice-call.config (zie
Configuratie hieronder voor de volledige vorm). Minimaal:
provider, providerreferenties, fromNumber en een publiek bereikbare
Webhook-URL.Controleer de installatie
streaming of realtime) actief is. Gebruik
--json voor scripts.Configuratie
Alsenabled: true is ingesteld maar voor de geselecteerde provider referenties ontbreken,
logt het starten van de Gateway een waarschuwing dat de installatie onvolledig is met de ontbrekende sleutels en
wordt het starten van de runtime overgeslagen. Commando’s, RPC-aanroepen en agenttools
geven nog steeds de exacte ontbrekende providerconfiguratie terug wanneer ze worden gebruikt.
Voice-call-referenties accepteren SecretRefs.
plugins.entries.voice-call.config.twilio.authToken, plugins.entries.voice-call.config.realtime.providers.*.apiKey, plugins.entries.voice-call.config.streaming.providers.*.apiKey en plugins.entries.voice-call.config.tts.providers.*.apiKey worden opgelost via het standaard SecretRef-oppervlak; zie SecretRef-referentieoppervlak.Providerblootstelling en beveiligingsnotities
Providerblootstelling en beveiligingsnotities
- Twilio, Telnyx en Plivo vereisen allemaal een publiek bereikbare Webhook-URL.
mockis een lokale dev-provider (geen netwerkaanroepen).- Telnyx vereist
telnyx.publicKey(ofTELNYX_PUBLIC_KEY), tenzijskipSignatureVerificationtrue is. skipSignatureVerificationis alleen voor lokaal testen.- Stel bij de gratis laag van ngrok
publicUrlin op de exacte ngrok-URL; handtekeningverificatie wordt altijd afgedwongen. tunnel.allowNgrokFreeTierLoopbackBypass: truestaat Twilio-webhooks met ongeldige handtekeningen alleen toe wanneertunnel.provider="ngrok"enserve.bindloopback is (lokale ngrok-agent). Alleen lokale dev.- URL’s van de gratis laag van ngrok kunnen veranderen of interstitial-gedrag toevoegen; als
publicUrlafwijkt, mislukken Twilio-handtekeningen. Productie: geef de voorkeur aan een stabiel domein of een Tailscale-funnel.
Streaming-verbindingslimieten
Streaming-verbindingslimieten
streaming.preStartTimeoutMssluit sockets die nooit een geldigstart-frame sturen.streaming.maxPendingConnectionsbeperkt het totale aantal niet-geverifieerde pre-start-sockets.streaming.maxPendingConnectionsPerIpbeperkt niet-geverifieerde pre-start-sockets per bron-IP.streaming.maxConnectionsbeperkt het totale aantal open mediastream-sockets (in behandeling + actief).
Migraties van oude configuratie
Migraties van oude configuratie
Oudere configuraties die
provider: "log", twilio.from of oude
streaming.* OpenAI-sleutels gebruiken, worden herschreven door openclaw doctor --fix.
Runtime-fallback accepteert voorlopig nog de oude voice-call-sleutels, maar
het herschrijfpad is openclaw doctor --fix en de compat-shim is
tijdelijk.Automatisch gemigreerde streaming-sleutels:streaming.sttProvider→streaming.providerstreaming.openaiApiKey→streaming.providers.openai.apiKeystreaming.sttModel→streaming.providers.openai.modelstreaming.silenceDurationMs→streaming.providers.openai.silenceDurationMsstreaming.vadThreshold→streaming.providers.openai.vadThreshold
Sessiebereik
Standaard gebruikt Voice CallsessionScope: "per-phone", zodat herhaalde oproepen van
dezelfde beller gespreksgeheugen behouden. Stel sessionScope: "per-call" in wanneer
elke carrier-oproep met verse context moet starten, bijvoorbeeld receptie-,
boekings-, IVR- of Google Meet-bridgeflows waarbij hetzelfde telefoonnummer
verschillende vergaderingen kan vertegenwoordigen.
Realtime spraakgesprekken
realtime selecteert een full-duplex realtime spraakprovider voor live
oproepaudio. Dit staat los van streaming, dat audio alleen doorstuurt naar
realtime transcriptieproviders.
Huidig runtimegedrag:
realtime.enabledwordt ondersteund voor Twilio Media Streams.realtime.provideris optioneel. Indien niet ingesteld, gebruikt Voice Call de eerste geregistreerde realtime spraakprovider.- Gebundelde realtime spraakproviders: Google Gemini Live (
google) en OpenAI (openai), geregistreerd door hun provider-Plugins. - Ruwe configuratie van de provider staat onder
realtime.providers.<providerId>. - Voice Call stelt standaard de gedeelde realtime-tool
openclaw_agent_consultbeschikbaar. Het realtime model kan deze aanroepen wanneer de beller vraagt om diepere redenering, actuele informatie of normale OpenClaw-tools. realtime.consultPolicyvoegt optioneel richtlijnen toe voor wanneer het realtime modelopenclaw_agent_consultmoet aanroepen.realtime.agentContext.enabledstaat standaard uit. Wanneer dit is ingeschakeld, injecteert Voice Call tijdens de sessie-installatie een begrensde agentidentiteit, systeem-promptoverride en geselecteerde werkruimtebestandscapsule in de instructies van de realtime provider.realtime.fastContext.enabledstaat standaard uit. Wanneer dit is ingeschakeld, zoekt Voice Call eerst in geïndexeerd geheugen/sessiecontext naar de consultvraag en retourneert deze fragmenten binnenrealtime.fastContext.timeoutMsaan het realtime model voordat er alleen wordt teruggevallen op de volledige consultagent alsrealtime.fastContext.fallbackToConsulttrue is.- Als
realtime.providernaar een niet-geregistreerde provider verwijst, of als er helemaal geen realtime spraakprovider is geregistreerd, logt Voice Call een waarschuwing en slaat het realtime media over in plaats van de hele Plugin te laten mislukken. - Consultsessiesleutels hergebruiken de opgeslagen oproepsessie wanneer die beschikbaar is en vallen daarna terug op het geconfigureerde
sessionScope(per-phonestandaard, ofper-callvoor geïsoleerde oproepen).
Toolbeleid
realtime.toolPolicy bepaalt de consult-run:
| Beleid | Gedrag |
|---|---|
safe-read-only | Stel de consulttool beschikbaar en beperk de gewone agent tot read, web_search, web_fetch, x_search, memory_search en memory_get. |
owner | Stel de consulttool beschikbaar en laat de gewone agent het normale agenttoolbeleid gebruiken. |
none | Stel de consulttool niet beschikbaar. Aangepaste realtime.tools worden nog steeds doorgegeven aan de realtime provider. |
realtime.consultPolicy bepaalt alleen de instructies voor het realtime model:
| Beleid | Richtlijn |
|---|---|
auto | Behoud de standaardprompt en laat de provider bepalen wanneer de consulttool moet worden aangeroepen. |
substantive | Beantwoord eenvoudige gespreksbruggetjes rechtstreeks en consulteer vóór feiten, geheugen, tools of context. |
always | Consulteer vóór elk inhoudelijk antwoord. |
Agent-spraakcontext
Schakelrealtime.agentContext in wanneer de spraakbridge moet klinken als de
geconfigureerde OpenClaw-agent zonder voor gewone beurten een volledige agent-consult-roundtrip
te betalen. De contextcapsule wordt één keer toegevoegd wanneer de realtime sessie wordt
gemaakt, zodat dit geen per-turn latentie toevoegt. Aanroepen naar
openclaw_agent_consult voeren nog steeds de volledige OpenClaw-agent uit en moeten worden gebruikt
voor toolwerk, actuele informatie, geheugenopzoekingen of werkruimtestatus.
Voorbeelden van realtime providers
- Google Gemini Live
- OpenAI
Standaardwaarden: API-sleutel uit
realtime.providers.google.apiKey,
GEMINI_API_KEY of GOOGLE_GENERATIVE_AI_API_KEY; model
gemini-2.5-flash-native-audio-preview-12-2025; stem Kore.
sessionResumption en contextWindowCompression staan standaard aan voor langere,
opnieuw te verbinden gesprekken. Gebruik silenceDurationMs, startSensitivity en
endSensitivity om snellere beurtwisseling op telefonie-audio af te stemmen.Streaming transcriptie
streaming selecteert een realtime transcriptieprovider voor live gespreksaudio.
Huidig runtimegedrag:
streaming.provideris optioneel. Als deze niet is ingesteld, gebruikt Voice Call de eerste geregistreerde realtime transcriptieprovider.- Gebundelde realtime transcriptieproviders: Deepgram (
deepgram), ElevenLabs (elevenlabs), Mistral (mistral), OpenAI (openai) en xAI (xai), geregistreerd door hun providerplugins. - Ruwe configuratie die eigendom is van de provider staat onder
streaming.providers.<providerId>. - Nadat Twilio een geaccepteerd stream-
start-bericht verzendt, registreert Voice Call de stream onmiddellijk, zet inkomende media in de wachtrij via de transcriptieprovider terwijl de provider verbinding maakt, en start de eerste begroeting pas nadat realtime transcriptie gereed is. - Als
streaming.providernaar een niet-geregistreerde provider verwijst, of als er geen provider is geregistreerd, logt Voice Call een waarschuwing en slaat het mediastreaming over in plaats van de hele plugin te laten falen.
Voorbeelden van streamingproviders
- OpenAI
- xAI
Standaardwaarden: API-sleutel
streaming.providers.openai.apiKey of
OPENAI_API_KEY; model gpt-4o-transcribe; silenceDurationMs: 800;
vadThreshold: 0.5.TTS voor gesprekken
Voice Call gebruikt de core-messages.tts-configuratie voor streaming
spraak tijdens gesprekken. Je kunt deze onder de pluginconfiguratie overschrijven met
dezelfde vorm — deze wordt diep samengevoegd met messages.tts.
- Verouderde
tts.<provider>-sleutels binnen pluginconfiguratie (openai,elevenlabs,microsoft,edge) worden gerepareerd dooropenclaw doctor --fix; vastgelegde configuratie moettts.providers.<provider>gebruiken. - Core-TTS wordt gebruikt wanneer Twilio-mediastreaming is ingeschakeld; anders vallen gesprekken terug op provider-native stemmen.
- Als een Twilio-mediastream al actief is, valt Voice Call niet terug op TwiML
<Say>. Als telefonie-TTS in die status niet beschikbaar is, mislukt het afspeelverzoek in plaats van twee afspeelpaden te mengen. - Wanneer telefonie-TTS terugvalt op een secundaire provider, logt Voice Call een waarschuwing met de providerketen (
from,to,attempts) voor debugging. - Wanneer Twilio barge-in of het afbreken van de stream de wachtende TTS-wachtrij wist, worden in de wachtrij geplaatste afspeelverzoeken afgehandeld in plaats van bellers te laten hangen terwijl ze wachten op voltooiing van het afspelen.
TTS-voorbeelden
- Core TTS only
- Override to ElevenLabs (calls only)
- OpenAI model override (deep-merge)
Inkomende gesprekken
Inkomend beleid staat standaard opdisabled. Stel het volgende in om inkomende gesprekken in te schakelen:
responseModel,
responseSystemPrompt en responseTimeoutMs.
Routering per nummer
Gebruiknumbers wanneer één Voice Call-plugin gesprekken ontvangt voor meerdere telefoonnummers
en elk nummer zich als een andere lijn moet gedragen. Zo kan één
nummer een informele persoonlijke assistent gebruiken, terwijl een ander een zakelijke
persona, een andere antwoordagent en een andere TTS-stem gebruikt.
Routes worden geselecteerd op basis van het door de provider geleverde gebelde To-nummer. Sleutels moeten
E.164-nummers zijn. Wanneer een gesprek binnenkomt, lost Voice Call de overeenkomende route één keer op,
slaat de overeenkomende route op in het gespreksrecord en hergebruikt die effectieve configuratie
voor de begroeting, het klassieke pad voor automatische antwoorden, het realtime consultpad en TTS-
afspelen. Als geen route overeenkomt, wordt de globale Voice Call-configuratie gebruikt.
Uitgaande gesprekken gebruiken numbers niet; geef het uitgaande doel, het bericht en
de sessie expliciet door wanneer je het gesprek start.
Route-overschrijvingen ondersteunen momenteel:
inboundGreetingttsagentIdresponseModelresponseSystemPromptresponseTimeoutMs
tts-routewaarde wordt diep samengevoegd over de globale Voice Call-tts-configuratie, zodat
je meestal alleen de providerstem hoeft te overschrijven:
Contract voor gesproken uitvoer
Voor automatische antwoorden voegt Voice Call een strikt contract voor gesproken uitvoer toe aan de systeemprompt:- Negeert payloads die zijn gemarkeerd als redeneer-/foutinhoud.
- Parseert directe JSON, omheinde JSON of inline
"spoken"-sleutels. - Valt terug op platte tekst en verwijdert waarschijnlijke plannings-/meta-inleidende alinea’s.
Opstartgedrag van gesprekken
Voor uitgaandeconversation-gesprekken is de verwerking van het eerste bericht gekoppeld aan de live
afspeelstatus:
- Het wissen van de barge-in-wachtrij en automatische antwoorden worden alleen onderdrukt terwijl de eerste begroeting actief wordt uitgesproken.
- Als het eerste afspelen mislukt, keert het gesprek terug naar
listeningen blijft het eerste bericht in de wachtrij voor een nieuwe poging. - Het eerste afspelen voor Twilio-streaming start bij streamverbinding zonder extra vertraging.
- Barge-in breekt actief afspelen af en wist Twilio-TTS-items die in de wachtrij staan maar nog niet worden afgespeeld. Gewiste items worden opgelost als overgeslagen, zodat vervolgresponslogica kan doorgaan zonder te wachten op audio die nooit zal worden afgespeeld.
- Realtime spraakgesprekken gebruiken de eigen openingsturn van de realtime stream. Voice Call plaatst geen verouderde
<Say>TwiML-update voor dat eerste bericht, zodat uitgaande<Connect><Stream>-sessies gekoppeld blijven.
Genadeperiode voor Twilio-streamverbinding verbreken
Wanneer een Twilio-mediastream de verbinding verbreekt, wacht Voice Call 2000 ms voordat het gesprek automatisch wordt beëindigd:- Als de stream binnen dat venster opnieuw verbinding maakt, wordt automatisch beëindigen geannuleerd.
- Als geen stream zich na de genadeperiode opnieuw registreert, wordt het gesprek beëindigd om vastgelopen actieve gesprekken te voorkomen.
Verouderde gesprekken opruimen
GebruikstaleCallReaperSeconds om gesprekken te beëindigen die nooit een terminale
Webhook ontvangen (bijvoorbeeld notify-modusgesprekken die nooit worden voltooid). De standaardwaarde
is 0 (uitgeschakeld).
Aanbevolen bereiken:
- Productie:
120-300seconden voor notify-achtige flows. - Houd deze waarde hoger dan
maxDurationSecondszodat normale aanroepen kunnen afronden. Een goed startpunt ismaxDurationSeconds + 30-60seconden.
Webhook-beveiliging
Wanneer er een proxy of tunnel voor de Gateway staat, reconstrueert de Plugin de publieke URL voor handtekeningverificatie. Deze opties bepalen welke doorgestuurde headers worden vertrouwd:Sta hosts uit forwarding-headers toe.
Vertrouw doorgestuurde headers zonder allowlist.
Vertrouw doorgestuurde headers alleen wanneer het externe IP-adres van de aanvraag overeenkomt met de lijst.
- Webhook-replaybeveiliging is ingeschakeld voor Twilio en Plivo. Opnieuw afgespeelde geldige Webhook-aanvragen worden bevestigd, maar overgeslagen voor bijwerkingen.
- Twilio-gespreksbeurten bevatten een token per beurt in
<Gather>-callbacks, zodat verouderde/opnieuw afgespeelde spraakcallbacks geen nieuwere wachtende transcriptbeurt kunnen vervullen. - Niet-geverifieerde Webhook-aanvragen worden geweigerd voordat de body wordt gelezen wanneer de vereiste handtekeningheaders van de provider ontbreken.
- De voice-call-Webhook gebruikt het gedeelde pre-auth-bodyprofiel (64 KB / 5 seconden) plus een in-flight limiet per IP vóór handtekeningverificatie.
CLI
voicecall-opdrachten
naar de door de Gateway beheerde voice-call-runtime, zodat de CLI geen tweede
Webhook-server bindt. Als er geen Gateway bereikbaar is, vallen de opdrachten
terug op een zelfstandige CLI-runtime.
latency leest calls.jsonl uit het standaardopslagpad voor voice-call.
Gebruik --file <path> om naar een ander log te wijzen en --last <n> om de
analyse te beperken tot de laatste N records (standaard 200). De uitvoer bevat
p50/p90/p99 voor beurtlatentie en luister-wachttijden.
Agent-tool
Toolnaam:voice_call.
| Actie | Argumenten |
|---|---|
initiate_call | message, to?, mode?, dtmfSequence? |
continue_call | callId, message |
speak_to_user | callId, message |
send_dtmf | callId, digits |
end_call | callId |
get_status | callId |
skills/voice-call/SKILL.md.
Gateway-RPC
| Methode | Argumenten |
|---|---|
voicecall.initiate | to?, message, mode?, dtmfSequence? |
voicecall.continue | callId, message |
voicecall.speak | callId, message |
voicecall.dtmf | callId, digits |
voicecall.end | callId |
voicecall.status | callId |
dtmfSequence is alleen geldig met mode: "conversation". Aanroepen in
notify-modus moeten voicecall.dtmf gebruiken nadat de oproep bestaat als ze
cijfers na het verbinden nodig hebben.
Probleemoplossing
Setup mislukt bij Webhook-blootstelling
Voer setup uit vanuit dezelfde omgeving die de Gateway uitvoert:twilio, telnyx en plivo moet webhook-exposure groen zijn. Een
geconfigureerde publicUrl mislukt nog steeds wanneer deze naar lokale of
privénetwerkruimte wijst, omdat de carrier niet naar die adressen kan terugbellen.
Gebruik localhost, 127.0.0.1, 0.0.0.0, 10.x, 172.16.x-172.31.x,
192.168.x, 169.254.x, fc00::/7 of fd00::/8 niet als publicUrl.
Uitgaande Twilio-oproepen in notify-modus sturen hun initiële <Say> TwiML
rechtstreeks in de create-call-aanvraag, zodat het eerste gesproken bericht niet
afhangt van Twilio dat Webhook-TwiML ophaalt. Een publieke Webhook is nog steeds
vereist voor statuscallbacks, gespreksoproepen, DTMF vóór het verbinden,
realtime streams en oproepbeheer na het verbinden.
Gebruik één publiek blootstellingspad:
voicecall smoke is een dry run tenzij je --yes doorgeeft.
Providerreferenties mislukken
Controleer de geselecteerde provider en de vereiste referentievelden:- Twilio:
twilio.accountSid,twilio.authTokenenfromNumber, ofTWILIO_ACCOUNT_SID,TWILIO_AUTH_TOKENenTWILIO_FROM_NUMBER. - Telnyx:
telnyx.apiKey,telnyx.connectionId,telnyx.publicKeyenfromNumber. - Plivo:
plivo.authId,plivo.authTokenenfromNumber.
Oproepen starten, maar provider-Webhooks komen niet aan
Bevestig dat de providerconsole naar de exacte publieke Webhook-URL wijst:publicUrlwijst naar een ander pad danserve.path.- De tunnel-URL is gewijzigd nadat de Gateway is gestart.
- Een proxy stuurt de aanvraag door, maar verwijdert of herschrijft host/proto-headers.
- Firewall of DNS routeert de publieke hostnaam naar iets anders dan de Gateway.
- De Gateway is opnieuw gestart zonder dat de Voice Call-Plugin is ingeschakeld.
webhookSecurity.allowedHosts in op de publieke hostnaam, of gebruik je
webhookSecurity.trustedProxyIPs voor een bekend proxyadres. Gebruik
webhookSecurity.trustForwardingHeaders alleen wanneer de proxygrens onder
jouw controle staat.
Handtekeningverificatie mislukt
Providerhandtekeningen worden gecontroleerd tegen de publieke URL die OpenClaw reconstrueert uit de inkomende aanvraag. Als handtekeningen mislukken:- Bevestig dat de provider-Webhook-URL exact overeenkomt met
publicUrl, inclusief schema, host en pad. - Werk voor ngrok-URL’s in de free-tier
publicUrlbij wanneer de tunnelhostnaam verandert. - Zorg dat de proxy de oorspronkelijke host- en proto-headers behoudt, of configureer
webhookSecurity.allowedHosts. - Schakel
skipSignatureVerificationniet in buiten lokaal testen.
Google Meet Twilio-joins mislukken
Google Meet gebruikt deze Plugin voor Twilio-inbeljoins. Verifieer eerst Voice Call:--dtmf-sequence. De telefoonoproep kan gezond
zijn terwijl de vergadering een onjuiste DTMF-reeks weigert of negeert.
Google Meet start de Twilio-telefoonleg via voicecall.start met een
DTMF-reeks vóór het verbinden. Uit PIN afgeleide reeksen bevatten de
voiceCall.dtmfDelayMs van de Google Meet-Plugin als leidende Twilio-wachtcijfers.
De standaardwaarde is 12 seconden omdat Meet-inbelprompts laat kunnen aankomen.
Voice Call leidt daarna terug naar realtime afhandeling voordat de introbegroeting
wordt aangevraagd.
Gebruik openclaw logs --follow voor de live fasetrace. Een gezonde Twilio
Meet-join logt deze volgorde:
- Google Meet delegeert de Twilio-join aan Voice Call.
- Voice Call slaat DTMF-TwiML vóór het verbinden op.
- Initiële TwiML van Twilio wordt verbruikt en geserveerd vóór realtime afhandeling.
- Voice Call serveert realtime TwiML voor de Twilio-oproep.
- Google Meet vraagt introspraak aan met
voicecall.speakna de post-DTMF-vertraging.
openclaw voicecall tail toont nog steeds blijvende oproeprecords; het is nuttig
voor oproepstatus en transcripties, maar niet elke Webhook-/realtime-overgang
verschijnt daar.
Realtime-oproep heeft geen spraak
Bevestig dat slechts één audiomodus is ingeschakeld.realtime.enabled en
streaming.enabled kunnen niet allebei true zijn.
Verifieer voor realtime Twilio-oproepen ook:
- Er is een realtime provider-Plugin geladen en geregistreerd.
realtime.provideris niet ingesteld of noemt een geregistreerde provider.- De provider-API-sleutel is beschikbaar voor het Gateway-proces.
openclaw logs --followtoont dat realtime TwiML is geserveerd, de realtime bridge is gestart en de initiële begroeting in de wachtrij is geplaatst.