OpenClaw verwendet ElevenLabs für Text-zu-Sprache, Batch-Spracherkennung mit Scribe v2 und Streaming-STT mit Scribe v2 Realtime.Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
| Funktion | OpenClaw-Oberfläche | Standard |
|---|---|---|
| Text-zu-Sprache | messages.tts / talk | eleven_multilingual_v2 |
| Batch-Spracherkennung | tools.media.audio | scribe_v2 |
| Streaming-Spracherkennung | Voice Call-Streaming oder Google Meet realtime.transcriptionProvider | scribe_v2_realtime |
Authentifizierung
Setzen SieELEVENLABS_API_KEY in der Umgebung. XI_API_KEY wird zur
Kompatibilität mit bestehenden ElevenLabs-Tools ebenfalls akzeptiert.
Text-zu-Sprache
modelId auf eleven_v3, um ElevenLabs v3 TTS zu verwenden. OpenClaw behält
eleven_multilingual_v2 als Standard für bestehende Installationen bei.
Discord-Sprachkanäle verwenden den Streaming-TTS-Endpunkt von ElevenLabs, wenn ElevenLabs
der ausgewählte voice.tts-/messages.tts-Provider ist. Die Wiedergabe startet aus dem
zurückgegebenen Audiostream, anstatt zuerst darauf zu warten, dass OpenClaw die gesamte
Audiodatei herunterlädt und schreibt. latencyTier wird für Modelle, die dies akzeptieren,
dem ElevenLabs-Abfrageparameter optimize_streaming_latency zugeordnet; OpenClaw
lässt diesen Parameter für eleven_v3 weg, da es ihn ablehnt.
Sprache-zu-Text
Verwenden Sie Scribe v2 für eingehende Audioanhänge und kurze aufgezeichnete Sprachsegmente:/v1/speech-to-text mit
model_id: "scribe_v2". Sprachhinweise werden, sofern vorhanden, language_code zugeordnet.
Streaming-STT
Das gebündelteelevenlabs-Plugin registriert Scribe v2 Realtime für Voice Call und
Streaming-Transkription im Google Meet-Agentenmodus.
| Einstellung | Konfigurationspfad | Standard |
|---|---|---|
| API-Schlüssel | plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey | Fällt auf ELEVENLABS_API_KEY / XI_API_KEY zurück |
| Modell | ...elevenlabs.modelId | scribe_v2_realtime |
| Audioformat | ...elevenlabs.audioFormat | ulaw_8000 |
| Abtastrate | ...elevenlabs.sampleRate | 8000 |
| Commit-Strategie | ...elevenlabs.commitStrategy | vad |
| Sprache | ...elevenlabs.languageCode | (nicht gesetzt) |
Voice Call empfängt Twilio-Medien als 8 kHz G.711 u-law. Der ElevenLabs-Realtime-
Provider verwendet standardmäßig
ulaw_8000, sodass Telefonie-Frames ohne
Transkodierung weitergeleitet werden können.plugins.entries.google-meet.config.realtime.transcriptionProvider auf
"elevenlabs" und konfigurieren denselben Provider-Block unter
plugins.entries.google-meet.config.realtime.providers.elevenlabs.