OpenClaw używa ElevenLabs do zamiany tekstu na mowę, wsadowej zamiany mowy na tekst za pomocą Scribe v2 oraz strumieniowego STT za pomocą Scribe v2 Realtime.Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
| Funkcja | Powierzchnia OpenClaw | Domyślne |
|---|---|---|
| Zamiana tekstu na mowę | messages.tts / talk | eleven_multilingual_v2 |
| Wsadowa zamiana mowy na tekst | tools.media.audio | scribe_v2 |
| Strumieniowa zamiana mowy na tekst | strumieniowanie Voice Call lub Google Meet realtime.transcriptionProvider | scribe_v2_realtime |
Uwierzytelnianie
UstawELEVENLABS_API_KEY w środowisku. XI_API_KEY jest także akceptowany dla
zgodności z istniejącymi narzędziami ElevenLabs.
Zamiana tekstu na mowę
modelId na eleven_v3, aby użyć ElevenLabs v3 TTS. OpenClaw zachowuje
eleven_multilingual_v2 jako domyślną wartość dla istniejących instalacji.
Kanały głosowe Discord używają strumieniowego punktu końcowego TTS ElevenLabs, gdy ElevenLabs jest
wybranym dostawcą voice.tts/messages.tts. Odtwarzanie zaczyna się od
zwróconego strumienia audio, zamiast czekać, aż OpenClaw najpierw pobierze i zapisze
cały plik audio. latencyTier mapuje się na parametr zapytania ElevenLabs
optimize_streaming_latency dla modeli, które go akceptują; OpenClaw
pomija ten parametr dla eleven_v3, który go odrzuca.
Zamiana mowy na tekst
Użyj Scribe v2 dla przychodzących załączników audio i krótkich nagranych segmentów głosowych:/v1/speech-to-text z
model_id: "scribe_v2". Wskazówki językowe są mapowane na language_code, gdy są obecne.
Strumieniowe STT
Dołączony Pluginelevenlabs rejestruje Scribe v2 Realtime dla strumieniowej transkrypcji
Voice Call i Google Meet w trybie agenta.
| Ustawienie | Ścieżka konfiguracji | Domyślne |
|---|---|---|
| Klucz API | plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey | Używa zastępczo ELEVENLABS_API_KEY / XI_API_KEY |
| Model | ...elevenlabs.modelId | scribe_v2_realtime |
| Format audio | ...elevenlabs.audioFormat | ulaw_8000 |
| Częstotliwość próbkowania | ...elevenlabs.sampleRate | 8000 |
| Strategia zatwierdzania | ...elevenlabs.commitStrategy | vad |
| Język | ...elevenlabs.languageCode | (nieustawione) |
Voice Call odbiera multimedia Twilio jako 8 kHz G.711 u-law. Dostawca czasu rzeczywistego
ElevenLabs domyślnie używa
ulaw_8000, więc ramki telefoniczne mogą być przekazywane bez
transkodowania.plugins.entries.google-meet.config.realtime.transcriptionProvider na
"elevenlabs" i skonfiguruj ten sam blok dostawcy pod
plugins.entries.google-meet.config.realtime.providers.elevenlabs.