ElevenLabs - OpenClaw

OpenClaw verwendet ElevenLabs für Text-to-Speech, Batch-Spracherkennung mit Scribe v2 und Streaming-STT mit Scribe v2 Realtime.

Funktion	OpenClaw-Oberfläche	Standard
Text-to-Speech	`messages.tts` / `talk`	`eleven_multilingual_v2`
Batch-Spracherkennung	`tools.media.audio`	`scribe_v2`
Streaming-Spracherkennung	Voice-Call-Streaming oder Google Meet `realtime.transcriptionProvider`	`scribe_v2_realtime`

Authentifizierung

Setzen Sie ELEVENLABS_API_KEY in der Umgebung. XI_API_KEY wird ebenfalls für Kompatibilität mit vorhandenen ElevenLabs-Tools akzeptiert.

export ELEVENLABS_API_KEY="..."

Text-to-Speech

{
  messages: {
    tts: {
      providers: {
        elevenlabs: {
          apiKey: "${ELEVENLABS_API_KEY}",
          speakerVoiceId: "pMsXgVXv3BLzUgSXRplE",
          modelId: "eleven_multilingual_v2",
        },
      },
    },
  },
}

Setzen Sie modelId auf eleven_v3, um ElevenLabs v3 TTS zu verwenden. OpenClaw behält eleven_multilingual_v2 als Standard für vorhandene Installationen bei. Discord-Sprachkanäle verwenden den Streaming-TTS-Endpunkt von ElevenLabs, wenn ElevenLabs der ausgewählte voice.tts-/messages.tts-Provider ist. Die Wiedergabe startet aus dem zurückgegebenen Audiostream, statt zuerst darauf zu warten, dass OpenClaw die gesamte Audiodatei herunterlädt und schreibt. latencyTier wird für Modelle, die dies akzeptieren, dem ElevenLabs-Abfrageparameter optimize_streaming_latency zugeordnet; OpenClaw lässt diesen Parameter für eleven_v3 weg, da es ihn ablehnt.

Spracherkennung

Verwenden Sie Scribe v2 für eingehende Audioanhänge und kurze aufgezeichnete Sprachsegmente:

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "elevenlabs", model: "scribe_v2" }],
      },
    },
  },
}

OpenClaw sendet Multipart-Audio mit model_id: "scribe_v2" an ElevenLabs /v1/speech-to-text. Sprachhinweise werden, falls vorhanden, language_code zugeordnet.

Streaming-STT

Das gebündelte elevenlabs-Plugin registriert Scribe v2 Realtime für Voice Call und Streaming-Transkription im Google-Meet-Agentenmodus.

Einstellung	Konfigurationspfad	Standard
API-Schlüssel	`plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey`	Fällt auf `ELEVENLABS_API_KEY` / `XI_API_KEY` zurück
Modell	`...elevenlabs.modelId`	`scribe_v2_realtime`
Audioformat	`...elevenlabs.audioFormat`	`ulaw_8000`
Abtastrate	`...elevenlabs.sampleRate`	`8000`
Commit-Strategie	`...elevenlabs.commitStrategy`	`vad`
Sprache	`...elevenlabs.languageCode`	(nicht gesetzt)

{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "elevenlabs",
            providers: {
              elevenlabs: {
                apiKey: "${ELEVENLABS_API_KEY}",
                audioFormat: "ulaw_8000",
                commitStrategy: "vad",
                languageCode: "en",
              },
            },
          },
        },
      },
    },
  },
}

Voice Call empfängt Twilio-Medien als 8 kHz G.711 u-law. Der ElevenLabs-Realtime- Provider verwendet standardmäßig ulaw_8000, sodass Telefonie-Frames ohne Transkodierung weitergeleitet werden können.

Für den Google-Meet-Agentenmodus setzen Sie plugins.entries.google-meet.config.realtime.transcriptionProvider auf "elevenlabs" und konfigurieren denselben Provider-Block unter plugins.entries.google-meet.config.realtime.providers.elevenlabs.

​Authentifizierung

​Text-to-Speech

​Spracherkennung

​Streaming-STT

​Verwandte Themen

Authentifizierung

Text-to-Speech

Spracherkennung

Streaming-STT

Verwandte Themen