Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw verwendet ElevenLabs für Text-zu-Sprache, Batch-Spracherkennung mit Scribe v2 und Streaming-STT mit Scribe v2 Realtime.
FunktionOpenClaw-OberflächeStandard
Text-zu-Sprachemessages.tts / talkeleven_multilingual_v2
Batch-Spracherkennungtools.media.audioscribe_v2
Streaming-SpracherkennungVoice Call-Streaming oder Google Meet realtime.transcriptionProviderscribe_v2_realtime

Authentifizierung

Setzen Sie ELEVENLABS_API_KEY in der Umgebung. XI_API_KEY wird zur Kompatibilität mit bestehenden ElevenLabs-Tools ebenfalls akzeptiert.
export ELEVENLABS_API_KEY="..."

Text-zu-Sprache

{
  messages: {
    tts: {
      providers: {
        elevenlabs: {
          apiKey: "${ELEVENLABS_API_KEY}",
          voiceId: "pMsXgVXv3BLzUgSXRplE",
          modelId: "eleven_multilingual_v2",
        },
      },
    },
  },
}
Setzen Sie modelId auf eleven_v3, um ElevenLabs v3 TTS zu verwenden. OpenClaw behält eleven_multilingual_v2 als Standard für bestehende Installationen bei. Discord-Sprachkanäle verwenden den Streaming-TTS-Endpunkt von ElevenLabs, wenn ElevenLabs der ausgewählte voice.tts-/messages.tts-Provider ist. Die Wiedergabe startet aus dem zurückgegebenen Audiostream, anstatt zuerst darauf zu warten, dass OpenClaw die gesamte Audiodatei herunterlädt und schreibt. latencyTier wird für Modelle, die dies akzeptieren, dem ElevenLabs-Abfrageparameter optimize_streaming_latency zugeordnet; OpenClaw lässt diesen Parameter für eleven_v3 weg, da es ihn ablehnt.

Sprache-zu-Text

Verwenden Sie Scribe v2 für eingehende Audioanhänge und kurze aufgezeichnete Sprachsegmente:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "elevenlabs", model: "scribe_v2" }],
      },
    },
  },
}
OpenClaw sendet Multipart-Audio an ElevenLabs /v1/speech-to-text mit model_id: "scribe_v2". Sprachhinweise werden, sofern vorhanden, language_code zugeordnet.

Streaming-STT

Das gebündelte elevenlabs-Plugin registriert Scribe v2 Realtime für Voice Call und Streaming-Transkription im Google Meet-Agentenmodus.
EinstellungKonfigurationspfadStandard
API-Schlüsselplugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKeyFällt auf ELEVENLABS_API_KEY / XI_API_KEY zurück
Modell...elevenlabs.modelIdscribe_v2_realtime
Audioformat...elevenlabs.audioFormatulaw_8000
Abtastrate...elevenlabs.sampleRate8000
Commit-Strategie...elevenlabs.commitStrategyvad
Sprache...elevenlabs.languageCode(nicht gesetzt)
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "elevenlabs",
            providers: {
              elevenlabs: {
                apiKey: "${ELEVENLABS_API_KEY}",
                audioFormat: "ulaw_8000",
                commitStrategy: "vad",
                languageCode: "en",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call empfängt Twilio-Medien als 8 kHz G.711 u-law. Der ElevenLabs-Realtime- Provider verwendet standardmäßig ulaw_8000, sodass Telefonie-Frames ohne Transkodierung weitergeleitet werden können.
Für den Google Meet-Agentenmodus setzen Sie plugins.entries.google-meet.config.realtime.transcriptionProvider auf "elevenlabs" und konfigurieren denselben Provider-Block unter plugins.entries.google-meet.config.realtime.providers.elevenlabs.

Verwandte Themen