OpenClaw використовує ElevenLabs для перетворення тексту на мовлення, пакетного перетворення мовлення на текст за допомогою Scribe v2 і потокового STT за допомогою Scribe v2 Realtime.Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
| Можливість | Поверхня OpenClaw | Типово |
|---|---|---|
| Перетворення тексту на мовлення | messages.tts / talk | eleven_multilingual_v2 |
| Пакетне перетворення мовлення на текст | tools.media.audio | scribe_v2 |
| Потокове перетворення мовлення на текст | Потокове передавання Голосового виклику або Google Meet realtime.transcriptionProvider | scribe_v2_realtime |
Автентифікація
ВстановітьELEVENLABS_API_KEY у середовищі. XI_API_KEY також приймається для
сумісності з наявними інструментами ElevenLabs.
Перетворення тексту на мовлення
modelId на eleven_v3, щоб використовувати ElevenLabs v3 TTS. OpenClaw залишає
eleven_multilingual_v2 типовим варіантом для наявних інсталяцій.
Голосові канали Discord використовують потоковий кінцевий пункт TTS ElevenLabs, коли ElevenLabs є
вибраним провайдером voice.tts/messages.tts. Відтворення починається з
повернутого аудіопотоку замість очікування, доки OpenClaw спочатку завантажить і запише
весь аудіофайл. latencyTier зіставляється з параметром запиту ElevenLabs
optimize_streaming_latency для моделей, які його приймають; OpenClaw
пропускає цей параметр для eleven_v3, яка його відхиляє.
Перетворення мовлення на текст
Використовуйте Scribe v2 для вхідних аудіовкладень і коротких записаних голосових сегментів:/v1/speech-to-text з
model_id: "scribe_v2". Підказки мови зіставляються з language_code, якщо вони присутні.
Потокове STT
Вбудований Pluginelevenlabs реєструє Scribe v2 Realtime для потокової транскрипції
в агентському режимі Голосового виклику та Google Meet.
| Налаштування | Шлях конфігурації | Типово |
|---|---|---|
| API-ключ | plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey | Повертається до ELEVENLABS_API_KEY / XI_API_KEY |
| Модель | ...elevenlabs.modelId | scribe_v2_realtime |
| Аудіоформат | ...elevenlabs.audioFormat | ulaw_8000 |
| Частота дискретизації | ...elevenlabs.sampleRate | 8000 |
| Стратегія фіксації | ...elevenlabs.commitStrategy | vad |
| Мова | ...elevenlabs.languageCode | (не встановлено) |
Голосовий виклик отримує медіа Twilio як 8 кГц G.711 u-law. Провайдер ElevenLabs realtime
типово використовує
ulaw_8000, тому телефонні кадри можна пересилати без
перекодування.plugins.entries.google-meet.config.realtime.transcriptionProvider на
"elevenlabs" і налаштуйте той самий блок провайдера в
plugins.entries.google-meet.config.realtime.providers.elevenlabs.