Перейти к основному содержанию
Azure Speech — это провайдер преобразования текста в речь Azure AI Speech. В OpenClaw он по умолчанию синтезирует аудио исходящих ответов в MP3, нативный Ogg/Opus для голосовых сообщений и 8 kHz mulaw-аудио для телефонных каналов, таких как голосовой вызов. OpenClaw использует Azure Speech REST API напрямую с SSML и передает формат вывода, определяемый провайдером, через X-Microsoft-OutputFormat.
СведенияЗначение
СайтAzure AI Speech
ДокументацияSpeech REST text-to-speech
АутентификацияAZURE_SPEECH_KEY плюс AZURE_SPEECH_REGION
Голос по умолчаниюen-US-JennyNeural
Файловый вывод по умолчаниюaudio-24khz-48kbitrate-mono-mp3
Файл голосового сообщения по умолчаниюogg-24khz-16bit-mono-opus

Начало работы

1

Create an Azure Speech resource

В портале Azure создайте ресурс Speech. Скопируйте KEY 1 из «Управление ресурсами > Ключи и конечная точка», а также скопируйте расположение ресурса, например eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

Select Azure Speech in messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          speakerVoice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

Send a message

Отправьте ответ через любой подключенный канал. OpenClaw синтезирует аудио с помощью Azure Speech и доставляет MP3 для стандартного аудио либо Ogg/Opus, когда канал ожидает голосовое сообщение.

Параметры конфигурации

ПараметрПутьОписание
apiKeymessages.tts.providers.azure-speech.apiKeyКлюч ресурса Azure Speech. Использует AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY или SPEECH_KEY как запасной вариант.
regionmessages.tts.providers.azure-speech.regionРегион ресурса Azure Speech. Использует AZURE_SPEECH_REGION или SPEECH_REGION как запасной вариант.
endpointmessages.tts.providers.azure-speech.endpointНеобязательное переопределение конечной точки/базового URL Azure Speech.
baseUrlmessages.tts.providers.azure-speech.baseUrlНеобязательное переопределение базового URL Azure Speech.
speakerVoicemessages.tts.providers.azure-speech.speakerVoiceShortName голоса Azure (по умолчанию en-US-JennyNeural). Устаревший псевдоним: voice.
langmessages.tts.providers.azure-speech.langКод языка SSML (по умолчанию en-US).
outputFormatmessages.tts.providers.azure-speech.outputFormatФормат вывода аудиофайла (по умолчанию audio-24khz-48kbitrate-mono-mp3).
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatФормат вывода голосового сообщения (по умолчанию ogg-24khz-16bit-mono-opus).

Примечания

Azure Speech использует ключ ресурса Speech, а не ключ Azure OpenAI. Ключ отправляется как Ocp-Apim-Subscription-Key; OpenClaw выводит https://<region>.tts.speech.microsoft.com из region, если вы не укажете endpoint или baseUrl.
Используйте значение ShortName голоса Azure Speech, например en-US-JennyNeural. Встроенный провайдер может перечислять голоса через тот же ресурс Speech и отфильтровывает голоса, помеченные как устаревшие или выведенные из эксплуатации.
Azure принимает форматы вывода, такие как audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus и riff-24khz-16bit-mono-pcm. OpenClaw запрашивает Ogg/Opus для целей voice-note, чтобы каналы могли отправлять нативные голосовые сообщения без дополнительного преобразования MP3.
azure принимается как псевдоним провайдера для существующих PR и пользовательской конфигурации, но новая конфигурация должна использовать azure-speech, чтобы избежать путаницы с провайдерами моделей Azure OpenAI.

Связанные материалы

Text-to-speech

Обзор TTS, провайдеры и конфигурация messages.tts.

Configuration

Полный справочник конфигурации, включая настройки messages.tts.

Providers

Все встроенные провайдеры OpenClaw.

Troubleshooting

Распространенные проблемы и шаги отладки.