मुख्य सामग्री पर जाएं
Azure Speech एक Azure AI Speech टेक्स्ट-टू-स्पीच प्रदाता है। OpenClaw में यह आउटबाउंड उत्तर ऑडियो को डिफ़ॉल्ट रूप से MP3, वॉइस नोट्स के लिए मूल Ogg/Opus, और Voice Call जैसे टेलीफोनी चैनलों के लिए 8 kHz mulaw ऑडियो के रूप में संश्लेषित करता है। OpenClaw SSML के साथ सीधे Azure Speech REST API का उपयोग करता है और प्रदाता-स्वामित्व वाला आउटपुट फ़ॉर्मैट X-Microsoft-OutputFormat के माध्यम से भेजता है।
विवरणमान
वेबसाइटAzure AI Speech
दस्तावेज़Speech REST टेक्स्ट-टू-स्पीच
प्रमाणीकरणAZURE_SPEECH_KEY और AZURE_SPEECH_REGION
डिफ़ॉल्ट वॉइसen-US-JennyNeural
डिफ़ॉल्ट फ़ाइल आउटपुटaudio-24khz-48kbitrate-mono-mp3
डिफ़ॉल्ट वॉइस-नोट फ़ाइलogg-24khz-16bit-mono-opus

शुरू करना

1

Azure Speech संसाधन बनाएँ

Azure पोर्टल में, Speech संसाधन बनाएँ। Resource Management > Keys and Endpoint से KEY 1 कॉपी करें, और संसाधन स्थान कॉपी करें जैसे eastus
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

messages.tts में Azure Speech चुनें

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          speakerVoice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

संदेश भेजें

किसी भी जुड़े हुए चैनल के माध्यम से उत्तर भेजें। OpenClaw Azure Speech के साथ ऑडियो संश्लेषित करता है और मानक ऑडियो के लिए MP3 डिलीवर करता है, या जब चैनल वॉइस नोट की अपेक्षा करता है तो Ogg/Opus।

कॉन्फ़िगरेशन विकल्प

विकल्पपथविवरण
apiKeymessages.tts.providers.azure-speech.apiKeyAzure Speech संसाधन कुंजी। AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY, या SPEECH_KEY पर फ़ॉलबैक करता है।
regionmessages.tts.providers.azure-speech.regionAzure Speech संसाधन क्षेत्र। AZURE_SPEECH_REGION या SPEECH_REGION पर फ़ॉलबैक करता है।
endpointmessages.tts.providers.azure-speech.endpointवैकल्पिक Azure Speech एंडपॉइंट/बेस URL ओवरराइड।
baseUrlmessages.tts.providers.azure-speech.baseUrlवैकल्पिक Azure Speech बेस URL ओवरराइड।
speakerVoicemessages.tts.providers.azure-speech.speakerVoiceAzure वॉइस ShortName (डिफ़ॉल्ट en-US-JennyNeural)। लेगेसी उपनाम: voice
langmessages.tts.providers.azure-speech.langSSML भाषा कोड (डिफ़ॉल्ट en-US)।
outputFormatmessages.tts.providers.azure-speech.outputFormatऑडियो-फ़ाइल आउटपुट फ़ॉर्मैट (डिफ़ॉल्ट audio-24khz-48kbitrate-mono-mp3)।
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatवॉइस-नोट आउटपुट फ़ॉर्मैट (डिफ़ॉल्ट ogg-24khz-16bit-mono-opus)।

नोट्स

Azure Speech, Azure OpenAI कुंजी नहीं, बल्कि Speech संसाधन कुंजी का उपयोग करता है। कुंजी Ocp-Apim-Subscription-Key के रूप में भेजी जाती है; OpenClaw region से https://<region>.tts.speech.microsoft.com निकालता है, जब तक कि आप endpoint या baseUrl प्रदान नहीं करते।
Azure Speech वॉइस ShortName मान का उपयोग करें, उदाहरण के लिए en-US-JennyNeural। बंडल किया गया प्रदाता उसी Speech संसाधन के माध्यम से वॉइसों की सूची दे सकता है और deprecated या retired चिह्नित वॉइसों को फ़िल्टर करता है।
Azure audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus, और riff-24khz-16bit-mono-pcm जैसे आउटपुट फ़ॉर्मैट स्वीकार करता है। OpenClaw voice-note लक्ष्यों के लिए Ogg/Opus का अनुरोध करता है, ताकि चैनल अतिरिक्त MP3 रूपांतरण के बिना मूल वॉइस बबल भेज सकें।
मौजूदा PRs और उपयोगकर्ता कॉन्फ़िग के लिए azure को प्रदाता उपनाम के रूप में स्वीकार किया जाता है, लेकिन नए कॉन्फ़िग में Azure OpenAI मॉडल प्रदाताओं के साथ भ्रम से बचने के लिए azure-speech का उपयोग करना चाहिए।

संबंधित

टेक्स्ट-टू-स्पीच

TTS अवलोकन, प्रदाता, और messages.tts कॉन्फ़िग।

कॉन्फ़िगरेशन

messages.tts सेटिंग्स सहित पूर्ण कॉन्फ़िग संदर्भ।

प्रदाता

सभी बंडल किए गए OpenClaw प्रदाता।

समस्या निवारण

सामान्य समस्याएँ और डीबगिंग चरण।