मुख्य सामग्री पर जाएं
Deepgram एक speech-to-text API है। OpenClaw में इसका उपयोग tools.media.audio के माध्यम से आने वाले ऑडियो/voice-note ट्रांसक्रिप्शन और plugins.entries.voice-call.config.streaming के माध्यम से Voice Call स्ट्रीमिंग STT के लिए किया जाता है। बैच ट्रांसक्रिप्शन के लिए, OpenClaw पूरी ऑडियो फ़ाइल को Deepgram पर अपलोड करता है और ट्रांसक्रिप्ट को उत्तर पाइपलाइन ({{Transcript}} + [Audio] ब्लॉक) में इंजेक्ट करता है। Voice Call स्ट्रीमिंग के लिए, OpenClaw लाइव G.711 u-law फ़्रेम को Deepgram के WebSocket listen endpoint पर फ़ॉरवर्ड करता है और Deepgram द्वारा लौटाए जाने पर आंशिक या अंतिम ट्रांसक्रिप्ट उत्सर्जित करता है।
विवरणमान
वेबसाइटdeepgram.com
दस्तावेज़developers.deepgram.com
प्रमाणीकरणDEEPGRAM_API_KEY
डिफ़ॉल्ट मॉडलnova-3

शुरू करना

1

Set your API key

अपनी Deepgram API key को environment में जोड़ें:
DEEPGRAM_API_KEY=dg_...
2

Enable the audio provider

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Send a voice note

किसी भी जुड़े हुए channel के माध्यम से एक ऑडियो संदेश भेजें। OpenClaw इसे Deepgram के माध्यम से ट्रांसक्राइब करता है और ट्रांसक्रिप्ट को उत्तर पाइपलाइन में इंजेक्ट करता है।

कॉन्फ़िगरेशन विकल्प

विकल्पपथविवरण
modeltools.media.audio.models[].modelDeepgram model id (डिफ़ॉल्ट: nova-3)
languagetools.media.audio.models[].languageभाषा संकेत (वैकल्पिक)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageभाषा पहचान सक्षम करें (वैकल्पिक)
punctuatetools.media.audio.providerOptions.deepgram.punctuateविराम चिह्न सक्षम करें (वैकल्पिक)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatsmart formatting सक्षम करें (वैकल्पिक)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Voice Call स्ट्रीमिंग STT

बंडल किया गया deepgram Plugin, Voice Call Plugin के लिए एक realtime transcription provider भी पंजीकृत करता है।
सेटिंगकॉन्फ़िग पथडिफ़ॉल्ट
API keyplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyDEEPGRAM_API_KEY पर fallback करता है
मॉडल...deepgram.modelnova-3
भाषा...deepgram.language(सेट नहीं)
एन्कोडिंग...deepgram.encodingmulaw
सैंपल दर...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Interim results...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call को telephony audio 8 kHz G.711 u-law के रूप में प्राप्त होता है। Deepgram streaming provider डिफ़ॉल्ट रूप से encoding: "mulaw" और sampleRate: 8000 का उपयोग करता है, इसलिए Twilio media frames सीधे फ़ॉरवर्ड किए जा सकते हैं।

नोट्स

प्रमाणीकरण मानक provider auth order का पालन करता है। DEEPGRAM_API_KEY सबसे सरल path है।
proxy का उपयोग करते समय tools.media.audio.baseUrl और tools.media.audio.headers के साथ endpoints या headers को override करें।
आउटपुट अन्य providers जैसे ही audio rules का पालन करता है (size caps, timeouts, transcript injection)।

संबंधित

Media tools

ऑडियो, इमेज, और वीडियो प्रोसेसिंग पाइपलाइन का अवलोकन।

Configuration

media tool settings सहित पूरा config reference।

Troubleshooting

सामान्य समस्याएँ और debugging steps।

FAQ

OpenClaw setup के बारे में अक्सर पूछे जाने वाले प्रश्न।