Deepgram - OpenClaw

Deepgram 是一个语音转文本 API。OpenClaw 通过 tools.media.audio 使用它进行入站音频/语音消息转录，并通过 plugins.entries.voice-call.config.streaming 将它用于 Voice Call 流式 STT。批量转录会将完整音频文件上传到 Deepgram，并把转录文本注入回复流水线（{{Transcript}} + [Audio] 块）。Voice Call 流式传输会通过 Deepgram 的 WebSocket listen 端点转发实时 G.711 u-law 帧，并在 Deepgram 返回时发出部分/最终转录文本。

详情	值
网站	deepgram.com
文档	developers.deepgram.com
认证	`DEEPGRAM_API_KEY`
默认模型	`nova-3`

入门指南

设置你的 API key

DEEPGRAM_API_KEY=dg_...

启用音频提供商

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

发送语音消息

通过任意已连接渠道发送音频消息。OpenClaw 会通过 Deepgram 转录它，并将转录文本注入回复流水线。

配置选项

选项	路径	描述
`model`	`tools.media.audio.models[].model`	Deepgram 模型 ID（默认：`nova-3`）
`language`	`tools.media.audio.models[].language`	语言提示（可选）

providerOptions.deepgram 会将额外查询参数直接合并到 Deepgram /listen 请求中，因此任何 Deepgram 支持的参数名都可用（例如 detect_language、punctuate、smart_format）：

带语言提示
带 Deepgram 选项

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

{
  tools: {
    media: {
      audio: {
        enabled: true,
        providerOptions: {
          deepgram: {
            detect_language: true,
            punctuate: true,
            smart_format: true,
          },
        },
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Voice Call 流式 STT

内置的 deepgram 插件还会为 Voice Call 插件注册一个实时转录提供商。

设置	配置路径	默认值
API key	`plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey`	回退到 `DEEPGRAM_API_KEY`
模型	`...deepgram.model`	`nova-3`
语言	`...deepgram.language`	（未设置）
编码	`...deepgram.encoding`	`mulaw`
采样率	`...deepgram.sampleRate`	`8000`
端点检测	`...deepgram.endpointingMs`	`800`
临时结果	`...deepgram.interimResults`	`true`

{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}

Voice Call 接收的电话音频为 8 kHz G.711 u-law。Deepgram 流式提供商默认使用 encoding: "mulaw" 和 sampleRate: 8000，因此可以直接转发 Twilio 媒体帧。

说明

认证

认证遵循标准提供商认证顺序。DEEPGRAM_API_KEY 是最简单的路径。

代理和自定义端点

使用代理时，可通过 tools.media.audio.baseUrl 和 tools.media.audio.headers 覆盖端点或标头。

输出行为

输出遵循与其他提供商相同的音频规则（大小上限、超时、转录文本注入）。

媒体工具

音频、图像和视频处理流水线概览。

配置

完整配置参考，包括媒体工具设置。

故障排查

常见问题和调试步骤。

常见问题

关于 OpenClaw 设置的常见问题。

​入门指南

​配置选项

​Voice Call 流式 STT

​说明

​相关内容

媒体工具

配置

故障排查

常见问题

入门指南

配置选项

Voice Call 流式 STT

说明

相关内容