Перейти к основному содержанию
Deepgram — это API преобразования речи в текст. В OpenClaw он используется для транскрибации входящих аудио/голосовых заметок через tools.media.audio и для потокового STT голосовых вызовов через plugins.entries.voice-call.config.streaming. Для пакетной транскрибации OpenClaw загружает полный аудиофайл в Deepgram и внедряет транскрипт в конвейер ответа (блок {{Transcript}} + [Audio]). Для потоковой передачи голосового вызова OpenClaw пересылает live-кадры G.711 u-law через WebSocket-эндпоинт Deepgram listen и выдает частичные или финальные транскрипты по мере их возврата Deepgram.
СведенияЗначение
Сайтdeepgram.com
Документацияdevelopers.deepgram.com
АутентификацияDEEPGRAM_API_KEY
Модель по умолчаниюnova-3

Начало работы

1

Задайте ключ API

Добавьте ключ API Deepgram в окружение:
DEEPGRAM_API_KEY=dg_...
2

Включите аудиопровайдера

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Отправьте голосовую заметку

Отправьте аудиосообщение через любой подключенный канал. OpenClaw транскрибирует его через Deepgram и внедрит транскрипт в конвейер ответа.

Параметры конфигурации

ПараметрПутьОписание
modeltools.media.audio.models[].modelИдентификатор модели Deepgram (по умолчанию: nova-3)
languagetools.media.audio.models[].languageПодсказка языка (необязательно)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageВключить определение языка (необязательно)
punctuatetools.media.audio.providerOptions.deepgram.punctuateВключить пунктуацию (необязательно)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatВключить интеллектуальное форматирование (необязательно)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Потоковое STT для Voice Call

Встроенный Plugin deepgram также регистрирует поставщика транскрибации в реальном времени для Plugin Voice Call.
НастройкаПуть конфигурацииПо умолчанию
Ключ APIplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyИспользует DEEPGRAM_API_KEY
Модель...deepgram.modelnova-3
Язык...deepgram.language(не задано)
Кодирование...deepgram.encodingmulaw
Частота дискретизации...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Промежуточные результаты...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call получает телефонный звук как 8 kHz G.711 u-law. Поставщик потоковой передачи Deepgram по умолчанию использует encoding: "mulaw" и sampleRate: 8000, поэтому медиакадры Twilio можно пересылать напрямую.

Примечания

Аутентификация следует стандартному порядку авторизации поставщиков. DEEPGRAM_API_KEY — самый простой путь.
Переопределяйте конечные точки или заголовки с помощью tools.media.audio.baseUrl и tools.media.audio.headers при использовании прокси.
Вывод следует тем же правилам для аудио, что и у других поставщиков (ограничения размера, тайм-ауты, внедрение транскрипта).

Связанные материалы

Медиаинструменты

Обзор конвейера обработки аудио, изображений и видео.

Конфигурация

Полный справочник конфигурации, включая настройки медиаинструментов.

Устранение неполадок

Распространенные проблемы и шаги отладки.

Часто задаваемые вопросы

Часто задаваемые вопросы о настройке OpenClaw.