realtime,
локальный или потоковый stt-tts, а также transcription для речевого захвата
только в режиме наблюдения. Эти режимы разделяют каталоги поставщиков, конверты
событий и семантику отмены с телефонией, встречами, браузерным реальным
временем и нативными клиентами push-to-talk.
Возможности
Генерация изображений
Создавайте и редактируйте изображения по текстовым промптам или
референсным изображениям через
image_generate. Асинхронно в чат-сеансах —
выполняется в фоне и публикует результат, когда он готов.Генерация видео
Текст-в-видео, изображение-в-видео и видео-в-видео через
video_generate.
Асинхронно — выполняется в фоне и публикует результат, когда он готов.Генерация музыки
Генерируйте музыку или аудиодорожки через
music_generate. Асинхронно в
чат-сеансах в рамках общего жизненного цикла задач генерации медиа.Преобразование текста в речь
Преобразуйте исходящие ответы в речевое аудио через инструмент
tts и
конфигурацию messages.tts. Синхронно.Понимание медиа
Суммируйте входящие изображения, аудио и видео с помощью поставщиков
моделей с поддержкой зрения и специализированных плагинов понимания медиа.
Преобразование речи в текст
Транскрибируйте входящие голосовые сообщения через пакетные STT-поставщики
или потоковые STT-поставщики для голосовых вызовов.
Матрица возможностей поставщиков
| Поставщик | Изображения | Видео | Музыка | TTS | STT | Голос в реальном времени | Понимание медиа |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | ✓ | ||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| Microsoft Foundry | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Понимание медиа использует любую модель с поддержкой зрения или аудио,
зарегистрированную в вашей конфигурации поставщиков. Матрица выше перечисляет
поставщиков со специализированной поддержкой понимания медиа; большинство
мультимодальных LLM-поставщиков (Anthropic, Google, OpenAI и т. д.) также могут
понимать входящие медиа, если настроены как активная модель ответа.
Асинхронно и синхронно
| Возможность | Режим | Почему |
|---|---|---|
| Изображение | Асинхронный | Обработка у поставщика может длиться дольше хода в чате; сгенерированные вложения используют общий путь завершения. |
| Преобразование текста в речь | Синхронный | Ответы поставщика возвращаются за секунды; прикрепляются к аудио ответа. |
| Видео | Асинхронный | Обработка у поставщика занимает от 30 с до нескольких минут; медленные очереди могут выполняться до настроенного тайм-аута. |
| Музыка | Асинхронный | Та же характеристика обработки у поставщика, что и у видео. |
message(action="send"), когда сеансу требуется инструмент сообщений. Если
сеанс запрашивающего неактивен или его активное пробуждение завершается с
ошибкой, а часть сгенерированных медиа все еще отсутствует в ответе о
завершении, OpenClaw отправляет идемпотентный прямой запасной ответ только с
отсутствующими медиа. Медиа, уже доставленные ответом о завершении, повторно не
публикуются.
Преобразование речи в текст и голосовой вызов
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio и xAI могут транскрибировать входящее аудио через пакетный путьtools.media.audio, если
они настроены. Плагины каналов, которые предварительно проверяют голосовую
заметку для фильтрации упоминаний или разбора команд, помечают
транскрибированное вложение во входящем контексте, поэтому общий проход
понимания медиа повторно использует эту транскрипцию вместо второго STT-вызова
для того же аудио.
Deepgram, ElevenLabs, Mistral, OpenAI и xAI также регистрируют потоковых
STT-поставщиков для голосовых вызовов, поэтому живое телефонное аудио можно
передавать выбранному поставщику без ожидания завершенной записи.
Для живых пользовательских разговоров предпочитайте режим Talk.
Пакетные аудиовложения остаются на медиа-пути; браузерное реальное время,
нативный push-to-talk, телефония и аудио встреч должны использовать события
Talk и каталоги в области сеанса, возвращаемые Gateway.
Сопоставления поставщиков (как поставщики распределяются по поверхностям)
Google
Поверхности изображений, видео, музыки, пакетного TTS, серверного голоса в
реальном времени и понимания медиа.
OpenAI
OpenAI
Поверхности изображений, видео, пакетного TTS, пакетного STT, потокового
STT для голосовых вызовов, серверного голоса в реальном времени и
эмбеддингов памяти.
DeepInfra
DeepInfra
Маршрутизация чата/моделей, генерация/редактирование изображений,
текст-в-видео, пакетный TTS, пакетный STT, понимание медиа изображений и
поверхности эмбеддингов памяти. Нативные для DeepInfra модели
переранжирования/классификации/обнаружения объектов не регистрируются, пока
у OpenClaw не появятся специализированные контракты поставщиков для этих
категорий.
xAI
xAI
Изображения, видео, поиск, выполнение кода, пакетный TTS, пакетный STT и
потоковый STT для голосовых вызовов. Голос xAI Realtime является
вышестоящей возможностью, но не регистрируется в OpenClaw, пока общий
контракт голоса в реальном времени не сможет ее представить.