> ## Documentation Index
> Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# Обзор медиа

OpenClaw генерирует изображения, видео и музыку, понимает входящие медиа
(изображения, аудио, видео) и произносит ответы вслух с помощью преобразования
текста в речь. Все медиа-возможности управляются инструментами: агент решает,
когда их использовать, на основе разговора, а каждый инструмент появляется
только тогда, когда настроен хотя бы один поддерживающий поставщик.

Живая речь использует контракт сеанса Talk вместо пути одноразового медиа-
инструмента. У Talk есть три режима: встроенный у поставщика `realtime`,
локальный или потоковый `stt-tts`, а также `transcription` для речевого захвата
только в режиме наблюдения. Эти режимы разделяют каталоги поставщиков, конверты
событий и семантику отмены с телефонией, встречами, браузерным реальным
временем и нативными клиентами push-to-talk.

## Возможности

<CardGroup cols={2}>
  <Card title="Генерация изображений" href="/ru/tools/image-generation" icon="image">
    Создавайте и редактируйте изображения по текстовым промптам или
    референсным изображениям через `image_generate`. Асинхронно в чат-сеансах —
    выполняется в фоне и публикует результат, когда он готов.
  </Card>

  <Card title="Генерация видео" href="/ru/tools/video-generation" icon="video">
    Текст-в-видео, изображение-в-видео и видео-в-видео через `video_generate`.
    Асинхронно — выполняется в фоне и публикует результат, когда он готов.
  </Card>

  <Card title="Генерация музыки" href="/ru/tools/music-generation" icon="music">
    Генерируйте музыку или аудиодорожки через `music_generate`. Асинхронно в
    чат-сеансах в рамках общего жизненного цикла задач генерации медиа.
  </Card>

  <Card title="Преобразование текста в речь" href="/ru/tools/tts" icon="microphone">
    Преобразуйте исходящие ответы в речевое аудио через инструмент `tts` и
    конфигурацию `messages.tts`. Синхронно.
  </Card>

  <Card title="Понимание медиа" href="/ru/nodes/media-understanding" icon="eye">
    Суммируйте входящие изображения, аудио и видео с помощью поставщиков
    моделей с поддержкой зрения и специализированных плагинов понимания медиа.
  </Card>

  <Card title="Преобразование речи в текст" href="/ru/nodes/audio" icon="ear-listen">
    Транскрибируйте входящие голосовые сообщения через пакетные STT-поставщики
    или потоковые STT-поставщики для голосовых вызовов.
  </Card>
</CardGroup>

## Матрица возможностей поставщиков

| Поставщик         | Изображения | Видео | Музыка | TTS | STT | Голос в реальном времени | Понимание медиа |
| ----------------- | :---------: | :---: | :----: | :-: | :-: | :----------------------: | :-------------: |
| Alibaba           |             |   ✓   |        |     |     |                          |                 |
| BytePlus          |             |   ✓   |        |     |     |                          |                 |
| ComfyUI           |      ✓      |   ✓   |    ✓   |     |     |                          |                 |
| DeepInfra         |      ✓      |   ✓   |        |  ✓  |  ✓  |                          |        ✓        |
| Deepgram          |             |       |        |     |  ✓  |             ✓            |                 |
| ElevenLabs        |             |       |        |  ✓  |  ✓  |                          |                 |
| fal               |      ✓      |   ✓   |    ✓   |     |     |                          |                 |
| Google            |      ✓      |   ✓   |    ✓   |  ✓  |     |             ✓            |        ✓        |
| Gradium           |             |       |        |  ✓  |     |                          |                 |
| Local CLI         |             |       |        |  ✓  |     |                          |                 |
| Microsoft         |             |       |        |  ✓  |     |                          |                 |
| Microsoft Foundry |      ✓      |       |        |     |     |                          |                 |
| MiniMax           |      ✓      |   ✓   |    ✓   |  ✓  |     |                          |                 |
| Mistral           |             |       |        |     |  ✓  |                          |                 |
| OpenAI            |      ✓      |   ✓   |        |  ✓  |  ✓  |             ✓            |        ✓        |
| OpenRouter        |      ✓      |   ✓   |    ✓   |  ✓  |  ✓  |                          |        ✓        |
| Qwen              |             |   ✓   |        |     |     |                          |                 |
| Runway            |             |   ✓   |        |     |     |                          |                 |
| SenseAudio        |             |       |        |     |  ✓  |                          |                 |
| Together          |             |   ✓   |        |     |     |                          |                 |
| Vydra             |      ✓      |   ✓   |        |  ✓  |     |                          |                 |
| xAI               |      ✓      |   ✓   |        |  ✓  |  ✓  |                          |        ✓        |
| Xiaomi MiMo       |      ✓      |       |        |  ✓  |     |                          |        ✓        |

<Note>
  Понимание медиа использует любую модель с поддержкой зрения или аудио,
  зарегистрированную в вашей конфигурации поставщиков. Матрица выше перечисляет
  поставщиков со специализированной поддержкой понимания медиа; большинство
  мультимодальных LLM-поставщиков (Anthropic, Google, OpenAI и т. д.) также могут
  понимать входящие медиа, если настроены как активная модель ответа.
</Note>

## Асинхронно и синхронно

| Возможность                  | Режим       | Почему                                                                                                                      |
| ---------------------------- | ----------- | --------------------------------------------------------------------------------------------------------------------------- |
| Изображение                  | Асинхронный | Обработка у поставщика может длиться дольше хода в чате; сгенерированные вложения используют общий путь завершения.         |
| Преобразование текста в речь | Синхронный  | Ответы поставщика возвращаются за секунды; прикрепляются к аудио ответа.                                                    |
| Видео                        | Асинхронный | Обработка у поставщика занимает от 30 с до нескольких минут; медленные очереди могут выполняться до настроенного тайм-аута. |
| Музыка                       | Асинхронный | Та же характеристика обработки у поставщика, что и у видео.                                                                 |

Для асинхронных инструментов OpenClaw отправляет запрос поставщику, сразу
возвращает id задачи и отслеживает задание в реестре задач. Агент продолжает
отвечать на другие сообщения, пока задание выполняется. Когда поставщик
завершает работу, OpenClaw будит агента со сгенерированными путями медиа, чтобы
он мог сообщить пользователю через обычный для сеанса режим видимого ответа:
автоматическая доставка финального ответа, если она настроена, или
`message(action="send")`, когда сеансу требуется инструмент сообщений. Если
сеанс запрашивающего неактивен или его активное пробуждение завершается с
ошибкой, а часть сгенерированных медиа все еще отсутствует в ответе о
завершении, OpenClaw отправляет идемпотентный прямой запасной ответ только с
отсутствующими медиа. Медиа, уже доставленные ответом о завершении, повторно не
публикуются.

## Преобразование речи в текст и голосовой вызов

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio и xAI могут
транскрибировать входящее аудио через пакетный путь `tools.media.audio`, если
они настроены. Плагины каналов, которые предварительно проверяют голосовую
заметку для фильтрации упоминаний или разбора команд, помечают
транскрибированное вложение во входящем контексте, поэтому общий проход
понимания медиа повторно использует эту транскрипцию вместо второго STT-вызова
для того же аудио.

Deepgram, ElevenLabs, Mistral, OpenAI и xAI также регистрируют потоковых
STT-поставщиков для голосовых вызовов, поэтому живое телефонное аудио можно
передавать выбранному поставщику без ожидания завершенной записи.

Для живых пользовательских разговоров предпочитайте [режим Talk](/ru/nodes/talk).
Пакетные аудиовложения остаются на медиа-пути; браузерное реальное время,
нативный push-to-talk, телефония и аудио встреч должны использовать события
Talk и каталоги в области сеанса, возвращаемые Gateway.

## Сопоставления поставщиков (как поставщики распределяются по поверхностям)

<AccordionGroup>
  <Accordion title="Google">
    Поверхности изображений, видео, музыки, пакетного TTS, серверного голоса в
    реальном времени и понимания медиа.
  </Accordion>

  <Accordion title="OpenAI">
    Поверхности изображений, видео, пакетного TTS, пакетного STT, потокового
    STT для голосовых вызовов, серверного голоса в реальном времени и
    эмбеддингов памяти.
  </Accordion>

  <Accordion title="DeepInfra">
    Маршрутизация чата/моделей, генерация/редактирование изображений,
    текст-в-видео, пакетный TTS, пакетный STT, понимание медиа изображений и
    поверхности эмбеддингов памяти. Нативные для DeepInfra модели
    переранжирования/классификации/обнаружения объектов не регистрируются, пока
    у OpenClaw не появятся специализированные контракты поставщиков для этих
    категорий.
  </Accordion>

  <Accordion title="xAI">
    Изображения, видео, поиск, выполнение кода, пакетный TTS, пакетный STT и
    потоковый STT для голосовых вызовов. Голос xAI Realtime является
    вышестоящей возможностью, но не регистрируется в OpenClaw, пока общий
    контракт голоса в реальном времени не сможет ее представить.
  </Accordion>
</AccordionGroup>

## Связанные материалы

* [Генерация изображений](/ru/tools/image-generation)
* [Генерация видео](/ru/tools/video-generation)
* [Генерация музыки](/ru/tools/music-generation)
* [Преобразование текста в речь](/ru/tools/tts)
* [Понимание медиа](/ru/nodes/media-understanding)
* [Аудиоузлы](/ru/nodes/audio)
* [Режим Talk](/ru/nodes/talk)