Pular para o conteúdo principal

Documentation Index

Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

O OpenClaw gera imagens, vídeos e música, entende mídia recebida (imagens, áudio, vídeo) e fala respostas em voz alta com conversão de texto em fala. Todos os recursos de mídia são orientados por ferramentas: o agente decide quando usá-los com base na conversa, e cada ferramenta só aparece quando pelo menos um provedor de apoio está configurado. A fala ao vivo usa o contrato de sessão Talk em vez do caminho da ferramenta de mídia de uso único. O Talk tem três modos: realtime nativo do provedor, stt-tts local ou em streaming, e transcription para captura de fala apenas para observação. Esses modos compartilham catálogos de provedores, envelopes de eventos e semântica de cancelamento com telefonia, reuniões, tempo real no navegador e clientes nativos de apertar para falar.

Recursos

Geração de imagens

Crie e edite imagens a partir de prompts de texto ou imagens de referência via image_generate. Síncrono — conclui em linha com a resposta.

Geração de vídeo

Texto para vídeo, imagem para vídeo e vídeo para vídeo via video_generate. Assíncrono — executa em segundo plano e publica o resultado quando estiver pronto.

Geração de música

Gere música ou faixas de áudio via music_generate. Assíncrono em provedores compartilhados; o caminho de fluxo de trabalho do ComfyUI executa de forma síncrona.

Conversão de texto em fala

Converta respostas de saída em áudio falado via a ferramenta tts mais a configuração messages.tts. Síncrono.

Compreensão de mídia

Resuma imagens, áudio e vídeo recebidos usando provedores de modelo com capacidade de visão e plugins dedicados de compreensão de mídia.

Fala para texto

Transcreva mensagens de voz recebidas por meio de STT em lote ou provedores de STT em streaming para chamadas de voz.

Matriz de recursos de provedores

ProvedorImagemVídeoMúsicaTTSSTTVoz em tempo realCompreensão de mídia
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
CLI local
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
A compreensão de mídia usa qualquer modelo com capacidade de visão ou áudio registrado na sua configuração de provedor. A matriz acima lista provedores com suporte dedicado a compreensão de mídia; a maioria dos provedores de LLM multimodais (Anthropic, Google, OpenAI etc.) também consegue entender mídia recebida quando configurada como o modelo ativo de resposta.

Assíncrono vs. síncrono

RecursoModoPor quê
ImagemSíncronoAs respostas do provedor retornam em segundos; conclui em linha com a resposta.
Conversão de texto em falaSíncronoAs respostas do provedor retornam em segundos; anexadas ao áudio da resposta.
VídeoAssíncronoO processamento do provedor leva de 30 s a vários minutos; filas lentas podem executar até o timeout configurado.
Música (compartilhada)AssíncronoMesma característica de processamento do provedor que vídeo.
Música (ComfyUI)SíncronoO fluxo de trabalho local executa em linha contra o servidor ComfyUI configurado.
Para ferramentas assíncronas, o OpenClaw envia a solicitação ao provedor, retorna um id de tarefa imediatamente e rastreia o trabalho no registro de tarefas. O agente continua respondendo a outras mensagens enquanto o trabalho executa. Quando o provedor termina, o OpenClaw acorda o agente com os caminhos da mídia gerada para que ele possa avisar o usuário e, quando exigido pela política de entrega da origem, retransmitir o resultado pela ferramenta de mensagens. Para rotas de grupo/canal somente com ferramenta de mensagens, o OpenClaw trata a ausência de evidência de entrega pela ferramenta de mensagens como uma tentativa de conclusão com falha e envia o fallback de mídia gerada diretamente ao canal original.

Fala para texto e chamada de voz

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio e xAI podem transcrever áudio recebido pelo caminho em lote tools.media.audio quando configurados. Plugins de canal que fazem preflight de uma nota de voz para filtragem por menção ou análise de comando marcam o anexo transcrito no contexto recebido, então a passagem compartilhada de compreensão de mídia reutiliza essa transcrição em vez de fazer uma segunda chamada STT para o mesmo áudio. Deepgram, ElevenLabs, Mistral, OpenAI e xAI também registram provedores de STT em streaming para chamadas de voz, então áudio telefônico ao vivo pode ser encaminhado ao fornecedor selecionado sem aguardar uma gravação concluída. Para conversas ao vivo com usuários, prefira o modo Talk. Anexos de áudio em lote permanecem no caminho de mídia; tempo real no navegador, apertar para falar nativo, telefonia e áudio de reunião devem usar eventos Talk e os catálogos com escopo de sessão retornados pelo Gateway.

Mapeamentos de provedores (como os fornecedores se dividem entre superfícies)

Superfícies de imagem, vídeo, música, TTS em lote, voz em tempo real de backend e compreensão de mídia.
Superfícies de imagem, vídeo, TTS em lote, STT em lote, STT em streaming para chamadas de voz, voz em tempo real de backend e embedding de memória.
Superfícies de roteamento de chat/modelo, geração/edição de imagens, texto para vídeo, TTS em lote, STT em lote, compreensão de mídia de imagem e embedding de memória. Modelos nativos da DeepInfra de rerank/classificação/detecção de objetos não são registrados até que o OpenClaw tenha contratos de provedor dedicados para essas categorias.
Imagem, vídeo, busca, execução de código, TTS em lote, STT em lote e STT em streaming para chamadas de voz. Voz em tempo real da xAI é um recurso upstream, mas não está registrada no OpenClaw até que o contrato compartilhado de voz em tempo real consiga representá-la.

Relacionado