OpenClaw genereert afbeeldingen, video’s en muziek, begrijpt inkomende media (afbeeldingen, audio, video), en spreekt antwoorden hardop uit met tekst-naar-spraak. Alle mediamogelijkheden zijn toolgestuurd: de agent beslist op basis van het gesprek wanneer ze worden gebruikt, en elke tool verschijnt alleen wanneer er minstens één achterliggende provider is geconfigureerd. Live spraak gebruikt het Talk-sessiecontract in plaats van het eenmalige mediatoolpad. Talk heeft drie modi: provider-nativeDocumentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
realtime, lokale of streamende
stt-tts, en transcription voor alleen-observerende spraakopname. Die modi
delen providercatalogi, event-enveloppen en annuleringssemantiek met
telefonie, vergaderingen, browser-realtime en native push-to-talk-clients.
Mogelijkheden
Afbeeldingen genereren
Maak en bewerk afbeeldingen vanuit tekstprompts of referentieafbeeldingen via
image_generate. Synchroon — wordt inline met het antwoord voltooid.Video genereren
Tekst-naar-video, afbeelding-naar-video en video-naar-video via
video_generate.
Asynchroon — draait op de achtergrond en plaatst het resultaat zodra het klaar is.Muziek genereren
Genereer muziek of audiotracks via
music_generate. Asynchroon op gedeelde
providers; het ComfyUI-workflowpad draait synchroon.Tekst-naar-spraak
Zet uitgaande antwoorden om naar gesproken audio via de
tts-tool plus
messages.tts-configuratie. Synchroon.Mediabegrip
Vat inkomende afbeeldingen, audio en video samen met vision-capable
modelproviders en speciale plugins voor mediabegrip.
Spraak-naar-tekst
Transcribeer inkomende spraakberichten via batch-STT of Voice Call
streaming-STT-providers.
Matrix met providermogelijkheden
| Provider | Afbeelding | Video | Muziek | TTS | STT | Realtime spraak | Mediabegrip |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Mediabegrip gebruikt elk vision-capable of audio-capable model dat in je
providerconfiguratie is geregistreerd. De bovenstaande matrix vermeldt providers
met speciale ondersteuning voor mediabegrip; de meeste multimodale LLM-providers
(Anthropic, Google, OpenAI, enz.) kunnen ook inkomende media begrijpen wanneer
ze zijn geconfigureerd als het actieve antwoordmodel.
Asynchroon versus synchroon
| Mogelijkheid | Modus | Waarom |
|---|---|---|
| Afbeelding | Synchroon | Providerantwoorden keren binnen seconden terug; wordt inline met het antwoord voltooid. |
| Tekst-naar-spraak | Synchroon | Providerantwoorden keren binnen seconden terug; gekoppeld aan de antwoordaudio. |
| Video | Asynchroon | Providerverwerking duurt 30 s tot enkele minuten; trage wachtrijen kunnen doorlopen tot de geconfigureerde time-out. |
| Muziek (gedeeld) | Asynchroon | Dezelfde providerverwerkingskarakteristiek als video. |
| Muziek (ComfyUI) | Synchroon | Lokale workflow draait inline tegen de geconfigureerde ComfyUI-server. |
Spraak-naar-tekst en Voice Call
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio en xAI kunnen allemaal inkomende audio transcriberen via het batchpadtools.media.audio wanneer ze zijn geconfigureerd.
Kanaalplugins die een spraaknotitie vooraf controleren voor mention-gating of
commandoparsing markeren de getranscribeerde bijlage op de inkomende context,
zodat de gedeelde mediabegripspas dat transcript hergebruikt in plaats van een
tweede STT-aanroep te doen voor dezelfde audio.
Deepgram, ElevenLabs, Mistral, OpenAI en xAI registreren ook Voice Call
streaming-STT-providers, zodat live telefoonaudio kan worden doorgestuurd naar
de geselecteerde leverancier zonder te wachten op een voltooide opname.
Geef voor live gebruikersgesprekken de voorkeur aan Talk-modus. Batch-audiobijlagen
blijven op het mediapad; browser-realtime, native push-to-talk,
telefonie en vergaderaudio moeten Talk-events en de sessiegebonden
catalogi gebruiken die door de Gateway worden geretourneerd.
Providermappings (hoe leveranciers oppervlakken verdelen)
Google
Oppervlakken voor afbeelding, video, muziek, batch-TTS, backend-realtime spraak en
mediabegrip.
OpenAI
OpenAI
Oppervlakken voor afbeelding, video, batch-TTS, batch-STT, Voice Call streaming-STT,
backend-realtime spraak en geheugenembeddings.
DeepInfra
DeepInfra
Chat-/modelroutering, afbeeldingen genereren/bewerken, tekst-naar-video, batch-TTS,
batch-STT, mediabegrip voor afbeeldingen en geheugenembeddings.
DeepInfra-native modellen voor rerank/classificatie/objectdetectie worden niet
geregistreerd totdat OpenClaw speciale providercontracten voor die
categorieën heeft.
xAI
xAI
Afbeelding, video, zoeken, code-uitvoering, batch-TTS, batch-STT en Voice
Call streaming-STT. xAI Realtime-spraak is een upstreammogelijkheid, maar is
niet geregistreerd in OpenClaw totdat het gedeelde contract voor realtime-spraak
dit kan weergeven.