Mediaoverzicht - OpenClaw

OpenClaw genereert afbeeldingen, video’s en muziek, begrijpt inkomende media (afbeeldingen, audio, video) en spreekt antwoorden hardop uit met tekst-naar-spraak. Alle mediamogelijkheden zijn toolgestuurd: de agent beslist op basis van het gesprek wanneer ze worden gebruikt, en elke tool verschijnt alleen wanneer ten minste één ondersteunende provider is geconfigureerd. Live spraak gebruikt het Talk-sessiecontract in plaats van het eenmalige mediatoolpad. Talk heeft drie modi: provider-native realtime, lokale of streaming stt-tts, en transcription voor spraakopname die alleen observeert. Deze modi delen providercatalogi, event-enveloppen en annuleringssemantiek met telefonie, vergaderingen, browser-realtime en native push-to-talk-clients.

Mogelijkheden

Afbeeldingen genereren

Maak en bewerk afbeeldingen op basis van tekstprompts of referentieafbeeldingen via image_generate. Asynchroon in chatsessies — draait op de achtergrond en plaatst het resultaat zodra het klaar is.

Video genereren

Tekst-naar-video, afbeelding-naar-video en video-naar-video via video_generate. Asynchroon — draait op de achtergrond en plaatst het resultaat zodra het klaar is.

Muziek genereren

Genereer muziek of audiotracks via music_generate. Asynchroon in chatsessies op de gedeelde taaklevenscyclus voor mediageneratie.

Tekst-naar-spraak

Zet uitgaande antwoorden om naar gesproken audio via de tool tts plus de configuratie messages.tts. Synchroon.

Mediabegrip

Vat inkomende afbeeldingen, audio en video samen met modelproviders die vision ondersteunen en speciale plugins voor mediabegrip.

Spraak-naar-tekst

Transcribeer inkomende spraakberichten via batch-STT of streaming-STT-providers voor Spraakoproepen.

Matrix met providermogelijkheden

Provider	Afbeelding	Video	Muziek	TTS	STT	Realtime spraak	Mediabegrip
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Mediabegrip gebruikt elk vision-geschikt of audio-geschikt model dat in je providerconfiguratie is geregistreerd. De matrix hierboven vermeldt providers met speciale ondersteuning voor mediabegrip; de meeste multimodale LLM-providers (Anthropic, Google, OpenAI, enz.) kunnen ook inkomende media begrijpen wanneer ze zijn geconfigureerd als het actieve antwoordmodel.

Asynchroon versus synchroon

Mogelijkheid	Modus	Waarom
Afbeelding	Asynchroon	Providerverwerking kan langer duren dan een chatbeurt; gegenereerde bijlagen gebruiken het gedeelde voltooiingspad.
Tekst-naar-spraak	Synchroon	Providerantwoorden komen binnen enkele seconden terug; gekoppeld aan de antwoordaudio.
Video	Asynchroon	Providerverwerking duurt 30 s tot enkele minuten; trage wachtrijen kunnen doorlopen tot de geconfigureerde time-out.
Muziek	Asynchroon	Dezelfde providerverwerkingskenmerken als video.

Voor asynchrone tools dient OpenClaw de aanvraag in bij de provider, retourneert direct een taak-id en volgt de job in het taakregister. De agent blijft op andere berichten reageren terwijl de job draait. Wanneer de provider klaar is, wekt OpenClaw de agent met de gegenereerde mediapaden, zodat die de gebruiker kan informeren via de normale zichtbare-antwoordmodus van de sessie: automatische levering van het definitieve antwoord wanneer geconfigureerd, of message(action="send") wanneer de sessie de berichttool vereist. Als de sessie van de aanvrager inactief is of de actieve wake mislukt, en er nog gegenereerde media ontbreken in het voltooiingsantwoord, stuurt OpenClaw een idempotente directe fallback met alleen de ontbrekende media. Media die al door het voltooiingsantwoord zijn geleverd, worden niet opnieuw geplaatst.

Spraak-naar-tekst en Spraakoproep

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio en xAI kunnen allemaal inkomende audio transcriberen via het batchpad tools.media.audio wanneer ze zijn geconfigureerd. Kanaalplugins die vooraf een spraaknotitie controleren voor vermeldingsgating of commando-parsering markeren de getranscribeerde bijlage op de inkomende context, zodat de gedeelde mediabegripspass die transcriptie hergebruikt in plaats van een tweede STT-aanroep te doen voor dezelfde audio. Deepgram, ElevenLabs, Mistral, OpenAI en xAI registreren ook streaming-STT-providers voor Spraakoproepen, zodat live telefoonaudio naar de geselecteerde leverancier kan worden doorgestuurd zonder te wachten op een voltooide opname. Gebruik voor live gebruikersgesprekken bij voorkeur Talk-modus. Batch-audiobijlagen blijven op het mediapad; browser-realtime, native push-to-talk, telefonie en vergaderaudio moeten Talk-events en de sessiegebonden catalogi gebruiken die door de Gateway worden geretourneerd.

Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

Google

Oppervlakken voor afbeeldingen, video, muziek, batch-TTS, backend-realtime spraak en mediabegrip.

OpenAI

Oppervlakken voor afbeeldingen, video, batch-TTS, batch-STT, streaming-STT voor Spraakoproepen, backend-realtime spraak en geheugen-embeddings.

DeepInfra

Chat-/modelroutering, afbeeldingen genereren/bewerken, tekst-naar-video, batch-TTS, batch-STT, mediabegrip voor afbeeldingen en geheugen-embeddings. DeepInfra-native modellen voor reranking/classificatie/objectdetectie worden pas geregistreerd wanneer OpenClaw speciale providercontracten voor die categorieën heeft.

xAI

Afbeeldingen, video, zoeken, code-uitvoering, batch-TTS, batch-STT en streaming-STT voor Spraakoproepen. xAI Realtime spraak is een upstreammogelijkheid, maar wordt niet in OpenClaw geregistreerd totdat het gedeelde contract voor realtime spraak dit kan vertegenwoordigen.

​Mogelijkheden

Afbeeldingen genereren

Video genereren

Muziek genereren

Tekst-naar-spraak

Mediabegrip

Spraak-naar-tekst

​Matrix met providermogelijkheden

​Asynchroon versus synchroon

​Spraak-naar-tekst en Spraakoproep

​Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

​Gerelateerd

Mogelijkheden

Matrix met providermogelijkheden

Asynchroon versus synchroon

Spraak-naar-tekst en Spraakoproep

Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

Gerelateerd