Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw generiert Bilder, Videos und Musik, versteht eingehende Medien (Bilder, Audio, Video) und spricht Antworten mit Text-to-Speech laut aus. Alle Medienfunktionen sind tool-gesteuert: Der Agent entscheidet anhand der Unterhaltung, wann sie verwendet werden, und jedes Tool erscheint nur, wenn mindestens ein unterstützender Provider konfiguriert ist. Live-Sprache verwendet den Talk-Sitzungsvertrag statt des One-Shot-Media-Tool- Pfads. Talk hat drei Modi: Provider-natives realtime, lokales oder streamendes stt-tts und transcription für reine Beobachtungs-Spracherfassung. Diese Modi teilen Provider-Kataloge, Event-Umschläge und Abbruchsemantik mit Telefonie, Meetings, Browser-Realtime und nativen Push-to-Talk-Clients.

Funktionen

Bildgenerierung

Erstellen und bearbeiten Sie Bilder aus Text-Prompts oder Referenzbildern über image_generate. Synchron — wird inline mit der Antwort abgeschlossen.

Videogenerierung

Text-zu-Video, Bild-zu-Video und Video-zu-Video über video_generate. Asynchron — läuft im Hintergrund und veröffentlicht das Ergebnis, sobald es bereit ist.

Musikgenerierung

Generieren Sie Musik oder Audiospuren über music_generate. Asynchron bei gemeinsam genutzten Providern; der ComfyUI-Workflow-Pfad läuft synchron.

Text-to-Speech

Wandeln Sie ausgehende Antworten über das tts-Tool plus messages.tts-Konfiguration in gesprochene Audioausgabe um. Synchron.

Medienverständnis

Fassen Sie eingehende Bilder, Audio und Video mit vision-fähigen Modell- Providern und dedizierten Medienverständnis-Plugins zusammen.

Speech-to-Text

Transkribieren Sie eingehende Sprachnachrichten über Batch-STT oder Voice Call- Streaming-STT-Provider.

Provider-Funktionsmatrix

ProviderBildVideoMusikTTSSTTRealtime-SpracheMedienverständnis
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
Medienverständnis verwendet jedes vision- oder audiofähige Modell, das in Ihrer Provider-Konfiguration registriert ist. Die obige Matrix listet Provider mit dedizierter Unterstützung für Medienverständnis auf; die meisten multimodalen LLM-Provider (Anthropic, Google, OpenAI usw.) können eingehende Medien ebenfalls verstehen, wenn sie als aktives Antwortmodell konfiguriert sind.

Asynchron vs. synchron

FunktionModusWarum
BildSynchronProvider-Antworten kommen innerhalb von Sekunden zurück; wird inline mit der Antwort abgeschlossen.
Text-to-SpeechSynchronProvider-Antworten kommen innerhalb von Sekunden zurück; wird an das Antwortaudio angehängt.
VideoAsynchronProvider-Verarbeitung dauert 30 s bis mehrere Minuten; langsame Warteschlangen können bis zum konfigurierten Timeout laufen.
Musik (geteilt)AsynchronGleiche Provider-Verarbeitungscharakteristik wie bei Video.
Musik (ComfyUI)SynchronLokaler Workflow läuft inline gegen den konfigurierten ComfyUI-Server.
Für asynchrone Tools sendet OpenClaw die Anfrage an den Provider, gibt sofort eine Task- ID zurück und verfolgt den Job im Task-Ledger. Der Agent beantwortet weiter andere Nachrichten, während der Job läuft. Wenn der Provider fertig ist, weckt OpenClaw den Agent mit den generierten Medienpfaden, damit er den Benutzer informieren und, wenn es die Richtlinie zur Quelldelivery erfordert, das Ergebnis über das Nachrichtentool weiterleiten kann. Bei Gruppen-/Kanalrouten nur über das Nachrichtentool behandelt OpenClaw fehlende Zustellnachweise des Nachrichtentools als fehlgeschlagenen Abschlussversuch und sendet den generierten Medien-Fallback direkt an den ursprünglichen Kanal.

Speech-to-Text und Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio und xAI können alle eingehendes Audio über den Batch-Pfad tools.media.audio transkribieren, wenn sie konfiguriert sind. Kanal-Plugins, die eine Sprachnotiz für Mention-Gating oder Befehls- Parsing vorab prüfen, markieren den transkribierten Anhang im eingehenden Kontext, sodass der gemeinsame Medienverständnis-Durchlauf dieses Transkript wiederverwendet, statt einen zweiten STT-Aufruf für dieselbe Audiodatei zu machen. Deepgram, ElevenLabs, Mistral, OpenAI und xAI registrieren außerdem Voice Call- Streaming-STT-Provider, sodass Live-Telefon-Audio an den ausgewählten Vendor weitergeleitet werden kann, ohne auf eine abgeschlossene Aufzeichnung zu warten. Für Live-Unterhaltungen mit Benutzern bevorzugen Sie den Talk-Modus. Batch-Audio- Anhänge bleiben auf dem Medienpfad; Browser-Realtime, natives Push-to-Talk, Telefonie und Meeting-Audio sollten Talk-Events und die sitzungsbezogenen Kataloge verwenden, die vom Gateway zurückgegeben werden.

Provider-Zuordnungen (wie Vendors auf Oberflächen aufgeteilt werden)

Bild-, Video-, Musik-, Batch-TTS-, Backend-Realtime-Sprach- und Medienverständnis-Oberflächen.
Bild-, Video-, Batch-TTS-, Batch-STT-, Voice Call-Streaming-STT-, Backend- Realtime-Sprach- und Memory-Embedding-Oberflächen.
Chat-/Modell-Routing, Bildgenerierung/-bearbeitung, Text-zu-Video, Batch-TTS, Batch-STT, Bild-Medienverständnis und Memory-Embedding-Oberflächen. DeepInfra-native Rerank-/Klassifikations-/Objekterkennungsmodelle werden nicht registriert, bis OpenClaw dedizierte Provider-Verträge für diese Kategorien hat.
Bild, Video, Suche, Codeausführung, Batch-TTS, Batch-STT und Voice Call-Streaming-STT. xAI Realtime-Sprache ist eine Upstream-Funktion, wird aber in OpenClaw nicht registriert, bis der gemeinsame Realtime-Sprachvertrag sie abbilden kann.

Verwandte Themen