媒體概覽 - OpenClaw

OpenClaw 會產生圖片、影片和音樂、理解傳入媒體（圖片、音訊、影片），並透過文字轉語音大聲朗讀回覆。所有媒體功能都由工具驅動：代理會根據對話決定何時使用它們，而每個工具只會在至少設定一個後端供應商時出現。即時語音使用 Talk 工作階段合約，而不是一次性媒體工具路徑。Talk 有三種模式：供應商原生的 realtime、本機或串流 stt-tts，以及用於僅觀察語音擷取的 transcription。這些模式與電話、會議、瀏覽器即時通訊和原生按鍵通話用戶端共用供應商目錄、事件封套和取消語意。

功能

圖片產生

透過 image_generate，從文字提示或參考圖片建立及編輯圖片。在聊天工作階段中非同步執行 — 會在背景執行，並在準備好時張貼結果。

影片產生

透過 video_generate 進行文字轉影片、圖片轉影片和影片轉影片。非同步 — 會在背景執行，並在準備好時張貼結果。

音樂產生

透過 music_generate 產生音樂或音軌。在聊天工作階段中會在共用的媒體產生任務生命週期上非同步執行。

文字轉語音

透過 tts 工具加上 messages.tts 設定，將外送回覆轉換為語音音訊。同步執行。

媒體理解

使用具備視覺能力的模型供應商和專用媒體理解外掛，摘要傳入的圖片、音訊和影片。

語音轉文字

透過批次 STT 或 Voice Call 串流 STT 供應商轉錄傳入語音訊息。

供應商功能矩陣

此表涵蓋專用的媒體產生、TTS 和 STT 外掛。許多聊天模型供應商（Anthropic、Google、OpenAI 等）也能透過其回覆模型理解傳入媒體；請參閱媒體理解中的完整供應商清單。

供應商	圖片	影片	音樂	TTS	STT	即時語音	媒體理解
Alibaba		✓
Azure Speech				✓
BytePlus		✓
ComfyUI	✓	✓	✓
Deepgram					✓
DeepInfra	✓	✓		✓	✓		✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓	✓	✓	✓
Gradium				✓
Inworld				✓
LiteLLM	✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
PixVerse		✓
Qwen		✓					✓
Runway		✓
SenseAudio					✓
Together		✓
Volcengine				✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo				✓

此處的即時語音表示供應商原生雙向即時通訊（Talk realtime 模式，例如 Gemini Live 或 OpenAI Realtime API）— 目前只有 Google 和 OpenAI 註冊。Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 另行註冊 Voice Call 串流 STT（單向音訊轉文字）；請參閱下方的語音轉文字和 Voice Call。 xAI Realtime voice 是上游功能，但在共用即時語音合約能夠表示它之前，尚未在 OpenClaw 中註冊。

非同步與同步

功能	模式	原因
圖片	非同步	供應商處理可能比一次聊天輪次更久；產生的附件會使用共用完成路徑。
文字轉語音	同步	供應商回應會在數秒內返回；附加到回覆音訊。
影片	非同步	供應商處理需要 30 秒到數分鐘；慢速佇列可執行到設定的逾時時間。
音樂	非同步	與影片相同的供應商處理特性。

對於非同步工具，OpenClaw 會將請求提交給供應商、立即返回任務 id，並在任務帳本中追蹤作業。代理會在作業執行期間繼續回應其他訊息。當供應商完成時，OpenClaw 會以產生的媒體路徑喚醒代理，讓它能透過工作階段的一般可見回覆模式告知使用者：在已設定時自動傳送最終回覆，或在工作階段需要訊息工具時使用 message(action="send")。如果請求者工作階段處於非作用中狀態，或其作用中喚醒失敗，且完成回覆仍缺少部分產生的媒體， OpenClaw 會傳送冪等的直接後備，只包含缺少的媒體。已由完成回覆傳送的媒體不會再次張貼。

語音轉文字和 Voice Call

Deepgram、DeepInfra、ElevenLabs、Google、Groq、Mistral、OpenAI、OpenRouter、 SenseAudio 和 xAI 都可以在設定後透過批次 tools.media.audio 路徑轉錄傳入音訊。會針對提及閘控或命令剖析預檢語音筆記的頻道外掛，會在傳入內容上標記已轉錄的附件，因此共用媒體理解流程會重用該文字稿，而不是針對同一段音訊發出第二次 STT 呼叫。 Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 也會註冊 Voice Call 串流 STT 供應商，因此即時電話音訊可以轉送給選定廠商，而不必等待完整錄音完成。對於即時使用者對話，請優先使用 Talk 模式。批次音訊附件仍留在媒體路徑；瀏覽器即時通訊、原生按鍵通話、電話和會議音訊應使用 Talk 事件，以及由閘道返回的工作階段範圍目錄。

供應商對應（廠商如何拆分到各介面）

Google

圖片、影片、音樂、批次 TTS、批次 STT、後端即時語音，以及媒體理解介面。

OpenAI

圖片、影片、批次 TTS、批次 STT、Voice Call 串流 STT、後端即時語音，以及記憶嵌入介面。

DeepInfra

聊天/模型路由、圖片產生/編輯、文字轉影片、批次 TTS、批次 STT、圖片媒體理解，以及記憶嵌入介面。 DeepInfra 也公開重新排序、分類、物件偵測和其他原生模型類型；OpenClaw 尚未針對這些類別提供供應商合約，因此此外掛不會註冊它們。

xAI

圖片、影片、搜尋、程式碼執行、批次 TTS、批次 STT，以及 Voice Call 串流 STT。xAI Realtime voice 是上游功能，但在共用即時語音合約能夠表示它之前，尚未在 OpenClaw 中註冊。

​功能

圖片產生

影片產生

音樂產生

文字轉語音

媒體理解

語音轉文字

​供應商功能矩陣

​非同步與同步

​語音轉文字和 Voice Call

​供應商對應（廠商如何拆分到各介面）

​相關

功能

供應商功能矩陣

非同步與同步

語音轉文字和 Voice Call

供應商對應（廠商如何拆分到各介面）

相關