跳轉到主要內容

Documentation Index

Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw 會產生圖片、影片和音樂,理解傳入媒體(圖片、音訊、影片),並使用文字轉語音大聲朗讀回覆。所有媒體能力都由工具驅動:agent 會根據對話決定何時使用它們,而且每個工具只有在至少設定一個支援提供者時才會出現。 即時語音使用 Talk 工作階段合約,而不是一次性媒體工具路徑。Talk 有三種模式:提供者原生的 realtime、本機或串流 stt-tts,以及用於僅觀察語音擷取的 transcription。這些模式與電話、會議、瀏覽器即時功能,以及原生按住說話用戶端共用提供者目錄、事件封套和取消語意。

能力

圖片產生

透過 image_generate 從文字提示或參考圖片建立和編輯圖片。同步 — 會在回覆中行內完成。

影片產生

透過 video_generate 進行文字轉影片、圖片轉影片和影片轉影片。非同步 — 在背景執行,並在準備就緒時發布結果。

音樂產生

透過 music_generate 產生音樂或音訊軌。共用提供者為非同步;ComfyUI 工作流程路徑會同步執行。

文字轉語音

透過 tts 工具加上 messages.tts 設定,將輸出回覆轉換為語音音訊。同步。

媒體理解

使用具備視覺能力的模型提供者和專用媒體理解 plugins,摘要傳入的圖片、音訊和影片。

語音轉文字

透過批次 STT 或 Voice Call 串流 STT 提供者轉錄傳入的語音訊息。

提供者能力矩陣

提供者圖片影片音樂TTSSTT即時語音媒體理解
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
媒體理解會使用提供者設定中註冊的任何具備視覺能力或音訊能力的模型。上方矩陣列出具備專用媒體理解支援的提供者;大多數多模態 LLM 提供者(Anthropic、Google、OpenAI 等)在設定為作用中的回覆模型時,也可以理解傳入媒體。

非同步與同步

能力模式原因
圖片同步提供者回應會在數秒內返回;在回覆中行內完成。
文字轉語音同步提供者回應會在數秒內返回;附加到回覆音訊。
影片非同步提供者處理需要 30 秒到數分鐘;緩慢佇列可執行到設定的逾時時間。
音樂(共用)非同步與影片相同的提供者處理特性。
音樂(ComfyUI)同步本機工作流程會針對設定的 ComfyUI 伺服器行內執行。
對於非同步工具,OpenClaw 會將請求提交給提供者、立即返回任務 ID,並在任務帳本中追蹤作業。agent 會在作業執行時繼續回覆其他訊息。提供者完成後,OpenClaw 會用產生的媒體路徑喚醒 agent,讓它可以告知使用者,並在來源傳遞政策要求時,透過訊息工具轉送結果。對於僅限訊息工具的群組/頻道路由,OpenClaw 會將缺少訊息工具傳遞證據視為完成嘗試失敗,並直接將產生的媒體備援傳送到原始頻道。

語音轉文字與 Voice Call

Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、OpenRouter、SenseAudio 和 xAI 在設定後,都可以透過批次 tools.media.audio 路徑轉錄傳入音訊。預先檢查語音筆記以進行提及門控或命令解析的頻道 plugins,會在傳入內容中標記已轉錄的附件,因此共用媒體理解階段會重用該逐字稿,而不是對同一段音訊進行第二次 STT 呼叫。 Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 也會註冊 Voice Call 串流 STT 提供者,因此即時電話音訊可以轉送到選定的供應商,而不必等待錄音完成。 對於即時使用者對話,優先使用 Talk 模式。批次音訊附件會留在媒體路徑上;瀏覽器即時功能、原生按住說話、電話和會議音訊應使用 Talk 事件,以及 Gateway 傳回的工作階段範圍目錄。

提供者對應(供應商如何分散到各介面)

圖片、影片、音樂、批次 TTS、後端即時語音,以及媒體理解介面。
圖片、影片、批次 TTS、批次 STT、Voice Call 串流 STT、後端即時語音,以及記憶嵌入介面。
聊天/模型路由、圖片產生/編輯、文字轉影片、批次 TTS、批次 STT、圖片媒體理解,以及記憶嵌入介面。DeepInfra 原生的重新排序/分類/物件偵測模型在 OpenClaw 具備這些類別的專用提供者合約之前,不會註冊。
圖片、影片、搜尋、程式碼執行、批次 TTS、批次 STT 和 Voice Call 串流 STT。xAI Realtime 語音是一項上游能力,但在共用即時語音合約能夠表示它之前,不會在 OpenClaw 中註冊。

相關