Google Plugin 透過 Google AI Studio 提供 Gemini 模型存取,並支援 圖片生成、媒體理解(圖片/音訊/影片)、文字轉語音,以及透過 Gemini Grounding 進行網頁搜尋。Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- 供應商:
google - 驗證:
GEMINI_API_KEY或GOOGLE_API_KEY - API:Google Gemini API
- 執行階段選項:provider/model
agentRuntime.id: "google-gemini-cli"會重複使用 Gemini CLI OAuth,同時維持模型參照以google/*作為標準格式。
開始使用
選擇偏好的驗證方式並依照設定步驟操作。功能
| 功能 | 支援 |
|---|---|
| 對話補全 | 是 |
| 圖片生成 | 是 |
| 音樂生成 | 是 |
| 文字轉語音 | 是 |
| 即時語音 | 是(Google Live API) |
| 圖片理解 | 是 |
| 音訊轉錄 | 是 |
| 影片理解 | 是 |
| 網頁搜尋(Grounding) | 是 |
| 思考/推理 | 是(Gemini 2.5+ / Gemini 3+) |
| Gemma 4 模型 | 是 |
網頁搜尋
內建的gemini 網頁搜尋供應商使用 Gemini Google Search grounding。
請在 plugins.entries.google.config.webSearch 下設定專用搜尋金鑰,
或讓它在 GEMINI_API_KEY 之後重複使用 models.providers.google.apiKey:
webSearch.apiKey,接著是 GEMINI_API_KEY,
再來是 models.providers.google.apiKey。webSearch.baseUrl 是選用項,
用於操作員代理或相容的 Gemini API 端點;省略時,
Gemini 網頁搜尋會重複使用 models.providers.google.baseUrl。請參閱
Gemini 搜尋以了解供應商專屬工具行為。
圖片生成
內建的google 圖片生成供應商預設為
google/gemini-3.1-flash-image-preview。
- 也支援
google/gemini-3-pro-image-preview - 生成:每次請求最多 4 張圖片
- 編輯模式:已啟用,最多 5 張輸入圖片
- 幾何控制:
size、aspectRatio和resolution
請參閱圖片生成,了解共用工具參數、供應商選擇和容錯移轉行為。
影片生成
內建的google Plugin 也會透過共用的
video_generate 工具註冊影片生成。
- 預設影片模型:
google/veo-3.1-fast-generate-preview - 模式:文字轉影片、圖片轉影片,以及單一影片參考流程
- 支援
aspectRatio(16:9、9:16)和resolution(720P、1080P);Veo 目前不支援音訊輸出 - 支援的時長:4、6 或 8 秒(其他值會貼齊到最接近的允許值)
請參閱影片生成,了解共用工具參數、供應商選擇和容錯移轉行為。
音樂生成
內建的google Plugin 也會透過共用的
music_generate 工具註冊音樂生成。
- 預設音樂模型:
google/lyria-3-clip-preview - 也支援
google/lyria-3-pro-preview - 提示控制:
lyrics和instrumental - 輸出格式:預設為
mp3,另外google/lyria-3-pro-preview支援wav - 參考輸入:最多 10 張圖片
- 以工作階段支援的執行會透過共用的工作/狀態流程分離,包含
action: "status"
請參閱音樂生成,了解共用工具參數、供應商選擇和容錯移轉行為。
文字轉語音
內建的google 語音供應商使用 Gemini API TTS 路徑搭配
gemini-3.1-flash-tts-preview。
- 預設語音:
Kore - 驗證:
messages.tts.providers.google.apiKey、models.providers.google.apiKey、GEMINI_API_KEY或GOOGLE_API_KEY - 輸出:一般 TTS 附件使用 WAV,語音備註目標使用 Opus,Talk/電話使用 PCM
- 語音備註輸出:Google PCM 會包裝為 WAV,並使用
ffmpeg轉碼為 48 kHz Opus
generateContent 回應中傳回生成的音訊。若要獲得最低延遲的語音對話,請使用
由 Gemini Live API 支援的 Google 即時語音供應商,而不是批次
TTS。
若要使用 Google 作為預設 TTS 供應商:
audioProfile 可在朗讀文字前加上可重複使用的風格提示。當提示文字提到具名說話者時,請設定
speakerName。
Gemini API TTS 也接受文字中的表達性方括號音訊標籤,
例如 [whispers] 或 [laughs]。若要讓標籤不出現在可見的聊天回覆中,
但仍傳送給 TTS,請將它們放在 [[tts:text]]...[[/tts:text]]
區塊內:
限制為 Gemini API 的 Google Cloud Console API 金鑰可用於此
供應商。這不是另一條 Cloud Text-to-Speech API 路徑。
即時語音
內建的google Plugin 會註冊由
Gemini Live API 支援的即時語音供應商,用於 Voice Call 和 Google Meet 等後端音訊橋接。
| 設定 | 設定路徑 | 預設值 |
|---|---|---|
| 模型 | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| 語音 | ...google.voice | Kore |
| 溫度 | ...google.temperature | (未設定) |
| VAD 開始敏感度 | ...google.startSensitivity | (未設定) |
| VAD 結束敏感度 | ...google.endSensitivity | (未設定) |
| 靜音持續時間 | ...google.silenceDurationMs | (未設定) |
| 活動處理 | ...google.activityHandling | Google 預設值,start-of-activity-interrupts |
| 回合涵蓋範圍 | ...google.turnCoverage | Google 預設值,only-activity |
| 停用自動 VAD | ...google.automaticActivityDetectionDisabled | false |
| 工作階段恢復 | ...google.sessionResumption | true |
| 上下文壓縮 | ...google.contextWindowCompression | true |
| API 金鑰 | ...google.apiKey | 回退使用 models.providers.google.apiKey、GEMINI_API_KEY 或 GOOGLE_API_KEY |
Google Live API 透過 WebSocket 使用雙向音訊和函式呼叫。
OpenClaw 會將電話/Meet 橋接音訊調整為 Gemini 的 PCM Live API 串流,並
在共用的即時語音合約上保留工具呼叫。除非需要變更取樣,否則讓
temperature
保持未設定;OpenClaw 會省略非正值,因為 Google Live 可能會針對 temperature: 0
傳回沒有音訊的轉錄。
Gemini API 轉錄會在沒有 languageCodes 的情況下啟用;目前的 Google
SDK 會拒絕此 API 路徑上的語言代碼提示。Control UI Talk 支援使用受限一次性權杖的 Google Live 瀏覽器工作階段。
僅後端的即時語音提供者也可以透過通用
Gateway 轉送傳輸執行,該傳輸會將提供者憑證保留在 Gateway 上。
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts。
此煙霧測試也涵蓋 OpenAI 後端/WebRTC 路徑;Google 段落會鑄造 Control UI Talk 使用的相同
受限 Live API 權杖形狀、開啟瀏覽器
WebSocket 端點、傳送初始設定承載,並等待
setupComplete。
進階設定
直接重用 Gemini 快取
直接重用 Gemini 快取
對於直接 Gemini API 執行(
api: "google-generative-ai"),OpenClaw
會將已設定的 cachedContent 控制代碼傳遞給 Gemini 請求。- 使用
cachedContent或舊版cached_content設定每個模型或全域參數 - 如果兩者都存在,
cachedContent優先 - 範例值:
cachedContents/prebuilt-context - Gemini 快取命中用量會從上游
cachedContentTokenCount正規化為 OpenClawcacheRead
Gemini CLI JSON 用量注意事項
Gemini CLI JSON 用量注意事項
使用
google-gemini-cli OAuth 提供者時,OpenClaw 會依下列方式正規化
CLI JSON 輸出:- 回覆文字來自 CLI JSON
response欄位。 - 當 CLI 將
usage留空時,用量會回退使用stats。 stats.cached會正規化為 OpenClawcacheRead。- 如果缺少
stats.input,OpenClaw 會從stats.input_tokens - stats.cached推導輸入權杖。
環境與常駐程式設定
環境與常駐程式設定
如果 Gateway 以常駐程式(launchd/systemd)執行,請確認
GEMINI_API_KEY
可供該程序使用(例如在 ~/.openclaw/.env 中,或透過
env.shellEnv)。相關
模型選擇
選擇提供者、模型參照和容錯移轉行為。
圖片生成
共用圖片工具參數和提供者選擇。
影片生成
共用影片工具參數和提供者選擇。
音樂生成
共用音樂工具參數和提供者選擇。