- Поставщик:
google - Аутентификация:
GEMINI_API_KEYилиGOOGLE_API_KEY - API: Google Gemini API
- Параметр среды выполнения: provider/model
agentRuntime.id: "google-gemini-cli"повторно использует OAuth Gemini CLI, сохраняя ссылки на модели каноническими какgoogle/*.
Начало работы
Выберите предпочитаемый способ аутентификации и выполните шаги настройки.- API key
- Gemini CLI (OAuth)
Возможности
| Возможность | Поддерживается |
|---|---|
| Чат-завершения | Да |
| Генерация изображений | Да |
| Генерация музыки | Да |
| Преобразование текста в речь | Да |
| Голос в реальном времени | Да (Google Live API) |
| Понимание изображений | Да |
| Транскрипция аудио | Да |
| Понимание видео | Да |
| Веб-поиск (Grounding) | Да |
| Мышление/рассуждение | Да (Gemini 2.5+ / Gemini 3+) |
| Модели Gemma 4 | Да |
Веб-поиск
Встроенный поставщик веб-поискаgemini использует Grounding Gemini Google Search.
Настройте отдельный ключ поиска в plugins.entries.google.config.webSearch,
или разрешите повторно использовать models.providers.google.apiKey после GEMINI_API_KEY:
webSearch.apiKey, затем GEMINI_API_KEY,
затем models.providers.google.apiKey. webSearch.baseUrl необязателен и
предназначен для операторских прокси или совместимых конечных точек Gemini API; если он не указан,
веб-поиск Gemini повторно использует models.providers.google.baseUrl. См.
поиск Gemini для поведения инструмента, специфичного для поставщика.
Генерация изображений
Встроенный поставщик генерации изображенийgoogle по умолчанию использует
google/gemini-3.1-flash-image-preview.
- Также поддерживает
google/gemini-3-pro-image-preview - Генерация: до 4 изображений за запрос
- Режим редактирования: включен, до 5 входных изображений
- Элементы управления геометрией:
size,aspectRatioиresolution
См. Генерация изображений для общих параметров инструмента, выбора поставщика и поведения failover.
Генерация видео
Встроенный Plugingoogle также регистрирует генерацию видео через общий
инструмент video_generate.
- Модель видео по умолчанию:
google/veo-3.1-fast-generate-preview - Режимы: текст-в-видео, изображение-в-видео и потоки с одним видео-референсом
- Поддерживает
aspectRatio(16:9,9:16) иresolution(720P,1080P); аудиовывод сегодня не поддерживается Veo - Поддерживаемые длительности: 4, 6 или 8 секунд (другие значения округляются до ближайшего разрешенного значения)
См. Генерация видео для общих параметров инструмента, выбора поставщика и поведения failover.
Генерация музыки
Встроенный Plugingoogle также регистрирует генерацию музыки через общий
инструмент music_generate.
- Модель музыки по умолчанию:
google/lyria-3-clip-preview - Также поддерживает
google/lyria-3-pro-preview - Элементы управления промптом:
lyricsиinstrumental - Формат вывода:
mp3по умолчанию, а такжеwavвgoogle/lyria-3-pro-preview - Референсные входные данные: до 10 изображений
- Запуски, поддерживаемые сессиями, отделяются через общий поток задач/статусов, включая
action: "status"
См. Генерация музыки для общих параметров инструмента, выбора поставщика и поведения failover.
Преобразование текста в речь
Встроенный поставщик речиgoogle использует путь TTS Gemini API с
gemini-3.1-flash-tts-preview.
- Голос по умолчанию:
Kore - Аутентификация:
messages.tts.providers.google.apiKey,models.providers.google.apiKey,GEMINI_API_KEYилиGOOGLE_API_KEY - Вывод: WAV для обычных вложений TTS, Opus для целей голосовых заметок, PCM для Talk/телефонии
- Вывод голосовых заметок: Google PCM упаковывается как WAV и транскодируется в Opus 48 кГц с помощью
ffmpeg
generateContent. Для разговоров с минимальной задержкой используйте
поставщика голоса Google в реальном времени на базе Gemini Live API вместо пакетного
TTS.
Чтобы использовать Google как поставщика TTS по умолчанию:
audioProfile, чтобы добавлять повторно используемый стилевой промпт перед произносимым текстом. Задайте
speakerName, когда текст промпта ссылается на именованного говорящего.
Gemini API TTS также принимает выразительные аудиотеги в квадратных скобках в тексте,
например [whispers] или [laughs]. Чтобы теги не попадали в видимый ответ чата,
но отправлялись в TTS, поместите их в блок [[tts:text]]...[[/tts:text]]:
API-ключ Google Cloud Console, ограниченный Gemini API, действителен для этого
поставщика. Это не отдельный путь Cloud Text-to-Speech API.
Голос в реальном времени
Встроенный Plugingoogle регистрирует поставщика голоса в реальном времени на базе
Gemini Live API для серверных аудиомостов, таких как Voice Call и Google Meet.
| Настройка | Путь конфигурации | По умолчанию |
|---|---|---|
| Модель | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| Голос | ...google.voice | Kore |
| Температура | ...google.temperature | (не задано) |
| Чувствительность начала VAD | ...google.startSensitivity | (не задано) |
| Чувствительность завершения VAD | ...google.endSensitivity | (не задано) |
| Длительность тишины | ...google.silenceDurationMs | (не задано) |
| Обработка активности | ...google.activityHandling | значение Google по умолчанию, start-of-activity-interrupts |
| Покрытие хода | ...google.turnCoverage | значение Google по умолчанию, only-activity |
| Отключить авто-VAD | ...google.automaticActivityDetectionDisabled | false |
| Возобновление сессии | ...google.sessionResumption | true |
| Сжатие контекста | ...google.contextWindowCompression | true |
| API-ключ | ...google.apiKey | Использует запасной вариант models.providers.google.apiKey, GEMINI_API_KEY или GOOGLE_API_KEY |
Google Live API использует двунаправленное аудио и вызов функций через WebSocket.
OpenClaw адаптирует аудио телефонной связи/моста Meet к потоку PCM Live API Gemini и
сохраняет вызовы инструментов в общем контракте голосовой связи в реальном времени. Оставьте
temperature
незаданным, если вам не нужны изменения сэмплирования; OpenClaw опускает неположительные значения,
потому что Google Live может возвращать транскрипты без аудио при temperature: 0.
Транскрибирование Gemini API включается без languageCodes; текущий Google
SDK отклоняет подсказки с кодами языков на этом пути API.Control UI Talk поддерживает браузерные сессии Google Live с ограниченными одноразовыми
токенами. Серверные провайдеры голосовой связи в реальном времени также могут работать через универсальный
релейный транспорт Gateway, который хранит учетные данные провайдера на Gateway.
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts.
Этот smoke-тест также покрывает серверные/WebRTC-пути OpenAI; ветка Google выпускает тот же
ограниченный токен Live API, который используется Control UI Talk, открывает браузерную
конечную точку WebSocket, отправляет начальную полезную нагрузку настройки и ожидает
setupComplete.
Расширенная конфигурация
Прямое повторное использование кэша Gemini
Прямое повторное использование кэша Gemini
Для прямых запусков Gemini API (
api: "google-generative-ai") OpenClaw
передает настроенный дескриптор cachedContent в запросы Gemini.- Настраивайте параметры для отдельной модели или глобально с помощью
cachedContentлибо устаревшегоcached_content - Если присутствуют оба, приоритет имеет
cachedContent - Пример значения:
cachedContents/prebuilt-context - Использование попаданий в кэш Gemini нормализуется в OpenClaw
cacheReadиз upstreamcachedContentTokenCount
Примечания по использованию Gemini CLI
Примечания по использованию Gemini CLI
При использовании OAuth-провайдера
google-gemini-cli OpenClaw по умолчанию
использует вывод Gemini CLI stream-json и нормализует использование из финальной
полезной нагрузки stats. Устаревшие переопределения --output-format json по-прежнему используют
JSON-парсер.- Текст потокового ответа берется из событий assistant
message. - Для устаревшего JSON-вывода текст ответа берется из поля CLI JSON
response. - Использование использует запасной вариант
stats, когда CLI оставляетusageпустым. stats.cachedнормализуется в OpenClawcacheRead.- Если
stats.inputотсутствует, OpenClaw выводит входные токены изstats.input_tokens - stats.cached.
Настройка окружения и демона
Настройка окружения и демона
Если Gateway работает как демон (launchd/systemd), убедитесь, что
GEMINI_API_KEY
доступен этому процессу (например, в ~/.openclaw/.env или через
env.shellEnv).Связанные материалы
Выбор модели
Выбор провайдеров, ссылок на модели и поведения отработки отказа.
Генерация изображений
Общие параметры инструмента изображений и выбор провайдера.
Генерация видео
Общие параметры инструмента видео и выбор провайдера.
Генерация музыки
Общие параметры инструмента музыки и выбор провайдера.