Перейти к основному содержанию
Plugin Google предоставляет доступ к моделям Gemini через Google AI Studio, а также генерацию изображений, понимание медиа (изображения/аудио/видео), преобразование текста в речь и веб-поиск через Gemini Grounding.
  • Поставщик: google
  • Аутентификация: GEMINI_API_KEY или GOOGLE_API_KEY
  • API: Google Gemini API
  • Параметр среды выполнения: provider/model agentRuntime.id: "google-gemini-cli" повторно использует OAuth Gemini CLI, сохраняя ссылки на модели каноническими как google/*.

Начало работы

Выберите предпочитаемый способ аутентификации и выполните шаги настройки.
Лучше всего для: стандартного доступа к Gemini API через Google AI Studio.
1

Run onboarding

openclaw onboard --auth-choice gemini-api-key
Или передайте ключ напрямую:
openclaw onboard --non-interactive \
  --mode local \
  --auth-choice gemini-api-key \
  --gemini-api-key "$GEMINI_API_KEY"
2

Set a default model

{
  agents: {
    defaults: {
      model: { primary: "google/gemini-3.1-pro-preview" },
    },
  },
}
3

Verify the model is available

openclaw models list --provider google
Переменные окружения GEMINI_API_KEY и GOOGLE_API_KEY поддерживаются обе. Используйте ту, которая у вас уже настроена.

Возможности

ВозможностьПоддерживается
Чат-завершенияДа
Генерация изображенийДа
Генерация музыкиДа
Преобразование текста в речьДа
Голос в реальном времениДа (Google Live API)
Понимание изображенийДа
Транскрипция аудиоДа
Понимание видеоДа
Веб-поиск (Grounding)Да
Мышление/рассуждениеДа (Gemini 2.5+ / Gemini 3+)
Модели Gemma 4Да

Веб-поиск

Встроенный поставщик веб-поиска gemini использует Grounding Gemini Google Search. Настройте отдельный ключ поиска в plugins.entries.google.config.webSearch, или разрешите повторно использовать models.providers.google.apiKey после GEMINI_API_KEY:
{
  plugins: {
    entries: {
      google: {
        config: {
          webSearch: {
            apiKey: "AIza...", // optional if GEMINI_API_KEY or models.providers.google.apiKey is set
            baseUrl: "https://generativelanguage.googleapis.com/v1beta", // falls back to models.providers.google.baseUrl
            model: "gemini-2.5-flash",
          },
        },
      },
    },
  },
}
Приоритет учетных данных: сначала отдельный webSearch.apiKey, затем GEMINI_API_KEY, затем models.providers.google.apiKey. webSearch.baseUrl необязателен и предназначен для операторских прокси или совместимых конечных точек Gemini API; если он не указан, веб-поиск Gemini повторно использует models.providers.google.baseUrl. См. поиск Gemini для поведения инструмента, специфичного для поставщика.
Модели Gemini 3 используют thinkingLevel, а не thinkingBudget. OpenClaw сопоставляет элементы управления рассуждением для Gemini 3, Gemini 3.1 и псевдонимов gemini-*-latest с thinkingLevel, чтобы запуски по умолчанию и с низкой задержкой не отправляли отключенные значения thinkingBudget./think adaptive сохраняет динамическую семантику мышления Google вместо выбора фиксированного уровня OpenClaw. Gemini 3 и Gemini 3.1 не указывают фиксированный thinkingLevel, чтобы Google мог выбрать уровень; Gemini 2.5 отправляет динамический sentinel Google thinkingBudget: -1.Модели Gemma 4 (например, gemma-4-26b-a4b-it) поддерживают режим мышления. OpenClaw перезаписывает thinkingBudget в поддерживаемый Google thinkingLevel для Gemma 4. Установка мышления в off сохраняет отключенное мышление вместо сопоставления с MINIMAL.

Генерация изображений

Встроенный поставщик генерации изображений google по умолчанию использует google/gemini-3.1-flash-image-preview.
  • Также поддерживает google/gemini-3-pro-image-preview
  • Генерация: до 4 изображений за запрос
  • Режим редактирования: включен, до 5 входных изображений
  • Элементы управления геометрией: size, aspectRatio и resolution
Чтобы использовать Google как поставщика изображений по умолчанию:
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "google/gemini-3.1-flash-image-preview",
      },
    },
  },
}
См. Генерация изображений для общих параметров инструмента, выбора поставщика и поведения failover.

Генерация видео

Встроенный Plugin google также регистрирует генерацию видео через общий инструмент video_generate.
  • Модель видео по умолчанию: google/veo-3.1-fast-generate-preview
  • Режимы: текст-в-видео, изображение-в-видео и потоки с одним видео-референсом
  • Поддерживает aspectRatio (16:9, 9:16) и resolution (720P, 1080P); аудиовывод сегодня не поддерживается Veo
  • Поддерживаемые длительности: 4, 6 или 8 секунд (другие значения округляются до ближайшего разрешенного значения)
Чтобы использовать Google как поставщика видео по умолчанию:
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "google/veo-3.1-fast-generate-preview",
      },
    },
  },
}
См. Генерация видео для общих параметров инструмента, выбора поставщика и поведения failover.

Генерация музыки

Встроенный Plugin google также регистрирует генерацию музыки через общий инструмент music_generate.
  • Модель музыки по умолчанию: google/lyria-3-clip-preview
  • Также поддерживает google/lyria-3-pro-preview
  • Элементы управления промптом: lyrics и instrumental
  • Формат вывода: mp3 по умолчанию, а также wav в google/lyria-3-pro-preview
  • Референсные входные данные: до 10 изображений
  • Запуски, поддерживаемые сессиями, отделяются через общий поток задач/статусов, включая action: "status"
Чтобы использовать Google как поставщика музыки по умолчанию:
{
  agents: {
    defaults: {
      musicGenerationModel: {
        primary: "google/lyria-3-clip-preview",
      },
    },
  },
}
См. Генерация музыки для общих параметров инструмента, выбора поставщика и поведения failover.

Преобразование текста в речь

Встроенный поставщик речи google использует путь TTS Gemini API с gemini-3.1-flash-tts-preview.
  • Голос по умолчанию: Kore
  • Аутентификация: messages.tts.providers.google.apiKey, models.providers.google.apiKey, GEMINI_API_KEY или GOOGLE_API_KEY
  • Вывод: WAV для обычных вложений TTS, Opus для целей голосовых заметок, PCM для Talk/телефонии
  • Вывод голосовых заметок: Google PCM упаковывается как WAV и транскодируется в Opus 48 кГц с помощью ffmpeg
Путь пакетного Gemini TTS от Google возвращает сгенерированное аудио в завершенном ответе generateContent. Для разговоров с минимальной задержкой используйте поставщика голоса Google в реальном времени на базе Gemini Live API вместо пакетного TTS. Чтобы использовать Google как поставщика TTS по умолчанию:
{
  messages: {
    tts: {
      auto: "always",
      provider: "google",
      providers: {
        google: {
          model: "gemini-3.1-flash-tts-preview",
          speakerVoice: "Kore",
          audioProfile: "Speak professionally with a calm tone.",
        },
      },
    },
  },
}
Gemini API TTS использует промпты на естественном языке для управления стилем. Задайте audioProfile, чтобы добавлять повторно используемый стилевой промпт перед произносимым текстом. Задайте speakerName, когда текст промпта ссылается на именованного говорящего. Gemini API TTS также принимает выразительные аудиотеги в квадратных скобках в тексте, например [whispers] или [laughs]. Чтобы теги не попадали в видимый ответ чата, но отправлялись в TTS, поместите их в блок [[tts:text]]...[[/tts:text]]:
Here is the clean reply text.

[[tts:text]][whispers] Here is the spoken version.[[/tts:text]]
API-ключ Google Cloud Console, ограниченный Gemini API, действителен для этого поставщика. Это не отдельный путь Cloud Text-to-Speech API.

Голос в реальном времени

Встроенный Plugin google регистрирует поставщика голоса в реальном времени на базе Gemini Live API для серверных аудиомостов, таких как Voice Call и Google Meet.
НастройкаПуть конфигурацииПо умолчанию
Модельplugins.entries.voice-call.config.realtime.providers.google.modelgemini-2.5-flash-native-audio-preview-12-2025
Голос...google.voiceKore
Температура...google.temperature(не задано)
Чувствительность начала VAD...google.startSensitivity(не задано)
Чувствительность завершения VAD...google.endSensitivity(не задано)
Длительность тишины...google.silenceDurationMs(не задано)
Обработка активности...google.activityHandlingзначение Google по умолчанию, start-of-activity-interrupts
Покрытие хода...google.turnCoverageзначение Google по умолчанию, only-activity
Отключить авто-VAD...google.automaticActivityDetectionDisabledfalse
Возобновление сессии...google.sessionResumptiontrue
Сжатие контекста...google.contextWindowCompressiontrue
API-ключ...google.apiKeyИспользует запасной вариант models.providers.google.apiKey, GEMINI_API_KEY или GOOGLE_API_KEY
Пример конфигурации голосовых вызовов в реальном времени:
{
  plugins: {
    entries: {
      "voice-call": {
        enabled: true,
        config: {
          realtime: {
            enabled: true,
            provider: "google",
            providers: {
              google: {
                model: "gemini-2.5-flash-native-audio-preview-12-2025",
                speakerVoice: "Kore",
                activityHandling: "start-of-activity-interrupts",
                turnCoverage: "only-activity",
              },
            },
          },
        },
      },
    },
  },
}
Google Live API использует двунаправленное аудио и вызов функций через WebSocket. OpenClaw адаптирует аудио телефонной связи/моста Meet к потоку PCM Live API Gemini и сохраняет вызовы инструментов в общем контракте голосовой связи в реальном времени. Оставьте temperature незаданным, если вам не нужны изменения сэмплирования; OpenClaw опускает неположительные значения, потому что Google Live может возвращать транскрипты без аудио при temperature: 0. Транскрибирование Gemini API включается без languageCodes; текущий Google SDK отклоняет подсказки с кодами языков на этом пути API.
Control UI Talk поддерживает браузерные сессии Google Live с ограниченными одноразовыми токенами. Серверные провайдеры голосовой связи в реальном времени также могут работать через универсальный релейный транспорт Gateway, который хранит учетные данные провайдера на Gateway.
Для live-проверки сопровождающим запустите OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts. Этот smoke-тест также покрывает серверные/WebRTC-пути OpenAI; ветка Google выпускает тот же ограниченный токен Live API, который используется Control UI Talk, открывает браузерную конечную точку WebSocket, отправляет начальную полезную нагрузку настройки и ожидает setupComplete.

Расширенная конфигурация

Для прямых запусков Gemini API (api: "google-generative-ai") OpenClaw передает настроенный дескриптор cachedContent в запросы Gemini.
  • Настраивайте параметры для отдельной модели или глобально с помощью cachedContent либо устаревшего cached_content
  • Если присутствуют оба, приоритет имеет cachedContent
  • Пример значения: cachedContents/prebuilt-context
  • Использование попаданий в кэш Gemini нормализуется в OpenClaw cacheRead из upstream cachedContentTokenCount
{
  agents: {
    defaults: {
      models: {
        "google/gemini-2.5-pro": {
          params: {
            cachedContent: "cachedContents/prebuilt-context",
          },
        },
      },
    },
  },
}
При использовании OAuth-провайдера google-gemini-cli OpenClaw по умолчанию использует вывод Gemini CLI stream-json и нормализует использование из финальной полезной нагрузки stats. Устаревшие переопределения --output-format json по-прежнему используют JSON-парсер.
  • Текст потокового ответа берется из событий assistant message.
  • Для устаревшего JSON-вывода текст ответа берется из поля CLI JSON response.
  • Использование использует запасной вариант stats, когда CLI оставляет usage пустым.
  • stats.cached нормализуется в OpenClaw cacheRead.
  • Если stats.input отсутствует, OpenClaw выводит входные токены из stats.input_tokens - stats.cached.
Если Gateway работает как демон (launchd/systemd), убедитесь, что GEMINI_API_KEY доступен этому процессу (например, в ~/.openclaw/.env или через env.shellEnv).

Связанные материалы

Выбор модели

Выбор провайдеров, ссылок на модели и поведения отработки отказа.

Генерация изображений

Общие параметры инструмента изображений и выбор провайдера.

Генерация видео

Общие параметры инструмента видео и выбор провайдера.

Генерация музыки

Общие параметры инструмента музыки и выбор провайдера.