Google Meet 参与者对 OpenClaw 的支持是有意设计为显式的:Documentation Index
Fetch the complete documentation index at: https://docs2.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- 它只会加入显式的
https://meet.google.com/...URL。 - 它可以通过 Google Meet API 创建新的 Meet 空间,然后加入返回的 URL。
agent是默认回话模式:实时转录负责监听,配置的 OpenClaw 智能体负责回答,常规 OpenClaw TTS 会向 Meet 中发声。bidi仍可作为备用的直接实时语音模型模式。- 智能体通过
mode选择加入行为:使用agent进行实时监听/回话,使用bidi作为直接实时语音备用,或使用transcribe加入/控制浏览器但不启用回话桥接。 - 身份验证从个人 Google OAuth 或已经登录的 Chrome 配置文件开始。
- 没有自动同意公告。
- 默认 Chrome 音频后端是
BlackHole 2ch。 - Chrome 可以在本地运行,也可以在已配对的节点主机上运行。
- Twilio 接受拨入号码以及可选 PIN 或 DTMF 序列;它不能直接拨打 Meet URL。
- CLI 命令是
googlemeet;meet保留给更广泛的智能体电话会议工作流。
快速开始
安装本地音频依赖项,并配置实时转录提供商以及常规 OpenClaw TTS。OpenAI 是默认转录提供商;Google Gemini Live 也可作为单独的bidi 语音备用,并使用 realtime.voiceProvider: "google":
blackhole-2ch 会安装 BlackHole 2ch 虚拟音频设备。Homebrew 的安装程序要求重启后,macOS 才会暴露该设备:
--mode transcribe 检查相同传输;该模式会跳过实时音频前置条件,因为它不会通过桥接监听或发声:
voice-call 插件、Twilio 凭据和公开 Webhook 暴露是否就绪。在请求智能体加入之前,将任何 ok: false 检查视为对应传输和模式的阻塞项。脚本或机器可读输出请使用 openclaw googlemeet setup --json。在智能体尝试前,使用 --transport chrome、--transport chrome-node 或 --transport twilio 预检特定传输。
对于 Twilio,当默认传输是 Chrome 时,始终显式预检传输:
voice-call 接线、Twilio 凭据或无法访问的 Webhook 暴露。
加入会议:
google_meet 工具加入:
google_meet 工具在非 macOS 主机上仍可用于制品、日历、设置、转录、Twilio 和 chrome-node 流程。本地 Chrome 回话操作会在那里被阻止,因为内置 Chrome 音频路径目前依赖 macOS BlackHole 2ch。在 Linux 上,请使用 mode: "transcribe"、Twilio 拨入,或使用 macOS chrome-node 主机进行 Chrome 回话参与。
创建新会议并加入:
SpaceConfig.accessType:
OPEN 允许任何拥有 Meet URL 的人无需敲门即可加入。TRUSTED 允许主持人组织内的受信任用户、受邀的外部用户以及拨入用户无需敲门即可加入。RESTRICTED 将免敲门进入限制为受邀者。这些设置只适用于官方 Google Meet API 创建路径,因此必须配置 OAuth 凭据。
如果你在此选项可用之前已对 Google Meet 进行了身份验证,请在将 meetings.space.settings 范围添加到你的 Google OAuth 同意屏幕后,重新运行 openclaw googlemeet auth login --json。
只创建 URL 而不加入:
googlemeet create 有两条路径:
- API 创建:在已配置 Google Meet OAuth 凭据时使用。这是最确定性的路径,不依赖浏览器 UI 状态。
- 浏览器备用:在缺少 OAuth 凭据时使用。OpenClaw 使用固定的 Chrome 节点,打开
https://meet.google.com/new,等待 Google 重定向到真实的会议代码 URL,然后返回该 URL。此路径要求节点上的 OpenClaw Chrome 配置文件已经登录 Google。浏览器自动化会处理 Meet 自身的首次运行麦克风提示;该提示不会被视为 Google 登录失败。 加入和创建流程还会在打开新标签页前尝试复用现有 Meet 标签页。匹配会忽略诸如authuser之类无害的 URL 查询字符串,因此智能体重试时应聚焦已经打开的会议,而不是创建第二个 Chrome 标签页。
source 字段(api 或 browser),以便智能体解释使用了哪条路径。create 默认加入新会议,并返回 joined: true 以及加入会话。若只生成 URL,请在 CLI 上使用 create --no-join,或向工具传递 "join": false。
或者告诉智能体:“创建一个 Google Meet,用智能体回话模式加入,并把链接发给我。”智能体应调用 google_meet,使用 action: "create",然后共享返回的 meetingUri。
"mode": "transcribe"。这不会启动双工实时语音桥接,不需要 BlackHole 或 SoX,也不会向会议中回话。此模式下的 Chrome 加入还会避免 OpenClaw 的麦克风/摄像头权限授予,并避免 Meet 使用麦克风路径。如果 Meet 显示音频选择插页,自动化会尝试无麦克风路径,否则报告需要手动操作,而不是打开本地麦克风。在转录模式下,托管 Chrome 传输还会安装尽力而为的 Meet 字幕观察器。googlemeet status --json 和 googlemeet doctor 会显示 captioning、captionsEnabledAttempted、transcriptLines、lastCaptionAt、lastCaptionSpeaker、lastCaptionText 以及简短的 recentTranscript 尾部,以便操作员判断浏览器是否已加入通话,以及 Meet 字幕是否正在产生文本。
当你需要是/否探测时,请使用 openclaw googlemeet test-listen <meet-url> --transport chrome-node:它会以转录模式加入,等待新的字幕或转录变化,并返回 listenVerified、listenTimedOut、手动操作字段和最新字幕健康状态。
在实时会话期间,google_meet 状态包含浏览器和音频桥接健康状态,例如 inCall、manualActionRequired、providerConnected、realtimeReady、audioInputActive、audioOutputActive、最近输入/输出时间戳、字节计数器和桥接关闭状态。如果出现安全的 Meet 页面提示,浏览器自动化会在可行时处理。登录、主持人准入以及浏览器/OS 权限提示会作为手动操作上报,并附带原因和消息,供智能体转述。托管 Chrome 会话只会在浏览器健康状态报告 inCall: true 后发出介绍或测试短语;否则状态会报告 speechReady: false,并阻止语音尝试,而不是假装智能体已向会议中发声。
本地 Chrome 会通过已登录的 OpenClaw 浏览器配置文件加入。实时模式要求使用 BlackHole 2ch 作为 OpenClaw 使用的麦克风/扬声器路径。要获得干净的双工音频,请使用独立的虚拟设备或类似 Loopback 的图;单个 BlackHole 设备足以进行首次冒烟测试,但可能产生回声。
本地 Gateway 网关 + Parallels Chrome
仅为了让 macOS VM 拥有 Chrome,你不需要在 VM 内运行完整的 OpenClaw Gateway 网关或模型 API key。在本地运行 Gateway 网关和智能体,然后在 VM 中运行节点主机。在 VM 上启用一次内置插件,使节点通告 Chrome 命令: 各处运行的内容:- Gateway 网关主机:OpenClaw Gateway 网关、智能体工作区、模型/API key、实时提供商以及 Google Meet 插件配置。
- Parallels macOS VM:OpenClaw CLI/节点主机、Google Chrome、SoX、BlackHole 2ch,以及已登录 Google 的 Chrome 配置文件。
- VM 中不需要:Gateway 网关服务、智能体配置、OpenAI/GPT key 或模型提供商设置。
BlackHole 2ch:
<gateway-host> 是 LAN IP 且你未使用 TLS,节点会拒绝明文 WebSocket,除非你为该受信任专用网络显式选择加入:
OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 是进程环境,而不是 openclaw.json 设置。当它出现在安装命令中时,openclaw node install 会将其存储在 LaunchAgent 环境中。
从 Gateway 网关主机批准节点:
googlemeet.chrome 和浏览器能力/browser.proxy:
transport: "chrome-node" 的 google_meet 工具。
如需单命令冒烟测试来创建或复用会话、朗读已知短语并打印会话健康状态:
manualActionRequired: true,并带有 manualActionReason 和 manualActionMessage。智能体应停止重试加入,报告该精确消息以及当前的 browserUrl/browserTitle,并且仅在手动浏览器操作完成后重试。
如果省略 chromeNode.node,OpenClaw 仅在恰好一个已连接节点同时通告 googlemeet.chrome 和浏览器控制能力时自动选择。如果连接了多个具备能力的节点,请将 chromeNode.node 设置为节点 id、显示名称或远程 IP。
常见失败检查:
Configured Google Meet node ... is not usable: offline:固定的节点已被 Gateway 网关知晓但不可用。智能体应将该节点视为诊断状态,而不是可用的 Chrome 主机,并报告设置阻塞项;除非用户要求,否则不要回退到其他传输协议。No connected Google Meet-capable node:在 VM 中启动openclaw node run,批准配对,并确保已在 VM 中运行openclaw plugins enable google-meet和openclaw plugins enable browser。同时确认 Gateway 网关主机通过gateway.nodes.allowCommands: ["googlemeet.chrome", "browser.proxy"]允许这两个节点命令。BlackHole 2ch audio device not found:在被检查的主机上安装blackhole-2ch,并在使用本地 Chrome 音频前重启。BlackHole 2ch audio device not found on the node:在 VM 中安装blackhole-2ch,并重启 VM。- Chrome 打开但无法加入:在 VM 内的浏览器配置文件中登录,或保持设置
chrome.guestName以进行访客加入。访客自动加入通过节点浏览器代理使用 OpenClaw 浏览器自动化;请确保节点浏览器配置指向你想要的配置文件,例如browser.defaultProfile: "user"或一个具名的 existing-session 配置文件。 - 重复的 Meet 标签页:保持启用
chrome.reuseExistingTab: true。OpenClaw 会先激活同一 Meet URL 的现有标签页,然后再打开新标签页;浏览器会议创建也会先复用正在进行的https://meet.google.com/new或 Google 账号提示标签页,然后再打开另一个。 - 无音频:在 Meet 中,将麦克风/扬声器通过 OpenClaw 使用的虚拟音频设备路径路由;使用独立虚拟设备或 Loopback 风格路由来获得清晰的双工音频。
安装说明
Chrome talk-back 默认值使用两个外部工具:sox:命令行音频工具。插件会为默认的 24 kHz PCM16 音频桥接使用显式 CoreAudio 设备命令。blackhole-2ch:macOS 虚拟音频驱动。它会创建 Chrome/Meet 可路由通过的BlackHole 2ch音频设备。
LGPL-2.0-only AND GPL-2.0-only;BlackHole 是 GPL-3.0。如果你构建的安装器或设备将 BlackHole 与 OpenClaw 捆绑,请审查 BlackHole 的上游许可条款,或从 Existential Audio 获取单独许可证。
传输协议
Chrome
Chrome 传输方式通过 OpenClaw 浏览器控制打开 Meet URL,并以已登录的 OpenClaw 浏览器配置文件加入。在 macOS 上,插件会在启动前检查BlackHole 2ch。如果已配置,它还会在打开 Chrome 前运行音频桥接健康命令和启动命令。当 Chrome/音频位于 Gateway 网关主机上时使用 chrome;当 Chrome/音频位于已配对节点(例如 Parallels macOS VM)上时使用 chrome-node。对于本地 Chrome,使用 browser.defaultProfile 选择配置文件;chrome.browserProfile 会传递给 chrome-node 主机。
BlackHole 2ch,加入会以设置错误失败,而不是在没有音频路径的情况下静默加入。
Twilio
Twilio 传输方式是一个严格的拨号计划,委托给 Voice Call 插件。它不会解析 Meet 页面来查找电话号码。 当无法使用 Chrome 参与,或你想要电话拨入回退时使用此方式。Google Meet 必须为会议公开电话拨入号码和 PIN;OpenClaw 不会从 Meet 页面发现这些信息。 在 Gateway 网关主机上启用 Voice Call 插件,而不是在 Chrome 节点上启用:openclaw.json:
realtime.provider: "openai" 和 OPENAI_API_KEY。
启用 voice-call 后重启或重新加载 Gateway 网关;插件配置更改在重新加载前不会出现在已运行的 Gateway 网关进程中。
然后验证:
googlemeet setup 会包含成功的 twilio-voice-call-plugin、twilio-voice-call-credentials 和 twilio-voice-call-webhook 检查。
--dtmf-sequence:
OAuth 和预检
OAuth 对创建 Meet 链接是可选的,因为googlemeet create 可以回退到浏览器自动化。当你需要官方 API 创建、空间解析或 Meet Media API 预检检查时,配置 OAuth。
Google Meet API 访问使用用户 OAuth:创建 Google Cloud OAuth 客户端,请求所需 scope,授权一个 Google 账号,然后将生成的 refresh token 存储到 Google Meet 插件配置中,或提供 OPENCLAW_GOOGLE_MEET_* 环境变量。
OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome 和 Chrome-node 传输方式仍然通过已登录的 Chrome 配置文件、BlackHole/SoX 以及已连接节点加入。OAuth 仅用于官方 Google Meet API 路径:创建会议空间、解析空间,以及运行 Meet Media API 预检检查。
创建 Google 凭证
在 Google Cloud Console 中:- 创建或选择一个 Google Cloud 项目。
- 为该项目启用 Google Meet REST API。
-
配置 OAuth 同意屏幕。
- Internal 对 Google Workspace 组织最简单。
- External 适用于个人/测试设置;当应用处于 Testing 时,将每个要授权该应用的 Google 账号添加为测试用户。
-
添加 OpenClaw 请求的 scope:
https://www.googleapis.com/auth/meetings.space.createdhttps://www.googleapis.com/auth/meetings.space.readonlyhttps://www.googleapis.com/auth/meetings.space.settingshttps://www.googleapis.com/auth/meetings.conference.media.readonly
-
创建 OAuth client ID。
- 应用类型:Web application。
-
授权重定向 URI:
- 复制 client ID 和 client secret。
spaces.create 需要 meetings.space.created。
meetings.space.readonly 允许 OpenClaw 将 Meet URL/代码解析为空间。
meetings.space.settings 允许 OpenClaw 在通过 API 创建房间时传递 SpaceConfig 设置,例如 accessType。
meetings.conference.media.readonly 用于 Meet Media API 预检和媒体工作;Google 可能要求加入 Developer Preview 后才能实际使用 Media API。如果你只需要基于浏览器的 Chrome 加入,请完全跳过 OAuth。
生成 refresh token
配置oauth.clientId,并可选配置 oauth.clientSecret,或将它们作为环境变量传入,然后运行:
oauth 配置块。它使用 PKCE、http://localhost:8085/oauth2callback 上的 localhost 回调,以及带 --manual 的手动复制/粘贴流程。
示例:
oauth 对象存储在 Google Meet 插件配置下:
openclaw googlemeet auth login --json,以便 refresh token 具有 meetings.space.created scope。
使用 Doctor 验证 OAuth
当你需要快速、非密钥的健康检查时,运行 OAuth Doctor:ok、configured、tokenSource、expiresAt 和检查消息;它不会打印 access token、refresh token 或 client secret。
常见结果:
| 检查项 | 含义 |
|---|---|
oauth-config | 存在 oauth.clientId 加 oauth.refreshToken,或缓存的访问令牌。 |
oauth-token | 缓存的访问令牌仍然有效,或刷新令牌已签发新的访问令牌。 |
meet-spaces-get | 可选的 --meeting 检查解析到了现有的 Meet 空间。 |
meet-spaces-create | 可选的 --create-space 检查创建了新的 Meet 空间。 |
spaces.create 范围,请运行会产生副作用的创建检查:
--create-space 会创建一个一次性的 Meet URL。当你需要确认 Google Cloud 项目已启用 Meet API,并且已授权账号拥有 meetings.space.created 范围时使用它。
要证明对现有会议空间的读取访问权限:
doctor --oauth --meeting 和 resolve-space 会证明对已授权 Google 账号可访问的现有空间具有读取访问权限。这些检查返回 403 通常表示 Google Meet REST API 已禁用、已同意授权的刷新令牌缺少所需范围,或该 Google 账号无法访问该 Meet 空间。刷新令牌错误表示需要重新运行 openclaw googlemeet auth login --json 并存储新的 oauth 块。
浏览器回退不需要 OAuth 凭证。在该模式下,Google 凭证来自所选节点上已登录的 Chrome 配置文件,而不是来自 OpenClaw 配置。
这些环境变量会被接受为回退:
OPENCLAW_GOOGLE_MEET_CLIENT_ID或GOOGLE_MEET_CLIENT_IDOPENCLAW_GOOGLE_MEET_CLIENT_SECRET或GOOGLE_MEET_CLIENT_SECRETOPENCLAW_GOOGLE_MEET_REFRESH_TOKEN或GOOGLE_MEET_REFRESH_TOKENOPENCLAW_GOOGLE_MEET_ACCESS_TOKEN或GOOGLE_MEET_ACCESS_TOKENOPENCLAW_GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_AT或GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_ATOPENCLAW_GOOGLE_MEET_DEFAULT_MEETING或GOOGLE_MEET_DEFAULT_MEETINGOPENCLAW_GOOGLE_MEET_PREVIEW_ACK或GOOGLE_MEET_PREVIEW_ACK
spaces.get 解析 Meet URL、代码或 spaces/{id}:
--meeting 时,artifacts 和 attendance 默认使用最新的会议记录。当你想获取该会议保留的每条记录时,传入 --all-conference-records。
Calendar 查找可以先从 Google Calendar 解析会议 URL,再读取 Meet 工件:
--today 会在今天的 primary 日历中搜索带有 Google Meet 链接的 Calendar 事件。使用 --event <query> 搜索匹配的事件文本,并使用 --calendar <id> 指定非主日历。Calendar 查找需要新的 OAuth 登录,且登录包含 Calendar 事件只读范围。
calendar-events 会预览匹配的 Meet 事件,并标记 latest、artifacts、attendance 或 export 将选择的事件。
如果你已经知道会议记录 ID,可以直接指定它:
spaces.endActiveConference,并且对于已授权账号可管理的空间,需要带有 meetings.space.created 范围的 OAuth。
OpenClaw 接受 Meet URL、会议代码或 spaces/{id} 输入,并在结束活动会议前将其解析为 API 空间资源。
它不同于 googlemeet leave:leave 会停止 OpenClaw 的本地/会话参与,而 end-active-conference 会请求 Google Meet 结束该空间的活动会议。
写入可读报告:
artifacts 会返回会议记录元数据,以及参与者、录制、转录、结构化转录条目和智能笔记资源元数据。对大型会议,使用 --no-transcript-entries 跳过条目查找。attendance 会将参与者展开为参与者会话行,包含首次/最后出现时间、总会话时长、迟到/提前离开标志,并按已登录用户或显示名称合并重复的参与者资源。传入 --no-merge-duplicates 可将原始参与者资源保持分离,传入 --late-after-minutes 可调整迟到检测,传入 --early-before-minutes 可调整提前离开检测。
export 会写入一个包含 summary.md、attendance.csv、transcript.md、artifacts.json、attendance.json 和 manifest.json 的文件夹。
manifest.json 会记录所选输入、导出选项、会议记录、输出文件、计数、令牌来源、使用过的 Calendar 事件,以及任何部分检索警告。传入 --zip 还会在文件夹旁写入一个可移植归档。传入 --include-doc-bodies 可通过 Google Drive files.export 导出链接的转录和智能笔记 Google Docs 文本;这需要新的 OAuth 登录,且登录包含 Drive Meet 只读范围。如果不使用 --include-doc-bodies,导出只包含 Meet 元数据和结构化转录条目。如果 Google 返回部分工件失败,例如智能笔记列表、转录条目或 Drive 文档正文错误,摘要和清单会保留警告,而不是让整个导出失败。
使用 --dry-run 可获取相同的工件/出席数据并打印清单 JSON,而不创建文件夹或 ZIP。这在写入大型导出之前,或智能体只需要计数、所选记录和警告时很有用。
智能体也可以通过 google_meet 工具创建同样的捆绑包:
"dryRun": true 可只返回导出清单并跳过文件写入。
智能体也可以创建带有显式访问策略的 API 支持房间:
test_listen:
OPENCLAW_LIVE_TEST=1启用受保护的实时测试。OPENCLAW_GOOGLE_MEET_LIVE_MEETING指向保留的 Meet URL、代码或spaces/{id}。OPENCLAW_GOOGLE_MEET_CLIENT_ID或GOOGLE_MEET_CLIENT_ID提供 OAuth 客户端 ID。OPENCLAW_GOOGLE_MEET_REFRESH_TOKEN或GOOGLE_MEET_REFRESH_TOKEN提供 刷新令牌。- 可选:
OPENCLAW_GOOGLE_MEET_CLIENT_SECRET、OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN和OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_AT使用不带OPENCLAW_前缀的相同回退名称。
https://www.googleapis.com/auth/meetings.space.readonly 和
https://www.googleapis.com/auth/meetings.conference.media.readonly。Calendar
查找需要 https://www.googleapis.com/auth/calendar.events.readonly。Drive
文档正文导出需要
https://www.googleapis.com/auth/drive.meet.readonly。
创建新的 Meet 空间:
meeting uri、来源和加入会话。使用 OAuth 凭证时,它会使用官方 Google Meet API。没有 OAuth 凭证时,它会使用固定 Chrome 节点的已登录浏览器配置文件作为回退。智能体可以使用带有 action: "create" 的 google_meet 工具一步完成创建并加入。对于仅创建 URL,传入 "join": false。
浏览器回退的 JSON 输出示例:
google_meet 工具会返回结构化详情,而不是纯字符串:
manualActionRequired: true 时,应报告 manualActionMessage 以及浏览器节点/标签页上下文,并停止打开新的 Meet 标签页,直到操作员完成浏览器步骤。
API 创建的 JSON 输出示例:
manualActionRequired: true 或浏览器回退错误,并要求操作者先完成 Google 登录后再重试。
只有在确认你的 Cloud 项目、OAuth 主体和会议参与者都已加入面向 Meet 媒体 API 的 Google Workspace Developer Preview Program 后,才设置 preview.enrollmentAcknowledged: true。
配置
通用 Chrome 智能体路径只需要启用插件、BlackHole、SoX、一个实时转录提供商密钥,以及一个已配置的 OpenClaw TTS 提供商。OpenAI 是默认转录提供商;将realtime.voiceProvider 设置为 "google",并设置 realtime.model,即可在 bidi 模式下使用 Google Gemini Live,同时不改变默认智能体模式转录提供商:
plugins.entries.google-meet.config 下设置插件配置:
defaultTransport: "chrome"defaultMode: "agent"("realtime"仅作为"agent"的旧版兼容别名被接受;新的工具调用应使用"agent")chromeNode.node:用于chrome-node的可选节点 id/名称/IPchrome.audioBackend: "blackhole-2ch"chrome.guestName: "OpenClaw Agent":在未登录的 Meet 访客屏幕上使用的名称chrome.autoJoin: true:通过chrome-node上的 OpenClaw 浏览器自动化,尽力填充访客名称并点击 Join Nowchrome.reuseExistingTab: true:激活现有 Meet 标签页,而不是打开重复标签页chrome.waitForInCallMs: 20000:在触发回话介绍前,等待 Meet 标签页报告已在通话中chrome.audioFormat: "pcm16-24khz":命令对音频格式。仅对仍然发出电话音频的旧版/自定义命令对使用"g711-ulaw-8khz"。chrome.audioBufferBytes: 4096:用于生成的 Chrome 命令对音频命令的 SoX 处理缓冲区。这是 SoX 默认 8192 字节缓冲区的一半,可降低默认管道延迟,同时在繁忙主机上保留调高空间。低于 SoX 最小值的值会被钳制为 17 字节。chrome.audioInputCommand:从 CoreAudioBlackHole 2ch读取并以chrome.audioFormat写入音频的 SoX 命令chrome.audioOutputCommand:以chrome.audioFormat读取音频并写入 CoreAudioBlackHole 2ch的 SoX 命令chrome.bargeInInputCommand:可选的本地麦克风命令,在助手播放处于活动状态时,写入有符号 16 位小端单声道 PCM,用于检测人工插话。这目前适用于 Gateway 网关托管的chrome命令对桥接。chrome.bargeInRmsThreshold: 650:在chrome.bargeInInputCommand上计为人工打断的 RMS 级别chrome.bargeInPeakThreshold: 2500:在chrome.bargeInInputCommand上计为人工打断的峰值级别chrome.bargeInCooldownMs: 900:重复清除人工打断之间的最小延迟mode: "agent":默认回话模式。参与者语音由配置的实时转录提供商转录,发送到按会议创建的子智能体会话中的已配置 OpenClaw 智能体,并通过常规 OpenClaw TTS 运行时说出。mode: "bidi":回退的直接双向实时模型模式。实时语音提供商会直接回答参与者语音,并且可以调用openclaw_agent_consult来给出更深入/由工具支持的回答。mode: "transcribe":没有回话桥接的仅观察模式。realtime.provider: "openai":在下面的作用域提供商字段未设置时使用的兼容性回退。realtime.transcriptionProvider: "openai":agent模式用于实时转录的提供商 id。realtime.voiceProvider:bidi模式用于直接实时语音的提供商 id。将其设置为"google"可使用 Gemini Live,同时保持智能体模式转录使用 OpenAI。realtime.toolPolicy: "safe-read-only"realtime.instructions:简短口语回复,使用openclaw_agent_consult处理更深入的回答realtime.introMessage:实时桥接连接时的简短口语就绪检查;将其设置为""可静默加入realtime.agentId:用于openclaw_agent_consult的可选 OpenClaw 智能体 id;默认为main
messages.tts.providers.elevenlabs.voiceId。启用 TTS 模型覆盖时,智能体回复也可以使用按回复设置的 [[tts:voiceId=... model=eleven_v3]] 指令,但配置是会议的确定性默认值。加入时,日志应显示 transcriptionProvider=elevenlabs,并且每条口语回复都应记录 provider=elevenlabs model=eleven_v3 voice=<voiceId>。
仅 Twilio 配置:
voiceCall.enabled 默认为 true;使用 Twilio 传输方式时,它会将实际 PSTN 呼叫、DTMF 和开场问候委托给 Voice Call 插件。Voice Call 会先播放 DTMF 序列,再打开实时媒体流,然后使用保存的介绍文本作为初始实时问候。如果未启用 voice-call,Google Meet 仍可验证并记录拨号计划,但无法发起 Twilio 呼叫。
工具
智能体可以使用google_meet 工具:
transport: "chrome"。当 Chrome 在已配对节点(例如 Parallels VM)上运行时,使用 transport: "chrome-node"。在这两种情况下,模型提供商和 openclaw_agent_consult 都在 Gateway 网关主机上运行,因此模型凭证会留在那里。使用默认的 mode: "agent" 时,实时转录提供商负责收听,配置的 OpenClaw 智能体生成回答,常规 OpenClaw TTS 将其说入 Meet。当你希望实时语音模型直接回答时,使用 mode: "bidi"。原始的 mode: "realtime" 仍作为 mode: "agent" 的旧版兼容别名被接受,但不再在智能体工具 schema 中公布。智能体模式日志会在桥接启动时包含解析出的转录提供商/模型,并在每次合成回复后包含 TTS 提供商、模型、语音、输出格式和采样率。
使用 action: "status" 列出活动会话或检查会话 ID。使用带有 sessionId 和 message 的 action: "speak" 可让实时智能体立即说话。使用 action: "test_speech" 可创建或复用会话、触发已知短语,并在 Chrome 主机能够报告时返回 inCall 健康状态。test_speech 始终强制使用 mode: "agent",如果要求在 mode: "transcribe" 下运行则会失败,因为仅观察会话有意不能发出语音。它的 speechOutputVerified 结果基于这次测试调用期间实时音频输出字节数增加,因此带有旧音频的复用会话不会被计为一次新的成功语音检查。使用 action: "leave" 将会话标记为已结束。
可用时,status 会包含 Chrome 健康状态:
inCall:Chrome 看起来位于 Meet 通话内micMuted:尽力获取的 Meet 麦克风状态manualActionRequired/manualActionReason/manualActionMessage:浏览器配置文件需要人工登录、Meet 主持人准入、权限,或浏览器控制修复后,语音才能工作speechReady/speechBlockedReason/speechBlockedMessage:托管 Chrome 语音现在是否被允许。speechReady: false表示 OpenClaw 未将介绍/测试短语发送到音频桥接。providerConnected/realtimeReady:实时语音桥接状态lastInputAt/lastOutputAt:桥接最近一次看到或发送音频的时间audioOutputRouted/audioOutputDeviceLabel:Meet 标签页的媒体输出是否已主动路由到桥接使用的 BlackHole 设备lastSuppressedInputAt/suppressedInputBytes:助手播放处于活动状态时被忽略的环回输入
智能体和 bidi 模式
Chromeagent 模式针对“我的智能体在会议中”的行为进行了优化。实时转录提供商收听会议音频,最终参与者转录会路由到已配置的 OpenClaw 智能体,回答则通过常规 OpenClaw TTS 运行时说出。当你希望实时语音模型直接回答时,设置 mode: "bidi"。
邻近的最终转录片段会在咨询前合并,因此一个口语轮次不会产生多个过时的部分回答。排队的助手音频仍在播放时,也会抑制实时输入,并且会在智能体咨询前忽略最近类似助手的转录回声,这样 BlackHole 环回不会让智能体回答自己的语音。
| 模式 | 谁决定回答 | 语音输出路径 | 适用场景 |
|---|---|---|---|
agent | 已配置的 OpenClaw 智能体 | 常规 OpenClaw TTS 运行时 | 你想要“我的智能体在会议中”的行为 |
bidi | 实时语音模型 | 实时语音提供商音频响应 | 你想要最低延迟的对话式语音循环 |
bidi 模式下,当实时模型需要更深入的推理、当前信息或常规 OpenClaw 工具时,它可以调用 openclaw_agent_consult。
consult 工具会在幕后运行常规 OpenClaw 智能体,使用最近的会议转录上下文,并返回简洁的语音回答。在 agent 模式下,OpenClaw 会将该回答直接发送到 TTS 运行时;在 bidi 模式下,实时语音模型可以把 consult 结果说回会议中。它使用与 Voice Call 相同的共享 consult 机制。
默认情况下,consult 会针对 main 智能体运行。当某个 Meet 通道需要 consult 专用的 OpenClaw Agent 工作区、模型默认值、工具策略、记忆和会话历史时,请设置 realtime.agentId。
Agent 模式 consult 使用每场会议一个 agent:<id>:subagent:google-meet:<session> 会话键,因此后续问题可以保留会议上下文,同时从配置的智能体继承常规智能体策略。
realtime.toolPolicy 控制 consult 运行:
safe-read-only:暴露 consult 工具,并将常规智能体限制为read、web_search、web_fetch、x_search、memory_search和memory_get。owner:暴露 consult 工具,并允许常规智能体使用普通智能体工具策略。none:不要向实时语音模型暴露 consult 工具。
实时测试检查清单
在将会议交给无人值守的智能体之前,使用以下序列:googlemeet setup全部为绿色。- 当 Chrome 节点是默认传输协议或已固定某个节点时,
googlemeet setup包含chrome-node-connected。 nodes status显示选定节点已连接。- 选定节点同时通告
googlemeet.chrome和browser.proxy。 - Meet 标签页加入通话,并且
test-speech返回 Chrome 健康状态,其中包含inCall: true。
googlemeet setup包含绿色的twilio-voice-call-plugin、twilio-voice-call-credentials和twilio-voice-call-webhook检查。- Gateway 网关重新加载后,CLI 中可用
voicecall。 - 返回的会话包含
transport: "twilio"和twilio.voiceCallId。 openclaw logs --follow显示在实时 TwiML 之前已提供 DTMF TwiML,然后显示一个已排队初始问候语的实时桥接。googlemeet leave <sessionId>会挂断委派的语音通话。
故障排除
智能体无法看到 Google Meet 工具
确认插件已在 Gateway 网关配置中启用,并重新加载 Gateway 网关:plugins.entries.google-meet,请重启或重新加载 Gateway 网关。正在运行的智能体只能看到当前 Gateway 网关进程注册的插件工具。
在非 macOS Gateway 网关主机上,面向智能体的 google_meet 工具仍然可见,但本地 Chrome 回话操作会在到达音频桥接之前被阻止。本地 Chrome 回话音频目前依赖 macOS BlackHole 2ch,因此 Linux 智能体应使用 mode: "transcribe"、Twilio 拨入,或 macOS chrome-node 主机,而不是默认的本地 Chrome 智能体路径。
没有已连接且支持 Google Meet 的节点
在节点主机上运行:googlemeet.chrome 以及 browser.proxy。Gateway 网关配置必须允许这些节点命令:
googlemeet setup 的 chrome-node-connected 失败,或 Gateway 网关日志报告 gateway token mismatch,请使用当前 Gateway 网关令牌重新安装或重启节点。对于 LAN Gateway 网关,这通常意味着:
浏览器打开但智能体无法加入
对仅观察加入运行googlemeet test-listen,或对实时加入运行 googlemeet test-speech,然后检查返回的 Chrome 健康状态。如果任一探测报告 manualActionRequired: true,请向操作员显示 manualActionMessage,并在浏览器操作完成之前停止重试。
常见手动操作:
- 登录 Chrome 配置文件。
- 从 Meet 主持帐号接纳访客。
- 当 Chrome 的原生权限提示出现时,授予 Chrome 麦克风/摄像头权限。
- 关闭或修复卡住的 Meet 权限对话框。
会议创建失败
配置 OAuth 凭据时,googlemeet create 首先使用 Google Meet API spaces.create 端点。没有 OAuth 凭据时,它会回退到固定的 Chrome 节点浏览器。请确认:
- 对于 API 创建:已配置
oauth.clientId和oauth.refreshToken,或存在匹配的OPENCLAW_GOOGLE_MEET_*环境变量。 - 对于 API 创建:刷新令牌是在添加创建支持之后生成的。旧令牌可能缺少
meetings.space.createdscope;请重新运行openclaw googlemeet auth login --json并更新插件配置。 - 对于浏览器回退:
defaultTransport: "chrome-node"且chromeNode.node指向一个已连接并具备browser.proxy和googlemeet.chrome的节点。 - 对于浏览器回退:该节点上的 OpenClaw Chrome 配置文件已登录 Google,并且可以打开
https://meet.google.com/new。 - 对于浏览器回退:重试会在打开新标签页之前复用现有
https://meet.google.com/new或 Google 帐号提示标签页。如果智能体超时,请重试工具调用,而不是手动打开另一个 Meet 标签页。 - 对于浏览器回退:如果工具返回
manualActionRequired: true,请使用返回的browser.nodeId、browser.targetId、browserUrl和manualActionMessage指导操作员。在该操作完成之前,不要循环重试。 - 对于浏览器回退:如果 Meet 显示 “Do you want people to hear you in the meeting?”,请保持标签页打开。OpenClaw 应通过浏览器自动化点击 Use microphone,或在仅创建回退时点击 Continue without microphone,并继续等待生成的 Meet URL。如果不能这样做,错误应提到
meet-audio-choice-required,而不是google-login-required。
智能体加入但不说话
检查实时路径:mode: "agent",或对直接实时语音回退使用 mode: "bidi"。mode: "transcribe" 会有意不启动回话桥接。对于仅观察调试,请在参与者发言后运行 openclaw googlemeet status --json <session-id>,并检查 captioning、transcriptLines 和 lastCaptionText。如果 inCall 为 true 但 transcriptLines 仍为 0,可能是 Meet 字幕已禁用、自观察器安装以来无人发言、Meet UI 已更改,或实时字幕不适用于该会议语言/帐号。
googlemeet test-speech 始终检查实时路径,并报告该次调用是否观察到桥接输出字节。如果 speechOutputVerified 为 false 且 speechOutputTimedOut 为 true,实时提供商可能已接受话语,但 OpenClaw 没有看到新的输出字节到达 Chrome 音频桥接。
还要验证:
- Gateway 网关主机上可用实时提供商密钥,例如
OPENAI_API_KEY或GEMINI_API_KEY。 - Chrome 主机上可见
BlackHole 2ch。 - Chrome 主机上存在
sox。 - Meet 麦克风和扬声器已通过 OpenClaw 使用的虚拟音频路径路由。对于本地 Chrome 实时加入,
doctor应显示meet output routed: yes。
googlemeet doctor [session-id] 会打印会话、节点、通话内状态、手动操作原因、实时提供商连接、realtimeReady、音频输入/输出活动、最后音频时间戳、字节计数器和浏览器 URL。当你需要原始 JSON 时,请使用 googlemeet status [session-id] --json。当你需要在不暴露令牌的情况下验证 Google Meet OAuth 刷新时,请使用 googlemeet doctor --oauth;当你还需要 Google Meet API 证明时,请添加 --meeting 或 --create-space。
如果智能体超时,并且你能看到已经打开的 Meet 标签页,请在不打开另一个标签页的情况下检查该标签页:
recover_current_tab。它会聚焦并检查选定传输协议的现有 Meet 标签页。使用 chrome 时,它通过 Gateway 网关进行本地浏览器控制;使用 chrome-node 时,它使用配置的 Chrome 节点。它不会打开新标签页或创建新会话;它会报告当前阻碍因素,例如登录、接纳、权限或音频选择状态。CLI 命令会与配置的 Gateway 网关通信,因此 Gateway 网关必须正在运行;chrome-node 还要求 Chrome 节点已连接。
Twilio 设置检查失败
当voice-call 不被允许或未启用时,twilio-voice-call-plugin 会失败。将其添加到 plugins.allow,启用 plugins.entries.voice-call,并重新加载 Gateway 网关。
当 Twilio 后端缺少帐户 SID、身份验证令牌或主叫号码时,twilio-voice-call-credentials 会失败。在 Gateway 网关主机上设置这些值:
voice-call 没有公开 webhook 暴露,或 publicUrl 指向 loopback 或私有网络空间时,twilio-voice-call-webhook 会失败。将 plugins.entries.voice-call.config.publicUrl 设置为公共提供商 URL,或配置 voice-call 隧道/Tailscale 暴露。
Loopback 和私有 URL 对运营商回调无效。不要将 localhost、127.0.0.1、0.0.0.0、10.x、172.16.x-172.31.x、192.168.x、169.254.x、fc00::/7 或 fd00::/8 用作 publicUrl。
对于稳定的公共 URL:
voicecall smoke 默认只检查就绪状态。要试运行特定号码:
--yes:
Twilio 通话已开始但从未进入会议
确认 Meet 活动公开了电话拨入详细信息。传入确切的拨入号码和 PIN,或自定义 DTMF 序列:--dtmf-sequence 中使用前导 w 或逗号。
如果电话呼叫已创建,但 Meet 名单始终没有显示拨入参与者:
- 运行
openclaw googlemeet doctor <session-id>,确认委派的 Twilio 通话 ID、DTMF 是否已排队,以及是否请求了开场问候。 - 运行
openclaw voicecall status --call-id <id>,确认通话仍处于活跃状态。 - 运行
openclaw voicecall tail,检查 Twilio webhook 是否到达 Gateway 网关。 - 运行
openclaw logs --follow,查找 Twilio Meet 序列:Google Meet 委派加入,Voice Call 存储并提供预连接 DTMF TwiML,Voice Call 为 Twilio 通话提供实时 TwiML,然后 Google Meet 使用voicecall.speak请求开场语音。 - 重新运行
openclaw googlemeet setup --transport twilio;绿色设置检查是必需的,但不能证明会议 PIN 序列正确。 - 确认拨入号码与 PIN 属于同一 Meet 邀请和区域。
- 如果 Meet 应答缓慢,或预连接 DTMF 已发送后通话转录仍显示要求输入 PIN 的提示,请将
voiceCall.dtmfDelayMs从默认的 12 秒增大。 - 如果参与者已加入但你听不到问候,请检查
openclaw logs --follow中的后 DTMFvoicecall.speak请求,以及媒体流 TTS 播放或 Twilio<Say>回退。如果通话转录仍包含 “enter the meeting PIN”,说明电话线路尚未加入 Meet 会议室,因此会议参与者不会听到语音。
plugins.entries.voice-call.config.publicUrl 或已配置的隧道。参见语音通话故障排除。
说明
Google Meet 的官方媒体 API 以接收为主,因此要在 Meet 通话中发声仍需要参与者路径。此插件会让该边界保持可见:Chrome 处理浏览器参与和本地音频路由;Twilio 处理电话拨入参与。 Chrome 回话模式需要BlackHole 2ch,并配合以下任一项:
chrome.audioInputCommand加chrome.audioOutputCommand:OpenClaw 拥有该桥接,并在这些命令与所选提供商之间以chrome.audioFormat管道传输音频。智能体模式使用实时转录加常规 TTS;bidi 模式使用实时语音提供商。默认 Chrome 路径是 24 kHz PCM16,并使用chrome.audioBufferBytes: 4096;8 kHz G.711 mu-law 仍可用于旧版命令对。chrome.audioBridgeCommand:外部桥接命令拥有整个本地音频路径,并且必须在启动或验证其守护进程后退出。这只对bidi有效,因为agent模式需要直接访问命令对以进行 TTS。
google_meet 工具时,会议顾问会话会在回答参与者语音之前分叉调用方的当前转录。Meet 会话仍然保持独立(agent:<agentId>:subagent:google-meet:<sessionId>),因此会议后续不会直接改变调用方转录。
为了获得干净的双工音频,请通过单独的虚拟设备或 Loopback 风格的虚拟设备图来路由 Meet 输出和 Meet 麦克风。单个共享 BlackHole 设备可能会把其他参与者的声音回声送回通话。
使用命令对 Chrome 桥接时,chrome.bargeInInputCommand 可以监听单独的本地麦克风,并在人类开始说话时清除助手播放。即使共享 BlackHole loopback 输入在助手播放期间被暂时抑制,这也能让人类语音优先于助手输出。与 chrome.audioInputCommand 和 chrome.audioOutputCommand 一样,它是由操作员配置的本地命令。请使用明确可信的命令路径或参数列表,不要将其指向不受信任位置中的脚本。
googlemeet speak 会触发 Chrome 会话的活跃回话音频桥接。googlemeet leave 会停止该桥接。对于通过 Voice Call 插件委派的 Twilio 会话,leave 还会挂断底层语音通话。当你还想关闭 API 管理空间中的活跃 Google Meet 会议时,请使用 googlemeet end-active-conference。