v2026.4.22 — xAI 圖片/語音三件組 + 多平台 STT
發布日期:2026 年 4 月 22 日
定位:多媒體提供商擴張 + Codex harness 深化
Breaking Changes:無
核心亮點
1. xAI 全媒體支援(圖片 + TTS + STT)
xAI 提供商一次補齊三種媒體生成:
- 圖片生成:
grok-imagine-image和grok-imagine-image-pro,含參考圖片編輯 - TTS:六種 xAI 語音、MP3/WAV/PCM/G.711 格式
- STT:
grok-stt批次轉錄 + xAI realtime 轉錄(給 Voice Call 串流用)
2. 多家 STT 平台 realtime 串流
Voice Call 串流轉錄擴張到:
- Deepgram
- ElevenLabs(也加上 Scribe v2 批次轉錄)
- Mistral
加上原有的 OpenAI 和 xAI realtime STT 路徑。
3. TUI 本地 embedded 模式
TUI(終端機介面)新增本地 embedded 模式:
- 不需要 Gateway 也能跑終端聊天
- 同時保留插件 approval gate 強制套用
適合單機快速試或受限環境。
4. Onboarding 自動安裝插件
設定流程偵測到缺少的提供商和頻道插件時,自動安裝:
- 第一次設定不必手動補插件
- 流程更順
5. Tencent Cloud 提供商
新增 Tencent Cloud 提供商插件:
- TokenHub onboarding
- 文件
hy3-preview模型目錄- Hy3 階梯式定價 metadata
6. WhatsApp + 群組系統提示
WhatsApp 和群組現在支援 per-group 和 per-direct 的 systemPrompt config:
- 配置會在每次回覆時注入到 inbound context 的
GroupSystemPrompt - 支援
"*"wildcard - 支援 account-scoped overrides 在
channels.whatsapp.accounts.<id>.{groups,direct}
7. /models add 從聊天直接註冊模型
新增 /models add <provider> <modelId> 指令:
- 從聊天裡註冊模型,不需重啟 gateway
/models變成單純的提供商瀏覽器- 加入更清楚的指令範例
8. Codex harness 深化
- 原生 Codex 嵌入式輪迴會跑
before_prompt_build、before_compaction、after_compaction - bundled-plugin Codex app-server extension seam(async tool_result 中介層)
llm_input、llm_output、agent_end全部 fire- Codex MCP tool approval elicitation 走 OpenClaw plugin approvals
9. OpenAI Responses 用原生 web_search
直接走 OpenAI Responses 的模型,現在自動用 OpenAI 原生的 web_search 工具(前提是有開網路搜尋且沒釘住其他提供商);其他選擇如 Brave 仍走 managed web_search。
10. Gateway 子程序 OOM 友善
Linux 上 gateway 管理的 supervisor、PTY、MCP stdio、browser 子程序包一層 /bin/sh shim:
- 提高子程序自己的
oom_score_adj - cgroup 記憶體壓力下,kernel 會優先殺短命 worker,不殺長命 gateway
- 透過
OPENCLAW_CHILD_OOM_SCORE_ADJ=0可以選擇關閉
11. WhatsApp outbound dedupe 修復
WhatsApp outbound 在傳送中時,會把這條 entry 留 in-memory active-delivery claim:
- 並行的重連 drain 不會再 re-drive 同一筆 pending entry
- cron 訊息不再因為 30 分鐘 inbound-silence watchdog 重複送 7-12 倍
12. Codex / OAuth profile 修補
- 過期的
openai-codex:defaultOAuth profile 不再 shadow 新的 main-agent identity - ACPX OpenClaw bridge command 走 MCP-free runtime path(即使被
env包裝、有 bridge flags、或從持久化 session 恢復)
升級建議
- 想用 Grok 系列圖片/語音的客戶:直接升級
- Voice Call 客戶:可用 Deepgram / ElevenLabs / Mistral 串流轉錄
- 想試 TUI 不啟 gateway 的客戶:本地 embedded 模式可用
- WhatsApp 群組分流的客戶:per-group
systemPrompt可以設了 - 在 Linux 跑 gateway 並擔心 OOM 的客戶:子程序 OOM 友善很有幫助
- 之前被 WhatsApp outbound 重複送困擾的客戶:升級即修