六天。三個版本。4.5、4.7、4.10、4.11。
要說 3.31–4.2 是圍城——龍蝦學會自保——那 4.5 到 4.11 講的就是披甲之後的事。牠開始做東西、記東西。從前那隻只會回答問題的龍蝦,現在會拍影片、寫音樂,還會搶在你開口之前把合適的上下文塞進牠的回覆裡。
影片生成升級為一等工具
4.5 之前,影片是副業。你可以透過外掛把鏈路湊出來,但既沒有統一的工具名,也沒有 provider 註冊表,更談不上 fallback 鏈。這一局翻篇了。
video_generate 現在是內建工具。Agent 呼叫它的方式和呼叫 image_generate 一模一樣。結果以附件媒體的形式回傳,透過當前對話所在的任何通道交付——Telegram、Discord、Slack、iMessage,哪一條都行。
首發內建的 provider:xAI(grok-imagine-video)、阿里雲百煉 Wan、Runway。4.10 透過 fal provider 接入了 Seedance 2.0,時長、解析度、音訊、seed 全面支援。4.11 又加上了純 URL 方式的素材交付、參考音訊輸入、逐資產的角色提示,還有 adaptive 寬高比——這樣 provider 能暴露更豐富的模式,同時不至於把巨型檔案硬塞進記憶體。
4.7 落地了跨 auth provider 的圖像、音樂、影片自動 fallback。切換時意圖被完整保留。尺寸、寬高比、解析度、時長這些提示如果當前 provider 不完全支援,會被映射到最接近的合法值,而不是直接報錯。第一個 provider 接不住的請求,會被翻譯成下一個能聽懂的形態。
音樂生成同樣如此
同一個版本,同一套路數。music_generate 現在是內建工具,首發內建 Google Lyria 和 MiniMax 兩個 provider。非同步追蹤,音訊跑完了再回傳。provider 不支援的選填提示——比如 Lyria 上的 durationSeconds——會被忽略並拋一條警告,而不是讓整個請求掛掉。
想全部在本機跑?4.5 內建的 ComfyUI 工作流外掛同時覆蓋 image_generate、video_generate,以及走工作流的 music_generate,本機 ComfyUI 和 Comfy Cloud 兩頭都能跑。提示詞注入、選填的參考圖上傳、即時測試、產物下載——全套閉環。
`openclaw infer`:一個 CLI 收編所有推理
4.7 把 openclaw infer 正式鋪成了走 provider 的推理工作流的總入口。模型、媒體、網頁、embedding 任務全在同一條命令下。轉錄支援逐請求覆寫 prompt 和 language。網頁搜尋和網頁抓取的行為,和 agent 執行時下跑出來的一模一樣。
如果你之前一直拿一堆一次性腳本在對話迴圈之外跑推理,這就是它們的替代品。
Active Memory:龍蝦開始主動記事
這一條,使用者感知最強。
4.10 之前,記憶是你要主動呼叫的東西。「記住我喜歡暗色模式。」「在記憶裡搜一下那個 API key 的流程。」龍蝦會照做,但前提是你先得記得讓牠做。
Active Memory 把這事翻了過來。這是一個可選的外掛,每一輪在主回覆之前,跑一個專門的記憶 sub-agent。這個 sub-agent 會自動把偏好、過往細節和相關上下文拉進 prompt 裡。你不用記著要記。
它可以調:message 範圍、recent 範圍,或者全上下文模式,激進到什麼程度你自己定。/verbose 能讓你即時看到正在被拉進來的東西是什麼。進階 prompt 覆寫和 thinking 覆寫留給微調用。需要 debug 某一次具體的記憶決策時,還可以顯式打開 transcript 持久化。
4.12 又收緊了一圈。即便有 mx-claw 這類包裝層介入,召回操作也會綁定在解析後的 channel 上。詞法 fallback 排序有所改進。Active Memory 的結果現在走的是隱藏的、不可信的 prompt 前綴路徑,而不再直接寫進 system prompt——這樣在 gateway 的 debug 日誌裡你能一字不差地看到模型真正收到了什麼。
Codex 有了自己的 provider
4.10 把 Codex 從 OpenAI provider 的路徑裡拆了出來。codex/gpt-<em class="italic text-slate-200"> 模型現在走 Codex 自己管的認證、原生執行緒、模型發現和 compaction,全部透過一個由外掛擁有的 app-server harness。openai/gpt-</em> 繼續留在標準的 OpenAI provider 上。
實際效果:你的 Codex 訂閱不會再和你的 OpenAI API key 打架。認證 profile 各走各的。模型列表直接取自 Codex 自己的目錄。4.14 又在此之上加了對 gpt-5.4-pro 的前向相容——在上游目錄還沒同步之前,Codex 的定價和配額就已經能看到了。
LM Studio 現在是內建 provider
4.12 內建了一個 LM Studio provider。首次設定引導、執行時模型發現、串流預載入、記憶搜尋 embedding——一整條一等公民通道。如果你用 LM Studio 跑本機模型,不用再把它設成一個通用的 OpenAI 相容 endpoint、然後祈禱能力偵測能跑通。
一些值得一提的小事
- •Arcee AI provider(4.7):Trinity 目錄、OpenRouter 支援、設定引導。
- •Gemma 4 支援(4.7):顯式的 thinking-off 語意透過 Gemma 相容包裝層完整保留。
- •內建 Qwen、Fireworks AI、StepFun(4.5)——外加 MiniMax TTS、Ollama Web Search、MiniMax Search 這幾套整合。
- •Amazon Bedrock(4.5):推理 profile 自動發現,請求區域自動注入。IAM 認證走憑證鏈即可,不需要再手動 export
AWS_BEARER_TOKEN_BEDROCK。 - •Compaction provider 註冊表(4.7):外掛可以取代內建的摘要流水線。provider 失敗時自動 fallback 回 LLM 摘要。
- •持久化的 compaction 檢查點(4.7):Sessions UI 上新增 branch/restore 操作,可以檢視和還原 compaction 之前的狀態。
這一輪的整體形狀
三條主題,並行推進:
- 1.做東西。 影片、音樂、本機工作流。從前那隻只會回答問題的龍蝦,現在能產出在對話之外也能獨立存在的東西。
- 2.記東西。 Active Memory 把記憶從一個你要去呼叫的東西,變成了一個自己呼叫自己的東西。
- 3.更乾淨的邊界。 Codex 有了自己的車道。LM Studio 升為一等公民。provider 的認證不再跨上下文串味。
這一輪裡沒有哪個單獨叫得出名字的旗艦功能。它是一連串單看都很增量、合在一起就改變龍蝦手感的升級。要影片,就給影片。順口提一次偏好,牠就記住。Codex 和 OpenAI GPT 來回切,認證不打架。
六天,三個版本,一隻從「牠能做事」走到了「牠在替你做事」的龍蝦。