release media memory providers codex

OpenClaw 4.5–4.11:龙虾学会创作——视频、音乐,还有一套主动替你记东西的记忆系统

OpenClaws.io Team

OpenClaws.io Team

@openclaws

2026年4月11日

9 分钟

OpenClaw 4.5–4.11:龙虾学会创作——视频、音乐,还有一套主动替你记东西的记忆系统

六天。三个版本。4.5、4.7、4.10、4.11。

如果说 3.31–4.2 是围城——龙虾学会自保——那 4.5 到 4.11 讲的就是披甲之后的事。它开始做东西、记东西。从前那只只会回答问题的龙虾,现在会拍视频、写音乐,还会抢在你开口之前把合适的上下文塞进它的回复里。

视频生成升级为一等工具

4.5 之前,视频是个副业。你可以通过插件把链路凑出来,但既没有统一的工具名,也没有 provider 注册表,更谈不上 fallback 链。这一局翻篇了。

video_generate 现在是内置工具。Agent 调用它的方式和调用 image_generate 一模一样。结果以附件媒体的形式返回,通过当前会话所在的任何通道交付——Telegram、Discord、Slack、iMessage,哪条都行。

首发内置的 provider:xAI(grok-imagine-video)、阿里云百炼 Wan、Runway。4.10 通过 fal provider 接入了 Seedance 2.0,时长、分辨率、音频、seed 全部支持。4.11 又加上了纯 URL 方式的素材交付、参考音频输入、逐资产的角色提示,还有 adaptive 宽高比——这样 provider 能暴露更丰富的模式,同时不至于把巨型文件硬塞进内存。

4.7 落地了跨 auth provider 的图像、音乐、视频自动 fallback。切换时意图被完整保留。尺寸、宽高比、分辨率、时长这些提示如果当前 provider 不完全支持,会被映射到最接近的合法值,而不是直接报错。第一个 provider 接不住的请求,会被翻译成下一个能听懂的形态。

音乐生成同样如此

同一个版本,同一套路数。music_generate 现在是内置工具,首发内置 Google Lyria 和 MiniMax 两个 provider。异步跟踪,音频跑完了再回传。provider 不支持的可选提示——比如 Lyria 上的 durationSeconds——会被忽略并抛一条警告,而不是让整个请求挂掉。

想全部在本地跑?4.5 内置的 ComfyUI 工作流插件同时覆盖 image_generatevideo_generate,以及走工作流的 music_generate,本地 ComfyUI 和 Comfy Cloud 两头都能跑。提示词注入、可选的参考图上传、实时测试、产物下载——全套闭环。

`openclaw infer`:一个 CLI 收编所有推理

4.7 把 openclaw infer 正式铺成了走 provider 的推理工作流的总入口。模型、媒体、网页、embedding 任务全在同一条命令下。转写支持逐请求覆盖 promptlanguage。网页搜索和网页抓取的行为,和 agent 运行时下跑出来的一模一样。

如果你之前一直在拿一堆一次性脚本在聊天循环之外跑推理,这就是它们的替代品。

Active Memory:龙虾开始主动记事

这一条,用户感知最强。

4.10 之前,记忆是你要主动调的东西。"记住我喜欢暗色模式。""在记忆里搜一下那个 API key 的流程。"龙虾会照做,但前提是你先得记得让它做。

Active Memory 把这事翻了过来。这是一个可选插件,每一轮在主回复之前,跑一个专门的记忆 sub-agent。这个 sub-agent 会自动把偏好、过往细节和相关上下文拉进 prompt 里。你不用记着要记。

它可以调:message 范围、recent 范围、或者全上下文模式,激进到什么程度你自己定。/verbose 能让你实时看正在被拉进来的东西是什么。高级 prompt 覆盖和 thinking 覆盖留给微调用。需要 debug 某一次具体的记忆决策时,还可以显式打开 transcript 持久化。

4.12 又收紧了一圈。即便有 mx-claw 这类包装层介入,召回操作也会绑定在解析后的 channel 上。词法 fallback 排序有所改进。Active Memory 的结果现在走的是隐藏的、不可信的 prompt 前缀路径,而不再直接写进 system prompt——这样在 gateway 的 debug 日志里你能一字不差地看到模型真正收到了什么。

Codex 有了自己的 provider

4.10 把 Codex 从 OpenAI provider 的路径里拆了出来。codex/gpt-<em class="italic text-slate-200"> 模型现在走 Codex 自己管的认证、原生线程、模型发现和 compaction,全部通过一个由插件拥有的 app-server harness。openai/gpt-</em> 继续留在标准的 OpenAI provider 上。

实际效果:你的 Codex 订阅不会再和你的 OpenAI API key 打架。认证 profile 各走各的。模型列表直接取自 Codex 自己的目录。4.14 又在此之上加了对 gpt-5.4-pro 的前向兼容——在上游目录还没同步之前,Codex 的定价和配额就已经能看到了。

LM Studio 现在是内置 provider

4.12 内置了一个 LM Studio provider。首次配置引导、运行时模型发现、流式预加载、记忆搜索 embedding——一整条一等公民通道。如果你用 LM Studio 跑本地模型,不用再把它配成一个通用的 OpenAI 兼容 endpoint、然后祈祷能力探测能跑通了。

一些值得一提的小事

  • Arcee AI provider(4.7):Trinity 目录、OpenRouter 支持、配置引导。
  • Gemma 4 支持(4.7):显式的 thinking-off 语义通过 Gemma 兼容包装层完整保留。
  • 内置 Qwen、Fireworks AI、StepFun(4.5)——外加 MiniMax TTS、Ollama Web Search、MiniMax Search 这几套集成。
  • Amazon Bedrock(4.5):推理 profile 自动发现,请求区域自动注入。IAM 认证走凭据链即可,不需要再手动 export AWS_BEARER_TOKEN_BEDROCK
  • Compaction provider 注册表(4.7):插件可以替换内置的总结流水线。provider 失败时自动 fallback 回 LLM 总结。
  • 持久化的 compaction 检查点(4.7):Sessions UI 上新增 branch/restore 操作,可以查看和恢复 compaction 之前的状态。

这一轮的整体形状

三条主题,并行推进:

  1. 1.做东西。 视频、音乐、本地工作流。从前那只只会回答问题的龙虾,现在能产出在聊天之外也能独立存在的东西。
  2. 2.记东西。 Active Memory 把记忆从一个你要去调的东西,变成了一个自己调自己的东西。
  3. 3.更干净的边界。 Codex 有了自己的车道。LM Studio 升为一等公民。provider 的认证不再跨上下文串味。

这一轮里没有哪个单独叫得出名字的旗舰功能。它是一连串单看都很增量、合在一起就改变龙虾手感的升级。要视频,就给视频。顺口提一次偏好,它就记住。Codex 和 OpenAI GPT 来回切,认证不打架。

六天,三个版本,一只从"它能做事"走到了"它在替你做事"的龙虾。

订阅更新

第一时间获取新功能和玩法。放心,不会发垃圾邮件。