release media memory providers codex

OpenClaw 4.5–4.11: tôm hùm học sáng tạo — video, nhạc, và một bộ nhớ tự nhớ giùm bạn

OpenClaws.io Team

OpenClaws.io Team

@openclaws

April 11, 2026

9 phút đọc

OpenClaw 4.5–4.11: tôm hùm học sáng tạo — video, nhạc, và một bộ nhớ tự nhớ giùm bạn

Sáu ngày. Ba bản release. 4.5, 4.7, 4.10, 4.11.

Nếu 3.31–4.2 là trận vây hãm — lúc con tôm hùm học cách tự vệ — thì 4.5 đến 4.11 là những gì xảy ra sau khi lớp giáp đã khoác lên. Bạn bắt đầu tạo ra thứ. Nhớ lại thứ. Con tôm hùm trước đây chỉ biết trả lời câu hỏi giờ quay video, viết nhạc, và kéo đúng miếng context vào câu trả lời cho bạn trước cả khi bạn hỏi.

Tạo video là một tool chính thức

Cho đến 4.5, video vẫn là một dự án phụ. Bạn có thể nối gì đó qua plugin, nhưng chưa có tên tool dùng chung, chưa có provider registry, cũng chưa có chuỗi fallback. Giờ thì khác.

video_generate giờ là một tool tích hợp sẵn. Các agent gọi nó y như cách chúng gọi image_generate. Kết quả trả về dưới dạng media đính kèm, giao qua bất cứ kênh nào cuộc hội thoại đang chạy — Telegram, Discord, Slack, iMessage, kênh nào cũng được.

Các provider đi kèm lúc ra mắt: xAI (grok-imagine-video), Alibaba Model Studio Wan, Runway. 4.10 thêm Seedance 2.0 qua provider fal với hỗ trợ đầy đủ duration, resolution, audio và seed. 4.11 thêm giao asset chỉ bằng URL, input audio tham chiếu, gợi ý role theo từng asset, và tỷ lệ khung hình adaptive — để provider có thể phơi ra những mode giàu hơn mà không phải nhồi những file khổng lồ vào memory.

Auto-fallback xuyên các provider image, music và video có auth đã cập bờ trong 4.7. Intent được giữ nguyên trong lúc chuyển. Các gợi ý size, aspect, resolution và duration được ánh xạ sang option gần nhất được hỗ trợ thay vì bể thẳng. Nếu một provider không xử lý được request, provider kế tiếp trong chuỗi nhận một bản đã được dịch lại.

Tạo nhạc, cũng y như vậy

Cùng bản release, cùng khuôn mẫu. music_generate là một tool tích hợp sẵn với các provider đi kèm là Google Lyria và MiniMax. Theo dõi async với việc giao tiếp theo khi audio hoàn tất. Những gợi ý tùy chọn mà provider không hỗ trợ — như durationSeconds trên Lyria — bị bỏ qua kèm một cảnh báo thay vì giết chết request.

Muốn chạy tất cả ở local? Plugin ComfyUI workflow đi kèm trong 4.5 phủ image_generate, video_generatemusic_generate dựa trên workflow, đối với cả ComfyUI local lẫn Comfy Cloud. Prompt injection, upload ảnh tham chiếu tùy chọn, test trực tiếp, tải kết quả — đủ một vòng.

`openclaw infer`: một CLI cho mọi inference

4.7 đưa openclaw infer lên thành hub chính thức cho các workflow inference đi qua provider. Các tác vụ model, media, web và embedding đều nằm dưới cùng một lệnh. Transcription hỗ trợ override promptlanguage theo từng request. Web search và web fetch hành xử giống hệt cách agent runtime sẽ chạy chúng.

Nếu bạn đang khâu tạm các script một lần dùng để chạy inference ngoài vòng chat, đây là thứ thay thế.

Active Memory: con tôm hùm bắt đầu nhớ

Đây là thứ mà user sẽ cảm nhận rõ nhất.

Trước 4.10, memory là thứ bạn phải chủ động yêu cầu. "Nhớ giúp tao là tao thích dark mode." "Tìm trong memory cái workflow API key đó." Con tôm hùm sẽ làm, nhưng chỉ khi bạn nhớ mà bảo nó.

Active Memory lật ngược lại. Nó là một plugin tùy chọn, chạy một memory sub-agent chuyên biệt ngay trước câu trả lời chính mỗi lượt. Sub-agent tự kéo preferences, chi tiết quá khứ và context liên quan vào prompt. Bạn không còn phải nhớ là phải nhớ nữa.

Nó cấu hình được: mode theo message, theo nội dung gần đây, hoặc full context, tùy vào mức độ hung hăng bạn muốn. /verbose cho bạn thấy trực tiếp những gì đang được kéo vào. Có override prompt và thinking nâng cao để tinh chỉnh. Có tùy chọn lưu transcript cho lúc bạn cần debug một quyết định memory cụ thể.

4.12 siết nó lại. Các lần recall ở nguyên trên kênh đã resolve ngay cả khi các wrapper như mx-claw đang có mặt. Xếp hạng fallback theo lexical được cải thiện. Kết quả Active Memory giờ nằm trên đường prompt-prefix không tin cậy ẩn, thay vì đi thẳng vào system prompt — nhờ đó bạn thấy chính xác những gì model nhận được trong gateway debug log.

Codex có provider riêng của nó

4.10 tách Codex ra khỏi đường provider OpenAI. Các model codex/gpt-<em class="italic text-slate-200"> giờ dùng auth do Codex quản, native thread, model discovery và compaction đi qua một harness app-server do plugin sở hữu. openai/gpt-</em> vẫn ở lại trên provider OpenAI chuẩn.

Kết quả thực tế: subscription Codex của bạn không còn đạp lên OpenAI API key. Các profile auth được cách ly. Danh sách model đến từ catalog Codex. 4.14 tiếp theo bằng hỗ trợ forward-compat cho gpt-5.4-pro, bao gồm cả việc hiển thị pricing và limit của Codex trước khi catalog upstream bắt kịp.

LM Studio giờ là một provider đi kèm

4.12 ra mắt provider LM Studio đi kèm. Flow onboarding, model discovery lúc runtime, preload stream, embedding cho memory search — đủ đường chính thức. Nếu bạn chạy các model local qua LM Studio, bạn không còn phải cấu hình nó như một endpoint OpenAI-compatible chung chung rồi hy vọng phần dò capability sẽ hoạt động.

Những thứ nhỏ hơn đáng nhắc

  • Provider Arcee AI (4.7): catalog Trinity, hỗ trợ OpenRouter, hướng dẫn onboarding.
  • Hỗ trợ Gemma 4 (4.7): ngữ nghĩa thinking-off rõ ràng được giữ xuyên qua wrapper tương thích Gemma.
  • Qwen, Fireworks AI, StepFun đi kèm (4.5) — cộng thêm các tích hợp MiniMax TTS, Ollama Web Search và MiniMax Search.
  • Amazon Bedrock (4.5): khám phá inference-profile và tự động tiêm request-region. Auth IAM chạy qua credential chain mà không cần export AWS_BEARER_TOKEN_BEDROCK.
  • Registry provider cho compaction (4.7): plugin có thể thay thế pipeline summarization tích hợp. Khi provider hỏng thì rơi về summarization bằng LLM.
  • Checkpoint compaction được persist (4.7): Sessions UI có action branch/restore để kiểm tra và khôi phục state trước khi compaction.

Hình dạng của chu kỳ này

Ba chủ đề, chạy song song:

  1. 1.Tạo ra thứ. Video, nhạc, local workflow runner. Con tôm hùm trước đây chỉ biết trả lời câu hỏi giờ tạo ra output sống bên ngoài khung chat.
  2. 2.Nhớ thứ. Active Memory biến memory từ thứ bạn phải gọi thành thứ tự gọi chính nó.
  3. 3.Ranh giới sạch hơn. Codex có làn đường riêng. LM Studio trở thành công dân hạng nhất. Auth provider không còn tràn qua lại giữa các context.

Không cái nào trong số này là một tính năng cờ đầu đơn lẻ. Đó là một chuỗi nâng cấp mà nhìn riêng từng cái thì chỉ mang tính tiệm tiến, nhưng gộp lại thay đổi cảm giác khi bạn chạm vào con tôm hùm. Yêu cầu một video, bạn được một video. Nhắc một preference một lần, nó dính. Chuyển qua lại giữa Codex và OpenAI GPT, auth của bạn không đụng nhau.

Sáu ngày, ba bản release, một con tôm hùm đã đi từ "nó làm được thứ" sang "nó làm thứ cho bạn".

Theo dõi tin mới

Nhận thông báo về tính năng mới và tích hợp. Không spam, hủy đăng ký bất cứ lúc nào.