release media memory providers codex

OpenClaw 4.5–4.11: a lagosta aprende a criar — vídeo, música e uma memória que lembra por você

OpenClaws.io Team

OpenClaws.io Team

@openclaws

April 11, 2026

9 min de leitura

OpenClaw 4.5–4.11: a lagosta aprende a criar — vídeo, música e uma memória que lembra por você

Seis dias. Três releases. 4.5, 4.7, 4.10, 4.11.

Se 3.31–4.2 foi o cerco — a lagosta aprendendo a se defender — então 4.5 até 4.11 é o que acontece depois que a armadura está no lugar. Você começa a fazer coisas. A lembrar de coisas. A lagosta que antes só respondia perguntas agora grava vídeo, escreve música e enfia o pedaço certo de contexto na sua resposta antes mesmo de você pedir.

A geração de vídeo virou uma ferramenta de primeira classe

Até 4.5, vídeo era meio que um projeto paralelo. Dava para montar alguma coisa através de um plugin, mas não havia um nome de ferramenta compartilhado, nem um registro de providers, nem uma cadeia de fallback. Isso mudou.

video_generate agora é uma ferramenta nativa. Os agentes chamam exatamente do mesmo jeito que chamam image_generate. O resultado volta como mídia anexada, entregue pelo canal em que a conversa está rodando — Telegram, Discord, Slack, iMessage, tanto faz.

Os providers que vêm de fábrica no lançamento: xAI (grok-imagine-video), Alibaba Model Studio Wan, Runway. 4.10 adicionou o Seedance 2.0 pelo provider fal, com suporte completo de duração, resolução, áudio e seed. 4.11 adicionou entrega de ativos só por URL, entradas de áudio de referência, hints de papel por ativo, e a proporção adaptive — para que os providers possam expor modos mais ricos sem forçar arquivos enormes para dentro da memória.

O auto-fallback entre providers autenticados de imagem, música e vídeo chegou no 4.7. A intenção é preservada durante as trocas. Hints de tamanho, proporção, resolução e duração são remapeados para a opção suportada mais próxima, em vez de falhar de cara. Se um provider não consegue atender o pedido, o próximo na cadeia recebe uma versão traduzida.

Geração de música, também

Mesmo release, mesmo padrão. music_generate é uma ferramenta nativa, com Google Lyria e MiniMax já inclusos como providers. Tracking assíncrono, com entrega posterior quando o áudio fica pronto. Hints opcionais que um provider não suporta — por exemplo durationSeconds no Lyria — são ignorados com um aviso, em vez de matar o pedido.

Prefere rodar tudo localmente? O plugin de workflow de ComfyUI que vem junto no 4.5 cobre image_generate, video_generate e music_generate apoiado por workflow, contra ComfyUI local e Comfy Cloud. Injeção de prompt, upload opcional de imagem de referência, testes ao vivo, download de saída — a volta inteira.

`openclaw infer`: um CLI para toda a inferência

4.7 trouxe openclaw infer como hub de primeira classe para workflows de inferência apoiados em provider. Tarefas de modelo, mídia, web e embeddings moram todas sob o mesmo comando. A transcrição suporta overrides de prompt e language por requisição. Busca web e web fetch se comportam do mesmo jeito que o runtime do agente rodaria.

Se você vinha costurando scripts descartáveis para rodar inferência fora do loop do chat, esse é o substituto.

Memory ativa: a lagosta começa a lembrar sozinha

Esse é o ponto que os usuários vão sentir mais.

Antes do 4.10, memory era algo que você tinha que pedir. "Lembra que eu prefiro modo escuro." "Procura na memory aquele workflow da API key." A lagosta fazia, mas só se você lembrasse de dizer.

Active Memory vira isso do avesso. É um plugin opcional que roda um subagente dedicado de memory logo antes da resposta principal de cada turno. O subagente puxa preferências, detalhes passados e contexto relevante para dentro do prompt automaticamente. Você não precisa lembrar de lembrar.

Dá para configurar: modo com escopo de mensagem, escopo recente, ou contexto cheio, dependendo de quão agressivo você quer. /verbose deixa inspecionar em tempo real o que está sendo puxado. Overrides avançados de prompt e thinking estão ali para afinar. Persistência de transcript opt-in, para quando você precisar debugar uma decisão específica de memory.

4.12 apertou. As execuções de recall ficam no canal resolvido mesmo quando há wrappers como mx-claw no meio. O ranking do fallback léxico melhorou. Os resultados da Active Memory agora ficam no caminho oculto do untrusted prompt-prefix em vez de entrar direto no system prompt — assim você vê exatamente o que o modelo recebeu nos logs de debug do gateway.

Codex ganha um provider próprio

4.10 separou o Codex do caminho do provider OpenAI. Os modelos codex/gpt-<em class="italic text-slate-200"> usam agora o auth gerenciado pelo Codex, threads nativas, descoberta de modelos e compactação através de um harness de app-server pertencente ao plugin. openai/gpt-</em> continua no provider OpenAI padrão.

Na prática: sua assinatura do Codex para de pisar na sua API key da OpenAI. Perfis de auth ficam isolados. A lista de modelos vem do catálogo do Codex. 4.14 veio em seguida com suporte forward-compat para gpt-5.4-pro, incluindo visibilidade de preços e limites do Codex antes do catálogo upstream alcançar.

LM Studio agora é um provider incluído

4.12 entregou um provider de LM Studio de fábrica. Fluxo de onboarding, descoberta de modelos em runtime, preload de stream, embeddings para busca em memory — o caminho inteiro de primeira classe. Se você roda modelos locais via LM Studio, não precisa mais configurar como um endpoint genérico compatível com OpenAI e torcer para a detecção de capacidades sair certa.

Coisas menores que valem menção

  • Provider Arcee AI (4.7): catálogo Trinity, suporte a OpenRouter, guia de onboarding.
  • Suporte a Gemma 4 (4.7): a semântica explícita de thinking-off é preservada através do wrapper de compatibilidade do Gemma.
  • Qwen, Fireworks AI, StepFun inclusos (4.5) — mais integrações de MiniMax TTS, Ollama Web Search e MiniMax Search.
  • Amazon Bedrock (4.5): descoberta de perfis de inferência e injeção automática de região da requisição. O auth IAM funciona pela cadeia de credenciais sem precisar exportar AWS_BEARER_TOKEN_BEDROCK.
  • Registry de provider de compactação (4.7): plugins podem substituir a pipeline de sumarização nativa. Volta para sumarização por LLM se o provider falhar.
  • Checkpoints de compactação persistidos (4.7): ações de branch/restore na UI de Sessions para inspecionar e recuperar o estado anterior à compactação.

O formato deste ciclo

Três temas correndo em paralelo:

  1. 1.Fazer coisas. Vídeo, música, runners de workflow local. A lagosta que antes só respondia perguntas agora produz saída que vive fora do chat.
  2. 2.Lembrar coisas. Active Memory transforma memory, de algo que você chama em algo que se chama sozinho.
  3. 3.Fronteiras mais limpas. Codex ganha sua própria pista. LM Studio vira primeira classe. O auth dos providers para de vazar entre contextos.

Nada disso é uma única feature carro-chefe. É uma série de upgrades que, olhados isolados, parecem incrementais e, juntos, mudam como a lagosta responde ao toque. Você pede um vídeo, vem um vídeo. Menciona uma preferência uma vez, ela fica. Troca entre Codex e OpenAI GPT, e seu auth não bate de frente.

Seis dias, três releases, uma lagosta que passou de "ela consegue fazer coisas" para "ela faz coisas por você".

Fique por dentro

Receba novidades sobre recursos e integrações. Sem spam, cancele quando quiser.