release media memory providers codex

OpenClaw 4.5–4.11: l'aragosta impara a creare — video, musica e una memoria che ricorda al posto tuo

OpenClaws.io Team

@openclaws

April 11, 2026

9 min di lettura

OpenClaw 4.5–4.11: l'aragosta impara a creare — video, musica e una memoria che ricorda al posto tuo

Sei giorni. Tre release. 4.5, 4.7, 4.10, 4.11.

Se il 3.31–4.2 era l'assedio — l'aragosta che imparava a difendersi — allora dal 4.5 al 4.11 è quello che succede dopo che l'armatura è addosso. Inizi a fare cose. A ricordare cose. L'aragosta che prima si limitava a rispondere alle domande adesso gira video, scrive musica, e tira il pezzo giusto di contesto dentro la tua risposta prima ancora che tu lo chieda.

La generazione video diventa uno strumento di prima classe

Fino al 4.5, il video era un progetto a margine. Potevi mettere insieme qualcosa con un plugin, ma non c'era un nome di tool condiviso, niente registry di provider, niente catena di fallback. Quel periodo è finito.

video_generate ora è un tool integrato. Gli agenti lo chiamano nello stesso modo in cui chiamano image_generate. Il risultato torna come media allegato, consegnato attraverso qualunque canale stia portando avanti la conversazione — Telegram, Discord, Slack, iMessage, non fa differenza.

I provider in dotazione al lancio: xAI (grok-imagine-video), Alibaba Model Studio Wan, Runway. Il 4.10 ha aggiunto Seedance 2.0 attraverso il provider fal con supporto pieno a durata, risoluzione, audio e seed. Il 4.11 ha aggiunto consegna asset solo via URL, audio di riferimento in input, hint di ruolo per asset, e un aspect ratio adaptive — così i provider possono esporre modalità più ricche senza dover ficcare file enormi in memoria.

Il fallback automatico tra provider di immagini, musica e video appoggiati ad auth è arrivato nel 4.7. L'intento viene preservato durante gli switch. Hint su dimensioni, aspect, risoluzione e durata vengono rimappati sull'opzione supportata più vicina invece di far fallire la richiesta. Se un provider non riesce a gestire la richiesta, quello successivo nella catena ne riceve una versione tradotta.

Anche la generazione musicale

Stessa release, stesso schema. music_generate è un tool integrato con i provider in dotazione Google Lyria e MiniMax. Tracking asincrono con consegna successiva quando l'audio è pronto. Hint opzionali che un provider non supporta — tipo durationSeconds su Lyria — vengono ignorati con un avviso invece di mandare in pezzi la richiesta.

Preferisci girare tutto in locale? Il plugin workflow ComfyUI in dotazione nel 4.5 copre image_generate, video_generate, e un music_generate appoggiato a workflow contro ComfyUI locale e Comfy Cloud. Iniezione del prompt, upload opzionale di immagini di riferimento, test live, download dell'output — tutto il giro completo.

`openclaw infer`: un solo CLI per tutte le inferenze

Il 4.7 ha portato openclaw infer come hub di prima classe per i workflow di inferenza appoggiati ai provider. Modelli, media, web, embedding — tutto vive sotto lo stesso comando. La trascrizione supporta override di prompt e language per richiesta. Web search e web fetch si comportano nello stesso modo in cui li farebbe partire il runtime dell'agente.

Se ti sei messo a cucire script una tantum per fare inferenza fuori dal loop della chat, questo è il rimpiazzo.

Active Memory: l'aragosta inizia a ricordare

Questa è quella che gli utenti sentiranno di più.

Prima del 4.10, la memoria era qualcosa che dovevi chiedere. "Ricordati che preferisco la dark mode." "Cerca in memoria quel workflow per la API key." L'aragosta lo faceva, ma solo se ti ricordavi tu di dirglielo.

Active Memory ribalta la cosa. È un plugin opzionale che fa partire un sub-agent dedicato alla memoria appena prima della risposta principale, a ogni turno. Il sub-agent tira preferenze, dettagli passati, e contesto rilevante dentro al prompt in automatico. Non devi più ricordarti di ricordarti.

È configurabile: scope sul messaggio, sui messaggi recenti, o full context, a seconda di quanto vuoi che sia aggressivo. /verbose ti lascia ispezionare in diretta cosa viene tirato dentro. Override avanzati di prompt e thinking sono lì per la messa a punto. Persistenza opt-in del transcript per quando devi fare debug su una decisione di memoria specifica.

Il 4.12 ha stretto il dado. I run di recall restano sul canale risolto anche quando ci sono di mezzo wrapper come mx-claw. Il ranking del fallback lessicale è migliorato. I risultati di Active Memory ora stanno sul percorso nascosto di prompt-prefix non fidato, invece di finire dentro il system prompt direttamente — così puoi vedere esattamente quello che il modello ha ricevuto nei log di debug del gateway.

Codex ha il suo provider

Il 4.10 ha staccato Codex dal percorso del provider OpenAI. I modelli codex/gpt-<em class="italic text-slate-200"> adesso usano auth gestito da Codex, thread nativi, model discovery, e compaction attraverso un app-server harness di proprietà del plugin. openai/gpt-</em> resta sul provider OpenAI standard.

Risultato pratico: la tua subscription Codex smette di pestare i piedi alla tua API key OpenAI. I profili di auth sono isolati. La lista dei modelli arriva dal catalogo Codex. Il 4.14 ha dato seguito con supporto forward-compat per gpt-5.4-pro, includendo visibilità su pricing e limiti Codex prima ancora che il catalogo upstream si mettesse al passo.

LM Studio adesso è un provider in dotazione

Il 4.12 ha consegnato un provider LM Studio integrato. Flusso di onboarding, scoperta dei modelli a runtime, preload dello stream, embedding per la memory search — tutto il percorso di prima classe. Se fai girare modelli locali attraverso LM Studio, non devi più configurarlo come endpoint generico OpenAI-compatibile e sperare che il rilevamento delle capabilities indovini.

Cose più piccole che vale la pena nominare

•Provider Arcee AI (4.7): catalogo Trinity, supporto OpenRouter, guida onboarding.
•Supporto Gemma 4 (4.7): semantica esplicita di thinking-off preservata attraverso il wrapper di compatibilità Gemma.
•Qwen, Fireworks AI, StepFun in dotazione (4.5) — più integrazioni MiniMax TTS, Ollama Web Search, e MiniMax Search.
•Amazon Bedrock (4.5): scoperta dell'inference-profile e iniezione automatica della region nella richiesta. L'auth IAM funziona attraverso la credential chain senza dover esportare AWS_BEARER_TOKEN_BEDROCK.
•Registry dei provider di compaction (4.7): i plugin possono rimpiazzare la pipeline di summarization integrata. Fallback su summarization LLM in caso di fallimento del provider.
•Checkpoint di compaction persistiti (4.7): azioni di branch/restore nella UI Sessions per ispezionare e recuperare lo stato pre-compaction.

La forma di questo ciclo

Tre temi, in parallelo:

1.Fare cose. Video, musica, runner di workflow locali. L'aragosta che prima si limitava a rispondere alle domande adesso produce output che vive fuori dalla chat.
2.Ricordare cose. Active Memory trasforma la memory da qualcosa che chiami in qualcosa che si chiama da sola.
3.Confini più puliti. Codex prende la sua corsia. LM Studio diventa di prima classe. L'auth dei provider smette di sbavare tra i contesti.

Niente di tutto questo è una singola feature di punta. È una serie di upgrade che presi uno per uno sembrano incrementali e messi insieme cambiano come l'aragosta risponde al tocco. Chiedi un video, esce un video. Citi una preferenza una volta, resta. Passi tra Codex e OpenAI GPT, e l'auth non si scontra.

Sei giorni, tre release, un'aragosta che è passata da "riesce a fare cose" a "fa cose per te".