release media memory providers codex

OpenClaw 4.5–4.11 : le homard apprend à créer — vidéo, musique et une mémoire qui retient à ta place

OpenClaws.io Team

OpenClaws.io Team

@openclaws

April 11, 2026

9 min de lecture

OpenClaw 4.5–4.11 : le homard apprend à créer — vidéo, musique et une mémoire qui retient à ta place

Six jours. Trois releases. 4.5, 4.7, 4.10, 4.11.

Si 3.31–4.2 était le siège — le homard apprenant à se défendre — alors 4.5 jusqu'à 4.11, c'est ce qui arrive une fois l'armure posée. Tu commences à faire des choses. À te souvenir de choses. Le homard qui se contentait de répondre aux questions tourne maintenant de la vidéo, écrit de la musique, et glisse le bon morceau de contexte dans ta réponse avant même que tu le demandes.

La génération de vidéo devient un outil de première classe

Jusqu'à 4.5, la vidéo était plutôt un projet annexe. Tu pouvais bricoler un truc à travers un plugin, mais il n'y avait pas de nom d'outil partagé, pas de registre de providers, pas de chaîne de fallback. Ça a changé.

video_generate est désormais un outil intégré. Les agents l'appellent de la même manière qu'ils appellent image_generate. Le résultat revient sous forme de média attaché, livré par le canal sur lequel tourne la conversation — Telegram, Discord, Slack, iMessage, peu importe.

Les providers livrés au lancement : xAI (grok-imagine-video), Alibaba Model Studio Wan, Runway. 4.10 a ajouté Seedance 2.0 via le provider fal, avec support complet de durée, résolution, audio et seed. 4.11 a ajouté la livraison d'assets uniquement par URL, les entrées audio de référence, les hints de rôle par asset, et le ratio d'aspect adaptive — pour que les providers puissent exposer des modes plus riches sans forcer des fichiers énormes en mémoire.

Le fallback automatique entre les providers d'image, de musique et de vidéo authentifiés a atterri en 4.7. L'intention est préservée pendant les bascules. Les hints de taille, de ratio, de résolution et de durée sont remappés sur l'option supportée la plus proche au lieu d'échouer brutalement. Si un provider n'arrive pas à traiter la requête, le suivant dans la chaîne en reçoit une version traduite.

La musique aussi

Même release, même schéma. music_generate est un outil intégré, avec Google Lyria et MiniMax comme providers livrés de base. Tracking asynchrone et livraison différée quand l'audio est prêt. Les hints optionnels qu'un provider ne supporte pas — par exemple durationSeconds sur Lyria — sont ignorés avec un avertissement au lieu de tuer la requête.

Tu préfères tout faire tourner en local ? Le plugin workflow ComfyUI livré avec 4.5 couvre image_generate, video_generate et music_generate adossé à un workflow, contre ComfyUI local et Comfy Cloud. Injection de prompt, upload optionnel d'une image de référence, tests live, téléchargement du rendu — toute la boucle.

`openclaw infer` : un seul CLI pour toute l'inférence

4.7 a posé openclaw infer comme hub de première classe pour les workflows d'inférence adossés à un provider. Les tâches de modèle, de médias, web et embeddings vivent toutes sous la même commande. La transcription accepte des overrides de prompt et language par requête. La recherche et le fetch web se comportent exactement comme le runtime de l'agent les exécuterait.

Si tu jonglais avec des scripts jetables pour faire tourner de l'inférence en dehors de la boucle de chat, c'est le remplacement.

Memory active : le homard se met à se souvenir tout seul

C'est le changement que les utilisateurs vont sentir le plus.

Avant 4.10, la mémoire, c'était quelque chose que tu devais demander. "Retiens que je préfère le mode sombre." "Cherche dans la mémoire le workflow de cette clé API." Le homard le faisait, mais seulement si toi tu pensais à le lui dire.

Active Memory retourne ça. C'est un plugin optionnel qui fait tourner un sous-agent de mémoire dédié juste avant la réponse principale à chaque tour. Le sous-agent tire les préférences, les détails passés et le contexte pertinent dans le prompt, de façon automatique. Tu n'as plus besoin de te souvenir de te souvenir.

Configurable : modes à portée de message, à portée récente, ou contexte complet selon le niveau d'agressivité que tu veux. /verbose te laisse inspecter en direct ce qui est tiré. Des overrides avancés de prompt et de thinking sont là pour peaufiner. Persistance opt-in des transcripts si tu as besoin de déboguer une décision de mémoire en particulier.

4.12 a resserré tout ça. Les exécutions de recall restent sur le canal résolu même quand des wrappers comme mx-claw sont en jeu. Le classement du fallback lexical s'est amélioré. Les résultats d'Active Memory passent maintenant par le chemin caché du untrusted prompt-prefix au lieu d'entrer directement dans le system prompt — comme ça tu peux voir exactement ce que le modèle a reçu dans les logs de debug du gateway.

Codex a son propre provider

4.10 a extrait Codex du chemin du provider OpenAI. Les modèles codex/gpt-<em class="italic text-slate-200"> utilisent maintenant l'auth géré par Codex, les threads natifs, la découverte de modèles et la compaction à travers un harness app-server appartenant au plugin. openai/gpt-</em> reste sur le provider OpenAI standard.

Effet pratique : ton abonnement Codex ne marche plus sur les pieds de ta clé API OpenAI. Les profils d'auth sont isolés. La liste des modèles vient du catalogue Codex. 4.14 a enchaîné avec le support forward-compat pour gpt-5.4-pro, avec la visibilité des prix et limites Codex avant que le catalogue en amont ne rattrape.

LM Studio est désormais un provider livré de base

4.12 a livré un provider LM Studio natif. Flux d'onboarding, découverte de modèles au runtime, préchargement du stream, embeddings pour la recherche mémoire — tout le chemin de première classe. Si tu fais tourner des modèles locaux via LM Studio, tu n'as plus à le configurer comme un endpoint générique compatible OpenAI en croisant les doigts pour que la détection de capacités tombe juste.

Plus petit, mais à mentionner

  • Provider Arcee AI (4.7) : catalogue Trinity, support OpenRouter, guide d'onboarding.
  • Support de Gemma 4 (4.7) : la sémantique explicite de thinking-off est préservée à travers le wrapper de compatibilité Gemma.
  • Qwen, Fireworks AI, StepFun livrés (4.5) — plus les intégrations MiniMax TTS, Ollama Web Search et MiniMax Search.
  • Amazon Bedrock (4.5) : découverte des profils d'inférence et injection automatique de la région de requête. L'auth IAM fonctionne via la chaîne de credentials sans avoir à exporter AWS_BEARER_TOKEN_BEDROCK.
  • Registre de provider de compaction (4.7) : les plugins peuvent remplacer la pipeline de résumé intégrée. Retombe sur le résumé LLM si le provider échoue.
  • Checkpoints de compaction persistés (4.7) : actions branch/restore dans l'UI Sessions pour inspecter et récupérer l'état pré-compaction.

La forme de ce cycle

Trois thèmes en parallèle :

  1. 1.Faire des choses. Vidéo, musique, runners de workflow locaux. Le homard qui ne faisait que répondre aux questions produit maintenant du rendu qui vit en dehors du chat.
  2. 2.Se souvenir des choses. Active Memory transforme la mémoire, d'un truc que tu appelles en un truc qui s'appelle tout seul.
  3. 3.Des frontières plus propres. Codex a sa propre voie. LM Studio devient de première classe. L'auth des providers arrête de baver entre les contextes.

Rien de tout ça n'est un feature phare isolé. C'est une série d'upgrades qui, pris individuellement, ont l'air incrémentaux et qui, pris ensemble, changent la sensation au contact du homard. Tu demandes une vidéo, tu obtiens une vidéo. Tu mentionnes une préférence une fois, elle reste. Tu passes de Codex à OpenAI GPT, ton auth ne s'entrechoque pas.

Six jours, trois releases, un homard passé de "il peut faire des choses" à "il fait des choses à ta place".

Reste informé

Reçois les news sur les nouvelles fonctionnalités et intégrations. Pas de spam, désinscription à tout moment.