release media memory providers codex

OpenClaw 4.5–4.11: La langosta aprende a crear — video, música y una memoria que recuerda por ti

OpenClaws.io Team

@openclaws

April 11, 2026

9 min de lectura

OpenClaw 4.5–4.11: La langosta aprende a crear — video, música y una memoria que recuerda por ti

Seis días. Tres releases. 4.5, 4.7, 4.10, 4.11.

Si 3.31–4.2 fue el asedio — la langosta aprendiendo a defenderse — entonces 4.5 hasta 4.11 es lo que pasa después de ponerse la armadura. Empiezas a hacer cosas. A recordar cosas. La langosta que antes sólo respondía preguntas ahora graba video, escribe música y mete el pedazo de contexto adecuado en tu respuesta antes de que llegues a pedirlo.

La generación de video es ahora una herramienta de primera clase

Hasta 4.5, el video era más bien un proyecto paralelo. Podías armar algo a través de un plugin, pero no había un nombre de herramienta compartido, ni registro de proveedores, ni cadena de fallback. Eso cambió.

video_generate es ahora una herramienta integrada. Los agentes la llaman igual que llaman a image_generate. El resultado vuelve como medio adjunto, entregado a través de cualquier canal en el que esté corriendo la conversación — Telegram, Discord, Slack, iMessage, da igual.

Los proveedores que vienen de fábrica en el lanzamiento: xAI (grok-imagine-video), Alibaba Model Studio Wan, Runway. 4.10 añadió Seedance 2.0 a través del proveedor fal, con soporte completo de duración, resolución, audio y seed. 4.11 añadió entrega de activos sólo por URL, entradas de audio de referencia, hints de rol por activo, y la relación de aspecto adaptive — para que los proveedores puedan exponer modos más ricos sin forzar la entrada de archivos enormes en memoria.

El auto-fallback entre proveedores autenticados de imagen, música y video aterrizó en 4.7. La intención se conserva durante los cambios. Los hints de tamaño, aspecto, resolución y duración se remapean a la opción soportada más cercana en lugar de fallar de golpe. Si un proveedor no puede atender la petición, el siguiente de la cadena recibe una versión traducida.

Generación de música, también

Mismo release, mismo patrón. music_generate es una herramienta integrada con Google Lyria y MiniMax como proveedores incluidos. Tracking asíncrono con entrega diferida cuando el audio termina. Los hints opcionales que un proveedor no soporta — como durationSeconds en Lyria — se ignoran con un aviso, en vez de matar la petición.

¿Prefieres correr todo localmente? El plugin de workflow de ComfyUI que viene incluido en 4.5 cubre image_generate, video_generate y music_generate respaldado por workflows, tanto contra ComfyUI local como Comfy Cloud. Inyección de prompt, subida opcional de imagen de referencia, pruebas en vivo, descarga de salida — el bucle entero.

`openclaw infer`: un CLI para toda la inferencia

4.7 trajo openclaw infer como hub de primera clase para flujos de inferencia respaldados por proveedores. Tareas de modelo, medios, web y embeddings viven todas bajo el mismo comando. La transcripción soporta overrides de prompt y language por petición. La búsqueda y el fetch web se comportan igual que los ejecutaría el runtime del agente.

Si venías pegando scripts de usar y tirar para correr inferencia fuera del bucle de chat, esto es el reemplazo.

Memoria activa: la langosta empieza a acordarse sola

Este es el punto que los usuarios van a notar más.

Antes de 4.10, la memoria era algo que tenías que pedir. "Acuérdate de que prefiero el modo oscuro." "Busca en memoria ese workflow de la API key." La langosta lo hacía, pero sólo si tú te acordabas de decírselo.

La memoria activa le da la vuelta a eso. Es un plugin opcional que corre un subagente de memoria dedicado justo antes de la respuesta principal en cada turno. El subagente trae preferencias, detalles pasados y contexto relevante al prompt de forma automática. Tú no tienes que acordarte de acordarte.

Es configurable: modos con alcance de mensaje, de reciente, o de contexto completo, según lo agresivo que lo quieras. /verbose te deja inspeccionar en vivo qué se está trayendo. Hay overrides avanzados de prompt y thinking para afinar. Persistencia de transcript opt-in, por si necesitas debuggear una decisión de memoria concreta.

4.12 la apretó. Las ejecuciones de recall se quedan en el canal resuelto incluso cuando hay wrappers como mx-claw por medio. El ranking de fallback léxico mejoró. Los resultados de la memoria activa ahora van por la ruta oculta del untrusted prompt-prefix en lugar de entrar directamente en el system prompt — así puedes ver exactamente qué recibió el modelo en los logs de debug del gateway.

Codex tiene su propio proveedor

4.10 separó Codex del camino del proveedor de OpenAI. Los modelos codex/gpt-<em class="italic text-slate-200"> usan ahora auth gestionado por Codex, hilos nativos, descubrimiento de modelos y compactación a través de un harness de app-server propio del plugin. openai/gpt-</em> se queda en el proveedor estándar de OpenAI.

El resultado práctico: tu suscripción de Codex deja de pisar tu API key de OpenAI. Los perfiles de autenticación están aislados. El listado de modelos viene del catálogo de Codex. 4.14 dio continuidad con soporte forward-compat para gpt-5.4-pro, incluyendo visibilidad de precios y límites de Codex antes de que el catálogo upstream se pusiera al día.

LM Studio es ahora un proveedor incluido

4.12 embarcó un proveedor de LM Studio de serie. Flujo de onboarding, descubrimiento de modelos en runtime, precarga de stream, embeddings para búsqueda en memoria — el camino completo de primera clase. Si corres modelos locales por LM Studio, ya no tienes que configurarlo como un endpoint genérico compatible con OpenAI y cruzar los dedos para que la detección de capacidades salga bien.

Detalles menores que vale la pena mencionar

•Proveedor Arcee AI (4.7): catálogo Trinity, soporte OpenRouter, guía de onboarding.
•Soporte de Gemma 4 (4.7): la semántica explícita de thinking-off se preserva a través del wrapper de compatibilidad de Gemma.
•Qwen, Fireworks AI y StepFun incluidos (4.5) — más integraciones de MiniMax TTS, Ollama Web Search y MiniMax Search.
•Amazon Bedrock (4.5): descubrimiento de perfiles de inferencia e inyección automática de región de la petición. El auth de IAM funciona a través de la cadena de credenciales sin tener que exportar AWS_BEARER_TOKEN_BEDROCK.
•Registro de proveedor de compactación (4.7): los plugins pueden reemplazar la pipeline de resumen integrada. Cae de vuelta al resumen por LLM si el proveedor falla.
•Checkpoints de compactación persistidos (4.7): acciones de branch/restore en la UI de Sessions para inspeccionar y recuperar el estado previo a la compactación.

La forma de este ciclo

Tres temas corriendo en paralelo:

1.Haz cosas. Video, música, runners de workflow local. La langosta que antes sólo respondía preguntas ahora produce salida que vive fuera del chat.
2.Recuerda cosas. La memoria activa convierte la memoria de algo que tú llamas en algo que se llama a sí mismo.
3.Fronteras más limpias. Codex tiene su propio carril. LM Studio pasa a ser de primera clase. El auth de los proveedores deja de filtrarse entre contextos.

Nada de esto es una feature estrella única. Es una serie de upgrades que miradas por separado parecen incrementales y tomadas en conjunto cambian cómo se siente la langosta. Pides un video, te llega un video. Mencionas una preferencia una vez, se queda. Cambias entre Codex y OpenAI GPT, tu auth no choca.

Seis días, tres releases, una langosta que pasó de "puede hacer cosas" a "hace cosas por ti".

Compartir en:

star Star on GitHub

arrow_back

arrow_forward

auto_stories Artículos relacionados

April 13, 2026 · 8 min de lectura

OpenClaw 4.5–4.12: La langosta sueña — una memoria que crece mientras duermes

release memory

April 16, 2026 · 6 min de lectura

OpenClaw 4.15: La langosta se cambia el cerebro y empieza a mirar sus propias llaves

release

April 14, 2026 · 10 min de lectura

OpenClaw 4.5–4.14: El segundo asedio — diez días de trabajo de seguridad que probablemente no notaste

release security