release media memory providers codex

OpenClaw 4.5–4.11: лобстер учится творить — видео, музыка и память, которая помнит за тебя

OpenClaws.io Team

@openclaws

April 11, 2026

9 мин чтения

OpenClaw 4.5–4.11: лобстер учится творить — видео, музыка и память, которая помнит за тебя

Шесть дней. Три релиза. 4.5, 4.7, 4.10, 4.11.

Если 3.31–4.2 были осадой — лобстер учился защищаться — то с 4.5 по 4.11 это то, что происходит, когда броня уже надета. Ты начинаешь делать вещи. Запоминать вещи. Лобстер, который раньше только отвечал на вопросы, теперь снимает видео, пишет музыку и вытаскивает нужный кусок контекста в ответ ещё до того, как ты его попросил.

Генерация видео стала инструментом первого класса

До 4.5 видео было побочным проектом. Ты мог собрать что-то через плагин, но общего имени tool не было, registry провайдеров не было, цепочки fallback не было. Это изменилось.

video_generate теперь встроенный tool. Агенты вызывают его так же, как вызывают image_generate. Результат приходит как прикреплённое медиа, доставленное через тот канал, на котором идёт разговор — Telegram, Discord, Slack, iMessage, без разницы.

Провайдеры в комплекте на старте: xAI (grok-imagine-video), Alibaba Model Studio Wan, Runway. В 4.10 добавили Seedance 2.0 через провайдер fal с полной поддержкой длительности, разрешения, аудио и seed. В 4.11 добавили доставку ассетов только по URL, референсное аудио на входе, per-asset подсказки по роли и adaptive aspect ratio — так провайдеры могут выставлять более богатые режимы, не заталкивая гигантские файлы в память.

Авто-fallback между провайдерами изображений, музыки и видео, привязанными к auth, приземлился в 4.7. Намерение сохраняется при переключениях. Подсказки по размеру, aspect, разрешению и длительности переназначаются на ближайший поддерживаемый вариант вместо жёсткого фейла. Если один провайдер не справляется с запросом, следующий в цепочке получает уже переведённую версию.

И генерация музыки тоже

Тот же релиз, тот же паттерн. music_generate — встроенный tool, с провайдерами Google Lyria и MiniMax в комплекте. Асинхронное отслеживание с последующей доставкой, когда аудио готово. Опциональные подсказки, которые провайдер не поддерживает — например, durationSeconds у Lyria — игнорируются с предупреждением, а не роняют запрос.

Хочешь крутить всё локально? Встроенный в 4.5 плагин ComfyUI workflow покрывает image_generate, video_generate и workflow-приводной music_generate и против локального ComfyUI, и против Comfy Cloud. Вставка промпта, опциональная загрузка референсной картинки, живые тесты, скачивание результата — вся петля целиком.

`openclaw infer`: один CLI для всего инференса

В 4.7 приземлился openclaw infer как хаб первого класса для workflow инференса, опирающегося на провайдеры. Задачи по моделям, медиа, web и embedding — все живут под одной командой. Транскрипция поддерживает override prompt и language на каждый запрос. Web search и web fetch ведут себя так же, как их запустил бы рантайм агента.

Если ты сшивал одноразовые скрипты, чтобы гонять инференс вне чат-петли, — это их замена.

Active Memory: лобстер начинает запоминать

Эту штуку пользователи почувствуют сильнее всего.

До 4.10 память была тем, что ты должен был попросить. «Запомни, что я предпочитаю тёмную тему.» «Поищи в памяти тот workflow с API-ключом.» Лобстер это делал, но только если ты сам вспоминал ему об этом сказать.

Active Memory переворачивает это. Это опциональный плагин, который запускает выделенный memory-подагент прямо перед основным ответом на каждом ходе. Подагент автоматически подтягивает в промпт предпочтения, детали из прошлого и релевантный контекст. Тебе больше не надо помнить, что надо помнить.

Всё настраивается: scope по сообщению, по недавним или full context — зависит от того, насколько агрессивно ты хочешь. /verbose даёт смотреть вживую, что именно подтягивается. Расширенные override промпта и thinking лежат на месте для тонкой настройки. Опциональная персистентность транскрипта — для случаев, когда надо дебажить конкретное решение о памяти.

4.12 поджал гайки. Recall-раны остаются на уже разрешённом канале даже тогда, когда в игре wrapper-ы вроде mx-claw. Ранжирование лексического fallback стало лучше. Результаты Active Memory теперь сидят на скрытом untrusted prompt-prefix пути вместо того, чтобы попадать прямо в system prompt, — так в debug-логах gateway ты можешь увидеть ровно то, что получила модель.

У Codex теперь свой провайдер

4.10 вынес Codex из пути OpenAI-провайдера. Модели codex/gpt-<em class="italic text-slate-200"> теперь используют auth, управляемый Codex, нативные треды, model discovery и compaction через plugin-owned app-server harness. openai/gpt-</em> остаётся на стандартном OpenAI-провайдере.

Практический итог: твоя подписка Codex перестаёт наступать на твой OpenAI API-ключ. Auth-профили изолированы. Список моделей приходит из каталога Codex. В 4.14 подтянули forward-compat поддержку gpt-5.4-pro, включая видимость ценников и лимитов Codex ещё до того, как upstream-каталог догнал.

LM Studio теперь встроенный провайдер

4.12 отгрузил встроенный LM Studio провайдер. Onboarding-поток, discovery моделей в рантайме, preload потока, embedding-и для memory search — полный первоклассный путь. Если ты гоняешь локальные модели через LM Studio, тебе больше не нужно настраивать его как generic OpenAI-совместимый эндпоинт и надеяться, что определение capabilities сработает.

Мелочи, которые всё-таки стоит назвать

•Провайдер Arcee AI (4.7): каталог Trinity, поддержка OpenRouter, onboarding-гайд.
•Поддержка Gemma 4 (4.7): явная семантика thinking-off сохраняется сквозь wrapper совместимости Gemma.
•Qwen, Fireworks AI, StepFun в комплекте (4.5) — плюс интеграции MiniMax TTS, Ollama Web Search и MiniMax Search.
•Amazon Bedrock (4.5): обнаружение inference-profile и автоматическая инжекция region в запрос. IAM-auth работает через credential chain без необходимости экспортировать AWS_BEARER_TOKEN_BEDROCK.
•Registry провайдеров compaction (4.7): плагины могут заменить встроенный summarization-пайплайн. Fallback на LLM-summarization при фейле провайдера.
•Персистентные compaction-чекпойнты (4.7): действия branch/restore в Sessions UI, чтобы инспектировать и восстанавливать состояние до compaction.

Форма этого цикла

Три темы, идущие параллельно:

1.Делать вещи. Видео, музыка, локальные workflow-runner-ы. Лобстер, который раньше только отвечал на вопросы, теперь производит output, живущий вне чата.
2.Запоминать вещи. Active Memory превращает memory из того, что ты вызываешь, в то, что вызывает само себя.
3.Более чистые границы. Codex получает свою полосу. LM Studio становится первоклассным. Auth провайдеров перестаёт протекать между контекстами.

Ничто из этого не является одной флагманской фичей. Это серия апгрейдов, которые по отдельности выглядят инкрементальными, а вместе меняют то, как лобстер отзывается на прикосновение. Просишь видео — получаешь видео. Упомянул предпочтение один раз — оно запоминается. Переключаешься между Codex и OpenAI GPT — auth не сталкивается.

Шесть дней, три релиза, лобстер, прошедший путь от «оно умеет делать вещи» до «оно делает вещи за тебя».