release media memory providers codex

OpenClaw 4.5–4.11: homar uczy się tworzyć — wideo, muzyka i pamięć, która pamięta za ciebie

OpenClaws.io Team

@openclaws

April 11, 2026

9 min czytania

OpenClaw 4.5–4.11: homar uczy się tworzyć — wideo, muzyka i pamięć, która pamięta za ciebie

Sześć dni. Trzy wydania. 4.5, 4.7, 4.10, 4.11.

Jeśli 3.31–4.2 było oblężeniem — homar uczył się bronić — to od 4.5 do 4.11 jest tym, co dzieje się po założeniu zbroi. Zaczynasz robić rzeczy. Pamiętać rzeczy. Homar, który wcześniej tylko odpowiadał na pytania, teraz kręci wideo, pisze muzykę, i wciąga właściwy kawałek kontekstu do twojej odpowiedzi, zanim zdążysz o to poprosić.

Generowanie wideo jest narzędziem pierwszej klasy

Do 4.5 wideo było projektem pobocznym. Mogłeś coś posklejać przez plugin, ale nie było wspólnej nazwy toola, nie było registry providerów, nie było łańcucha fallback. To się zmieniło.

video_generate jest teraz wbudowanym toolem. Agenty wołają go tak samo, jak wołają image_generate. Rezultat wraca jako załączone media, dostarczone tym kanałem, którym akurat idzie rozmowa — Telegram, Discord, Slack, iMessage, bez różnicy.

Dołączone providery na starcie: xAI (grok-imagine-video), Alibaba Model Studio Wan, Runway. 4.10 dołożył Seedance 2.0 przez providera fal z pełnym wsparciem dla długości, rozdzielczości, audio i seed. 4.11 dodał dostarczanie assetów tylko po URL, referencyjne audio na wejściu, podpowiedzi per-asset role i adaptive aspect ratio — dzięki temu providery mogą wystawiać bogatsze tryby bez wpychania ogromnych plików do pamięci.

Auto-fallback pomiędzy providerami obrazów, muzyki i wideo opartymi na auth wylądował w 4.7. Intencja jest zachowywana podczas przełączeń. Podpowiedzi co do rozmiaru, aspect, rozdzielczości i długości są remapowane na najbliższy wspierany wariant zamiast twardo padać. Jeśli jeden provider nie daje rady z requestem, następny w łańcuchu dostaje już przetłumaczoną wersję.

I generowanie muzyki też

Ten sam release, ten sam schemat. music_generate jest wbudowanym toolem z dołączonymi providerami Google Lyria i MiniMax. Asynchroniczny tracking z dostarczeniem później, kiedy audio jest gotowe. Opcjonalne podpowiedzi, których provider nie wspiera — jak durationSeconds przy Lyrii — są ignorowane z ostrzeżeniem zamiast rozwalać request.

Wolisz wszystko lokalnie? Dołączony plugin ComfyUI workflow w 4.5 pokrywa image_generate, video_generate i workflow-owy music_generate zarówno przeciwko lokalnemu ComfyUI, jak i Comfy Cloud. Wstrzykiwanie promptu, opcjonalny upload obrazka referencyjnego, live testy, pobieranie output — pełna pętla.

`openclaw infer`: jeden CLI do całego inference

4.7 wylądował z openclaw infer jako hubem pierwszej klasy dla workflow inference opartych na providerach. Zadania model-, media-, web- i embedding — wszystkie żyją pod tą samą komendą. Transkrypcja wspiera per-request override prompt i language. Web search i web fetch zachowują się dokładnie tak, jakby uruchamiał je runtime agenta.

Jeśli zszywałeś jednorazowe skrypty, żeby gonić inference poza pętlą czatu — to jest zamiennik.

Active Memory: homar zaczyna pamiętać

Tę rzecz użytkownicy poczują najmocniej.

Przed 4.10 pamięć była czymś, o co musiałeś prosić. „Zapamiętaj, że wolę dark mode." „Poszukaj w pamięci tego workflow z API key." Homar to robił, ale tylko jeśli sam pamiętałeś, żeby mu o tym powiedzieć.

Active Memory odwraca to. To opcjonalny plugin, który uruchamia dedykowanego memory-subagenta tuż przed główną odpowiedzią w każdej turze. Subagent automatycznie wciąga do promptu preferencje, szczegóły z przeszłości i relewantny kontekst. Nie musisz już pamiętać o pamiętaniu.

Jest konfigurowalny: scope po wiadomości, po ostatnich, albo full context — zależnie od tego, jak agresywnie chcesz. /verbose pozwala ci na żywo oglądać, co zostało wciągnięte. Zaawansowane override promptu i thinking są na miejscu do strojenia. Opcjonalna persystencja transkryptów do momentów, kiedy musisz debugować konkretną decyzję o pamięci.

4.12 dokręcił to. Runy recall zostają na rozpoznanym kanale nawet wtedy, gdy w grze są wrappery typu mx-claw. Ranking leksykalnego fallback się poprawił. Wyniki Active Memory siedzą teraz na ukrytej ścieżce untrusted prompt-prefix zamiast lądować bezpośrednio w system prompt — tak że w debug-logach gateway możesz zobaczyć dokładnie to, co dostał model.

Codex dostaje swój własny provider

4.10 wyjął Codex ze ścieżki providera OpenAI. Modele codex/gpt-<em class="italic text-slate-200"> używają teraz auth zarządzanego przez Codex, natywnych wątków, model discovery i compaction przez plugin-owned app-server harness. openai/gpt-</em> zostaje na standardowym providerze OpenAI.

Praktyczny efekt: twoja subskrypcja Codex przestaje deptać po twoim OpenAI API key. Profile auth są izolowane. Listy modeli przychodzą z katalogu Codex. 4.14 dołożył forward-compat wsparcie dla gpt-5.4-pro, w tym widoczność pricingu i limitów Codex jeszcze zanim upstreamowy katalog nadgonił.

LM Studio jest teraz dołączonym providerem

4.12 dowiózł dołączony provider LM Studio. Flow onboardingu, runtime model discovery, preload streama, embeddingi dla memory search — pełna ścieżka pierwszej klasy. Jeśli gonisz lokalne modele przez LM Studio, nie musisz już konfigurować go jako generycznego endpointu kompatybilnego z OpenAI i mieć nadziei, że detekcja capabilities zadziała.

Mniejsze rzeczy warte wspomnienia

•Provider Arcee AI (4.7): katalog Trinity, wsparcie OpenRouter, guidance onboardingu.
•Wsparcie Gemmy 4 (4.7): jawna semantyka thinking-off zachowana przez wrapper kompatybilności Gemma.
•Dołączone Qwen, Fireworks AI, StepFun (4.5) — plus integracje MiniMax TTS, Ollama Web Search i MiniMax Search.
•Amazon Bedrock (4.5): discovery inference-profile i automatyczne wstrzykiwanie region do requestu. IAM-auth działa przez credential chain bez eksportów AWS_BEARER_TOKEN_BEDROCK.
•Registry providerów compaction (4.7): pluginy mogą zastąpić wbudowaną pipeline summarization. Fallback na LLM-summarization przy porażce providera.
•Persystentne compaction-checkpointy (4.7): akcje branch/restore w Sessions UI do inspekcji i przywracania stanu pre-compaction.

Kształt tego cyklu

Trzy wątki biegną równolegle:

1.Robić rzeczy. Wideo, muzyka, lokalne runnery workflow. Homar, który wcześniej tylko odpowiadał na pytania, teraz produkuje output, który żyje poza czatem.
2.Pamiętać rzeczy. Active Memory zamienia memory z czegoś, co wołasz, w coś, co samo się woła.
3.Czystsze granice. Codex dostaje swój pas. LM Studio staje się pierwszą klasą. Auth providerów przestaje przeciekać między kontekstami.

Nic z tego nie jest pojedynczą flagową funkcją. To seria upgrade-ów, które oglądane osobno wyglądają inkrementalnie, a razem zmieniają to, jak homar odpowiada na dotyk. Prosisz o wideo, dostajesz wideo. Wspomnisz raz o preferencji, zostaje. Przełączasz się między Codex a OpenAI GPT — auth się nie zderza.

Sześć dni, trzy wydania, homar, który przeszedł od „ona umie robić rzeczy" do „ona robi rzeczy za ciebie".