release media memory providers codex

OpenClaw 4.5–4.11: Der Hummer lernt zu erschaffen — Video, Musik und ein Gedächtnis, das für dich mitdenkt

OpenClaws.io Team

OpenClaws.io Team

@openclaws

April 11, 2026

9 Min. Lesezeit

OpenClaw 4.5–4.11: Der Hummer lernt zu erschaffen — Video, Musik und ein Gedächtnis, das für dich mitdenkt

Sechs Tage. Drei Releases. 4.5, 4.7, 4.10, 4.11.

Wenn 3.31–4.2 die Belagerung war — der Hummer lernt, sich zu verteidigen — dann ist 4.5 bis 4.11 das, was passiert, wenn die Rüstung sitzt. Du fängst an, Dinge zu bauen. Dinge zu merken. Der Hummer, der vorher nur Fragen beantwortet hat, dreht jetzt Videos, schreibt Musik und schiebt dir den richtigen Kontext schon in die Antwort, bevor du überhaupt danach fragst.

Video-Generierung ist jetzt ein First-Class-Tool

Bis 4.5 war Video eher ein Nebenprojekt. Über ein Plugin ließ sich etwas zusammenstöpseln, aber es gab keinen gemeinsamen Tool-Namen, keine Provider-Registry, keine Fallback-Kette. Das hat sich geändert.

video_generate ist jetzt ein eingebautes Tool. Agenten rufen es genauso auf wie image_generate. Das Ergebnis kommt als angehängtes Medium zurück, ausgeliefert über den Kanal, in dem das Gespräch läuft — Telegram, Discord, Slack, iMessage, egal.

Die mitgelieferten Provider zum Start: xAI (grok-imagine-video), Alibaba Model Studio Wan, Runway. 4.10 hat Seedance 2.0 über den fal-Provider ergänzt, mit vollem Support für Dauer, Auflösung, Audio und Seed. 4.11 brachte URL-only-Asset-Auslieferung, Referenz-Audio-Inputs, Rollen-Hints pro Asset und das adaptive-Seitenverhältnis — damit Provider reichere Modi anbieten können, ohne riesige Dateien in den Speicher zwingen zu müssen.

Auto-Fallback über auth-gestützte Image-, Musik- und Video-Provider kam in 4.7. Die Intention bleibt beim Umschalten erhalten. Hints zu Größe, Seitenverhältnis, Auflösung und Dauer werden auf die nächste unterstützte Option umgemappt, statt hart abzubrechen. Kann ein Provider die Anfrage nicht bedienen, bekommt der nächste in der Kette eine übersetzte Version.

Musik-Generierung, genauso

Gleicher Release, gleiches Muster. music_generate ist ein eingebautes Tool mit Google Lyria und MiniMax als mitgelieferten Providern. Asynchrones Tracking mit Nachlieferung, sobald das Audio fertig ist. Optionale Hints, die ein Provider nicht unterstützt — zum Beispiel durationSeconds bei Lyria — werden mit einer Warnung ignoriert, statt die Anfrage zu killen.

Lieber alles lokal fahren? Das in 4.5 mitgelieferte ComfyUI-Workflow-Plugin deckt image_generate, video_generate und workflow-gestütztes music_generate gegen lokales ComfyUI und Comfy Cloud ab. Prompt-Injection, optionaler Upload eines Referenzbildes, Live-Tests, Output-Download — die komplette Schleife.

`openclaw infer`: ein CLI für alle Inferenz

4.7 hat openclaw infer als First-Class-Hub für Provider-gestützte Inferenz-Workflows gelandet. Aufgaben für Modell, Medien, Web und Embeddings leben alle unter demselben Kommando. Transkription unterstützt Overrides für prompt und language pro Request. Web-Suche und Web-Fetch verhalten sich so, wie sie die Agent-Runtime ausführen würde.

Wenn du bisher einzelne Wegwerf-Skripte zusammengeflickt hast, um Inferenz außerhalb der Chat-Schleife zu fahren, ist das der Ersatz.

Active Memory: der Hummer fängt von selbst an, sich zu erinnern

Das ist der Punkt, den die Nutzer am deutlichsten spüren werden.

Vor 4.10 war Memory etwas, das du anfordern musstest. "Merk dir, dass ich Dark Mode bevorzuge." "Durchsuch den Memory nach diesem API-Key-Workflow." Der Hummer hat das gemacht, aber nur, wenn du selber daran gedacht hast, es ihm zu sagen.

Active Memory dreht das um. Es ist ein optionales Plugin, das bei jedem Turn einen eigenen Memory-Sub-Agenten direkt vor der Haupt-Antwort laufen lässt. Der Sub-Agent zieht Präferenzen, frühere Details und relevanten Kontext automatisch in den Prompt. Du musst dich nicht mehr daran erinnern, dich zu erinnern.

Konfigurierbar ist es auch: Message-Scope, Recent-Scope oder Full-Context-Modus, je nachdem, wie aggressiv du es willst. /verbose lässt dich live inspizieren, was gerade hereingezogen wird. Für Feinabstimmung gibt es Overrides für Prompt und Thinking. Opt-in-Persistenz der Transcripts für den Fall, dass du eine bestimmte Memory-Entscheidung debuggen musst.

4.12 hat nachgezogen. Recall-Läufe bleiben auf dem aufgelösten Kanal, auch wenn Wrapper wie mx-claw im Spiel sind. Das lexikalische Fallback-Ranking wurde besser. Die Ergebnisse von Active Memory liegen jetzt auf dem versteckten Untrusted-Prompt-Prefix-Pfad, statt direkt in den System-Prompt zu wandern — damit siehst du in den Gateway-Debug-Logs exakt, was das Modell bekommen hat.

Codex bekommt einen eigenen Provider

4.10 hat Codex aus dem OpenAI-Provider-Pfad herausgezogen. Die Modelle codex/gpt-<em class="italic text-slate-200"> nutzen jetzt Codex-verwalteten Auth, native Threads, Modell-Discovery und Kompaktierung über einen plugin-eigenen App-Server-Harness. openai/gpt-</em> bleibt auf dem Standard-OpenAI-Provider.

Praktisches Ergebnis: dein Codex-Abo tritt deinem OpenAI-API-Key nicht mehr auf die Füße. Auth-Profile sind isoliert. Die Modell-Liste kommt aus dem Codex-Katalog. 4.14 hat mit Forward-Compat-Support für gpt-5.4-pro nachgelegt, inklusive Sichtbarkeit von Codex-Preisen und -Limits, bevor der Upstream-Katalog aufgeholt hat.

LM Studio ist jetzt ein mitgelieferter Provider

4.12 hat einen mitgelieferten LM-Studio-Provider ausgeliefert. Onboarding-Flow, Runtime-Modell-Discovery, Stream-Preload, Embeddings für die Memory-Suche — der komplette First-Class-Pfad. Wer lokale Modelle über LM Studio fährt, muss es nicht mehr als generischen OpenAI-kompatiblen Endpoint konfigurieren und hoffen, dass die Capability-Detection schon irgendwie klappt.

Kleinere Dinge, die Erwähnung verdienen

  • Arcee-AI-Provider (4.7): Trinity-Katalog, OpenRouter-Support, Onboarding-Leitfaden.
  • Gemma-4-Support (4.7): explizite Thinking-Off-Semantik bleibt durch den Gemma-Kompatibilitäts-Wrapper erhalten.
  • Qwen, Fireworks AI, StepFun mitgeliefert (4.5) — dazu Integrationen für MiniMax TTS, Ollama Web Search und MiniMax Search.
  • Amazon Bedrock (4.5): Discovery von Inferenz-Profilen und automatisches Injizieren der Request-Region. IAM-Auth funktioniert über die Credential-Chain, ohne dass du AWS_BEARER_TOKEN_BEDROCK exportieren musst.
  • Kompaktierungs-Provider-Registry (4.7): Plugins können die eingebaute Zusammenfassungs-Pipeline ersetzen. Fällt bei Provider-Fehler auf LLM-Zusammenfassung zurück.
  • Persistierte Kompaktierungs-Checkpoints (4.7): Branch/Restore-Aktionen in der Sessions-UI, um den Zustand vor der Kompaktierung zu inspizieren und wiederherzustellen.

Die Form dieses Zyklus

Drei Themen, die parallel laufen:

  1. 1.Dinge machen. Video, Musik, lokale Workflow-Runner. Der Hummer, der vorher nur Fragen beantwortet hat, produziert jetzt Output, der außerhalb des Chats lebt.
  2. 2.Dinge merken. Active Memory macht aus Memory etwas, das sich selbst aufruft, statt etwas, das du aufrufst.
  3. 3.Sauberere Grenzen. Codex bekommt seine eigene Spur. LM Studio wird First-Class. Provider-Auth leckt nicht mehr über Kontexte hinweg.

Nichts davon ist ein einzelnes Flaggschiff-Feature. Es ist eine Reihe von Upgrades, die einzeln betrachtet inkrementell aussehen und in Summe verändern, wie sich der Hummer anfühlt. Du fragst nach einem Video, du bekommst ein Video. Du erwähnst eine Präferenz einmal, sie bleibt hängen. Du wechselst zwischen Codex und OpenAI GPT, dein Auth kollidiert nicht.

Sechs Tage, drei Releases, ein Hummer, der von "er kann Dinge tun" zu "er tut Dinge für dich" gewandert ist.

Auf dem Laufenden bleiben

Erhalte Updates zu neuen Funktionen und Integrationen. Kein Spam, jederzeit abbestellbar.