release media memory providers codex

OpenClaw 4.5–4.11：ロブスター、創造を覚える——動画、音楽、そしてあなたの代わりに覚えておく記憶

OpenClaws.io Team

@openclaws

April 11, 2026

9 分で読める

OpenClaw 4.5–4.11：ロブスター、創造を覚える——動画、音楽、そしてあなたの代わりに覚えておく記憶

6日間。3リリース。4.5、4.7、4.10、4.11。

3.31〜4.2 が包囲戦——ロブスターが自分の身を守ることを覚えた期間——だったとすれば、4.5 から 4.11 は鎧を着たあとに何が起きたか、という話だ。ものを作り始める。覚え始める。質問に答えるだけだったロブスターが、動画を撮り、音楽を書き、あなたが頼む前に必要な文脈を返事の中に差し込んでくるようになった。

動画生成がファーストクラスのツールになった

4.5 までは、動画はどちらかというと余興だった。プラグインで配線すれば一応動くが、共通のツール名もなければ、プロバイダーレジストリも、フォールバックチェーンもなかった。それが変わった。

video_generate は組み込みツールになった。エージェントは image_generate を呼ぶのと同じ感覚で呼ぶ。結果は添付メディアとして返ってきて、会話が走っているチャネル——Telegram でも Discord でも Slack でも iMessage でも——そのまま届く。

同梱プロバイダーは xAI (grok-imagine-video)、Alibaba Model Studio Wan、Runway の三つ。4.10 で fal プロバイダー経由の Seedance 2.0 を追加し、尺・解像度・音声・シードすべて対応した。4.11 では URL のみのアセット配信、参照音声入力、アセット単位のロールヒント、そして adaptive のアスペクト比に対応した——これで巨大なファイルをメモリに抱え込まなくても、プロバイダーがより豊かなモードを出せるようになる。

認証付きの画像・音楽・動画プロバイダーをまたいだ自動フォールバックは 4.7 で入った。切り替え中も意図は保たれる。サイズ、アスペクト、解像度、尺のヒントは、失敗で落とす代わりに、最も近い対応オプションに読み替えられる。一つのプロバイダーが処理できなくても、チェーンの次のプロバイダーが変換済みのリクエストを受け取る。

音楽生成も、同じ流れで

同じリリースの同じパターン。music_generate も組み込みツールで、Google Lyria と MiniMax が同梱プロバイダーとして入っている。音声が仕上がったら後から非同期に配信する追跡もある。プロバイダーが対応していない任意ヒント——たとえば Lyria の durationSeconds——は、リクエストを殺す代わりに警告付きで無視される。

全部ローカルで回したい？ 4.5 で同梱された ComfyUI ワークフロープラグインは、image_generate、video_generate、そしてワークフロー経由の music_generate を、ローカルの ComfyUI と Comfy Cloud の両方に対して実行できる。プロンプト埋め込み、任意の参照画像アップロード、ライブテスト、出力ダウンロード——一周ぜんぶ入っている。

`openclaw infer`：推論を一本の CLI に

4.7 で openclaw infer がプロバイダー経由の推論ワークフローのファーストクラスのハブとして着地した。モデル、メディア、Web、エンベディングのタスクが、すべて同じコマンドの下に揃う。文字起こしはリクエストごとに prompt と language をオーバーライドできる。Web 検索と Web fetch は、エージェントランタイムが実行するのと同じ動きをする。

チャットループの外で推論を回すために使い捨てスクリプトを継ぎ接ぎしてきた人は、これで全部置き換えられる。

アクティブメモリ：ロブスターが自分から覚え始める

これが今回、ユーザーが一番はっきり体感するやつだ。

4.10 より前、メモリは頼まないと動かないものだった。「ダークモードが好きだって覚えておいて」「あの API キーのワークフローをメモリから探して」。ロブスターはやってくれるが、こちらが「覚えておいて」と言うのを覚えていないといけなかった。

アクティブメモリはそれを裏返す。任意のプラグインで、毎ターンのメイン応答の直前に、専用のメモリサブエージェントが走る。サブエージェントは好み、過去の細かい話、関連する文脈を自動的にプロンプトに引き込む。こちらが「覚えておく」ことを覚えておかなくていい。

モードは選べる：どこまで積極的にやるかで、メッセージ単位、直近単位、フルコンテキストのどれかに。/verbose で何が引き込まれているかリアルタイムに覗ける。詰めたいときのためにプロンプトと thinking のオーバーライドもある。特定のメモリ判断をデバッグしたいときは、トランスクリプトの保存をオプトインできる。

4.12 でさらに締め直した。mx-claw のようなラッパーが絡んでいても、想起の実行は解決済みのチャネル上に留まる。字句的フォールバックのランキングは改善された。アクティブメモリの結果はシステムプロンプトに直接入る代わりに、隠された untrusted prompt-prefix の経路に置かれる——これでゲートウェイのデバッグログで、モデルが何を受け取ったかそのまま確認できる。

Codex に専用プロバイダーができた

4.10 で Codex は OpenAI プロバイダーの経路から切り離された。codex/gpt-<em class="italic text-slate-200"> モデルは、プラグイン所有の app-server ハーネス経由で、Codex 管理の認証、ネイティブスレッド、モデル発見、コンパクションを使う。openai/gpt-</em> は標準の OpenAI プロバイダーに残る。

実利：Codex のサブスクリプションが OpenAI の API キーを踏まなくなる。認証プロファイルは分離される。モデル一覧は Codex カタログから来る。4.14 では gpt-5.4-pro への前方互換対応がフォローアップで入った——上流のカタログが追いつく前に、Codex 側の価格と制限がきちんと見える状態で。

LM Studio も同梱プロバイダーになった

4.12 で同梱版の LM Studio プロバイダーが出た。オンボーディングフロー、ランタイムのモデル発見、ストリームのプリロード、メモリ検索用のエンベディング——ファーストクラスの経路が全部入っている。LM Studio でローカルモデルを回している人は、もう汎用の OpenAI 互換エンドポイントとして設定して、ケーパビリティ検出がうまくいくことを祈る必要はない。

触れておく価値のある細かい話

•Arcee AI プロバイダー（4.7）：Trinity カタログ、OpenRouter 対応、オンボーディング導線。
•Gemma 4 対応（4.7）：明示的な thinking-off の扱いが Gemma 互換ラッパーを通しても保たれる。
•Qwen、Fireworks AI、StepFun の同梱（4.5）——加えて MiniMax TTS、Ollama Web Search、MiniMax Search の統合。
•Amazon Bedrock（4.5）：推論プロファイルの発見と、リクエストリージョンの自動注入。AWS_BEARER_TOKEN_BEDROCK を export しなくても、IAM 認証が資格情報チェーンで通る。
•コンパクションプロバイダーレジストリ（4.7）：プラグインで組み込みの要約パイプラインを差し替えられる。プロバイダーが失敗したら LLM 要約にフォールバック。
•コンパクションチェックポイントの永続化（4.7）：Sessions UI でコンパクション前の状態を検証・復元するためのブランチ／リストア操作が追加。