OpenClaw を clustervps の複数 Mac に跨 AZ で載せるとき、入口と秘密の境界が曖昧だと障害が連鎖します。網関分割、探針統合、Webhook 失敗要約、トークン輪換を HowTo とチェックリストに整理します。
多ノード協調でまず詰まる三つの壁
制御面とデータ面を同居させたまま伸ばすと相関が読めません。多ノード成果物同期メモ と併読すると再現性が上がります。
- 入口集中: TLS 終端と認可が単一網関に重なり、AZ 障害で全経路が落ちる。
- 探針ノイズ: ノードごとにヘルス URL が増え、Pager が疲弊する。
- 秘密の寿命: Webhook 署名と受領トークンを同周期で回すと輪換事故が起きやすい。
役割分割の意思決定マトリクス
| レイヤ | 統合前 | 統合後の狙い |
|---|---|---|
| 網関 | 全 AZ が同一 VIP 依存。 | AZ ローカル終端でブラスト半径を分離。 |
| ヘルス | URL が乱立。 | 生存と外向き依存を合成して一本化。 |
| Webhook | 失敗ログが散在。 | 要約チャネルが無いと夜間復旧が遅い。 |
先に観測役と配信役を分けると、後段のトークン輪換の手戻りが減ります。
HowTo:最小再現の五ステップ
- ステップ1: AZ ごとに網関を立て TLS とレート制限を近接配置、制御面は別ホストへ。
- ステップ2: 合成ヘルスで
/healthzを一本化し、証明書更新を網関側に閉じる。 - ステップ3: Webhook は署名失敗時に本文を捨て、相関 ID・HTTP・リトライ回数のみ監査キューへ。
- ステップ4: 失敗要約を IM へ送る前にマスク規則を固定し、成功時は通知しない。
- ステップ5: 受領トークンと静的シークレットを分離し、併存 300 秒など明示して輪換。
切替前の検証チェックリスト
- フェイルオーバー: 2+1 で片系停止時、Webhook 再送が二重適用にならないか。
- 探針: 依存を落としたとき合成ステータスが期待色へ遷移するか。
- 輪換: 猶予内は受理、猶予外は即拒否になるか。
そのまま貼れる運用指標(目安)
2
AZ あたり最低二系統の網関冗長。
10m
失敗要約の最大遅延、超えたら調査キューを分離。
300s
トークン併存ウィンドウ初期値、実測で短縮。
台数は 料金、手順は ヘルプ、全体は ホーム から辿れます。
FAQ:現場で迷いやすい点
網関を分けると遅延は: 終端を近づければ往復は下がりがちで、制御 RPC だけ別経路にします。
失敗要約に本文は: マスク済みメタのみ推奨。本文は再取得パスに留めます。
免責: 再現用の目安です。本番前に署名検証と輪換ドリルを実施してください。