Plattform-Engineering-Teams, die Mehr-AZ-OpenClaw-Gateways auf clustervps betreiben, brauchen einen Canary-Pfad, den Flagger bewerten kann, ohne Mac-Knoten in Webhook-Retries zu ertränken. Dieser Leitfaden liefert ein minimal reproduzierbares Setup: Gateway-Version-Slices und Skill-Pack-Locks, AnalysisRun-Schwellen mit zusammengeführten Sonden, Fehler-Summary-Broadcast mit Token-Rotation, rsync-Buildlock-Parameter und Rollback-FAQ — inklusive Verweisen auf Flux-Webhook-Canary und Argo Rollouts AnalysisRun beim Controller-Vergleich.

Engpässe vor der ersten Flagger-Promotion

Canary-Mathematik auf Kubernetes ist nur die halbe Wahrheit. Gateway-Macs bedienen weiter OpenClaw-Skills, tailen Logs und promoten Artefakte, während Flagger Verkehr verschiebt.

  • Driftende Gateway-Slices: eine AZ fährt ein neueres Skill-Pack, Flagger misst eine andere — Merge-Sonden wirken gesund, Nutzer sehen inkonsistentes Verhalten.
  • Geteilte Sonden-Oberflächen: Prozess-Health ist grün, während Canary-5xx-Zähler auf der VIP steigen, die Flagger nie aufruft.
  • Webhook-Stürme: enge Messintervalle plus unbegrenzte Retries stampeden jeden clustervps-Knoten hinter dem Load-Balancer.

Mehrknoten-Gateway-Version-Slices und Skill-Pack-Locks

Setzen Sie pro AZ ein unveränderliches gateway_version Label und sperren Sie OpenClaw-Skill-Bundles per Content-Hash, bevor Flagger Gewicht erhöht. Wiederverwenden Sie Knoten-Fragmente aus Fragment-Merge-Workflows and traffic ratios from Mehr-AZ-Canary-Skills, damit jeder Gateway im Mess-Pool vergleichbares JSON liefert.

Lenken Sie Flagger-Metrikprüfungen auf einen canary-getaggten Hostnamen — dokumentiert in Mehr-AZ-Gateway-Webhooks, nicht den stabilen SSH-Pool. Zur Startseite für regionale Knotenkarten, wenn Sie einen vierten Gateway-Mac ergänzen.

AnalysisRun-Metrik-Schwellen und Sonden-Merge

Flagger wertet pro Intervall genau eine Provider-Antwort aus. Bündeln Sie Gateway-Prozess-Health, Canary-Fehlerraten, Queue-Tiefe und optionale Doctor-Felder — dieselbe Disziplin wie Rollouts im Argo-Rollouts-Sonden-Leitfaden, verdrahtet über Flagger MetricTemplate-Webhooks.

SignalStart-SchwelleFehlschlag wenn
Canary-5xx-Rate≤ 0,5 % über fünf MinutenZwei aufeinanderfolgende Fenster über Obergrenze.
Gateway-p99-Latenz≤ 220 ms auf Canary-VIPRegression > 15 % gegen Stable-Baseline.
Queue-Tiefe≤ 12 ausstehende JobsAnhaltendes Wachstum bei steigendem Gewicht.
Platten-Gelb-GateAPFS < 78 % auf 2-TB-KnotenBeliebiger Gateway überschreitet Gelb während Analyse.
degraded-FlagHTTP 200 mit explizitem Booleandegraded: true fail-closed auch bei 200.
{
  "status": "healthy",
  "flagger": "payments-gateway",
  "canary": { "5xx_rate": 0.003, "p99_ms": 164 },
  "gateway": { "disk_ok": true, "queue_depth": 4, "skill_hash": "9f2a…" },
  "degraded": false
}

Webhook-Fehler-Summary-Broadcast und Token-Rotation

Zwei Bearer-Secrets mit Überlappung für mindestens ein volles Flagger-Analyse-Fenster mounten. Verifikationsfehler mit Namespace, Canary-Name und Mess-Index loggen. Bei Nicht-Erfolg einen Digest an den Notifier-Mac senden — Muster in Cluster-Logs & Webhook-Digests; Operatoren lesen eine Summary, während Kubernetes erneut misst.

  • Primär-Token: Flagger-MetricTemplate-Webhook-Header.
  • Überlappungs-Token: sieben Tage nach Rotation weiter akzeptiert.
  • Retry-Cap: drei Gateway-Versuche mit Jitter; Flagger-Intervall ≥ 60 s während Mac-Wartung.

Aus Sicherheits- und Stabilitätssicht: TLS 1.3 erzwingen, Webhook-Pfade pro Namespace isolieren und Audit-JSONL mit Signatur-Hash archivieren. Messfenster mit p99 < 250 ms und Fehlerrate < 0,8 % gelten als grüne Baseline für Mehr-AZ-Gateways auf dedizierten Mac mini M4 — Werte sind Planungsgrößen, keine SLA.

Artefakt-rsync- und Buildlock-Parameter während Canary

Nichts verwirrt eine Canary schneller als Binary-Promotion mitten in der Analyse. rsync hinter flock halten und Bandbreite gemäß der Artefakt-rsync-Matrix drosseln.

LOCK=/var/tmp/openclaw-promote-${SKILL_HASH}.lock
flock -n "$LOCK" ionice -c2 -n4 rsync -az --delete-delay \
  --bwlimit=28000 --timeout=300 \
  "${GOLDEN}:/artifacts/" "${LOCAL_ROOT}/"

Minimal reproduzierbares Rollout (sechs Schritte)

  1. Flagger installieren und prüfen, dass die Canary-CRD Ihren Gateway-Service trifft — nicht Argo-CD-Sync-Hooks.
  2. /flagger/metrics exponieren auf einem canary-getaggten OpenClaw-Gateway-Mac mit mTLS oder Bearer-Auth.
  3. MetricTemplate-Webhook registrieren, der auf diese URL zeigt; zusammengeführtes JSON mit expliziten Schwellen zurückgeben.
  4. Skill-Packs sperren und rsync-Promotions pausieren, bis Analyse promoted oder abbricht.
  5. Fehler-Broadcast aktivieren auf den Notifier-Pfad; Rollback-Gewichte vor Produktion proben.
  6. Parität validieren: Endpunkt vom Bastion curlen, während Flagger eine Dry-Run-Canary bei fünf Prozent Gewicht fährt.

Canary-Rollback-FAQ

Flagger vs Flux vs Rollouts? Pro Mess-URL genau einen Upstream-Aufrufer. GitOps-Canaries im Flux-Canary-Leitfaden und Rollouts-AnalysisRun oben vergleichen — denselben Gateway-Handler nicht doppelt anstoßen.

Wann abbrechen? Zwei fehlgeschlagene Metrik-Fenster, degraded: true oder Platten-Gelb auf einem Gateway-Mac. Flagger-Gewicht zurücksetzen, stabilen Skill-Hash wiederherstellen, rsync-Locks freigeben.

Doctor schlägt fehl, Metriken grün? Doctor als Sekundärfeld im Merge-JSON; Doctor-Deep-Checks vor Verkehrsaufweitung.

Zitierfähige Leitplanken

  • Mess-Vertrag: ein Merge-JSON-Schema pro Gateway-Fleet versioniert in Git.
  • Token-Überlappung: mindestens ein Flagger-Analyse-Intervall plus fünf Minuten.
  • Promotions-Freeze: kein delete-lastiges rsync, solange Canary-Status Progressing.
Nur operative Orientierung. Flagger- und OpenClaw-APIs entwickeln sich; CRD-Felder und Webhook-Payloads gegen installierte Versionen validieren.
Mehrknoten-OpenClaw auf clustervps

Gateway-Macs für Flagger-Canaries bereitstellen

Lesen Sie den Flux-Canary-Leitfaden oder den Argo-Rollouts-Sonden-Leitfaden, dann Mehrknoten-Mac mini M4 mit SSH/VNC buchen.

Mehrknoten-Cluster-Kapazität mieten Cluster-Tarife ansehen