Engpässe vor der ersten Flagger-Promotion
Canary-Mathematik auf Kubernetes ist nur die halbe Wahrheit. Gateway-Macs bedienen weiter OpenClaw-Skills, tailen Logs und promoten Artefakte, während Flagger Verkehr verschiebt.
- Driftende Gateway-Slices: eine AZ fährt ein neueres Skill-Pack, Flagger misst eine andere — Merge-Sonden wirken gesund, Nutzer sehen inkonsistentes Verhalten.
- Geteilte Sonden-Oberflächen: Prozess-Health ist grün, während Canary-5xx-Zähler auf der VIP steigen, die Flagger nie aufruft.
- Webhook-Stürme: enge Messintervalle plus unbegrenzte Retries stampeden jeden clustervps-Knoten hinter dem Load-Balancer.
Mehrknoten-Gateway-Version-Slices und Skill-Pack-Locks
Setzen Sie pro AZ ein unveränderliches gateway_version Label und sperren Sie OpenClaw-Skill-Bundles per Content-Hash, bevor Flagger Gewicht erhöht. Wiederverwenden Sie Knoten-Fragmente aus Fragment-Merge-Workflows and traffic ratios from Mehr-AZ-Canary-Skills, damit jeder Gateway im Mess-Pool vergleichbares JSON liefert.
Lenken Sie Flagger-Metrikprüfungen auf einen canary-getaggten Hostnamen — dokumentiert in Mehr-AZ-Gateway-Webhooks, nicht den stabilen SSH-Pool. Zur Startseite für regionale Knotenkarten, wenn Sie einen vierten Gateway-Mac ergänzen.
AnalysisRun-Metrik-Schwellen und Sonden-Merge
Flagger wertet pro Intervall genau eine Provider-Antwort aus. Bündeln Sie Gateway-Prozess-Health, Canary-Fehlerraten, Queue-Tiefe und optionale Doctor-Felder — dieselbe Disziplin wie Rollouts im Argo-Rollouts-Sonden-Leitfaden, verdrahtet über Flagger MetricTemplate-Webhooks.
| Signal | Start-Schwelle | Fehlschlag wenn |
|---|---|---|
| Canary-5xx-Rate | ≤ 0,5 % über fünf Minuten | Zwei aufeinanderfolgende Fenster über Obergrenze. |
| Gateway-p99-Latenz | ≤ 220 ms auf Canary-VIP | Regression > 15 % gegen Stable-Baseline. |
| Queue-Tiefe | ≤ 12 ausstehende Jobs | Anhaltendes Wachstum bei steigendem Gewicht. |
| Platten-Gelb-Gate | APFS < 78 % auf 2-TB-Knoten | Beliebiger Gateway überschreitet Gelb während Analyse. |
| degraded-Flag | HTTP 200 mit explizitem Boolean | degraded: true fail-closed auch bei 200. |
{
"status": "healthy",
"flagger": "payments-gateway",
"canary": { "5xx_rate": 0.003, "p99_ms": 164 },
"gateway": { "disk_ok": true, "queue_depth": 4, "skill_hash": "9f2a…" },
"degraded": false
}
Webhook-Fehler-Summary-Broadcast und Token-Rotation
Zwei Bearer-Secrets mit Überlappung für mindestens ein volles Flagger-Analyse-Fenster mounten. Verifikationsfehler mit Namespace, Canary-Name und Mess-Index loggen. Bei Nicht-Erfolg einen Digest an den Notifier-Mac senden — Muster in Cluster-Logs & Webhook-Digests; Operatoren lesen eine Summary, während Kubernetes erneut misst.
- Primär-Token: Flagger-
MetricTemplate-Webhook-Header. - Überlappungs-Token: sieben Tage nach Rotation weiter akzeptiert.
- Retry-Cap: drei Gateway-Versuche mit Jitter; Flagger-Intervall ≥ 60 s während Mac-Wartung.
Aus Sicherheits- und Stabilitätssicht: TLS 1.3 erzwingen, Webhook-Pfade pro Namespace isolieren und Audit-JSONL mit Signatur-Hash archivieren. Messfenster mit p99 < 250 ms und Fehlerrate < 0,8 % gelten als grüne Baseline für Mehr-AZ-Gateways auf dedizierten Mac mini M4 — Werte sind Planungsgrößen, keine SLA.
Artefakt-rsync- und Buildlock-Parameter während Canary
Nichts verwirrt eine Canary schneller als Binary-Promotion mitten in der Analyse. rsync hinter flock halten und Bandbreite gemäß der Artefakt-rsync-Matrix drosseln.
LOCK=/var/tmp/openclaw-promote-${SKILL_HASH}.lock
flock -n "$LOCK" ionice -c2 -n4 rsync -az --delete-delay \
--bwlimit=28000 --timeout=300 \
"${GOLDEN}:/artifacts/" "${LOCAL_ROOT}/"
Minimal reproduzierbares Rollout (sechs Schritte)
- Flagger installieren und prüfen, dass die Canary-CRD Ihren Gateway-Service trifft — nicht Argo-CD-Sync-Hooks.
/flagger/metricsexponieren auf einem canary-getaggten OpenClaw-Gateway-Mac mit mTLS oder Bearer-Auth.- MetricTemplate-Webhook registrieren, der auf diese URL zeigt; zusammengeführtes JSON mit expliziten Schwellen zurückgeben.
- Skill-Packs sperren und rsync-Promotions pausieren, bis Analyse promoted oder abbricht.
- Fehler-Broadcast aktivieren auf den Notifier-Pfad; Rollback-Gewichte vor Produktion proben.
- Parität validieren: Endpunkt vom Bastion curlen, während Flagger eine Dry-Run-Canary bei fünf Prozent Gewicht fährt.
Canary-Rollback-FAQ
Flagger vs Flux vs Rollouts? Pro Mess-URL genau einen Upstream-Aufrufer. GitOps-Canaries im Flux-Canary-Leitfaden und Rollouts-AnalysisRun oben vergleichen — denselben Gateway-Handler nicht doppelt anstoßen.
Wann abbrechen? Zwei fehlgeschlagene Metrik-Fenster, degraded: true oder Platten-Gelb auf einem Gateway-Mac. Flagger-Gewicht zurücksetzen, stabilen Skill-Hash wiederherstellen, rsync-Locks freigeben.
Doctor schlägt fehl, Metriken grün? Doctor als Sekundärfeld im Merge-JSON; Doctor-Deep-Checks vor Verkehrsaufweitung.
Zitierfähige Leitplanken
- Mess-Vertrag: ein Merge-JSON-Schema pro Gateway-Fleet versioniert in Git.
- Token-Überlappung: mindestens ein Flagger-Analyse-Intervall plus fünf Minuten.
- Promotions-Freeze: kein delete-lastiges rsync, solange Canary-Status
Progressing.
Gateway-Macs für Flagger-Canaries bereitstellen
Lesen Sie den Flux-Canary-Leitfaden oder den Argo-Rollouts-Sonden-Leitfaden, dann Mehrknoten-Mac mini M4 mit SSH/VNC buchen.