Qui : administrateurs de grappe Mac multi-zones et ingénieurs plateforme. Problème : Flagger mesure Kubernetes pendant que les Mac passerelle servent encore compétences OpenClaw, journaux et artefacts. Ce document fournit une matrice de décision, six étapes opératoires et une FAQ rollback citables.
Freins avant la première promotion Flagger
L’arithmétique canari sur le plan de contrôle n’épuise pas le sujet : les Mac passerelle continuent d’exécuter OpenClaw pendant que Flagger déplace le trafic.
- Tranches passerelle divergentes : une zone de disponibilité embarque un pack de compétences plus récent que celle mesurée — les sondes fusionnées restent vertes alors que les utilisateurs voient un comportement incohérent.
- Surfaces de sonde scindées : la santé processus est verte tandis que les 5xx canari grimpent sur le VIP que Flagger n’appelle jamais.
- Rafales de webhooks : intervalles de mesure serrés et relances illimitées saturent chaque nœud clustervps derrière l’équilibreur.
Tranches de version passerelle multi-nœuds & verrous de packs de compétences
Figez un libellé immuable gateway_version par zone et verrouillez les bundles OpenClaw par empreinte de contenu avant que Flagger augmente le poids. Réutilisez les fragments par nœud décrits dans le workflow de fusion de fragments et les ratios de trafic du canari multi-AZ afin que chaque passerelle du pool de mesure renvoie un JSON comparable.
Orientez les contrôles métrique Flagger vers un hôte tagué canari documenté dans les webhooks passerelle multi-AZ, non vers le pool stable utilisé au quotidien en SSH. Revenez à l’accueil pour la carte des nœuds régionaux lorsque vous ajoutez un quatrième Mac passerelle.
Seuils AnalysisRun & fusion des sondes passerelle
Flagger n’évalue qu’une réponse fournisseur par intervalle. Fusionnez santé processus, taux d’erreur canari, profondeur de file et champs Doctor optionnels — même discipline que dans le guide sondes Argo Rollouts, mais câblé via les webhooks MetricTemplate Flagger.
| Signal | Seuil de départ | Échec lorsque |
|---|---|---|
| Taux 5xx canari | ≤ 0,5 % sur cinq minutes | Deux fenêtres consécutives au-dessus du plafond. |
| Latence p99 passerelle | ≤ 220 ms sur VIP canari | Régression > 15 % vs baseline stable. |
| Profondeur de file | ≤ 12 tâches en attente | Croissance soutenue pendant la montée de poids. |
| Jalon disque jaune | APFS < 78 % sur nœuds 2 To | Toute passerelle franchit le jaune pendant l’analyse. |
| Drapeau degraded | HTTP 200 avec booléen explicite | degraded: true échoue fermé même à 200. |
{
"status": "healthy",
"flagger": "payments-gateway",
"canary": { "5xx_rate": 0.003, "p99_ms": 164 },
"gateway": { "disk_ok": true, "queue_depth": 4, "skill_hash": "9f2a…" },
"degraded": false
}
Diffusion des synthèses d’échec webhook & rotation des jetons
Montez deux secrets porteur avec chevauchement sur au moins une fenêtre d’analyse Flagger complète. Journalisez les échecs de vérification avec espace de noms, nom du Canary et index de mesure. Sur toute classification non réussie, regroupez un digest vers le Mac notificateur selon le modèle des journaux de grappe & webhooks — les opérateurs lisent une synthèse pendant que Kubernetes relance les mesures.
- Jeton principal : en-tête webhook
MetricTemplateFlagger. - Jeton de chevauchement : accepté sept jours après rotation.
- Plafond de relance : trois tentatives passerelle avec jitter ; intervalle Flagger ≥ 60 s pendant maintenance Mac.
Paramètres rsync d’artefacts & verrou de build pendant le canari
Rien ne brouille un canari plus vite qu’une promotion binaire en pleine analyse. Retenez rsync derrière flock et plafonnez le débit selon la matrice rsync d’artefacts.
LOCK=/var/tmp/openclaw-promote-${SKILL_HASH}.lock
flock -n "$LOCK" ionice -c2 -n4 rsync -az --delete-delay \
--bwlimit=28000 --timeout=300 \
"${GOLDEN}:/artifacts/" "${LOCAL_ROOT}/"
Déploiement reproductible minimal (six étapes)
- Installer Flagger et confirmer que le CRD Canary cible votre Service passerelle — pas les hooks de sync Argo CD.
- Exposer
/flagger/metricssur un Mac OpenClaw tagué canari avec mTLS ou auth porteur. - Enregistrer un webhook MetricTemplate pointant vers cette URL ; renvoyer un JSON fusionné avec seuils explicites.
- Verrouiller les packs de compétences et suspendre les promotions rsync jusqu’à fin ou abandon de l’analyse.
- Activer la diffusion d’échecs vers votre chemin notificateur ; répéter les poids de rollback avant production.
- Valider la parité en curl depuis un bastion pendant un canari à sec à cinq pour cent du poids.
FAQ rollback canari
Flagger vs Flux vs Rollouts ? Un seul appelant amont par URL de mesure. Comparez le canari Flux et les notes Rollouts ci-dessus — ne déclenchez pas deux fois le même handler passerelle.
Quand abandonner ? Deux fenêtres métrique en échec, degraded: true, ou jalon disque jaune sur un Mac passerelle. Revenez au poids Flagger stable, restaurez l’empreinte de compétences et libérez les verrous rsync.
Doctor en échec alors que les métriques passent ? Traitez Doctor comme champ secondaire dans le JSON fusionné ; consultez les contrôles Doctor approfondis avant d’élargir le trafic.
Garde-fous réutilisables
- Contrat de mesure : un schéma JSON fusionné versionné dans Git par flotte passerelle.
- Chevauchement de jetons : au minimum une fenêtre d’analyse Flagger plus cinq minutes.
- Gel des promotions : aucun rsync lourd en
--deletetant que le Canary estProgressing.
Provisionner des Mac passerelle pour canaris Flagger
Lisez le canari Flux ou le guide sondes Argo Rollouts, puis ouvrez l’achat pour ajouter des passerelles Mac mini M4 multi-zones avec accès SSH/VNC.