단일 게이트웨이가 멀티 AZ 현실과 충돌하는 이유
clustervps 전용 Mac 세 대 이상(게이트웨이 둘 + 워커 또는 알리미)을 가정합니다. 경로가 한 호스트에 몰리면 상관 장애와 토큰 리허설 부담이 같이 옵니다. 기술 블로그 목록과 런북을 함께 맞추세요.
- 재시도 폭주: 병렬 재시도에 TLS가 먼저 무너집니다.
- 프로브 표류: LB마다 다른 curl이면 절반은 정상 착각입니다.
- 비밀 결합: 장수 베어러 하나면 토큰 교체가 주말 행사가 됩니다.
게이트웨이 분리 대 단일: 빠른 의사결정 표
| 토폴로지 | 이렇게 선택 | 주의 |
|---|---|---|
| 단일 게이트웨이 Mac | 트래픽이 가벼운 초기 프로토타입·데모. | 디스크 정체·TLS 업그레이드가 모든 AZ를 동시에 멈춥니다. |
| AZ마다 게이트웨이 쌍 | 운영자 그룹이 갈리는 프로덕션 OpenClaw. | DNS 가중치와 공유 런북이 명시돼야 합니다. |
| 게이트웨이와 알리미 분리 | 상행 웹훅이 무겁거나 컴플라이언스 로그가 큰 경우. | 시계 오차는 수 초 안에 잡혀야 합니다. |
요금제 안내로 AZ별 RAM·SSD를 맞추고, 홈 공개 흐름을 유지한 채 노드를 비울 수 있게 설계하세요. 아티팩트 동기화는 멀티리전 아티팩트 런북과 같이 읽으면 협업 분업이 선명해집니다.
HowTo: clustervps 게이트웨이를 가용 영역마다 나누기
- 범위 고정. 인바운드 호스트·mTLS·고정 IP를 적어 DNS와 맞출 때까지 이동 금지.
- 설정만 복제. launchd·환경 파일만 복사, SQLite·로컬 큐는 컷오버 전 비움.
- DNS 가중. 신규에 십 퍼센트→삼십 분 관찰→이십 퍼센트 단계 상향.
- 드레인 스위치. 워커 없이 게이트웨이만 읽기 전용으로 바꾸는 단일 명령을 문서화.
- 카오스 훈련. 근무 시간에 한쪽을 멈추고 다른 쪽이 백로그를 붙잡는지 확인.
SSH 바스천 경로를 노드 간 동일하게 두어 기술 문서와 맞춥니다. 좌석이 더 필요하면 구매를 로그인 전에 열어볼 수 있습니다.
HowTo: 헬스 프로브를 하나의 신호로 합치기
LB는 게이트웨이마다 복합 준비 상태 한 경로만 호출합니다. 디스크·launchd·웹훅 TLS·인증서를 묶어 JSON 불리언으로 부분 실패를 드러냅니다.
#!/usr/bin/env bash
set -euo pipefail
/usr/bin/curl -fsS --max-time 4 https://hooks.partner.test/ping >/dev/null
/usr/sbin/diskutil apfs list | /usr/bin/grep -q "Container"
/usr/bin/printf '{"disk":true,"webhook":true,"queue_depth":0}\n'
동일 프로브 경로를 모든 게이트웨이에 두어 피어 curl 자동화를 허용하고, 실패 시 AZ 라벨로 세션 이전을 돕습니다.
HowTo: 웹훅 실패는 스팸이 아니라 요약으로 방송
알리미 노드가 실패를 모읍니다. 게이트웨이는 Redis나 파일 테일로 이벤트를 쏘고, 알리미는 오 분 창·상태 dedupe 후 슬랙·메일 한 장으로 보냅니다. 워커는 원시 로그 대신 요약만 구독합니다.
- 봉투 메타데이터: 상관 ID·AZ·재시도 횟수를 넣어 온콜이 정확히 한 건만 재생합니다.
- 백프레셔: 요약 발행 자체가 실패하면 디스크 카운터로 남겨 조용히 사라지지 않게 합니다.
- 사람 말: 항공 상태판처럼 짧은 절만 쓰고, 심각도가 치명적일 때만 스택 트레이스를 붙입니다.
HowTo: 롤링 검증으로 토큰 교체
섀도 자격 증명을 카나리에 나란히 주입해 하루 상행 웹훅을 검증한 뒤, 리비전 태그로 전 게이트웨이에 승격하고 두 폴링 주기 안정 후 구 토큰을 폐기합니다. 워커는 rename으로 갱신되는 짧은 수명 파일에서 토큰을 읽고, 회전마다 행위자·티켓 ID를 남깁니다. 공인망 웹훅이면 구십 일 주기를 줄이고, 마지막 성공을 확인한 Mac을 표에 적어 무음 성공을 막습니다.
다중 노드 협업 점검 목록
- 런북 동형: launchd 유닛 이름 일치.
- 시간 동기:
sntp편차 이 초 이내. - 웹훅 큐: 디스크 상한·고수위 알람 명시.
- 프로브 SLO: p95 이백 ms 미만.
- 요약 지연: 요약이 임원 에스컬보다 먼저.
- 토큰 겹침: 구·신 동시 유효 최소 십이 시간.
- SSH: 점프 경로를 도움말 옆에 기록.
- 용량: 분기마다 요금제 재검토.
FAQ: clustervps에서 OpenClaw를 지루하게 유지하기
AZ마다 TLS 인증서를 달리 써야 하나요? 사용자를 리전 경로에 붙이려면 로컬 종단이 맞습니다. 다만 같은 CA 프로필로 발급을 자동화해 갱신 런북은 동일하게 유지하세요.
합쳐진 프로브가 부분 실패를 숨기면? HTTP 200에 "status":"degraded" 같은 퇴화 모드를 노출해 노란 대시보드만 켜고 트래픽은 유지합니다.
인턴이 회전 훈련을 해도 되나요? 섀도 토큰과 카나리 게이트웨이가 있으면 안전합니다. 프로덕션 큐를 건드리지 않는 연습을 모두 밟게 하세요.