Incident Checklist (On‑Call)
בעת פתיחת Incident
בדקו את קטגוריית השגיאה (
error_category) ב‑Logs/ChatOps/Sentry.פעלו לפי ה‑
policyהמצורפת לקטגוריה: -retry: בדקו מדיניות retry בפועל וגבולות circuit‑breaker. -notify: עדכנו ערוצים רלוונטיים (טלגרם/Slack) והצמידו request_id. -escalate: הסלימו לבעל התפקיד/צוות יעד, כולל הקשר (service, endpoint, recent changes).קבעו חלון זמן לתצפית (5/30/120 דקות) ובדקו מגמות (Top Signatures).
אספו
request_idוריצו/triage <request_id>לקבלת קישורי Grafana/Sentry.אם יש 429 משירות חיצוני – שקלו הגדלת
CIRCUIT_BREAKER_RECOVERY_SECONDSזמנית.
סטטוסי מעקב אחידים
2xx: הצלחה. בדקו חריגות בהיקף/לטנציה בלבד.cancelled: בוטל ע“י משתמש/זרימה (ללא כשל). בדקו אם הביטול צפוי.error/5xx: כשל. פעלו לפי הטקסונומיה/policyובדקו Top Signatures.