Incident Checklist (On‑Call)

בעת פתיחת Incident

  1. בדקו את קטגוריית השגיאה (error_category) ב‑Logs/ChatOps/Sentry.

  2. פעלו לפי ה‑policy המצורפת לקטגוריה: - retry: בדקו מדיניות retry בפועל וגבולות circuit‑breaker. - notify: עדכנו ערוצים רלוונטיים (טלגרם/Slack) והצמידו request_id. - escalate: הסלימו לבעל התפקיד/צוות יעד, כולל הקשר (service, endpoint, recent changes).

  3. קבעו חלון זמן לתצפית (5/30/120 דקות) ובדקו מגמות (Top Signatures).

  4. אספו request_id וריצו /triage <request_id> לקבלת קישורי Grafana/Sentry.

  5. אם יש 429 משירות חיצוני – שקלו הגדלת CIRCUIT_BREAKER_RECOVERY_SECONDS זמנית.

סטטוסי מעקב אחידים

  • 2xx: הצלחה. בדקו חריגות בהיקף/לטנציה בלבד.

  • cancelled: בוטל ע“י משתמש/זרימה (ללא כשל). בדקו אם הביטול צפוי.

  • error/5xx: כשל. פעלו לפי הטקסונומיה/policy ובדקו Top Signatures.

קישורים