Playbooks – תרחישים נפוצים
p95 Latency עלה מעל הסף
בקש מהמשתמש:
/statusאם DEGRADED: בקש
/errorsו-/triageאם יש אירוע חזוי: בקש
/predictותעדף לפי זמן עד חריגההחלטה: אם error% > 1% וגם p95 בעלייה → פתח Incident; אחרת נטר 15 דק«
Error Rate > 1%
הרץ
/statusודא שהשגיאות אינן תלויות שירות חיצוני
אם כן – הפחת עומס/Backoff; אם לא – פתח Incident
Memory Usage מטפס
בדוק
/statusחפש הדלפות בקוד אחרון שעלה
בצע איסוף זבל יזום אם נתמך; הכן rollback
שירות חיצוני איטי
אסוף מידע:
/status service=<name>בצע דילול בקשות והפעל cache זמני
דווח בעליית p95 והצע תיעדוף
Repeated Incident תחת 15 דק«
סמן recurring_issue
העלה את הסף האדפטיבי פי 1.2
תעד בלוג והצע תוכנית מניעה