Playbooks – תרחישים נפוצים

p95 Latency עלה מעל הסף

בקש מהמשתמש: /status
אם DEGRADED: בקש /errors ו-/triage
אם יש אירוע חזוי: בקש /predict ותעדף לפי זמן עד חריגה
החלטה: אם error% > 1% וגם p95 בעלייה → פתח Incident; אחרת נטר 15 דק«

Error Rate > 1%

הרץ /status
ודא שהשגיאות אינן תלויות שירות חיצוני
אם כן – הפחת עומס/Backoff; אם לא – פתח Incident

Memory Usage מטפס

בדוק /status
חפש הדלפות בקוד אחרון שעלה
בצע איסוף זבל יזום אם נתמך; הכן rollback

שירות חיצוני איטי

אסוף מידע: /status service=<name>
בצע דילול בקשות והפעל cache זמני
דווח בעליית p95 והצע תיעדוף

Repeated Incident תחת 15 דק«

סמן recurring_issue
העלה את הסף האדפטיבי פי 1.2
תעד בלוג והצע תוכנית מניעה