Playbooks – תרחישים נפוצים

p95 Latency עלה מעל הסף

  1. בקש מהמשתמש: /status

  2. אם DEGRADED: בקש /errors ו-/triage

  3. אם יש אירוע חזוי: בקש /predict ותעדף לפי זמן עד חריגה

  4. החלטה: אם error% > 1% וגם p95 בעלייה → פתח Incident; אחרת נטר 15 דק«

Error Rate > 1%

  1. הרץ /status

  2. ודא שהשגיאות אינן תלויות שירות חיצוני

  3. אם כן – הפחת עומס/Backoff; אם לא – פתח Incident

Memory Usage מטפס

  1. בדוק /status

  2. חפש הדלפות בקוד אחרון שעלה

  3. בצע איסוף זבל יזום אם נתמך; הכן rollback

שירות חיצוני איטי

  1. אסוף מידע: /status service=<name>

  2. בצע דילול בקשות והפעל cache זמני

  3. דווח בעליית p95 והצע תיעדוף

Repeated Incident תחת 15 דק«

  1. סמן recurring_issue

  2. העלה את הסף האדפטיבי פי 1.2

  3. תעד בלוג והצע תוכנית מניעה