# Playbooks – תרחישים נפוצים ## p95 Latency עלה מעל הסף 1. בקש מהמשתמש: `/status` 2. אם DEGRADED: בקש `/errors` ו-`/triage` 3. אם יש אירוע חזוי: בקש `/predict` ותעדף לפי זמן עד חריגה 4. החלטה: אם error% > 1% וגם p95 בעלייה → פתח Incident; אחרת נטר 15 דק' ## Error Rate > 1% 1. הרץ `/status` 2. ודא שהשגיאות אינן תלויות שירות חיצוני 3. אם כן – הפחת עומס/Backoff; אם לא – פתח Incident ## Memory Usage מטפס 1. בדוק `/status` 2. חפש הדלפות בקוד אחרון שעלה 3. בצע איסוף זבל יזום אם נתמך; הכן rollback ## שירות חיצוני איטי 1. אסוף מידע: `/status service=` 2. בצע דילול בקשות והפעל cache זמני 3. דווח בעליית p95 והצע תיעדוף ## Repeated Incident תחת 15 דק' 1. סמן recurring_issue 2. העלה את הסף האדפטיבי פי 1.2 3. תעד בלוג והצע תוכנית מניעה