# Playbooks – תרחישים נפוצים

## p95 Latency עלה מעל הסף
1. בקש מהמשתמש: `/status`
2. אם DEGRADED: בקש `/errors` ו-`/triage`
3. אם יש אירוע חזוי: בקש `/predict` ותעדף לפי זמן עד חריגה
4. החלטה: אם error% > 1% וגם p95 בעלייה → פתח Incident; אחרת נטר 15 דק'

## Error Rate > 1%
1. הרץ `/status`
2. ודא שהשגיאות אינן תלויות שירות חיצוני
3. אם כן – הפחת עומס/Backoff; אם לא – פתח Incident

## Memory Usage מטפס
1. בדוק `/status`
2. חפש הדלפות בקוד אחרון שעלה
3. בצע איסוף זבל יזום אם נתמך; הכן rollback

## שירות חיצוני איטי
1. אסוף מידע: `/status service=<name>`
2. בצע דילול בקשות והפעל cache זמני
3. דווח בעליית p95 והצע תיעדוף

## Repeated Incident תחת 15 דק'
1. סמן recurring_issue
2. העלה את הסף האדפטיבי פי 1.2
3. תעד בלוג והצע תוכנית מניעה