Домен
Observability и мониторинг
Профиль навыка
PagerDuty, OpsGenie, политики эскалации, runbooks, ротация дежурств, SLA
Ролей
14
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
30
ещё 38 — необязательные
Observability и мониторинг
Управление инцидентами
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| Backend Developer (Go) | Понимает on-call для Go сервисов: реагирует на alerts, использует runbooks. Участвует в incident response. | |
| Backend Developer (Java/Kotlin) | Понимает on-call для Java: реагирует на alerts, thread dumps, heap dumps. Использует runbooks для troubleshooting. | |
| Backend Developer (Python) | Понимает on-call для Python: реагирует на alerts, diagnoses exceptions. Использует runbooks. | |
| Cloud Engineer | Понимает основы on-call для облачной инфраструктуры: процедуры триажа алертов, следование runbook-ам для типичных инцидентов и пути эскалации. Участвует в on-call ротациях как вторичный респондер. Следует командным практикам документирования инцидентов и процедурам передачи. | |
| Database Engineer / DBA | Участвует в on-call ротации для database tier: следует runbooks при алертах (high CPU, disk space, replication lag), эскалирует сложные проблемы. Документирует инциденты и выполняет базовые remediation действия. | |
| DevOps Engineer | Понимает принципы on-call: расписания дежурств, эскалация, инцидент-менеджмент. Участвует в дежурствах под руководством senior инженера, реагирует на алерты по runbooks. Знает инструменты: PagerDuty, Opsgenie, VictorOps. | |
| DevSecOps Engineer | Участвует в on-call ротации: реагирует на алерты PagerDuty/OpsGenie, следует runbooks для типовых инцидентов. Документирует действия и результаты. Понимает escalation процедуры. Изучает базовые security-инциденты: compromised credentials, suspicious login, certificate expiration. Ведёт incident log. | |
| Game Server Developer | Понимает основы on-call для инфраструктуры игровых серверов: триаж алертов, влияющих на игроков, мониторинг здоровья игровых сервисов и процедуры эскалации для проблем live-игры. Участвует в on-call ротациях для операций игровых серверов. Следует командным runbook-ам для типичных инцидентов игровых серверов. | |
| Network Engineer | Знает базовые концепции on call management для network engineer и умеет применять их в типовых задачах. Использует стандартные инструменты и следует установленным практикам команды. Понимает когда и почему применяется данный подход. | |
| Platform Engineer | Участвует в on-call ротации для платформенных сервисов: следует runbooks, эскалирует по процедуре. Использует PagerDuty/OpsGenie для управления инцидентами. Документирует инциденты и действия в timeline. Понимает severity levels и response time SLA для платформы | |
| Security Analyst | Понимает основы on-call для security operations: процедуры триажа security-алертов, мониторинг дашбордов SIEM и пути эскалации security-инцидентов. Участвует в ротациях SOC как junior-аналитик. Следует командным процедурам расследования и документирования событий безопасности. | |
| Site Reliability Engineer (SRE) | Участвует в on-call: следует escalation procedures, использует PagerDuty для alert management. Документирует инциденты. Передаёт дежурство с handoff notes. |
| Роль | Обязательность | Описание |
|---|---|---|
| Backend Developer (Go) | Управляет on-call: создаёт runbooks для Go сервисов, настраивает alerting, post-incident review. | |
| Backend Developer (Java/Kotlin) | Управляет on-call: создаёт runbooks для JVM issues, настраивает alerting, GC troubleshooting guides. | |
| Backend Developer (Python) | Управляет on-call: runbooks для Python services, alerting configuration, incident response. | |
| Cloud Engineer | Участвует в on-call ротации для облачной инфраструктуры. Настраивает PagerDuty/OpsGenie с эскалацией, отвечает на алерты CloudWatch и Prometheus. Классифицирует инциденты по severity, выполняет первичную диагностику — проверка метрик, логов, status pages облачных провайдеров. | |
| Database Engineer / DBA | Обрабатывает database инциденты самостоятельно: диагностика deadlocks, query performance degradation, replication breaks. Пишет и обновляет runbooks. Проводит post-incident review для database-related инцидентов. | |
| DevOps Engineer | Настраивает on-call процессы: расписания в PagerDuty/Opsgenie, escalation policies, routing rules для алертов. Создаёт runbooks для типичных инцидентов, автоматизирует первичную диагностику. Проводит post-mortems и отслеживает action items. | |
| DevSecOps Engineer | Настраивает on-call процессы для security-инцидентов: escalation policies, severity classification, notification channels. Создаёт runbooks для security on-call: credential compromise, DDoS, data breach, ransomware. Интегрирует PagerDuty с SIEM-алертами. Проводит weekly on-call review и trend analysis. | |
| Engineering Manager | Настраивает on-call management для сервисов команды: политики маршрутизации алертов, графики ротации с равномерным распределением нагрузки и цепочки эскалации. Создаёт дашборды для метрик здоровья on-call (объём алертов, MTTA, пейджи за ротацию). Участвует в реагировании на инциденты и проводит post-incident ревью. | |
| Game Server Developer | Настраивает on-call management для игровых серверов: приоритизация алертов на основе влияния на игроков, игро-специфичные дашборды здоровья (CCU, % завершения матчей, перцентили латенси) и автоматическая ремедиация типичных проблем игровых сервисов. Анализирует паттерны инцидентов для снижения toil. Участвует в on-call ротациях live ops. | |
| Network Engineer | Уверенно применяет on call management для network engineer при решении нестандартных задач. Самостоятельно выбирает оптимальный подход и инструменты. Анализирует trade-offs и предлагает улучшения существующих решений. | |
| Platform Engineer | Настраивает on-call инфраструктуру для платформы: PagerDuty service dependencies, escalation policies, schedule overrides. Создаёт и обновляет runbooks для common incidents. Внедряет automated diagnostics: auto-remediation scripts, diagnostic dashboards. Проводит incident reviews | |
| Security Analyst | Настраивает on-call management для security operations: правила корреляции security-алертов, автоматизация триажа на основе severity угроз и процедуры передачи смен SOC. Создаёт дашборды мониторинга безопасности с интеграцией threat intelligence. Анализирует паттерны security-инцидентов для улучшения правил детекции. | |
| Site Reliability Engineer (SRE) | Управляет on-call процессом: настраивает PagerDuty schedules и escalation policies, пишет runbooks для типичных алертов. Анализирует on-call burden: toil, alert quality, false positive rate. | |
| Technical Lead | Настраивает on-call management для продуктовых сервисов: алертинг на уровне сервисов, выровненный с SLO, интеграция PagerDuty/OpsGenie и оптимизация on-call ротаций. Создаёт runbook-и для типичных инцидентов и автоматизирует ремедиацию где возможно. Менторит команду по практикам реагирования на инциденты и blameless post-mortem. |
| Роль | Обязательность | Описание |
|---|---|---|
| Backend Developer (Go) | Проектирует on-call практики: escalation policies, automated remediation, incident response playbooks. | |
| Backend Developer (Java/Kotlin) | Проектирует on-call: automated JVM diagnostics, escalation policies, incident playbooks. | |
| Backend Developer (Python) | Проектирует on-call: automated diagnostics, escalation policies, incident playbooks. | |
| Cloud Engineer | Обязателен | Проектирует on-call процессы для cloud-команды: alert routing по сервисам и severity, runbooks для типовых инцидентов (disk full, OOM, AZ failure), post-incident review process. Оптимизирует alert noise — дедупликация, suppression rules, actionable alerts. Снижает toil через автоматизацию. |
| Database Engineer / DBA | Обязателен | Проектирует on-call процессы для DBA-команды: alert routing по severity, escalation policies, runbook automation. Менторит junior DBA в incident response. Внедряет automated remediation для типовых database issues. |
| DevOps Engineer | Обязателен | Проектирует incident management процесс: автоматическая классификация инцидентов, интеграция PagerDuty с Slack/Jira/StatusPage. Внедряет incident commander роль, автоматизирует communication через chatops. Настраивает SLO-based alerting для снижения alert fatigue. |
| DevSecOps Engineer | Обязателен | Разрабатывает корпоративный Incident Management процесс для security: Incident Commander role, communication templates, stakeholder notification. Внедряет automated triage через PagerDuty Event Intelligence. Создаёт tiered response: L1 (SOC), L2 (Security Engineering), L3 (Principal). Проводит GameDay exercises. |
| Engineering Manager | Обязателен | Проектирует стратегию on-call management для нескольких сервисов команды: архитектура алертинга на основе SLO, автоматизированные воркфлоу реагирования на инциденты и практики устойчивости on-call (предотвращение выгорания, справедливая ротация). Реализует observability-driven детекцию инцидентов. Проводит post-mortem ревью и продвигает системные улучшения. Определяет цели MTTD/MTTR и отслеживает метрики надёжности. |
| Game Server Developer | Обязателен | Проектирует архитектуру on-call management для платформы игровых серверов: автоматизация реагирования на инциденты live ops, предиктивный алертинг для деградации игрового опыта и координация инцидентов между регионами. Реализует игро-специфичные SLI (качество матча, стабильность соединения). Проводит post-mortem с фокусом на анализ влияния на игроков. Определяет практики устойчивости on-call для команд game operations. |
| Network Engineer | Экспертно применяет on call management для network engineer для проектирования сложных систем. Оптимизирует существующие решения и предотвращает архитектурные ошибки. Проводит code review и обучает коллег лучшим практикам. | |
| Platform Engineer | Обязателен | Проектирует incident management систему для IDP: automated incident creation, war room automation, stakeholder communication. Внедряет incident retrospective процесс с action items tracking. Создаёт self-healing automation для типовых платформенных инцидентов (node failures, OOM) |
| Security Analyst | Обязателен | Проектирует on-call management для центра операций безопасности: автоматизация продвинутой детекции угроз, интеграция SOAR для оркестрации реагирования на инциденты и кросс-функциональная координация security-инцидентов. Реализует распределённый трейсинг для корреляции событий безопасности. Определяет security-специфичные SLI (время детекции, время сдерживания). Проводит security post-mortem и продвигает улучшения detection engineering. |
| Site Reliability Engineer (SRE) | Обязателен | Оптимизирует on-call: alert tuning для снижения noise, automated remediation для типичных проблем. Проектирует runbook automation. Анализирует on-call metrics и формирует improvement plan. |
| Technical Lead | Обязателен | Проектирует observability стратегию с Управление дежурствами. Внедряет distributed tracing. Определяет SLI/SLO. Проводит post-mortems. |
| Роль | Обязательность | Описание |
|---|---|---|
| Backend Developer (Go) | Определяет on-call стандарты: rotation policies, SLA requirements, postmortem process. | |
| Backend Developer (Java/Kotlin) | Определяет стандарты on-call для платформы Java-сервисов: политики ротации, выровненные с ёмкостью команды, процедуры эскалации на основе SLA и требования к процессу post-mortem. Устанавливает стандарты качества runbook и паттерны автоматической ремедиации для типичных сбоев Java-сервисов. Продвигает внедрение observability-driven управления инцидентами. | |
| Backend Developer (Python) | Определяет стандарты on-call для платформы Python-сервисов: политики ротации, процедуры эскалации на основе SLA и требования к процессу post-mortem. Устанавливает стандарты качества runbook и паттерны автоматической ремедиации для типичных сбоев Python-сервисов (утечки памяти, contention GIL, проблемы зависимостей). Продвигает внедрение практик reliability engineering. | |
| Cloud Engineer | Обязателен | Определяет on-call стратегию для облачной организации: follow-the-sun ротация, tier-1/tier-2 эскалация, incident commander role. Внедряет incident management process (ITIL/SRE), blameless postmortems, reliability metrics (MTTA, MTTR). Управляет балансом on-call нагрузки и burnout prevention. |
| Database Engineer / DBA | Обязателен | Определяет on-call стандарты для database tier: rotation schedule, coverage requirements, alert fatigue reduction. Координирует cross-team incident response. Проводит on-call retrospectives и улучшает process. |
| DevOps Engineer | Обязателен | Определяет стратегию incident management для организации: стандарты severity levels, escalation matrices, communication protocols. Проектирует процесс blameless post-mortems, метрики MTTR/MTTA, программу SRE on-call с sustainable rotation. |
| DevSecOps Engineer | Обязателен | Определяет стратегию incident management для security организации. Управляет SOC-командой с 24/7 coverage. Строит метрики: MTTA, MTTD, MTTR, false positive rate. Внедряет процессы post-incident review с actionable improvements. Координирует взаимодействие с legal, PR, management при major incidents. |
| Engineering Manager | Обязателен | Определяет стратегию on-call management для продуктовой организации: SLO-based подход к управлению инцидентами, метрики устойчивости on-call и процессы координации инцидентов между командами. Устанавливает культуру post-mortem и отслеживает системные улучшения. Оптимизирует MTTD/MTTR между сервисами. |
| Game Server Developer | Обязателен | Определяет стратегию on-call management для game operations: фреймворк управления инцидентами live-игры, определения SLA по влиянию на игроков и координация инцидентов между студиями. Устанавливает культуру post-mortem с фокусом на улучшение игрового опыта. Продвигает внедрение проактивного мониторинга и автоматической ремедиации. |
| Network Engineer | Устанавливает стандарты применения on call management для network engineer в команде и принимает архитектурные решения. Определяет технический roadmap с учётом данного навыка. Менторит senior инженеров и влияет на практики смежных команд. | |
| Platform Engineer | Обязателен | Определяет incident management стратегию организации: on-call expectations, compensation, burnout prevention. Руководит improvement of MTTR через automation и tooling. Проектирует cross-team incident coordination для сложных инцидентов. Создаёт incident readiness программу |
| Security Analyst | Обязателен | Определяет стратегию on-call management для security operations. Устанавливает управление сменами SOC, SLA-цели реагирования на угрозы и фреймворк эскалации security-инцидентов. Координирует кросс-командное реагирование на security-инциденты. Оптимизирует MTTD/MTTR для событий безопасности в организации. |
| Site Reliability Engineer (SRE) | Обязателен | Определяет on-call стандарты: rotation policies, compensation, workload balance. Внедряет on-call metrics (interruptions, sleep impact). Формирует sustainable on-call culture. |
| Technical Lead | Обязателен | Определяет стратегию on-call management для продукта. Устанавливает SLO-based подход к алертингу, фреймворк управления инцидентами и процесс post-mortem. Координирует кросс-командное реагирование на инциденты. Оптимизирует MTTD/MTTR через улучшения наблюдаемости и автоматическую ремедиацию. |
| Роль | Обязательность | Описание |
|---|---|---|
| Backend Developer (Go) | Формирует on-call стратегию: platform incident management, automated response, governance. | |
| Backend Developer (Java/Kotlin) | Формирует стратегию управления инцидентами для Java-платформенной организации: автоматизация on-call на уровне платформы, governance автоматического реагирования на инциденты и культура надёжности. Продвигает внедрение SRE-практик между командами Java-сервисов. Устанавливает enterprise-wide стандарты управления инцидентами. | |
| Backend Developer (Python) | Формирует стратегию управления инцидентами для Python-платформенной организации: автоматизация on-call на уровне платформы, паттерны автоматического реагирования на инциденты и культура надёжности. Продвигает внедрение SRE-практик между командами Python-сервисов. Устанавливает enterprise-wide стандарты управления инцидентами и наблюдаемости. | |
| Cloud Engineer | Обязателен | Формирует incident management framework на enterprise-уровне: unified incident process для multi-cloud, automated incident response (AWS Systems Manager, PagerDuty Rundeck), AIOps для anomaly detection. Определяет organizational resilience стратегию и chaos engineering program. |
| Database Engineer / DBA | Обязателен | Формирует incident management стратегию для data-платформы: automated incident response, AI-assisted diagnostics, cross-database impact analysis. Определяет on-call sustainability и инвестиции в automation для database operations. |
| DevOps Engineer | Обязателен | Разрабатывает корпоративную культуру incident management: SRE principles, toil budgets, автоматизация на 80% инцидентов. Определяет архитектуру AIOps платформы: ML-powered alert correlation, automated remediation, predictive incident prevention. |
| DevSecOps Engineer | Обязателен | Архитектурно проектирует Incident Response и Cyber Resilience программу для предприятия. Определяет стратегию SOC: automation level, staffing model, tooling. Разрабатывает Business Continuity Plan с учётом кибер-угроз. Строит метрики зрелости IR для board-level reporting. Влияет на бюджет безопасности. |
| Engineering Manager | Обязателен | Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework. |
| Game Server Developer | Обязателен | Определяет организационную стратегию надёжности для игровой инфраструктуры: enterprise SLO-фреймворк для live-игр, платформенные решения наблюдаемости и управления инцидентами и культура надёжности между игровыми студиями. Продвигает внедрение SRE-практик для game operations в масштабе. |
| Network Engineer | Формирует стратегию применения on call management для network engineer на уровне организации. Определяет best practices и влияет на выбор технологий за пределами своей команды. Является признанным экспертом в данной области. | |
| Platform Engineer | Обязателен | Формирует культуру operational excellence: blameless postmortems, learning from incidents, reliability as feature. Определяет стратегию AIOps для automated incident response. Консультирует executive по investment в on-call tooling и reliability engineering для устойчивой платформы |
| Security Analyst | Обязателен | Определяет организационную стратегию для security operations и управления инцидентами. Реализует платформенные SOC-решения с AI-driven детекцией угроз и автоматическим реагированием. Строит культуру security reliability в организации. Устанавливает enterprise SLO-фреймворк для обработки событий безопасности. |
| Site Reliability Engineer (SRE) | Обязателен | Проектирует on-call модель организации: follow-the-sun, tiered support, shared on-call между SRE и dev teams. Определяет on-call governance и toil elimination strategy. |
| Technical Lead | Обязателен | Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework. |