Профиль навыка

Управление дежурствами

PagerDuty, OpsGenie, политики эскалации, runbooks, ротация дежурств, SLA

Observability и мониторинг Управление инцидентами

Ролей

14

где встречается этот навык

Грейдов

5

сформированная дорожка роста

Обязательных требований

30

ещё 38 — необязательные

Домен

Observability и мониторинг

Группа

Управление инцидентами

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль Обязательность Описание
Backend Developer (Go) Понимает on-call для Go сервисов: реагирует на alerts, использует runbooks. Участвует в incident response.
Backend Developer (Java/Kotlin) Понимает on-call для Java: реагирует на alerts, thread dumps, heap dumps. Использует runbooks для troubleshooting.
Backend Developer (Python) Понимает on-call для Python: реагирует на alerts, diagnoses exceptions. Использует runbooks.
Cloud Engineer Понимает основы on-call для облачной инфраструктуры: процедуры триажа алертов, следование runbook-ам для типичных инцидентов и пути эскалации. Участвует в on-call ротациях как вторичный респондер. Следует командным практикам документирования инцидентов и процедурам передачи.
Database Engineer / DBA Участвует в on-call ротации для database tier: следует runbooks при алертах (high CPU, disk space, replication lag), эскалирует сложные проблемы. Документирует инциденты и выполняет базовые remediation действия.
DevOps Engineer Понимает принципы on-call: расписания дежурств, эскалация, инцидент-менеджмент. Участвует в дежурствах под руководством senior инженера, реагирует на алерты по runbooks. Знает инструменты: PagerDuty, Opsgenie, VictorOps.
DevSecOps Engineer Участвует в on-call ротации: реагирует на алерты PagerDuty/OpsGenie, следует runbooks для типовых инцидентов. Документирует действия и результаты. Понимает escalation процедуры. Изучает базовые security-инциденты: compromised credentials, suspicious login, certificate expiration. Ведёт incident log.
Game Server Developer Понимает основы on-call для инфраструктуры игровых серверов: триаж алертов, влияющих на игроков, мониторинг здоровья игровых сервисов и процедуры эскалации для проблем live-игры. Участвует в on-call ротациях для операций игровых серверов. Следует командным runbook-ам для типичных инцидентов игровых серверов.
Network Engineer Знает базовые концепции on call management для network engineer и умеет применять их в типовых задачах. Использует стандартные инструменты и следует установленным практикам команды. Понимает когда и почему применяется данный подход.
Platform Engineer Участвует в on-call ротации для платформенных сервисов: следует runbooks, эскалирует по процедуре. Использует PagerDuty/OpsGenie для управления инцидентами. Документирует инциденты и действия в timeline. Понимает severity levels и response time SLA для платформы
Security Analyst Понимает основы on-call для security operations: процедуры триажа security-алертов, мониторинг дашбордов SIEM и пути эскалации security-инцидентов. Участвует в ротациях SOC как junior-аналитик. Следует командным процедурам расследования и документирования событий безопасности.
Site Reliability Engineer (SRE) Участвует в on-call: следует escalation procedures, использует PagerDuty для alert management. Документирует инциденты. Передаёт дежурство с handoff notes.
Роль Обязательность Описание
Backend Developer (Go) Управляет on-call: создаёт runbooks для Go сервисов, настраивает alerting, post-incident review.
Backend Developer (Java/Kotlin) Управляет on-call: создаёт runbooks для JVM issues, настраивает alerting, GC troubleshooting guides.
Backend Developer (Python) Управляет on-call: runbooks для Python services, alerting configuration, incident response.
Cloud Engineer Участвует в on-call ротации для облачной инфраструктуры. Настраивает PagerDuty/OpsGenie с эскалацией, отвечает на алерты CloudWatch и Prometheus. Классифицирует инциденты по severity, выполняет первичную диагностику — проверка метрик, логов, status pages облачных провайдеров.
Database Engineer / DBA Обрабатывает database инциденты самостоятельно: диагностика deadlocks, query performance degradation, replication breaks. Пишет и обновляет runbooks. Проводит post-incident review для database-related инцидентов.
DevOps Engineer Настраивает on-call процессы: расписания в PagerDuty/Opsgenie, escalation policies, routing rules для алертов. Создаёт runbooks для типичных инцидентов, автоматизирует первичную диагностику. Проводит post-mortems и отслеживает action items.
DevSecOps Engineer Настраивает on-call процессы для security-инцидентов: escalation policies, severity classification, notification channels. Создаёт runbooks для security on-call: credential compromise, DDoS, data breach, ransomware. Интегрирует PagerDuty с SIEM-алертами. Проводит weekly on-call review и trend analysis.
Engineering Manager Настраивает on-call management для сервисов команды: политики маршрутизации алертов, графики ротации с равномерным распределением нагрузки и цепочки эскалации. Создаёт дашборды для метрик здоровья on-call (объём алертов, MTTA, пейджи за ротацию). Участвует в реагировании на инциденты и проводит post-incident ревью.
Game Server Developer Настраивает on-call management для игровых серверов: приоритизация алертов на основе влияния на игроков, игро-специфичные дашборды здоровья (CCU, % завершения матчей, перцентили латенси) и автоматическая ремедиация типичных проблем игровых сервисов. Анализирует паттерны инцидентов для снижения toil. Участвует в on-call ротациях live ops.
Network Engineer Уверенно применяет on call management для network engineer при решении нестандартных задач. Самостоятельно выбирает оптимальный подход и инструменты. Анализирует trade-offs и предлагает улучшения существующих решений.
Platform Engineer Настраивает on-call инфраструктуру для платформы: PagerDuty service dependencies, escalation policies, schedule overrides. Создаёт и обновляет runbooks для common incidents. Внедряет automated diagnostics: auto-remediation scripts, diagnostic dashboards. Проводит incident reviews
Security Analyst Настраивает on-call management для security operations: правила корреляции security-алертов, автоматизация триажа на основе severity угроз и процедуры передачи смен SOC. Создаёт дашборды мониторинга безопасности с интеграцией threat intelligence. Анализирует паттерны security-инцидентов для улучшения правил детекции.
Site Reliability Engineer (SRE) Управляет on-call процессом: настраивает PagerDuty schedules и escalation policies, пишет runbooks для типичных алертов. Анализирует on-call burden: toil, alert quality, false positive rate.
Technical Lead Настраивает on-call management для продуктовых сервисов: алертинг на уровне сервисов, выровненный с SLO, интеграция PagerDuty/OpsGenie и оптимизация on-call ротаций. Создаёт runbook-и для типичных инцидентов и автоматизирует ремедиацию где возможно. Менторит команду по практикам реагирования на инциденты и blameless post-mortem.
Роль Обязательность Описание
Backend Developer (Go) Проектирует on-call практики: escalation policies, automated remediation, incident response playbooks.
Backend Developer (Java/Kotlin) Проектирует on-call: automated JVM diagnostics, escalation policies, incident playbooks.
Backend Developer (Python) Проектирует on-call: automated diagnostics, escalation policies, incident playbooks.
Cloud Engineer Обязателен Проектирует on-call процессы для cloud-команды: alert routing по сервисам и severity, runbooks для типовых инцидентов (disk full, OOM, AZ failure), post-incident review process. Оптимизирует alert noise — дедупликация, suppression rules, actionable alerts. Снижает toil через автоматизацию.
Database Engineer / DBA Обязателен Проектирует on-call процессы для DBA-команды: alert routing по severity, escalation policies, runbook automation. Менторит junior DBA в incident response. Внедряет automated remediation для типовых database issues.
DevOps Engineer Обязателен Проектирует incident management процесс: автоматическая классификация инцидентов, интеграция PagerDuty с Slack/Jira/StatusPage. Внедряет incident commander роль, автоматизирует communication через chatops. Настраивает SLO-based alerting для снижения alert fatigue.
DevSecOps Engineer Обязателен Разрабатывает корпоративный Incident Management процесс для security: Incident Commander role, communication templates, stakeholder notification. Внедряет automated triage через PagerDuty Event Intelligence. Создаёт tiered response: L1 (SOC), L2 (Security Engineering), L3 (Principal). Проводит GameDay exercises.
Engineering Manager Обязателен Проектирует стратегию on-call management для нескольких сервисов команды: архитектура алертинга на основе SLO, автоматизированные воркфлоу реагирования на инциденты и практики устойчивости on-call (предотвращение выгорания, справедливая ротация). Реализует observability-driven детекцию инцидентов. Проводит post-mortem ревью и продвигает системные улучшения. Определяет цели MTTD/MTTR и отслеживает метрики надёжности.
Game Server Developer Обязателен Проектирует архитектуру on-call management для платформы игровых серверов: автоматизация реагирования на инциденты live ops, предиктивный алертинг для деградации игрового опыта и координация инцидентов между регионами. Реализует игро-специфичные SLI (качество матча, стабильность соединения). Проводит post-mortem с фокусом на анализ влияния на игроков. Определяет практики устойчивости on-call для команд game operations.
Network Engineer Экспертно применяет on call management для network engineer для проектирования сложных систем. Оптимизирует существующие решения и предотвращает архитектурные ошибки. Проводит code review и обучает коллег лучшим практикам.
Platform Engineer Обязателен Проектирует incident management систему для IDP: automated incident creation, war room automation, stakeholder communication. Внедряет incident retrospective процесс с action items tracking. Создаёт self-healing automation для типовых платформенных инцидентов (node failures, OOM)
Security Analyst Обязателен Проектирует on-call management для центра операций безопасности: автоматизация продвинутой детекции угроз, интеграция SOAR для оркестрации реагирования на инциденты и кросс-функциональная координация security-инцидентов. Реализует распределённый трейсинг для корреляции событий безопасности. Определяет security-специфичные SLI (время детекции, время сдерживания). Проводит security post-mortem и продвигает улучшения detection engineering.
Site Reliability Engineer (SRE) Обязателен Оптимизирует on-call: alert tuning для снижения noise, automated remediation для типичных проблем. Проектирует runbook automation. Анализирует on-call metrics и формирует improvement plan.
Technical Lead Обязателен Проектирует observability стратегию с Управление дежурствами. Внедряет distributed tracing. Определяет SLI/SLO. Проводит post-mortems.
Роль Обязательность Описание
Backend Developer (Go) Определяет on-call стандарты: rotation policies, SLA requirements, postmortem process.
Backend Developer (Java/Kotlin) Определяет стандарты on-call для платформы Java-сервисов: политики ротации, выровненные с ёмкостью команды, процедуры эскалации на основе SLA и требования к процессу post-mortem. Устанавливает стандарты качества runbook и паттерны автоматической ремедиации для типичных сбоев Java-сервисов. Продвигает внедрение observability-driven управления инцидентами.
Backend Developer (Python) Определяет стандарты on-call для платформы Python-сервисов: политики ротации, процедуры эскалации на основе SLA и требования к процессу post-mortem. Устанавливает стандарты качества runbook и паттерны автоматической ремедиации для типичных сбоев Python-сервисов (утечки памяти, contention GIL, проблемы зависимостей). Продвигает внедрение практик reliability engineering.
Cloud Engineer Обязателен Определяет on-call стратегию для облачной организации: follow-the-sun ротация, tier-1/tier-2 эскалация, incident commander role. Внедряет incident management process (ITIL/SRE), blameless postmortems, reliability metrics (MTTA, MTTR). Управляет балансом on-call нагрузки и burnout prevention.
Database Engineer / DBA Обязателен Определяет on-call стандарты для database tier: rotation schedule, coverage requirements, alert fatigue reduction. Координирует cross-team incident response. Проводит on-call retrospectives и улучшает process.
DevOps Engineer Обязателен Определяет стратегию incident management для организации: стандарты severity levels, escalation matrices, communication protocols. Проектирует процесс blameless post-mortems, метрики MTTR/MTTA, программу SRE on-call с sustainable rotation.
DevSecOps Engineer Обязателен Определяет стратегию incident management для security организации. Управляет SOC-командой с 24/7 coverage. Строит метрики: MTTA, MTTD, MTTR, false positive rate. Внедряет процессы post-incident review с actionable improvements. Координирует взаимодействие с legal, PR, management при major incidents.
Engineering Manager Обязателен Определяет стратегию on-call management для продуктовой организации: SLO-based подход к управлению инцидентами, метрики устойчивости on-call и процессы координации инцидентов между командами. Устанавливает культуру post-mortem и отслеживает системные улучшения. Оптимизирует MTTD/MTTR между сервисами.
Game Server Developer Обязателен Определяет стратегию on-call management для game operations: фреймворк управления инцидентами live-игры, определения SLA по влиянию на игроков и координация инцидентов между студиями. Устанавливает культуру post-mortem с фокусом на улучшение игрового опыта. Продвигает внедрение проактивного мониторинга и автоматической ремедиации.
Network Engineer Устанавливает стандарты применения on call management для network engineer в команде и принимает архитектурные решения. Определяет технический roadmap с учётом данного навыка. Менторит senior инженеров и влияет на практики смежных команд.
Platform Engineer Обязателен Определяет incident management стратегию организации: on-call expectations, compensation, burnout prevention. Руководит improvement of MTTR через automation и tooling. Проектирует cross-team incident coordination для сложных инцидентов. Создаёт incident readiness программу
Security Analyst Обязателен Определяет стратегию on-call management для security operations. Устанавливает управление сменами SOC, SLA-цели реагирования на угрозы и фреймворк эскалации security-инцидентов. Координирует кросс-командное реагирование на security-инциденты. Оптимизирует MTTD/MTTR для событий безопасности в организации.
Site Reliability Engineer (SRE) Обязателен Определяет on-call стандарты: rotation policies, compensation, workload balance. Внедряет on-call metrics (interruptions, sleep impact). Формирует sustainable on-call culture.
Technical Lead Обязателен Определяет стратегию on-call management для продукта. Устанавливает SLO-based подход к алертингу, фреймворк управления инцидентами и процесс post-mortem. Координирует кросс-командное реагирование на инциденты. Оптимизирует MTTD/MTTR через улучшения наблюдаемости и автоматическую ремедиацию.
Роль Обязательность Описание
Backend Developer (Go) Формирует on-call стратегию: platform incident management, automated response, governance.
Backend Developer (Java/Kotlin) Формирует стратегию управления инцидентами для Java-платформенной организации: автоматизация on-call на уровне платформы, governance автоматического реагирования на инциденты и культура надёжности. Продвигает внедрение SRE-практик между командами Java-сервисов. Устанавливает enterprise-wide стандарты управления инцидентами.
Backend Developer (Python) Формирует стратегию управления инцидентами для Python-платформенной организации: автоматизация on-call на уровне платформы, паттерны автоматического реагирования на инциденты и культура надёжности. Продвигает внедрение SRE-практик между командами Python-сервисов. Устанавливает enterprise-wide стандарты управления инцидентами и наблюдаемости.
Cloud Engineer Обязателен Формирует incident management framework на enterprise-уровне: unified incident process для multi-cloud, automated incident response (AWS Systems Manager, PagerDuty Rundeck), AIOps для anomaly detection. Определяет organizational resilience стратегию и chaos engineering program.
Database Engineer / DBA Обязателен Формирует incident management стратегию для data-платформы: automated incident response, AI-assisted diagnostics, cross-database impact analysis. Определяет on-call sustainability и инвестиции в automation для database operations.
DevOps Engineer Обязателен Разрабатывает корпоративную культуру incident management: SRE principles, toil budgets, автоматизация на 80% инцидентов. Определяет архитектуру AIOps платформы: ML-powered alert correlation, automated remediation, predictive incident prevention.
DevSecOps Engineer Обязателен Архитектурно проектирует Incident Response и Cyber Resilience программу для предприятия. Определяет стратегию SOC: automation level, staffing model, tooling. Разрабатывает Business Continuity Plan с учётом кибер-угроз. Строит метрики зрелости IR для board-level reporting. Влияет на бюджет безопасности.
Engineering Manager Обязателен Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework.
Game Server Developer Обязателен Определяет организационную стратегию надёжности для игровой инфраструктуры: enterprise SLO-фреймворк для live-игр, платформенные решения наблюдаемости и управления инцидентами и культура надёжности между игровыми студиями. Продвигает внедрение SRE-практик для game operations в масштабе.
Network Engineer Формирует стратегию применения on call management для network engineer на уровне организации. Определяет best practices и влияет на выбор технологий за пределами своей команды. Является признанным экспертом в данной области.
Platform Engineer Обязателен Формирует культуру operational excellence: blameless postmortems, learning from incidents, reliability as feature. Определяет стратегию AIOps для automated incident response. Консультирует executive по investment в on-call tooling и reliability engineering для устойчивой платформы
Security Analyst Обязателен Определяет организационную стратегию для security operations и управления инцидентами. Реализует платформенные SOC-решения с AI-driven детекцией угроз и автоматическим реагированием. Строит культуру security reliability в организации. Устанавливает enterprise SLO-фреймворк для обработки событий безопасности.
Site Reliability Engineer (SRE) Обязателен Проектирует on-call модель организации: follow-the-sun, tiered support, shared on-call между SRE и dev teams. Определяет on-call governance и toil elimination strategy.
Technical Lead Обязателен Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework.

Сообщество

👁 Следить ✏️ Предложить изменение Войдите, чтобы предлагать изменения
📋 Предложения
Пока нет предложений для Управление дежурствами
Загрузка комментариев...