Профиль навыка

Управление дежурствами

PagerDuty, OpsGenie, политики эскалации, runbooks, ротация дежурств, SLA

Observability и мониторинг Управление инцидентами

Ролей

где встречается этот навык

Грейдов

сформированная дорожка роста

Обязательных требований

ещё 38 — необязательные

Домен

Observability и мониторинг

Группа

Управление инцидентами

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль	Обязательность	Описание
Backend Developer (Go)		Понимает on-call для Go сервисов: реагирует на alerts, использует runbooks. Участвует в incident response.
Backend Developer (Java/Kotlin)		Понимает on-call для Java: реагирует на alerts, thread dumps, heap dumps. Использует runbooks для troubleshooting.
Backend Developer (Python)		Понимает on-call для Python: реагирует на alerts, diagnoses exceptions. Использует runbooks.
Cloud Engineer		Понимает основы on-call для облачной инфраструктуры: процедуры триажа алертов, следование runbook-ам для типичных инцидентов и пути эскалации. Участвует в on-call ротациях как вторичный респондер. Следует командным практикам документирования инцидентов и процедурам передачи.
Database Engineer / DBA		Участвует в on-call ротации для database tier: следует runbooks при алертах (high CPU, disk space, replication lag), эскалирует сложные проблемы. Документирует инциденты и выполняет базовые remediation действия.
DevOps Engineer		Понимает принципы on-call: расписания дежурств, эскалация, инцидент-менеджмент. Участвует в дежурствах под руководством senior инженера, реагирует на алерты по runbooks. Знает инструменты: PagerDuty, Opsgenie, VictorOps.
DevSecOps Engineer		Участвует в on-call ротации: реагирует на алерты PagerDuty/OpsGenie, следует runbooks для типовых инцидентов. Документирует действия и результаты. Понимает escalation процедуры. Изучает базовые security-инциденты: compromised credentials, suspicious login, certificate expiration. Ведёт incident log.
Game Server Developer		Понимает основы on-call для инфраструктуры игровых серверов: триаж алертов, влияющих на игроков, мониторинг здоровья игровых сервисов и процедуры эскалации для проблем live-игры. Участвует в on-call ротациях для операций игровых серверов. Следует командным runbook-ам для типичных инцидентов игровых серверов.
Network Engineer		Знает базовые концепции on call management для network engineer и умеет применять их в типовых задачах. Использует стандартные инструменты и следует установленным практикам команды. Понимает когда и почему применяется данный подход.
Platform Engineer		Участвует в on-call ротации для платформенных сервисов: следует runbooks, эскалирует по процедуре. Использует PagerDuty/OpsGenie для управления инцидентами. Документирует инциденты и действия в timeline. Понимает severity levels и response time SLA для платформы
Security Analyst		Понимает основы on-call для security operations: процедуры триажа security-алертов, мониторинг дашбордов SIEM и пути эскалации security-инцидентов. Участвует в ротациях SOC как junior-аналитик. Следует командным процедурам расследования и документирования событий безопасности.
Site Reliability Engineer (SRE)		Участвует в on-call: следует escalation procedures, использует PagerDuty для alert management. Документирует инциденты. Передаёт дежурство с handoff notes.

Роль	Обязательность	Описание
Backend Developer (Go)		Управляет on-call: создаёт runbooks для Go сервисов, настраивает alerting, post-incident review.
Backend Developer (Java/Kotlin)		Управляет on-call: создаёт runbooks для JVM issues, настраивает alerting, GC troubleshooting guides.
Backend Developer (Python)		Управляет on-call: runbooks для Python services, alerting configuration, incident response.
Cloud Engineer		Участвует в on-call ротации для облачной инфраструктуры. Настраивает PagerDuty/OpsGenie с эскалацией, отвечает на алерты CloudWatch и Prometheus. Классифицирует инциденты по severity, выполняет первичную диагностику — проверка метрик, логов, status pages облачных провайдеров.
Database Engineer / DBA		Обрабатывает database инциденты самостоятельно: диагностика deadlocks, query performance degradation, replication breaks. Пишет и обновляет runbooks. Проводит post-incident review для database-related инцидентов.
DevOps Engineer		Настраивает on-call процессы: расписания в PagerDuty/Opsgenie, escalation policies, routing rules для алертов. Создаёт runbooks для типичных инцидентов, автоматизирует первичную диагностику. Проводит post-mortems и отслеживает action items.
DevSecOps Engineer		Настраивает on-call процессы для security-инцидентов: escalation policies, severity classification, notification channels. Создаёт runbooks для security on-call: credential compromise, DDoS, data breach, ransomware. Интегрирует PagerDuty с SIEM-алертами. Проводит weekly on-call review и trend analysis.
Engineering Manager		Настраивает on-call management для сервисов команды: политики маршрутизации алертов, графики ротации с равномерным распределением нагрузки и цепочки эскалации. Создаёт дашборды для метрик здоровья on-call (объём алертов, MTTA, пейджи за ротацию). Участвует в реагировании на инциденты и проводит post-incident ревью.
Game Server Developer		Настраивает on-call management для игровых серверов: приоритизация алертов на основе влияния на игроков, игро-специфичные дашборды здоровья (CCU, % завершения матчей, перцентили латенси) и автоматическая ремедиация типичных проблем игровых сервисов. Анализирует паттерны инцидентов для снижения toil. Участвует в on-call ротациях live ops.
Network Engineer		Уверенно применяет on call management для network engineer при решении нестандартных задач. Самостоятельно выбирает оптимальный подход и инструменты. Анализирует trade-offs и предлагает улучшения существующих решений.
Platform Engineer		Настраивает on-call инфраструктуру для платформы: PagerDuty service dependencies, escalation policies, schedule overrides. Создаёт и обновляет runbooks для common incidents. Внедряет automated diagnostics: auto-remediation scripts, diagnostic dashboards. Проводит incident reviews
Security Analyst		Настраивает on-call management для security operations: правила корреляции security-алертов, автоматизация триажа на основе severity угроз и процедуры передачи смен SOC. Создаёт дашборды мониторинга безопасности с интеграцией threat intelligence. Анализирует паттерны security-инцидентов для улучшения правил детекции.
Site Reliability Engineer (SRE)		Управляет on-call процессом: настраивает PagerDuty schedules и escalation policies, пишет runbooks для типичных алертов. Анализирует on-call burden: toil, alert quality, false positive rate.
Technical Lead		Настраивает on-call management для продуктовых сервисов: алертинг на уровне сервисов, выровненный с SLO, интеграция PagerDuty/OpsGenie и оптимизация on-call ротаций. Создаёт runbook-и для типичных инцидентов и автоматизирует ремедиацию где возможно. Менторит команду по практикам реагирования на инциденты и blameless post-mortem.

Роль	Обязательность	Описание
Backend Developer (Go)		Проектирует on-call практики: escalation policies, automated remediation, incident response playbooks.
Backend Developer (Java/Kotlin)		Проектирует on-call: automated JVM diagnostics, escalation policies, incident playbooks.
Backend Developer (Python)		Проектирует on-call: automated diagnostics, escalation policies, incident playbooks.
Cloud Engineer	Обязателен	Проектирует on-call процессы для cloud-команды: alert routing по сервисам и severity, runbooks для типовых инцидентов (disk full, OOM, AZ failure), post-incident review process. Оптимизирует alert noise — дедупликация, suppression rules, actionable alerts. Снижает toil через автоматизацию.
Database Engineer / DBA	Обязателен	Проектирует on-call процессы для DBA-команды: alert routing по severity, escalation policies, runbook automation. Менторит junior DBA в incident response. Внедряет automated remediation для типовых database issues.
DevOps Engineer	Обязателен	Проектирует incident management процесс: автоматическая классификация инцидентов, интеграция PagerDuty с Slack/Jira/StatusPage. Внедряет incident commander роль, автоматизирует communication через chatops. Настраивает SLO-based alerting для снижения alert fatigue.
DevSecOps Engineer	Обязателен	Разрабатывает корпоративный Incident Management процесс для security: Incident Commander role, communication templates, stakeholder notification. Внедряет automated triage через PagerDuty Event Intelligence. Создаёт tiered response: L1 (SOC), L2 (Security Engineering), L3 (Principal). Проводит GameDay exercises.
Engineering Manager	Обязателен	Проектирует стратегию on-call management для нескольких сервисов команды: архитектура алертинга на основе SLO, автоматизированные воркфлоу реагирования на инциденты и практики устойчивости on-call (предотвращение выгорания, справедливая ротация). Реализует observability-driven детекцию инцидентов. Проводит post-mortem ревью и продвигает системные улучшения. Определяет цели MTTD/MTTR и отслеживает метрики надёжности.
Game Server Developer	Обязателен	Проектирует архитектуру on-call management для платформы игровых серверов: автоматизация реагирования на инциденты live ops, предиктивный алертинг для деградации игрового опыта и координация инцидентов между регионами. Реализует игро-специфичные SLI (качество матча, стабильность соединения). Проводит post-mortem с фокусом на анализ влияния на игроков. Определяет практики устойчивости on-call для команд game operations.
Network Engineer		Экспертно применяет on call management для network engineer для проектирования сложных систем. Оптимизирует существующие решения и предотвращает архитектурные ошибки. Проводит code review и обучает коллег лучшим практикам.
Platform Engineer	Обязателен	Проектирует incident management систему для IDP: automated incident creation, war room automation, stakeholder communication. Внедряет incident retrospective процесс с action items tracking. Создаёт self-healing automation для типовых платформенных инцидентов (node failures, OOM)
Security Analyst	Обязателен	Проектирует on-call management для центра операций безопасности: автоматизация продвинутой детекции угроз, интеграция SOAR для оркестрации реагирования на инциденты и кросс-функциональная координация security-инцидентов. Реализует распределённый трейсинг для корреляции событий безопасности. Определяет security-специфичные SLI (время детекции, время сдерживания). Проводит security post-mortem и продвигает улучшения detection engineering.
Site Reliability Engineer (SRE)	Обязателен	Оптимизирует on-call: alert tuning для снижения noise, automated remediation для типичных проблем. Проектирует runbook automation. Анализирует on-call metrics и формирует improvement plan.
Technical Lead	Обязателен	Проектирует observability стратегию с Управление дежурствами. Внедряет distributed tracing. Определяет SLI/SLO. Проводит post-mortems.

Роль	Обязательность	Описание
Backend Developer (Go)		Определяет on-call стандарты: rotation policies, SLA requirements, postmortem process.
Backend Developer (Java/Kotlin)		Определяет стандарты on-call для платформы Java-сервисов: политики ротации, выровненные с ёмкостью команды, процедуры эскалации на основе SLA и требования к процессу post-mortem. Устанавливает стандарты качества runbook и паттерны автоматической ремедиации для типичных сбоев Java-сервисов. Продвигает внедрение observability-driven управления инцидентами.
Backend Developer (Python)		Определяет стандарты on-call для платформы Python-сервисов: политики ротации, процедуры эскалации на основе SLA и требования к процессу post-mortem. Устанавливает стандарты качества runbook и паттерны автоматической ремедиации для типичных сбоев Python-сервисов (утечки памяти, contention GIL, проблемы зависимостей). Продвигает внедрение практик reliability engineering.
Cloud Engineer	Обязателен	Определяет on-call стратегию для облачной организации: follow-the-sun ротация, tier-1/tier-2 эскалация, incident commander role. Внедряет incident management process (ITIL/SRE), blameless postmortems, reliability metrics (MTTA, MTTR). Управляет балансом on-call нагрузки и burnout prevention.
Database Engineer / DBA	Обязателен	Определяет on-call стандарты для database tier: rotation schedule, coverage requirements, alert fatigue reduction. Координирует cross-team incident response. Проводит on-call retrospectives и улучшает process.
DevOps Engineer	Обязателен	Определяет стратегию incident management для организации: стандарты severity levels, escalation matrices, communication protocols. Проектирует процесс blameless post-mortems, метрики MTTR/MTTA, программу SRE on-call с sustainable rotation.
DevSecOps Engineer	Обязателен	Определяет стратегию incident management для security организации. Управляет SOC-командой с 24/7 coverage. Строит метрики: MTTA, MTTD, MTTR, false positive rate. Внедряет процессы post-incident review с actionable improvements. Координирует взаимодействие с legal, PR, management при major incidents.
Engineering Manager	Обязателен	Определяет стратегию on-call management для продуктовой организации: SLO-based подход к управлению инцидентами, метрики устойчивости on-call и процессы координации инцидентов между командами. Устанавливает культуру post-mortem и отслеживает системные улучшения. Оптимизирует MTTD/MTTR между сервисами.
Game Server Developer	Обязателен	Определяет стратегию on-call management для game operations: фреймворк управления инцидентами live-игры, определения SLA по влиянию на игроков и координация инцидентов между студиями. Устанавливает культуру post-mortem с фокусом на улучшение игрового опыта. Продвигает внедрение проактивного мониторинга и автоматической ремедиации.
Network Engineer		Устанавливает стандарты применения on call management для network engineer в команде и принимает архитектурные решения. Определяет технический roadmap с учётом данного навыка. Менторит senior инженеров и влияет на практики смежных команд.
Platform Engineer	Обязателен	Определяет incident management стратегию организации: on-call expectations, compensation, burnout prevention. Руководит improvement of MTTR через automation и tooling. Проектирует cross-team incident coordination для сложных инцидентов. Создаёт incident readiness программу
Security Analyst	Обязателен	Определяет стратегию on-call management для security operations. Устанавливает управление сменами SOC, SLA-цели реагирования на угрозы и фреймворк эскалации security-инцидентов. Координирует кросс-командное реагирование на security-инциденты. Оптимизирует MTTD/MTTR для событий безопасности в организации.
Site Reliability Engineer (SRE)	Обязателен	Определяет on-call стандарты: rotation policies, compensation, workload balance. Внедряет on-call metrics (interruptions, sleep impact). Формирует sustainable on-call culture.
Technical Lead	Обязателен	Определяет стратегию on-call management для продукта. Устанавливает SLO-based подход к алертингу, фреймворк управления инцидентами и процесс post-mortem. Координирует кросс-командное реагирование на инциденты. Оптимизирует MTTD/MTTR через улучшения наблюдаемости и автоматическую ремедиацию.

Роль	Обязательность	Описание
Backend Developer (Go)		Формирует on-call стратегию: platform incident management, automated response, governance.
Backend Developer (Java/Kotlin)		Формирует стратегию управления инцидентами для Java-платформенной организации: автоматизация on-call на уровне платформы, governance автоматического реагирования на инциденты и культура надёжности. Продвигает внедрение SRE-практик между командами Java-сервисов. Устанавливает enterprise-wide стандарты управления инцидентами.
Backend Developer (Python)		Формирует стратегию управления инцидентами для Python-платформенной организации: автоматизация on-call на уровне платформы, паттерны автоматического реагирования на инциденты и культура надёжности. Продвигает внедрение SRE-практик между командами Python-сервисов. Устанавливает enterprise-wide стандарты управления инцидентами и наблюдаемости.
Cloud Engineer	Обязателен	Формирует incident management framework на enterprise-уровне: unified incident process для multi-cloud, automated incident response (AWS Systems Manager, PagerDuty Rundeck), AIOps для anomaly detection. Определяет organizational resilience стратегию и chaos engineering program.
Database Engineer / DBA	Обязателен	Формирует incident management стратегию для data-платформы: automated incident response, AI-assisted diagnostics, cross-database impact analysis. Определяет on-call sustainability и инвестиции в automation для database operations.
DevOps Engineer	Обязателен	Разрабатывает корпоративную культуру incident management: SRE principles, toil budgets, автоматизация на 80% инцидентов. Определяет архитектуру AIOps платформы: ML-powered alert correlation, automated remediation, predictive incident prevention.
DevSecOps Engineer	Обязателен	Архитектурно проектирует Incident Response и Cyber Resilience программу для предприятия. Определяет стратегию SOC: automation level, staffing model, tooling. Разрабатывает Business Continuity Plan с учётом кибер-угроз. Строит метрики зрелости IR для board-level reporting. Влияет на бюджет безопасности.
Engineering Manager	Обязателен	Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework.
Game Server Developer	Обязателен	Определяет организационную стратегию надёжности для игровой инфраструктуры: enterprise SLO-фреймворк для live-игр, платформенные решения наблюдаемости и управления инцидентами и культура надёжности между игровыми студиями. Продвигает внедрение SRE-практик для game operations в масштабе.
Network Engineer		Формирует стратегию применения on call management для network engineer на уровне организации. Определяет best practices и влияет на выбор технологий за пределами своей команды. Является признанным экспертом в данной области.
Platform Engineer	Обязателен	Формирует культуру operational excellence: blameless postmortems, learning from incidents, reliability as feature. Определяет стратегию AIOps для automated incident response. Консультирует executive по investment в on-call tooling и reliability engineering для устойчивой платформы
Security Analyst	Обязателен	Определяет организационную стратегию для security operations и управления инцидентами. Реализует платформенные SOC-решения с AI-driven детекцией угроз и автоматическим реагированием. Строит культуру security reliability в организации. Устанавливает enterprise SLO-фреймворк для обработки событий безопасности.
Site Reliability Engineer (SRE)	Обязателен	Проектирует on-call модель организации: follow-the-sun, tiered support, shared on-call между SRE и dev teams. Определяет on-call governance и toil elimination strategy.
Technical Lead	Обязателен	Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework.

Junior 12 требований

Backend Developer (Go)

Понимает on-call для Go сервисов: реагирует на alerts, использует runbooks. Участвует в incident response.
Backend Developer (Java/Kotlin)

Понимает on-call для Java: реагирует на alerts, thread dumps, heap dumps. Использует runbooks для troubleshooting.
Backend Developer (Python)

Понимает on-call для Python: реагирует на alerts, diagnoses exceptions. Использует runbooks.

Cloud Engineer

Понимает основы on-call для облачной инфраструктуры: процедуры триажа алертов, следование runbook-ам для типичных инцидентов и пути эскалации. Участвует в on-call ротациях как вторичный респондер. Следует командным практикам документирования инцидентов и процедурам передачи.
Database Engineer / DBA

Участвует в on-call ротации для database tier: следует runbooks при алертах (high CPU, disk space, replication lag), эскалирует сложные проблемы. Документирует инциденты и выполняет базовые remediation действия.
DevOps Engineer

Понимает принципы on-call: расписания дежурств, эскалация, инцидент-менеджмент. Участвует в дежурствах под руководством senior инженера, реагирует на алерты по runbooks. Знает инструменты: PagerDuty, Opsgenie, VictorOps.
DevSecOps Engineer

Участвует в on-call ротации: реагирует на алерты PagerDuty/OpsGenie, следует runbooks для типовых инцидентов. Документирует действия и результаты. Понимает escalation процедуры. Изучает базовые security-инциденты: compromised credentials, suspicious login, certificate expiration. Ведёт incident log.
Game Server Developer

Понимает основы on-call для инфраструктуры игровых серверов: триаж алертов, влияющих на игроков, мониторинг здоровья игровых сервисов и процедуры эскалации для проблем live-игры. Участвует в on-call ротациях для операций игровых серверов. Следует командным runbook-ам для типичных инцидентов игровых серверов.
Network Engineer

Знает базовые концепции on call management для network engineer и умеет применять их в типовых задачах. Использует стандартные инструменты и следует установленным практикам команды. Понимает когда и почему применяется данный подход.
Platform Engineer

Участвует в on-call ротации для платформенных сервисов: следует runbooks, эскалирует по процедуре. Использует PagerDuty/OpsGenie для управления инцидентами. Документирует инциденты и действия в timeline. Понимает severity levels и response time SLA для платформы
Security Analyst

Понимает основы on-call для security operations: процедуры триажа security-алертов, мониторинг дашбордов SIEM и пути эскалации security-инцидентов. Участвует в ротациях SOC как junior-аналитик. Следует командным процедурам расследования и документирования событий безопасности.
Site Reliability Engineer (SRE)

Участвует в on-call: следует escalation procedures, использует PagerDuty для alert management. Документирует инциденты. Передаёт дежурство с handoff notes.

Middle 14 требований

Backend Developer (Go)

Управляет on-call: создаёт runbooks для Go сервисов, настраивает alerting, post-incident review.
Backend Developer (Java/Kotlin)

Управляет on-call: создаёт runbooks для JVM issues, настраивает alerting, GC troubleshooting guides.
Backend Developer (Python)

Управляет on-call: runbooks для Python services, alerting configuration, incident response.

Cloud Engineer

Участвует в on-call ротации для облачной инфраструктуры. Настраивает PagerDuty/OpsGenie с эскалацией, отвечает на алерты CloudWatch и Prometheus. Классифицирует инциденты по severity, выполняет первичную диагностику — проверка метрик, логов, status pages облачных провайдеров.
Database Engineer / DBA

Обрабатывает database инциденты самостоятельно: диагностика deadlocks, query performance degradation, replication breaks. Пишет и обновляет runbooks. Проводит post-incident review для database-related инцидентов.
DevOps Engineer

Настраивает on-call процессы: расписания в PagerDuty/Opsgenie, escalation policies, routing rules для алертов. Создаёт runbooks для типичных инцидентов, автоматизирует первичную диагностику. Проводит post-mortems и отслеживает action items.
DevSecOps Engineer

Настраивает on-call процессы для security-инцидентов: escalation policies, severity classification, notification channels. Создаёт runbooks для security on-call: credential compromise, DDoS, data breach, ransomware. Интегрирует PagerDuty с SIEM-алертами. Проводит weekly on-call review и trend analysis.
Engineering Manager

Настраивает on-call management для сервисов команды: политики маршрутизации алертов, графики ротации с равномерным распределением нагрузки и цепочки эскалации. Создаёт дашборды для метрик здоровья on-call (объём алертов, MTTA, пейджи за ротацию). Участвует в реагировании на инциденты и проводит post-incident ревью.
Game Server Developer

Настраивает on-call management для игровых серверов: приоритизация алертов на основе влияния на игроков, игро-специфичные дашборды здоровья (CCU, % завершения матчей, перцентили латенси) и автоматическая ремедиация типичных проблем игровых сервисов. Анализирует паттерны инцидентов для снижения toil. Участвует в on-call ротациях live ops.
Network Engineer

Уверенно применяет on call management для network engineer при решении нестандартных задач. Самостоятельно выбирает оптимальный подход и инструменты. Анализирует trade-offs и предлагает улучшения существующих решений.
Platform Engineer

Настраивает on-call инфраструктуру для платформы: PagerDuty service dependencies, escalation policies, schedule overrides. Создаёт и обновляет runbooks для common incidents. Внедряет automated diagnostics: auto-remediation scripts, diagnostic dashboards. Проводит incident reviews
Security Analyst

Настраивает on-call management для security operations: правила корреляции security-алертов, автоматизация триажа на основе severity угроз и процедуры передачи смен SOC. Создаёт дашборды мониторинга безопасности с интеграцией threat intelligence. Анализирует паттерны security-инцидентов для улучшения правил детекции.
Site Reliability Engineer (SRE)

Управляет on-call процессом: настраивает PagerDuty schedules и escalation policies, пишет runbooks для типичных алертов. Анализирует on-call burden: toil, alert quality, false positive rate.
Technical Lead

Настраивает on-call management для продуктовых сервисов: алертинг на уровне сервисов, выровненный с SLO, интеграция PagerDuty/OpsGenie и оптимизация on-call ротаций. Создаёт runbook-и для типичных инцидентов и автоматизирует ремедиацию где возможно. Менторит команду по практикам реагирования на инциденты и blameless post-mortem.

Senior 14 требований

Backend Developer (Go)

Проектирует on-call практики: escalation policies, automated remediation, incident response playbooks.
Backend Developer (Java/Kotlin)

Проектирует on-call: automated JVM diagnostics, escalation policies, incident playbooks.
Backend Developer (Python)

Проектирует on-call: automated diagnostics, escalation policies, incident playbooks.

Cloud Engineer
Обязателен

Проектирует on-call процессы для cloud-команды: alert routing по сервисам и severity, runbooks для типовых инцидентов (disk full, OOM, AZ failure), post-incident review process. Оптимизирует alert noise — дедупликация, suppression rules, actionable alerts. Снижает toil через автоматизацию.
Database Engineer / DBA
Обязателен

Проектирует on-call процессы для DBA-команды: alert routing по severity, escalation policies, runbook automation. Менторит junior DBA в incident response. Внедряет automated remediation для типовых database issues.
DevOps Engineer
Обязателен

Проектирует incident management процесс: автоматическая классификация инцидентов, интеграция PagerDuty с Slack/Jira/StatusPage. Внедряет incident commander роль, автоматизирует communication через chatops. Настраивает SLO-based alerting для снижения alert fatigue.
DevSecOps Engineer
Обязателен

Разрабатывает корпоративный Incident Management процесс для security: Incident Commander role, communication templates, stakeholder notification. Внедряет automated triage через PagerDuty Event Intelligence. Создаёт tiered response: L1 (SOC), L2 (Security Engineering), L3 (Principal). Проводит GameDay exercises.
Engineering Manager
Обязателен

Проектирует стратегию on-call management для нескольких сервисов команды: архитектура алертинга на основе SLO, автоматизированные воркфлоу реагирования на инциденты и практики устойчивости on-call (предотвращение выгорания, справедливая ротация). Реализует observability-driven детекцию инцидентов. Проводит post-mortem ревью и продвигает системные улучшения. Определяет цели MTTD/MTTR и отслеживает метрики надёжности.
Game Server Developer
Обязателен

Проектирует архитектуру on-call management для платформы игровых серверов: автоматизация реагирования на инциденты live ops, предиктивный алертинг для деградации игрового опыта и координация инцидентов между регионами. Реализует игро-специфичные SLI (качество матча, стабильность соединения). Проводит post-mortem с фокусом на анализ влияния на игроков. Определяет практики устойчивости on-call для команд game operations.
Network Engineer

Экспертно применяет on call management для network engineer для проектирования сложных систем. Оптимизирует существующие решения и предотвращает архитектурные ошибки. Проводит code review и обучает коллег лучшим практикам.
Platform Engineer
Обязателен

Проектирует incident management систему для IDP: automated incident creation, war room automation, stakeholder communication. Внедряет incident retrospective процесс с action items tracking. Создаёт self-healing automation для типовых платформенных инцидентов (node failures, OOM)
Security Analyst
Обязателен

Проектирует on-call management для центра операций безопасности: автоматизация продвинутой детекции угроз, интеграция SOAR для оркестрации реагирования на инциденты и кросс-функциональная координация security-инцидентов. Реализует распределённый трейсинг для корреляции событий безопасности. Определяет security-специфичные SLI (время детекции, время сдерживания). Проводит security post-mortem и продвигает улучшения detection engineering.
Site Reliability Engineer (SRE)
Обязателен

Оптимизирует on-call: alert tuning для снижения noise, automated remediation для типичных проблем. Проектирует runbook automation. Анализирует on-call metrics и формирует improvement plan.
Technical Lead
Обязателен

Проектирует observability стратегию с Управление дежурствами. Внедряет distributed tracing. Определяет SLI/SLO. Проводит post-mortems.

Lead / Staff 14 требований

Backend Developer (Go)

Определяет on-call стандарты: rotation policies, SLA requirements, postmortem process.
Backend Developer (Java/Kotlin)

Определяет стандарты on-call для платформы Java-сервисов: политики ротации, выровненные с ёмкостью команды, процедуры эскалации на основе SLA и требования к процессу post-mortem. Устанавливает стандарты качества runbook и паттерны автоматической ремедиации для типичных сбоев Java-сервисов. Продвигает внедрение observability-driven управления инцидентами.
Backend Developer (Python)

Определяет стандарты on-call для платформы Python-сервисов: политики ротации, процедуры эскалации на основе SLA и требования к процессу post-mortem. Устанавливает стандарты качества runbook и паттерны автоматической ремедиации для типичных сбоев Python-сервисов (утечки памяти, contention GIL, проблемы зависимостей). Продвигает внедрение практик reliability engineering.

Cloud Engineer
Обязателен

Определяет on-call стратегию для облачной организации: follow-the-sun ротация, tier-1/tier-2 эскалация, incident commander role. Внедряет incident management process (ITIL/SRE), blameless postmortems, reliability metrics (MTTA, MTTR). Управляет балансом on-call нагрузки и burnout prevention.
Database Engineer / DBA
Обязателен

Определяет on-call стандарты для database tier: rotation schedule, coverage requirements, alert fatigue reduction. Координирует cross-team incident response. Проводит on-call retrospectives и улучшает process.
DevOps Engineer
Обязателен

Определяет стратегию incident management для организации: стандарты severity levels, escalation matrices, communication protocols. Проектирует процесс blameless post-mortems, метрики MTTR/MTTA, программу SRE on-call с sustainable rotation.
DevSecOps Engineer
Обязателен

Определяет стратегию incident management для security организации. Управляет SOC-командой с 24/7 coverage. Строит метрики: MTTA, MTTD, MTTR, false positive rate. Внедряет процессы post-incident review с actionable improvements. Координирует взаимодействие с legal, PR, management при major incidents.
Engineering Manager
Обязателен

Определяет стратегию on-call management для продуктовой организации: SLO-based подход к управлению инцидентами, метрики устойчивости on-call и процессы координации инцидентов между командами. Устанавливает культуру post-mortem и отслеживает системные улучшения. Оптимизирует MTTD/MTTR между сервисами.
Game Server Developer
Обязателен

Определяет стратегию on-call management для game operations: фреймворк управления инцидентами live-игры, определения SLA по влиянию на игроков и координация инцидентов между студиями. Устанавливает культуру post-mortem с фокусом на улучшение игрового опыта. Продвигает внедрение проактивного мониторинга и автоматической ремедиации.
Network Engineer

Устанавливает стандарты применения on call management для network engineer в команде и принимает архитектурные решения. Определяет технический roadmap с учётом данного навыка. Менторит senior инженеров и влияет на практики смежных команд.
Platform Engineer
Обязателен

Определяет incident management стратегию организации: on-call expectations, compensation, burnout prevention. Руководит improvement of MTTR через automation и tooling. Проектирует cross-team incident coordination для сложных инцидентов. Создаёт incident readiness программу
Security Analyst
Обязателен

Определяет стратегию on-call management для security operations. Устанавливает управление сменами SOC, SLA-цели реагирования на угрозы и фреймворк эскалации security-инцидентов. Координирует кросс-командное реагирование на security-инциденты. Оптимизирует MTTD/MTTR для событий безопасности в организации.
Site Reliability Engineer (SRE)
Обязателен

Определяет on-call стандарты: rotation policies, compensation, workload balance. Внедряет on-call metrics (interruptions, sleep impact). Формирует sustainable on-call culture.
Technical Lead
Обязателен

Определяет стратегию on-call management для продукта. Устанавливает SLO-based подход к алертингу, фреймворк управления инцидентами и процесс post-mortem. Координирует кросс-командное реагирование на инциденты. Оптимизирует MTTD/MTTR через улучшения наблюдаемости и автоматическую ремедиацию.

Principal 14 требований

Backend Developer (Go)

Формирует on-call стратегию: platform incident management, automated response, governance.
Backend Developer (Java/Kotlin)

Формирует стратегию управления инцидентами для Java-платформенной организации: автоматизация on-call на уровне платформы, governance автоматического реагирования на инциденты и культура надёжности. Продвигает внедрение SRE-практик между командами Java-сервисов. Устанавливает enterprise-wide стандарты управления инцидентами.
Backend Developer (Python)

Формирует стратегию управления инцидентами для Python-платформенной организации: автоматизация on-call на уровне платформы, паттерны автоматического реагирования на инциденты и культура надёжности. Продвигает внедрение SRE-практик между командами Python-сервисов. Устанавливает enterprise-wide стандарты управления инцидентами и наблюдаемости.

Cloud Engineer
Обязателен

Формирует incident management framework на enterprise-уровне: unified incident process для multi-cloud, automated incident response (AWS Systems Manager, PagerDuty Rundeck), AIOps для anomaly detection. Определяет organizational resilience стратегию и chaos engineering program.
Database Engineer / DBA
Обязателен

Формирует incident management стратегию для data-платформы: automated incident response, AI-assisted diagnostics, cross-database impact analysis. Определяет on-call sustainability и инвестиции в automation для database operations.
DevOps Engineer
Обязателен

Разрабатывает корпоративную культуру incident management: SRE principles, toil budgets, автоматизация на 80% инцидентов. Определяет архитектуру AIOps платформы: ML-powered alert correlation, automated remediation, predictive incident prevention.
DevSecOps Engineer
Обязателен

Архитектурно проектирует Incident Response и Cyber Resilience программу для предприятия. Определяет стратегию SOC: automation level, staffing model, tooling. Разрабатывает Business Continuity Plan с учётом кибер-угроз. Строит метрики зрелости IR для board-level reporting. Влияет на бюджет безопасности.
Engineering Manager
Обязателен

Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework.
Game Server Developer
Обязателен

Определяет организационную стратегию надёжности для игровой инфраструктуры: enterprise SLO-фреймворк для live-игр, платформенные решения наблюдаемости и управления инцидентами и культура надёжности между игровыми студиями. Продвигает внедрение SRE-практик для game operations в масштабе.
Network Engineer

Формирует стратегию применения on call management для network engineer на уровне организации. Определяет best practices и влияет на выбор технологий за пределами своей команды. Является признанным экспертом в данной области.
Platform Engineer
Обязателен

Формирует культуру operational excellence: blameless postmortems, learning from incidents, reliability as feature. Определяет стратегию AIOps для automated incident response. Консультирует executive по investment в on-call tooling и reliability engineering для устойчивой платформы
Security Analyst
Обязателен

Определяет организационную стратегию для security operations и управления инцидентами. Реализует платформенные SOC-решения с AI-driven детекцией угроз и автоматическим реагированием. Строит культуру security reliability в организации. Устанавливает enterprise SLO-фреймворк для обработки событий безопасности.
Site Reliability Engineer (SRE)
Обязателен

Проектирует on-call модель организации: follow-the-sun, tiered support, shared on-call между SRE и dev teams. Определяет on-call governance и toil elimination strategy.
Technical Lead
Обязателен

Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework.

Сообщество

👁 Следить ✏️ Предложить изменение

Загрузка комментариев...