Домен
Observability и мониторинг
Профиль навыка
Service Level Indicators/Objectives/Agreements, error budgets, on-call rotation
Ролей
35
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
52
ещё 113 — необязательные
Observability и мониторинг
Алертинг и on-call
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| Android Developer | Понимает концепции SLI, SLO и SLA и их применение для мобильных сервисов. Знает основные показатели качества для Android-бэкенда: доступность API, латентность ответов, частота ошибок. | |
| Backend Developer (C#/.NET) | Понимает SLI/SLO для C#: latency, error rate, throughput metrics. Мониторит через Application Insights. | |
| Backend Developer (Elixir) | Понимает SLI/SLO/SLA для Elixir-сервисов: метрики доступности, latency percentiles. Мониторит базовые показатели через Phoenix telemetry. | |
| Backend Developer (Go) | Понимает, что такое SLA (Service Level Agreement). Знает, что 99.9% availability означает ~8.7 часов downtime в год. Понимает, зачем нужен мониторинг. | |
| Backend Developer (Java/Kotlin) | Понимает, что означает SLA для Java бэкенд-сервисов — знает, что 99.9% доступности означает ~8.7 часов допустимого простоя в год. Понимает, почему мониторинг метрик JVM, времён ответа и частоты ошибок важен для выполнения обязательств по сервису. | |
| Backend Developer (Node.js) | Понимает SLI/SLO для Node.js: latency, error rate, event loop lag. Мониторит базовые показатели через prom-client. | |
| Backend Developer (PHP) | Понимает концепции SLI, SLO и SLA и их значение для надёжности PHP-сервисов. Знает базовые метрики: availability, latency, error rate. Умеет проверять текущие SLI через дашборды мониторинга и понимает, как время ответа PHP-FPM и коды HTTP-ошибок влияют на SLO. | |
| Backend Developer (Python) | Понимает, что означает SLA для Python бэкенд-сервисов — знает, что 99.9% доступности означает ~8.7 часов допустимого простоя в год. Понимает, почему мониторинг задержки запросов, частоты ошибок и здоровья worker-процессов важен для выполнения обязательств по сервису. | |
| Backend Developer (Rust) | Понимает SLI/SLO для Rust-сервисов: latency metrics, error rate, throughput. Мониторит базовые показатели через Prometheus metrics crate. | |
| Backend Developer (Scala) | Понимает SLI/SLO/SLA для Scala-сервисов: latency метрики, JVM-специфичные показатели. Мониторит базовые SLI через Kamon/Prometheus. | |
| Cloud Engineer | Понимает концепции SLI, SLO, SLA и их применение в облачных сервисах. Знает SLA основных cloud-провайдеров (AWS 99.99% для S3, 99.95% для EC2). Мониторит базовые SLI — availability, latency, error rate через CloudWatch dashboards. | |
| Data Engineer | Понимает SLI/SLO для data: data freshness, completeness, accuracy metrics. Мониторит базовые data quality показатели. | |
| Database Engineer / DBA | Понимает базовые SLI для баз данных: query latency (p50, p99), availability (uptime), error rate. Мониторит SLI через dashboards. Участвует в incident response при нарушении SLO для database services. | |
| Desktop Developer (.NET WPF/WinUI/MAUI) | Изучает концепции SLI, SLO и SLA применительно к серверным .NET-компонентам desktop-экосистемы. Понимает метрики доступности и латентности для бэкенд-сервисов, обслуживающих desktop-приложения. | |
| Desktop Developer (Qt/C++) | Изучает концепции SLI, SLO и SLA применительно к серверным компонентам Qt-экосистемы. Понимает разницу между индикаторами, целями и соглашениями об уровне обслуживания для бэкенд-сервисов desktop-приложений. | |
| DevOps Engineer | Понимает разницу между SLI, SLO и SLA: индикаторы, цели и соглашения. Знает основные SLI: availability, latency, throughput, error rate. Мониторит SLO-дашборды и эскалирует при нарушении бюджета ошибок. | |
| Flutter Developer | Понимает разницу между SLI, SLO и SLA и их значение для мобильных приложений. Отслеживает базовые индикаторы — время ответа API, процент ошибок и доступность бэкенда. | |
| Fullstack Developer | Понимает SLI/SLO для fullstack: Core Web Vitals, API latency, error rate. Мониторит базовые показатели. | |
| Game Server Developer | Понимает концепции SLI/SLO/SLA для доступности игровых серверов — процент успешных сессий игроков, задержка матчмейкинга и обязательства по аптайму серверов. Следит за мониторинговыми дашбордами команды для отслеживания индикаторов здоровья игровых сервисов. | |
| Infrastructure Engineer | Понимает разницу между SLI, SLO и SLA в контексте инфраструктуры: SLI как конкретные метрики (uptime, latency p99, error rate), SLO как целевые значения, SLA как контрактные обязательства. Умеет читать SLO-дашборды, понимает concept error budget и знает как инфраструктурные проблемы влияют на SLI. | |
| iOS Developer | Изучает концепции SLI, SLO и SLA применительно к серверным компонентам мобильной экосистемы. Понимает метрики доступности и латентности мобильного API и их влияние на пользовательский опыт iOS-приложений. | |
| IoT Engineer | Понимает разницу между SLI, SLO и SLA. Знает основные метрики надёжности IoT-платформы: доступность API, задержка доставки команд, процент потерянных сообщений телеметрии. | |
| ML Engineer | Понимает концепции SLI, SLO и SLA и их применение к ML-сервисам. Знает типичные SLI для inference: latency p50/p95/p99, throughput, error rate и model prediction quality. | |
| MLOps Engineer | Понимает разницу между SLI, SLO и SLA. Знает основные метрики ML-сервисов: latency inference, throughput предсказаний, availability model serving endpoints, accuracy drift. | |
| Network Engineer | Знает базовые концепции sli slo sla для network engineer и умеет применять их в типовых задачах. Использует стандартные инструменты и следует установленным практикам команды. Понимает когда и почему применяется данный подход. | |
| Platform Engineer | Понимает концепции SLI, SLO, SLA и их различия для платформенных сервисов. Мониторит error budget через Grafana dashboards. Создаёт базовые SLI-метрики: availability, latency, throughput. Участвует в SLO-review встречах и эскалирует при burn rate превышении | |
| QA Automation Engineer | Понимает концепции SLI, SLO и SLA и их значение для качества продукта. Знает как тестирование помогает убедиться что приложение соответствует целевым показателям надёжности. | |
| Release Engineer | Обязателен | Знает базовые концепции sli slo sla для release engineer и умеет применять их в типовых задачах. Использует стандартные инструменты и следует установленным практикам команды. Понимает когда и почему применяется данный подход. |
| Security Analyst | Понимает концепции SLI/SLO/SLA для операций безопасности — целевые показатели времени реагирования на инциденты, SLO покрытия обнаружения и обязательства по доступности инструментов безопасности. Следит за мониторинговыми дашбордами команды для отслеживания здоровья сервисов безопасности и метрик реагирования на алерты. | |
| Site Reliability Engineer (SRE) | Понимает SLI/SLO/SLA: availability, latency, error rate как индикаторы. Мониторит SLO-дашборды. Понимает error budgets. Реагирует на SLO burn rate alerts. | |
| Technical Product Manager | Обязателен | Понимает разницу между SLI, SLO и SLA и их роль в продуктовых решениях. Знает базовые SLI: availability, latency, error rate. Понимает, как SLO влияют на product decisions и engineering priorities. |
| Telecom Developer | Понимает концепции SLI/SLO/SLA для доставки телеком-сервисов — процент успешной установки вызовов, оценки качества голоса MOS и целевые показатели доступности carrier-grade (пять девяток). Следит за мониторинговыми дашбордами команды для отслеживания здоровья сетевых функций и индикаторов качества сервиса. |
| Роль | Обязательность | Описание |
|---|---|---|
| Android Developer | Определяет SLI/SLO для backend-сервисов Android-приложения. Настраивает мониторинг error budget, создаёт дашборды для отслеживания соответствия целевым показателям качества сервиса. | |
| Backend Developer (C#/.NET) | Определяет SLI для .NET: request duration, GC metrics, thread pool usage. Настраивает SLO с alerting. | |
| Backend Developer (Elixir) | Определяет SLI для Elixir-сервисов: request latency, error rate, BEAM process metrics. Настраивает SLO через Prometheus + Grafana, алерты по burn rate. | |
| Backend Developer (Go) | Обязателен | Определяет SLI для Go-сервисов — p99 задержку из метрик middleware, частоту ошибок из структурированных логов и доступность из health checks. Настраивает мониторинг SLI на базе Prometheus с recording rules. Понимает error budgets и управляет ими для итеративных релизов функций. Участвует в ротации дежурств Go-сервисов. |
| Backend Developer (Java/Kotlin) | Обязателен | Определяет SLI для Java-сервисов — p99 задержку из метрик Micrometer, частоту ошибок из трекинга исключений и индикаторы здоровья JVM (паузы GC, утилизация heap). Настраивает мониторинг SLI с Spring Boot Actuator и Prometheus. Понимает error budgets и участвует в ротации дежурств для надёжности Java-сервисов. |
| Backend Developer (Node.js) | Определяет SLI для Node.js: event loop lag, GC pause duration, request latency p99. Настраивает SLO с alerting через Prometheus. | |
| Backend Developer (PHP) | Определяет и измеряет SLI для PHP-сервисов: latency percentiles (p50/p95/p99), availability, throughput. Настраивает сбор метрик через Prometheus с PHP-экспортером, создаёт SLO-дашборды в Grafana и реализует health-check эндпоинты для Laravel/Symfony-приложений с проверкой зависимостей. | |
| Backend Developer (Python) | Обязателен | Определяет SLI для Python-сервисов — p99 задержку из инструментации middleware, частоту ошибок из обработчиков исключений и индикаторы здоровья пула workers. Настраивает мониторинг SLI с Prometheus client и кастомными метриками. Понимает error budgets и участвует в ротации дежурств для надёжности Python-сервисов. |
| Backend Developer (Rust) | Определяет SLI для Rust: p99 latency, allocation rate, connection pool metrics. Настраивает SLO с alerting, использует tracing для diagnostics. | |
| Backend Developer (Scala) | Определяет SLI для Scala-сервисов: GC pause impact на latency, Akka actor mailbox metrics, error rates. Настраивает SLO с alerting. | |
| Cloud Engineer | Определяет SLI/SLO для облачных сервисов: availability (успешные запросы / общее число), latency (p50, p95, p99), throughput. Настраивает error budget tracking, burn rate alerts в Prometheus/CloudWatch. Понимает multi-window multi-burn-rate алерты и их настройку. | |
| Data Engineer | Определяет data SLI: freshness SLO, completeness targets, pipeline latency. Настраивает alerting по data quality metrics. | |
| Database Engineer / DBA | Определяет SLI/SLO для database сервисов: query latency budgets, connection availability, replication lag thresholds. Настраивает SLO-based алерты: error budget burn rate, latency degradation. Участвует в SLO review. | |
| Desktop Developer (.NET WPF/WinUI/MAUI) | Определяет SLI для серверных .NET-компонентов — доступность API обновлений, латентность лицензирования, uptime телеметрии. Настраивает мониторинг SLO через Prometheus/Grafana для раннего обнаружения деградации сервисов. | |
| Desktop Developer (Qt/C++) | Определяет SLI для серверных компонентов Qt-экосистемы — доступность сервиса обновлений, латентность API, успешность лицензирования. Настраивает мониторинг SLO и алерты для раннего обнаружения деградации бэкенд-сервисов. | |
| DevOps Engineer | Определяет и внедряет SLI/SLO для сервисов: выбор значимых индикаторов, установка реалистичных целей, настройка error budget tracking. Создаёт SLO-дашборды в Grafana с burn rate alerts, настраивает multi-window alerting. | |
| Engineering Manager | Настраивает SLI/SLO дашборды для сервисов команды — определяет индикаторы доступности, задержки и пропускной способности. Создаёт правила алертинга для нарушений SLO и потребления error budget. Участвует в ротации дежурств и координирует начальный анализ инцидентов управляемых сервисов. | |
| Flutter Developer | Определяет SLI и SLO для бэкенда Flutter-приложения — латентность API, uptime и error budget. Настраивает мониторинг соблюдения SLO и алертинг при приближении к пороговым значениям. | |
| Fullstack Developer | Определяет SLI: frontend performance (LCP, FID, CLS), backend latency p99, availability. Настраивает SLO с alerting. | |
| Game Server Developer | Настраивает SLI/SLO для сервисов игровых серверов — отслеживает p99 задержки матчмейкинга, частоту крашей игровых сессий и стабильность tick rate серверов. Создаёт дашборды для индикаторов опыта игроков и алерты для паттернов деградации. Участвует в игровом дежурстве и анализирует инциденты, влияющие на геймплей. | |
| Infrastructure Engineer | Настраивает мониторинг SLI/SLO для инфраструктурных сервисов: определение ключевых SLI (availability, latency, throughput), имплементация SLO через Prometheus recording rules. Конфигурирует burn rate alerts для раннего предупреждения, создаёт SLO-дашборды с error budget tracking и настраивает multi-window alerting. | |
| iOS Developer | Определяет SLI для мобильного бэкенда — латентность API p99, success rate, push-delivery rate и availability. Настраивает мониторинг SLO и алерты для раннего обнаружения деградации сервисов, влияющих на iOS-пользователей. | |
| IoT Engineer | Определяет SLI для IoT-сервисов: latency доставки телеметрии, availability шлюзов, error rate при обработке команд. Настраивает мониторинг для отслеживания SLO и алертинг при нарушениях. | |
| ML Engineer | Определяет SLI и SLO для ML-сервисов: inference latency, model freshness, prediction accuracy и availability. Настраивает мониторинг SLI с алертами при приближении к нарушению SLO для production моделей. | |
| MLOps Engineer | Определяет SLI для ML-сервисов: p99 latency inference, prediction throughput, model freshness, data pipeline lag. Настраивает мониторинг SLO и алертинг при деградации модели. | |
| Network Engineer | Уверенно применяет sli slo sla для network engineer при решении нестандартных задач. Самостоятельно выбирает оптимальный подход и инструменты. Анализирует trade-offs и предлагает улучшения существующих решений. | |
| Platform Engineer | Настраивает SLO-мониторинг для платформенных сервисов: multi-window burn rate alerts, error budget policies. Создаёт SLO dashboards с burn-down визуализацией. Определяет SLI для различных типов сервисов (API, batch, streaming). Внедряет automated SLO reporting для стейкхолдеров | |
| QA Automation Engineer | Разрабатывает тесты для проверки соответствия SLO — тестирование времени ответа API, доступности сервисов, корректности обработки ошибок. Мониторит error budget в тестовых средах. | |
| Release Engineer | Обязателен | Уверенно применяет sli slo sla для release engineer при решении нестандартных задач. Самостоятельно выбирает оптимальный подход и инструменты. Анализирует trade-offs и предлагает улучшения существующих решений. |
| Security Analyst | Настраивает SLI/SLO для операций безопасности — отслеживает среднее время обнаружения (MTTD), процент завершения триажа алертов и производительность запросов SIEM. Создаёт дашборды операций безопасности и алерты для пробелов в покрытии обнаружения. Участвует в ротации дежурств безопасности и анализирует таймлайны инцидентов безопасности. | |
| Site Reliability Engineer (SRE) | Определяет SLI для сервисов: availability (successful requests / total), latency (p99 < threshold), качество. Настраивает SLO tracking в Prometheus/Grafana. Рассчитывает error budgets. | |
| Technical Lead | Настраивает SLI/SLO для микросервисов команды — определяет целевые перцентили задержки, пороги частоты ошибок и индикаторы здоровья зависимостей. Создаёт комплексные дашборды сервисов с алертами burn rate. Участвует в ротации дежурств и ведёт анализ инцидентов со структурированными follow-up по post-mortem. | |
| Technical Product Manager | Обязателен | Самостоятельно определяет SLI и SLO для своего продукта совместно с engineering. Понимает error budget concept и его влияние на feature velocity vs reliability trade-off. Участвует в SLO review и incident analysis. |
| Telecom Developer | Настраивает SLI/SLO для телеком сетевых функций — отслеживает процент успешной установки вызовов, деградацию качества голоса и задержку сигнализации. Создаёт мониторинговые дашборды carrier-grade с многоуровневым алертингом. Участвует в дежурстве сетевых операций и анализирует сетевые инциденты, влияющие на сервис. |
| Роль | Обязательность | Описание |
|---|---|---|
| Android Developer | Проектирует комплексную систему SLI/SLO для мобильной платформы. Определяет end-to-end показатели от клиентского UX до серверной инфраструктуры и настраивает автоматический алертинг. | |
| Backend Developer (C#/.NET) | Проектирует SLI/SLO framework: .NET-specific metrics, composite SLOs, error budgets. Определяет reliability targets. | |
| Backend Developer (Elixir) | Проектирует SLI/SLO framework для Elixir-платформы: BEAM-специфичные метрики (scheduler utilization, message queue length), error budgets, composite SLOs. | |
| Backend Developer (Go) | Обязателен | Определяет и реализует комплексные SLO для портфелей Go-сервисов с мультисигнальным алертингом burn rate. Создаёт SLO-дашборды, коррелирующие метрики задержки, частоты ошибок и насыщения через распределённую трассировку. Управляет error budgets, влияя на решения о скорости релизов. Проводит структурированный post-mortem анализ и координирует кросс-сервисное реагирование на инциденты. Проектирует паттерны graceful degradation с circuit breakers и load shedding. |
| Backend Developer (Java/Kotlin) | Обязателен | Определяет и реализует комплексные SLO для портфелей Java-сервисов с алертами burn rate, коррелированными с метриками здоровья JVM. Создаёт SLO-дашборды по Spring Boot сервисам с распределённой трассировкой через Sleuth/OpenTelemetry. Управляет error budgets с учётом пауз GC и насыщения пулов потоков. Проводит post-mortem анализ и проектирует graceful degradation с паттернами Resilience4j. |
| Backend Developer (Node.js) | Проектирует SLI/SLO framework: Node.js-specific metrics (event loop utilization, heap usage), composite SLOs, error budgets. | |
| Backend Developer (PHP) | Проектирует SLO-фреймворк для PHP-микросервисов: выбор значимых SLI на основе user journey, установка error budget, автоматизация burn rate алертов. Анализирует влияние PHP-специфичных проблем (OPcache invalidation, connection pool exhaustion) на SLO и разрабатывает runbooks для типовых инцидентов. | |
| Backend Developer (Python) | Обязателен | Определяет и реализует комплексные SLO для портфелей Python-сервисов с алертами burn rate, коррелированными со здоровьем workers и метриками event loop. Создаёт SLO-дашборды по Django/FastAPI сервисам с распределённой трассировкой через OpenTelemetry. Управляет error budgets и проводит post-mortem анализ. Проектирует graceful degradation с паттернами circuit breaker и приоритизацией асинхронных задач. |
| Backend Developer (Rust) | Проектирует SLI/SLO framework: Rust-specific metrics (allocation-free hot paths), sub-millisecond SLOs, error budgets. Определяет reliability targets. | |
| Backend Developer (Scala) | Проектирует SLI/SLO framework: JVM-aware SLIs (GC, heap), Akka Cluster health metrics, composite SLOs. Определяет error budgets. | |
| Cloud Engineer | Обязателен | Проектирует SLO framework для облачной платформы: composite SLOs для distributed systems, dependency-aware SLOs, SLO-based deployment gates. Внедряет error budget policies — automated rollback при исчерпании бюджета, feature freeze процессы. Интегрирует SLO с incident management. |
| Data Engineer | Проектирует data SLI/SLO framework: multi-dimensional data quality SLOs, error budgets для data, pipeline reliability targets. | |
| Database Engineer / DBA | Обязателен | Проектирует SLI/SLO framework для database tier: multi-tier SLO (critical vs standard databases), SLI по типам операций (read vs write latency). Внедряет error budget policies и automated remediation при SLO breach. |
| Desktop Developer (.NET WPF/WinUI/MAUI) | Проектирует систему SLI/SLO для серверной .NET-инфраструктуры desktop-экосистемы с error-бюджетами и автоматическим алертингом. Реализует burn-rate мониторинг и интегрирует SLO в процесс принятия решений о релизах. | |
| Desktop Developer (Qt/C++) | Проектирует комплексную систему SLI/SLO для всей серверной инфраструктуры Qt-экосистемы с error-бюджетами и автоматическим управлением. Реализует SLO-based алертинг и визуализацию burn-rate для критических сервисов desktop-платформы. | |
| DevOps Engineer | Обязателен | Проектирует SLO-framework для организации: стандарты определения SLI для разных типов сервисов, автоматический расчёт error budget. Внедряет SLO-based alerting через Sloth/Pyrra, интегрирует с incident management и capacity planning. |
| Engineering Manager | Обязателен | Проектирует стратегию observability для сервисов инженерной организации — внедряет распределённую трассировку между командами, определяет мультисервисные фреймворки SLI/SLO и формирует кросс-командные процессы реагирования на инциденты. Проводит blameless post-mortem и продвигает инициативы улучшения надёжности. |
| Flutter Developer | Проектирует комплексную систему SLI/SLO для Flutter-приложения с учётом клиентских метрик. Реализует error budget policies и автоматическое замораживание релизов при нарушении SLO. | |
| Fullstack Developer | Проектирует SLI/SLO framework: end-to-end user experience SLIs, composite SLOs, error budgets. | |
| Game Server Developer | Обязателен | Проектирует стратегию observability для инфраструктуры игровых серверов — внедряет распределённую трассировку по сервисам матчмейкинга, игровых сессий и данных игроков. Определяет игро-специфичные фреймворки SLI/SLO, охватывающие метрики опыта игроков, стабильность tick rate и обнаружение десинхронизации. Проводит gameplay-aware post-mortem и проектирует graceful degradation для пиковых нагрузок игроков. |
| Infrastructure Engineer | Обязателен | Проектирует SLO-фреймворк для инфраструктурной платформы: каскадные SLO от инфраструктуры к сервисам, composite SLI для сложных систем, автоматический расчёт error budget. Внедряет SLO-as-code через Sloth или OpenSLO, настраивает automated incident creation при breach и интегрирует SLO с capacity planning. |
| iOS Developer | Проектирует комплексную систему SLI/SLO для мобильной инфраструктуры с error-бюджетами и автоматическим управлением. Реализует SLO-based алертинг с учётом mobile-specific метрик — app startup time, sync-латентность и offline-recovery. | |
| IoT Engineer | Проектирует систему SLI/SLO для IoT-платформы: многоуровневые метрики (устройство/шлюз/облако), error budgets для планирования работ, корреляция SLO с бизнес-метриками парка устройств. | |
| ML Engineer | Проектирует комплексную систему SLI/SLO для ML-платформы с error budgets и automated incident response. Внедряет ML-специфичные SLI: model drift rate, data freshness, feature availability и retraining latency. | |
| MLOps Engineer | Проектирует систему SLI/SLO для ML-платформы: метрики для training pipeline (time-to-train, GPU utilization), serving (latency, availability), data quality. Error budgets для ML-релизов. | |
| Network Engineer | Экспертно применяет sli slo sla для network engineer для проектирования сложных систем. Оптимизирует существующие решения и предотвращает архитектурные ошибки. Проводит code review и обучает коллег лучшим практикам. | |
| Platform Engineer | Обязателен | Проектирует SLO-фреймворк для IDP: automated SLO tracking (Sloth, Pyrra), error budget-driven release process. Создаёт self-service SLO configuration для команд. Внедряет SLO-based alerting вместо threshold-based. Интегрирует SLO compliance в deployment pipeline для gating |
| QA Automation Engineer | Проектирует стратегию SLO-driven тестирования — автоматическая проверка SLI в CI, нагрузочные тесты с валидацией SLO, тестирование graceful degradation при исчерпании error budget. | |
| Release Engineer | Обязателен | Экспертно применяет sli slo sla для release engineer для проектирования сложных систем. Оптимизирует существующие решения и предотвращает архитектурные ошибки. Проводит code review и обучает коллег лучшим практикам. |
| Security Analyst | Обязателен | Проектирует стратегию observability для платформ операций безопасности — внедряет корреляцию событий безопасности и мониторинг пайплайнов обнаружения угроз. Определяет security-специфичные фреймворки SLI/SLO, охватывающие метрики MTTD, MTTR и покрытия обнаружения. Проводит post-mortem инцидентов безопасности и проектирует устойчивые архитектуры мониторинга безопасности. |
| Site Reliability Engineer (SRE) | Обязателен | Проектирует SLO framework: multi-window burn rate alerting, SLO-based pages, error budget policies. Реализует automated SLO reporting. Интегрирует SLO с deployment decisions. |
| Solutions Architect | Обязателен | Проектирует стратегию observability масштаба предприятия, охватывающую микросервисные архитектуры — внедряет сквозную распределённую трассировку, определяет шаблоны организационного фреймворка SLI/SLO и формирует маппинг кросс-сервисных зависимостей. Проводит архитектурные post-mortem и проектирует многоуровневые стратегии graceful degradation для сложных распределённых систем. |
| Technical Lead | Обязателен | Проектирует observability стратегию с SLI / SLO / SLA. Внедряет distributed tracing. Определяет SLI/SLO. Проводит post-mortems. |
| Technical Product Manager | Обязателен | Определяет SLI/SLO стратегию для продукта с user-centric approach. Проектирует error budget policies: что происходит когда budget исчерпан. Связывает SLO с product decisions — feature rollout, scaling, architecture changes. |
| Telecom Developer | Обязателен | Проектирует стратегию observability для телеком-платформ carrier-grade — внедряет распределённую трассировку на уровне протоколов по сигнальному и медиа-плану. Определяет телеком-специфичные фреймворки SLI/SLO, охватывающие доступность пяти девяток, метрики качества вызовов и индикаторы регуляторного соответствия. Проводит post-mortem сетевых инцидентов и проектирует архитектуры отказоустойчивости carrier-grade. |
| Роль | Обязательность | Описание |
|---|---|---|
| Android Developer | Определяет стратегию SLI/SLO/SLA для всех мобильных продуктов организации. Проектирует процессы управления error budget и принятия решений о релизах на основе метрик качества. | |
| Backend Developer (C#/.NET) | Определяет SLO стандарты: mandatory SLI, error budget policies, performance regression detection. | |
| Backend Developer (Elixir) | Определяет SLO-стандарты для Elixir-команды: обязательные SLI по сервисам, error budget policies, incident response по SLO breaches. Проводит SLO review. | |
| Backend Developer (Node.js) | Определяет SLO-стандарты: mandatory SLI per service, error budget policies, performance regression detection. | |
| Backend Developer (PHP) | Управляет SLO-практиками для PHP-платформы: согласование SLO с бизнес-стейкхолдерами, error budget policy, процессы пересмотра SLO. Координирует SLO-based decision making между командами: приоритизация reliability vs features на основе error budget, интеграция SLO в планирование спринтов и релизные процессы. | |
| Backend Developer (Rust) | Определяет SLO-стандарты: mandatory SLI per service, error budget policies, performance regression detection. Проводит SLO review. | |
| Backend Developer (Scala) | Определяет SLO-стандарты: mandatory SLI per service, error budget policies, incident escalation. Проводит SLO review и capacity planning. | |
| Cloud Engineer | Обязателен | Определяет SLO-культуру организации: SLO review process, error budget governance, SLA negotiations с клиентами. Внедряет tooling (Sloth, Google SLO Generator) и стандарты для всех cloud-сервисов. Балансирует reliability requirements и скорость delivery на основе error budgets. |
| Data Engineer | Определяет data SLO стандарты: mandatory quality SLI, data freshness requirements, incident response для data issues. | |
| Database Engineer / DBA | Обязателен | Определяет SLO-стандарты для data-платформы: SLO templates по tier-ам БД, escalation policies, SLO review cadence. Координирует SLO agreements между DBA и product teams. Формирует database reliability targets. |
| Desktop Developer (.NET WPF/WinUI/MAUI) | Определяет SLA для серверных .NET-компонентов desktop-экосистемы на основе бизнес-требований. Формирует культуру SLO-driven разработки и координирует согласование целей надёжности между продуктовыми и инфраструктурными командами. | |
| Desktop Developer (Qt/C++) | Определяет SLA для серверных компонентов Qt-экосистемы на основе бизнес-требований и формирует культуру SLO-driven разработки. Координирует согласование целей надёжности между продуктовыми командами и инфраструктурой. | |
| DevOps Engineer | Обязателен | Определяет SRE-культуру через SLO: стандарты для каждого tier сервиса, error budget policies (feature freeze при исчерпании). Проектирует организационный SLO dashboard, процессы review и пересмотра целей, интеграцию с product management. |
| Engineering Manager | Обязателен | Определяет стратегию observability продукта по инженерным командам — формирует культуру надёжности на основе SLO, координирует кросс-командные процессы управления инцидентами и оптимизирует метрики MTTD/MTTR через улучшения инструментов и процессов. Продвигает внедрение политик error budget и практик blameless post-mortem. |
| Flutter Developer | Устанавливает стандарты SLI/SLO/SLA для всех Flutter-проектов команды. Внедряет культуру reliability engineering и обучает команду управлению error budget и принятию решений. | |
| Fullstack Developer | Определяет SLO стандарты: mandatory SLI для frontend и backend, error budget policies, performance requirements. | |
| Game Server Developer | Обязателен | Определяет стратегию observability продукта для платформ игровых серверов — формирует SLO-подход для надёжности опыта игроков, координирует игро-специфичное управление инцидентами с командами live operations и оптимизирует MTTD/MTTR для проблем, влияющих на геймплей. Продвигает культуру надёжности по командам разработки игр. |
| Infrastructure Engineer | Обязателен | Определяет SLO-стандарты для всей инфраструктуры: типовые SLI для каждого класса компонентов (compute, storage, network, DB), процесс negotiation SLO с командами. Внедряет SLO-driven prioritization для engineering работы, ревьюит SLO команд и координирует error budget policy с product management. |
| iOS Developer | Определяет SLA для мобильной платформы на основе бизнес-требований и формирует культуру SLO-driven разработки. Координирует согласование целей надёжности между iOS-командой, бэкенд-разработкой и инфраструктурой. | |
| IoT Engineer | Определяет SLA для IoT-продуктов: формализация гарантий доступности и latency, процессы пересмотра SLO, интеграция error budgets в планирование спринтов и принятие решений о релизах. | |
| ML Engineer | Определяет стандарты SLI/SLO/SLA для ML-сервисов организации с учётом downstream business impact. Проектирует архитектуру reliability management для ML-платформы с error budget policies и capacity planning. | |
| MLOps Engineer | Определяет SLA для ML-продуктов: гарантии latency и availability для inference, SLO для model freshness, интеграция error budgets в процесс принятия решений о ретренинге и деплое. | |
| Network Engineer | Устанавливает стандарты применения sli slo sla для network engineer в команде и принимает архитектурные решения. Определяет технический roadmap с учётом данного навыка. Менторит senior инженеров и влияет на практики смежных команд. | |
| Platform Engineer | Обязателен | Определяет SLO-стратегию организации: tiered SLO targets, error budget governance, SLA management процесс. Руководит внедрением SRE-практик через SLO-framework. Проектирует organizational error budget policy: freeze deployments, allocate engineering time при depletion |
| QA Automation Engineer | Определяет стандарты SLO-тестирования для команды. Интегрирует SLI/SLO в тестовую отчётность, обеспечивает что каждый релиз проверяется на соответствие целевым показателям. | |
| Release Engineer | Обязателен | Устанавливает стандарты применения sli slo sla для release engineer в команде и принимает архитектурные решения. Определяет технический roadmap с учётом данного навыка. Менторит senior инженеров и влияет на практики смежных команд. |
| Security Analyst | Обязателен | Определяет стратегию observability для операций безопасности — формирует SLO-подход для возможностей обнаружения и реагирования, координирует процессы управления инцидентами безопасности и оптимизирует MTTD/MTTR для событий безопасности через улучшения инструментов и автоматизации. |
| Site Reliability Engineer (SRE) | Обязателен | Определяет SLO-стандарты организации: SLO requirements per tier, error budget governance, SLO review cadence. Обучает команды SRE-practices. Координирует SLO adoption. |
| Solutions Architect | Обязателен | Определяет стратегию observability масштаба предприятия по портфелям продуктов — формирует SLO-подход для мультисервисных архитектур, координирует кросс-организационное управление инцидентами и оптимизирует MTTD/MTTR через платформенные инструменты observability. Продвигает культуру reliability engineering и governance error budgets. |
| Technical Lead | Обязателен | Определяет стратегию observability продукта для портфелей сервисов команды — формирует SLO-подход для надёжности микросервисов, координирует управление инцидентами с зависимыми командами и оптимизирует MTTD/MTTR через улучшенный мониторинг и процессы дежурств. |
| Technical Product Manager | Обязателен | Определяет SLI/SLO стандарты для подразделения. Внедряет error budget-driven development process. Координирует SLA agreements с customers и partners. Формирует reliability culture в product-engineering организации. |
| Telecom Developer | Обязателен | Определяет стратегию observability продукта для телеком-платформ carrier-grade — формирует SLO-подход для доступности сервиса пяти девяток, координирует управление сетевыми инцидентами с командами NOC и оптимизирует MTTD/MTTR для сервисных сбоев операторского масштаба. Продвигает культуру надёжности carrier-grade. |
| Роль | Обязательность | Описание |
|---|---|---|
| Android Developer | Формирует организационную культуру управления надёжностью мобильных сервисов через SLI/SLO. Определяет стандарты качества, влияющие на все мобильные продукты и серверную инфраструктуру. | |
| Backend Developer (C#/.NET) | Формирует reliability стратегию: platform SLO framework, .NET performance baselines, reliability governance. | |
| Backend Developer (Elixir) | Формирует reliability стратегию Elixir-платформы: platform-wide SLO framework, BEAM-specific reliability patterns, error budget governance для бизнес-решений. | |
| Backend Developer (Node.js) | Формирует reliability стратегию: platform SLO framework, Node.js performance baselines, error budget governance. | |
| Backend Developer (PHP) | Формирует корпоративную SLO-культуру для PHP-экосистемы: иерархия SLO от инфраструктуры до бизнес-метрик, platform-level SLO, SLO как основа архитектурных решений. Проектирует автоматизированные системы управления error budget, определяет SLA для внутренних платформ и выстраивает процессы incident management на базе SLO. | |
| Backend Developer (Rust) | Формирует reliability стратегию: platform SLO framework, Rust performance guarantees, error budget governance. Определяет reliability principles. | |
| Backend Developer (Scala) | Формирует reliability стратегию: platform SLO framework, JVM tuning governance, error budget management. Определяет reliability engineering principles. | |
| Cloud Engineer | Обязателен | Формирует reliability engineering стратегию: platform-wide SLO framework, business-aligned reliability targets, cost of reliability analysis. Проектирует SLO platform для автоматического tracking сотен сервисов, определяет reliability investment priorities на уровне организации. |
| Data Engineer | Формирует data reliability стратегию: platform data SLO framework, data quality governance, reliability engineering для data. | |
| Database Engineer / DBA | Обязателен | Формирует SLO-стратегию организации для data tier: SLO framework охватывающий все СУБД, SLA для internal database-as-a-service, SLO-driven investment decisions. Определяет reliability culture для database engineering. |
| Desktop Developer (.NET WPF/WinUI/MAUI) | Формирует корпоративную стратегию управления надёжностью серверной .NET-инфраструктуры desktop-экосистемы. Определяет архитектуру для автоматического управления error-бюджетами и балансировки надёжности с velocity разработки. | |
| Desktop Developer (Qt/C++) | Формирует корпоративную стратегию управления надёжностью серверной инфраструктуры desktop-экосистемы через SLI/SLO/SLA. Определяет архитектуру для автоматического управления error-бюджетами и балансировки надёжности с velocity. | |
| DevOps Engineer | Обязателен | Разрабатывает стратегию reliability engineering на основе SLO: корпоративные стандарты надёжности, SLO-driven development, автоматический error budget management. Определяет архитектуру platform reliability: от определения SLO до автоматического масштабирования и DR. |
| Engineering Manager | Обязателен | Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework. |
| Flutter Developer | Определяет организационную стратегию надёжности мобильных продуктов через SLI/SLO/SLA. Формирует фреймворк для согласования целей надёжности между мобильной и бэкенд-разработкой. | |
| Fullstack Developer | Формирует reliability стратегию: platform SLO framework, fullstack performance baselines, reliability governance. | |
| Game Server Developer | Обязателен | Определяет организационную стратегию observability для глобальных игровых платформ — внедряет платформенные решения мониторинга для флотов игровых серверов, формирует культуру надёжности, интегрируя SLO опыта игроков с метриками инфраструктуры, и формирует корпоративный фреймворк SLO для сервисов гейминга реального времени по тайтлам. |
| Infrastructure Engineer | Обязателен | Формирует стратегию SLO-driven инфраструктуры для компании: framework для определения бизнес-критичных SLI, стратегия SLA для внешних и внутренних клиентов, интеграция SLO с FinOps. Определяет подход к SLO для emerging technologies (AI/ML inference, edge), стандарты reporting для C-level и корреляцию SLO с бизнес-метриками. |
| iOS Developer | Формирует корпоративную стратегию управления надёжностью мобильной экосистемы через SLI/SLO/SLA. Определяет архитектуру для автоматического управления error-бюджетами и балансировки надёжности с velocity мобильной разработки. | |
| IoT Engineer | Формирует стратегию reliability engineering для IoT-экосистемы: каскадные SLO для сложных цепочек обработки, стандарты надёжности для промышленного IoT, интеграция с compliance. | |
| ML Engineer | Формирует стратегию reliability для ML-платформы организации, связывая ML SLO с бизнес-метриками. Определяет подходы к управлению надёжностью compound AI systems с каскадными SLO между компонентами. | |
| MLOps Engineer | Формирует стратегию reliability для AI-платформы: каскадные SLO для ML pipeline, стандарты надёжности для mission-critical ML систем, интеграция ML-specific метрик в SRE-практики. | |
| Network Engineer | Формирует стратегию применения sli slo sla для network engineer на уровне организации. Определяет best practices и влияет на выбор технологий за пределами своей команды. Является признанным экспертом в данной области. | |
| Platform Engineer | Обязателен | Формирует культуру reliability через SLO: SLO-driven architecture decisions, automated reliability scoring. Определяет стратегию SLO для distributed systems: end-to-end SLO, dependency-aware budgets. Консультирует C-level по SLA strategy и customer reliability expectations |
| QA Automation Engineer | Формирует стратегию quality-driven SLO для организации. Создаёт платформу автоматической верификации SLO для всех сервисов и интегрирует с release management процессом. | |
| Release Engineer | Обязателен | Формирует стратегию применения sli slo sla для release engineer на уровне организации. Определяет best practices и влияет на выбор технологий за пределами своей команды. Является признанным экспертом в данной области. |
| Security Analyst | Обязателен | Определяет организационную стратегию observability для операций безопасности — внедряет платформенные решения для унифицированного мониторинга безопасности, формирует культуру надёжности безопасности, интегрируя SLO обнаружения с операционными метриками, и формирует корпоративный фреймворк SLO для доступности сервисов безопасности и эффективности реагирования. |
| Site Reliability Engineer (SRE) | Обязателен | Проектирует SLO-платформу: organizational SLO framework, automated SLO management, SLO-driven architecture decisions. Определяет reliability culture и error budget policy. |
| Solutions Architect | Обязателен | Определяет организационную стратегию observability, охватывающую все технологические платформы — внедряет мониторинговые решения enterprise-уровня для сотен сервисов, формирует культуру reliability engineering с governance error budgets масштаба организации и формирует корпоративный фреймворк SLO, продвигающий стандарты надёжности сервисов, согласованные с бизнесом. |
| Technical Lead | Обязателен | Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework. |
| Technical Product Manager | Обязателен | Формирует enterprise reliability strategy через SLI/SLO/SLA framework. Определяет organizational reliability targets и investment priorities. Координирует customer-facing SLA с internal SLO. Строит reliability as competitive advantage. |
| Telecom Developer | Обязателен | Определяет организационную стратегию observability для телеком-платформ carrier-grade, охватывающих несколько поколений сетей — внедряет платформенные решения для унифицированного мониторинга сети, формирует культуру надёжности carrier-grade с интеграцией регуляторного соответствия и формирует корпоративный фреймворк SLO для доступности телеком-сервисов пяти девяток. |