Домен
Observability и мониторинг
Профиль навыка
Бизнес-KPI, доменные метрики, дашборды, алертинг по бизнес-показателям
Ролей
7
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
21
ещё 14 — необязательные
Observability и мониторинг
Метрики и мониторинг
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| BI Analyst | Учится определять пользовательские бизнес-метрики — конверсию, отток, LTV — с помощью SQL и BI-инструментов. Следует существующим определениям метрик и дашбордам, созданным старшими аналитиками. | |
| Database Engineer / DBA | Понимает, как собираются пользовательские метрики базы данных: латентность запросов, задержка репликации, использование пула соединений. Мониторит предустановленные дашборды метрик и эскалирует аномалии старшим инженерам. | |
| DevOps Engineer | Понимает типы метрик Prometheus: counter, gauge, histogram, summary. Знает разницу между инфраструктурными и бизнес-метриками. Читает существующие custom metrics, понимает naming conventions (namespace_subsystem_name_unit). | |
| MLOps Engineer | Учится отслеживать пользовательские ML-метрики: дрифт модели, латентность предсказаний, показатели качества данных. Использует существующие пайплайны мониторинга и дашборды Grafana для наблюдения за производительностью моделей. | |
| Performance Testing Engineer | Создаёт custom performance metrics: business transaction latency, throughput per endpoint, error rate by type. Использует Prometheus client для application metrics. | |
| Platform Engineer | Инструментирует платформенные сервисы custom метриками: request duration, queue depth, cache hit ratio. Использует Prometheus client libraries для expose метрик. Понимает naming conventions и label best practices. Создаёт dashboards для визуализации custom метрик | |
| Site Reliability Engineer (SRE) | Создаёт custom метрики: application counters, business KPIs через Prometheus client libraries. Понимает метрики RED (Rate, Errors, Duration) и USE (Utilization, Saturation, Errors). |
| Роль | Обязательность | Описание |
|---|---|---|
| BI Analyst | Настраивает Бизнес-метрики для сервисов. Создаёт dashboards и алерты. Участвует в on-call ротации. Анализирует инциденты. | |
| Database Engineer / DBA | Настраивает пользовательские метрики здоровья базы данных: частоту медленных запросов, эффективность индексов, тренды роста хранилища. Создаёт Grafana-дашборды с алертами по задержке репликации и частоте дедлоков. Участвует в дежурной ротации. | |
| DevOps Engineer | Разрабатывает custom metrics для DevOps: метрики CI/CD-пайплайнов (build duration, success rate), deployment frequency, change failure rate. Создаёт exporters на Python/Go, инструментирует приложения через client libraries. Настраивает recording rules. | |
| MLOps Engineer | Настраивает пользовательские метрики для ML-пайплайнов: пропускную способность обучения, свежесть feature store, SLO инференса. Строит правила алертинга для деградации моделей и сбоев дата-пайплайнов. Анализирует продакшн-инциденты, влияющие на обслуживание моделей. | |
| Performance Testing Engineer | Проектирует performance metrics: detailed latency breakdown (db, external, processing), resource efficiency metrics. Настраивает recording rules для aggregation. | |
| Platform Engineer | Разрабатывает стандартную библиотеку метрик для платформы: RED metrics (Rate, Errors, Duration), USE metrics для инфраструктуры. Создаёт metric generator middleware для автоматического сбора. Настраивает metric-based autoscaling (KEDA, custom HPA). Оптимизирует cardinality | |
| Site Reliability Engineer (SRE) | Проектирует custom metrics: SLI-метрики для SLO tracking, detailed latency histograms, business metrics. Настраивает recording rules для агрегации. Создаёт alerting на custom metrics. |
| Роль | Обязательность | Описание |
|---|---|---|
| BI Analyst | Обязателен | Проектирует observability стратегию с Бизнес-метрики. Внедряет distributed tracing. Определяет SLI/SLO. Проводит post-mortems. |
| Database Engineer / DBA | Обязателен | Проектирует observability стратегию с Бизнес-метрики. Внедряет distributed tracing. Определяет SLI/SLO. Проводит post-mortems. |
| DevOps Engineer | Обязателен | Проектирует систему custom metrics: DORA-метрики для оценки delivery performance, SLI-метрики для каждого сервиса, бизнес-KPI в Prometheus. Внедряет OpenTelemetry Metrics, разрабатывает custom collectors для нестандартных источников. |
| MLOps Engineer | Обязателен | Проектирует observability стратегию с Бизнес-метрики. Внедряет distributed tracing. Определяет SLI/SLO. Проводит post-mortems. |
| Performance Testing Engineer | Обязателен | Определяет performance metrics framework: standard instrumentation, custom metrics for bottleneck detection, derived metrics для analysis. Реализует automated anomaly detection. |
| Platform Engineer | Обязателен | Проектирует metrics-стратегию для IDP: business metrics pipeline, SLI/SLO автоматизация через custom metrics. Внедряет metrics-as-code подход: Terraform для Grafana dashboards, alerts через GitOps. Создаёт self-service metrics onboarding для новых сервисов через Backstage |
| Site Reliability Engineer (SRE) | Обязателен | Определяет metrics framework: standard instrumentation library, metric naming conventions, cardinality management. Реализует derived metrics через recording rules. Интегрирует с SLO tooling. |
| Роль | Обязательность | Описание |
|---|---|---|
| BI Analyst | Обязателен | Определяет observability стратегию продукта. Формирует SLO-based approach. Координирует incident management. Оптимизирует MTTD/MTTR. |
| Database Engineer / DBA | Обязателен | Определяет стандарты кастомных метрик для database tier: business-level metrics (orders/sec, active users), database-specific (replication slot lag, vacuum progress). Координирует внедрение custom metrics между DBA и dev командами. |
| DevOps Engineer | Обязателен | Определяет организационные стандарты метрик: обязательные SLI для каждого tier сервиса, DORA metrics dashboard, FinOps-метрики. Проектирует metrics platform с каталогом стандартных метрик, self-service инструментированием и автоматическим alerting. |
| MLOps Engineer | Обязателен | Определяет стандарты кастомных метрик для MLOps-команды: ML-специфичные метрики (prediction_confidence, feature_freshness, model_staleness), бизнес-метрики привязанные к моделям. Внедряет единую библиотеку метрик для inference-сервисов, стандартизирует labels и naming conventions для Prometheus и настраивает composite алерты на деградацию ML-систем. |
| Performance Testing Engineer | Обязателен | Определяет custom metrics стандарты для performance: mandatory instrumentation, naming conventions, cardinality budget. Внедряет performance metrics catalog. |
| Platform Engineer | Обязателен | Определяет метрическую стратегию организации: golden signals для каждого tier, cardinality budget, cost allocation. Руководит внедрением observability standards. Проектирует metric-driven decision framework: automated scaling, deployment decisions, capacity planning на базе custom метрик |
| Site Reliability Engineer (SRE) | Обязателен | Определяет metrics-стандарты для SRE: mandatory SLI metrics, dashboard templates, alerting best practices. Внедряет metric catalogs и automated cardinality monitoring. |
| Роль | Обязательность | Описание |
|---|---|---|
| BI Analyst | Обязателен | Определяет observability стратегию организации. Внедряет platform-решения. Формирует reliability culture. Определяет enterprise SLO framework. |
| Database Engineer / DBA | Обязателен | Формирует метрическую стратегию data-платформы: custom business metrics через database, cardinality management, метрики для capacity planning и cost attribution. Определяет framework для database performance KPIs организации. |
| DevOps Engineer | Обязателен | Разрабатывает стратегию metrics-driven operations: ML-powered anomaly detection на custom metrics, predictive scaling, бизнес-observability. Определяет архитектуру unified metrics platform для корреляции инфраструктурных, application и бизнес-метрик. |
| MLOps Engineer | Обязателен | Формирует стратегию метрик для MLOps-платформы организации: единая таксономия ML-метрик, стандарты для model health scoring и platform reliability. Проектирует систему автоматического расчёта ROI моделей через связь ML-метрик с бизнес-KPI, определяет подходы к cost-per-prediction метрикам и composite health indicators для всех production-моделей. |
| Performance Testing Engineer | Обязателен | Проектирует performance metrics strategy: organization-wide instrumentation standards, automated baseline calculation, ML-based anomaly detection. |
| Platform Engineer | Обязателен | Формирует видение data-driven платформы: custom metrics + ML для predictive operations, anomaly detection, root cause analysis. Определяет стратегию metric democratization для business и tech teams. Оценивает real-time streaming analytics для next-gen observability платформы |
| Site Reliability Engineer (SRE) | Обязателен | Проектирует метрический фреймворк организации: unified instrumentation SDK, metrics taxonomy, automated SLI generation. Определяет observability cost management strategy. |