Site Reliability Engineer (SRE)

Обеспечение надёжности, масштабируемости и производительности production-систем

DevOps & SRE Junior Middle Senior Lead / Staff Principal
Полная матрица Карьерный трек PDF
61 навыков
5 уровней
139 обязательных
305 требований

Site Reliability Engineer (SRE) — роль в семействе DevOps & SRE. Определено 61 навыков по 5 уровням (от Junior до Principal). 139 навыков являются обязательными. Ключевые домены: Основы программирования, Backend Development, Базы данных.

Технологический стек

Junior Linux, Prometheus/Grafana, PagerDuty/OpsGenie, Bash/Python scripting, Docker, Kubernetes basics
Middle Kubernetes, Prometheus/Thanos, Grafana/Loki, OpenTelemetry, Terraform, Go/Python, Chaos Monkey basics, Runbook automation
Senior Kubernetes advanced, Chaos Engineering (Litmus/Gremlin), eBPF tools, OpenTelemetry advanced, Custom exporters, Load testing (k6/Gatling)
Lead / Staff SRE platform, Incident management automation, SLO automation, Multi-cluster monitoring, FinOps, Disaster Recovery testing
Principal Enterprise SRE architecture, Multi-region, Global traffic management, Reliability at scale

Фокус по уровням

Junior

Мониторинг SLI/SLO. Участие в on-call ротации. Написание runbooks. Автоматизация рутинных операций. Анализ инцидентов.

Middle

Определение SLI/SLO/SLA. Проектирование мониторинга. Capacity planning. Автоматизация incident response. Post-mortem analysis.

Senior

Проектирование высокодоступных систем. Chaos engineering. Performance engineering. Error budgets. Координация с разработкой.

Lead / Staff

SRE стратегия. Культура reliability. Стандарты SLO. Incident management процессы. Coordination with product.

Principal

Enterprise reliability strategy. Multi-region architecture. SRE culture at scale. Industry best practices.

Матрица навыков

61 навыков × 5 уровней. Нажмите на ячейку для детализации.

A Awareness W Working V Advanced E Expert

Архитектура и проектирование

4 навыков
Навыки Jun Mid Sen Lead Princ
Основы System Design A W A E E
Highload архитектура A W A E E
Capacity Planning A W A E E
Disaster Recovery Design A W A E E

Базы данных

3 навыков
Навыки Jun Mid Sen Lead Princ
PostgreSQL A W A E E
Индексирование БД A W A E E
Оптимизация запросов A W A E E

Контроль версий и коллаборация

2 навыков
Навыки Jun Mid Sen Lead Princ
Git Advanced A W A E E
Code Review A W A E E

Облако и инфраструктура

9 навыков
Навыки Jun Mid Sen Lead Princ
Docker A W A E E
Kubernetes Core A W A E E
Kubernetes Advanced A W A E E
Helm A W A E E
Terraform A W A E E
AWS A W A E E
Основы сетей A W A E E
Балансировка нагрузки A W A E E
VPN и сетевая изоляция A W A E E

Тестирование и QA

4 навыков

AI-ассистированная разработка

4 навыков
Навыки Jun Mid Sen Lead Princ
GitHub Copilot A W A E E
Cursor IDE A W A E E
ChatGPT / Claude A W A E E
Prompt Engineering для кода A W A E E

API и интеграции

3 навыков
Навыки Jun Mid Sen Lead Princ
REST API Design A W A E E
GraphQL Design A W A E E
Документирование API A W A E E

Backend Development

3 навыков
Навыки Jun Mid Sen Lead Princ
Python Web Frameworks A W A E E
Apache Kafka A W A E E
Redis A W A E E

DevOps и CI/CD

3 навыков
Навыки Jun Mid Sen Lead Princ
GitHub Actions / GitLab CI A W A E E
GitOps практики A W A E E
ArgoCD A W A E E

Observability и мониторинг

11 навыков

Performance Engineering

1 навыков
Навыки Jun Mid Sen Lead Princ
Latency Optimization A W A E E

Часто задаваемые вопросы

Какие навыки нужны для роли Site Reliability Engineer (SRE)?

Для роли Site Reliability Engineer (SRE) требуется 61 навыков, из которых 139 являются обязательными. Навыки распределены по 5 уровням: от Junior до Principal. Смотреть полную матрицу.

Как вырасти до следующего уровня в роли Site Reliability Engineer (SRE)?

Используйте Калькулятор грейда чтобы оценить текущий уровень и получить персональные рекомендации. Система покажет, какие навыки нужно развить для перехода на следующий уровень.

Какой технологический стек используется в роли Site Reliability Engineer (SRE)?

Стек включает 5 технологий на разных уровнях. Linux, Prometheus/Grafana, PagerDuty/OpsGenie, Bash/Python scripting, Docker, Kubernetes basics, Kubernetes, Prometheus/Thanos, Grafana/Loki, OpenTelemetry, Terraform, Go/Python, Chaos Monkey basics, Runbook automation, Kubernetes advanced, Chaos Engineering (Litmus/Gremlin), eBPF tools, OpenTelemetry advanced, Custom exporters, Load testing (k6/Gatling)...

Как сообщество определяет требования к роли Site Reliability Engineer (SRE)?

Требования к роли формируются сообществом через систему предложений. Любой участник может предложить изменения, которые проходят голосование и ревью экспертов.

Сообщество

👁 Следить ✏️ Предложить изменение Войдите, чтобы предлагать изменения
📋 Предложения
Пока нет предложений для Site Reliability Engineer (SRE)
Загрузка комментариев...