Домен
Тестирование и QA
Профиль навыка
Litmus, Gremlin, Chaos Monkey, fault injection, game days, steady state hypothesis
Ролей
5
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
17
ещё 8 — необязательные
Тестирование и QA
Специализированное тестирование
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| DevOps Engineer | Понимает принципы chaos engineering: знает зачем намеренно вносить сбои в production, Principles of Chaos Engineering. Знаком с базовыми инструментами (Chaos Monkey, Gremlin). Понимает разницу между chaos testing и обычным fault injection. | |
| Infrastructure Engineer | Понимает infrastructure-level chaos: знает что можно тестировать отказы серверов, дисков, сети, DNS. Понимает как redundancy (multi-AZ, replication) защищает от infrastructure failures. Участвует в disaster recovery тестировании. | |
| Performance Testing Engineer | Обязателен | Понимает основы Chaos Engineering. Пишет простые тесты. Следует testing guidelines команды. Использует load/stress/soak tests. |
| Platform Engineer | Понимает chaos engineering в контексте платформы: знает что платформа должна предоставлять инструменты для chaos testing, понимает как Kubernetes primitives (PodDisruptionBudget) связаны с chaos resilience. | |
| Site Reliability Engineer (SRE) | Понимает chaos engineering как SRE-практику: знает связь с error budgets (chaos для verification что system stays within SLO), понимает game day формат. Участвует в проведении экспериментов как наблюдатель и помогает документировать результаты. |
| Роль | Обязательность | Описание |
|---|---|---|
| DevOps Engineer | Обязателен | Проводит chaos эксперименты: использует Litmus Chaos или Chaos Mesh для Kubernetes, создаёт game days с командой. Реализует базовые эксперименты: pod kill, network delay, resource stress. Документирует гипотезы, ход и выводы экспериментов. |
| Infrastructure Engineer | Обязателен | Проводит infrastructure chaos experiments: тестирует failover для databases (RDS failover, Redis sentinel), network partition между AZ, disk failure scenarios. Использует AWS Fault Injection Simulator или terraform-based fault injection для cloud infrastructure. |
| Performance Testing Engineer | Обязателен | Самостоятельно разрабатывает тесты с Chaos Engineering. Применяет test design techniques. Интегрирует тесты в CI/CD. Покрывает edge cases. |
| Platform Engineer | Обязателен | Интегрирует chaos engineering в платформу: устанавливает и настраивает Chaos Mesh/Litmus как platform service, создаёт шаблоны экспериментов для developer self-service. Обеспечивает isolation: chaos experiments не выходят за пределы target namespace. |
| Site Reliability Engineer (SRE) | Проводит chaos эксперименты для validation SLOs: создаёт hypothesis-driven experiments с чёткими steady-state metrics, использует Chaos Mesh/Litmus для Kubernetes failures. Анализирует impact на SLIs и определяет remediation actions на основе findings. |
| Роль | Обязательность | Описание |
|---|---|---|
| DevOps Engineer | Обязателен | Проектирует программу chaos engineering: определяет steady-state metrics, проектирует эксперименты с нарастающей сложностью (single pod → availability zone → region), настраивает automated chaos runs в CI/CD. Интегрирует результаты с SLO/SLI мониторингом для выявления слабых мест. |
| Infrastructure Engineer | Обязателен | Проектирует infrastructure resilience testing: создаёт automated DR drills, тестирует backup/restore procedures под нагрузкой, реализует region failover experiments. Настраивает infrastructure monitoring для detection chaos impact и automatic rollback. |
| Performance Testing Engineer | Обязателен | Проектирует тестовую стратегию с Chaos Engineering. Внедряет automated testing на всех уровнях. Оптимизирует тестовую пирамиду. Менторит команду. |
| Platform Engineer | Обязателен | Проектирует chaos-as-a-service платформу: создаёт API для программного запуска экспериментов, интегрирует с CI/CD для automated chaos testing, реализует RBAC для контроля кто может запускать какие эксперименты. Проектирует safety mechanisms: abort conditions, blast radius limits. |
| Site Reliability Engineer (SRE) | Обязателен | Проектирует chaos программу linked с SRE practices: интегрирует chaos experiments в post-mortem follow-ups, создаёт continuous verification для critical paths. Реализует sophisticated experiments: clock skew, DNS failures, TLS certificate expiry, cascading failure scenarios. |
| Роль | Обязательность | Описание |
|---|---|---|
| DevOps Engineer | Обязателен | Внедряет культуру chaos engineering: обучает команды проектированию экспериментов, создает safety net для production chaos (abort conditions, blast radius control). Проектирует chaos матрицу для покрытия всех типов failures: infrastructure, network, application, database. |
| Infrastructure Engineer | Обязателен | Определяет infrastructure resilience strategy: проектирует multi-region failover architecture validated через chaos, создаёт infrastructure chaos suite для continuous verification. Стандартизирует DR procedures и обеспечивает RTO/RPO compliance через regular testing. |
| Performance Testing Engineer | Обязателен | Определяет chaos + performance стандарты: performance degradation testing during failures, resilience testing under load. Внедряет GameDays для performance failures. |
| Platform Engineer | Обязателен | Стандартизирует chaos engineering на платформенном уровне: проектирует automated resilience scoring infrastructure, создаёт chaos experiment marketplace для переиспользования. Определяет platform-level chaos: testing platform components themselves (control plane, etcd, ingress). |
| Site Reliability Engineer (SRE) | Обязателен | Определяет chaos engineering стратегию для SRE-организации: создаёт chaos maturity assessment, проектирует automated resilience scoring per service. Внедряет chaos experiments как prerequisite для production readiness review и определяет escalation procedures. |
| Роль | Обязательность | Описание |
|---|---|---|
| DevOps Engineer | Формирует enterprise chaos engineering стратегию: проектирует chaos-as-a-service платформу для самообслуживания команд, определяет continuous verification pipeline. Влияет на культуру resilience через executive buy-in и ROI демонстрацию (предотвращённые инциденты vs cost of chaos program). | |
| Infrastructure Engineer | Формирует enterprise infrastructure resilience: проектирует chaos testing для multi-cloud и hybrid infrastructure, определяет compliance requirements для business continuity. Влияет на industry standards для infrastructure resilience testing в regulated industries. | |
| Performance Testing Engineer | Обязателен | Проектирует performance resilience testing: chaos engineering integrated with load testing, automated degradation detection, resilience SLO framework. |
| Platform Engineer | Формирует enterprise chaos platform: проектирует multi-cluster chaos coordination, определяет chaos governance (who, what, when, blast radius). Влияет на платформенную архитектуру через chaos-driven design decisions — ensuring platform itself is chaos-resilient. | |
| Site Reliability Engineer (SRE) | Обязателен | Формирует enterprise resilience strategy через chaos: проектирует organization-wide chaos framework, определяет compliance requirements для chaos testing (financial services, healthcare). Влияет на industry practices через публикации и выступления о chaos engineering ROI. |