Профиль навыка

Chaos Engineering

Litmus, Gremlin, Chaos Monkey, fault injection, game days, steady state hypothesis

Тестирование и QA Специализированное тестирование

Ролей

где встречается этот навык

Грейдов

сформированная дорожка роста

Обязательных требований

ещё 8 — необязательные

Домен

Тестирование и QA

Группа

Специализированное тестирование

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль	Обязательность	Описание
DevOps Engineer		Понимает принципы chaos engineering: знает зачем намеренно вносить сбои в production, Principles of Chaos Engineering. Знаком с базовыми инструментами (Chaos Monkey, Gremlin). Понимает разницу между chaos testing и обычным fault injection.
Infrastructure Engineer		Понимает infrastructure-level chaos: знает что можно тестировать отказы серверов, дисков, сети, DNS. Понимает как redundancy (multi-AZ, replication) защищает от infrastructure failures. Участвует в disaster recovery тестировании.
Performance Testing Engineer	Обязателен	Понимает основы Chaos Engineering. Пишет простые тесты. Следует testing guidelines команды. Использует load/stress/soak tests.
Platform Engineer		Понимает chaos engineering в контексте платформы: знает что платформа должна предоставлять инструменты для chaos testing, понимает как Kubernetes primitives (PodDisruptionBudget) связаны с chaos resilience.
Site Reliability Engineer (SRE)		Понимает chaos engineering как SRE-практику: знает связь с error budgets (chaos для verification что system stays within SLO), понимает game day формат. Участвует в проведении экспериментов как наблюдатель и помогает документировать результаты.

Роль	Обязательность	Описание
DevOps Engineer	Обязателен	Проводит chaos эксперименты: использует Litmus Chaos или Chaos Mesh для Kubernetes, создаёт game days с командой. Реализует базовые эксперименты: pod kill, network delay, resource stress. Документирует гипотезы, ход и выводы экспериментов.
Infrastructure Engineer	Обязателен	Проводит infrastructure chaos experiments: тестирует failover для databases (RDS failover, Redis sentinel), network partition между AZ, disk failure scenarios. Использует AWS Fault Injection Simulator или terraform-based fault injection для cloud infrastructure.
Performance Testing Engineer	Обязателен	Самостоятельно разрабатывает тесты с Chaos Engineering. Применяет test design techniques. Интегрирует тесты в CI/CD. Покрывает edge cases.
Platform Engineer	Обязателен	Интегрирует chaos engineering в платформу: устанавливает и настраивает Chaos Mesh/Litmus как platform service, создаёт шаблоны экспериментов для developer self-service. Обеспечивает isolation: chaos experiments не выходят за пределы target namespace.
Site Reliability Engineer (SRE)		Проводит chaos эксперименты для validation SLOs: создаёт hypothesis-driven experiments с чёткими steady-state metrics, использует Chaos Mesh/Litmus для Kubernetes failures. Анализирует impact на SLIs и определяет remediation actions на основе findings.

Роль	Обязательность	Описание
DevOps Engineer	Обязателен	Проектирует программу chaos engineering: определяет steady-state metrics, проектирует эксперименты с нарастающей сложностью (single pod → availability zone → region), настраивает automated chaos runs в CI/CD. Интегрирует результаты с SLO/SLI мониторингом для выявления слабых мест.
Infrastructure Engineer	Обязателен	Проектирует infrastructure resilience testing: создаёт automated DR drills, тестирует backup/restore procedures под нагрузкой, реализует region failover experiments. Настраивает infrastructure monitoring для detection chaos impact и automatic rollback.
Performance Testing Engineer	Обязателен	Проектирует тестовую стратегию с Chaos Engineering. Внедряет automated testing на всех уровнях. Оптимизирует тестовую пирамиду. Менторит команду.
Platform Engineer	Обязателен	Проектирует chaos-as-a-service платформу: создаёт API для программного запуска экспериментов, интегрирует с CI/CD для automated chaos testing, реализует RBAC для контроля кто может запускать какие эксперименты. Проектирует safety mechanisms: abort conditions, blast radius limits.
Site Reliability Engineer (SRE)	Обязателен	Проектирует chaos программу linked с SRE practices: интегрирует chaos experiments в post-mortem follow-ups, создаёт continuous verification для critical paths. Реализует sophisticated experiments: clock skew, DNS failures, TLS certificate expiry, cascading failure scenarios.

Роль	Обязательность	Описание
DevOps Engineer	Обязателен	Внедряет культуру chaos engineering: обучает команды проектированию экспериментов, создает safety net для production chaos (abort conditions, blast radius control). Проектирует chaos матрицу для покрытия всех типов failures: infrastructure, network, application, database.
Infrastructure Engineer	Обязателен	Определяет infrastructure resilience strategy: проектирует multi-region failover architecture validated через chaos, создаёт infrastructure chaos suite для continuous verification. Стандартизирует DR procedures и обеспечивает RTO/RPO compliance через regular testing.
Performance Testing Engineer	Обязателен	Определяет chaos + performance стандарты: performance degradation testing during failures, resilience testing under load. Внедряет GameDays для performance failures.
Platform Engineer	Обязателен	Стандартизирует chaos engineering на платформенном уровне: проектирует automated resilience scoring infrastructure, создаёт chaos experiment marketplace для переиспользования. Определяет platform-level chaos: testing platform components themselves (control plane, etcd, ingress).
Site Reliability Engineer (SRE)	Обязателен	Определяет chaos engineering стратегию для SRE-организации: создаёт chaos maturity assessment, проектирует automated resilience scoring per service. Внедряет chaos experiments как prerequisite для production readiness review и определяет escalation procedures.

Роль	Обязательность	Описание
DevOps Engineer		Формирует enterprise chaos engineering стратегию: проектирует chaos-as-a-service платформу для самообслуживания команд, определяет continuous verification pipeline. Влияет на культуру resilience через executive buy-in и ROI демонстрацию (предотвращённые инциденты vs cost of chaos program).
Infrastructure Engineer		Формирует enterprise infrastructure resilience: проектирует chaos testing для multi-cloud и hybrid infrastructure, определяет compliance requirements для business continuity. Влияет на industry standards для infrastructure resilience testing в regulated industries.
Performance Testing Engineer	Обязателен	Проектирует performance resilience testing: chaos engineering integrated with load testing, automated degradation detection, resilience SLO framework.
Platform Engineer		Формирует enterprise chaos platform: проектирует multi-cluster chaos coordination, определяет chaos governance (who, what, when, blast radius). Влияет на платформенную архитектуру через chaos-driven design decisions — ensuring platform itself is chaos-resilient.
Site Reliability Engineer (SRE)	Обязателен	Формирует enterprise resilience strategy через chaos: проектирует organization-wide chaos framework, определяет compliance requirements для chaos testing (financial services, healthcare). Влияет на industry practices через публикации и выступления о chaos engineering ROI.

Junior 5 требований

DevOps Engineer

Понимает принципы chaos engineering: знает зачем намеренно вносить сбои в production, Principles of Chaos Engineering. Знаком с базовыми инструментами (Chaos Monkey, Gremlin). Понимает разницу между chaos testing и обычным fault injection.
Infrastructure Engineer

Понимает infrastructure-level chaos: знает что можно тестировать отказы серверов, дисков, сети, DNS. Понимает как redundancy (multi-AZ, replication) защищает от infrastructure failures. Участвует в disaster recovery тестировании.
Performance Testing Engineer
Обязателен

Понимает основы Chaos Engineering. Пишет простые тесты. Следует testing guidelines команды. Использует load/stress/soak tests.

Middle 5 требований

DevOps Engineer
Обязателен

Проводит chaos эксперименты: использует Litmus Chaos или Chaos Mesh для Kubernetes, создаёт game days с командой. Реализует базовые эксперименты: pod kill, network delay, resource stress. Документирует гипотезы, ход и выводы экспериментов.
Infrastructure Engineer
Обязателен

Проводит infrastructure chaos experiments: тестирует failover для databases (RDS failover, Redis sentinel), network partition между AZ, disk failure scenarios. Использует AWS Fault Injection Simulator или terraform-based fault injection для cloud infrastructure.
Performance Testing Engineer
Обязателен

Самостоятельно разрабатывает тесты с Chaos Engineering. Применяет test design techniques. Интегрирует тесты в CI/CD. Покрывает edge cases.

Senior 5 требований

DevOps Engineer
Обязателен

Проектирует программу chaos engineering: определяет steady-state metrics, проектирует эксперименты с нарастающей сложностью (single pod → availability zone → region), настраивает automated chaos runs в CI/CD. Интегрирует результаты с SLO/SLI мониторингом для выявления слабых мест.
Infrastructure Engineer
Обязателен

Проектирует infrastructure resilience testing: создаёт automated DR drills, тестирует backup/restore procedures под нагрузкой, реализует region failover experiments. Настраивает infrastructure monitoring для detection chaos impact и automatic rollback.
Performance Testing Engineer
Обязателен

Проектирует тестовую стратегию с Chaos Engineering. Внедряет automated testing на всех уровнях. Оптимизирует тестовую пирамиду. Менторит команду.

Lead / Staff 5 требований

DevOps Engineer
Обязателен

Внедряет культуру chaos engineering: обучает команды проектированию экспериментов, создает safety net для production chaos (abort conditions, blast radius control). Проектирует chaos матрицу для покрытия всех типов failures: infrastructure, network, application, database.
Infrastructure Engineer
Обязателен

Определяет infrastructure resilience strategy: проектирует multi-region failover architecture validated через chaos, создаёт infrastructure chaos suite для continuous verification. Стандартизирует DR procedures и обеспечивает RTO/RPO compliance через regular testing.
Performance Testing Engineer
Обязателен

Определяет chaos + performance стандарты: performance degradation testing during failures, resilience testing under load. Внедряет GameDays для performance failures.

Principal 5 требований

DevOps Engineer

Формирует enterprise chaos engineering стратегию: проектирует chaos-as-a-service платформу для самообслуживания команд, определяет continuous verification pipeline. Влияет на культуру resilience через executive buy-in и ROI демонстрацию (предотвращённые инциденты vs cost of chaos program).
Infrastructure Engineer

Формирует enterprise infrastructure resilience: проектирует chaos testing для multi-cloud и hybrid infrastructure, определяет compliance requirements для business continuity. Влияет на industry standards для infrastructure resilience testing в regulated industries.
Performance Testing Engineer
Обязателен

Проектирует performance resilience testing: chaos engineering integrated with load testing, automated degradation detection, resilience SLO framework.

Сообщество

👁 Следить ✏️ Предложить изменение

Загрузка комментариев...