Профиль навыка

Chaos Engineering

Litmus, Gremlin, Chaos Monkey, fault injection, game days, steady state hypothesis

Тестирование и QA Специализированное тестирование

Ролей

5

где встречается этот навык

Грейдов

5

сформированная дорожка роста

Обязательных требований

17

ещё 8 — необязательные

Домен

Тестирование и QA

Группа

Специализированное тестирование

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль Обязательность Описание
DevOps Engineer Понимает принципы chaos engineering: знает зачем намеренно вносить сбои в production, Principles of Chaos Engineering. Знаком с базовыми инструментами (Chaos Monkey, Gremlin). Понимает разницу между chaos testing и обычным fault injection.
Infrastructure Engineer Понимает infrastructure-level chaos: знает что можно тестировать отказы серверов, дисков, сети, DNS. Понимает как redundancy (multi-AZ, replication) защищает от infrastructure failures. Участвует в disaster recovery тестировании.
Performance Testing Engineer Обязателен Понимает основы Chaos Engineering. Пишет простые тесты. Следует testing guidelines команды. Использует load/stress/soak tests.
Platform Engineer Понимает chaos engineering в контексте платформы: знает что платформа должна предоставлять инструменты для chaos testing, понимает как Kubernetes primitives (PodDisruptionBudget) связаны с chaos resilience.
Site Reliability Engineer (SRE) Понимает chaos engineering как SRE-практику: знает связь с error budgets (chaos для verification что system stays within SLO), понимает game day формат. Участвует в проведении экспериментов как наблюдатель и помогает документировать результаты.
Роль Обязательность Описание
DevOps Engineer Обязателен Проводит chaos эксперименты: использует Litmus Chaos или Chaos Mesh для Kubernetes, создаёт game days с командой. Реализует базовые эксперименты: pod kill, network delay, resource stress. Документирует гипотезы, ход и выводы экспериментов.
Infrastructure Engineer Обязателен Проводит infrastructure chaos experiments: тестирует failover для databases (RDS failover, Redis sentinel), network partition между AZ, disk failure scenarios. Использует AWS Fault Injection Simulator или terraform-based fault injection для cloud infrastructure.
Performance Testing Engineer Обязателен Самостоятельно разрабатывает тесты с Chaos Engineering. Применяет test design techniques. Интегрирует тесты в CI/CD. Покрывает edge cases.
Platform Engineer Обязателен Интегрирует chaos engineering в платформу: устанавливает и настраивает Chaos Mesh/Litmus как platform service, создаёт шаблоны экспериментов для developer self-service. Обеспечивает isolation: chaos experiments не выходят за пределы target namespace.
Site Reliability Engineer (SRE) Проводит chaos эксперименты для validation SLOs: создаёт hypothesis-driven experiments с чёткими steady-state metrics, использует Chaos Mesh/Litmus для Kubernetes failures. Анализирует impact на SLIs и определяет remediation actions на основе findings.
Роль Обязательность Описание
DevOps Engineer Обязателен Проектирует программу chaos engineering: определяет steady-state metrics, проектирует эксперименты с нарастающей сложностью (single pod → availability zone → region), настраивает automated chaos runs в CI/CD. Интегрирует результаты с SLO/SLI мониторингом для выявления слабых мест.
Infrastructure Engineer Обязателен Проектирует infrastructure resilience testing: создаёт automated DR drills, тестирует backup/restore procedures под нагрузкой, реализует region failover experiments. Настраивает infrastructure monitoring для detection chaos impact и automatic rollback.
Performance Testing Engineer Обязателен Проектирует тестовую стратегию с Chaos Engineering. Внедряет automated testing на всех уровнях. Оптимизирует тестовую пирамиду. Менторит команду.
Platform Engineer Обязателен Проектирует chaos-as-a-service платформу: создаёт API для программного запуска экспериментов, интегрирует с CI/CD для automated chaos testing, реализует RBAC для контроля кто может запускать какие эксперименты. Проектирует safety mechanisms: abort conditions, blast radius limits.
Site Reliability Engineer (SRE) Обязателен Проектирует chaos программу linked с SRE practices: интегрирует chaos experiments в post-mortem follow-ups, создаёт continuous verification для critical paths. Реализует sophisticated experiments: clock skew, DNS failures, TLS certificate expiry, cascading failure scenarios.
Роль Обязательность Описание
DevOps Engineer Обязателен Внедряет культуру chaos engineering: обучает команды проектированию экспериментов, создает safety net для production chaos (abort conditions, blast radius control). Проектирует chaos матрицу для покрытия всех типов failures: infrastructure, network, application, database.
Infrastructure Engineer Обязателен Определяет infrastructure resilience strategy: проектирует multi-region failover architecture validated через chaos, создаёт infrastructure chaos suite для continuous verification. Стандартизирует DR procedures и обеспечивает RTO/RPO compliance через regular testing.
Performance Testing Engineer Обязателен Определяет chaos + performance стандарты: performance degradation testing during failures, resilience testing under load. Внедряет GameDays для performance failures.
Platform Engineer Обязателен Стандартизирует chaos engineering на платформенном уровне: проектирует automated resilience scoring infrastructure, создаёт chaos experiment marketplace для переиспользования. Определяет platform-level chaos: testing platform components themselves (control plane, etcd, ingress).
Site Reliability Engineer (SRE) Обязателен Определяет chaos engineering стратегию для SRE-организации: создаёт chaos maturity assessment, проектирует automated resilience scoring per service. Внедряет chaos experiments как prerequisite для production readiness review и определяет escalation procedures.
Роль Обязательность Описание
DevOps Engineer Формирует enterprise chaos engineering стратегию: проектирует chaos-as-a-service платформу для самообслуживания команд, определяет continuous verification pipeline. Влияет на культуру resilience через executive buy-in и ROI демонстрацию (предотвращённые инциденты vs cost of chaos program).
Infrastructure Engineer Формирует enterprise infrastructure resilience: проектирует chaos testing для multi-cloud и hybrid infrastructure, определяет compliance requirements для business continuity. Влияет на industry standards для infrastructure resilience testing в regulated industries.
Performance Testing Engineer Обязателен Проектирует performance resilience testing: chaos engineering integrated with load testing, automated degradation detection, resilience SLO framework.
Platform Engineer Формирует enterprise chaos platform: проектирует multi-cluster chaos coordination, определяет chaos governance (who, what, when, blast radius). Влияет на платформенную архитектуру через chaos-driven design decisions — ensuring platform itself is chaos-resilient.
Site Reliability Engineer (SRE) Обязателен Формирует enterprise resilience strategy через chaos: проектирует organization-wide chaos framework, определяет compliance requirements для chaos testing (financial services, healthcare). Влияет на industry practices через публикации и выступления о chaos engineering ROI.

Сообщество

👁 Следить ✏️ Предложить изменение Войдите, чтобы предлагать изменения
📋 Предложения
Пока нет предложений для Chaos Engineering
Загрузка комментариев...