Домен
Data Engineering
Профиль навыка
PySpark, Spark SQL, DataFrames, partitioning, optimization, Spark on K8s
Ролей
3
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
13
ещё 2 — необязательные
Data Engineering
Batch-обработка данных
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| Data Engineer | Обязателен | Понимает основы Apache Spark для дата-инженерии: API RDD/DataFrame, базовые трансформации и действия, чтение/запись Parquet/CSV/JSON. Следует командным паттернам для структуры PySpark-задач, конфигурации SparkSession и выделения ресурсов кластера. |
| Data Scientist | Понимает основы Apache Spark для data science: Spark DataFrames для крупномасштабного анализа данных, базовые Spark SQL запросы и MLlib для распределённого обучения моделей. Следует командным паттернам для notebook-based Spark workflow'ов и feature engineering в масштабе. | |
| ML Engineer | Обязателен | Понимает основы Apache Spark для ML-инженерии: пайплайны Spark MLlib, трансформеры признаков и распределённое обучение/инференс моделей. Следует командным паттернам для PySpark ML workflow'ов, сериализации моделей и интеграции с MLflow tracking. |
| Роль | Обязательность | Описание |
|---|---|---|
| Data Engineer | Обязателен | Самостоятельно реализует Spark-пайплайны данных: оптимизирует shuffle-операции и стратегии партиционирования, реализует Structured Streaming для real-time ETL, управляет Delta Lake таблицами с ACID-транзакциями. Тюнит конфигурации Spark для памяти, параллелизма и стоимостной эффективности. |
| Data Scientist | Самостоятельно использует Spark для крупномасштабного анализа: пишет оптимизированный Spark SQL для сложных агрегаций, реализует распределённый feature engineering с window functions и использует MLlib для подбора гиперпараметров в масштабе. Управляет выделением ресурсов Spark для интерактивной аналитики. | |
| ML Engineer | Обязателен | Использует PySpark для масштабной feature engineering. Оптимизирует Spark jobs (partitioning, caching, broadcast joins). Использует Spark ML для distributed model training. |
| Роль | Обязательность | Описание |
|---|---|---|
| Data Engineer | Обязателен | Проектирует архитектуру платформы данных на Spark: multi-tenant управление кластерами, cost-optimized планирование нагрузок с YARN/Kubernetes и lakehouse-архитектура с Delta Lake/Iceberg. Реализует фреймворки качества данных, CDC-пайплайны и мониторинг производительности Spark-приложений. |
| Data Scientist | Обязателен | Проектирует аналитические фреймворки на Spark: кастомные MLlib-трансформеры для доменных признаков, распределённые пайплайны экспериментов и интеграция Spark с GPU-ускоренным обучением (Rapids). Оптимизирует end-to-end ML workflow'ы от подготовки данных до serving моделей в петабайтном масштабе. |
| ML Engineer | Обязателен | Проектирует Spark-based ML pipelines для production. Оптимизирует Spark для ML workloads: memory tuning, shuffle optimization. Интегрирует Spark с ML platform (MLflow, feature store). |
| Роль | Обязательность | Описание |
|---|---|---|
| Data Engineer | Обязателен | Определяет Spark-стандарты: coding guidelines, job submission patterns, resource allocation policies. Выбирает между PySpark и Spark SQL по сценарию. Внедряет unit-тестирование Spark jobs через chispa. |
| Data Scientist | Обязателен | Определяет data engineering стратегию. Формирует data platform. Координирует data teams. Оптимизирует data mesh/data fabric подходы. |
| ML Engineer | Обязателен | Определяет Spark strategy для ML data processing. Оценивает Spark vs alternatives (Dask, Ray) для ML workloads. Проектирует distributed computing architecture для ML. |
| Роль | Обязательность | Описание |
|---|---|---|
| Data Engineer | Обязателен | Проектирует Spark-стратегию платформы: EMR vs Databricks vs self-hosted, cluster sizing, dynamic allocation. Определяет когда Spark vs DuckDB vs Polars. Планирует миграцию на Spark 4.0. |
| Data Scientist | Обязателен | Определяет data стратегию организации. Проектирует enterprise data platform. Формирует data governance framework. |
| ML Engineer | Обязателен | Определяет distributed processing strategy для enterprise ML. Проектирует data processing layer для ML platform. Оценивает novel distributed frameworks. |