Профиль навыка

Apache Spark

PySpark, Spark SQL, DataFrames, partitioning, optimization, Spark on K8s

Data Engineering Batch-обработка данных

Ролей

где встречается этот навык

Грейдов

сформированная дорожка роста

Обязательных требований

ещё 2 — необязательные

Домен

Data Engineering

Группа

Batch-обработка данных

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль	Обязательность	Описание
Data Engineer	Обязателен	Понимает основы Apache Spark для дата-инженерии: API RDD/DataFrame, базовые трансформации и действия, чтение/запись Parquet/CSV/JSON. Следует командным паттернам для структуры PySpark-задач, конфигурации SparkSession и выделения ресурсов кластера.
Data Scientist		Понимает основы Apache Spark для data science: Spark DataFrames для крупномасштабного анализа данных, базовые Spark SQL запросы и MLlib для распределённого обучения моделей. Следует командным паттернам для notebook-based Spark workflow'ов и feature engineering в масштабе.
ML Engineer	Обязателен	Понимает основы Apache Spark для ML-инженерии: пайплайны Spark MLlib, трансформеры признаков и распределённое обучение/инференс моделей. Следует командным паттернам для PySpark ML workflow'ов, сериализации моделей и интеграции с MLflow tracking.

Роль	Обязательность	Описание
Data Engineer	Обязателен	Самостоятельно реализует Spark-пайплайны данных: оптимизирует shuffle-операции и стратегии партиционирования, реализует Structured Streaming для real-time ETL, управляет Delta Lake таблицами с ACID-транзакциями. Тюнит конфигурации Spark для памяти, параллелизма и стоимостной эффективности.
Data Scientist		Самостоятельно использует Spark для крупномасштабного анализа: пишет оптимизированный Spark SQL для сложных агрегаций, реализует распределённый feature engineering с window functions и использует MLlib для подбора гиперпараметров в масштабе. Управляет выделением ресурсов Spark для интерактивной аналитики.
ML Engineer	Обязателен	Использует PySpark для масштабной feature engineering. Оптимизирует Spark jobs (partitioning, caching, broadcast joins). Использует Spark ML для distributed model training.

Роль	Обязательность	Описание
Data Engineer	Обязателен	Проектирует архитектуру платформы данных на Spark: multi-tenant управление кластерами, cost-optimized планирование нагрузок с YARN/Kubernetes и lakehouse-архитектура с Delta Lake/Iceberg. Реализует фреймворки качества данных, CDC-пайплайны и мониторинг производительности Spark-приложений.
Data Scientist	Обязателен	Проектирует аналитические фреймворки на Spark: кастомные MLlib-трансформеры для доменных признаков, распределённые пайплайны экспериментов и интеграция Spark с GPU-ускоренным обучением (Rapids). Оптимизирует end-to-end ML workflow'ы от подготовки данных до serving моделей в петабайтном масштабе.
ML Engineer	Обязателен	Проектирует Spark-based ML pipelines для production. Оптимизирует Spark для ML workloads: memory tuning, shuffle optimization. Интегрирует Spark с ML platform (MLflow, feature store).

Роль	Обязательность	Описание
Data Engineer	Обязателен	Определяет Spark-стандарты: coding guidelines, job submission patterns, resource allocation policies. Выбирает между PySpark и Spark SQL по сценарию. Внедряет unit-тестирование Spark jobs через chispa.
Data Scientist	Обязателен	Определяет data engineering стратегию. Формирует data platform. Координирует data teams. Оптимизирует data mesh/data fabric подходы.
ML Engineer	Обязателен	Определяет Spark strategy для ML data processing. Оценивает Spark vs alternatives (Dask, Ray) для ML workloads. Проектирует distributed computing architecture для ML.

Роль	Обязательность	Описание
Data Engineer	Обязателен	Проектирует Spark-стратегию платформы: EMR vs Databricks vs self-hosted, cluster sizing, dynamic allocation. Определяет когда Spark vs DuckDB vs Polars. Планирует миграцию на Spark 4.0.
Data Scientist	Обязателен	Определяет data стратегию организации. Проектирует enterprise data platform. Формирует data governance framework.
ML Engineer	Обязателен	Определяет distributed processing strategy для enterprise ML. Проектирует data processing layer для ML platform. Оценивает novel distributed frameworks.

Junior 3 требований

Data Engineer
Обязателен

Понимает основы Apache Spark для дата-инженерии: API RDD/DataFrame, базовые трансформации и действия, чтение/запись Parquet/CSV/JSON. Следует командным паттернам для структуры PySpark-задач, конфигурации SparkSession и выделения ресурсов кластера.
Data Scientist

Понимает основы Apache Spark для data science: Spark DataFrames для крупномасштабного анализа данных, базовые Spark SQL запросы и MLlib для распределённого обучения моделей. Следует командным паттернам для notebook-based Spark workflow'ов и feature engineering в масштабе.
ML Engineer
Обязателен

Понимает основы Apache Spark для ML-инженерии: пайплайны Spark MLlib, трансформеры признаков и распределённое обучение/инференс моделей. Следует командным паттернам для PySpark ML workflow'ов, сериализации моделей и интеграции с MLflow tracking.

Middle 3 требований

Data Engineer
Обязателен

Самостоятельно реализует Spark-пайплайны данных: оптимизирует shuffle-операции и стратегии партиционирования, реализует Structured Streaming для real-time ETL, управляет Delta Lake таблицами с ACID-транзакциями. Тюнит конфигурации Spark для памяти, параллелизма и стоимостной эффективности.
Data Scientist

Самостоятельно использует Spark для крупномасштабного анализа: пишет оптимизированный Spark SQL для сложных агрегаций, реализует распределённый feature engineering с window functions и использует MLlib для подбора гиперпараметров в масштабе. Управляет выделением ресурсов Spark для интерактивной аналитики.
ML Engineer
Обязателен

Использует PySpark для масштабной feature engineering. Оптимизирует Spark jobs (partitioning, caching, broadcast joins). Использует Spark ML для distributed model training.

Senior 3 требований

Data Engineer
Обязателен

Проектирует архитектуру платформы данных на Spark: multi-tenant управление кластерами, cost-optimized планирование нагрузок с YARN/Kubernetes и lakehouse-архитектура с Delta Lake/Iceberg. Реализует фреймворки качества данных, CDC-пайплайны и мониторинг производительности Spark-приложений.
Data Scientist
Обязателен

Проектирует аналитические фреймворки на Spark: кастомные MLlib-трансформеры для доменных признаков, распределённые пайплайны экспериментов и интеграция Spark с GPU-ускоренным обучением (Rapids). Оптимизирует end-to-end ML workflow'ы от подготовки данных до serving моделей в петабайтном масштабе.
ML Engineer
Обязателен

Проектирует Spark-based ML pipelines для production. Оптимизирует Spark для ML workloads: memory tuning, shuffle optimization. Интегрирует Spark с ML platform (MLflow, feature store).

Lead / Staff 3 требований

Data Engineer
Обязателен

Определяет Spark-стандарты: coding guidelines, job submission patterns, resource allocation policies. Выбирает между PySpark и Spark SQL по сценарию. Внедряет unit-тестирование Spark jobs через chispa.
Data Scientist
Обязателен

Определяет data engineering стратегию. Формирует data platform. Координирует data teams. Оптимизирует data mesh/data fabric подходы.
ML Engineer
Обязателен

Определяет Spark strategy для ML data processing. Оценивает Spark vs alternatives (Dask, Ray) для ML workloads. Проектирует distributed computing architecture для ML.

Principal 3 требований

Data Engineer
Обязателен

Проектирует Spark-стратегию платформы: EMR vs Databricks vs self-hosted, cluster sizing, dynamic allocation. Определяет когда Spark vs DuckDB vs Polars. Планирует миграцию на Spark 4.0.
Data Scientist
Обязателен

Определяет data стратегию организации. Проектирует enterprise data platform. Формирует data governance framework.
ML Engineer
Обязателен

Определяет distributed processing strategy для enterprise ML. Проектирует data processing layer для ML platform. Оценивает novel distributed frameworks.

Сообщество

👁 Следить ✏️ Предложить изменение

Загрузка комментариев...