Профиль навыка

Apache Spark

PySpark, Spark SQL, DataFrames, partitioning, optimization, Spark on K8s

Data Engineering Batch-обработка данных

Ролей

3

где встречается этот навык

Грейдов

5

сформированная дорожка роста

Обязательных требований

13

ещё 2 — необязательные

Домен

Data Engineering

Группа

Batch-обработка данных

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль Обязательность Описание
Data Engineer Обязателен Понимает основы Apache Spark для дата-инженерии: API RDD/DataFrame, базовые трансформации и действия, чтение/запись Parquet/CSV/JSON. Следует командным паттернам для структуры PySpark-задач, конфигурации SparkSession и выделения ресурсов кластера.
Data Scientist Понимает основы Apache Spark для data science: Spark DataFrames для крупномасштабного анализа данных, базовые Spark SQL запросы и MLlib для распределённого обучения моделей. Следует командным паттернам для notebook-based Spark workflow'ов и feature engineering в масштабе.
ML Engineer Обязателен Понимает основы Apache Spark для ML-инженерии: пайплайны Spark MLlib, трансформеры признаков и распределённое обучение/инференс моделей. Следует командным паттернам для PySpark ML workflow'ов, сериализации моделей и интеграции с MLflow tracking.
Роль Обязательность Описание
Data Engineer Обязателен Самостоятельно реализует Spark-пайплайны данных: оптимизирует shuffle-операции и стратегии партиционирования, реализует Structured Streaming для real-time ETL, управляет Delta Lake таблицами с ACID-транзакциями. Тюнит конфигурации Spark для памяти, параллелизма и стоимостной эффективности.
Data Scientist Самостоятельно использует Spark для крупномасштабного анализа: пишет оптимизированный Spark SQL для сложных агрегаций, реализует распределённый feature engineering с window functions и использует MLlib для подбора гиперпараметров в масштабе. Управляет выделением ресурсов Spark для интерактивной аналитики.
ML Engineer Обязателен Использует PySpark для масштабной feature engineering. Оптимизирует Spark jobs (partitioning, caching, broadcast joins). Использует Spark ML для distributed model training.
Роль Обязательность Описание
Data Engineer Обязателен Проектирует архитектуру платформы данных на Spark: multi-tenant управление кластерами, cost-optimized планирование нагрузок с YARN/Kubernetes и lakehouse-архитектура с Delta Lake/Iceberg. Реализует фреймворки качества данных, CDC-пайплайны и мониторинг производительности Spark-приложений.
Data Scientist Обязателен Проектирует аналитические фреймворки на Spark: кастомные MLlib-трансформеры для доменных признаков, распределённые пайплайны экспериментов и интеграция Spark с GPU-ускоренным обучением (Rapids). Оптимизирует end-to-end ML workflow'ы от подготовки данных до serving моделей в петабайтном масштабе.
ML Engineer Обязателен Проектирует Spark-based ML pipelines для production. Оптимизирует Spark для ML workloads: memory tuning, shuffle optimization. Интегрирует Spark с ML platform (MLflow, feature store).
Роль Обязательность Описание
Data Engineer Обязателен Определяет Spark-стандарты: coding guidelines, job submission patterns, resource allocation policies. Выбирает между PySpark и Spark SQL по сценарию. Внедряет unit-тестирование Spark jobs через chispa.
Data Scientist Обязателен Определяет data engineering стратегию. Формирует data platform. Координирует data teams. Оптимизирует data mesh/data fabric подходы.
ML Engineer Обязателен Определяет Spark strategy для ML data processing. Оценивает Spark vs alternatives (Dask, Ray) для ML workloads. Проектирует distributed computing architecture для ML.
Роль Обязательность Описание
Data Engineer Обязателен Проектирует Spark-стратегию платформы: EMR vs Databricks vs self-hosted, cluster sizing, dynamic allocation. Определяет когда Spark vs DuckDB vs Polars. Планирует миграцию на Spark 4.0.
Data Scientist Обязателен Определяет data стратегию организации. Проектирует enterprise data platform. Формирует data governance framework.
ML Engineer Обязателен Определяет distributed processing strategy для enterprise ML. Проектирует data processing layer для ML platform. Оценивает novel distributed frameworks.

Сообщество

👁 Следить ✏️ Предложить изменение Войдите, чтобы предлагать изменения
📋 Предложения
Пока нет предложений для Apache Spark
Загрузка комментариев...