Домен
Data Engineering
Профиль навыка
Stored procedures, CTEs, оконные функции, bulk operations, трансформации на SQL
Ролей
6
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
28
ещё 2 — необязательные
Data Engineering
Batch-обработка данных
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Пишет базовые SQL-трансформации в dbt: SELECT с переименованием колонок, type casting, простые фильтры для staging-моделей. Понимает концепцию ELT и роль SQL как основного языка аналитических трансформаций. |
| BI Analyst | Обязателен | Понимает основы SQL-based ETL для BI-хранилищ. Пишет простые запросы для загрузки измерений и фактов. Следует существующим паттернам загрузки star schema и конвенциям staging-слоёв. |
| Data Analyst | Обязателен | Понимает основы SQL-based ETL для аналитических датасетов. Пишет базовые запросы для извлечения и очистки данных. Следует установленным паттернам пайплайнов для подготовки отфильтрованных данных для ad-hoc анализа. |
| Data Engineer | Обязателен | Пишет SQL для ETL: INSERT INTO SELECT, MERGE для upserts, CTE для readable transformations. Использует оконные функции (ROW_NUMBER, LAG, LEAD) для data processing. |
| Data Scientist | Понимает основы SQL-based ETL для подготовки ML-данных. Пишет базовые запросы для извлечения и фильтрации обучающих датасетов. Следует установленным паттернам feature extraction и выполняет простые преобразования типов в ETL. | |
| ML Engineer | Обязателен | Пишет SQL для извлечения training данных. Понимает ETL для ML: extract features, transform, load в training format. Использует pandas.read_sql для загрузки данных. |
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Разрабатывает сложные SQL-трансформации в dbt: window-функции для расчёта метрик, CTE-цепочки для многошаговой бизнес-логики, Jinja-макросы для DRY-подхода. Реализует incremental-модели с merge-стратегией для оптимизации. |
| BI Analyst | Обязателен | Строит ETL-пайплайны для наполнения dimensional моделей BI-отчётности. Реализует загрузки SCD Type 1/2, управляет суррогатными ключами и обеспечивает ссылочную целостность между таблицами фактов и измерений. |
| Data Analyst | Обязателен | Строит SQL ETL-пайплайны для когортного анализа и подготовки аналитических датасетов. Реализует трансформации очистки данных, обрабатывает пропуски и выбросы, создаёт переиспользуемые шаблоны ad-hoc трансформаций. |
| Data Engineer | Обязателен | Проектирует SQL-трансформации: stored procedures для complex ETL, parameterized queries, temp tables для промежуточных вычислений. Оптимизирует execution plans. Управляет transaction control. |
| Data Scientist | Строит ETL-пайплайны для feature engineering и подготовки обучающих данных ML. Реализует SQL-based feature-трансформации, управляет версионированием датасетов через snapshot-таблицы и обеспечивает воспроизводимость извлечения данных для экспериментов. | |
| ML Engineer | Обязателен | Проектирует SQL ETL для feature computation. Использует dbt для трансформации ML features. Пишет incremental ETL для обновления training данных. Автоматизирует через Airflow. |
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Проектирует оптимальные SQL-трансформации для аналитического warehouse: декомпозиция сложной логики в промежуточные модели, warehouse-специфичные оптимизации (Snowflake QUALIFY, BigQuery STRUCT). Создаёт reusable dbt macros для типовых паттернов. |
| BI Analyst | Обязателен | Проектирует сквозные ETL-процессы для корпоративных BI-хранилищ. Разрабатывает стратегии инкрементальных загрузок, оптимизирует циклы обновления star/snowflake схем и внедряет quality gates для report-ready датасетов. |
| Data Analyst | Обязателен | Проектирует комплексные ETL-воркфлоу для кросс-функциональных аналитических датасетов. Разрабатывает фреймворки когортного извлечения, строит self-service пайплайны очистки данных и оптимизирует трансформации для масштабного ad-hoc анализа. |
| Data Engineer | Обязателен | Проектирует SQL-based ETL архитектуру: ELT pattern (load-then-transform), incremental processing через merge/upsert, materialized views для performance. Интегрирует с dbt для version-controlled SQL. |
| Data Scientist | Обязателен | Проектирует ETL-воркфлоу для сквозных ML-пайплайнов включая feature stores. Разрабатывает масштабируемые feature engineering трансформации, внедряет стратегии версионирования данных и строит автоматизированную валидацию обучающих данных в ETL. |
| ML Engineer | Обязателен | Проектирует ETL architecture для ML data pipeline. Оптимизирует ETL для больших объёмов данных. Настраивает data quality checks в ETL. Интегрирует ETL с feature store. |
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Определяет стандарты SQL-трансформаций организации: coding style guide, обязательные паттерны (surrogate keys, audit columns), библиотека dbt macros и packages. Внедряет automated SQL review и performance benchmarking для критических моделей. |
| BI Analyst | Обязателен | Определяет стратегию и стандарты ETL для BI-хранилищ на уровне команд. Управляет конвенциями dimensional modeling, оркестрирует кросс-доменную интеграцию данных и устанавливает SLA-driven расписания обновлений для дашбордов. |
| Data Analyst | Обязателен | Определяет стандарты ETL и методологию очистки данных для аналитических команд. Устанавливает governance определения когорт, координирует кросс-командные воркфлоу подготовки датасетов и продвигает воспроизводимые аналитические пайплайны. |
| Data Engineer | Обязателен | Определяет SQL-стандарты data-команды: style guide, review checklist, performance budgets. Выбирает между SQL-based ETL (dbt) и code-based (PySpark) по сценарию. |
| Data Scientist | Обязателен | Определяет стратегию ETL ML data platform и стандарты feature engineering. Управляет воркфлоу подготовки обучающих данных в DS-командах, устанавливает политики версионирования данных и координирует ETL-инфраструктуру для обучения моделей. |
| ML Engineer | Обязателен | Определяет ETL strategy для ML-данных. Координирует с Data Engineering по ML data requirements. Проектирует data contracts для ML features. |
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Проектирует стратегию трансформационного слоя предприятия: унификация SQL-диалектов через dbt adapters, portable бизнес-логика между warehouse-ами. Определяет архитектуру для поддержки real-time и batch трансформаций в единой платформе. |
| BI Analyst | Обязателен | Формирует видение BI data platform и ETL-архитектуры на уровне организации. Продвигает современные ELT-паттерны, определяет стандарты enterprise semantic layer и согласует стратегию ETL хранилищ с долгосрочной BI-дорожной картой. |
| Data Analyst | Обязателен | Формирует стратегию аналитических данных и ETL-архитектуру предприятия. Определяет организационные стандарты очистки данных, проектирует масштабируемую инфраструктуру когортного анализа и согласует ETL с аналитическими целями бизнес-юнитов. |
| Data Engineer | Обязателен | Проектирует transformation-стратегию: SQL для declarative ETL, Python для complex logic, hybrid подходы. Определяет query engine selection (Trino, BigQuery, Redshift) по workload pattern. |
| Data Scientist | Обязателен | Формирует ML data архитектуру и видение ETL на уровне организации. Продвигает внедрение feature stores, определяет enterprise-стандарты lineage и версионирования обучающих данных и согласует ETL-инфраструктуру со стратегией AI/ML платформы. |
| ML Engineer | Обязателен | Определяет data pipeline strategy для ML-платформы. Оценивает ETL vs ELT vs streaming для ML. Проектирует data architecture для enterprise ML. |