Домен
Data Engineering
Профиль навыка
DataFrame API, производительность, lazy evaluation, Arrow backend, обработка табличных данных
Ролей
9
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
39
ещё 6 — необязательные
Data Engineering
Batch-обработка данных
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Использует pandas для простых задач подготовки данных: чтение CSV/Excel, базовые фильтрации и агрегации для ad-hoc аналитики. Понимает DataFrame-операции для исследования данных перед созданием dbt-моделей. |
| BI Analyst | Обязателен | Понимает основы Pandas для BI-воркфлоу: создание DataFrame из различных источников (CSV, Excel, SQL), базовая фильтрация и агрегация данных и операции сводных таблиц. Очищает и подготавливает датасеты для визуализации в дашбордах. Следует командным конвенциям для скриптов трансформации данных. |
| Computer Vision Engineer | Понимает основы Pandas для CV-пайплайнов данных: управление метаданными изображений в DataFrame, загрузка и манипуляция датасетов аннотаций и разбиение датасетов на train/validation/test. Следует командным практикам предобработки данных и подготовки входных данных для пайплайнов аугментации. | |
| Data Analyst | Обязателен | Понимает основы Pandas для аналитических воркфлоу: загрузка данных из множества источников, разведочный анализ данных через describe/info/value_counts и базовая визуализация данных с интеграцией matplotlib. Очищает датасеты обработкой пропущенных значений и конвертацией типов. Следует командным стандартам кодирования для Jupyter notebooks. |
| Data Engineer | Обязателен | Обрабатывает данные через pandas: read_csv/read_parquet, фильтрация, группировка, merge. Понимает DataFrame API. Работает с типами данных и missing values (fillna, dropna). |
| Data Scientist | Понимает основы Pandas для data science воркфлоу: извлечение фич из сырых датасетов, статистический анализ через groupby/agg и подготовка данных для пайплайнов scikit-learn. Работает с категориальным кодированием, нормализацией и разбиением train/test. Следует командным практикам воспроизводимой обработки данных. | |
| LLM Engineer | Понимает основы Pandas для подготовки данных LLM: загрузка и предобработка текстовых датасетов, анализ статистик тренировочного корпуса и управление парами prompt/completion. Очищает и форматирует текстовые данные для датасетов файн-тюнинга. Следует командным практикам версионирования данных и проверок качества. | |
| ML Engineer | Обязателен | Эффективно использует pandas для ML: загрузка данных, EDA, feature engineering. Знает основные операции: groupby, merge, pivot. Понимает dtypes для оптимизации памяти. |
| NLP Engineer | Обязателен | Знает основы pandas для работы с текстовыми данными: загрузка корпусов, фильтрация, группировка, базовый text preprocessing. Использует str accessor для операций над текстовыми столбцами. |
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Применяет pandas/polars для сложной предобработки данных: merge разнородных источников, pivot-таблицы, обработка временных рядов. Использует polars для ускорения локальной обработки больших файлов перед загрузкой в warehouse. |
| BI Analyst | Обязателен | Реализует эффективные BI пайплайны данных с Pandas: мерж данных из множества источников, сложные цепочки агрегации и анализ временных рядов для детекции трендов. Оптимизирует использование памяти через правильный выбор dtype и чтение чанками для больших файлов. Создаёт переиспользуемые функции трансформации данных для повторяющихся аналитических задач. |
| Computer Vision Engineer | Реализует пайплайны управления данными CV с Pandas: конвертация форматов аннотаций (COCO, YOLO, VOC), вычисление статистик датасетов для анализа дисбаланса классов и пакетная обработка метаданных для мониторинга тренировки. Интегрирует Pandas с библиотеками обработки изображений для эффективной загрузки данных. Оптимизирует операции DataFrame для крупных датасетов аннотаций. | |
| Data Analyst | Обязателен | Реализует эффективные аналитические пайплайны с Pandas: стратегии join-ов множества таблиц, оконные функции с rolling/expanding и ресэмплинг временных рядов для разных гранулярностей. Использует Polars для performance-critical трансформаций на больших датасетах. Создаёт параметризированные пайплайны анализа с правильной обработкой ошибок и валидацией данных. |
| Data Engineer | Обязателен | Оптимизирует обработку через pandas/Polars: chunked reading для больших файлов, category dtype для memory, vectorized operations вместо iterrows. Мигрирует на Polars для performance-critical задач. |
| Data Scientist | Реализует эффективные ML пайплайны данных с Pandas/Polars: feature engineering со сложными трансформациями, автоматический отбор фич на основе статистических тестов и эффективные стратегии сэмплирования данных. Использует Polars для высокопроизводительных вычислений фич на больших датасетах. Создаёт воспроизводимые фич-пайплайны с правильным версионированием. | |
| LLM Engineer | Реализует пайплайны обработки данных LLM с Pandas/Polars: очистка и дедупликация текстового корпуса в масштабе, вычисление метрик качества тренировочных данных и управление датасетами оценки. Использует Polars для высокопроизводительной предобработки текста на больших корпусах. Создаёт воспроизводимые воркфлоу подготовки данных для файн-тюнинга и оценки. | |
| ML Engineer | Обязателен | Оптимизирует pandas-код для ML: vectorized operations, category dtype, chunked reading. Использует Polars для ускорения обработки. Пишет эффективные feature engineering pipelines. |
| NLP Engineer | Обязателен | Самостоятельно обрабатывает большие текстовые датасеты через pandas/Polars. Оптимизирует memory usage для корпусов, применяет vectorized string operations, интегрирует с NLP-библиотеками. |
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Проектирует Python-pipeline для данных, которые сложно обработать чистым SQL: NLP-обработка текстов, геокодирование, complex regex parsing. Оптимизирует pandas/polars для обработки миллионов строк: chunked reading, lazy evaluation в polars. |
| BI Analyst | Обязателен | Проектирует архитектуру обработки данных с Pandas/Polars для enterprise BI: автоматизированные ETL-пайплайны, фреймворки качества данных и подготовка данных для real-time аналитики. Оптимизирует крупномасштабные трансформации данных через lazy evaluation Polars и партиционированную обработку. Реализует практики data governance включая трекинг lineage и валидацию схем. Менторит команду по эффективным паттернам data engineering. |
| Computer Vision Engineer | Обязателен | Проектирует архитектуру управления данными для CV-систем с Pandas/Polars: автоматическое версионирование датасетов, пайплайны кросс-датасетного анализа и инфраструктура данных для трекинга производительности моделей. Реализует эффективное управление аннотациями для датасетов миллионного масштаба. Создаёт фреймворки качества данных для валидации тренировочных данных. Менторит команду по эффективной обработке данных для CV-воркфлоу. |
| Data Analyst | Обязателен | Проектирует архитектуру обработки данных для аналитических платформ: распределённые пайплайны данных, интегрирующие Pandas/Polars со Spark/Dask, автоматический мониторинг качества данных и подготовка данных для self-service аналитики. Реализует data governance с эволюцией схем и обратной совместимостью. Создаёт организационные стандарты трансформации данных и переиспользуемую библиотеку. Менторит команду по оптимизации производительности. |
| Data Engineer | Обязателен | Проектирует data processing: Polars для single-node high-performance, pandas для quick prototyping, PySpark для distributed. Выбирает инструмент по объёму и паттерну обработки. Оптимизирует memory management. |
| Data Scientist | Обязателен | Проектирует архитектуру данных ML с Pandas/Polars: интеграция feature store, автоматизированные пайплайны валидации фич и эффективная загрузка данных для распределённой тренировки. Реализует фреймворки качества данных для целостности тренировочных данных. Создаёт организационные библиотеки и стандарты feature engineering. Менторит команду по масштабируемым паттернам обработки данных для ML. |
| LLM Engineer | Обязателен | Проектирует архитектуру данных LLM с Pandas/Polars: инфраструктура пайплайнов тренировочных данных, управление бенчмарками оценки и версионирование датасетов для воспроизводимости моделей. Реализует фреймворки качества данных для детекции контаминации, bias и distribution shift. Создаёт организационные стандарты подготовки данных для файн-тюнинга LLM. Менторит команду по масштабируемой обработке текста. |
| ML Engineer | Обязателен | Проектирует data processing pipelines для ML. Выбирает pandas vs Polars vs Spark для разных масштабов. Оптимизирует memory usage для больших датасетов. Пишет переиспользуемые feature transformers. |
| NLP Engineer | Обязателен | Проектирует эффективные data pipeline для NLP на pandas/Polars. Оптимизирует обработку больших текстовых корпусов, применяет partitioning, chunked processing для out-of-memory datasets. |
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Определяет стандарты использования Python vs SQL в аналитической платформе: когда оправдан pandas/polars вместо dbt, шаблоны для Python-моделей в dbt. Внедряет best practices для reproducible data preparation notebooks. |
| BI Analyst | Обязателен | Определяет стратегию data engineering для BI-организации. Формирует архитектуру data-платформы: выбор инструментов (Pandas vs Polars vs Spark), стандарты пайплайнов данных и governance качества данных. Координирует data-команды по общим библиотекам трансформации и лучшим практикам. Оптимизирует подходы data mesh/data fabric для self-service аналитики. |
| Computer Vision Engineer | Обязателен | Определяет стратегию данных для команд CV-инжиниринга. Формирует data-платформу для компьютерного зрения: инструменты управления датасетами, стандарты пайплайнов аннотации и governance качества данных для тренировочных данных. Координирует команды по практикам обмена данными и переиспользованию датасетов между проектами. Продвигает внедрение эффективных инструментов обработки данных. |
| Data Analyst | Обязателен | Определяет стратегию data engineering для аналитических команд. Формирует data-платформу: выбор инструментов и стандарты для трансформации данных, оркестрация пайплайнов и governance качества. Координирует аналитические команды по общим data-ассетам и лучшим практикам. Продвигает внедрение современных фреймворков обработки данных (Polars, DuckDB) для аналитических нагрузок. |
| Data Engineer | Обязателен | Определяет стандарты data processing: когда pandas/Polars vs Spark, coding guidelines, testing patterns. Внедряет benchmarking для выбора инструментов. Обучает команду Polars adoption. |
| Data Scientist | Обязателен | Определяет стратегию data engineering для ML-команд. Формирует ML data-платформу: архитектура feature store, стандарты пайплайнов данных и governance тренировочных данных. Координирует ML-команды по общим библиотекам feature engineering и практикам качества данных. Продвигает внедрение современных инструментов обработки данных (Polars, Ray) для ML-нагрузок. |
| LLM Engineer | Обязателен | Определяет data engineering стратегию. Формирует data platform. Координирует data teams. Оптимизирует data mesh/data fabric подходы. |
| ML Engineer | Обязателен | Определяет стандарты data processing для ML-команды. Создаёт feature engineering framework. Обучает команду эффективной работе с данными. |
| NLP Engineer | Обязателен | Определяет стандарты работы с данными для NLP-команды. Формирует best practices использования pandas/Polars, определяет data processing patterns и обучает команду оптимизации. |
| Роль | Обязательность | Описание |
|---|---|---|
| Analytics Engineer | Обязателен | Проектирует стратегию выбора инструментов трансформации: dbt (SQL) как primary, Python-модели для ML feature engineering и сложной логики. Определяет архитектуру интеграции pandas/polars/PySpark с dbt для гибридных pipeline-ов. |
| BI Analyst | Обязателен | Определяет организационную стратегию данных для бизнес-аналитики: дизайн enterprise data-платформы, фреймворк data governance и видение self-service аналитики. Оценивает новые data-технологии для трансформации BI. Продвигает внедрение data-driven культуры в организации. Формирует стандарты data literacy и тулинга на enterprise-уровне. |
| Computer Vision Engineer | Обязателен | Определяет организационную стратегию данных для AI/CV: enterprise-платформа управления датасетами, data governance для тренировочных данных ML и архитектура обмена данными между командами. Оценивает новые data-технологии для CV-нагрузок. Продвигает внедрение эффективных практик обработки данных между CV-командами. |
| Data Analyst | Обязателен | Определяет организационную стратегию данных: архитектура enterprise data-платформы, фреймворк data governance и видение демократизации данных. Оценивает новые data-технологии и фреймворки обработки. Продвигает data-driven культуру и data literacy в организации. Формирует индустриальные практики через thought leadership в data engineering. |
| Data Engineer | Обязателен | Определяет стратегию local data processing: DuckDB для ad-hoc analytics, Polars для batch ETL, Arrow для zero-copy data exchange. Проектирует unified API для разных backends. |
| Data Scientist | Обязателен | Определяет организационную стратегию данных для ML/AI: enterprise ML data-платформа, архитектура feature store и data governance для ответственного AI. Оценивает новые data-технологии для ML-нагрузок в масштабе. Продвигает data engineering excellence между data science командами. Формирует организационную data-культуру и практики для AI-ready инфраструктуры данных. |
| LLM Engineer | Обязателен | Определяет data стратегию организации. Проектирует enterprise data platform. Формирует data governance framework. |
| ML Engineer | Обязателен | Определяет data processing strategy для ML-платформы. Оценивает novel data processing frameworks. Проектирует unified data API для ML. |
| NLP Engineer | Обязателен | Формирует enterprise-стратегию обработки текстовых данных на уровне организации. Определяет стандарты data processing, выбор инструментов и архитектуру data pipeline для NLP-платформы. |