Домен
Machine Learning и AI
Профиль навыка
Triton, BentoML, Seldon: model deployment, A/B testing, canary releases
Ролей
7
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
25
ещё 10 — необязательные
Machine Learning и AI
MLOps
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Понимает основы model serving для AI-продуктов: REST/gRPC inference-эндпоинты, версионирование моделей для A/B-тестирования и базовые требования латенси/пропускной способности. Следует командным гайдлайнам интеграции предсказаний моделей в продуктовые фичи. Понимает различия между batch и real-time inference. | |
| Computer Vision Engineer | Понимает основы model serving для CV-систем: настройка пайплайна inference изображений/видео, аллокация GPU-ресурсов для inference и конвертация форматов моделей (ONNX, TensorRT). Следует командным практикам деплоя CV-моделей на продуктовые эндпоинты. | |
| Data Scientist | Понимает основы model serving: экспорт обученных моделей (pickle, ONNX, SavedModel), базовое создание API-обёрток с Flask/FastAPI и определение схем input/output модели. Следует командным практикам упаковки моделей и воркфлоу деплоя. | |
| LLM Engineer | Понимает основы serving LLM: настройка inference API (vLLM, TGI), конфигурация эндпоинтов prompt/completion и соображения биллинга на основе токенов. Следует командным практикам деплоя LLM включая управление контекстным окном и настройку стриминга ответов. | |
| ML Engineer | Обязателен | Деплоит ML-модель как REST API через веб-фреймворк/Flask. Понимает inference pipeline: preprocessing -> prediction -> postprocessing. Использует pickle/joblib для сериализации моделей. |
| MLOps Engineer | Понимает базовые концепции model serving: разница между batch и real-time inference, основные форматы моделей (ONNX, SavedModel, pickle). Умеет деплоить простую модель через Flask/FastAPI endpoint, загружать модель из файла и возвращать предсказания. Знает о существовании специализированных serving-систем — TFServing, Triton, Seldon. | |
| NLP Engineer | Обязателен | Знает основы serving NLP-моделей: REST API endpoints, model loading, batching. Разворачивает простые NLP-модели как REST API для text classification и NER задач. |
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Реализует model serving для фич AI-продуктов: мульти-модельные пайплайны inference, интеграция feature store для real-time обогащения и инфраструктура A/B-тестирования для сравнения моделей. Настраивает auto-scaling на основе паттернов нагрузки inference. Реализует стратегии fallback моделей для high-availability продуктовых фич. | |
| Computer Vision Engineer | Реализует пайплайны serving CV-моделей: batch и real-time inference с GPU-оптимизацией, стратегии ансамбля моделей для улучшения точности и оптимизация пайплайна pre/post-processing. Настраивает TensorRT/ONNX Runtime для ускорения inference. Реализует кеширование моделей и стратегии прогрева для консистентной латенси. | |
| Data Scientist | Реализует решения model serving: контейнеризированный деплой моделей (Docker/K8s), мониторинг data drift и качества предсказаний и canary deployment для безопасного роллаута моделей. Использует MLflow/BentoML для упаковки и serving моделей. Реализует feature engineering в serving-пайплайне, консистентный с тренировкой. | |
| LLM Engineer | Реализует решения serving LLM: оптимизация KV-cache для пропускной способности, стратегии батчинга (continuous batching, dynamic batching) и квантизация для cost-efficient inference (GPTQ, AWQ, GGUF). Настраивает vLLM/TGI для продуктовых нагрузок. Реализует инфраструктуру стриминга ответов и мониторинг латенси на уровне токенов. | |
| ML Engineer | Обязателен | Использует model serving frameworks: Triton, BentoML, Seldon. Настраивает batch и real-time inference. Оптимизирует inference latency (ONNX, model optimization). Настраивает A/B testing моделей. |
| MLOps Engineer | Разворачивает модели в production через специализированные serving-платформы: TensorFlow Serving для TF-моделей, Triton Inference Server для multi-framework serving. Настраивает BentoML для упаковки моделей с зависимостями, реализует batch inference через Spark/Ray и конфигурирует model versioning для бесшовного обновления моделей в production. | |
| NLP Engineer | Обязателен | Самостоятельно проектирует serving NLP-моделей: TorchServe, Triton Inference Server. Настраивает batching, model versioning, A/B testing. Оптимизирует latency через model optimization. |
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Обязателен | Проектирует архитектуру model serving для AI-продуктов: оркестрация мульти-моделей с логикой маршрутизации, real-time вычисление фич для обогащения inference и cost-оптимизированный serving с многоуровневым выбором моделей. Реализует наблюдаемость serving: перцентили латенси, метрики качества предсказаний и трекинг cost-per-inference. Создаёт governance деплоя моделей для AI-продуктов. Менторит команду по паттернам production ML. |
| Computer Vision Engineer | Обязателен | Проектирует архитектуру serving CV-моделей: edge-cloud гибридный inference для latency-critical приложений, multi-GPU serving с dynamic batching и пайплайны дистилляции моделей для оптимизации деплоя. Реализует мониторинг serving: латенси inference, утилизация GPU и трекинг точности предсказаний. Создаёт референсные архитектуры деплоя CV-моделей. Менторит команду по дизайну продуктовых CV-систем. |
| Data Scientist | Обязателен | Проектирует архитектуру model serving: масштабируемые inference-платформы, интеграция реестра моделей с автоматическим деплоем и гарантии консистентности online/offline фич. Реализует продвинутый мониторинг: детекция data drift, алерты деградации производительности моделей и автоматические триггеры переобучения. Создаёт лучшие практики serving и стандарты деплоя моделей. Менторит команду по паттернам MLOps. |
| LLM Engineer | Обязателен | Проектирует архитектуру serving LLM: мульти-модельный gateway с интеллектуальной маршрутизацией, speculative decoding для оптимизации латенси и disaggregated serving (разделение prefill/decode). Реализует оптимизацию затрат: управление бюджетом токенов, слои кеширования для повторяющихся промптов и стратегии каскада моделей. Создаёт бенчмарки LLM serving и модели планирования ёмкости. Менторит команду по инфраструктуре production LLM. |
| ML Engineer | Обязателен | Проектирует model serving architecture. Оптимизирует throughput (batching, GPU scheduling). Настраивает autoscaling для ML serving. Реализует model fallback и canary deployment. |
| MLOps Engineer | Обязателен | Проектирует архитектуру model serving для сложных сценариев: multi-model serving с динамической загрузкой, ensemble inference через Triton, A/B-тестирование моделей. Оптимизирует latency через model optimization (TensorRT, ONNX Runtime), реализует GPU-sharing для эффективной утилизации ресурсов и проектирует автоскейлинг на основе inference-метрик. |
| NLP Engineer | Обязателен | Проектирует high-performance serving инфраструктуру для NLP-моделей. Оптимизирует через quantization, distillation, model parallelism. Обеспечивает SLA по latency и throughput. |
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Обязателен | Определяет стратегию model serving для AI-продуктовой платформы. Устанавливает SLA-цели inference, фреймворки управления затратами и governance деплоя моделей. Проводит архитектурные ревью инфраструктуры AI serving. Продвигает внедрение эффективных паттернов model serving между продуктовыми командами. |
| Computer Vision Engineer | Обязателен | Определяет стратегию model serving для команд CV-инжиниринга. Устанавливает стандарты производительности inference, governance GPU-ресурсов и пайплайны деплоя моделей. Проводит архитектурные ревью инфраструктуры CV serving. Продвигает внедрение оптимизированных паттернов inference для продуктовых CV-систем. |
| Data Scientist | Обязателен | Определяет стратегию model serving для ML-команд. Устанавливает стандарты деплоя моделей, требования инфраструктуры serving и governance мониторинга. Проводит ревью архитектур serving. Продвигает внедрение лучших практик MLOps для надёжного деплоя моделей между командами. |
| LLM Engineer | Обязателен | Определяет стратегию LLM serving для организации. Устанавливает политики управления затратами inference, SLA-цели serving и governance GPU-инфраструктуры. Оценивает фреймворки serving (vLLM, TGI, TensorRT-LLM). Проводит архитектурные ревью LLM-инфраструктуры. Продвигает внедрение cost-efficient паттернов LLM serving. |
| ML Engineer | Обязателен | Определяет model serving strategy для платформы. Проектирует unified serving layer. Оптимизирует serving costs. Координирует с DevOps по infrastructure. |
| MLOps Engineer | Обязателен | Определяет стратегию model serving для MLOps-команды: стандартный стек (KServe/Seldon Core на Kubernetes), паттерны деплоя (canary, shadow, blue-green). Внедряет единый процесс выкатки моделей с обязательными проверками качества, настраивает мониторинг SLA по латентности и определяет runbook для инцидентов с inference-сервисами. |
| NLP Engineer | Обязателен | Определяет стратегию model serving для NLP-команды. Формирует стандарты deployment, SLA framework, и архитектурные решения для масштабирования NLP inference инфраструктуры. |
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Обязателен | Определяет организационную стратегию AI serving: архитектура inference-платформы, governance деплоя моделей и решения по инвестициям в AI-инфраструктуру. Оценивает build-vs-buy для инфраструктуры serving (self-hosted vs managed-сервисы). Продвигает внедрение production ML excellence для всей организации. |
| Computer Vision Engineer | Обязателен | Определяет организационную стратегию инфраструктуры serving CV-моделей: edge/cloud архитектура inference, управление парком GPU и выбор оборудования для CV-нагрузок. Оценивает новые технологии inference (custom ASIC, нейроморфные вычисления). Продвигает внедрение production CV excellence для всей организации. |
| Data Scientist | Обязателен | Определяет организационную стратегию ML serving: стандартизация inference-платформы, governance деплоя моделей и дорожная карта инвестиций в ML-инфраструктуру. Оценивает новые технологии и оборудование для serving. Продвигает внедрение лучших практик production ML для всех data science команд. |
| LLM Engineer | Обязателен | Определяет организационную стратегию LLM serving: архитектура inference-инфраструктуры, стратегия закупки GPU/TPU и governance затрат для LLM-операций. Оценивает решения build-vs-buy для LLM-инфраструктуры (self-hosted vs API-провайдеры). Продвигает внедрение эффективных практик LLM serving и формирует техническое видение AI-инфраструктуры в enterprise-масштабе. |
| ML Engineer | Обязателен | Определяет enterprise model serving strategy. Оценивает serving technologies. Проектирует multi-model serving platform. |
| MLOps Engineer | Обязателен | Формирует стратегию model serving на уровне организации: единая serving-платформа для всех типов моделей (CV, NLP, табличные), стандарты SLA. Проектирует архитектуру для масштабирования до тысяч моделей — model mesh, serverless inference, edge deployment. Определяет стратегию оптимизации стоимости GPU-инфраструктуры для inference и roadmap платформы. |
| NLP Engineer | Обязателен | Формирует enterprise-стратегию model serving для NLP-платформы. Определяет архитектуру inference инфраструктуры, стандарты оптимизации и cost management на уровне организации. |