Профиль навыка

Model Serving

Triton, BentoML, Seldon: model deployment, A/B testing, canary releases

Machine Learning и AI MLOps

Ролей

где встречается этот навык

Грейдов

сформированная дорожка роста

Обязательных требований

ещё 10 — необязательные

Домен

Machine Learning и AI

Группа

MLOps

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль	Обязательность	Описание
AI Product Engineer		Понимает основы model serving для AI-продуктов: REST/gRPC inference-эндпоинты, версионирование моделей для A/B-тестирования и базовые требования латенси/пропускной способности. Следует командным гайдлайнам интеграции предсказаний моделей в продуктовые фичи. Понимает различия между batch и real-time inference.
Computer Vision Engineer		Понимает основы model serving для CV-систем: настройка пайплайна inference изображений/видео, аллокация GPU-ресурсов для inference и конвертация форматов моделей (ONNX, TensorRT). Следует командным практикам деплоя CV-моделей на продуктовые эндпоинты.
Data Scientist		Понимает основы model serving: экспорт обученных моделей (pickle, ONNX, SavedModel), базовое создание API-обёрток с Flask/FastAPI и определение схем input/output модели. Следует командным практикам упаковки моделей и воркфлоу деплоя.
LLM Engineer		Понимает основы serving LLM: настройка inference API (vLLM, TGI), конфигурация эндпоинтов prompt/completion и соображения биллинга на основе токенов. Следует командным практикам деплоя LLM включая управление контекстным окном и настройку стриминга ответов.
ML Engineer	Обязателен	Деплоит ML-модель как REST API через веб-фреймворк/Flask. Понимает inference pipeline: preprocessing -> prediction -> postprocessing. Использует pickle/joblib для сериализации моделей.
MLOps Engineer		Понимает базовые концепции model serving: разница между batch и real-time inference, основные форматы моделей (ONNX, SavedModel, pickle). Умеет деплоить простую модель через Flask/FastAPI endpoint, загружать модель из файла и возвращать предсказания. Знает о существовании специализированных serving-систем — TFServing, Triton, Seldon.
NLP Engineer	Обязателен	Знает основы serving NLP-моделей: REST API endpoints, model loading, batching. Разворачивает простые NLP-модели как REST API для text classification и NER задач.

Роль	Обязательность	Описание
AI Product Engineer		Реализует model serving для фич AI-продуктов: мульти-модельные пайплайны inference, интеграция feature store для real-time обогащения и инфраструктура A/B-тестирования для сравнения моделей. Настраивает auto-scaling на основе паттернов нагрузки inference. Реализует стратегии fallback моделей для high-availability продуктовых фич.
Computer Vision Engineer		Реализует пайплайны serving CV-моделей: batch и real-time inference с GPU-оптимизацией, стратегии ансамбля моделей для улучшения точности и оптимизация пайплайна pre/post-processing. Настраивает TensorRT/ONNX Runtime для ускорения inference. Реализует кеширование моделей и стратегии прогрева для консистентной латенси.
Data Scientist		Реализует решения model serving: контейнеризированный деплой моделей (Docker/K8s), мониторинг data drift и качества предсказаний и canary deployment для безопасного роллаута моделей. Использует MLflow/BentoML для упаковки и serving моделей. Реализует feature engineering в serving-пайплайне, консистентный с тренировкой.
LLM Engineer		Реализует решения serving LLM: оптимизация KV-cache для пропускной способности, стратегии батчинга (continuous batching, dynamic batching) и квантизация для cost-efficient inference (GPTQ, AWQ, GGUF). Настраивает vLLM/TGI для продуктовых нагрузок. Реализует инфраструктуру стриминга ответов и мониторинг латенси на уровне токенов.
ML Engineer	Обязателен	Использует model serving frameworks: Triton, BentoML, Seldon. Настраивает batch и real-time inference. Оптимизирует inference latency (ONNX, model optimization). Настраивает A/B testing моделей.
MLOps Engineer		Разворачивает модели в production через специализированные serving-платформы: TensorFlow Serving для TF-моделей, Triton Inference Server для multi-framework serving. Настраивает BentoML для упаковки моделей с зависимостями, реализует batch inference через Spark/Ray и конфигурирует model versioning для бесшовного обновления моделей в production.
NLP Engineer	Обязателен	Самостоятельно проектирует serving NLP-моделей: TorchServe, Triton Inference Server. Настраивает batching, model versioning, A/B testing. Оптимизирует latency через model optimization.

Роль	Обязательность	Описание
AI Product Engineer	Обязателен	Проектирует архитектуру model serving для AI-продуктов: оркестрация мульти-моделей с логикой маршрутизации, real-time вычисление фич для обогащения inference и cost-оптимизированный serving с многоуровневым выбором моделей. Реализует наблюдаемость serving: перцентили латенси, метрики качества предсказаний и трекинг cost-per-inference. Создаёт governance деплоя моделей для AI-продуктов. Менторит команду по паттернам production ML.
Computer Vision Engineer	Обязателен	Проектирует архитектуру serving CV-моделей: edge-cloud гибридный inference для latency-critical приложений, multi-GPU serving с dynamic batching и пайплайны дистилляции моделей для оптимизации деплоя. Реализует мониторинг serving: латенси inference, утилизация GPU и трекинг точности предсказаний. Создаёт референсные архитектуры деплоя CV-моделей. Менторит команду по дизайну продуктовых CV-систем.
Data Scientist	Обязателен	Проектирует архитектуру model serving: масштабируемые inference-платформы, интеграция реестра моделей с автоматическим деплоем и гарантии консистентности online/offline фич. Реализует продвинутый мониторинг: детекция data drift, алерты деградации производительности моделей и автоматические триггеры переобучения. Создаёт лучшие практики serving и стандарты деплоя моделей. Менторит команду по паттернам MLOps.
LLM Engineer	Обязателен	Проектирует архитектуру serving LLM: мульти-модельный gateway с интеллектуальной маршрутизацией, speculative decoding для оптимизации латенси и disaggregated serving (разделение prefill/decode). Реализует оптимизацию затрат: управление бюджетом токенов, слои кеширования для повторяющихся промптов и стратегии каскада моделей. Создаёт бенчмарки LLM serving и модели планирования ёмкости. Менторит команду по инфраструктуре production LLM.
ML Engineer	Обязателен	Проектирует model serving architecture. Оптимизирует throughput (batching, GPU scheduling). Настраивает autoscaling для ML serving. Реализует model fallback и canary deployment.
MLOps Engineer	Обязателен	Проектирует архитектуру model serving для сложных сценариев: multi-model serving с динамической загрузкой, ensemble inference через Triton, A/B-тестирование моделей. Оптимизирует latency через model optimization (TensorRT, ONNX Runtime), реализует GPU-sharing для эффективной утилизации ресурсов и проектирует автоскейлинг на основе inference-метрик.
NLP Engineer	Обязателен	Проектирует high-performance serving инфраструктуру для NLP-моделей. Оптимизирует через quantization, distillation, model parallelism. Обеспечивает SLA по latency и throughput.

Роль	Обязательность	Описание
AI Product Engineer	Обязателен	Определяет стратегию model serving для AI-продуктовой платформы. Устанавливает SLA-цели inference, фреймворки управления затратами и governance деплоя моделей. Проводит архитектурные ревью инфраструктуры AI serving. Продвигает внедрение эффективных паттернов model serving между продуктовыми командами.
Computer Vision Engineer	Обязателен	Определяет стратегию model serving для команд CV-инжиниринга. Устанавливает стандарты производительности inference, governance GPU-ресурсов и пайплайны деплоя моделей. Проводит архитектурные ревью инфраструктуры CV serving. Продвигает внедрение оптимизированных паттернов inference для продуктовых CV-систем.
Data Scientist	Обязателен	Определяет стратегию model serving для ML-команд. Устанавливает стандарты деплоя моделей, требования инфраструктуры serving и governance мониторинга. Проводит ревью архитектур serving. Продвигает внедрение лучших практик MLOps для надёжного деплоя моделей между командами.
LLM Engineer	Обязателен	Определяет стратегию LLM serving для организации. Устанавливает политики управления затратами inference, SLA-цели serving и governance GPU-инфраструктуры. Оценивает фреймворки serving (vLLM, TGI, TensorRT-LLM). Проводит архитектурные ревью LLM-инфраструктуры. Продвигает внедрение cost-efficient паттернов LLM serving.
ML Engineer	Обязателен	Определяет model serving strategy для платформы. Проектирует unified serving layer. Оптимизирует serving costs. Координирует с DevOps по infrastructure.
MLOps Engineer	Обязателен	Определяет стратегию model serving для MLOps-команды: стандартный стек (KServe/Seldon Core на Kubernetes), паттерны деплоя (canary, shadow, blue-green). Внедряет единый процесс выкатки моделей с обязательными проверками качества, настраивает мониторинг SLA по латентности и определяет runbook для инцидентов с inference-сервисами.
NLP Engineer	Обязателен	Определяет стратегию model serving для NLP-команды. Формирует стандарты deployment, SLA framework, и архитектурные решения для масштабирования NLP inference инфраструктуры.

Роль	Обязательность	Описание
AI Product Engineer	Обязателен	Определяет организационную стратегию AI serving: архитектура inference-платформы, governance деплоя моделей и решения по инвестициям в AI-инфраструктуру. Оценивает build-vs-buy для инфраструктуры serving (self-hosted vs managed-сервисы). Продвигает внедрение production ML excellence для всей организации.
Computer Vision Engineer	Обязателен	Определяет организационную стратегию инфраструктуры serving CV-моделей: edge/cloud архитектура inference, управление парком GPU и выбор оборудования для CV-нагрузок. Оценивает новые технологии inference (custom ASIC, нейроморфные вычисления). Продвигает внедрение production CV excellence для всей организации.
Data Scientist	Обязателен	Определяет организационную стратегию ML serving: стандартизация inference-платформы, governance деплоя моделей и дорожная карта инвестиций в ML-инфраструктуру. Оценивает новые технологии и оборудование для serving. Продвигает внедрение лучших практик production ML для всех data science команд.
LLM Engineer	Обязателен	Определяет организационную стратегию LLM serving: архитектура inference-инфраструктуры, стратегия закупки GPU/TPU и governance затрат для LLM-операций. Оценивает решения build-vs-buy для LLM-инфраструктуры (self-hosted vs API-провайдеры). Продвигает внедрение эффективных практик LLM serving и формирует техническое видение AI-инфраструктуры в enterprise-масштабе.
ML Engineer	Обязателен	Определяет enterprise model serving strategy. Оценивает serving technologies. Проектирует multi-model serving platform.
MLOps Engineer	Обязателен	Формирует стратегию model serving на уровне организации: единая serving-платформа для всех типов моделей (CV, NLP, табличные), стандарты SLA. Проектирует архитектуру для масштабирования до тысяч моделей — model mesh, serverless inference, edge deployment. Определяет стратегию оптимизации стоимости GPU-инфраструктуры для inference и roadmap платформы.
NLP Engineer	Обязателен	Формирует enterprise-стратегию model serving для NLP-платформы. Определяет архитектуру inference инфраструктуры, стандарты оптимизации и cost management на уровне организации.

Junior 7 требований

AI Product Engineer

Понимает основы model serving для AI-продуктов: REST/gRPC inference-эндпоинты, версионирование моделей для A/B-тестирования и базовые требования латенси/пропускной способности. Следует командным гайдлайнам интеграции предсказаний моделей в продуктовые фичи. Понимает различия между batch и real-time inference.
Computer Vision Engineer

Понимает основы model serving для CV-систем: настройка пайплайна inference изображений/видео, аллокация GPU-ресурсов для inference и конвертация форматов моделей (ONNX, TensorRT). Следует командным практикам деплоя CV-моделей на продуктовые эндпоинты.
Data Scientist

Понимает основы model serving: экспорт обученных моделей (pickle, ONNX, SavedModel), базовое создание API-обёрток с Flask/FastAPI и определение схем input/output модели. Следует командным практикам упаковки моделей и воркфлоу деплоя.

LLM Engineer

Понимает основы serving LLM: настройка inference API (vLLM, TGI), конфигурация эндпоинтов prompt/completion и соображения биллинга на основе токенов. Следует командным практикам деплоя LLM включая управление контекстным окном и настройку стриминга ответов.
ML Engineer
Обязателен

Деплоит ML-модель как REST API через веб-фреймворк/Flask. Понимает inference pipeline: preprocessing -> prediction -> postprocessing. Использует pickle/joblib для сериализации моделей.
MLOps Engineer

Понимает базовые концепции model serving: разница между batch и real-time inference, основные форматы моделей (ONNX, SavedModel, pickle). Умеет деплоить простую модель через Flask/FastAPI endpoint, загружать модель из файла и возвращать предсказания. Знает о существовании специализированных serving-систем — TFServing, Triton, Seldon.
NLP Engineer
Обязателен

Знает основы serving NLP-моделей: REST API endpoints, model loading, batching. Разворачивает простые NLP-модели как REST API для text classification и NER задач.

Middle 7 требований

AI Product Engineer

Реализует model serving для фич AI-продуктов: мульти-модельные пайплайны inference, интеграция feature store для real-time обогащения и инфраструктура A/B-тестирования для сравнения моделей. Настраивает auto-scaling на основе паттернов нагрузки inference. Реализует стратегии fallback моделей для high-availability продуктовых фич.
Computer Vision Engineer

Реализует пайплайны serving CV-моделей: batch и real-time inference с GPU-оптимизацией, стратегии ансамбля моделей для улучшения точности и оптимизация пайплайна pre/post-processing. Настраивает TensorRT/ONNX Runtime для ускорения inference. Реализует кеширование моделей и стратегии прогрева для консистентной латенси.
Data Scientist

Реализует решения model serving: контейнеризированный деплой моделей (Docker/K8s), мониторинг data drift и качества предсказаний и canary deployment для безопасного роллаута моделей. Использует MLflow/BentoML для упаковки и serving моделей. Реализует feature engineering в serving-пайплайне, консистентный с тренировкой.

LLM Engineer

Реализует решения serving LLM: оптимизация KV-cache для пропускной способности, стратегии батчинга (continuous batching, dynamic batching) и квантизация для cost-efficient inference (GPTQ, AWQ, GGUF). Настраивает vLLM/TGI для продуктовых нагрузок. Реализует инфраструктуру стриминга ответов и мониторинг латенси на уровне токенов.
ML Engineer
Обязателен

Использует model serving frameworks: Triton, BentoML, Seldon. Настраивает batch и real-time inference. Оптимизирует inference latency (ONNX, model optimization). Настраивает A/B testing моделей.
MLOps Engineer

Разворачивает модели в production через специализированные serving-платформы: TensorFlow Serving для TF-моделей, Triton Inference Server для multi-framework serving. Настраивает BentoML для упаковки моделей с зависимостями, реализует batch inference через Spark/Ray и конфигурирует model versioning для бесшовного обновления моделей в production.
NLP Engineer
Обязателен

Самостоятельно проектирует serving NLP-моделей: TorchServe, Triton Inference Server. Настраивает batching, model versioning, A/B testing. Оптимизирует latency через model optimization.

Senior 7 требований

AI Product Engineer
Обязателен

Проектирует архитектуру model serving для AI-продуктов: оркестрация мульти-моделей с логикой маршрутизации, real-time вычисление фич для обогащения inference и cost-оптимизированный serving с многоуровневым выбором моделей. Реализует наблюдаемость serving: перцентили латенси, метрики качества предсказаний и трекинг cost-per-inference. Создаёт governance деплоя моделей для AI-продуктов. Менторит команду по паттернам production ML.
Computer Vision Engineer
Обязателен

Проектирует архитектуру serving CV-моделей: edge-cloud гибридный inference для latency-critical приложений, multi-GPU serving с dynamic batching и пайплайны дистилляции моделей для оптимизации деплоя. Реализует мониторинг serving: латенси inference, утилизация GPU и трекинг точности предсказаний. Создаёт референсные архитектуры деплоя CV-моделей. Менторит команду по дизайну продуктовых CV-систем.
Data Scientist
Обязателен

Проектирует архитектуру model serving: масштабируемые inference-платформы, интеграция реестра моделей с автоматическим деплоем и гарантии консистентности online/offline фич. Реализует продвинутый мониторинг: детекция data drift, алерты деградации производительности моделей и автоматические триггеры переобучения. Создаёт лучшие практики serving и стандарты деплоя моделей. Менторит команду по паттернам MLOps.

LLM Engineer
Обязателен

Проектирует архитектуру serving LLM: мульти-модельный gateway с интеллектуальной маршрутизацией, speculative decoding для оптимизации латенси и disaggregated serving (разделение prefill/decode). Реализует оптимизацию затрат: управление бюджетом токенов, слои кеширования для повторяющихся промптов и стратегии каскада моделей. Создаёт бенчмарки LLM serving и модели планирования ёмкости. Менторит команду по инфраструктуре production LLM.
ML Engineer
Обязателен

Проектирует model serving architecture. Оптимизирует throughput (batching, GPU scheduling). Настраивает autoscaling для ML serving. Реализует model fallback и canary deployment.
MLOps Engineer
Обязателен

Проектирует архитектуру model serving для сложных сценариев: multi-model serving с динамической загрузкой, ensemble inference через Triton, A/B-тестирование моделей. Оптимизирует latency через model optimization (TensorRT, ONNX Runtime), реализует GPU-sharing для эффективной утилизации ресурсов и проектирует автоскейлинг на основе inference-метрик.
NLP Engineer
Обязателен

Проектирует high-performance serving инфраструктуру для NLP-моделей. Оптимизирует через quantization, distillation, model parallelism. Обеспечивает SLA по latency и throughput.

Lead / Staff 7 требований

AI Product Engineer
Обязателен

Определяет стратегию model serving для AI-продуктовой платформы. Устанавливает SLA-цели inference, фреймворки управления затратами и governance деплоя моделей. Проводит архитектурные ревью инфраструктуры AI serving. Продвигает внедрение эффективных паттернов model serving между продуктовыми командами.
Computer Vision Engineer
Обязателен

Определяет стратегию model serving для команд CV-инжиниринга. Устанавливает стандарты производительности inference, governance GPU-ресурсов и пайплайны деплоя моделей. Проводит архитектурные ревью инфраструктуры CV serving. Продвигает внедрение оптимизированных паттернов inference для продуктовых CV-систем.
Data Scientist
Обязателен

Определяет стратегию model serving для ML-команд. Устанавливает стандарты деплоя моделей, требования инфраструктуры serving и governance мониторинга. Проводит ревью архитектур serving. Продвигает внедрение лучших практик MLOps для надёжного деплоя моделей между командами.

LLM Engineer
Обязателен

Определяет стратегию LLM serving для организации. Устанавливает политики управления затратами inference, SLA-цели serving и governance GPU-инфраструктуры. Оценивает фреймворки serving (vLLM, TGI, TensorRT-LLM). Проводит архитектурные ревью LLM-инфраструктуры. Продвигает внедрение cost-efficient паттернов LLM serving.
ML Engineer
Обязателен

Определяет model serving strategy для платформы. Проектирует unified serving layer. Оптимизирует serving costs. Координирует с DevOps по infrastructure.
MLOps Engineer
Обязателен

Определяет стратегию model serving для MLOps-команды: стандартный стек (KServe/Seldon Core на Kubernetes), паттерны деплоя (canary, shadow, blue-green). Внедряет единый процесс выкатки моделей с обязательными проверками качества, настраивает мониторинг SLA по латентности и определяет runbook для инцидентов с inference-сервисами.
NLP Engineer
Обязателен

Определяет стратегию model serving для NLP-команды. Формирует стандарты deployment, SLA framework, и архитектурные решения для масштабирования NLP inference инфраструктуры.

Principal 7 требований

AI Product Engineer
Обязателен

Определяет организационную стратегию AI serving: архитектура inference-платформы, governance деплоя моделей и решения по инвестициям в AI-инфраструктуру. Оценивает build-vs-buy для инфраструктуры serving (self-hosted vs managed-сервисы). Продвигает внедрение production ML excellence для всей организации.
Computer Vision Engineer
Обязателен

Определяет организационную стратегию инфраструктуры serving CV-моделей: edge/cloud архитектура inference, управление парком GPU и выбор оборудования для CV-нагрузок. Оценивает новые технологии inference (custom ASIC, нейроморфные вычисления). Продвигает внедрение production CV excellence для всей организации.
Data Scientist
Обязателен

Определяет организационную стратегию ML serving: стандартизация inference-платформы, governance деплоя моделей и дорожная карта инвестиций в ML-инфраструктуру. Оценивает новые технологии и оборудование для serving. Продвигает внедрение лучших практик production ML для всех data science команд.

LLM Engineer
Обязателен

Определяет организационную стратегию LLM serving: архитектура inference-инфраструктуры, стратегия закупки GPU/TPU и governance затрат для LLM-операций. Оценивает решения build-vs-buy для LLM-инфраструктуры (self-hosted vs API-провайдеры). Продвигает внедрение эффективных практик LLM serving и формирует техническое видение AI-инфраструктуры в enterprise-масштабе.
ML Engineer
Обязателен

Определяет enterprise model serving strategy. Оценивает serving technologies. Проектирует multi-model serving platform.
MLOps Engineer
Обязателен

Формирует стратегию model serving на уровне организации: единая serving-платформа для всех типов моделей (CV, NLP, табличные), стандарты SLA. Проектирует архитектуру для масштабирования до тысяч моделей — model mesh, serverless inference, edge deployment. Определяет стратегию оптимизации стоимости GPU-инфраструктуры для inference и roadmap платформы.
NLP Engineer
Обязателен

Формирует enterprise-стратегию model serving для NLP-платформы. Определяет архитектуру inference инфраструктуры, стандарты оптимизации и cost management на уровне организации.

Сообщество

👁 Следить ✏️ Предложить изменение

Загрузка комментариев...