Профиль навыка

Model Serving

Triton, BentoML, Seldon: model deployment, A/B testing, canary releases

Machine Learning и AI MLOps

Ролей

7

где встречается этот навык

Грейдов

5

сформированная дорожка роста

Обязательных требований

25

ещё 10 — необязательные

Домен

Machine Learning и AI

Группа

MLOps

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль Обязательность Описание
AI Product Engineer Понимает основы model serving для AI-продуктов: REST/gRPC inference-эндпоинты, версионирование моделей для A/B-тестирования и базовые требования латенси/пропускной способности. Следует командным гайдлайнам интеграции предсказаний моделей в продуктовые фичи. Понимает различия между batch и real-time inference.
Computer Vision Engineer Понимает основы model serving для CV-систем: настройка пайплайна inference изображений/видео, аллокация GPU-ресурсов для inference и конвертация форматов моделей (ONNX, TensorRT). Следует командным практикам деплоя CV-моделей на продуктовые эндпоинты.
Data Scientist Понимает основы model serving: экспорт обученных моделей (pickle, ONNX, SavedModel), базовое создание API-обёрток с Flask/FastAPI и определение схем input/output модели. Следует командным практикам упаковки моделей и воркфлоу деплоя.
LLM Engineer Понимает основы serving LLM: настройка inference API (vLLM, TGI), конфигурация эндпоинтов prompt/completion и соображения биллинга на основе токенов. Следует командным практикам деплоя LLM включая управление контекстным окном и настройку стриминга ответов.
ML Engineer Обязателен Деплоит ML-модель как REST API через веб-фреймворк/Flask. Понимает inference pipeline: preprocessing -> prediction -> postprocessing. Использует pickle/joblib для сериализации моделей.
MLOps Engineer Понимает базовые концепции model serving: разница между batch и real-time inference, основные форматы моделей (ONNX, SavedModel, pickle). Умеет деплоить простую модель через Flask/FastAPI endpoint, загружать модель из файла и возвращать предсказания. Знает о существовании специализированных serving-систем — TFServing, Triton, Seldon.
NLP Engineer Обязателен Знает основы serving NLP-моделей: REST API endpoints, model loading, batching. Разворачивает простые NLP-модели как REST API для text classification и NER задач.
Роль Обязательность Описание
AI Product Engineer Реализует model serving для фич AI-продуктов: мульти-модельные пайплайны inference, интеграция feature store для real-time обогащения и инфраструктура A/B-тестирования для сравнения моделей. Настраивает auto-scaling на основе паттернов нагрузки inference. Реализует стратегии fallback моделей для high-availability продуктовых фич.
Computer Vision Engineer Реализует пайплайны serving CV-моделей: batch и real-time inference с GPU-оптимизацией, стратегии ансамбля моделей для улучшения точности и оптимизация пайплайна pre/post-processing. Настраивает TensorRT/ONNX Runtime для ускорения inference. Реализует кеширование моделей и стратегии прогрева для консистентной латенси.
Data Scientist Реализует решения model serving: контейнеризированный деплой моделей (Docker/K8s), мониторинг data drift и качества предсказаний и canary deployment для безопасного роллаута моделей. Использует MLflow/BentoML для упаковки и serving моделей. Реализует feature engineering в serving-пайплайне, консистентный с тренировкой.
LLM Engineer Реализует решения serving LLM: оптимизация KV-cache для пропускной способности, стратегии батчинга (continuous batching, dynamic batching) и квантизация для cost-efficient inference (GPTQ, AWQ, GGUF). Настраивает vLLM/TGI для продуктовых нагрузок. Реализует инфраструктуру стриминга ответов и мониторинг латенси на уровне токенов.
ML Engineer Обязателен Использует model serving frameworks: Triton, BentoML, Seldon. Настраивает batch и real-time inference. Оптимизирует inference latency (ONNX, model optimization). Настраивает A/B testing моделей.
MLOps Engineer Разворачивает модели в production через специализированные serving-платформы: TensorFlow Serving для TF-моделей, Triton Inference Server для multi-framework serving. Настраивает BentoML для упаковки моделей с зависимостями, реализует batch inference через Spark/Ray и конфигурирует model versioning для бесшовного обновления моделей в production.
NLP Engineer Обязателен Самостоятельно проектирует serving NLP-моделей: TorchServe, Triton Inference Server. Настраивает batching, model versioning, A/B testing. Оптимизирует latency через model optimization.
Роль Обязательность Описание
AI Product Engineer Обязателен Проектирует архитектуру model serving для AI-продуктов: оркестрация мульти-моделей с логикой маршрутизации, real-time вычисление фич для обогащения inference и cost-оптимизированный serving с многоуровневым выбором моделей. Реализует наблюдаемость serving: перцентили латенси, метрики качества предсказаний и трекинг cost-per-inference. Создаёт governance деплоя моделей для AI-продуктов. Менторит команду по паттернам production ML.
Computer Vision Engineer Обязателен Проектирует архитектуру serving CV-моделей: edge-cloud гибридный inference для latency-critical приложений, multi-GPU serving с dynamic batching и пайплайны дистилляции моделей для оптимизации деплоя. Реализует мониторинг serving: латенси inference, утилизация GPU и трекинг точности предсказаний. Создаёт референсные архитектуры деплоя CV-моделей. Менторит команду по дизайну продуктовых CV-систем.
Data Scientist Обязателен Проектирует архитектуру model serving: масштабируемые inference-платформы, интеграция реестра моделей с автоматическим деплоем и гарантии консистентности online/offline фич. Реализует продвинутый мониторинг: детекция data drift, алерты деградации производительности моделей и автоматические триггеры переобучения. Создаёт лучшие практики serving и стандарты деплоя моделей. Менторит команду по паттернам MLOps.
LLM Engineer Обязателен Проектирует архитектуру serving LLM: мульти-модельный gateway с интеллектуальной маршрутизацией, speculative decoding для оптимизации латенси и disaggregated serving (разделение prefill/decode). Реализует оптимизацию затрат: управление бюджетом токенов, слои кеширования для повторяющихся промптов и стратегии каскада моделей. Создаёт бенчмарки LLM serving и модели планирования ёмкости. Менторит команду по инфраструктуре production LLM.
ML Engineer Обязателен Проектирует model serving architecture. Оптимизирует throughput (batching, GPU scheduling). Настраивает autoscaling для ML serving. Реализует model fallback и canary deployment.
MLOps Engineer Обязателен Проектирует архитектуру model serving для сложных сценариев: multi-model serving с динамической загрузкой, ensemble inference через Triton, A/B-тестирование моделей. Оптимизирует latency через model optimization (TensorRT, ONNX Runtime), реализует GPU-sharing для эффективной утилизации ресурсов и проектирует автоскейлинг на основе inference-метрик.
NLP Engineer Обязателен Проектирует high-performance serving инфраструктуру для NLP-моделей. Оптимизирует через quantization, distillation, model parallelism. Обеспечивает SLA по latency и throughput.
Роль Обязательность Описание
AI Product Engineer Обязателен Определяет стратегию model serving для AI-продуктовой платформы. Устанавливает SLA-цели inference, фреймворки управления затратами и governance деплоя моделей. Проводит архитектурные ревью инфраструктуры AI serving. Продвигает внедрение эффективных паттернов model serving между продуктовыми командами.
Computer Vision Engineer Обязателен Определяет стратегию model serving для команд CV-инжиниринга. Устанавливает стандарты производительности inference, governance GPU-ресурсов и пайплайны деплоя моделей. Проводит архитектурные ревью инфраструктуры CV serving. Продвигает внедрение оптимизированных паттернов inference для продуктовых CV-систем.
Data Scientist Обязателен Определяет стратегию model serving для ML-команд. Устанавливает стандарты деплоя моделей, требования инфраструктуры serving и governance мониторинга. Проводит ревью архитектур serving. Продвигает внедрение лучших практик MLOps для надёжного деплоя моделей между командами.
LLM Engineer Обязателен Определяет стратегию LLM serving для организации. Устанавливает политики управления затратами inference, SLA-цели serving и governance GPU-инфраструктуры. Оценивает фреймворки serving (vLLM, TGI, TensorRT-LLM). Проводит архитектурные ревью LLM-инфраструктуры. Продвигает внедрение cost-efficient паттернов LLM serving.
ML Engineer Обязателен Определяет model serving strategy для платформы. Проектирует unified serving layer. Оптимизирует serving costs. Координирует с DevOps по infrastructure.
MLOps Engineer Обязателен Определяет стратегию model serving для MLOps-команды: стандартный стек (KServe/Seldon Core на Kubernetes), паттерны деплоя (canary, shadow, blue-green). Внедряет единый процесс выкатки моделей с обязательными проверками качества, настраивает мониторинг SLA по латентности и определяет runbook для инцидентов с inference-сервисами.
NLP Engineer Обязателен Определяет стратегию model serving для NLP-команды. Формирует стандарты deployment, SLA framework, и архитектурные решения для масштабирования NLP inference инфраструктуры.
Роль Обязательность Описание
AI Product Engineer Обязателен Определяет организационную стратегию AI serving: архитектура inference-платформы, governance деплоя моделей и решения по инвестициям в AI-инфраструктуру. Оценивает build-vs-buy для инфраструктуры serving (self-hosted vs managed-сервисы). Продвигает внедрение production ML excellence для всей организации.
Computer Vision Engineer Обязателен Определяет организационную стратегию инфраструктуры serving CV-моделей: edge/cloud архитектура inference, управление парком GPU и выбор оборудования для CV-нагрузок. Оценивает новые технологии inference (custom ASIC, нейроморфные вычисления). Продвигает внедрение production CV excellence для всей организации.
Data Scientist Обязателен Определяет организационную стратегию ML serving: стандартизация inference-платформы, governance деплоя моделей и дорожная карта инвестиций в ML-инфраструктуру. Оценивает новые технологии и оборудование для serving. Продвигает внедрение лучших практик production ML для всех data science команд.
LLM Engineer Обязателен Определяет организационную стратегию LLM serving: архитектура inference-инфраструктуры, стратегия закупки GPU/TPU и governance затрат для LLM-операций. Оценивает решения build-vs-buy для LLM-инфраструктуры (self-hosted vs API-провайдеры). Продвигает внедрение эффективных практик LLM serving и формирует техническое видение AI-инфраструктуры в enterprise-масштабе.
ML Engineer Обязателен Определяет enterprise model serving strategy. Оценивает serving technologies. Проектирует multi-model serving platform.
MLOps Engineer Обязателен Формирует стратегию model serving на уровне организации: единая serving-платформа для всех типов моделей (CV, NLP, табличные), стандарты SLA. Проектирует архитектуру для масштабирования до тысяч моделей — model mesh, serverless inference, edge deployment. Определяет стратегию оптимизации стоимости GPU-инфраструктуры для inference и roadmap платформы.
NLP Engineer Обязателен Формирует enterprise-стратегию model serving для NLP-платформы. Определяет архитектуру inference инфраструктуры, стандарты оптимизации и cost management на уровне организации.

Сообщество

👁 Следить ✏️ Предложить изменение Войдите, чтобы предлагать изменения
📋 Предложения
Пока нет предложений для Model Serving
Загрузка комментариев...