Профиль навыка

vLLM и инференс

Этот навык определяет ожидания по ролям и уровням.

Machine Learning и AI LLM и генеративный AI

Ролей

где встречается этот навык

Грейдов

сформированная дорожка роста

Обязательных требований

ещё 5 — необязательные

Machine Learning и AI

LLM и генеративный AI

22.02.2026

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль	Обязательность	Описание
LLM Engineer		Знает основы vLLM: что такое PagedAttention, continuous batching, inference serving. Запускает vLLM сервер для inference pre-trained модели с базовой конфигурацией под руководством наставника.

Роль	Обязательность	Описание
LLM Engineer		Самостоятельно настраивает vLLM для production: tensor parallelism, quantization (AWQ/GPTQ), GPU memory management. Оптимизирует throughput через настройку batch size и scheduling параметров.

Роль	Обязательность	Описание
LLM Engineer		Проектирует production vLLM infrastructure: multi-model serving, speculative decoding, custom sampling strategies. Оптимизирует latency и throughput через advanced configuration и hardware-specific tuning.

Роль	Обязательность	Описание
LLM Engineer		Определяет vLLM deployment стандарты для LLM-команды. Формирует guidelines по конфигурации, мониторингу, capacity planning. Координирует upgrades и migration между версиями vLLM.

Роль	Обязательность	Описание
LLM Engineer		Формирует enterprise vLLM inference стратегию. Определяет подходы к multi-cluster inference, hardware planning (A100/H100/H200), cost optimization. Обеспечивает SLA для критических inference workloads.

Junior 1 требований

LLM Engineer

Знает основы vLLM: что такое PagedAttention, continuous batching, inference serving. Запускает vLLM сервер для inference pre-trained модели с базовой конфигурацией под руководством наставника.

Middle 1 требований

LLM Engineer

Самостоятельно настраивает vLLM для production: tensor parallelism, quantization (AWQ/GPTQ), GPU memory management. Оптимизирует throughput через настройку batch size и scheduling параметров.

Senior 1 требований

LLM Engineer

Проектирует production vLLM infrastructure: multi-model serving, speculative decoding, custom sampling strategies. Оптимизирует latency и throughput через advanced configuration и hardware-specific tuning.

Lead / Staff 1 требований

LLM Engineer

Определяет vLLM deployment стандарты для LLM-команды. Формирует guidelines по конфигурации, мониторингу, capacity planning. Координирует upgrades и migration между версиями vLLM.

Principal 1 требований

LLM Engineer

Формирует enterprise vLLM inference стратегию. Определяет подходы к multi-cluster inference, hardware planning (A100/H100/H200), cost optimization. Обеспечивает SLA для критических inference workloads.

Загрузка комментариев...