Домен
Machine Learning и AI
Профиль навыка
Бенчмарки, BLEU/ROUGE метрики, human eval, LLM-as-judge, оценка качества генерации
Ролей
2
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
8
ещё 2 — необязательные
Machine Learning и AI
LLM и генеративный AI
17.03.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Понимает основы Оценка LLM. Применяет базовые практики в повседневной работе. Следует рекомендациям команды. | |
| LLM Engineer | Обязателен | Знает базовые метрики оценки LLM: perplexity, BLEU, ROUGE. Запускает стандартные benchmarks (MMLU, HellaSwag) под руководством наставника и интерпретирует базовые результаты. |
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Самостоятельно применяет Оценка LLM на практике. Понимает trade-offs различных подходов. Решает типовые задачи. | |
| LLM Engineer | Обязателен | Самостоятельно проектирует evaluation pipeline: custom benchmarks, domain-specific eval sets, human evaluation protocols. Сравнивает модели по множеству метрик для принятия production-решений. |
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Обязателен | Глубоко владеет Оценка LLM. Проектирует решения для production-систем. Оптимизирует и масштабирует. Менторит команду. |
| LLM Engineer | Обязателен | Проектирует комплексные evaluation frameworks: automated eval с LLM-as-judge, contamination detection, statistical significance testing. Разрабатывает domain-specific benchmarks для production задач. |
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Обязателен | Определяет стратегию Оценка LLM на уровне команды/продукта. Формирует стандарты и best practices. Проводит review. |
| LLM Engineer | Обязателен | Определяет evaluation стандарты для LLM-команды. Формирует guidelines по оценке моделей, regression testing, benchmark management. Координирует human evaluation процессы и quality assurance. |
| Роль | Обязательность | Описание |
|---|---|---|
| AI Product Engineer | Обязателен | Определяет стратегию Оценка LLM на уровне организации. Формирует enterprise-подходы. Менторит leads и architects. |
| LLM Engineer | Обязателен | Формирует enterprise evaluation стратегию. Определяет подходы к continuous evaluation, model quality governance, benchmark development. Обеспечивает alignment между evaluation метриками и бизнес-целями. |