Профиль навыка

Оценка LLM

Бенчмарки, BLEU/ROUGE метрики, human eval, LLM-as-judge, оценка качества генерации

Machine Learning и AI LLM и генеративный AI

Ролей

2

где встречается этот навык

Грейдов

5

сформированная дорожка роста

Обязательных требований

8

ещё 2 — необязательные

Домен

Machine Learning и AI

Группа

LLM и генеративный AI

Последнее обновление

17.03.2026

Как использовать

Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.

Чего ждут на каждом уровне

Таблица показывает, как меняется глубина владения навыком от Junior до Principal.

Роль Обязательность Описание
AI Product Engineer Понимает основы Оценка LLM. Применяет базовые практики в повседневной работе. Следует рекомендациям команды.
LLM Engineer Обязателен Знает базовые метрики оценки LLM: perplexity, BLEU, ROUGE. Запускает стандартные benchmarks (MMLU, HellaSwag) под руководством наставника и интерпретирует базовые результаты.
Роль Обязательность Описание
AI Product Engineer Самостоятельно применяет Оценка LLM на практике. Понимает trade-offs различных подходов. Решает типовые задачи.
LLM Engineer Обязателен Самостоятельно проектирует evaluation pipeline: custom benchmarks, domain-specific eval sets, human evaluation protocols. Сравнивает модели по множеству метрик для принятия production-решений.
Роль Обязательность Описание
AI Product Engineer Обязателен Глубоко владеет Оценка LLM. Проектирует решения для production-систем. Оптимизирует и масштабирует. Менторит команду.
LLM Engineer Обязателен Проектирует комплексные evaluation frameworks: automated eval с LLM-as-judge, contamination detection, statistical significance testing. Разрабатывает domain-specific benchmarks для production задач.
Роль Обязательность Описание
AI Product Engineer Обязателен Определяет стратегию Оценка LLM на уровне команды/продукта. Формирует стандарты и best practices. Проводит review.
LLM Engineer Обязателен Определяет evaluation стандарты для LLM-команды. Формирует guidelines по оценке моделей, regression testing, benchmark management. Координирует human evaluation процессы и quality assurance.
Роль Обязательность Описание
AI Product Engineer Обязателен Определяет стратегию Оценка LLM на уровне организации. Формирует enterprise-подходы. Менторит leads и architects.
LLM Engineer Обязателен Формирует enterprise evaluation стратегию. Определяет подходы к continuous evaluation, model quality governance, benchmark development. Обеспечивает alignment между evaluation метриками и бизнес-целями.

Сообщество

👁 Следить ✏️ Предложить изменение Войдите, чтобы предлагать изменения
📋 Предложения
Пока нет предложений для Оценка LLM
Загрузка комментариев...